Apunte completo

March 23, 2018 | Author: Eduardo Vidal Cid | Category: Random Variable, Probability Density Function, Probability, Probability Distribution, Axiom


Comments



Description

FACULTAD DE INGENIERÍADEPARTAMENTO DE CIENCIAS MATEMÁTICAS Y FÍSICAS ÁREA ESTADÍSTICA PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES Prof. Juan Moncada Herrera Segundo semestre de 2008 PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 2 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 3 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco INDICE DE CONTENIDOS INTRODUCCIÓN 4 Capítulo 1. CONCEPTOS BÁSICOS DE PROBABILIDADES 1.1. PRELIMINARES................................................................................................................... 5 1.2. CONCEPTOS DE PROBABILIDAD.................................................................................... 8 1.3. EJERCICIOS Y PROBLEMAS............................................................................................. 10 Capítulo 2. VARIABLES ALEATORIAS Y DISTRIBUCIONES DE PROBABILIDADES 2.1. VARIABLES ALEATORIAS................................................................................................ 14 2.2. DISTRIBUCIONES DE PROBABILIDADES...................................................................... 15 2.3. FUNCIONES DE VARIABLES ALEATORIAS .................................................................. 18 2.4. MEDIDAS NUMÉRICAS ASOCIADAS A UNA VARIABLE ALEATORIA..................... 19 2.5. EJERCICIOS Y PROBLEMAS............................................................................................. 23 Capítulo 3. ALGUNOS MODELOS DISCRETOS DE PROBABILIDADES 3.1. ENSAYOS BERNOULLI...................................................................................................... 25 3.2. LA DISTRIBUCIÓN BINOMIAL......................................................................................... 26 3.3. LA DISTRIBUCIÓN DE POISSON...................................................................................... 27 3.4. LA DISTRIBUCIÓN HIPERGEOMÉTRICA....................................................................... 28 3.5. EJERCICIOS Y PROBLEMAS............................................................................................. 29 Capítulo 4. ALGUNOS MODELOS CONTINUOS DE PROBABILIDADES 4.1. LA DISTRIBUCIÓN UNIFORME........................................................................................ 31 4.2. LA DISTRIBUCIÓN NORMAL............................................................................................ 32 4.3. LA DISTRIBUCIÓN EXPONENCIAL................................................................................. 35 4.4. LA DISTRIBUCIÓN GAMMA............................................................................................. 35 4.5. LA DISTRIBUCIÓN DE WEIBULL..................................................................................... 36 4.6. LA DISTRIBUCIÓN JI–CUADRADO................................................................................. 37 4.7. LA DISTRIBUCIÓN T–STUDENT...................................................................................... 38 4.8. LA DISTRIBUCIÓN F–FISHER........................................................................................... 39 4.9. EJERCICIOS Y PROBLEMAS............................................................................................. 40 ANEXOS A. TEMAS COMPLEMENTARIOS ........................................................................................ 41 A.1. ESPACIOS MUESTRALES FINITOS ........................................................................ 41 A.2. VECTORES ALEATORIOS ........................................................................................ 42 A.3. LA FUNCIÓN GAMMA ............................................................................................. 43 B. RESUMEN DE LAS PRINCIPALES DISTRIBUCIONES DISCRETAS ........................... 45 C. RESUMEN DE LAS PRINCIPALES DISTRIBUCIONES CONTINUAS .......................... 46 D. PROBABILIDADES ACUMULADAS DE LA NORMAL ESTÁNDAR ........................... 47 E. SUGERENCIAS BIBLIOGRÁFICAS .................................................................................. 48 PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 4 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco INTRODUCCIÓN INTRODUCCIÓN INTRODUCCIÓN INTRODUCCIÓN La “incertidumbre” que se tiene frente a gran parte de los hechos que nos ocurren diariamente, en variados ámbitos de nuestra vida, nos ha llevado a estudiar este fenómeno en busca de afirmaciones precisas sobre la naturaleza de este entorno incierto. Para ello, es necesario desarrollar un lenguaje específico que nos permita comunicarnos con estos hechos. Así, es posible pensar en la “Probabilidad” como el lenguaje a través del cual es posible hablar de incertidumbre. Esta Primera Unidad Temática, contiene los principales elementos conceptuales y prácticos asociados a este lenguaje de las probabilidades, así como también a su “comportamiento” en este entorno incierto, llamado distribución. A lo largo de esta unidad, el lector encontrará conceptos y aplicaciones que le permitirán formarse una idea de su importancia, tanto formal como práctica. Para facilitar la consecución de los objetivos de esta unidad la hemos estructurado en cuatro capítulos, en cada uno de ellos encontrarás la presentación de los conceptos particulares que lo componen, junto con las aplicaciones necesarias para su comprensión, hacia el final un módulo de ejercicios y problemas te permitirá practicar lo aprendido para finalmente, a través de un instrumento de evaluación, asegurar el logro de los objetivos propuestos. Ante la posible necesidad de conocer algunos temas afines a esta unidad, se incorpora un módulo de anexos con temas complementarios, resúmenes de las principales distribuciones, tanto discretas como continuas, para finalizar con la entrega de sugerencias bibliográficas en caso de requerir una complementación para los temas tratados. PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 5 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Capítulo 1 CONCEPTOS BÁSICOS DE PROBABILIDADES Objetivos del capítulo: 1. Reconocer y aplicar correctamente el concepto de probabilidad. 2. Evaluar probabilidades de ciertos eventos. 3. Valorar la importancia de las probabilidades en el contexto científico. Jacob Bernoulli (1654 – 1705), Abraham de Moivre (1667 – 1754), el reverendo Thomas Bayes (1702 – 1761) y Joseph Lagrange (1736 – 1813) desarrollaron fórmulas y técnicas para el cálculo de la probabilidad. En el siglo XIX, Pierre Simon, marqués de Laplace (1749 – 1827), unificó todas estas primeras ideas y compiló la primera teoría general de probabilidades, la cual fue aplicada con éxito en las mesas de juego, y en lo que es más importante: el estudio de problemas sociales y económicos. La industria de los seguros, que surgió en este siglo, requería un conocimiento preciso acerca de los riesgos de pérdida, con el fin de calcular las primas. Medio siglo más tarde, muchos centros de aprendizaje estudiaban la “probabilidad” como una herramienta para el entendimiento de los fenómenos sociales. En la actualidad, la teoría matemática de la probabilidad es la base de las aplicaciones estadísticas tanto en investigaciones sociales como en la toma de decisiones y una indispensable herramienta de apoyo al desarrollo y trabajo científicos. Uno de los aspectos más relevantes en el proceso de definición o perfeccionamiento de métodos, es el relacionado con la fundamentación lógica de cada elemento que constituye el “Universo de Trabajo”. Esta etapa, en el caso de las Probabilidades, se encuentra superada desde hace mucho tiempo, y lo que aquí se presenta es sólo un resumen de los elementos principales de esta fundamentación. En este sentido presentaremos dos enfoques muy utilizados en la presentación del concepto de Probablidad, aunque se enunciarán otros. Uno de ellos está basado en lo que se conoce como enfoque clásico, y el otro está basado en lo que se conoce como desarrollo axiomático. 1.1. PRELIMINARES 1.1. PRELIMINARES 1.1. PRELIMINARES 1.1. PRELIMINARES En un principio el desarrollo de las Probabilidades estuvo directamente relacionado con juegos de azar. Este es el principio fundamental de la Probabilidad (el azar). Por esta razón los ejemplos iniciales clásicos para la introducción al concepto se encuentran, precisamente, en juegos de dados, lanzamiento de una moneda, diversas loterías, etc; teniendo todos estos temas algo en común: “el azar”. A menudo se le conoce también con el nombre de probabilidad a priori, debido a que, si se siguen utilizando ejemplos previsibles como: monedas, dados, naipes, etc, es posible establecer las respuestas de antemano, es decir a priori, sin necesidad de efectuar el experimento. Para el desarrollo de estas ideas se requiere la definición de algunos conceptos básicos relacionados: Definición 1.1. Un experimento es cualquier acción que implica o determina algún resultado. Se denotará con la letra griega ξ (epsilon). Definición 1.2. Al conjunto de todos los resultados posibles de un experimento se le denomina espacio muestral. Se le simbolizará por la letra griega Ω (omega), o bien simplemente por la letra S. Es de concenso general que un espacio muestral esté constituído por elementos singulares o fundamentales, en el sentido de PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 6 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco ser “irreducibles”, es decir, que no sean una composición de, a su vez, otros elementos simples. Cada una de estas partes o componentes del espacio muestral se llama punto muestral. Un espacio muestral puede ser discreto o continuo. Es discreto si es un conjunto finito o infinito numerable. Se dice que es continuo si es un conjunto formado por puntos muestrales que son continuidad (intervalos reales, por ejemplo). Por ejemplo, si un experimento consiste en lanzar una moneda y registrar lo que muestra la parte superior, entonces este experimento tiene un espacio muestral finito, conformado por los elementos fundamentales CARA y SELLO. Por lo tanto es discreto. Lo mismo ocurriría si el experimento consiste en lanzar la moneda y registrar el número de lanzamientos hasta que aparezca la primera CARA. En este caso, el espacio muestral es {1, 2, 3, ...}; puede haber infinitos lanzamientos (nunca aparecerá una CARA). Este es un espacio muestral infinito numerable (contable). Ahora, si el experimento consiste en encender una ampolleta y registrar el tiempo de funcionamiento, entonces los resultados observados son intervalos (reales) de tiempo que, como es sabido, constituyen un infinito no numerable. En este último caso, el espacio muestral es continuo. Definición 1.3. Un evento es cualquier “parte” o subconjunto de un espacio muestral. Para su denominación se utilizarán las letras mayúsculas de nuestro alfabeto: A, B, C, ..., Z. Puede observarse que a cualquier evento se le puede asignar un conjuto de puntos muestrales, que son un subconjunto de un espacio muestral, pero el recíproco de esta afirmación no necesariamente es verdad. En el caso de espacios muestrales discretos, todos los subconjuntos son eventos, pero en el caso de espacios continuos es posible encontrar puntos muestrales incompatibles con la relación evento–conjunto. Sobre estos aspectos se recomiendan lecturas avanzadas sobre Teoría de Probabilidades, tema que, debe dejarse claro, está muy lejos de los objetivos de estas notas. En los comentarios subsiguientes a la definición de evento, ha quedado clara la forma de relacionar eventos con subconjuntos, y los cuidados que se deben tener al definir las componentes de un experimento. En este contexto, y siempre resguardando las debidas diferencias entre un espacio de trabajo y otro, todas las operaciones definidas en la Teoría de Conjuntos son también “aplicables” a los eventos. Por ejemplo, cuando se habla de la probabilidad de que en un día dado llueva, lo que se evalúa es la probabilidad de un día lluvioso particular. En este caso el evento es “día lluvioso”, que no parece, al menos en una primera impresión, un conjunto, de la forma en que tradicionalmente se entiende conjunto. No obstante, asociado a cada evento o suceso existe un conjunto. En el ejemplo, el conjunto asociado es el de todos los días lluviosos. Por ello es que, en general, a cada suceso o evento se asocia un conjunto y se puede, por lo tanto, hacer corresponder aquellas definiciones y propiedades. Recordamos las siguientes definiciones: Unión: Dados dos eventos A y B de Ω, la unión entre A y B se define como el evento consistente de las características tanto de A como de B. En el caso que los eventos son conjuntos, la unión corresponde al conjuto de todos los elementos que pertenecen a A o a B. La unión entre A y B se denota por A ∪ B. Intersección: Dados dos eventos A y B de Ω, la intersección entre A y B, denotada A ∩ B, se define como el evento consistente de todas las características comunes a A y a B. En el caso que los eventos son conjuntos, la intersección corresponde al conjuto de todos los elementos que pertenecen, simultáneamente, a A y a B. Diferencia: Dados dos eventos A y B de Ω, la diferencia entre A y B, denotada por A – B, se define como el evento consistente de todos los elementos de A que no pertenecen a B. Complemento: El complemento de un evento A corresponde a todas aquellas características del experimento que no son registradas en A. En el contexto de la Teoría de Conjuntos corresponde a Ω – A. El complemento de A se simboliza por A c o bienA. PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 7 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Estrictamente hablando, de las anteriores definiciones sólo las tres primeras corresponden a operaciones, ya que una operación “actúa” sobre dos eventos. El complemento no es más que la definición de un evento particular. En lo sucesivo, y salvo excepciones que se advertirán oportunamente, los eventos serán entendidos como conjuntos en el contexto de la Teoría de Conjuntos. Esta consideración puede, en muchos casos, ayudar a la resolución de problemas tanto como a su comprensión. Particularmente útil puede resultar, en algunos casos, la utilización de propiedades, como las relaciones de De Morgan, y de representaciones, como las de Euler–Venn, para una mejor comprensión y resolución de problemas y propiedades relativas a eventos. Algunas de estas propiedades son: A∪B = B∪A A∩B = B∩A A∪A = A A∩A = A A∪A c = Ω A∩A c = φ A∪Ω = Ω A∩Ω = A A∪φ = A A∩φ = φ (A∪B) c = A c ∩B c (A∩B) c = A c ∪B c A∪(B∩C) = (A∪B) ∩ (A∪C) A∩ (B∪C) = (A∩B) ∪ (A∩C) A – B = A ∩ B c Definición 1.4. Sean A y B dos eventos de un espacio Ω. A y B son disjuntos si y sólo si A ∩ B = φ. Observaciones: a) Si el número de elementos de un evento E es mayor que 1, entonces E se llama evento aleatorio. Similarmente, si el número de elementos de Ω es superior a 1, entonces el experimento se dice aleatorio. b) Si el evento E = Ω, entonces E se dice evento seguro. c) Si el evento E = φ (vacio), entonces E se llama evento nulo o evento vacío. En este contexto son también importantes ideas tales como el hecho que no existan dos resultados equivalentes en forma simultánea para un experimento dado. Por ejemplo, en el lanzamiento de una moneda es bien sabido que no se puede obtener una cara y un sello al mismo tiempo. Esta propiedad es la que se conoce como exclusividad, y los eventos se dicen mutuamente excluyentes. Definición 1.5: La medida de un evento o de un subconjuto E de Ω es una función m : c(Ω) → IR, que satisface las siguientes propiedades: m(E⊂ Ω) ≥ 0 m(Ω) = 1 Algunas medidas de uso común son: m(E) = Número de elementos de E, si E es contable. m(E) = Área de E, si E es una región plana. m(E) = Volumen de E, si E es un sólido. Con todas las aclaraciones conceptuales anteriores, se puede abordar con cierta precisión y formalidad el concepto clásico de probabilidad. PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 8 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco 1.2. CONCEPTOS DE PROBABILIDAD 1.2. CONCEPTOS DE PROBABILIDAD 1.2. CONCEPTOS DE PROBABILIDAD 1.2. CONCEPTOS DE PROBABILIDAD Existen varias formas o enfoques de definción de probabilidad. Entre ellos se tiene el concepto clásico de probabilidad, que se soporta en el concepto de medida de un evento. En efecto, sea ξ un experimento definido en un espacio muestral Ω, en el que se ha definido una medida m. La probabilidad de un evento E perteneciente a Ω, expresado en términos de su medida, es: ) ( ) ( ) ( Ω = m E m E P , donde m(Ω) ≠ 0 Este planteamiento clásico de la “probabilidad” puede ocacionar algunos problemas en la vida real, desordenada y con algunos hechos extraños y poco probables. Rapidamente es posible darse cuenta de lo necesario que resulta la experimentación para encontrar algún patrón de comportamiento. Lo cual hace que sea de mucha utilidad otra forma de definirla. Ya en el siglo XIX los estadísticos británicos realizaron las primeras mediciones para lo que hoy llamamos frecuencia relativa de presentación de un evento. Según este enfoque, la probabilidad de un evento es la proporción de veces que ocurrirá el evento en una repetición infinita del experimento. Esto significa que si un evento se dice tener probabilidad 0.56, quiere decir que si el experimento se repite en similares condiciones un cantidad infinita de veces, en el 56% de las veces se observará el evento en estudio. Formalmente si N representa el número de veces que se realiza el experimento, entonces la probabilidad del evento E está dada por N E de s ocurrencia de Número E P N lim ) ( ∞ → = Aunque elegante, esta definición tiene una serie de problemas relativos a su operacionalidad. Particularmente cuestionables son los problemas de convergencia asociados, lo que hace difícil su aplicación al cálculo de probabilidades. En este sentido parece más práctica la definición clásica. Otro enfoque, que está cobrando adeptos en los últimos años, es la probabilidad como evaluación subjetiva. Esta forma de definición recoge el conocimiento o experiencia previa que el analista tiene del fenómeno o experimento en estudio y lo utiliza como una forma de evaluación de las posibilidades de ocurrencia de un evento particular. Su principal crítica es la subjetividad que subyace a tales evaluaciones. En este contexto se sitúan los métodos bayesianos. Tampoco es un tema que se encuentre dentro de los propósitos de estas notas. Por último, mencionamos el enfoque o método axiomático de la probabilidad. Según este método, las probabilidades se definen a partir de ciertas reglas lógico–matemáticas que conforman una estructura bien definida y sólidamente respaldada: son los axiomas de probabilidad. Esta interpretación de la Probabilidad está basada en la presentación de un conjunto de axiomas, los que se apoyan fuertemente en la Teoría de Conjuntos. Aquí se formalizan las ideas anteriores, para dar lugar a un tratamiento lógico-deductivo de gran potencia en sus fundamentos y fuerza en sus conclusiones. Por estas razones será el método o enfoque que se utilizará en estas notas, aunque no se descarta el uso de los otros enfoques, siempre que exista coherencia y concordancia entre ellos. En un esquema axiomático, la probabilidad se define como una función que satisface una serie de axiomas, a partir de los cuales se pueden deducir otra serie de propiedades y aplicaciones que, eventualmente, pueden conducir también a los resultados previstos para los enfoques anteriores. PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 9 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Definición 1.6: Sea Ω cualquier espacio muestral y E cualquier evento de Ω. Se llama función de probabilidad sobre el espacio muestral Ω a cualquier función P: c(Ω) → IR, (c(Ω) es el conjunto potencia de Ω) tal que: 1) P(E) ≥ 0. 2) P(Ω) = 1. 3) P( ∪ E i ) = ∑ P(E i ), cuando: E i ∩ E j = φ, ∀ i ≠ j. Estos tres axiomas caracterizan completamente a una función de probabilidad, y puede notarse su relación con la interpretación clásica de probabilidad. El número P(E) se llama la probabilidad de E. Algunas consecuencias importantes de estos axiomas se resumen en la proposición 1.1. Proposición 1.1: Sean E, E 1 y E 2 eventos de un espacio muestral Ω, en el que se ha definido una probabilidad P. Entonces se verifican las siguientes relaciones: i) P(φ) = 0. ii) 0 ≤ P(E) ≤1. iii) P(E c ) = 1 – P(E) iv) P(E 1 ∪ E 2 ) = P(E 1 ) + P(E 2 ) – P(E 1 ∩ E 2 ). Demostraciones: Se dejan de ejercicio todas las demostraciones. La utilización de resultados de la Teoría de Conjuntos puede ayudar a las demostraciones. ♦ Las definiciones y propiedades anteriores sólo han establecido las reglas por las que se rige el cálculo de probabilidades, pero no establecen una forma o método de ese cálculo. En una situación particular de un evento E, parece ser evidente que la probabilidad de E es la suma de todas las probabilidades de los puntos muestrales que conforman E. Esto es ya un gran avance en el cálculo de probabilidades, pero no es lo definitivo. Por ejemplo, ¿cuál es la probabilidad de obtener una CARA en el lanzamiento de una moneda?. Seguramente Ud. dirá que ½. Pero dar esa respuesta supone una serie de consideraciones en torno al experimento, muchas de las cuales, y hay que reconcerlo, tienen una fuerte base experiencial. Seguramente supone una moneda con “caída regular”, es decir que no caerá “de canto”. Por otro lado, habrá supuesto también que se trata de una moneda regular (no cargada), en el sentido que no tiene un lado más probable que el otro. Esta última propiedad será muy recurrente en muchos problemas relativos a juegos de azar. Formalmente se habla de eventos equiprobables. Esto significa que dos resultados cualesquiera tienen las mismas posibilidades de ocurrir, independientemente de la naturaleza del resultado mismo. Claro está que no siempre será pertinente este supuesto. Por último, digamos que en la definición de probabilidad habrá que tener en consideración el conocimiento y la experiencia que en relación al fenómeno existe, y que se debe tener especial cuidado con las suposiciones que sobre él se formulen. Ejemplo 1.1. Considérense el experimento ξ: “lanzar dos dados y anotar los puntos que muestran las caras superiores” y el evento E : “obtener un par cuya suma sea 7”. Solución. El espacio muestral asociado está determinado por: Ω = {(1,1), (1,2), ..., (2,1), (2,2), ..., (3,1), ..., (4,1),..., (5,1), .., (6,1),...,(6,6)}. Por su parte el evento E corresponde a E = {(1,6), (2,5), (3,4), (4,3), (5,2), (6,1),...,(6,6)}. En el enfoque clásico, 36 6 ) ( ) ( ) ( = = Ω m E m E P , puesto que Ω tiene 36 elementos, esto es, m(Ω) = 36, y que E tiene 6 elementos, es decir, m(E) = 6. PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 10 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco En el esquema axiomático por su parte, necesitamos saber cuál es la probabilidad de cada elemento de Ω. Si se supone que cada resultado es igualmente probable, entonces cada elemento de Ω tiene probabilidad igual 1/36, y por tanto la probabilidad de E es la suma de las probabilidades de sus puntos muestrales, 36 6 .♦ Ejemplo 1.2. Los alumnos de un curso disponen de dos libros para estudiar, uno teórico y uno práctico. El libro teórico lo usa el 70%, el libro práctico el 60% y el 40% utiliza ambos libros. Representación gráfica mediante el Diagrama de Venn A partir del diagrama resultan evidentes los siguientes hechos: – El 30% de los alumnos usa sólo el libro A, mientras que el 20% de ellos usa sólo el libro B. – El 10% de estudiantes no usa ninguno de los dos libros. ♦ Ejemplo 1.3. Un sistema contiene dos componentes A y B. El sistema funciona si cualquiera de sus componentes funciona. Se sabe que la probabilidad de que la componente A funcione es 0.9; que funcione B, es 0.8, y la de que ambas componentes funcionen simultáneamente, es 0.72. Se pide hallar la probabilidad de que el sistema funcione. Solución. Lo que se tiene, en definitiva, es que P(A) = 0.9, P(B) = 0.8 y P(A∩B) = 0.72. Lo que se pide es P(A∪B). Entonces, al aplicar la propiedad iv) anterior, se tiene que P(A∪ B) = 0.9 + 0.8 – 0.72 = 0.98. Esto es, la probabilidad de que el sistema funcione es del 98%. ♦ 1.3. EJERCICIOS Y PROBLEMAS 1.3. EJERCICIOS Y PROBLEMAS 1.3. EJERCICIOS Y PROBLEMAS 1.3. EJERCICIOS Y PROBLEMAS Como una forma de aplicar los conceptos antes tratados, y de reforzar aquellos aspectos que a nuestro juicio son los más relevantes, presentamos a continuación una serie de ejercicios y problemas prácticos para ser trabajados en forma personal o grupal. Las respuestas, y en algunos casos un esbozo de solución, se presentan al final de la misma lista. Es aconsejable trabajar los problemas sin observar previamente los resultados o soluciones. 1. Considere los siguientes experimentos y describa el espacio muestral asociado a cada uno de ellos: a. ξ 1 : “Se lanza un dado y se observa el puntaje asociado a la cara superior” b. ξ 2 : “Se lanza una moneda cuatro veces y se observa la sucesión de caras y sellos” c. ξ3: “Se extrae una carta de una baraja de 52, donde su pinta no importa, y se observa el número de ella” A B 10% Ω 100% 30% 20% 40% PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 11 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco 2. Los resultados de un experimento se distribuyen según se indica en el siguiente diagrama de Venn. En base a esta representación: a. Describir verbalmente los eventos A, B, A∪B y A∩B. b. Calcular las probabilidades de cada evento de la parte a. 3. Si la probabilidad de que una persona entrevistada en un centro comercial esté en contra de un proyecto industrial con gran impacto en el ecosistema es de 0.7. ¿Cuál es la probabilidad de que entre 4 personas entrevistadas en ese lugar, las primeras 3 estén en contra y la última a favor del proyecto? 4. Si A es el evento un empleado está bien capacitado y B se define como el empleado cumple su cuota de producción, exprese simbólicamente las probabilidades de los siguientes eventos: a. Un empleado bien capacitado cumpla la cuota de producción. b. Un empleado que cubre la cuota de producción no esté bien capacitado. c. Un empleado que no está bien capacitado no cubra la cuota de producción. 5. Demostrar que si A, B y C son independientes, entonces P(A∪B∪C) = 1 – P(A c )P(B c )P(C c ). 6. Demostrar que si P(C) ≠ 0, entonces: P(A∪B/C) + P(A∩B/C) = P(A/C) + P(B/C) 7. En cierta carrera universitaria se sabe que el 25% de los estudiantes reprueba matemática, el 15% reprueba estadística y un 10% reprueba ambas asignaturas. Si se selecciona al azar un estudiante, y éste resultó haber reprobado estadística, entonces: a. ¿Cuál es la probabilidad de que repruebe también matemáticas? b. ¿Cuál es la probabilidad de que repruebe matemática o estadística? c. Si de entre el 4% de los hombres y el 1% de las mujeres miden más de 1,80m; además, se sabe que el 60% de los estudiantes son mujeres. Si se selecciona al azar un estudiante y resultó ser más alto de 1,80 mts; ¿cuál es la probabilidad de que resulte ser mujer? 8. La probabilidad de que en Temuco llueva un día del año, seleccionado aleatoriamente es 0.25. El pronóstico local del tiempo atmosférico, entregado por la estación meteorológica de la ciudad es correcto el 60% de las veces en que el pronóstico es de lluvia y el 80% de las veces en que se hacen otros pronósticos. a. Indique claramente los sucesos involucrados, así como las probabilidades asociadas a ellos. b. Si un día es seleccionado aleatoriamente, ¿cuál es la probabilidad que el pronóstico dado sea correcto? c. ¿Cuál es la probabilidad de que un día en que el pronóstico fue dado correctamente, haya correspondido a un día lluvioso? 9. Se selecciona aleatoriamente un número real en I = [0,2], y cada número en I tiene igual probabilidad de ser seleccionado. Sean los eventos A: el número se selecciona entre 0 y 1; y B: el número se selecciona entre 0.5 y 2. Calcular las siguientes probabilidades: a. P(A) b. P(B) c. P(A ∪ B) d. P(A ∩ B) A B 23 8 6 13 PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 12 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco 10. Mostrar que si A ⊆ B, entonces P(A) ≤ P(B). 11. El problema de la reunión. Dos personas, A y B, han acordado reunirse en un lugar específico entre las 12:00 y las 13:00 horas. La primera persona que llegue espera a la otra por 20 minutos, después de lo cual, si no llega ésta, se va. ¿Cuál es la probabilidad que las personas se reúnan si sus llegadas durante la hora indicada ocurren de manera aleatoria, y sus tiempos de llegada son independientes? Analice la importancia de estos dos últimos supuestos en la solución del problema. Respuestas a algunos problemas propuestos 1. a) Ω: { 1, 2, 3, 4, 5, 6 }; c) Ω: { A, 2, 3, 4, 5, 6, 7, 8, 9, 10, J, Q, K } 2. ii) P(B) = 19/50 3. Sea el evento A i : la persona i–ésima está en contra del proyecto. Se sabe que P(A i ) = 0.7. Lo que se pide es P(A 1 ∩A 2 ∩A 3 ∩A 4 c ). Suponiendo independencia entre las personas entrevistadas, se tiene que P(A 1 ∩A 2 ∩A 3 ∩A 4 c ) = 0.1029. 4. Dados A: empleado bien capacitado y B: empleado que cumple su cuota de producción, entonces el evento un empleado que cubre la cuota de producción no esté bien capacitado es A c |B, y la probabilidad será P(A c /B). 5. Sug.: Calcular P(A∪B∪C) y aplicar propiedad de independencia de los tres eventos. 6. Hacer uso de la definición de probabilidad condicional de P(A∪B/C). 7. Sean los eventos A: alumno reprueba matemática y B: alumno reprueba estadística. Las probabilidades de estos eventos son P(A) = 0.25, P(B) = 0.15 y P(A∩B) = 0.10, entonces: a. P(A/B) = 0.67 b. P(A ∪ B) = 0.4 8. b) P(B) = 0.75 ; c) P(A/B) = 0.2 9. La medida apropiada en este caso es la longitud del segmento correspondiente (ver figura). Entonces: a. P(A) = ½ b. P(B) = 1.5/2. c. P(A ∪ B) = 1 d. P(A ∩ B) = 0.25. 10. Demostraciones de este tipo, como se habrá visto, pueden significar ciertos “arreglos” que no siempre son fáciles de detectar, y puede existir más de una forma de ellos. En este caso particular, un punto de partida PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 13 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco puede ser la identidad B = (A c ∩ B) ∪ A, que se puede verificar fácilmente. Se puede verificar también que esta descomposición de B es una partición, así que se puede aplicar la definición 1.6, parte 3, para deducir que P(B) = P(A c ∩ B) + P(A). Pero como P(A c ∩ B) es una cantidad no negativa, entonces, simplemente por definición de desigualdad, se tiene el resultado. 11. Definir los eventos x : Tiempo (instante) de llegada de A y y : Tiempo de llegada de B. Notar que la reunión se concreta si |x–y| ≤ 20. También notar que 0 ≤ x,y ≤ 60. Algunas consideraciones geométricas conducen a 5/9 como la probabilidad pedida. PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 14 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Capítulo 2 VARIABLES ALEATORIAS Y DISTRIBUCIONES DE PROBABILIDADES Objetivos del capítulo: 1. Identificar y definir variable aleatoria. 2. Estudiar y determinar propiedades asociadas a las variables aleatorias. 3. Valorar la importancia de las variables aleatorias en el estudio de problemas del ámbito científico. En el capítulo anterior se presentó y revisó el concepto de probabilidad, como una medida del grado de incertidumbre involucrado en la ocurrencia de ciertos fenómenos. Ese grado de incertidumbre está presente en gran parte de la actividad humana en general, y en la actividad científica en particular. De esa incertidumbre surge, a su vez, la variabilidad en casi todo cuanto nos rodea. Y esta variabilidad es la que da sentido a la investigación, al estudio sistemático de ciertas disciplinas, al conocimiento, finalmente. Si todo fuera uniforme, entonces no tendría sentido el estudio o el conocimiento. En esta variabilidad está la esencia de nuestra vida, y de nuestro quehacer, sea cotidiano, o programado cuidadosamente. En el presente capítulo se persentarán métodos y técnicas que recogen el soporte fundamental de la variabilidad para examinar y evaluar sus grados de incerteza: la información. Pero la información no es posible concretarla sino en variables y observaciones o registros. Sobre este tema trata, esencialmente, este capítulo, y particularmente sobre las variables aleatorias y la forma en que las probabilidades de ocurrencia de los registros correspondientes se distribuyen. 2.1. VARIABLES ALEATORIAS 2.1. VARIABLES ALEATORIAS 2.1. VARIABLES ALEATORIAS 2.1. VARIABLES ALEATORIAS Definición 2.1. Sea ξ un experimento aleatorio, con espacio muestral asociado Ω y dotado de probabilidad P. Se llama variable aleatoria a una función X que asigna a cada elemento ω ∈ Ω un número real x, es decir: X: (Ω, P) → ‘ ω a X(ω) = x Observación: Generalmente las variables aleatorias se designan con letras mayúsculas y un valor particular de ella con su respectiva letra minúscula. Una variable es aleatoria si toma diferentes valores como resultado de un experimento aleatorio. Puesto que asociar números con los puntos de un espacio muestral sólo es una manera de definir una función sobre los puntos del espacio muestral, las variables aleatorias en realidad son funciones y no variables. Sin embargo, conceptualmente, la mayoría de los principiantes encuentran más fácil considerar las variables aleatorias tan sólo como cantidades que pueden tomar valores distintos dependiendo de la probabilidad asociada. Definición 2.2. Al conjunto de todos los valores que asume la variable aleatoria X, denotado por R X , se denomina recorrido de la variable aleatoria X, es decir: R X = {x ∈ ‘ x / X(ω) = x, con ω ∈ Ω} PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 15 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Ejemplo 2.1. Se define el experimento ξ: “lanzar dos monedas y registrar lo que cae cada una”. Se desea determinar el espacio muestral asociado a ξ, definir la variable aleatoria involucrada y determinar su recorrido. Solución. El espacio muestral asociado a ξ será: Ω = {(C,S), (S,C), (C,C), (S,S)} Si a cada ω se le asigna un valor numérico, de 0 a 2, cantidades aleatorias determinadas por el experimento, consideradas como valores que toma la variable, podemos definir la variable aleatoria X: “Número de caras obtenidas”, cuyos valores serán: X(C,C) = 2 X(S,C) = X(C,S) = 1 X(S,S) = 0 Luego, su recorrido es R X = {0, 1, 2}. ♦ Se acostumbra clasificar las variables aleatorias de acuerdo con el número de valores que pueden tomar, en este contexto podemos distinguir variables aleatorias discretas y continuas las que se definen a continuación. Definición 2.3. Una variable aleatoria X se dice discreta si su recorrido R X es finito o infinito numerable, en caso contrario se dice que es continua. 2.2. DISTRIBUCIONES DE PROBABILIDADES 2.2. DISTRIBUCIONES DE PROBABILIDADES 2.2. DISTRIBUCIONES DE PROBABILIDADES 2.2. DISTRIBUCIONES DE PROBABILIDADES A cada variable aleatoria hay asociadas unas funciones especiales que informan de ciertas características de las probabilidades y su relación con los valores de la variable. Todas ellas dan lugar al concepto de distribución de probabilidades o simplemente de distribución de la variable. El concepto de distribución es uno de los más importantes en el estudio de las variables aleatorias. Por ello, en lo que sigue, se presentarán en detalle aquellas funciones que “hablan” de la distribución de probabilidades, y de sus propiedades más importantes. Cuando sea necesario, se harán las distinciones para los casos discreto y continuo. Antes de presentar aquellas funciones, es importante referirse a una componente de definición que resulta fundamental en la comprensión del concepto de distribución. Se trata del concepto de parámetro. Al momento de comenzar a estudiar una población, parece evidente que hay ciertas situaciones o fenómenos que son de interés para el estudioso, pero no es suficiente obtener un cúmulo de información si esta no puede ser de alguna manera resumida para ser utilizada, lo cual se realiza a través de un parámetro que es un rasgo, característica o descripción del fenómeno estudiado en la población de interés. Para ilustrar el concepto anterior, definamos como población de interés un bosque de grandes dimensiones, con distintas especies. Los dueños necesitan conocer de antemano, aún en forma aproximada, la cantidad de trozos que dispone para el cumplimiento de contrato con un comprador. Pareciera razonable pensar que no es posible cuantificar exactamente la cantidad de trozos, dada la extensión del terreno. Pero si es posible encontrar un indicador que caracterice a esa cantidad, pudiendo ser éste, la media o promedio de trozos, siendo este parámetro la cantidad que caracteriza dicho fenómeno. En consecuencia, en la definición e identificación de una distribución los parámetros juegan un papel fundamental. Como se irá mostrando en la medida que se avance en el estudio de estas notas, las PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 16 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco distribuciones se identifican por sus parámetros, y el reconocimiento de estos será el principal trabajo y problema en el estudio de ciertas distribuciones conocidas. Definición 2.4. Sea X una variable aleatoria discreta, con recorrido R X . Se llama función de cuantía a una función P X (x) = P(X = x) que satisface las siguientes condiciones: i) P(x) ≥ 0 ∀ x ∈ R X ii) ∑ ∈ = x R x x p 1 ) ( Observación: Para una variable aleatoria discreta, la función de cuantía en cualquier punto es una probabilidad. Por ello, a veces a esta función también se le llama función de probabilidades. Ejemplo 2.2. Sea X una variable aleatoria con función de probabilidades dada por: x n x n x p p p n x p − − | | ¹ | \ | = ) 1 ( ) , ; ( , donde n ∈ , 0 < p < 1 Verificar que la función propuesta es una función de probabilidades. Solución. Para probar si p es una función de cuantía, debe satisfacer las condiciones de la definición 2.4. En efecto: i) p(x; n, p) ≥ 0, ya que cada componente del producto que la define es positivo. ii) Por Teorema del binomio, | | 1 ) 1 ( 1 ) 1 ( ) , ; ( 0 = − + = − | | ¹ | \ | = − ∈ ∑ ∑ n x n R x x n n x p p p p n x p x . ♦ Definición 2.5. La función de distribución acumulada de una variable aleatoria discreta X, denotada por F, es una función real F: ‘ → ‘ definida por ∑ ≤ = ≤ = x x i i x p x X P x F ) ( ) ( ) ( y que satisface las siguientes condiciones: i) 1 ) ( 0 ≤ ≤ x F ii) ) ( ) ( y F x F y x < ⇒ < Notar que la función de distribución acumulada evaluada en algún punto del recorrido de la variable, es una probabilidad que indica o resume la información que de la variable se tiene hasta el valor que se indique. Aunque no se trata de una “probabilidad acumulada hasta. ...”, valores como P[X > x] también se entienden como probabilidades acumuladas (“acumulación más allá de...”). Proposición 2.1. La función de distribución acumulada de una variable aleatoria discreta X posee las siguientes propiedades: i) ) ( 1 ) ( x F x X P − = > ii) 1 ) ( = ∞ F iii) 0 ) ( = −∞ F PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 17 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco iv) ) ( ) ( ) ( 1 2 2 1 x F x F x X x P − = < < v) ) 1 ( ) ( ) ( − − = = x F x F x X P Demostración. Todas las demostraciones se dejan de ejercicio. Todas ellas se basan en propiedades elementales de sumatorias y series. ♦ Definición 2.6. Sea X una variable aleatoria continua. Una función f : R X → ‘ se llama función de densidad de X si satisface las siguientes condiciones: i) 0 ) ( ≥ x f ; ∀ x. ii) ∫ ∞ ∞ − =1 ) ( dx x f iii) Para cualquier par de números reales a y b con a < b, se tiene ∫ = ≤ ≤ b a dx x f b X a P ) ( ) ( . Representación gráfica de la propiedad iii) de la función de densidad Observación: Una función de densidad no representa una probabilidad. Más aún, existen funciones de densidad que evaluadas en algún punto toman valores mayores a la unidad. Ejemplo 2.3. El comportamiento diario de cierto contaminante, en un río de la zona se modela de acuerdo a la siguiente función de densidad: 0 ; ½ ) ( 2 > = − x e x f x Además se sabe que ocurrirá un problema de contaminación si los registros del contaminante exceden los 6 mg/10 3 lts. ¿Cuál es la probabilidad de que ocurra un problema de contaminación en un día cualquiera? Solución. Si definimos la variable aleatoria X: “cantidad diaria del contaminante por cada 10 3 lts” y sabiendo que el problema de contaminación se genera cuando X excede los 6 mg/10 3 lts, entonces la probabilidad buscada es: dx e dx e X P x x ∫ ∫ ∞ ∞ − − = = > 6 6 2 1 2 1 2 2 ) 6 ( Haciendo la sustitución 2 x u − = , y por lo tanto dx du 2 1 − = , se tiene dx du = − 2 , y entonces: ∞ − ∞ − = − = − = > ∫ 6 6 2 1 2 2 ) 6 ( x e e du e X P u u = - ( e - ∞/2 – e -6/2 ) = e -3 = 0.04979. ♦ PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 18 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Definición 2.7. Se llama función de distribución acumulada de una variable aleatoria continua X a una función real F: ‘ → ‘ definida por: ∫ ∞ − = ≤ = x dt t f x X P x F ) ( ) ( ) ( donde t es una variable artificial de integración. Observación: Dado que para cualquier variable aleatoria continua X, ∫ = = = x x dt t f x X P 0 ) ( ) ( , entonces ) ( ) ( ) ( x F x X P x X P = < = ≤ Proposición 2.2. La función de distribución acumulada de una variable aleatoria continua X posee las siguientes propiedades: i) 0 ) ( = −∞ F ii) 1 ) ( = ∞ F iii) ) ( ) ( ) ( a F b F b X a P − = < < iv) ) ( ) ( x F dx d x f X = v) 1 ) ( 0 ≤ ≤ x F Demostración. Todas las demostraciones se dejan de ejercicio. Ellas se basan en propiedades elementales de la integral. ♦ Al igual que en el caso discreto, la función de distribución acumulada asociada a una variable aleatoria continua es una probabilidad. 2.3. FUNCIONES DE VARIABLES ALEATORIAS 2.3. FUNCIONES DE VARIABLES ALEATORIAS 2.3. FUNCIONES DE VARIABLES ALEATORIAS 2.3. FUNCIONES DE VARIABLES ALEATORIAS Son frecuentes los problemas en los que el interés se centra más que una variable aleatoria, en una función de ella. Por ejemplo, puede requerirse el estudio de la variable X² a partir del conocimiento que se tenga de X. Hay que notar que X² es una función de X. Dada una variable aleatoria, supondremos que una función de ella es también una variable aleatoria, pero no necesariamente con las mismas propiedades de la variable original. Son estos aspectos los que se resumen en la siguiente proposición. Proposición 2. 3. Sea X una variable aleatoria continua, con función de densidad f. Sea también g una función monótona (no decreciente) y no negativa en el recorrido de X. Entonces la función de densidad de g(X) está dada por ( ) dy dx x g f x f X X g ) ( ) ( 1 ) ( − = . Demostración. La función de distribución acumulada de g(X) corresponde a ] ) ( [ ) ( ) ( x X g P x F X g ≤ = . Como {g(X)≤x} y {X ≤ g -1 (X)} son sucesos equivalentes, entonces )) ( ( )] ( [ ) ( 1 1 ) ( x g F x g X P x F X X g − − = ≤ = . La aplicación del Teorema Fundamental del Cálculo Diferencial conduce al resultado: ♦ PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 19 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Ejemplo 2.4. X es una variable aleatoria continua con función de densidad dada por f X (x) = 1, ∀x∈[0,1]. Se pide hallar la función de distribución acumulada de X². Solución. La función de distribución acumulada de X² requiere de la distrubución acumulada de X, por lo que deber la obtención de ésta el primer problema a resolver. Aplicando definiciones se obtiene que la función de distribución de X es F X (x) = x. Con esto, se puede obtener que la función de distribución de Y = X² es y y f Y 1 ) ( = , para y>0. ♦ 2.4. MEDIDAS NUMÉRICAS ASOCIADAS A UNA VARIABLE ALEATORIA 2.4. MEDIDAS NUMÉRICAS ASOCIADAS A UNA VARIABLE ALEATORIA 2.4. MEDIDAS NUMÉRICAS ASOCIADAS A UNA VARIABLE ALEATORIA 2.4. MEDIDAS NUMÉRICAS ASOCIADAS A UNA VARIABLE ALEATORIA La función de densidad de una variable aleatoria continua o la función de cuantía de una variable aleatoria discreta, describen completamente el comportamiento de la variable en estudio. Sin embargo, asociadas a cualquier variable existen ciertas constantes que también la caracterizan, dado que estos valores proporcionan información acerca de la naturaleza de la variable en cuestión. Estas características fijas o constantes son las que se denominan, genéricamente, medidas numéricas. Dentro de las medidas numéricas asociadas a una variable aleatoria se tienen, básicamente, tres grupos: las medidas de tendencia central, las medidas de posición y las medidas de variabilidad o dispersión. Todas ellas dan cuenta, en alguna forma, de las características de la distribución (de probabilidades) de la variable. Medidas de Tendencia Central Las medidas de tendencia central asociadas a una variable aleatoria resumen características de centralidad de la variable. Esto es, dan cuenta de aquellas características que pueden considerarse como típicas, como propias de la generalidad de la información. En otras palabras, informan de la capacidad de “concentración” de la información en torno, precisamenete, de aquellos valores o medidas. Algunas de estas características, las más relevantes por cierto, se presentan en las siguientes definiciones. Definición 2.8. Sea X una variable aleatoria con valores observados x 1 , x 2 ,...,x n , se define la esperanza o valor esperado de X como: | | ∑ ∈ = x R X x xp X E ) ( ; si X es discreta con p(x) su función de cuantía asociada. | | ∫ ∞ ∞ − = dx x xf X E ) ( ; si X es continua con función de densidad f (x). Observación. La esperanza de una variable aleatoria corresponde al centro de la distribución de probabilidades de ella, por lo que también se le llama promedio o simplemente media. Además, conviene aclarar que no es una función de X, sino un número fijo y una propiedad de la distribución de probabilidades de X. Ejemplo 2.5. Sea X una variable aleatoria que es la suma de las caras de dos dados, cuando estos se lanzan. Determinar e interpretar E[X]. Solución. Si X: “suma de las caras de dos dados”, entonces el espacio muestral asociado es Ω: {2, 3, ...,12} y su función de probabilidades es p(x) = 36 7 6 x − − , para x = 2, 3,...,12. PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 20 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Entonces ∑ = = + + + + = = 12 2 36 1 36 2 36 2 36 1 7 ) ( 12 ) ( 11 .... ) ( 3 ) ( 2 ) ( ) ( x x xp X E Esto significa que al lanzar dos dados, el valor esperado es 7. ♦ Proposición 2.4. Sea X una variable aleatoria, y a, b y k constantes reales cualesquiera. Entonces la esperanza satisface las siguientes propiedades: i) | | | | X aE aX E = ii) | | k k E = iii) | | | | k X E k X E + = + iv) | | | | b X aE b aX E + = + Demostración: Se dejan de ejercicio. ♦ Ejemplo 2.6. Se sabe que el tiempo necesario para reparar una pieza, de un equipo utilizado en un proceso de manufactura, es una variable aleatoria X cuya función de densidad está dada por: ) ( 5 1 5 ) ( x e x p − = con x = 0, ..., +∞ Si la pérdida en dinero, es igual al cuadrado del número de horas utilizadas en la reparación. Se requiere determinar e interpretar el valor esperado de las pérdidas por reparación. Solución. Si X es el tiempo necesario para reparar una pieza, entonces la pérdida es X 2 . Con esto, el valor esperado buscado es: | | ) ( ) ( ) ( 25 5 ) ( ² 0 5 ) ( 2 5 2 5 0 ) ( 2 5 0 ) ( 5 1 2 5 5 5 ∫ ∫ ∫ ∞ − ∞ − +∞ − = = = x x x x d e dx e dx e x X E x x x La última integral es una función gamma (ver Temas Complementarios para más información sobre esta función). Específicamente en este caso, esta última integral es ) 3 ( 25Γ = = 25 · 2! = 50 Luego la pérdida esperada por reparación es de 50 unidades monetarias. ♦ Definición 2.9. Para una variable aleatoria X si existe un número X 0.5 tal que: 2 1 5 . 0 2 1 5 . 0 ) ( ) ( ≥ ≤ ∧ ≤ < X X P X X P ; si X es discreta., o bien 2 1 5 . 0 ) = ≤ X PX ; si X es continua, entonces X 0.5 se llama mediana de la distribución de X. Definición 2.10. La moda de una variable aleatoria X es el valor X m que maximiza la función de probabilidades si X es discreta, o la función de densidad si X es continua. Observaciones. i) La moda de una distribución puede no existir. ii) Si X es continua la moda es la solución de 0 ) ( = dx x df si 0 2 2 ) ( < x d x f d PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 21 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco De lo contrario, si la segunda derivada es positiva, el valor recibe el nombre de antimoda. iii) Si existe más de una moda, la distribución de probabilidades recibe el nombre de multimodal. Medidas de posición Aunque una medida de tendencia central, adecuada y pertinente, naturalemente, puede proporcionar mucha información acerca de una variable, generalmente será necesaria alguna otra información para completar el conociento que sobre la variable se busque. Entre distintas posibilidades o alternativas se tienen a las medidas de posición. Como su nombre lo indica, resumen características de ubicación o de posicionamiento, relativo, de los valores de la variable. De entre estas medidas, resumimos aquí las más importantes y usuales. Valores extremos Las medidas de posición más elementales son el máximo y el mínimo, que corresponden a los valores máximo y mínimo, respectivamente, de la variable. Percentiles Un percentil de orden α αα α, denotado q α , es un valor (puede ser un valor de la variable, o bien no) tal que la probabilidad acumulada hasta q α es α. Entre estas medidas, las más utilizadas son los cuartiles, que son percentiles de orden α = 0.25, α = 0.50 y α = 0.75. Hay, por tanto, tres cuartiles, que denotaremos por Q 1 , Q 2 y Q 3 . Otros percentiles muy utilizados son los deciles, nueve mediciones D 1 , D 2 , ..., D 9 que particionan la distribución en 10 clases o grupos con la misma cantidad de información. Resulta simple visualizar que algunos de los percentiles coincidirán, ya sea con los cuartiles o con los deciles, por lo que generalmente son ellos los que se utilizan. Medidas de Variabilidad Si bien las medidas de tendencia central o de posición pueden constituir un adecuado resumen de la información contenida en una variable, por lo general ese resumen será insuficiente hasta que no se utilice una medida de la dispersión de la información. Esto es, parece muy necesario conocer cuán dispersa se encuentra la información para que, junto a su tendencia central, se tenga un resumen lo más pertinente y completo posible. Algunas de estas medidas se presentan en lo que sigue. Definición 2.11. El rango de una variable aleatoria X es la diferencia entre máximo y mínimo. El rango, que denotaremos como R(X), es una medida de dispersión muy elemental, aunque en ocaciones puede ser suficiente para formarse una idea de la dispersión de la información. Por ejemplo, si la variable corresponde a calificaciones, en la escala de 1 a 7, el rango puede ayudar a la interpretación o resumen de esa información. Sin embargo, una de las más importantes medidas de dispersión es la varianza, que se define en la siguiente definición. La varianza es una medidad del grado de dispersión de la información de una variable en torno a su media. Por este hecho, mide cuán alejadas están las observaciones del centro de la distribución. Definición 2.12. Supuesta la existencia de E[X], se define la varianza de una variable aleatoria X, denotada por Var[X] o σ 2 , como: ] [ ] [ ] ) [( ] [ 2 2 2 X E X E X E X Var X − = − = µ PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 22 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Observación. A la raíz cuadrada de la varianza de X, σ, se le llama desviación estándar de X, o desviación típica de X. Proposición 2.5. Sea X una variable aleatoria con media u y varianza σ 2 X , y sea k un número real cualquiera. Entonces: i) Var[k] = 0 ii) Var[X + k] = Var[X] iii) Var[kX] = k 2 Var[X] Demostración: Se dejan de ejercicio. ♦ El proceso de estandarización El proceso de estandarización es un procedimiento mediante el cual se transforma una variable aleatoria a objeto de anular algunos efectos que en la interpretación pueden tener ciertas medidas. Esto cobrará especial importancia en las aplicaciones relativas a distribuciones comunes, que se tratarán más adelante, y en el capítulo sobre estadística descriptiva de la Unidad 2. Formalmente corresponde a la transformación σ µ − → X X , donde X es una variable aleatoria con media u y desviación típica σ. La resultante de esta transformación se llama variable estandarizada o variable tipificada. La transformación definida por X–u se llama centrado, mientras que la definida por X/σ se llama reducción. En el primer caso, la variable obtenida es una variable centrada, mientras que en el segundo caso, la variable obtenida es una variable reducida. Una variable estandarizada es, entonces, una variable centrada y reducida. El efecto de esta transformación se traduce en una variable aleatoria con media 0, desviación típica 1 y a–dimensional. En efecto, la característica de a–dimensional es evidente, y, por otra parte, aplicando las proposiciones 2.3 y 2.4, se tienen las otras dos características. Por la importancia de estas últimas, las enunciamos formalmente en la siguiente proposición: Proposición 2.6. Si Z es una variable estandarizada, entonces E[Z] = 0 y Var[Z] = 1. Demostración. Se deja como ejercicio. ♦ Desigualdad de Tschebyshev Las relaciones y propiedades relativas tanto a medidas de centralidad como a dispersión, sólo ponen de manifiesto características matemáticas, no por ello importantes, pero no proporcionan una forma de interpretación eficaz, salvo elementales apreciaciones. Por ejemplo, es evidente que si una variable aleatoria tiene una varianza nula, entonces esa variable es una constante, y por tanto toma siempre el mismo valor. Con un análisis generalizador, se puede decir que mientras más cercano a cero se encuentre el valor de la varianza, entonces más similares son los valores de la variable. Específicamente, serán más parecidos o similares a la media, ya que la varianza mide la dispersión de los valores de la variable respecto de la media. De cualquier modo, parece ser que un resumen de la información contenida en la variable pasa por conocer al menos dos tipos de medida: de centralidad y de dispersión. Uno de los resultados, en probabilidades y en estadística, más importantes en este sentido es la Desigualdad de Tschebyshev. PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 23 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Teorema 2.1. (Desigualdad de Tschebyshev). Sea X una variable aleatoria con distribución con media u y varianza σ². Para una cosntante mayor que 1 k, se tiene ² 1 1 ] | [| k k X P − ≥ ≤ − σ µ El teorema establece que, para una variable aleatoria X, la información contenida dentro del intervalo real [u– kσ ; u+kσ], para una constante adecuada k, es al menos el % 100 ) ² 1 1 ( k − . Demostración. Si f(x) es la función de densidad de X, entonces ∫ ∞ ∞ − − = − = dx x f x X E ) ( ) ( ] ) [( 2 2 2 µ µ σ . Puesto que el integrando es no negativo, el valor de la integral sólo puede disminuir cuando el intervalo de integración se reduce. Por lo tanto: ∫ ∫ ∫ ≥ − ≥ − ≥ − = ≥ − ≥ ε µ ε µ ε µ ε ε µ σ x x x dx x f dx x f dx x f x ) ( ) ( ) ( ) ( 2 2 2 2 Dado que ) | (| ) ( ε µ ε µ ≥ − = ∫ ≥ − X P dx x f x , entonces 2 2 ) ( ε σ ε µ ≤ ≥ − X P . ♦ 2.5. EJERCICIOS Y PROBLEMAS 2.5. EJERCICIOS Y PROBLEMAS 2.5. EJERCICIOS Y PROBLEMAS 2.5. EJERCICIOS Y PROBLEMAS 1. Una empresa que arrienda equipos para la tala de bosques, estudia la frecuencia con que son utilizadas sus máquinas. Según los registros la demanda diaria de la máquina 3, MQ3, que es la máquina más utilizada, fluctúa entre 0 y 3 veces por día, con probabilidades respectivas de 10%, 50%, 25% y 15%. a. Indicar claramente cuál es la variable aleatoria X asociada al caso y definir explícitamente la función de cuantía. b. Calcular la probabilidad de que la máquina MQ3 sea requerida al menos 2 veces al día. c. Calcular la probabilidad de que la máquina no sea requerida en un día cualquiera. d. Calcular e interpretar E[X]. e. Calcular e interpretar S X . 2. Una máquina utilizada para eliminar la humedad de cierta variedad de plantas, posee 6 quemadores, de los cuales 2 están defectuosos. Si se seleccionan al azar dos de estos quemadores, extraídos de la máquina e inspeccionados, y si definimos la variable aleatoria X: número de unidades defectuosas observadas, obtener: a. P(X > 2) b. P(X < 1) c. La función de distribución acumulada d. Calcular e interpretar E[X] e. Calcular e interpretar S X . 3. Las ventas X de un determinado producto se modelan de acuerdo a la siguiente función: ¦ ¹ ¦ ´ ¦ = = . . . 0 4 , 3 , 2 , 1 ; 10 1 ) ( c o e x x x p a. Hacer la gráfica de la función y demostrar que es una función de cuantía. b. Calcular e interpretar E[X] c. Calcular e interpretar S X . PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 24 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco 4. Se tiene información sobre el tiempo X, en horas, de la llegada del primer cliente a un parque, cuya función se define como: ¹ ´ ¦ ≤ ≤ = . . . 0 1 0 ; 2 ) ( c o e x x x f a. Defina la variable aleatoria. b. Demostrar que la función corresponde a una función de densidad. c. Calcular la probabilidad de que el primer cliente llegue antes de media hora. Solución a algunos problemas propuestos 1. b) 4 . 0 ) 2 ( = ≥ X P a) E[ X ] = 1.45 ≈ 1, lo cual significa que la demanda promedio de la máquina es de 1 vez al día. 2. b) 4 . 0 ) 1 ( = < X P d) E[ X ] = 1 3. b) E[ X ] = 1 4. c) P( X< 0.5) = 0.25 PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 25 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Capítulo 3 ALGUNOS MODELOS DISCRETOS DE PROBABILIDADES Objetivos del capítulo: 4. Reconocer y aplicar modelos discretos comunes en situaciones concretas. 5. Estudiar y aplicar correctamente propiedades asociadas a algunos modelos discretos conocidos. 6. Valorar la importancia de la modelación en la comprensión y control de ciertos fenómenos empíricos. Muchos experimentos o fenómenos aleatorios derivan en una variable aleatoria con una distribución de probabilidades típica o característica. Así por ejemplo, la variable aleatoria definida como el número de "caras" que resulta al lanzar una moneda regular, tendrá siempre la misma distribución de probabilidades (cara → ½; sello → ½). Más general aún: si la probabilidad con que aparece una "cara" fuese igual a p, entonces la distribución de probabilidades de la variable será "cara → p; sello →(1-p)" Esto último generaliza la situación del lanzamiento de una moneda a experimentos en los que los únicos dos posibles resultados son de naturaleza excluyente (y también independientes uno de otro), y que podríamos nominar "éxito" y "fracaso". En este tipo de experimentos (y por lo tanto, variables) podemos tener procesos de control, en los que la unidad de observación se clasifica en "defectuosa" o "no defectuosa", y la variable es Número de artículos defectuosos (o no defectuosos). Por otra parte, se sabe que una distribución de probabilidades es conocida cuando se conoce su función de probabilidades (de cuantía o de densidad), su distribución acumulada, su función generadora de momentos, etc. En todos esos casos, además, es necesario conocer sólo un par de elementos de tal función (elementos que llamamos parámetros). Tal es el caso de la distribución anterior, que será conocida totalmente en cuanto se conozca p. La variable definida como "Edad de la persona" en un grupo de personas, por ejemplo, casi siempre tendrá una distribución de probabilidades que depende de dos parámetros (esta distrubución se verá más adelante). La variable definida como el número de accidentes que ocurren en un cruce transitado, también tiene una distribución de probabilidades que, bajo ciertos supuestos, será siempre del mismo tipo, dependiendo sólo de un parámetro. En síntesis, existen muchas variables aleatorias para las que, conocido el experimento aleatorio que la genera y sus parámetros, la distribución es siempre de una misma clase. Algunas de estas variables, o más propiamente llamadas distribuciones, son el tema central de este capítulo. 3.1. ENSAYOS BERNOULLI 3.1. ENSAYOS BERNOULLI 3.1. ENSAYOS BERNOULLI 3.1. ENSAYOS BERNOULLI Se llama Ensayo Bernoulli (llamado así a este tipo de experimentos en honor de Jackes Bernoulli, matemático suizo que vivió hacia la última mitad del siglo XVII (1654–1705)) a todo experimento que tiene sólo dos posibes resultados, genéricamente llamados "éxito" y "fracaso". La variable aleatoria asociada a este PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 26 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco tipo de experimentos se define como Número de éxitos en el ensayo (notar que X es discreta). De esta manera, si X es la variable correspondiente, entonces X=0,1. Además, si la probabilidad de observar un éxito (X=1) es p, entonces podemos anotar: p(0)=1–p y p(1)=p. Más aún, p(x) = p x (1–p) 1-x , para x = 0,1. Para la variable aleatoria X puede obtenerse fácilmente la media, varianza, y todas las otras características asociadas. Si X es una variable aleatoria con distribución Bernoulli de parámetro p, anotaremos X~Ber(p). Ejemplo 3.1. Sea X~Ber(p). Determinar E[X]. Solución. E[X] = Σxp(x) = 0·p(0) + 1·p(1) = 0·(1–p) + 1·p = p. ♦ 3.2. LA DISTRIBUCIÓN BINOMIAL 3.2. LA DISTRIBUCIÓN BINOMIAL 3.2. LA DISTRIBUCIÓN BINOMIAL 3.2. LA DISTRIBUCIÓN BINOMIAL La variable aleatoria binomial, o simplemente distribución binomial, se define como el número de éxitos observados en n ensayos Bernoulli independientes. Alternativamente, una variable aleatoria con distribución binomial corresponde a la suma de n variables aleatorias con distribución Bernoulli. Formalmente, un experimento binomial debe cumplir con los siguientes supuestos: 1. El experimento consta de n ensayos Bernoulli estadísticamente independientes. 2. Cada ensayo tiene sólo dos posibles resultados ("éxito" ó "fracaso"). 3. La probabilidad de éxito en cada ensayo es la misma, e igual a p. Si p es la probabilidad de éxito, se puede probar que la función de probabilidades (o función de cuantía) de la variable, digamos X, es: n x p p x n x p x n x , , 2 , 1 , 0 ; ) 1 ( ) ( L = − | | ¹ | \ | = − Notar que los parámetros de esta distribución son n y p. Es frecuente simbolizar la probabilidad de fracaso 1–p por q. Esta distribución es muy aplicada en procesos de control de calidad y todos aquellos fenómenos que resultan de una suma de ensayos del tipo Bernoulli. Para indicar que X es una variable aleatoria con distribución binomial, y de parámetros n y p, se anota X ~ bin(n;p). Ejemplo 3.2. Si el 20% de las piezas producidas por una máquina son defectuosas, determinar la probabilidad de que, de 4 piezas escogidas al azar: a) 1 sea defectuosa b) Más de dos sean defectuosas c) Determinar e interpretar E[X]. Solución. Como las piezas producidas por la máquina pueden ser o no defectuosas, la variable en estudio sólo tiene dos posibles resultados, por lo tanto esta variable aleatoria será una variable que se ajusta a un modelo PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 27 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco binomial. Así X: “número de piezas defectuosas”. Luego, los dos parámetros que definen la distribución son: n = 4 y p = 0.2. Así: a) ( ) 4096 . 0 ) 2 . 0 1 ( 2 . 0 1 4 1 1 4 1 = − | | ¹ | \ | = = − X P ; así la probabilidad de que en una muestra de 4 piezas se encuentre 1 defectuosa es de aproximadamente un 41%. b) 0272 . 0 9728 . 0 1 ) 2 . 0 , 4 ; 2 ( 1 ) 2 ( 1 ) 2 ( = − = − = ≤ − = > b X P X P ; así la probabilidad de que en una muestra de 4 piezas, se encuentren más de 2 defectuosas es de un 3% aproximadamente. c) | | 8 . 0 ) 2 . 0 ( 4 = = = np X E ; así el número esperado de piezas defectuosas en muestras de tamaño 4 es de 1 aproximadamente. ♦ 3.3. LA DISTRIBUCIÓN DE POISSON 3.3. LA DISTRIBUCIÓN DE POISSON 3.3. LA DISTRIBUCIÓN DE POISSON 3.3. LA DISTRIBUCIÓN DE POISSON La distribución de Poisson es otra distribución discreta, cuyo nombre se debe al matemático francés Simeon Denis Poisson (1781–1840), quien la introdujo en 1837. Tiene grandes aplicaciones en variados campos, especialmente en Biología y Medicina. Si X es el número de ocurrencias de un evento aleatorio en un intervalo de tiempo o espacio (o volumen), a una tasa constante λ, la probabilidad que ocurran exactamente x eventos por unidad de tiempo o espacio (volumen) está dada por: K , 2 , 1 , 0 ; ! ) ( = = − x x e x p x λ λ Notar que esta distribución tiene sólo un parámetro: λ. Si X es una v.a. con distribución de Poisson de parámetro λ, entonces se anota X ~ c(λ). Puede observarse, a partir de la definición, que: 1. Los eventos ocurren de manera independiente. 2. Teóricamente es posible que el evento pueda ocurrir infinitas veces en el intervalo. 3. La probabilidad que ocurra un evento en un intervalo es proporcional a la longitud del intervalo Son muchas las aplicaciones que tiene la distribución de Poisson, como representación estadística de fenómenos, especialmente de tipo físico–biológico. Entre ellos, y muy a modo de ejemplo, el número de bacterias en un cultivo, el número de llamadas que circulan por una red de transmisión, el número de cuerpos celestes en un volumen cósmico, etc. Ejemplo 3.3. En la central telefónica de cierta empresa se reciben en promedio 5 llamadas por minuto. a) Calcular la probabilidad de que se registren más de 7 llamadas en un minuto. b) Calcular e interpretar E[X]. Solución. Si se define la variable aleatoria X: “número de llamadas recibidas” y se advierte que sigue un modelo poisson, entonces λ = 5 x minuto. Así: a) ( ) ( ) 1334 . 0 8666 . 0 1 ) 5 ; 7 ( 1 7 1 7 = − = − = ≤ − = > p X P X P ; la probabilidad de que se reciban más de 7 llamadas es de un 13% aproximadamente. b) | | 5 = = λ X E ; el número esperado de llamadas por minuto es de 5. PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 28 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Aproximación de la Distribución Binomial por medio de la Distribución de Poisson Como se habrá advertido, cuando el número de ensayos Bernoulli es muy grande (ya sobre 30 ó 40), el uso de la relación funcional para calcular probabilidades binomiales se hace casi imposible. Este problema de cálculo puede resolverse usando una ley de aproximación de esta distribución, mediante la distribución de Poisson, la que se formula en el siguiente teorema: Teorema 3.1. Sea X una variable con distribución binomial de parámetros n y p. Si existe una constante λ tal que p = λ/n, entonces: L , 1 , 0 ; ! ) , ; ( 0 = = − → ∞ → x x e p n x p x p n lim λ λ Demostración. La demostración requiere de algunos resultados alegebraicos que, a nuestro juicio, no aportan mayormente a la comprensión de los conceptos probabilísticos en estudio. También requiere de algunos resultados de cálculo, específicamente de límite. Demostraciones pueden encontrarse en la bibliografía sugerida en el anexo. ♦ En términos prácticos, el teorema establece que en una situación límite (n → ∞; p → 0) la fórmula de la distribución binomial es la función de probabilidades de una variable Poisson, con parámetro λ = np. Ejemplo 3.4. Si la probabilidad que un individuo sufra una reacción desfavorable por una inyección de cierto suero es de 0.001, determinar la probabilidad que de 200 personas 2 o más sufran la reacción. Solución: En realidad, si X es el número de personas que sufren una reacción desfavorable por una inyección de suero, entonces, de entre 200, X ~ bin(n=200; p=0.001). Lo que se pide es la probabilidad que X≥2, esto es, P[X ≥ 2]. Pero P[X ≥ 2] = 1–P[X < 2] = 1–P[X ≤ 1]. Por otra parte, P[X ≤ 1] implica el cálculo de grandes factoriales, y habitualmente las tablas de probabilidades para la binomial no porporcionan éstas para un p tan pequeño como 0.001. Pero admitiendo que n = 200 es grande y que p = 0.001 es pequeño, se puede utilizar la aproximación anterior y resolver el problema usando como distribución aproximada de X una distribución c (λ = 200(0.001) = 0.2). Así, observado la tabla de probabilidades de la distribución poisson, P[X ≤ 1] = 0.0175. ♦ 3.4. LA DISTRIBUCIÓN HIPERGEOMÉTRICA 3.4. LA DISTRIBUCIÓN HIPERGEOMÉTRICA 3.4. LA DISTRIBUCIÓN HIPERGEOMÉTRICA 3.4. LA DISTRIBUCIÓN HIPERGEOMÉTRICA Cuando se hacen extracciones con reposición los resultados son independientes, por lo que este tipo de experimentos, en estricto, conducen a la distribución binomial. Experimentos en los que la extracción o selección de la unidad de observación es sin reposición son también de gran importancia, pero ellos conducen a otra distribución de probabilidades: la distribución Hipergeométrica. Esta distribución se relaciona con experimentos con dos o más resultados, en los que la probabilidad de éxito cambia de ensayo a ensayo (no hay independencia). Considérese una población de N unidades de observación, k de las cuales poseen cierta característica (y N - k no la poseen). Si se hace una elección aleatoria de una unidad en esta población, el resultado debe ser una de las k (éxitos) o una de las N - k (fracasos). Pero si se hacen n selecciones al azar, sin reposición, cada elección subsecuente es dependiente y la probabilidad de éxito cambia en cada extracción. En estas condiciones, si deseamos obtener x unidades del tipo k (éxitos), en una muestra aleatoria de tamaño n, el número de éxitos en esta situación se llama variable aleatoria hipergeométrica. Sus parámetros son, como se habrá notado, N, n y k. Su función de probabilidades es: PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 29 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco N n x N k x n N x n k N x k x p ≤ ≤ ≤ ≤ ≤ ≤ | | ¹ | \ | | | ¹ | \ | − − | | ¹ | \ | = 0 ; 0 ; ) ( Los experimentos que dan como resultado una variable con esta distribución incluyen, generalmente, el conteo del número de "éxitos" en una muestra tomada de un lote pequeño. Algunos ejemplos pueden ser el número de varones que forman parte de un comité de cinco, seleccionados al azar entre veinte empleados; o bien, el conteo de sistemas de alarma marca A, vendidos en tres operaciones en un almacén en el que había dos sistemas marca A y cuatro sistemas marca B. Ejemplo 3.5. En un estudio biológico se emplea un grupo de 10 individuos. El grupo contiene 4 personas con sangre tipo A y 6 con tipo B. ¿Cuál es la probabilidad que una muestra aleatoria de 3 contenga 1 persona con sangre tipo A? Solución: Notemos que la variable tiene distribución hipergeométrica, con N = 10, n = 3 y k = 4. Se pide P[X = 1]. Pero P[X = 1] = 1 . 0 3 10 1 3 4 10 1 4 = | | ¹ | \ | | | ¹ | \ | − − | | ¹ | \ | ♦ 3.5. EJERCICIOS Y PROBLEMAS 3.5. EJERCICIOS Y PROBLEMAS 3.5. EJERCICIOS Y PROBLEMAS 3.5. EJERCICIOS Y PROBLEMAS 1. Si X ~ bin(n;p), demostrar que E[X] = np y que Var[X] = np(1-p). 2. Para una variable aleatoria X ~P(λ), deducir las relaciones E[X] = λ y Var[X] = λ. 3. Si dos variables aleatorias se distribuyen conforme a un modelo Poisson, y son independientes, ¿puede concluirse que la suma de ellas sigue el mismo modelo? 4. El número de imperfecciones en el tejido de una tela tiene distribución de Poisson con un promedio de 4 (imperfecciones) por yarda cuadrada. a. Calcular la probabilidad que una muestra de una yarda cuadrada tenga por lo menos un defecto. b. Calcular las probabilidades que una muestra de tres yardas cuadradas tenga al menos un defecto. 5. Una empresa de la zona se dedica a la crianza de una especie particular de llamas, para mercados extranjeros. Lamentablemente no se tiene información respecto de el número de individuos que mueren en el proceso de crecimiento. Sólo se sabe que en promedio mueren alrededor de 8 individuos. Si se extrae una muestra de 25 individuos, a. ¿Cuál es la probabilidad de que el número de individuos que no sobrevivan al proceso de crecimiento exceda los 10 individuos? b. ¿Cuál es la variabilidad dentro de la cual debiera fluctuar el número de individuos muertos?, explique su resultado. PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 30 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco 6. Al inspeccionar la aplicación de cobre en un proceso productivo continuo, se descubre un promedio de 0.2 imperfecciones por minuto. Calcular las probabilidades de encontrar: a. Ninguna imperfección en un minuto dado. b. Una imperfección en tres minutos. c. Al menos dos imperfecciones en 5 minutos. d. A lo mucho una imperfección en 15 minutos. 7. En una empresa se arman lotes de 40 componentes cada uno, los que se consideran aceptables si no contienen más de 3 defectuosos. El procedimiento de muestreo del lote consiste en seleccionar 5 componentes aleatoriamente y rechazar el lote si se encuentra un componente defectuoso. ¿Cuál es la probabilidad de que exactamente 1 defectuoso se encuentre en la muestra, si existen 3 en todo el lote? Solución a algunos problemas propuestos 5. a) 23 . 0 ) 10 ( = > X P aproximadamente. c) Var[X] = 2.33; es decir el número de muertos debiera variar en, aproximadamente, 2 individuos en torno al valor promedio. 6. b) P(X = 1) = 0.33; dado que λ en este caso es 0.66. 7. P(X = 1) = 0.3011 PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 31 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Capítulo 4 ALGUNOS MODELOS CONTINUOS DE PROBABILIDADES Objetivos del capítulo: 7. Reconocer y aplicar modelos continuos comunes en situaciones concretas. 8. Estudiar y aplicar correctamente propiedades asociadas a algunas distribuciones continuas conocidas. 9. Valorar la importancia de la modelación en la comprensión y control de ciertos fenómenos empíricos. Al igual que en la caso discreto, hay infinidad de experimentos a los que se les puede asociar una variable de tipo continuo. Particularmente, hay muchos fenómenos que pueden "modelarse" por medio de una distribución de probabilidades de una variable continua. Tal es el caso, por ejemplo, de la edad en un grupo particular de personas (también la estatura, el peso, etc.); el tiempo de espera en una oficina de atención a público, el tiempo de falla de ciertas piezas electrónicas, etc. En general, suelen modelarse adecuadamente por medio de distribuciones continuas muchos fenómenos naturales (físicos, biológicos, etc.). Este capítulo trata, precisamente, de algunos de estos modelos, o más propiamente llamados distribuciones. Se presentan conceptos, ejemplos ilustrativos y algunas situaciones prácticas para el reforzamiento y aplicación por parte del alumno. 4.1. LA DISTRIBUCIÓN UNIFORME Es sin duda la distribución continua más simple. En un intervalo (a,b) supone que cada valor es igualmente probable. Sus aplicaciones van desde modelar el tiempo de llegada de un autobus a una estación de terminal, hasta la simulación por computadora de determinados fenómenos, incluidos fenómenos con determinada distribución. Por esto último, la distribución uniforme es la base de los sitemas computacionales de simulación. En el intervalo real (a;b) la función de densidad de una variable aleatoria con distribución uniforme está dada por ) ( 1 ) ( ) , ( x I a b x f b a − = . Para indicar que X se distribuye uniformemente en (a;b) se usa la notación X ~ U(a;b). Ejemplo 4.1. Cuando deja de funcionar una tarjeta de circuito integrado, un sistema de cómputo se detiene hasta que se entregue una tarjeta nueva. El tiempo de entrega X está uniformemente distribuído en el intervalo de uno a cinco días. El costo C de esa falla y la parada comprende un costo fijo c o de la refacción y un costo que aumenta en forma proporcional a X 2 , de modo que C = c o + c 1 X 2 . Calcular el costo esperado de una determinada falla del componente. Solución: Lo que se pide es E[C] = c o + c 1 E[X 2 ]. Pero como X~U(1;5), entonces ∫ = = = 5 1 2 2 3 31 4 1 ] [ x dx x X E . Por lo tanto, el costo esperado es E[C] = c o + c 1 3 31 . ♦ PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 32 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco 4.2. LA DISTRIBUCIÓN NORMAL Existe una gran variedad de fenómenos que, repetidos un número grande de veces, han demostrado que se pueden modelar por una determinada distribución de probabilidades. Ello ha dado origen al estudio de una similar variedad de variables aleatorias estrechamente relacionadas con tales fenómenos. En el caso discreto, por ejemplo, existe un número relativamente grande de fenómenos que se pueden modelar por una variable aleatoria discreta. El lanzamiento de una moneda es uno de los más clásicos fenómenos (experimentos) cuya distribución de probabilidades obedece a una regla bien específica, la llamada Regla de Bernoulli. Si el experimento consiste en lanzar 20 veces la misma moneda, entonces este experimento se puede modelar por la distribución de una v.a. discreta que se reconoce como Distribución Binomial. De entre todas las variables aleatorias con una distribución de probabilidades conocida, sin duda la más importante es la llamada variable aleatoria normal. Sin temor a equivocarnos en el uso del lenguaje, indistintamente se habla de variable aleatoria normal o de distribución normal. Por medio de este modelo (el modelo normal), se pueden estudiar diversas variables, tales como la estatura de las personas de una determinada población, el ritmo cardíaco en personas sin afecciones importantes aparentes, la velocidad del flujo sanguíneo, el número de hojas en una clase de plantas, la cantidad de árboles de cierta especie en un área específica. En general, mediciones relacionadas con datos meteorológicos, mediciones efectuadas en organismos vivos (animales o vegetales), mediciones físicas de partes manufacturadas, ciertos test de habilidad o inteligencia, pueden ser estudiadas como parte de esta distribución. Sin embargo, debe tenerse mucho cuidado al suponer una distribución normal, ya que de no ser así, las conclusiones obtenidas pueden distar mucho de la realidad, y ser, por lo tanto, absolutamente contradictorias en algunos casos. En 1733, De Moivre descubrió la fómula de la Distribución de Probabilidades de una v.a. Normal. Después la estudió Laplace, y en 1809 Gauss la citó en uno de sus artículos, bastando esto para que también se la conozca como Distribución Gaussiana. Durante el siglo XIX se empleó de manera extensa por científicos que habían notado que los errores, al llevar a cabo mediciones físicas, frecuentemente seguían un patrón que sugería la distribución normal. Esta distribución se caracteriza por dos parámetros, u y σ, y la función de distribución de probabilidades es la siguiente: ) ` ¹ ¹ ´ ¦ − − = 2 ) ( ² 2 1 exp 2 1 ) , | ( µ σ σ π σ µ x x f para 0 ; ; > ∞ < < −∞ ∞ < < ∞ − σ µ x . Los parámetros u y σ determinan en forma completa la distribución de probabilidades de una v.a. normal. Un estudio elemental de cálculo aplicado a esta función lleva a establecer las siguientes conclusiones: a. El gráfico de f (la densidad de la normal) es simétrico respecto a la recta x = u. b. El máximo de f se obtiene en x = u c. Los valores x = u ± σ son las abcisas de los dos puntos de inflexión de la curva. d. El gráfico de f tiene forma de campana, como se ilustra en la figura siguiente. Todas estas características configuran una forma gráfica muy particular de la función de densidad de una variable aleatoria normal. El siguiente es un gráfico típico de este tipo de densidades (los de la familia PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 33 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco normal). Por su forma de campana, y en honor a Gauss, a esta familia de curvas se le conoce también con el nombre de campana de Gauss. Curva típica de una función de densidad Normal El gráfico de la normal (o por lo menos su apariencia) es uno de los primeros elementos de diagnóstico de normalidad (o no-normalidad) de un conjunto de datos. Esto es importante tener en cuenta, ya que es de fundamental importancia en la Inferencia Estadística, como se verá posteriormente. En este sentido, el histograma de un conjunto de observaciones puede resultar realmente útil en el diagnóstico de normalidad. Se espera, bajo normalidad, que él (el histograma) presente una forma aproximada a la de la figura anterior. Si X es una variable aleatoria Normal, con parámetros u y σ, entonces se anota X ~ N(u ;σ) ó bien X ~ N(u ; σ²). Teorema 4.1. Si X ~ N(u ;σ), entonces E(X) = u y Var(X) = σ². Demostración. La demostración requiere el uso de coordenadas polares y algunos resultados de álgebra lineal, por lo que se deja su revisión en algunos de los textos sugeridos en el anexo.♦ Función de Distribución Acumulada La función de distribución acumulada de la normal corresponde, por definición, a P[X ≤ x] = F(x) y está dada por la integral dy y x F x ) ` ¹ ¹ ´ ¦ − − = ∫ ∞ − 2 ) ( ² 2 1 exp 2 1 ) , | ( µ σ σ π σ µ Esta integral no puede evaluarse en forma cerrada, pero sí se pueden encontrar valores aproximados para ella, usando métodos numéricos. En la figura siguiente ilustra la relación entre probabilidades acumuladas de la distribución normal y áreas bajo la curva de densidad de la variable. Probabilidad acumulada como área bajo la curva PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 34 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco La Variable Aleatoria Normal Estándar Como existe un número infinito de combinaciones de valores de u y σ, la evaluación de P[X ≤ x] se hace imposible. Sin embargo esto puede simplificarse mediante el proceso de estandarización, visto en el capítulo 3 de la unidad 1. La variable estandarizada correspondiente se denota por Z y recibe el nombre de variable aleatoria normal estándar. Su función de distribución acumulada, denotada por Φ(z) = P(Z ≤ z), se encuentra extensamente tabulada para un gran número de valores de Z (una muestra de esta tabulación se encuentra en el anexo). Además, estos mismos valores se encuentran implementados en la mayoría de los Software que se relacionan con elementos estadísticos, y en muchas calculadoras de tipo científico. Ejemplo 4.2. Sea X una variable aleatoria que representa la inteligencia medida por medio de pruebas CI. Si X ~ N(100, 10), hallar las probabilidades que X sea menor que 85. Solución: Lo que se pide es P(X < 85). Pero esto es equivalente a calcular: P[( X-100)/10 < (85-100)/10] = P(Z<-1.5) = Φ(-1.5). Este valor se encuentra en tablas, o se puede obtener por medio de alguna aplicación computacional. De la Tabla, el valor aproximado es 0.0668. La figura siguiente muestra la región asociada a la probabilidad normal estándar calculada. Gráfico mostrando Φ (-1.5) La región achurada en la parte de la derecha del gráfico muestra la equivalencia, gracias a la simetría, entre Φ(–1.5) y 1 – Φ(1.5). Este hecho se expresa en términos generales como Φ(z) = 1 – Φ(–z), y es una importante relación de cálculo. ♦ Algunas Propiedades De La Distribución Normal Por su naturaleza y sus múltiples aplicaciones, es de suponer que la distribución normal satisface un número importante de propiedades. Así es efectivamente, y a continuación enunciamos algunas de ellas. Teorema 4.1. (De De Moivre–Laplace): Sea X~bin(n;p). Entonces ∞ ← ⇐ − − = n N p np np X Y ) 1 , 0 ( ~ ) 1 ( Observación: La aproximación sugerida es cuanto mejor si np > 5 y p ≤ 0.5, o bien n(1-p) > 5 y p > 0.5. Demostración. Para la demostración consultar la bibliografía indicada en el anexo. ♦ Proposición 4.1. Sea X ~ N(u ; σ²). Entonces Y = a + bX ~ N(a + bu ; b²σ²). PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 35 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Demostración. Usar la función generatriz de momentos. ♦ Proposición 4.2. Si {X i } es una colección de variables aletorias N(u i ; σ i ²) independientes (muestra aleatoria), entonces ) ; ( ~ 2 ∑ ∑ ∑ i i i N X σ µ Demostración. Se sugiere usar inducción y aplicar proposición 4.1. ♦ Proposición 4.3. Si {X i } es una muestra aleatoria tal X i ~N(u i ;σ i ²),∀i y a i ∈ℜ, entonces ) ; ( ~ 2 2 ∑ ∑ ∑ ∑ + i i i i i i a a N X a σ µ Demostración. Se deja de ejercicio. ♦ 4.3. LA DISTRIBUCIÓN EXPONENCIAL Aunque la distribución normal tiene aplicaciones en múltiples campos o áreas de estudio, en modo alguno ello significa que todo proceso empírico, particularmente, pueda ser modelado por medio de esta distribución. Por ejemplo, la duración de ciertas componentes electrónicas tienen una distribución que no es, precisamente, normal: pocas de ellas tendrán vidas útiles muy cortas, muchas tendrán una vida cercana al promedio, y muy pocas tendrán una vida útil extraordinariamente larga. En otra situación, y continuando con situaciones ilustrativas, el ingeniero de transporte que observa el flujo de tráfico, frecuentemente se interesa en la longitud del intervalo de tiempo entre los arribos de vehículos a un punto. Por ejemplo, si un intervalo es demasiado corto, hará que un vehículo que intente cruzar o introducirse en el flujo de tráfico, se detenga o interrumpa el flujo. Este tipo de comportamientos puede modelarse adecuadamente por una distribución llamada exponencial. Sea X el tiempo que transcurre hasta el primer evento Poisson, mismo que ocurre a una tasa constante λ. Entonces la probabilidad que X >x es equivalente a que en el intervalo de tiempo de longitud x no ocurra evento Poisson alguno. Esto es, c Y (0), donde Y es una variable aletoria de Poisson con parámetro λx. En símbolos, x X e x F λ − − =1 ) ( . De aquí se deduce que la función de densidad de X está dada por: 0 ; ) ( ≥ = − x e x f x λ λ . Esto define la distribución exponencial, que denotaremos por Ε(λ). Describe el tiempo que transcurre hasta el primer suceso Poisson. Por lo tanto es una distribución continua. Dada la estacionariedad y la independencia de los procesos Poisson, e -λx es la probabilidad de que no ocurra ningún suceso en un intervalo cualquiera de tiempo de longitud x, comience o no en cero. Por razones que se entenderán mejor cuando se presente la distribución gamma, es frecuente denotar el parámetro λ por θ 1 . En este contexto, la función de densidad de la distribución exponencial es 0 ; 1 ) ( ≥ = − x e x f x θ θ . 4.4. LA DISTRIBUCIÓN GAMMA Un tipo o modelo de distribución más general que el modelo exponencial, a la hora de modelar fenómenos como los descritos a propósito de la distribución exponencial, es la distribución Gamma. Su función de densidad viene dada por: PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 36 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco { } ¦ ¹ ¦ ´ ¦ > > − Γ = − caso otro en x x x x f 0 0 , 0 exp ) ( 1 ) ; | ( 1 θ α θ θ α θ α α α Los parámetros de esta distribución son α y θ. La cantidad Γ(α) es la función gamma en α. Algunos detalles de la función gamma se presentan en el anexo. Para indicar que la variable aleatoria X tiene una distribución gamma con parámetros α y θ, se anota X ~ Γ(α ; θ). Volvamos a la distribución gamma. Entre muchas otras aplicaciones de la distribución gamma se pueden mencionar: – Aplicaciones a problemas de física, tales como tiempo que transcurre entre dos eventos dados de un fenómeno Poisson; tensión a la ruptura de ciertos materiales, etc. – Problemas relativos a lineas de espera. – Ingresos familiares, edad a la que un hombre contrae matrimonio por primera vez, etc. Sus principales características son: – Media igual a αθ – Varianza igual a αθ² – Función generatriz de momentos igual a α θ − − = ) 1 ( ) ( t t m X – ( ) θ θ α x x k x X P k k − | ¹ | \ | − = ≤ ∑ − = exp ! 1 1 ] [ 1 0 . Esta es una aproximación a la distribución acumulada. La distribución de Erlang: Un caso especial de la distribución gamma es cuando α∈ Z + . Esta distribución es conocida con el nombre de distribución de Erlang. 4.5. LA DISTRIBUCIÓN DE WEIBULL Establecida por el físico suizo del mismo nombre, la distribución de Weibull se ha empleado en los últimos años como modelo para situaciones del tipo tiempo–falla, relacionados con componentes mecánicos y electrónicos. PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 37 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Otra razón por la cual esta distribución es útil en el estudio probabilístico para tiempos de vida útil de componentes o sistemas, se encuentra en la distribución gamma. En efecto, ésta (la distribución gamma) puede servir como modelo para las situaciones señaladas. Sin embargo, la función del índice de riesgo (definida arriba) para la distribución gamma tiene una cota superior que limita su aplicabilidad a los sistemas reales. Por esta razón, y otras, a menudo son otras las distribuciones que dan mejores modelos de los datos de tiempos de vida útil. Una distribución de éstas es la de Weibull. Una variable aleatoria X se dice que tiene distribución de Weibull si su función de densidad tiene la forma: 0 ; ) ( 1 > = − − x e x x f x θ γ γ θ γ con γ y θ positivos. Notar que esto son los parámetros. Cuando γ = 1, la densidad se transforma en la densidad de una exponencial. Para γ > 1, la función es similar a la densidad de una distribución gamma, pero tiene algunas propiedades matemáticas un tanto distintas. Una manera cómoda de ver las propiedades de la densidad de la distribución de Weibull es usar la transformación Y = X γ . Si γ = 2, entonces puede observarse que Y = X² tiene una disrtibución exponencial. Esto es, inversamente, si se inicia con una variable aleatoria Y distribuída exponencialmente, entonces la raíz cuadrada de Y tendrá distribución de Weibull γ = 2. La distribución de Weibull es una distribución que regularmente se utiliza en problemas de tiempos de vida, debido a las propiedades de su función del índice de riesgo. 4.6. LA DISTRIBUCIÓN JI-CUADRADO Otra distribución de particular interés, especialmente por sus aplicaciones en la inferencia estadística, es la distribución Ji–cuadrado (o Chi–cuadrado), que presentamos a contuación: Sea X una variable aleatoria. Se dice que X tiene distribución Ji–cuadrado si y sólo si su función de densidad está dada por la expresión ¦ ¹ ¦ ´ ¦ > Γ = − − . . . 0 0 ; ) 2 ( 2 1 ) ( 2 2 2 2 c o e x e x x f x ν ν ν PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 38 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco El parámetro de esta distribución es ν, y se le conoce con el nombre de grados de libertad. Notar que el parámetro es un número entero. Para indicar que X tiene una distribución Ji–cuadrado con ν grados de libertad se anota X ~ χ²(ν). Puede notarse que la densidad de una distribución Ji–cuadrado es un caso particular de la densidad de una distribución gamma. En efecto, si en la densidad gamma hacemos 2 ν α = y θ = 2, entonces la densidad gamma es la densidad de una variable chi–cuadrado. La distribución acumulada de una variable aleatoria Ji–cuadrado se encuentra tabulada para algunos percentiles y un gran número de grados de libertad. Otra forma de obtener (o más bien construir) una variable con distribución Ji–cuadrado, es mediante la transformación Y = Z², donde Z es una variable aleatoria con distribución normal estándar. Esto es, una variable aleatoria Ji–cuadrado se puede obtener como el cuadrado de una variable normal estándar. En este caso, la variable Ji–cuadrado tiene un grado de libertad. Una generalización se obtiene mediante la suma de k variables aleatorias normales estándares, todas independientes. En este caso, la Ji–cuadrado resultante es una distribución con k grados de libertad. Esta definición es muy útil en muestreo, como en su oportunidad veremos. 4.7. LA DISTRIBUCIÓN T-STUDENT Hay una manera fácil de definir una variable aleatoria con distribución t–student, nombre debido al seudónimo con que W. Gosset la publicó después de desarrollarla en 1908. Esta manera es: Una variable aleatoria T con distribución t–Student se obtiene como la razón entre una variable aleatoria normal estándar y la raíz cuadrada de una Ji–cuadrado, independiente de la primera, donde ésta última ha sido previamente dividida por sus grados de libertad. La t–Student tiene, en consecuencia, un parámetro, y es el mismo que el de la Ji–cuadrado (los grados de libertad). En símbolos, ν ν t X Z T ~ = , donde X es una Ji–cuadrado con ν grados de libertad. La función de densidad, poco útil para efectos prácticos, puede verse en la mayoría de los textos de Estadística. En particular, en Canavos, página 235; Freund–Walpole, página 296. PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 39 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Al igual que la Ji–cuadrado, la función de distribución acumulativa de una variable t–Student se encuentra tabulada para ciertos percentiles y un importante número de grados de libertad. Puede demostrarse que esta distribución es simétrica respecto del origen (cero), asintótica respecto de la recta x = 0, y de forma gráfica muy similar al gráfico de la densidad de una normal estándar. Se sugiere hacer uso de software para obtener gráficos de la densidad de esta distribución para algunos valores de su parámetro. Es especialmente interesante el comportamiento del gráfico a medida que aumentan sus grados de libertad. 4.8. LA DISTRIBUCIÓN F-FISHER La distribución F se obtiene o se construye de la siguiente manera: Sean X ~ χ 2 (ν1) y Y ~ χ²(ν2) dos variables aleatorias independientes. Entonces la variable aleatoria definida como 2 1 ν ν Y X F = se dice que tiene distribución F de Fisher o de Snedecor. Sus parámetros son dos: los grados de libertad del numerador y los grados de libertad del denominador. Su aplicación, al igual que las dos distribuciones anteriores, se justifica en procesos de inferencia. Su función de distribución acumulada, también, se encuentra tabulada para algunos niveles de probabilidad y una gran combinación de grados de libertad. PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 40 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco 4.9. EJERCICIOS Y PROBLEMAS 1. Demostrar que si X ~ U(a;b), entonces 2 ] [ b a X E + = y 2 ) ( 12 1 ] [ a b X Var − = . 2. Verificar que para una variable aleatoria X ~ Ε(θ), que θ = ] [ X E y 2 ] [ θ = X Var . 3. La vida de servicio durante la que un determinado tipo de termisor produce resistencias dentro de sus especificaciones sigue una distribución de Weibull con γ = 2 y θ = 50 (mediciones en miles de horas). a. Hallar las probabilidades de que uno de esos termisores, que se ha de instalar en un sistema, trabaje en forma correcta durante más de 10 mil horas. b. Calcular la vida esperada para termisores de este tipo. 4. Deducir la función generatriz de momentos de una distribución Ji–cuadrado. Soluciones a algunos problemas propuestos 1. Las demostraciones se basan en la evaluación de algunas integrales muy elementales. 2. Al igual que el caso anterior, usar integración. 3. a. 0.14; b. 6270 horas PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 41 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco ANEXOS A. TEMAS COMPLEMENTARIOS En el capítulo 1, sobre probabilidades, se pudo apreciar que el cálculo de probabilidades tiene mucho que ver con la cantidad de elementos de un espacio muestral o de un evento, en el caso de espacios discretos. Determinar la cardinalidad (número de elementos) de un suceso a veces puede resultar no tan trivial. Por ejemplo, es fácil deducir el número de elementos del espacio muestral asociado al lanzamiento de un dado, e incluso puede resultar fácil determinar la cardinalidad del espacio muestral asociado al experimento de lanzar dos dados. Sin embargo, si el experimento consiste en definir una función entre dos conjuntos, entonces la determinación de la cardinalidad del espacio muestral puede complicarse por la cardinalidad de cada conjunto considerado en la definición de las funciones. Puede resultar casi demasiado obvio decir que el cálculo de probabilidades requiere, entre otros conceptos, de saber “contar”. Pero a veces este simple proceso de conteo puede significar enormes esfuerzos. Afortunadamente existen métodos matemáticos que facilitan este proceso de conteo y, por lo tanto, permiten un mejor y eficaz tratamiento de las probabilidades. Estas herramientas son los principios de conteo, que en este capítulo se presentan en relación a espacios muestrales finitos y discretos. A.1. ESPA A.1. ESPA A.1. ESPA A.1. ESPACIOS MUESTRALES FINITOS CIOS MUESTRALES FINITOS CIOS MUESTRALES FINITOS CIOS MUESTRALES FINITOS En el estudio de “lo que es posible” hay esencialmente dos tipos de problemas: el primero se genera al intentar realizar una lista de todo lo que puede suceder en una situación determinada, y el segundo consiste en determinar cuántas cosas diferentes pueden suceder, sin necesidad de hacer efectivamente la lista. Este último es de especial importancia pues en ocaciones necesitamos sólo el número de posibilidades y no la lista completa. Principios multiplicativos Existen algunas formas útiles en algunas situaciones y que facilitan considerablemente el “conteo”. Algunas de estas formas se agrupan en lo que se conoce como principios multiplicativos del conteo. También existen los principios aditivos, pero aquí no se tratarán. Principio básico: Si una selección consta de dos pasos, de los cuales el primero se puede efectuar de m formas, y la segunda se puede realizar de n formas, entonces, existen m · n formas de selección. Principio multiplicativo: Si una selección consta de k pasos, de los cuales el primero puede efectuarse de n 1 formas, el segundo de n 2 formas, y el k – ésimo se puede realizar de n k formas, entonces la selección total se puede hacer de n 1 · n 2 ·...· n k maneras. Ejemplo A.1. En una editorial, que empasta un libro de estadística aplicada, el cliente puede escoger entre 20 colores distintos y 8 grosores de las tapas. ¿De cuántas formas distintas un cliente puede hacer el libro? Solución. Ya que m = 20 y n = 8, entonces hay 20 · 8 = 160 maneras distintas de hacer el libro. ♦ Ejemplo A.2. En un casino universitario para el almuerzo se ofrecen 2 tipos de carne, 4 tipos de ensalada, 3 tipos de postre y 5 tipos de jugo. ¿Cuántos almuerzos distintos es posible seleccionar? Solución. Dado que n 1 = 2, n 2 = 4, n 3 = 3 y n 4 = 5; puede haber 2 · 4 · 3 · 5 = 120 almuerzos distintos. ♦ PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 42 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Permutaciones Definición A.1. Si se seleccionan r objetos de un conjunto de n objetos distintos, cualquier ordenamiento de estos objetos se conoce como permutación. El número total de ordenamientos en esas condiciones es igual: )! ( ! ) 1 )...( 2 )( 1 ( r n n r n n n n P r n − = + − − − = Ejemplo A.3. ¿De cuántas formas distintas es posible ordenar 12 libros, en grupos de 4? Solución. Para n = 12 y r = 4, es posible ordenarlos de 12 · 11 · 10 · 9 =11.880 formas. Otra forma de hacerlo es: )! 4 12 ( ! 12 4 12 − = P = 11.880. ♦ Nota: El número de permutaciones de n objetos distintos, en grupos de n a la vez:, es ! n P n n = Ejemplo A.4. ¿ De cuántas maneras se pueden asignar a 10 profesores, diez cursos de estadística? Solución. Si n = 10, se pueden asignar de: 3628800 ! 10 10 10 = = P . ♦ Combinaciones Definición A.4. El número de combinaciones en que se pueden seleccionar r objetos de un conjunto de n objetos distintos se llama combinatoria y se obtienen: )! ( ! ! r n r n C n r r n − = | | ¹ | \ | = Ejemplo A.5. ¿De cuántas maneras un alumno puede seleccionar tres libros de una lista de 8, indicados para un curso? Solución. Se supone que en esta ocasión el orden en que se seleccionan los tres libros no es importante, luego si n = 8 y r = 3, las formas de seleccionar son 56 ! 3 6 · 7 · 8 8 3 3 8 = = | | ¹ | \ | = C .♦ A.2. VECTORES ALERATORIOS A.2. VECTORES ALERATORIOS A.2. VECTORES ALERATORIOS A.2. VECTORES ALERATORIOS Un vector aleatorio X es un vector cuyas componentes son variables aleatorias. Así, por ejemplo, el vector X'=(X 1 ,X 2 )' es un vetor cuyas componentes X 1 y X 2 son variables aleatorias. La notación X' es para indicar que se trata de un vector columna. PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 43 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Para un vector aleatorio X tiene sentido definir su función de probabilidades si todas sus componentes son discretas, y la función de densidad de X si todas las componentes son continuas. Cualquiera de estas dos eventuales funciones satisfacen las siguientes propiedades: i. La función de probabilidades (densidad) es no negativa. ii. 1 ) ' ( ) ( = ∑ x R x p si X es discreto, o bien 1 ) ' ( ) ( = ∫ x R x f , si X es continuo. La función de distribución acumulada se define de manera análoga que en el caso univariado. Densidades conjunta, marginal y condicional En la tabla anterior se registra lo que para un vector aleatorio se llama función de probabilidad conjunta (o función de densidad conjunta, si se trata de variables o componentes continuas). Al igual que en probabilidades, la distribución de cada una de las componentes del vector es la función de probabilidades marginal (o densidad marginal). En el ejemplo, la función de probabilidades marginal de X 1 es el vector (0.6;0.4)', mientras que la marginal de X 2 es el vector (0.5;0.5)'. Definición A.5. La densidad condicional de (X 1 ;X 2 )’ se define por ) ( ) ; ( ) | ( 0 0 1 0 2 1 2 x f x x f x X x f X = = . Independencia de variables aleatorias Dos variables aleatorias son independientes si la densidad conjunta de ellas es el producto de las respectivas marginales. A.3. LA FUNCIÓN GAMMA A.3. LA FUNCIÓN GAMMA A.3. LA FUNCIÓN GAMMA A.3. LA FUNCIÓN GAMMA También se le conoce, simplemente, como función gama. Se simboliza (o denota) y define de la siguiente manera: ∫ ∞ = − > − = Γ 0 1 0 ; ) exp( ) ( x t t dx x x t Es una función muy práctica en la evaluación de integrales impropias. Entre sus propiedades más importantes (por no decir ¡sorprendentes!) están: • ! ) 1 ( n n = + Γ , ∀ n ∈ IN • ) ( ) 1 ( x x x Γ = + Γ ; ∀ x ∈ IR + • π = Γ ) 2 1 ( Ejemplo A.6. Evaluar la integral ∫ ∞ − 0 2 5 dx e x x . Solución. Notar que la integral es ) 2 7 ( Γ , ya que 1 2 7 2 5 − = . Por tanto, ) 2 5 ( 2 5 ) 1 2 5 ( ) 2 7 ( Γ = + Γ = Γ . Pero, a su vez, ) 2 3 ( 2 3 ) 1 2 3 ( ) 2 5 ( Γ = + Γ = Γ . Aplicando nuevamente la misma propiedad, se tiene que ) 2 1 ( 2 1 ) 1 2 1 ( ) 2 3 ( Γ = + Γ = Γ PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 44 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Ahora, completando la serie, π 8 15 ) 2 1 ( 2 1 2 3 2 5 ) 2 5 ( 2 5 ) 2 7 ( 0 2 5 = Γ = Γ = Γ = ∫ ∞ − dx e x x Otra forma de evaluar esta integral es usando la técnica de Integración por partes, sucesivamente, lo cual puede "complicarse" un poco. ♦ Ejercicios y problemas Ejercicios y problemas Ejercicios y problemas Ejercicios y problemas 1. Sean X y Y dos variables aleatorias con función de densidad conjunta definida por: ¹ ´ ¦ ≤ ≤ − = . . . 0 1 , 0 ) 1 ( 3 ) , ( c o e y x xy x y x f Verificar propiedades de f. Hallar además, las distribuciones marginales correpondientes, la función de distribución acumulada y la media del vector. 2. Consulte, en un texto de probabilidades, los conceptos de covarianza y de correlación, y aplíquelos al ejercicio anterior. ¿Puede deducirse que las variables del ejercicio anterior sean independientes (estadísticamente)? Explique. 3. Revisar los siguientes ejemplos de Freund–Walpole: ESTADÍSTICA MATEMÁTICA CON APLICACIONES. Prentice-Hall Hispanoamericana, S.A. México, 1990: EJEMPLO 3.13; EJEMPLO 3.14; EJEMPLO 3.15; EJEMPLO 3.16; EJEMPLO 3.22 y EJEMPLO 3.24. 4. Desarrollar los siguientes ejercicios del texto referido en el ejercicio 3 anterior: a. 1, 2, 3, 4, 7, 8, 12, 24, 25 y 26 de la sección 3.5. b. 1, 2, 4, 5, 17, 19 de las páginas 131, 132, 134 y 135. 5. Sean el vector aleatorio X ' = (X 1 , X 2 )' y la función definidos a continuación: X 2 0 2 0 0.2 0.3 X 1 1 0.4 0.1 Verificar que la función es una función de probabilidades. PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 45 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco B. RESUMEN DE LAS PRINCIPALES DISTRIBUCIONES DISCRETAS Distribución Definición/Usos Función de probabilidades Esperanza Varianza Bernoulli Ensayos individuales con dos posibles resultados (éxito; fracaso). Ej. Extraer una lámpara y observar su condición (buena o defectuosa) 1 , 0 ; ) 1 ( ) ( 1 = − = − x p p x p x x p p(1-p) Binomial Realización de n ensayos Bernoulli independientes, todos con probabilidad de éxito constante. ,... 2 , 1 , 0 ; ) 1 ( ) ( = − | | ¹ | \ | = − x p p x n x p x n x np np(1-p) Poisson Ocurrencia de eventos en el tiempo o en el espacio, de una manera aleatoria e independiente, y a tasa constante. K , 2 , 1 , 0 ; ! ) ( = = − x x e x p x λ λ λ λ Hipergeométrica Adecuada en muestreo sin reposición, y en poblaciones finitas. N n x N k x n N x n k N x k x p ≤ ≤ ≤ ≤ ≤ ≤ | | ¹ | \ | | | ¹ | \ | − − | | ¹ | \ | = 0 ; 0 ; ) ( N k n ) 1 )( 1 )( ( − − − N n N N k N k n PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 46 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco C. RESUMEN DE LAS PRINCIPALES DISTRIBUCIONES CONTINUAS Distribución Definición/Usos Esperanza Varianza Dist. Acumulada Uniforme Valores igualmente probables 2 ] [ b a X E + = 2 ) ( 12 1 ] [ a b X Var − = Elemental Normal Mediciones físico– biológicas; ciertos test de inteligencia; errores de medición; y muchas otras situaciones empíricas. u σ² Tablas Calculadora Software Gamma Tiempos de espera; problemas de tráfico, etc. αθ αθ² ( ) θ θ α x x k x X P k k − | ¹ | \ | − = ≤ ∑ − = exp ! 1 1 ] [ 1 0 Exponencial Tiempo entre dos eventos Poisson θ θ² Elemental Weibull Problemas de tráfico, etc. ) 1 1 ( 1 γ θ γ + Γ – } exp{ 1 θ γ x − − Ji–cuadrada Inferencia estadística. Análisis de Tablas de contingencia ν 2ν Tablas Calculadora Software T–Student ν ν t X Z T ~ = Inferencia estadística 0 2 ; 2 > − ν ν ν Tablas Calculadora Software F–(Snedecor) Fisher 2 1 ν ν Y X F = Inferencia estadística 2 ; 2 2 2 2 > − ν ν ν – Tablas Calculadora Software PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 47 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco D. PROBABILIDADES ACUMULADAS DE LA NORMAL ESTÁNDAR Probabilidades acumuladas para algunos valores de la variable aleatoria normal estándar Z z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09 __________________________________________________________ 0.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359 0.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753 0.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141 0.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517 0.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879 0.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224 0.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549 0.7 .7580 .7611 .7642 .7673 .7703 .7734 .7764 .7794 .7823 .7852 0.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133 0.9 .8159 .8186 .8212 .8238 .8264 .8189 .8315 .8340 .8365 .8389 1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621 1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830 1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015 1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177 1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319 1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441 1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545 1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633 1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706 1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767 2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817 2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857 2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890 2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9906 .9911 .9913 .9916 2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936 2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952 2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964 2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974 2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981 2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986 3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990 3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993 3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995 3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997 3.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998 3.5 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998 PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 48 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco E. SUGERENCIAS BIBLIOGRÁFICAS Para unA revisión bibliográfica tendiente a complementar o profundizar algunos temas tratados en esta unidad, a través de sus diferentes capítulos, se sugieren los siguientes títulos: 1. Canavos, G.: Probabilidad y estadística. Aplicaciones y métodos. McGraw-HiII, México, 1988. 2. Freund–Walpole: Estadística Matemática con aplicaciones. Prentice–Hall Hispanoamericana, S.A. México, 1990. 3. Scheaffer–McClave: Probabilidad y Estadística para Ingeniería. Grupo editorial Iberoamérica. México, 1993. FACULTAD DE INGENIERÍA DEPARTAMENTO DE CIENCIAS MATEMÁTICAS Y FÍSICAS ÁREA ESTADÍSTICA ESTADÍSTICA DESCRIPTIVA E INFERENCIAL Prof.: Juan Moncada Herrera Segundo semestre de 2008 ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 3 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco ESTADÍSTICA DESCRIPTIVA E INFERENCIAL ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 4 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco INDICE DE CONTENIDOS INTRODUCCIÓN ............................................................................................................................. 5 Capítulo 1. ESTADÍSTICA DESCRIPTIVA 1.1. LA INFORMACIÓN .............................................................................................................. 6 1.2. LA ESTADÍSTICA ................................................................................................................ 7 1.3. ESTADÍSTICA UNIVARIANTE .......................................................................................... 15 1.4. ESTADÍSTICA BIVARIANTE ............................................................................................. 25 1.5. EJERCICIOS Y PROBLEMAS.............................................................................................. 37 Capítulo 2. ESTIMACIÓN DE PARÁMETROS 2.1. ESTIMACIÓN PUNTUAL DE PARÁMETROS.................................................................. 42 2.2. ESTIMACIÓN POR INTERVALOS .................................................................................... 45 2.3. EJERCICIOS Y PROBLEMAS ............................................................................................ 46 Capítulo 3. HIPÓTESIS ESTADÍSTICAS 3.1. CONCEPTOS PRELIMINARES ........................................................................................... 48 3.2. HIPÓTESIS RESPECTO DE MEDIAS EN POBLACIONES NORMALES ....................... 51 3.3. INFERENCIAS RESPECTO DE PROPORCIONES ............................................................ 52 3.4. PRUEBAS DE HIPÓTESIS: Muestras pareadas ................................................................... 54 3.5. PRUEBAS DE BONDAD DE AJUSTE ................................................................................ 56 3.6. EJERCICIOS Y PROBLEMAS.............................................................................................. 61 ANEXOS A. INTERVALOS DE CONFIANZA COMUNES ..................................................................... 64 B. PRUEBAS DE HIPÓTESIS COMUNES ................................................................................ 65 C. SUGERENCIAS BIBLIOGRÁFICAS .................................................................................... 66 ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 5 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco INTRODUCCIÓN INTRODUCCIÓN INTRODUCCIÓN INTRODUCCIÓN En el tema Variables Aleatorias y distribuciones de Probabilidades se trataron conceptos relativos a probabilidades y variables aleatorias y distribuciones. De ellos, quizá el último tema, distribuciones de probabilidades, fue el que más relacionó los conceptos con situaciones prácticas. Esas aplicaciones, sin embargo, se plantearon sobre la base del conocimiento de las características de definición de las variables asociadas: los parámetros. En algunas situaciones la obtención de los parámetros pudo significar algún procedimiento más bien racional o analítico, pero en ningún caso un desconocimiento absoluto o muy importante de él. Corresponde ahora acuparnos de aquellos problemas que tienen un asidero un tanto más empírico. En este tipo de situaciones, como se verá a lo largo de esta unidad, lo fundamental estará, precisamente, en el desconocimiento de los parámetros. Como se sabe, cualquier afirmación o validación de ella requiere, en términos estadísticos, conocer de los parámetros de la distribución correspondiente. Deben hacerse esfuerzos, entonces, por lograr un acercamiento a esos parámetros lo más eficaz y eficiente posible, como una forma útil de llegar, finalmente, a levantar el conocimiento subyacente al problema que sea objeto de estudio. Básicamente de todo aquel proceso de acercamiento al parámetro, desde la forma de obtener la información necesaria para ello, sus análisis pertinentes y las conclusiones derivadas de esos procesos, trata esta segunda unidad. Se hace un llamado a leer el documento con atención, a trabajar en los problemas propuestos y rehacer aquellos ya resueltos. Esa práctica es la que irá consolidando una forma de trabajar, y por sobre todo, de pensar inteligentemente cada situación que en materia de investigación se vaya presentando. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 6 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Capítulo 1 ESTADÍSTICA DESCRIPTIVA Objetivos del capítulo: 1. Valorar la importancia de los métodos descriptivos en la comprensión y síntesis de la información. 2. Valorar la importancia de la inferencia estadística en la investigación científica. 3. Reconocer y aplicar métodos y procedimientos de resumen de información. 4. Interpretar resúmenes y representaciones de información. 1 11 1.1 .1 .1 .1. LA INFORMACIÓN . LA INFORMACIÓN . LA INFORMACIÓN . LA INFORMACIÓN Información al menos en el contexto de estas notas, es aquello que de alguna forma u otra nos da cuenta de alguna realidad, abstracta o concreta. En algunos casos la información puede llegarnos vestida de algún comentario al pasar, de un vistazo raudo a la primera página de un diario, a alguna característica que nos llamó la atención en nuestro cotidiano caminar. Otras veces nos llega a través de un medio más elaborado de comunicación, como un noticiero, un comentario estructurado de actualidad, o alguno panel de comentaristas especializados, En estos casos, es imporante notar nuestra voluntaria disposición a la recepción de la información. Una forma más elaborada por la que podemos obtener o recibir información, ocurre cuando somos nosotros quienenes definimos qué información deseamos poseer, y en función de este objetivo la definimos, le generamos, etc. Esto último, en sus definiciones más simples, corresponde o es papel de la Investigación. Pero, ¿para qué necesitamos la información? Esta pregunta es clave. Podríamos decir que para tomar decisiones, pero corremos el riesgo de no considerar en nuestra justificación algunos otros aspectos tanto o más importantes que una toma de decisiones. Puede ocurrir, por ejemplo, que el objetivo final de la información sea transformar nuestro medio de vida o de acción, y ya no decidir si cambiarlo o no. Por estas y muchas otras razones, es fundamental tener claridad respecto de la pregunta anterior. No olvidemos que a causa de la información se construyen puentes y caminos (información de la porosidad del suelo, de su resitenca, etc.), un gobierno decide si endeudarse o no (información de tipo económico, tendencias de precios, de inflación, y tanta otra). Por información se comete y se han cometido asesinatos (recuérdese la Guerra Fría), se han declarado las Guerras (y también se han terminado). En fin, hay muchas razones y muchos escenarios sobre los cuales se puede entender la información, o más bien SU MAJESTAD, LA INFORMACIÓN. Dada su enorme importancia, en todo contexto, el hombre ha hecho esfuerzos, desde siempre, por tener un acceso cada vez más directo a ella (a la información). Se han eliminado barreras, se ha dispuesto para cada vez más personas, etc. Un ejemplo de esto último lo constituye la Supercarretera de la Información, conocida mundialmente como INTERNET. Internet es un mundo sin fronteras, sin costo, sin orden. En síntesis, como alguien dijera, la más auténtica y necesaria Anarquía. Pero no se somete a la burocracia ni a las leyes, algunas veces absurdas, que se encargan de distribuirla. Internet es hoy día el ejemplo concreto de la importancia y utilidad de la información, y está abierta tanto para obtener información, como para proveerla. Exactamente. Cualquiera de nosotros puede "poner" información en esta Red del Mundo, y cualquier información. Lo que todo usuario de Internet (o de la información, más generalmente) necesita, es saber qué busca o qué necesita. Pero esto requiere de la respuesta a una cuestión previa: ¿Para qué? ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 7 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Bajo una perspectiva científica, la última pregunta debe analizarse en un contexto en el que la identificación o definición de un problema es relevante, por no decir vital. Es este problema o interrogante lo que permitirá definir la información. Pensemos en la siguiente situación: "Al profesor A le ha correspondido la jefatura del Curso B. Desde un comienzo ha detectado ciertos problemas de conducta, los que ha ido tratando con celo y profesionalismo, sobre todo por medio de charlas o lecciones de convivencia social. A pesar de lo mucho que ha hecho, no ha logrado controlar el curso en la forma que él desearía. Hay una pregunta que ronda por su mente: ¿Por qué?. Es la causa del problema lo que le aproblema, y por ello ha decisdido enfrentar el cómo analizar la situación" En lo anterior se ve un problema. En realidad lo que el maestro ha hecho es un diagnóstico de una situación, lo que en modo alguno significa que se conoce el problema. Éste estará controlado en la medida que conozcamos las causas que lo originan. El maestro entonces procede a elaborar una estrategia que le permita definir con claridad el problema, y por ende, delimitarlo. Para ello, consulta con profesores que anteriormente hayan trabajado con el curso, y también con quienes lo están haciendo en la actualidad. Además, ha construido un cuestionario, lo más completo posible a su entender, con el que recogerá información relativa a lugar de procedencia del alumno, nivel socioeconómico de los padres, nivel educacional de los padres y familiares, situación laboral y conyugal de los padres, hermanos, etc. En resumen, lo que busca es información, información que le permita perfilar al alumnado, que le permita explicar una realidad. Lograr explicar la realidad del curso es un proceso que puede resultar vital para el cambio de actitud de loa alumnos del curso. Por ello, los medios utilizados en el tratamiento de la información, así como la calidad de ésta, son fundamentales para el logro de los objetivos propuestos. También es fundamental la calidad de los instrumentos de recolección u obtención de información, ya que es un hecho que la calidad de los resultados es función de la calidad de los instrumentos utilizados en la obtención y tratamiento de la infor-mación. Al momento de analizar la información, nuestro profesor retornará, irremediablemente, a la realidad (el curso), y será sólo aquí que las conclusiones obtenidas tendrán sentido, porque él les habrá dado un sentido, y sobre esta base tomará las decisiones. 1.2. LA ESTADISTICA 1.2. LA ESTADISTICA 1.2. LA ESTADISTICA 1.2. LA ESTADISTICA Dada su importancia en materia de análisis y procesamiento de información, haremos una pausa en el caminar hacia el análisis para observar con algo más de detenimiento el concepto de estadística. Para ello, nada mejor (a mi juicio) que la lectura de unas notas que hace algunos años me facilitó un colega, el que a su vez las extrajo quién sabe de qué polvoriento archivo, pero que a nuestro juicio contienen en si un valiosísimo aporte para la comprensión, aunque parcial, de esta disciplina. ¿Qué es Estadística? La mayoría de la gente está familiarizada con el término estadística usado para indicar y registrar hechos numéricos y cifras: por ejemplo, las alturas de los rascacielos de la ciudad, el precio diario de artículos seleccionados en un almacén, el tonelaje de carga encargada a un barco durante los últimos 15 años o aún el número de yardas ganadas por el equipo campeón en un juego de fútbol. Sin embargo, este uso del término no es el foco central del tema. La estadística principalmente trata con situaciones en que la ocurrencia de algún evento no puede predecirse con certeza. Nuestras conclusiones son frecuentemente inciertas porque nos basamos en datos o información incompleta -valorar la actual tasa de desempleados en una región basado en una inspección de unos pocos miles de gente es un ejemplo. Incerteza surge también cuando observaciones repetidas de un fenómeno produce resultados variables aún cuando intentemos controlar los factores que regulan el evento que está siendo observado. Por ejemplo, los pinos de un año no tienen todos la misma altura, aún cuando hayan germinado y crecido en el mismo semillero bajo idénticas condiciones ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 8 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco meteorológicas y de terreno. El tiempo para cortar el césped, el peso de un pollo de seis semanas criado en una granja y el período de alivio de una fiebre después de tomar cierta medición son otros ejemplos de situaciones en las cuales aparece la variabilidad en observaciones repetidas. La estadística es un cuerpo de conceptos y métodos usados para coleccionar e interpretar datos relativos a un área particular de investigación y para extraer conclusiones en situaciones en que estén presentes la incerteza y la variación. Históricamente, la palabra "estadística" se deriva de la palabra latina "status" que significa "estado". Por varias décadas, estadística fue asociada únicamente con la exposición de hechos y cifras económicas, demográficas y situaciones políticas predominantes de un país. Aún hoy día, una gran cantidad de informes gubernamentales que contienen documentación numérica masiva y llevan títulos como "Estadísticas de la Producción Agraria" y "Estadística Laboral" son residuos del origen de la palabra "estadística". Una importante parte del público en general todavía tiene el concepto erróneo que la estadística está exclusivamente asociada con traumáticos arreglos de números y a veces desconcertantes series de gráficos. Por lo tanto, es esencial recordar que la teoría y metodología de la estadística moderna han hecho gigantes avances fuera de la mera compilación de tablas y gráficos numéricos. Como un tema, ahora la estadística abarca conceptos y métodos que son de gran importancia en toda investigación que involucre recolección de datos, mediante un proceso de experimentación y observación, y realizar inferencias u obtener conclusiones mediante el análisis de tales datos. La exposición numérica ha llegado a ser un aspecto menor de la estadística y pocos, si los hay, profesionales estadísticos gastan su vida únicamente construyendo tablas y gráficos. Estadística en la vida diaria El descubrimiento de hechos a través de la colección e interpretación de datos, no está limitada a investigadores profesionales, sino que ha penetrado a la vida diaria de toda la gente que hace lo posible, consciente o inconsciente, por entender materias de interés referente a la sociedad, condiciones de vida, el ambiente y el mundo en general. El enterarnos acerca del estado del desempleo, contaminación por desechos industriales, el rendimiento de los equipos de fútbol, la efectividad de los analgésicos y otros intereses de la vida contemporánea recogen hechos y cifras y luego las interpretamos o intentamos entender las interpretaciones que otros hacen. Así, estamos aprendiendo cada día a través de un frecuente análisis implícito de información. Fuentes de información varían desde la experiencia individual a informes en los medios informativos, documentos gubernamentales, y artículos en revistas especializadas. Pronósticos del tiempo, informes de mercado, índices del costo de vida y los resultados de encuestas públicas de opinión son otros ejemplos. Los métodos estadísticos sin empleados ampliamente en la preparación de tales informes. Informes que son basados en sólidos razonamientos estadísticos y la cuidadosa interpretación de las conclusiones serán genuinos e informativos. Frecuentemente, sin embargo, el deliberado o inadvertido mal uso de la estadístiva conduce a conclusiones erróneas y distorsionadas de la realidad. Para el público en general, los consumidores básicos de estos informes, es esencial algunas ideas de razonamiento estadístico para una adecuada interpretación de los datos y evaluación de las conclusiones que son extraídas. El razonamiento estadístico da criterios para determinar qué conclusiones están realmente basadas en datos y cuáles no. En todos los campos de estudios en donde las inferencias son extraídas de análisis de los datos, la credibilidad de las conclusiones también depende en gran medida del uso de los métodos estadísticos en la etapa de colección de los datos. Los métodos estadísticos juegan un papel importante en un estado democrático moderno. Por ejemplo, si los dirigentes elegidos pueden determinar los deseos de sus electores mediante un adecuado y rápido método de muestreo, así la formulación de los programas políticos pueden estar más acorde con la voluntad del pueblo. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 9 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Estadística e investigación científica La importancia fundamental de la metodología estadística es mejor apreciada cuando se inspecciona a la luz del proceso general del saber: el método científico. Aunque la investigación científica no esté rígidamente estructurada, puede describirse como un proceso de gasto de esfuerzo para aprender acerca de regularidades ocultas de algunos aspectos los cuales aparecen en un mundo caótico. Modelos o teorías son postulados tentativos que tratan de explicar un fenómeno, deducciones lógicas son derivadas desde el modelo postulado y luego medidas con los descubrimientos reales, el modelo es modificado y continúa la búsqueda de unas mejores explicaciones. Los detalles del proceso científico son tan diversos como las disciplinas en estudio, pero algunos pasos básicos que forman la base de la mayoría de las investigaciones científicas son las siguientes: – Especificación de objetivos: Cuando el estado actual de conocimiento respecto a algo de interés es considerado inadecuado, los métodos de investigación pueden ser considerados para mejorar la comprensión. Esto podría además ser enfocado sobre metas más específicas tales como demostrar una nueva teoría o escrutar una teoría existente con respecto al alcance de las deducciones lógicas extraídas, verificándolas mediante descubrimientos reales. En algunas situaciones, la meta puede ser simplemente la creación de una base de datos de información que en forma precisa refleja el estado actual del asunto. Por ejemplo, las cantidades promedio de tiempo gastado semanalmente en recreación podrían ser recopiladas para estudiar las componentes del uso del tiempo de los estudiantes. Otras veces, el objetivo puede ser más extenso y no sólo adquirir una comprensión de los factores que influyen en un ambiente, sino también determinar las posibilidades de su uso en el control o modificación de algunas facetas del fenómeno. Un objetivo de esta forma es la comprensión de la química de los desperdicios sólidos dispuesta en una planta y su uso consiguiente para la purificación del agua de un río circundante. – Recolección de información: La información objetiva, dependiendo del propósito del estudio, es decisiva en cualquier investigación. Este proceso puede involucrar una amplia variedad de actividades, abarcando desde elaborados experimentos en ambientes controlados, a ensayos de terreno, investigaciones socioeconómicas y encuestas y también registros históricos. En la era actual la progresiva instrumentación y mecanización en la cantidad de observaciones es un hecho habitual. La información es típicamente recolectada en la forma de datos, los cuales numéricamente miden algunas características o registran alguna característica cualitativa poseida por los individuos o elementos bajo estudio o ambos. – Análisis de los datos: Los datos coleccionados mediante un apropiado proceso de experimentación u observación sirven como la fuente básica para adquirir nuevos conocimientos acerca de la materia bajo estudio. Es entonces necesario examinar el conjunto de datos y extraer información pertinente en las conclusiones surgidas en la especificación de objetivos. Un cuidadoso análisis de datos es decisivo para establecer el nuevo conocimiento adquirido y para evaluar su validez y sus debilidades. – Informe de los descubrimientos: La significancia de la información suministrada por los datos debe entonces ser ponderada en el contexto que se conocía en la etapa inicial de la investigación cuando se especificaron los objetivos. – Objetivos: Los análisis de datos están diseñados para responder a preguntas como: "¿Qué generalidades pueden extraerse del fenómeno bajo estudio a partir de las evidencias suministradas por los datos?". "¿Contradicen los datos una conjetura ya establecida?". "¿Los datos sugieren una nueva teoría para explicar el fenómeno?". Los resultados del análisis son luego empleados para responder estas preguntas y también para medir el grado de incerteza involucrada en las respuestas obtenidas. La ciencia frecuentemente toma la forma de revisión sugerida de una teoría existente la cual puede necesitar una investigación adicional a través de la colección y análisis de los hechos. Así la naturaleza básica del conocimiento es típicamente una repetición de este ciclo en una u otra forma. Raramente, es una verdad descifrada en una o aún en pocas operaciones del ciclo y cambiando las condiciones en muchos campos demanda una continuación indefinida del proceso de repetición. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 10 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco El papel de la Estadística en la investigación científica La esencia de la estadística se compone del arte y la ciencia de la recoleccion, interpretación y análisis de datos y la habilidad para extraer generalidades lógicas relativas al fenómeno bajo investigación. Desde el punto de vista de las etapas esenciales del método científico descrito, es claro que la estadística penetra el dominio de toda investigación cientifica. Específicamente en la etapa de recolección de información, la estadística guía al investigador hacia los caminos y medios apropiados para recoger datos o información, incluyendo una determinación de tipo y extensión de los datos, de modo que las conclusiones extraídas de un análisis pueden ser establecidas con un cierto grado de precisión. En las áreas de estudio en las cuales la experimentación es costosa, el tipo y cantidad de datos requeridos para suministrar un nivel deseado de verosimilitud en las conclusiones se debe determinar cuidadosamente con anticipación. En otras áreas, también tales decisiones son decisivas para la validez y eficacia esencial de las conclusiones extraídas de un análisis de los datos. La rama de la Estadística que trata con la planificación de los experimentos se llama diseño de experimento y la que trata con la definición recolección de información diseño de muestreo. Después que los datos han sido recolectados hay una gran necesidad por los métodos estadísticos. Algunos de estos métodos están diseñados para resumir la información contenida en los datos y llamar la atención sobre las características sobresalientes y no hacer caso de los detalles no esenciales. Un grupo más importante de métodos para analizar los datos están dedicados a extraer generalidades o inferencias respecto del fenómeno bajo estudio. El tópico que trata con los métodos estadísticos que resumen y describen las características sobresalientes de los datos usualmente se conoce como estadística descriptiva. Aunque históricamente la primera actividad, hoy día resúmenes descriptivos son sólo una estrecha parte de la esfera de actividades que caen bajo el alcance del tema de la estadística. Uno de los principales avances en la materia es, actualmente, la evaluación de la información presente en los datos y la valoración del nuevo aprendizaje ganado a partir de esta información. Esta es el área estadística inferencial y sus métodos asociados son conocidos como los métodos de la inferencia estadística. El uso de estos métodos proporciona una base de razonamiento para interpretar lógicamente los hechos observados, para fijar la amplitud en la cual estos hechos soportan o conducen un modelo postulado y para sugerir precisas revisiones de la teoría existente o quizá para planificar investigaciones adicionales. Las diferentes áreas de la estadística mencionadas anteriormente no son entidades disjuntas pensadas para usar cada una en etapas únicas de una investigación. Más bien, ellas están integradas en un sistema entrelazado de actividades donde los métodos usados en un área pueden tener fuertes influencias de aquellos usados en las otras áreas. Para decidir sobre el proceso y la dimensión de los datos que serán recolectados, se debe tener una percepción de los procedimientos deductivos contemplados para usar y la potencia de las inferencias anheladas. Por otro lado, los métodos de análisis de datos y extractores de conclusiones son fuertemente contingentes con el proceso por el cual fueron generados los datos. Situaciones ilustrativas de la recolección y análisis de datos Para clasificar las generalidades precedentes se darán aquí algunos pocos ejemplos. Ellos ilustran algunas situaciones típicas en que el proceso cognitivo de investigar un fenómeno involucran la recolección y análisis de datos en que los métodos estadísticos son consecuentemente conocimiento auxiliar indispensable para una relación sobre analisis se sugiere ver el anexo. – Producción de Vegetales: Experimentos que involucran la fertilización de diferentes tipos genéticos de especies vegetales para producir híbridos de alto rendimiento son de considerable interés para los científicos agrícolas. Como un ejemplo simple, supongamos que la producción de dos variedades de ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 11 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco híbridos serán comparados bajo condiciones climáticas específicas. La única forma para conocer el rendimiento relativo de estas dos variedades es sembrarlas en un cierto número de sitios, coleccionar los datos sobre sus rendimientos y luego analizarlos. – Diagnósticos Clínicos: La detección precoz es de eminente importancia para el tratamiento quirúrgico exitoso de muchos cánceres. Debido a que frecuentes chequeos en hospitales son caros e inconvenientes, los m‚dicos buscan procesos de diagnósticos efectivos que los pacientes puedan autoadministrarse. Para determinar los méritos de los nuevos procesos en término de sus tasas de éxito en detectar casos verdaderos y evitar detecciones falsas, el proceso debe ser ampliamente probado en un gran número de personas, que deben entonces sobrellevar chequeos en hospitales para comparación. – Programas de Entrenamiento: Programas de entrenamiento o enseñanza en muchos campos, diseñados para un tipo específico de clientes (estudiantes, trabajadores industriales, grupos de monitores, incapacitados físicos, niños retrasados, etc.) son continuamente controlados, evaluados y modificados para mejorar su utilidad en la sociedad. Para conocer acerca de la efectividad comparativa de diferentes programas, es esencial coleccionar datos sobre el logro o desarrollo de habilidad de materias en la completación de cada programa. – Migración Animal: Los biólogos estudian los hábitos migratorios de aves y animales marcándolos con números de identificación en localizaciones geográficas relevantes y posteriormente rastreándolos en otras localizaciones. Los datos obtenidos por tales métodos no sólo nos ayudan a entender el mundo animal sino que ellos también alertan a los conservacionistas de situaciones que requieren acciones para proteger a las especies dañadas. – Inspecciones Socioeconómicas: En las áreas interdisciplinarias de la sociología, economía y ciencias políticas, se emprenden estudios en aspectos tales como el bienestar económico de diferentes grupos étnicos, patrones de gasto en diferentes niveles de ingreso y actitudes hacia la legislación pendiente. Tales estudios son típicamente basados en datos obtenidos mediante entrevistas o contactando una muestra representativa de personas seleccionada mediante un proceso estadístico de una gran población que forma el dominio de estudio. Los datos son luego analizados y se hacen interpretaciones del punto en cuestión. Población y muestra Aunque los ejemplos anteriores están extraídos de una amplia variedad de campos y solamente se dan superficiales descripciones del alcance y objetivos de los estudios, son fácilmente visibles algunas características comunes. Primero, la característica fundamental más aparente en todas estas áreas de estudios es el hecho que la colección de datos mediante un proceso apropiado de experimentación u observación es esencial para adquirir nuevos conocimientos. Segundo, es inevitable alguna cantidad de variabilidad en los resultados a pesar del hecho que las mismas condiciones o similares prevalecen durante las repeticiones de cada experimento u observación. Por ejemplo, en el caso de los vegetales, es irreal esperar que cada planta de una variedad particular tenga exactamente el mismo rendimiento, ya que la naturaleza no sigue una ley rígida. Análogamente, un programa de entrenamiento para individuos con condiciones similares produce variabilidad en las medidas de sus logros. La presencia de alguna variación inherente a los resultados y bajo condiciones experimentales constantes tiende a obscurecer el efecto de un cambio en estas condiciones. Un ingrediente importante del análisis estadístico de datos es la formulación de modelos apropiados que representen la variabilidad intrínseca encontrada en la naturaleza. Una tercera característica notable de los ejemplos del punto anterior es el hecho que es físicamente imposible o prácticamente no factible coleccionar y estudiar un conjunto de datos pertenecientes a un área específica de investigación. Cuando se obtienen los datos de experimentos de laboratorios o ensayos de terreno, no importa cuantas experimentaciones han sido realizadas, siempre puede obtenerse un número mayor. En opiniones públicas o ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 12 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco en estudios de gastos de los consumidores una colección completa de información podría emerger sólo si los datos fueran recolectados de cada individuo en la nación. Por ejemplo, para coleccionar un conjunto completo de datos relativos al daño sufrido por todos los coches de un cierto modelo y año por colisiones en una velocidad específica, cada coche de ese modelo salido por las líneas de producción debería ser sometido a colisión. El conjunto completo de observaciones que podría coleccionarse haciendo repeticiones ilimitadas de un experimento o manteniendo un registro minucioso de todos los elementos dentro del alcance del estudio es demasiado enorme que podemos, en el mejor de los casos, visualizarlo en nuestra imaginación. Tal inmenso conjunto de datos puede ser considerado como la fuente de información completa, pero las limitaciones de tiempo, recursos y medios y a veces la naturaleza destructiva de la prueba, significa que debemos trabajar con información incompleta lo cual corresponde a los datos que son realmente recolectados en el curso de un estudio experimental. Las ideas fundamentales emanadas de nuestra discusión aclaran una distinción entre el conjunto de datos que es realmente obtenido a través de un proceso de observación y la enorme colección de todas las observaciones potenciales que se pueden originar en un contexto dado. La nomenclatura estadística para la primera es muestra y para la última es población, población estadística o población objetivo. (Una definición general de una población debe ser pospuesta hasta que se introduzcan varios otros conceptos). Para enfatizar la distinción entre muestra y población en esta etapa consideraremos situaciones en que cada medida (o registro de un rasgo cualitativo) en un conjunto de datos se origina de una fuente distinta llamada unidad de muestreo o más simplemente unidad. Estas fuentes pueden ser árboles, animales, granjas, familias u otros elementos, dependiendo del dominio del estudio. Los datos muestrales consisten entonces de medidas correspondientes a una colección de unidades que son incluidas en un experimento real. Esta colección forma parte de una colección mucho más grande de unidades, acerca de la cual deseamos hacer inferencias. El conjunto de medidas que podrán resultar si todas las unidades de la colección mayor pudieran ser observadas, se define como la población. Una población (población estadística) es el conjunto completo de medidas posibles o el registro de algún rasgo cualitativo correspondiendo a la colección entera de unidades para las cuales serán hechas las inferencias. La población representa el objetivo de una investigación y el objetivo del proceso de colección de datos es extraer conclusiones acerca de la población. Una muestra de una población estadística es el conjunto de medidas que son realmente recolectadas en el curso de la investigación. Algunos detalles adicionales deberían clasificar las diferencias entre los conceptos de población y muestra. Es importante notar que en contraste con su uso ordinario el término "población" en Estadística no implica una colección de seres vivos. Una población estadística es una colección de números que representan la totalidad de mediciones de alguna característica del grupo completo de unidades que son objeto de una investigación. La característica puede o no estar asociada con una población humana. En el estudio del rendimiento de un tipo particular de vegetal bajo condiciones climáticas específicas la población estadística de rendimientos es la colección de todas las medidas de producción que imaginariamente puedan ser recogidas si el vegetal fuera extensamente cultivado en todas las localizaciones geográficas con condiciones climáticas particulares y este proceso fuera repetido año tras año. En este contexto la población estadística no tiene nada que ver con cualquier población humana. Además deseamos aprender acerca del concepto abstracto de la totalidad de las medidas de producción. Una muestra es una parte de esta población infinita o el conjunto de las medidas de rendimiento realmente registradas en el curso de un experimento que resulta de sembrar un número de vegetales en unas pocas localizaciones con las condiciones climáticas dadas. Obviamente los datos muestrales variarán cuando se repita este experimento en ocaciones diferentes, mientras que la población (aún cuando no existe en la realidad) es considerada como un cuerpo estable de números a ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 13 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco pesar de que el conjunto puede ser inmensamente grande e irregistrable. El costo de la mantención anual de coches de todas las familias de Estados Unidos durante 1977 es un ejemplo de este tipo de población. Desde nuestra percepción de una población estadística como el compendio de todas las observaciones potenciales en alguna faceta de la naturaleza, el proceso de investigación experimental puede ser considerado como un esfuerzo por obtener una comprensión de la población sobre la base de información incompleta recolectada mediante el muestreo. El tema de la estadística de la metodología para realizar inferencias inductivas respecto de la población a través de la colección y análisis de los datos muestrales. Estos métodos permiten deducir generalizaciones plausibles y luego medir el grado de incerteza bajo estas generalizaciones. Los conceptos estadísticos son tambien esenciales durante la etapa de planificación de una investigación cuando deba tomarse decisiones, como el modo y la dimensión del proceso de muestreo, de manera que los datos adecuadamente informativos puedan ser generados dentro de las limitaciones de los recursos disponibles. Los objetivos principales de la Estadística son: (a) Realizar inferencias de una población a partir de un análisis de la información contenida en los datos de la muestra, y (b) hacer evaluaciones del grado de incerteza involucrado en estas inferencias. Un tercer objetivo, no menos importante, es deseñar el proceso y la dimensión del muestreo de modo que las observaciones constituyan una base para extraer inferencias válidas y precisas. El diseño del proceso de muestreo es frecuentemente el paso más importante, especialmente en experimentos controlados en que diferentes factores que influyen en las mediciones pueden ser preplanificados. Un buen diseño para el proceso de colección de datos permite hacer un íntegro análisis y eficientes inferencias mientras que los sofisticados métodos de análisis de datos en sí mismo no salvan a mucha información de los datos producidos por experimentos deficientemente planificados. Estadística interactuando con otros campos Los primeros usos de la estadística en la estereotípica recopilación y pasiva presentación de datos, ha sido grandemente reemplazada por el moderno papel de suministrar herramientas analíticas con las cuales los datos pueden ser eficientemente recolectados, entendidos e interpretados. Los conceptos y métodos estadísticos permiten validar las conclusiones acerca de la población que se obtuvieron a partir de la muestra. Dado su extenso objetivo, el tema de la estadística ha penetrado en todos los campos del esfuerzo humano en que la verificación de afirmaciones y la ramificación de la información debe ser fundamentada en evidencias basadas o apoyadas en los datos. Los pocos ejemplos breves dados en el punto 5 no intentan demarcar la esfera de las aplicaciones estadísticas sino que se presentan para ilustrar la diversividad de aplicaciones estadísticas. El uso de métodos estadísticos en diferentes áreas de las humanidades, ciencia e ingeniería ha producido muchos tópicos interactivos, tales como la bioestadística, sicometría, ingeniería estadística, estadística económica, econometría y demografía. En muchas otras áreas en que los nombres compuestos no han surgido todavía, la materia de estadística juega un papel fundamental. Los conceptos básicos y el centro de la metodología son casi idénticas en todas las diversas áreas de la estadística aplicada. Surgen diferencias en el énfasis, debido a que ciertas técnicas son más útiles en una cierta área que en otra. Sin embargo, debido a la fuerte similaridad metodológica, los ejemplos extraídos de un ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 14 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco amplio rango de aplicaciones estadística son útiles para crear una comprensión básica de diferentes métodos estadísticos, su uso potencial y sus vulnerabilidades al mal uso. Algo más sobre terminología estadística Ya se han presentado conceptos tales como muestra, población y otros. A continuación formalizaremos un poco más algunos de estos conceptos. Población: Entenderemos población como el conjunto de toda la información disponible o posible de disponer en un momento dado o en una situación dada. Esta información puede ser cuantitativa o cualitativa, dependiendo de si es de naturaleza numérica o no-numérica, respectivamente. Podemos decir que la información es la clave de éste y otros conceptos. Particularmente, la información es la que puede ser cuantitativa o cualitativa. Aquello que contiene la información se conoce con el nombre del variable. Entonces, otra forma de referirnos a lo anterior es: la población no es más que un conjunto de variables, y las variables pueden ser cuantitativas o cualitativas (o numéricas o no-numéricas). Muestra: Una muestra es un subconjunto de la población. En este sentido una muestra puede contener algunas variables de las que conforman la población o parte de todas ellas. Por ejemplo, en un estudio sobre la concentración de almidón en el trigo, la población puede consistir de la cantidad de granos/espiga, peso del grano, color del grano, diámetro del grano y concentración de almidón por espiga(ppm); observaciones realizadas sobre un total de 100 espigas. Aquí las cien espigas delimitan la cantidad de observaciones que se efectuarán sobre las otras variables, pero en sí no constituyen la población, sino el tamaño de ella. Lo que verdaderamente constituye la población son las observaciones que sobre las variables se efectúen. Al respecto, las variables son cantidad de granos/espiga, peso del grano, color del grano, diámetro de grano y concentración de almidón por espiga (notemos la presencia de variables cuantitativas y cualitativas en esta población). Una muestra de esta población puede consistir de 20 observaciones sobre todas las variables, o bien una cantidad de observaciones sobre tres de las seis variables. Una cuestión importante es determinar la "mejor" muestra, tema que no es de este curso. Parámetros y estadísticos: Cuando se obtienen medidas de resumen en una población, tales como promedios, totales, etc., estas características reciben el nombre de parámetros. Si estas medidas son obtenidas a partir de una muestra, entonces reciben el nombre de estadísticos o estadísticas o estadígrafos. En resumen, los parámetros son características (numéricas) fijas de la población, en cambio las estadísticas son características numéricas de la muestra (por lo tanto son variables, ya que dependerán de la muestra). En investigación es frecuente el problema de "decir o conocer" algo en relación a los parámetros, esto es, acercarse al conocimiento de estos. También es evidente que frente a un conjunto de observaciones o datos, deseemos organizar estos de manera que podamos decir con ellos lo que deseamos decir, y sólo eso; como así mismo lograr que ellos (los datos) nos revelen información oculta. La parte de la Estadística que se encarga de resolver el primero de estos problemas es conocida con el nombre de Inferencia Estadística, mientras que la que se encarga de lo segundo es la Estadística Descriptiva. Esta última es de suma importancia en cualquier fase de la investigación, ya que no se trata de describir sólo datos relativos a poblaciones, sino todo tipo de información, sea ésta poblacional o muestral. Su propósito fundamenal es la organización, resumen y presentación de la información, de modo de rescatar lo particular de entre lo general, o vice versa, sin caer en extremos como perder la idea general a fin de destacar lo particular, o generalizar a extremo de perder una visión más puntual de los datos. En una primera parte del curso nos encargaremos de proporcionar los elementos básicos del proceso descriptivo de la información. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 15 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco 1.3. ESTADÍSTICA UNIVARIA 1.3. ESTADÍSTICA UNIVARIA 1.3. ESTADÍSTICA UNIVARIA 1.3. ESTADÍSTICA UNIVARIANTE NTE NTE NTE La información disponible por medio de algún procedimiento de obtención (investigaciones, recopilaciones, diseño o muestreo, etc.) puede, por lo general, clasificarse en dos grandes categorías: información cualitativa (no numérica) e información cuantitativa (numérica). La primera se refiere a auella información que resume, describe o simplemente “informa” de cualidades o atributos de las unidades de observación. Ejemplos de este tipo de información son “color de ojos de niños”, “género de las personas”, “parentesco”, etc. La relación fundamental entre unidad de observación y característica observada es la de pertenencia (el sujeto pertenece a tal categoría o posee tal característica). La segunda categoría de información se refiere a todas aquellas características cuya unidad de medida posee propiedades propias de un subconjunto de los números reales. Por ejemplo, estatura (medida en centímetros, metros, etc.), longitud, tiempo, etc. Este tipo de información se caracetriza, por lo tanto, porque la observación posee una unidad de medida asociada. A pesar de las acepciones anteriores, y de la aparente exclusividad de naturaleza por parte de algunas variables usadas en los ejemplos, hay que tener presente que la conversión de un tipo de información en otro puede ser posible. Por ejemplo, si la variable es “ingreso bruto mensual de la familia”, esta variable puede ser, indistintamente, cualitativa o cuantitativa. En efecto, un economista puede “medir” esta variable en pesos ($), mientras que un asistente social podría referirse a ella como distintas categorías socioeconómicas (pobres, indigentes, etc.) y cada observación ser asociada, por tanto, en alguna de tales categorías. En este último caso la variable resume una cualidad del sujeto consultado. Más aún, es posible que una variable definida inicialmente como cuantitativa sea tratada, como parte del procesamiento, desde el punto de vista cualitativo. Lo inverso no es válido. Esto es, podrá transformarse en cualitativa una varuiable cuantitativa, pero no podrá “convertirse2 en cuantitativa una variable cualitativa. En el resto de este capítulo se tratarán las dos formas básicas de organización y resumen de información: forma gráfica y forma numérica. Actualmente se habla de formas digital y analógiga para referirse a esas formas. Estos enfoques adoptan formas especiales según sea el tipo a naturaleza de información a procesar, razón por la que se presentarán separadamente para los casos cualitativo y cuantitativo. En cualquier caso, las representaciones se hacen sobre la base de información cuantitativa. Esto significa que parte importante del análisis de información cualitativa consiste en cuantificarla a obejto de efectuar los análisis correspondientes. DATOS CUALITATIVOS Cuando nos enfrentamos a datos de natualeza categórica o cualitativa, como se dijiera, se debe cuantificar la información para obtener las represenbtaciones gráficas y numéricas que se requieran. Esto resulta fácil toda vez que las variables en estudio contienen una cantidad finita o limitada de valores (las modadlidades). Por ejemplo, si la variable en estudio es Sexo, entonces las modalidades serán dos: Hombre; Mujer, o Masculino y Femenino. Frente a ese tipo de variables, la cuantificación permite, además, construir representaciones y esquemas que mejor resuman la infrmación, o que permitan perfilar mejor al objeto en estudio. Tal cuantificación consiste en construir tablas de frecuencias (cantidad de unidades de observación que poseenla característica en estudio). Ejemplo 1.1. De la sola observación de los registros (lista) de un Libro de Clases, en un curso específico, se puede extraer la siguiente información respecto de la variable Sexo: 20 alumnos son niños y 23 son mujeres. Estas cifras hablan de la composición del curso (constituyen las frecuencias), que se puede representar en una forma tabular como sigue: Tabla de frecuencias Sexo Frecuencia Masculino 20 Femenino 23 ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 16 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Una representación gráfica, de la misma información, puede ser más interesante. A continuación, un gráfico de sectores en el que se resume la información: 47% 53% Masculino Femenino Respecto de la “lectura” de la información (o mejor dicho, del resumen) se pueden observar ventajas y desventajas de una y otra forma de representación. Por ejemplo, una ventaja de la Tabla de Frecuencias es su objetividad. El lector “lee” las cifras, y ellas son objetivas. Son el resultado de un proceso que no admite dudas, a menos, claro está, que los cálculos no estén correctos, en cuyo caso la fuente de error no proviene del análisis sino de una errónea aplicación del algoritmo de contar. Una de sus desventajas es la necesidad imperiosa de “leer” esa información. Mientras no se haga una lectura completa de ella, no se podrán hacer las compraciones. La segunad representación, en cambio, tiene como una de sus ventajas la facilidad de lectura de la información (no se requieren cálculos para hacer las comparaciones). Su principal desventaja es, no obstante, su subjetividad. Resulta obvio que debe tenerse especial cuidado de utilizar este este tipo de gráficos, ya que ellos no son adecuados cuando las diferencias no son muy evidentes, o cuando se dispone de muchas categorías a representar. Otra forma muy común de representación gráfica de información de este tipo es el gráfico de barras, como la que se muestra a continuación: 18 19 20 21 22 23 Masculino Femenino Composición de género del curso Aparte de estas formas de representación pueden existir otras, y, además, es tarea del analista buscar o idear sus propias formas de representar la información. No se puede olvidar el objetivo de cualquiera de estas representaciones: sintetizar un resumen a objeto de transmitir un mensaje lo más claro y pertinente posible. ♦ La importancia de los gráficos en Estadística es fundamental. El principio es muy sencillo: "Un gráfico puede decir más que mil palabras". Es tarea del analista "adornar" y complementar adecuadamente aquel mensaje con el mejor y más claro lenguaje posible. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 17 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco DATOS CUANTITATIVOS Cuando los datos son de naturaleza numérica (cuantitativa), es necesario encontrar formas adecuadas de resumir la información. Estas son, al igual que en el caso de información cualitativa, de tipo numérico y también de tipo de gráfico. Tratamiento Numérico Como se estableciera en el capítulo sobre variables aleatorias, de la Unidad 1, la descripción y resumen de un conjunto de información de tipo numérico puede hacerse en base a medidas numéricas descriptivas. Las medidas numéricas descriptivas que se abordan en estas notas, en relación al análisi de información, son: medidas de tendencia central, medidas de posición y medidas de variabilidad. Medidas de tendencia central Cuando se describe un conjunto de datos, no se intenta expresar demasiado ni muy poco, sino sólo la realidad. La forma de describir aquella realidad puede, eso sí, depender de los fines que se pretendan con el análisis, es decir descripciones estadísticas breves o muy elaboradas. En ocasiones, los datos se presentan en su forma original y es posible que “hablen” por si solos; otras veces esta situación se presenta como distribución de la frecuencia o bien como gráficas. No obstante ello, la mayoría de las veces se deben describir mediante uno o dos números cuidadosamente seleccionados, que puedan hablar por ellos. Surge así la necesidad de resumir los datos a través de un único número, que describa a su modo, el conjunto entero de datos. Este tipo de número que seleccionamos dependerá de la característica particular que se quiera describir. Tal vez en un estudio nos interese establecer el valor que excede sólo el 25% de los datos; en otro, aquel valor que no sobrepase al 10% de los datos y en otro caso el valor que describa el centro de los datos o aquel que se presenta con mayor frecuencia. Las medidas que describen estas características se conocen con el nombre de medidas de tendencia o de localización, siendo las que describen el centro o punto medio las llamadas “Medidas de Tendencia Central”. Para un conjunto de datos X = {x 1 , x 2 , ..., x n }, las principales medidas que resumen la tendencia central de ese conjunto son: Media: ∑ = = n i i x n X 1 1 Mediana: X 0.5 = Valor central (promedio de valores centrales) de la serie ordenada de X Moda: Valor(es) más frecuente(s) de X (datos cuanti-tativos y cualitativos) Los conjuntos de datos (distribución) con más de una moda se llaman multimodales. Medidas de posición Como su nombre lo indica, las medidas de posición permiten resumir características relativas a la posición que ciertas observaciones, o conjuntos de ellas, tienen o adquieren en la distribución de los datos. Entre estas medidas las más importantes son los valores extremos y los percentiles, llamadas también, fractiles. Los valores extremos más utilizados (y obvios) son el máximo, que se denotará por Max(X), y que corresponde a la observación (dato) de mayor valor numérico; y el mínimo, que se denotará por min(X), y que corresponde a la observación de valor numérico menor. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 18 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Los percentiles, por su parte, corresponden a valores que “particionan” la distribución de la serie ordenada de observaciones, de tal modo que cada “parte” en esa partición tiene una frecuencia (relativa o porcentual) determinada. De ahí el nombre de percentiles, porque dividen porcentualmente (percentílicamente) a la serie de datos. De entre los percentiles, los más utilizados son los cuartiles (particionan a la serie de observaciones en cuatro clases de igual frecuencia: 25% de datos cada clase o grupo), los quintiles (particionan la serie de datos en cinco conjuntos de igual frecuencia: 20% cada grupo), los deciles (particionan la serie en diez clases de igual frecuencia: 10% de observaciones en cada clase o grupo). Matemáticamente, los percentiles se obtienen mediante una correspondencia biunívoca entre la serie ordenada de observaciones y el intervalo real [0.00 ; 100] (esquema siguiente). Algunos autores definen a la mediana como una medida de posición, argumentando que es el percentil de orden 50%, o equivalentemente, el segundo cuartil, etc. Medidas de variabilidad Las medidas más utilizadas para sintetizar las características de variabilidad de un conjunto de datos de naturaleza cuantitativa X = {x 1 , x 2 , ..., x n } son: Rango: R(X) = Max(X) – min(X) Varianza: ∑ − − = 2 2 ) ( 1 1 x x n S i Desviación estándar: S S X e d = = 2 ) .( . Coeficiente de variación: % 100 ) ( X S X CV = Medidas de forma: Simetría y Kurtosis En relación a la forma de una distribución, son principalmente dos los aspectos que pueden interesar en el estudio de una distribución: el grado o nivel de simetría (distribución armónica y bien espaciada de las observaciones en torno a un valor dado), y el grado de agudeza o puntiagudez, referido a la capacidad de concentrar las observaciones en torno de una valor. Una medida de la primera característica (o de una anticaracterística), es el coeficiente de asimetría o coeficiente de sesgo, mientras que una medida de la segunda es el coeficiente de kurtosis. Para una serie de datos X, se definen estos indicadores por: Coeficiente de sesgo: estándar desviación mdiana media CS ) ( 3 − = (de Pearson) 1 3 3 2 1 2 Q Q Q Q Q CS − + − = Kurtosis: 4 4 ) ( S n x x K i ∑ − = ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 19 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Observaciones: – Existen varios coeficientes de asimetría. El más utilizado es el presentado aquí, que se atribuye a Pearson. – Una distribución puede recibir distintos nombres, según sea el valor del CS (ver figura 1). – Por lo general, |CS|≤3. – Una distribución se dice simétrica si CS=0; asimétrica negativa, si CS<0; y asimétrica positiva si CS>0. – De acuerdo a su forma, las distribuciones se clasifican en mesocúrticas, platicúrticas y leptocúrticas (ver figura 2). Figura 1: Curvas según coeficiente de asimetría Figura 2: Curvas según coeficiente de curtosis Resumen tabular: Tablas de frecuencia Hay situaciones en las que la cantidad de información es muy grande, o bien no existe una variable de clasificación que facilite su análisis. En estos casos se hace necesario algún procedimiento de agrupación de los datos de modo de hacer más comprensible su estructura. Esto es lo que se conoce como análisis en base a datos agrupados. La agrupación obedece a criterios subjetivos, y una agrupación dada puede no representar bien la información, por lo que deberá buscarse agrupaciones alternativas. Gracias a la Computación e Informática, esto se ve facilitado enormemente. La presentación de una agrupación particular de datos continuos puede hacerse en lo que se llama Tabla de Frecuencias. Esta tabla de frecuencias es una disposición tabular–rectangular en la que se identifican los grupos en los cuales se ha distribuído la información y las caracaterísticas más relevantes de esos grupos, llamados tambén clases. Cuando estas clases son intervalos bien definidos se les llama intervalos de clase. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 20 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Entre los elementos distintivos de la tabla de frecuencia, que en sí es información de resumen, se tiene la frecuencia de cada clase, que puede expresarse en forma absoluta (número de unidades en la clase) o en forma relativa (porcentaje de unidades de observación en la clase). Otro elemento distintivo de la tabla es la marca de clase, que corresponde a un representante de la clase correspondiente. Puede ser el valor promedio de la clase, puede ser la mediana de la clase, o alguna otra cantidad que represente bien a la clase. Es habitual que el punto medio de la clase sea la marca de clase. A continuación se presenta un ejemplo que ilustra la forma y estructura de una agrupación de datos en una tabla de frecuencias. Ejemplo 1.2. Las siguientes cifras corresponden a pesos (en kg) de 50 niños de entre 2 y 3 años de edad. 13.9 17.1 13.4 15.5 14.4 15.3 17.5 13.9 14.9 15.4 13.7 14.0 14.2 16.8 15.2 14.9 14.8 15.5 16.8 14.4 13.4 14.4 13.7 15.6 15.3 14.9 16.9 15.8 14.7 15.0 15.2 14.0 16.1 15.3 17.7 14.6 15.2 14.0 14.5 15.2 15.1 14.5 15.7 15.6 16.0 17.0 16.5 15.8 15.8 16.1 Es obvio, que al "mirar" los datos es muy poco lo que se ve. Se hace necesario un análisis en base a datos agrupados. Pero antes de proceder al agrupamiento de la información, se pueden obtener características numéricas básicas de la información.Con la ayuda de un software estadístico, se obtiene: Variable: Peso de niños -------------------------------------- Sample size 50 Average 15.224 Median 15.2 Mode 15.2 Variance 1.14064 Standard deviation 1.06801 Minimum 13.4 Maximum 17.7 Range 4.3 Coeff. of variation 7.01528 ------------------------------------ Notar que estos pesos tienen una distribución bastante simétrica, pués son similares la media, la moda y la mediana. Frequency Tabulation -------------------------------------------------------------------------------- Lower Upper Relative Cumulative Cum. Rel. Class Limit Limit Midpoint Frequency Frequency Frequency Frequency --------------------------------------------------------------------------------- 1 13.000 13.625 13.313 2 .0400 2 .0400 2 13.625 14.250 13.938 8 .1600 10 .2000 3 14.250 14.875 14.563 8 .1600 18 .3600 4 14.875 15.500 15.188 15 .3000 33 .6600 5 15.500 16.125 15.813 9 .1800 42 .8400 6 16.125 16.750 16.438 1 .0200 43 .8600 7 16.750 17.375 17.063 5 .1000 48 .9600 8 17.375 18.000 17.688 2 .0400 50 1.0000 --------------------------------------------------------------------------------- ♦ ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 21 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Medidas numéricas a partir de un resumen tabular La tabla de frecuencias, con más o menos elementos descriptores, es un resumen. Puede ser necesario, en algunas ocaciones, obtener medidas descriptivas más específicas a partir de ella, como por ejemplo, medidas de tendencia central o de variabilidad. Parece natural que se necesita de una forma alternativas a las ya vistas de obtener esos estadísticos, ya que no se cuenta con información original o “en bruto” como para aplicar las fórmulas de cálculo conocidas. A continuación se presentan algunas medidas descriptivas básicas a partir de una tabla de frecuencias. Media: ∑ = = n i i i n m n X 1 1 , donde m i es la marca de la clase i y n i la frecuencia absoluta respectiva. Mediana: La mediana requiere, primero, de identificar la clase mediana. Ésta es aquella clase en la que se encuentra el valor central de la serie ordenada. Notar que sólo podrá observarse la clase, y no el valor central. La mediana corresponde entonces al valor C n F n L X Med 1 5 . 0 5 . 0 − − + = , donde L es el límite inferior de la clase mediana, n es el total de observaciones, F -1 es la frecuencia acumulada hasta la clase inmediatamente anterior a la clase mediana, n Med es la frecuencia absoluta de la clase mediana y C es la amplitud (largo) de la clase mediana. Moda: Más bien se habla de clase modal, y corresponde a la clase de más alta frecuencia. Varianza: La varianza de una distribución, a partir de datos agrupados, se obtiene de manera similar al caso de datos no agrupados. Sólo deben usarse los estadísticos adecuados. Percentiles: Aunque existe una forma algebraica de obtención de percentiles a partir de una tabla de frecuencias, existe una forma gráfica, que se verá más adelante, que es mucho más eficiente en la obtención de este tipo de medidas. Observación: Todas las medidas obtenidas a partir de una tabla de frecuencias son aproximaciones de las respectivas medidas obtenidas a partir de los datos originales. Ejemplo 1.3. A partrir de la tabla del ejemplo 1.2 anterior, la media es 15.238. En relación a la mediana, la clase mediana es la cuarta clase, que tiene un límite inferior igual 14.785, una frecuencia absoluta de 15 y una amplitud de 0.625. Por lo tanto su valor es 15.16667. Por último, la clase modal también es la clase 4. A juzgar por estas caraterísticas, la distribución de los datos parece bastante simétrica. ♦ Desigualdad De Tschebyshev Un resumen estadístico debe ser una síntesis de la realidad. Como tal debe reunir los aspectos más relevantes de aquella y transmitirlos pertinentemente. Éste es el objetivo de todo resumen. En consecuencia, debe ser también un reencuentro con la realidad. Pero para lograr ese reencuentro hace falta saber leer el mensaje que contiene el resumen. Una de las herramientas más poderosas para esa lectura se presenta a continuación, en la forma de una proposición matemática primero, y en una formulación empírica después. Aunque exige ciertas condiciones a los datos, hay infinidad de situaciones en las que su uso ayuda considerablemente a la inerpretación. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 22 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Proposición 1. (Desigualdad de Tschebyshev). Sea X = {x 1 , x 2 , ..., x n } un conjunto de observaciones con una media X y una desviación estándar S. Entonces para una constante k>1, el porcentaje de información que se encuentra a kS de la media X es al menos % 100 ) 1 1 ( 2 k − . Una formulación práctica de la Desigualdad de Tschebyshev es: Regla empírica de Tschebyshev: Si la distribución de X es simétrica en torno de su media X , entonces: – Aproximadamente el 67% de los datos se encuentra a una desviación típica de X . – Aproximadamente el 95% de los datos se encuentra a dos desviaciones típicas de X . – Aproximadamente el 99% de los datos se encuentra a tres desviaciones típicas de X . Ejemplo 1.4. Si una distribución, relativamente simétrica, se resume en una media igual a 7 y una desviación típica de 0.4, ¿qué se puede concluir de las observaciones? Solución. Dado que la distribución es simétrica, entonces, mediante aplicación de la regla empírica de la desigualdad de Tschebyshev, se puede establecer que, aproximadamente, el 95% de los datos oscila entre 7– 2·0.4 y 7+2·0.4. Esto es, la mayor parte de los datos oscila entre 6.2 y 7.8. ♦ Tratamiento Gráfico En muchos casos, la forma más adecuada y atractiva de presentar la información numérica es a través de gráficos y diagramas. Estos tienen la gran ventaja de que permiten una asimilación visual de las características de los datos estudiados bastante más rápida que la simple contemplación de resúmenes tabulares. La elección del tipo de gráfico más adecuado para resumir cierta información, dependerá en gran medida del objetivo que se pretenda con él y del uso que a éste se le dará. Por ejemplo, ante la necesidad de mostrar la evolución de una variable a través de un período de tiempo determinado, se tienen los gráficos de línea o lineales. Situando el tiempo en el eje horizontal y la variable de interés en el eje vertical, se obtiene una secuencia temporal para esta última. En la figura siguiente se presenta un resumen gráfico referido al promedio mensula de material prticulado en Temuco durante los 12 meses del año 2003. En él se visualiza un claro aumento de enero a mayo, para comenzar luego una disminución. Promedio mensual pm10 en Temuco Año 2003 0 10 20 30 40 50 60 70 80 90 100 E n e r o F e b r e r o M a r z o A b r i l M a y o J u n i o J u l io A g o s t o S e p t i e m b r e O c t u b r e N o v i e m b r e D i c ie m b r e Fuente: Escuela de Ingenería Ambiental, UCTemuco ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 23 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco A menudo nos puede interesar explorar la relación lineal entre dos variables, es decir cómo se comporta una variable (dependiente) en función de otra variable (independiente), situación que puede ser analizada a través del diagrama de dispersión, tal como se presenta en el ejemplo 1.5. Ejemplo 1.5. Un centro experimental desea establecer la relación existente entre los montos invertidos en investigación y desarrollo, y las utilidades obtenidas por estos conceptos, en los últimos 9 años. Información, en millones de pesos, resumida en la tabla siguiente: Inv. en Inv. y Desarrollo Utilidades 2 20 3 25 4 30 5 31 3 26 7 34 9 36 11 38 10 37 12 10 8 6 4 2 Inv. en Inv. y Desarrollo 40 36 32 28 24 20 U t i li d a d e s Inversión en Investigación y Desarrollo vs Utilidades A través de este resumen gráfico es posible establecer la relación directa o positiva existente entre las variables en estudio, es decir, en la medida que la inversión en investigación y desarrollo aumente, también lo harán las utilidades del centro de investigación. El gráfico de cajas es una herramienta de gran utilidad para el análisis de uno o más conjuntos de datos. Construido a través de las medidas de posición, permite formarse una idea respecto de la distribución de la(s) variable(s) en estudio. Tomando la información del ejemplo 1.4 ilustraremos esta situación. Utilidades Inversión 40 30 20 10 0 M i l l o n e s d e P e s o s Gráfico de Cajas para la Inversión en Inv. y Desarrollo Al intentar analizar y resumir un gran volumen de información, no podemos olvidar a los tradicionales histogramas y ojivas, cuyo gran objetivo es mostrar la distribución de frecuencias de los datos estudiados. Su construcción se realiza, directamente, a partir de la tabla de frecuencias. A continuación se muestran las formas características de estas representaciones, y posteriormente se ilustra con un ejemplo su construcción. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 24 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Los gráficos adecuados para el análisis de grandes volúmenes de información pueden ser los ya vistos, además de otras reprentaciones como gráficos de lineas, y los tradicionales histogramas y ojivas. Estos últimos se pueden construir a partir, directamente, de la tabla de frecuencias. Son por excelencia los homólogos gráficos de la tabla de frecuencias. A continuación se muestran las formas características de esas representaciones, y posteriormente se ilustra con un ejemplo su construcción. HISTOGRAMA OJIVA PORCENTUAL ASCENDENTE Un histograma y una ojiva (distribución acumulada) para los datos del ejemplo 1.3 se presentan a continuación. Histograma de frecuencias relativas Peso de 50 niños F r e c u e n c i a r e l a t i v a 13 14 15 16 17 18 0 2 4 6 8 1 0 Distribución acumulada 0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900 1.000 13.100 14.100 15.100 16.100 17.100 Ejercicio. Consideremos los datos de la tabla adjunta. En ella se registran los pesos, en kilogramos, de cien personas adultas. 89 78 65 75 66 70 80 85 90 98 63 74 61 73 68 75 85 83 85 69 71 84 60 76 79 81 79 84 78 77 88 95 65 91 85 100 110 75 76 87 87 83 84 81 79 78 75 77 83 86 84 81 88 76 83 90 61 87 79 79 83 79 91 77 69 81 71 97 65 81 78 78 79 78 70 85 92 83 85 78 77 95 69 79 80 38 93 75 83 77 68 99 75 83 99 68 83 78 78 83 ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 25 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco La variable aquí en estudio, peso de las personas, no tiene asociada una variable de clasificación que facilite su análisis, especialmente gráfico, que es el mayor problema. Podemos determinar el peso promedio (o peso medio), valores extremos, mediana (o valor central), rango (diferencia entre máximo y mínimo), variabilidad o dispersión, etc., pero no tendríamos una forma gráfica adecuada para todos los datos. Es necesario, sin desechar las medidas anteriores, un análisis en base a datos agrupados, es decir, hay que agrupar los datos. Se sugiere intentar una agrupación, y en base a la Tabla de Frecuencias obtenida, construir el histograma y la ojiva. ♦ 1.4. ESTADÍSTICA BIVARIANTE 1.4. ESTADÍSTICA BIVARIANTE 1.4. ESTADÍSTICA BIVARIANTE 1.4. ESTADÍSTICA BIVARIANTE Es muy común que la explicación de un fenómeno o realidad requiera del conocimiento de algún aspecto de ella. Por ejemplo, puede ser deseable conocer o explicar el comportamiento de los alumnos (en la sala de clases) por medio de su realidad familiar, por ejemplo. En este caso, como en la mayoría de los que aquí serán tratados, existe un par de variables que en algún modo resumen o permiten resumir bien el objeto o problema en estudio. El análisis consiste en establecer la forma en que se relacionan o asocian tales variables. De este aspecto y sus derivados tratan las secciones siguientes. CASO DE DOS VARIABLES CUANTITATIVAS CONTINUAS: CORRELACIÓN DE PEARSON CASO DE DOS VARIABLES CUANTITATIVAS CONTINUAS: CORRELACIÓN DE PEARSON CASO DE DOS VARIABLES CUANTITATIVAS CONTINUAS: CORRELACIÓN DE PEARSON CASO DE DOS VARIABLES CUANTITATIVAS CONTINUAS: CORRELACIÓN DE PEARSON El problema es determinar si dos variables cuantitativas o numéricas se encuentran o no relacionadas entre sí. Este es el problema de asociación. Por ejemplo, el pediatra sabe que existe una relación (asociación) entre peso y talla de niños de cierta edad. Y no sólo sabe que existe una asociación, sino también sabe qué forma tiene esa asociación. Un profesor puede desear establecer si existe o no relación entre el nivel de ingresos familiares y el éxito académico que los alumnos pudieran tener en la universidad. En fin, existen muchas situaciones en las que el conocimiento de una asociación entre variables puede explicar un fenómeno, y en cierta manera, permitir el control de ese fenómeno. En estas notas se presenta el análisis de un tipo particular de asociación: La asociación lineal, llamada más comúnmene, correlación lineal. El estudio de la correlación lineal corresponde al análisis de correlación lineal. Formalmente el análisis de correlación corresponde al conjunto de técnicas estadísticas empleado para medir la intensidad de la relación o asociación lineal entre dos variables. Un aspecto inicial del análisis lo constituye la determinación intuitiva o a priori de esta asociación. Por ejemplo, pareciera lógico pensar que el promedio de calificaciones de educación media de un estudiante esté relacionado con las calificaciones obtenidas en la universidad (al menos en sus primeros semestres). Una vez que se ha establecido la posibilidad de existencia de correlación lineal, se recomienda construir un diagrama de dispersión de los datos. En muchos casos las sospechas iniciales pueden ser corroboradas o refutadas por medio de un gráfico. De los gráficos siguientes, el (a) resume y manifiesta, al parecer, una relación lineal positiva entre las variables correspondientes. Los diagramas en (b) y (c), en cambio, no ponen en evidencia, al menos en apariencia, relación lineal alguna. Particularmente, en diagrama (b) más bien evidencia una asociación curvilinea (cuadrática), mientras que en (c) no se advierte ninguna tendencia en particular. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 26 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco El diagrama de dispersión, como herramienta de detección de correlación o asociación entre dos variables, es más bien una técnica intuitiva. Se necesita de una medida (numérica) de correlación lineal, de una cantidad que resuma y cuantifique esta asociación en base a los datos observados. Una medida de esta asociación muy utilizada es el coeficiente de correlación lineal de Pearson, definido a continuación: Definición. Sean X y Y dos variables aleatorias de las que se han registrado, en forma simultánea, n observaciones. Esto es, se tienen n pares ordenados (x,y) del vector aleatorio (X,Y). El coeficiente de correlación muestral de Pearson se denota y define por: Y X n i i i S S n Y X n Y X r ) 1 ( 1 − − = ∑ = donde S X y S Y son las desviaciones estándares muestrales de X y de Y, respectivamente. El coeficiente de correlación así definido representa la proporción de la reducción a la variabilidad de Y cuando esta variabilidad es explicada por medio de una relación lineal con X. El cálculo de r, así como la construcción de un diagrama de dispersión, se facilitan considerablemente con el uso de calculadoras y software. La mayoría de las calculadoras científicas permiten el cálculo directo de r, mediante el módulo LR. Observaciones 1) El coeficiente de correlación de Pearson r satisface –1 ≤ r ≤ 1 2) r =1 significa correlación lineal perfecta, y positiva, entre las dos variables. 3) r = –1 significa correlación lineal perfecta, y negativa, entre las dos variables. 4) r = 0 significa ausencia total de correlación lineal. El porcentaje de variabilidad de Y explicado por la variabilidad en X lo mide el coeficiente de determinación, que corresponde a r 2 . La cantidad 1–r 2 se denomina coeficiente de no determinación. Ejemplo 1.6. Los datos siguientes son X: Puntaje en un sistema de aprendizaje, Y: Costo asociado al logro del puntaje. La idea es estudiar la relación que pudiera existir entre X y Y. X 16 14 22 10 14 17 10 13 19 12 18 11 Y 77 70 85 50 62 70 52 63 80 57 81 54 Solución. En primer lugar exploraremos si se evidencia o no alguna tendencia en los datos. Esto puede lograrse con la ayuda del diagrama de dispersión, que se muestra a continuación. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 27 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco 24 21 18 15 12 9 Puntaje, X 90 80 70 60 50 C o s to d e o b te n c i ó n d e l p u n t a je , Y RESULTADOS DE UN PROCESO DE APRENDIZAJE Es evidente que si existe alguna asociación lineal entre X y Y, ésta debe ser lineal (ver gráfico siguiente). Sobre esta base, la medida de la asociación lineal está dada por r = 0.95754. Además, el coeficiente de determinación es r²=0.916892. Esto significa que, aproximadamente, el 92% de la variación en el costo se explica por la variación en el puntaje. ♦ Representación Gráfica de la Correlación Lineal Sin duda que los mensajes con una componente analógica (gráfica) juegan un importante papel en las interpretaciones de resultados. En este sentido puede ser más ilustrativo un gráfico que una tabla con una serie de datos. Sin embargo, no puede concluirse que las componentes analógicas sean de mayor importancia que las componentes digitales en un mensaje. Habrá que analizar la forma más pertinente que usaremos para comunicar lo observado. Puede demostrarse, con herramientas matemáticas que escapan a los objetivos de este curso, la siguiente importante relación respecto del coeficiente de correlación lineal de Pearson: ) cos( ) ; ( θ ρ = c c Y X donde θ es el ángulo que forman los vectores directores asociados a las variables X c y Y c , y éstas son variables centradas, es decir, a cada valor de ellas se les ha restado su media. Esta relación es muy importante, puesto que permite "ver" las correlaciones, en tanto que estimar su valor aproximado. Algunas consideraciones: 1. Dado que, geométricamente, la correlación se asocia con el coseno del ángulo que las variables forman, entonces a medida que dicho ángulo aumenta en magnitud, la correlación disminuye. Recíprocamente, menor medida del ángulo implica una mayor correlación. 2. En ausencia de correlación (independencia total, ρ = 0), el ángulo entre las variables mide 90° (el coseno de un ángulo que mide 90° es 0). Esto es, las variables se presentan ortogonales. En síntesis, independencia se asocia con ortogonalidad. 3. Cuando el ángulo que forman las variables mide 180° (ángulo extendido), entonces el coseno vale –1, y en este caso veremos las variables orientadas en sentido opuesto, pero colineales, es decir, hay una relación lineal inversa. 4. La representación gráfica de la correlación sólo es posible en un espacio de dos o tres dimensiones. 5. Ya que la representación analógica se construye a partir de vectores centrados, y eventualmente reducidos ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 28 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco (de varianza unitaria), se espera observar estas variables (o vectores) al interior de un círculo unitario y con sus extremos en un círculo, llamado círculo de correlaciones. En caso de espacios de dimensión mayor a dos (incluso tres), quizá una “proyección” de las asociaciones en un plano sea suficiente para formarse una idea de esa asociación. En estos casos, cuanto más cercanos al círculo de correlaciones se encuentren los extremos de los vectores, mejor será la “representación” del vector en el plano, y más contundente será la conclusión. La figura adjunta ilustra las ideas anteriores. Es pecíficamente, las variables X1 y X2 parecen estar altamente relacionadas (de forma positiva), aunque la variable X1 no estaría bien representada en ese plano. Por su parte, estas mismas dos variables estarían relacionadas negativamente con X3, y X2 y X4 serían independientes. CASO DE DOS VARIABLES CUANTITATIVAS ORDINALES: CORRELACIÓN DE SPEARMAN CASO DE DOS VARIABLES CUANTITATIVAS ORDINALES: CORRELACIÓN DE SPEARMAN CASO DE DOS VARIABLES CUANTITATIVAS ORDINALES: CORRELACIÓN DE SPEARMAN CASO DE DOS VARIABLES CUANTITATIVAS ORDINALES: CORRELACIÓN DE SPEARMAN Definiciones y Propiedades El coeficiente de correlación producto-momento de Pearson, analizado anteriormente, exige que ambas variables sean continuas. Charles Spearman, ideó una medida de correlación para datos de nivel ordinal o de rango. Es decir, datos que están o que pueden ordenarse por algún algoritmo de orden ascendente o descendente. Dicha medida se conoce como Coeficiente de Correlación de Rangos de Spearman, y se denota y define por: ) 1 ² ( 6 1 2 − − = ∑ n n d r s donde d: diferencia entre los rangos de cada par; n: número de pares observados Al igual que el r de Pearson, el r s de Spearman satisface las siguientes propiedades: 1. Satisface que –1≤ r s ≤1. 2. r s = ±1 significa correlación lineal perfecta entre las dos variables. 3. r s = 0 significa ausencia total de correlación lineal. Ejemplo 1.7. Los datos siguientes muestran los puntajes obtenidos por 5 trabajadores en sendas pruebas de destreza y de producción semanal. Nombre Puntuación Producción Trabajador Destreza Semanal Pedro 62 800 José 92 900 Daniel 70 840 Samuel 50 775 Susana 86 875 Para utilizar el coeficiente de correlación de rangos de Spearman, se deben jerarquizar las observaciones. En ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 29 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco este caso ordenaremos en forma ascendente las series, tal como se muestra en la siguiente tabla: Nombre Puntuación Producción Rango para Trabajador Destreza Semanal Destreza Producción Pedro 62 800 4 4 José 92 900 1 1 Daniel 70 840 3 3 Samuel 50 775 5 5 Susana 86 875 2 2 El gráfico de Destreza versus Producción (gráfico siguiente) muestra una correlación lineal aparentemente perfecta. Puntajes altos (bajos) se relacionan o corresponden entre sí. Lo anterior es fácil de corroborar numéricamente, ya que notando que cada diferencia de rango d es cero, se tendrá también que d² = 0, así que 1 ) 1 ² 5 ( 5 ) 0 ( 6 1 = − − = s r . ♦ 0 1 2 3 4 5 0 1 2 3 4 5 Las observaciones que tienen el mismo rango (empates) pueden constituirse en un serio problema a la hora de utilizar este coeficiente de correlación. Si hay un importante número de empates, se puede utilizar el siguiente procedimiento de corrección: T = 12 ³ t t − donde t es el número de observaciones empatadas para un mismo rango. Luego de esto se obtiene una corrección para el coeficiente de correlación dada por: r s= 2 2 2 ² ² ² ∑ ∑ ∑ ∑ ∑ − + y x d y x i donde ; y T n n y T n n x y x ∑ ∑ ∑ ∑ − − = − − = 12 ³ ² ; 12 ³ ² ∑ x T es la suma de los valores de para los rangos empatados de X, ∑ y T es la suma de los valores de para los rangos empatados de Y. Es recomendable utilizar este coeficiente de correlación sólo una vez que se haya corregido el problema de "empates". ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 30 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco CASO DE DOS VARIABLES CUALITATIVAS: TABLAS DE CONTINGENCIA CASO DE DOS VARIABLES CUALITATIVAS: TABLAS DE CONTINGENCIA CASO DE DOS VARIABLES CUALITATIVAS: TABLAS DE CONTINGENCIA CASO DE DOS VARIABLES CUALITATIVAS: TABLAS DE CONTINGENCIA Se dispone de dos variables cualitativas, cada una con un número específico de modalidades o categorías. Entonces se procede a contar el número de co–ocurrencias de las distintas modalidades y se registran en una tabla de doble entrada: la Tabla de Contingencia o Tabla Cruzada. Hablar de asociación o relación entre dos variables cualitativas es hablar de Tablas Cruzadas o de Tablas de Contingencia. Aunque un Análisis de Contingencia puede ser en cierto modo complejo, las tablas de contingencia pueden tratarse desde una perspectiva descriptiva, sin pasar por el natural análisis de contingencia. Los aspectos descriptivos de una tabla de contingencia se basan en la tabla cruzada, que es lo primero de un análisis de contingencia. No obstante, cualquiera sea el análisis inicial, lo que se desea explorar por medio de una tabla del tipo Individuos x Variables Cualitativas es la relación entre las variables o las modalidades de ellas. Variables cualitativas Individuos X 1 X 2 ... X p 1 2 ... n Una primera diferencia con los coeficientes presentados anteriormente es que el contenido de una tabla cruzada (o de contingencia) está conformado por frecuencias. En efecto, el cruce de dos variables cualitativas corresponde a un resumen de las co–ocurrencias de las distintas modalidades de las variables. Por ejemplo, si las variables son Sexo (dos modalidades, M y F) y Carrera (tres modalidades: C1, C2 y C2), entonces el cruce de ellas se puede resumir en una tabla con la siguiente estructura: Carrera Sexo C 1 C 2 C 3 M F En cada "celda" de esta tabla se registra el número de co–ocurrencias de las modalidades. En síntesis, mientras en los análisis de correlación anteriores el interés se centra en las variables, en el caso que estamos presentando el interés se centra en los individuos. Más aún, se trata aquí de colectivos de individuos más que de individuos singulares. Sin embargo, al igual que en los casos anteriores, el problema a estudiar es muy similar. Específicamente, se puede establecer que el problema principal de una tabla de contingencia es: DADAS DOS O MÁS CARACTERÍSTICAS DE LA POBLACIÓN, Y EN BASE A LAS FRECUENCIAS U OBSERVACIONES CORRESPONDIENTES: ¿EXISTE ALGUNA RELACIÓN ENTRE TALES CARACTERÍSTICAS, O MÁS BIEN SON ELLAS INDEPENDIENTES? Nuevamente la idea de distancia es fundamental en la construcción de un resumen que mejor dé cuenta de las asociaciones entre variables, y entre colectivos de individuos. Podemos decir que el problema principal es describir las distancias entre los elementos de la tabla, o resumir las comparaciones que en ella se hagan. En efecto, cuando examinamos las relaciones entre variables, lo que se está haciendo es examinar la "distancia" a ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 31 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco la que se encuentran esas variables. Así por ejemplo el problema de independencia asociado a una tabla de contingencia no es más que un problema de distancia: la distancia entre la tabla observada y una tabla que representa la situación perfecta de independencia. Sin duda que el concepto de esa distancia puede ser el problema. En este sentido habrá que buscar alguna forma de "medir" esa distancia. Por su parte, y casi sin darnos cuenta, cuando abordamos el problema de correlación, lo hacemos determinando el peso que los diferentes grupos de individuos tienen en la tabla, lo que es equivalente a calcular la distancia entre distintos colectivos de individuos. De la Encuesta a la Tabla de Datos Retomemos el problema inicial, el cual es resumir la información de la tabla de datos. La confección o construcción de la tabla de datos para este análisis parte de un protocolo de encuesta. Es la codificación de la encuesta lo que constituye la materia prima de esa tabla de datos. Por ejemplo, si disponemos de las variables: CARRERA: A ADSC. RELIGIOSA: C1 B C2 C D entonces la información proporcionada por los individuos encuestados puede registrarse en una planilla parecida a la siguiente: TABLA 1: Tabla de Códigos Condensados para Carrera y Adscripción Religiosa Ind Carrera Adsc.Rel 1 B C2 2 C C2 3 A C1 4 A C2 5 A C2 6 D C2 7 B C2 8 D C2 9 C C2 10 C C2 11 A C1 12 D C1 13 D C1 14 B C1 15 C C1 Esta es una de las primeras tablas en el tratamiento de encuestas, y se llama Tabla de Códigos Condensados. La Tabla de Códigos Condensados no es un resumen, es simplemente la codificación de las respuestas. La Tabla de Frecuencias o Tabla de Contingencia: Un Primer Resumen Una tabla que sí constituye un resumen (y por tanto implica pérdida de información), es la Tabla de Frecuencias o también llamada Tabla de Contingencia. Esta tabla contiene las co-ocurrencias de las distintas modalidades de las variables. Por ejemplo, la tabla de frecuencias asociada a la información anterior es: ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 32 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Tabla 2: Tabla de Contingencia para Carrera versus Adscripción religiosa CARRERA ADSC. C1 RELIG. C2 TOTALES FILAS A 2 2 4 B 1 2 3 C 1 3 4 D 2 2 4 TOTALES COLUMNA 6 9 15 Aspectos Descriptivos de una Tabla de Contingencia Antes de proceder a un análisis más estadístico de una tabla de contingencia, puede resultar interesante un análisis descriptivo de ella, especialmente de las frecuencias marginales de la tabla. El siguiente ejemplo pone de relieve algunos aspectos descriptivos que pueden ser útiles en la interpretación de la información de una tabla de contingencia. No hay que olvidar que este punto del análisis es realmente esencial. Ejemplo 1.8. En el año 1994 el movimiento mercantil artesanal de tres zonas se resume en la siguiente tabla (adaptación de un problema citado en Crivisqui, E.: Análisis Factorial de Correspondencias. 1993). Las ventas en cada zona se describen como Exportaciones. Las compras hechas de artículos producidos en otras zonas aquí son llamadas Importaciones o Autoconsumo. Tabla 3: Tabla de contingencia para el mercado artesanal de tres zonas Ventas en cada zona Producción de Art. de lana en cada zona A B C Producción total A 75 25 54 154 B 56 78 189 323 C 89 132 202 423 Total Ventas 220 235 445 900 Gráfico 1: Producción de artículos de lana en cada zona El análisis puede hacerse desde, al menos, dos perspectivas: en relación a la producción y en relación a la comercialización. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 33 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Respecto de la producción, en el gráfico 1 puede observarse que la Zona A produjo 154, en tanto que la Zona B, 323; y la zona C se muestra como la zona con mayor producción de entre las tres. En el gráfico 2 se hace una representación conjunta de ambos procesos: exportación e importación. En él se aprecia, con bastante claridad, la naturaleza exportadora de la zona B, mientras que la zona A se presenta como una zona preferentemente importadora. Nótese que la información proporcionada por el gráfico 2 es mucho más "informativa" que la proporcionada por el gráfico 1 Gráfico 2: "Exportaciones - Importaciones" según zona Representación digital de la información de una tabla El objetivo de un análisis estadístico es, por cierto, la comparación. En este sentido, si se desea extraer y representar adecuadamente la información de aquella tabla habrá que neutralizar el efecto amplificador que en las comparaciones induce el tamaño de la población o de la muestra observada. Esto se logra dividiendo cada elemento (celda) de la tabla por el tamaño poblacional o muestral. La tabla resultante será llamada en adelante Tabla de Frecuencias (relativas). Tabla de frecuencias relativas asociada a la Tabla 2 ADSCRIPCIÓN RELIGIOSA CARRERA C1 C2 TOTALES FILA A 15 2 15 2 15 4 B 15 1 15 2 15 3 C 15 2 15 2 15 4 D 15 2 15 2 15 4 TOTALES COLUMNA 15 6 15 9 1 ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 34 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco En la tabla de frecuencias (relativas), los totales fila o columna son llamados vector de peso o Centro de Gravedad de la tabla. Tablas de perfiles en línea y en columna Asociada a una tabla de contingencia (o de frecuencias) existen otras dos tablas: La Tabla de Perfiles en Línea y la Tabla de Perfiles en Columna. Un Perfil Línea (o perfil fila) es la distribución de frecuencias de la fila en relación al total marginal fila correspondiente. Por su parte, un Perfil Columna es la distribución de frecuencias de la columna en relación al total marginal columna correspondiente. Las tablas de perfiles asociadas a la Tabla 2 son las siguientes: Tabla de perfiles fila ADSCRIPCIÓN RELIGIOSA CARRERA C1 C2 A 4 2 4 2 1 B 3 1 3 2 1 C 4 1 4 3 1 D 4 2 4 2 1 TOTALES COLUMNA 6 9 Tabla de perfiles columna ADSCRIPCIÓN RELIGIOSA CARRERA C1 C2 TOTALES FILA A 6 2 9 2 4 B 6 1 9 2 3 C 6 1 9 3 4 D 6 2 9 2 4 TOTALES COLUMNA 1 1 Correlación Condicional Algunas veces puede ocurrir que mediante el uso de algún procedimiento de análisis (como el uso de χ 2 , por ejemplo) se haya detectado un asociación importante entre las variables en estudio, y ésta no exista como tal. En situaciones como éstas puede suceder que una o más variables, no consideradas en el estudio, sean las que realmente den cuenta de la relación por la asociación que ella tiene con las que constituyen la base del análisis. Por lo tanto, cuando se tengan tres o más variables interrelacionadas, es necesario neutralizar el ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 35 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco efecto de una de ellas en el estudio de la asociación de las otras. Este procedimiento es conocido como Correlación Condicional o Correlación Parcial. En esta sección veremos el impacto que en la comprensión de la información contenida en una tabla de contingencia pueden tener esos factores externos a las variables involucradas en la tabla. Por ejemplo, en la situación anterior, ¿qué efecto tiene en sexo del paciente en recuperación? Sin duda que la respuesta a esta interrogante podrá encontrarse sólo si se tiene esta última información. Ejemplo 1.9. (La paradoja de Simpson) 1 . Se estudió la sentencia (condenación a muerte o no) de 4764 asesinatos juzgados en Florida de 1973 a 1979 (Cf. Kripendorf: "Information Theory and Statistics". Wiley, 1986). Según la raza del asesino, se observaron los resultados de la siguiente tabla: Asesino\condenación a muerte Si No Tasa Blanco 72 2185 3.2% Negro 59 2448 2.4% Lo anterior puede inducir a pensar que la sentencia es más severa para un asesino blanco que para un asesino negro. Sin embargo, cuando se tomó en cuenta la raza de la víctima, se se obtuvo lo siguiente: Raza\condenación a muerte Si No Tasa Victima Asesino Blanco Blanco 72 2074 3.4% Negro 48 239 16.7% Negro Blanco 0 111 0.0% Negro 11 2209 0.5% Esto pone en evidencia que, cualquiera sea la raza de la víctima, la sentencia es más severa para un asesino negro que para uno blanco. 1 Ejemplo extraído de apuntes de curso del Seminario de Capacitación de Docentes PRESTA. Concepción, 1997. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 36 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Resumen Las principales características de la correlación lineal de Pearson son: Ambas variables deben ser cuantitativas continuas. El coeficiente de correlación lineal de Pearson varía siempre entre 0 y 1. Valores de cercanos a indican asociación importante e inversa. Es decir, valores grandes (pequeños) de una variable se asocian con valores pequeños (grandes) de la otra. Valores de próximos a indican correlación lineal importante y directa. Esto es, valores grandes (pequeños) de una variable asociados con valores grandes (pequeños) de la otra. La importancia de la correlación depende del número de observaciones efectuadas. Así, un coeficiente 4 podrá ser importante (significativo) en una situación, pero nada importante en otra situación. Mientras más heterogénea sea la población, más fuerza existirá en la correlación. Es necesario conocer la naturaleza del problema antes de juzgar un coeficiente de correlación. Para establecer la significación de una correlación es necesario efectuar las pruebas de hipótesis correspondientes. Para efectuar un análisis inferencial de un coeficiente de correlación se requiere que ambas variables tengan varianzas homogéneas y distribuciones normales. La correlación entre dos variables puede observarse en una representación gráfica de los vectores centrados asociados a las variables. En este caso la correlación está determinada por el ángulo que forman esos vectores. El coeficiente de correlación de Spearman: Se aplica cuando las variables, siendo cuantitativas, son particularmente ordinales. Al igual que el de Pearson, varía siempre entre 0 y 1. En general se interpreta de la misma manera que el de Pearson. No debe usarse si es más pertinente el uso del coeficiente de correlación de Pearson, ya que es menos fiable que éste. En pocas palabras, si es posible usar Pearson, úsese Pearson. Debe utilizarse sólo después de haber corregido por empates. En relación a tablas de contingencia: Hacer comparaciones entre elementos de una tabla de contingencia, sin antes tratar la información allí contenida, puede significar comparar elementos no comparables. Los perfiles ponderados, en línea y en columna, permiten establecer comparaciones entre elementos comparables. La distancia euclideana entre perfiles ponderados, o la distancia del Chi-cuadrado entre perfiles, permite describir, sin distorsión la información contenida en una tabla. Al comparar elementos comparables, se está haciendo una lectura correcta de la información. Cuando se hace una representación gráfica de los elementos de una tabla de perfiles ponderados, hay que tener en cuenta que los puntos representados está dotados de peso. Esto es, son puntos-masa. Entonces hay que tener cuidado con las interpretaciones de las distancias observadas en esa representación. Una tabla de perfiles ponderados puede representarse en dos espacios de representación: uno en el que se representan los perfiles línea, y otro en el que se representan los perfiles columna. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 37 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco 1.5. EJERCICIOS Y PROBLEMAS 1.5. EJERCICIOS Y PROBLEMAS 1.5. EJERCICIOS Y PROBLEMAS 1.5. EJERCICIOS Y PROBLEMAS 1. Para cada una de las variables siguientes, indica naturaleza (cualitativa o cuantitativa) y valores que puede tomar: a. Color de ojos de personas adultas. b. Peso de niños al nacer c. Número de hermanos de los estudiantes de la UCT d. Región de procedencia de los alumnos ingreso '97 de la UCT. e. Edad de los asistentes a un curso de capacitación f. Origen étnico de los alumnos de una escuela rural g. Grado de ruralidad del estudiantado universitario de Temuco. h. Número de cursos en el colegio B. i. Sexo de los alumnos de cada curso del colegio B. j. Tipo de mercaderías que se vende en "negocios" de barrios. 2. Se desea investigar la relación que puede existir entre el sexo del alumno y el rendimiento del alumno en cursos del primer ciclo de enseñanza básica. Para este caso, define las variables a considerar y los posibles valores que cada una puede tomar. 3. Supón que el peso, en kg, de un grupo de personas, de edades similares, se ha resumido en el siguiente cuadro: Promedio Desviación estándar 17 kg 4 kg a. ¿Qué se puede concluir acerca de la edad de este grupo de individuos? b. Suponer que la distribución del peso de este grupo es aproximadamente simétrica (¿qué significa esto?) y determinar valores extremos de la edad (¿cuáles serían estos extremos si no hubiere simetría?). ¿Puede afirmarse algo más respecto de la mayoría de estos individuos (por ejemplo, de su situación socio–económica)? 4. En el segundo semestre de 1993, un curso de estadística para alumnos de una carrera técnica de nuestra universidad obtuvo las notas finales que se resumen a continuación. Se pide "hablar" del rendimiento de ese curso. 6 5 4 3 2 nota_final 30 20 10 0 N ú m e r o d e a lu m n o s Distribución de la Nota Final Características de resumen de Notas Finales del curso ----------------------------------------------- Sample size (N) 50 Num missings 0 Minimum 2.0000 Maximum 5.8000 Std deviation 0.7936 Quartiles: First quartile: 4.0000 Second quartile: 4.4000 Third quartile: 4.8250 ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 38 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco 5. Un estudio de evaluación del impacto de un sistema de alimentación en niños de edad pre–escolar contempló la incidencia del sexo del niño en la respuesta (en este caso, la talla, en cm). Un resumen de lo observado es: Sexo Promedio Desv. Típica Femenino 69 3 Masculino 73 8 a. Referirse, por separado, a niños y niñas en relación a sus características físicas. Señalar condiciones que deben cumplir los datos para que sean válidas tales conclusiones. b. ¿Qué grupo de pequeños es más homogéneo en cuanto a su talla? Explicar. c. Calcular errores estándares de cada promedio y relacionarlo con los comentarios anteriores. 6. La información resumida a continuación, en los distintos box–plot, es relativa a una serie de características de niños de Quinto Nivel de Enseñanza Primaria en el sistema educacional de España (en una localidad específica de la región de Cataluña). Originalmente 2 la investigación estuvo dirigida a perfilar los hábitos de lectura de estos niños. Aquí se han seleccionado aquellas variables descriptivas más generales, y no dan cuenta exhaustiva, por tanto, de los hábitos de lectura. Se pide hacer un análisis de esta información. Resúmenes gráficos (Gráficos de caja) referidos a la variable Inteligencia Inteligencia Verbal según Nivel Socieconómico 0 10 20 30 40 50 60 70 80 90 100 intver 1 2 3 4 2 Los datos fueron proporcionados por el programa internacional PRESTA, y se enmarcan en el contexto de la tesis doctoral de Nuria Rajadell Puiggros, Universidad de Barcelona, 1990 ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 39 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Inteligencia No Verbal según Nivel Socieconómico 0 10 20 30 40 50 60 70 80 90 100 intnover 1 2 3 4 Inteligencia No Verbal según tipo de Escuela 20 40 60 80 100 intnover 1 2 Inteligencia Verbal según tipo de Escuela 0 10 20 30 40 50 60 70 80 90 100 intver 1 2 ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 40 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco 7. Una empresa dedicada a la consultoría dispone de personal para hacer visitas en terreno. Lleva un registro diario de las distintas visitas y también de las frecuencias en las que aquellas visitas cumplieron con su objetivo y de aquellos casos en los que no se cumplió con el objetivo. ¿Cuál es la mejor medida de tendencia central a efectos de programar las visitas a terreno en esta empresa? 8. Producto del gran interés comercial de mercados extranjeros por la especie trucha arcoiris, su producción y cultivo se ha masificado en los últimos años, así como también la búsqueda de eficiencia en ellos. Tal situación ha motivado una gran cantidad de estudios y experimentos, por parte de universidades y empresas privadas. Así en la piscicultura de Río Bueno, en la Región de los Ríos, se realizó un experimento con el fin de evaluar la eficiencia del tipo de alimentación. Para ello se utilizaron dos jaulas, en la primera de ellas a los individuos se les administró alimento extruido en cantidades normales (6 bolsas diarias) y en la segunda se les administró también alimento extruido pero a saciedad (10 bolsas diarias). La información obtenida se resume en el siguiente informe: Cantidad Nor mal A Sac iedad Cantidad de Alimento 4 3 2 1 K i l o s Gráfico de Cajas para el Peso Trucha Arcoiris 48 45 42 39 36 33 Alimentación ASaciedad 12 9 6 3 0 F r e c u e n c ia Histograma para la Longitud Trucha Arcoiris 48 44 40 36 32 28 Cantidad Normal de Alimento 12 10 8 6 4 2 0 F r e c u e n c ia Histograma Para la Longitud Trucha Arcoiris Longitud (A. Normal) Longitud (A. Saciedad) Peso (A. Saciedad) Peso (A. Normal) Mínimo 28.6 35.2 1.22 2.0 Máximo 46.1 46.5 3.35 3.12 a) Identifica claramente las variables involucradas en el experimento y su naturaleza. b) Realiza un análisis descriptivo respecto de la longitud de los individuos en estudio. c) Realiza un análisis descriptivo respecto del peso de los individuos en estudio. d) Concluye respecto del tipo de alimentación más eficiente para la especie en estudio. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 41 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Capítulo 2 ESTIMACIÓN DE PARÁMETROS Objetivos del capítulo: 1. Valorar la Inferencia Estadística como un proceso válido en la investigación científica. 2. Reconocer la importancia del proceso de estimación en la Inferencia estadística. 3. Usar, eficientemente, métodos y recursos de estimación para hacer inferencias válidas. La Inferencia es ese proceso, científico (y más que estadístico), que permite el "tránsito" desde una muestra a la población representada en esa muestra. De esta frase resultan importantes algunos conceptos como: muestra, proceso y tránsito hacia la población. Lateralmente está presente, en este contexto, el problema estadístico o de investigación. Esto último es el punto de partida de un trabajo. Un gran supuesto es que existe algo (parcial o casi total) de esa población que se desea explorar o conocer. Es este desconocimiento de la realidad el que justifica la investigación. Sin embargo, no todos los aspectos de un fenómeno, en realidad, pueden ser desconocidos, ya que si ese fuere el caso, entonces tampoco tendría sentido estudiarlo, porque no existe. De cualquier modo, ante la posibilidad de desarrollar una investigación, existen siempre ciertos aspectos que el investigador conoce del problema. Este conocimiento puede ser directo o indirecto. Directo, en el sentido que existe fuentes confiables de información (anteriores) que permiten desde ya un acercamiento a ese problema. Indirecto, en el sentido que hay conocimiento lateral acerca del problema. Por ejemplo, puede tratarse de estudiar un modelo de comportamiento específico, pero la distribución de ese modelo no se conoce, pero se sabe cuáles podría ser "candidatos" a modelo. Hay que recordar, en este punto, que una población, representada por variables, llegará a ser conocida (estadísticamente) en tanto se conozacan sus parámetros de definición. De modo entonces, que desde una visión estadística, la investigación persigue la estimación de parámetros, sobre la base de información empírica. Es aquí, en la condición empírica, que surge el concepto de muestreo. El muestreo es la base fundamental de la inferencia: debe existir lo particular, para luego hacer las generalizaciones pertinentes. El muestreo más utilizado en la investigación en campos aplicados, como el área forestal, química, ambiental, etc., es el muestreo probabilístico. De estos muestreos, sin duda el muestreo aleatorio simple es la base. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 42 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Por medio del muestreo se obtiene una "parte" representativa de la población, a objeto de, desde esta parte, hacer las generalizaciones a la población que la información contenida en la muestra permita. Es fundamental, entonces, la calidad de la muestra. Se ha establecido que muestras aleatorias proporcionan buenos resultados en orden a hacer inferencias. Se entiende por muestra aleatoria un conjunto de variables independientes e idénticamente distribuídas (iid). Esto significa, en primer lugar, que una muestra es una colección de variables, digamos { } n i i X , 1 = ; y en segundo lugar, que cada una de estas variables es independiente de cualquiera otra y todas tienen la misma distribución. En este escenario se desarrollará el proceso inferencial Sabiendo que una población está totalmente determinada si se conocen sus parámetros de definición, resulta una natural consecuencia, entonces, que el conocimiento de esos parámetros sea uno de los más importantes objetivos de la investigación. El problema es que esos parámetrosno están disponibles, y habrá que obtenerlos de algún modo, o, en su defecto, obtener estimadores de ellos. Esto último es lo que se abordará en estas notas (y en el curso). Hay básicamente dos formas de obtener un acercamiento a los parámetros: uno es a través de una estimación puntual, que significa obtener un valor "estimado" de él; y otra es por medio de alguna afirmación proposicional–probabilística del mismo. Por ejemplo, decir que el parámetro puede variar entre un valor y otro. En el primer caso se habla de Estimación Puntual, y en el segundo de Estimación por Intervalos. 2.1. ESTIMACIÓN PUNTUA 2.1. ESTIMACIÓN PUNTUA 2.1. ESTIMACIÓN PUNTUA 2.1. ESTIMACIÓN PUNTUAL DE PARÁMETROS L DE PARÁMETROS L DE PARÁMETROS L DE PARÁMETROS Estimación Puntual: Primeros pasos de la Inferencia a. Métodos de estimación Puntual Considérese una población determinada, estadísticamente, por un parámetro θ (o vector de parámetros). Denotaremos porθ ˆ este estimador. Hay varias formas de obtener un estimador para un parámetro, alguas de las cuales se muestran en lo que sigue. • Método de momentos (Debido a Karl Pearson (1894)): Sea q(θ ˆ ) una función de θ que se desea estimar. Si se tiene q(θ ˆ ) = h(u 1 , u 2 , ..., u r ), entonces ) , , , ( ) ˆ ( 2 1 r M M M h q K = θ , donde u i es el i– ésimo momento poblacional (u i = E[X i ]) y M i es el i–ésimo momento muestral ( ∑ = j i j i X n M 1 ). • Método de Mínimos Cuadrados: Su objetivo es minimizar la distancia euclideana entre la función paramétrica que se desea estimar y un referente dado. Es muy utilizado en regresión. Una de sus características es que no requiere de supuestos distribucionales, lo que no ocurre con el método de momentos. • Método de Máxima Verosimilitud: Se fundamenta en la maximización de la función de verosimilitud de la muestra. Esta función, para una muestra aleatoria { } n i i X , 1 = de una población con parámetro de interés (o vector de parámetros) θ se define como ∏ = = ) ; ( ) ; ( ) ( θ θ θ i x f x f L , ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 43 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco donde f es la función de densidad (o de probabilidades) de la variable aleatoria; y x es un símbolo para denotar el vector )' , , ( 1 n x x K . La solución del proceso en θ ˆ es el Estimador Máximo Verosímil (EMV) de θ . La principal característica del método es que requiere del conocimiento de la distribución de la población, el que no siempre está disponible. Además, no siempre existe un EMV. Propiedad: Los estimadores MV poseen la propiedad de invarianza. Esto significa que si g es una función inyectiva y si θ ˆ es el EMV deθ , entonces g(θ ˆ ) lo es de g(θ ). b. Propiedades de los Estimadores Puntuales Al estimar un parámetro ocurre que, con mucha frecuencia, dependiendo del método, se obtengan distintos estimadores. El probema es entonces disponer de un criterio que permita seleccionar a uno de esos estimadores. En este sentido puede optarse por aluno de los dos criterios dados a continuación (Error Cuadrático Medio y Eficiencia). Sin embargo, hay otras propiedades, quizá anteriores a estos dos criterios, que facilitan la obtención de un estimador. Son a veces llamadas propiedades deseables de los estimadores puntuales (Insesgamiento, varianza mínima, suficiencia, etc.). Por último, puede ser interesante examinar algunas propiedades especiales del estimador (como consistencia y eficiencia). En base a toda esta información, y siempre en relación al problema estudiado, se deberá optar por algunos de los estimadores. • Error Cuadrático Medio. El ECM para un estimadorθ ˆ se define como 2 ] ˆ [ ) ˆ ( ϑ θ θ − = E ECM . Después de algunas simplificaciones, puede escribirse | | 2 ] ˆ [ ) ˆ ( ) ˆ ( ϑ θ θ θ E Var ECM − + = . La cantidad | | ] ˆ [ϑ θ E − se llama sesgo de θ ˆ . • Eficiencia relativa de 2 ˆ θ respecto de 1 ˆ θ : ) ˆ ( ) ˆ ( 2 1 θ θ Var Var . Las medidas anteriores son útiles en la comparación de estimadores. A continuación se presentan algunas propiedades deseables de los estimadores. Propiedades que se espera posean ellos. No puede esperarse que un estimador dado posea todas estas propiedades. De seguro, un estimador particular poseerá sólo algunas de estas propiedades. Será función del investigador determinar, de entre una serie de estimadores, cuál de ellos es "mejor" bajo alguno de los criterios señalados o por señalar. A continuación se presentan algunas de estas propiedades (deseables) de los estimadores puntuales. Se define sólo la de insesgamiento, y se dejan las otras para consulta del alumno. • Insesgamiento. Es una de las recorridas propiedades. Casi siempre es un criterio de selección. Un estimador θ ˆ deθ se dice insesgado si su sesgo es cero. Esto es, si θ θ = ] ˆ [ E . • Consistencia, Suficiencia • Eficiencia Observación: Los EMV no siempre son insesgados. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 44 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Ejercicio: Obtener el EMV de la media de una distribución normal de varianza unitaria, y estudiar si es o no insesgado. Solución: Sea { } n i i X , 1 = una muestra aleatoria de una población N(u;1). Entonces la función de verosimilitud de la muestra es ) ` ¹ ¹ ´ ¦ − − = ∑ − 2 2 ) ( 2 1 exp ) 2 ( ) ( µ π µ i n x L . Aplicando logaritmo natural (sólo para simplificaru poco la relación) se obtiene ∑ − − − = 2 ) ( 2 1 ) 2 ln( 2 ) ( ln µ π µ i x n L . La derivada parcial de esta última expresión es ∑ − 2 ) ( µ i x . Reslviendo la ecuación 0 ) ( ln ˆ = ∂ ∂ =µ µ µ µ L , se tiene finalmente x = µˆ . Es decir, el EMV de la media de una población normal de varianza 1 es la media muestral. Por otra parte, es fácil ver que µ = ] [X E , lo cual indica que el EMV en este caso, es insesgado. ♦ c. Aspectos Distribucionales de los Estimadores Puntuales Una de las propiedades más importantes, desde el punto de vista de la Inferencia estadística, que se espera posean los estimadores puntuales, son de tipo distribucional. Por esta razón, siempre se selecciona, de una lista posible de estimadores, aquel que posee estas propiedades. Por ejemplo, puede ser que una combinación lineal (distinta de la media aritmética) de las variables sea un buen estimador de la media poblacional. Sin embargo, dado que la media muestral posee distribución normal en el límite, es tal vez más interesante esta última como estimador que cualquiera otra combinación de variables. Como en una gran frecuencia de casos nos enfrentaremos con medias y varianzas poblacionales (los que además, como ya se habrá visto, son estimadores insesgados de sus respectivos parámetros), parece razonable abordar el problema de distribución de estos estimadores. Distribución de la Media Muestral: Como se plantea a modo de ejercicio, es fácil demostrar que, en una población normal: Z ~ n / - X σ µ , cuando la desviación estándar poblacional es conocida t n S/ - X 1 - n ~ µ , cuando la desviación estándar poblacional es desconocida. Teorema Central Del Límite: Este teorema es uno de los más importantes en materia distribucional en el contexto de la inferencia. Establece que en una población con media y varianza conocidas, y en muestras de tamaño infinito, la media muestral tiene distribución aproximadamente normal, con una media igual a la media poblacional y una varianza igual a n 2 σ . En la práctica, el resultado se logra con muestras de tamaño supueriores a 30 o 40. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 45 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Distribución de la Varianza Muestral: En una población normal, no es difícil verificar que 2 1 2 2 ~ ) 1 ( − − n S n χ σ . Notar que este estadístico no requiere del conocimiento del parámetro u. Teorema (De Moivre-Laplace): Si X~bin(n,p), entonces, cuando n tiende a infinito (n grande), se tiene: (0,1) ) p Var( p - p = Z N ~ ˆ ˆ Observación: La aproximación anterior es buena ya sea que np > 5 y p ≤ 0.5, o bien n(1–p) > 5 para p<0.5. La relación anterior también es válida si en n p) - p(1 = ] p Var[ˆ se sustituye p por su estimador. El estadístico (0,1) ) p Var( p - p = Z N ~ ˆ ˆ se usará entonces para hacer inferencias acerca de p. 2.2. ESTIMACIÓN POR INTERVALOS 2.2. ESTIMACIÓN POR INTERVALOS 2.2. ESTIMACIÓN POR INTERVALOS 2.2. ESTIMACIÓN POR INTERVALOS Como se dijera oportunamente, otra forma de estimar un parámetro es mediante alguna afirmación proposicional, que tiene una representación matemática a través de un intervalo real. Esto consiste en la cosntrucción de un subconjunto de los números reales que se llama Intervalo de Confianza. Por ejemplo, en lugar de decir que la media de una población normal es estimada por la media muestral, se podría decir que ésta "oscila" entre una valor a y un valor b. Pero, aún encontrando estos valores a y b, puede suceder que la afirmación en base a una muestra M 1 sea mucho más hacertada que en base a una muestra M 2 . Esta capacidad de "acertar" debe medirse, y la herramienta que lo permite son las probabilidades. Esto es, se debe asignar (y conocer) la probabilidad con que la media, realmente, oscila entre los valores indicados. Esta probabilidad da cuenta de la confianza de la afirmación. Por ello es que el intervalo se llama Intervalo de Confianza. Más específicamente, si la confianza es del orden de (1–α)100%, entonces se habla de Intervalo del (1–α)100% de confianza. Un intervalo de confianza es, en consecuencia, una afirmación proposicional que tiene una frecuencia del (1– α)100%. Esto significa que si se extrajeran infinitas muestras aleatorias del mismo tamaño, el (1–α)100% de los intervalos construídos cubrirán al verdadero valor del parámetro, razón por la que, en algunos textos, se habla de probabilidad de cubrimiento para referirse a ella. Esta probabilidad de cubrimiento se llama Nivel de Confianza, y el valor α100% es el Nivel de Significación. ¿Cómo construir un intervalo de confianza? Hay varias formas de hacer esto. La más utilizada es la llamada Regla del Pivote, que constiste en encontrar una cantidad, llamada pivote, que es función del estimador y del aprámetro, y que tiene una distribución conocida (independiente del parámetro). En una forma un tanto más práctica, se trata de encontrar dos funciones, ) ˆ (θ i L y ) ˆ (θ s L de modo tal que la probabilidad que el intervalo aleatorio cuyos lmímites inferior y superior sean ) ˆ (θ i L y ) ˆ (θ s L sea igual a 1–α. Notar que la probabilidad que el parámetro pertenezca al intervalo es 1 o 0. Por ello debe tenerse cuidado al hacer las afirmaciones relativas a esta forma de estimación. Observación: Notar que un intervalo de confianza se limita a parámetros reales, no a vectores de parámetros. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 46 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Se resume a continuación la construcción de un intervalo de confianza para una función g simétrica del parámetro θ ˆ de una distribución. Sean θ el parámetro de una población, y g una función paramétrica que se desea estimar. Sean, además, 1–α el nivel de confianza, g(θ ˆ ) la función que estima bien a g(θ ), y D la distribución (simétrica) de g(θ ˆ ). Entonces el intervalo tiene la forma ( ) ˆ (θ i L ; ) ˆ (θ s L ). Al resolver las inecuaciones correspondientes (se recomienda revisar bibliografía para una completa deducción de estas formas), se concluye que estos límites son: )] ˆ ( [ ) ˆ ( ) ˆ ( 2 θ θ θ α g ee D g L i + = y )] ˆ ( [ ) ˆ ( ) ˆ ( 2 1 θ θ θ α g ee D g L s − + = donde 2 α D es el percentil de orden 2 α de la distribución D y )] ˆ ( [ θ g ee es el error estándar de g(θ ˆ ). Ejemplo 2.1: Consideremos una muestra aleatoria de tamaño n de una distribución normal, con varianza desconocida. Entonces un intervalo de confianza para la media poblacional µ de esta población, en base e la muestra dada, es: | ¹ | \ | + + − − − ) ( ); ( 1 ; 2 1 1 ; 2 X ee t X X ee t X n n α α Notar que como la distribución t–Studente es simétrica y que el error estándar (desviación estándar) de la media muestral es n S , eontonces el intervalo encontrado es equivalente a: | ¹ | \ | + − − − − − n S t X n S t X n n 1 ; 2 1 1 ; 2 1 ; α α Supongamos ahora que, en una situación práctica, que se obtiene, en una muestra aleatoria de tamaño 36 de una población normal, una media muestral igual 8 y una desviación estándar igual a 1.8. Entonces un intervalo del 95 de confianza para la media poblacional es: ) 36 8 . 1 8 ; 36 8 . 1 8 ( 975 . 0 975 . 0 Z Z − − De la tabla normal se obtiene que Z 0.975 =1.96. Por lo tanto, el intervalo aproximado es (7.41;8.59). Esto significa que, en base a estos datos, es altamente probable (95%) que la media poblacional tome valores que van desde 7.41 a 8.59. Equivalentemente, si se muestreara infinitas veces, en las mismas condiciones, en el 95% de los casos obtendríamos intervalos de este tipo (conteniendo al parámetro). ♦ 2.3. EJERCICIOS Y PROBLEMAS 2.3. EJERCICIOS Y PROBLEMAS 2.3. EJERCICIOS Y PROBLEMAS 2.3. EJERCICIOS Y PROBLEMAS 1. Obtener los estimadores por momentos de los parámetros de las siguientes distribuciones. Además, en cada caso, estudie propiedades que posee el estimador: a. Distribución Bernoulli. b. Distribución de Poisson. c. Distribución uniforme continua entre 0 y θ. 2. Encuentre y estudie propiedades de los EMV de los parámetros de: a. La distribución Poisson. b. La distribución Bernoulli. c. Distribución exponencial de parámetroθ . ¿Cuál es el EVM de E(θ ˆ )? d. Distribución normal. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 47 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco 3. Considera una población (infinita) con media u y varianza σ². En base a una muestra aleatoria de tamaño n de esta población, digamos { } n i i X , 1 = : a. Muestra que X es un estimador insesgado de la media poblacional u. b. Muestra que n X Var 2 ] [ σ = . c. Demuestra que ∑ − − = 2 2 ) ( 1 1 X X n S i es un estimador insesgado de σ². Nota: S² no será un estimador insesgado de σ² cuando la población sea finita. Además, S nunca será un estimador insesgado de σ. d. Calcula la eficiencia asintótica de la mediana con respecto a la media, e interprete esa eficiencia. (Sug.: en poblaciones de tamaño grande se tiene que n X Var 4 ] [ 2 5 . 0 πσ = ). e. Demuestra que S² es un estimador consistente de σ². 4. Sea { } n i i X , 1 = una muestra aleatoria de una población con media u y varianza σ². Considere los siguientes estimadores de θ=u : 2 2 ˆ ; ˆ 4 6 1 2 1 X X X X + − = = θ θ . a. ¿Alguno de estos estimadores es insesgado? b. ¿Cuál estimador es el "mejor"? ¿En qué sentido es mejor? 5. Verifica que el EMV de σ² en una población normal es sesgado. Determinar la magnitud del sesgo y relacione el hecho anterior con la forma que en este curso hemos usado para la varianza empírica (muestral). 6. Se ha obtenido una muestra de tamaño 20, de una población cuya función de densidad de probabilidad está dada por: t e f λ λ λ − = * ) ( , donde t es el tiempo, en segundos, de reacción de un catalizador sometido a prueba. La muestra obtenida es: {6, 7, 2, 8, 3, 10, 2, 4, 3, 9, 6, 7, 5, 8, 9, 6, 3, 7, 8, 8}. Determinar el estimador máximo verosimil del parámetro λ. 7. La reglamentación nacional ambiental respecto del tratamiento de aguas, aplicable a una planta industrial, indica que el agua reciclada no debe, en promedio, exceder los 28.9°C antes que pueda ser lanzada al río que corre junto a la planta. De 70 muestras de agua reciclada, se encontró que su promedio de temperatura fue de 30.2°C. Si se sabe que la desviación estándar poblacional es de 7.5°C y usando un nivel de confianza del 95%, ¿existe evidencia que permita concluir que la planta cumple con la reglamentación nacional? 8. En un proceso químico se comparan dos catalizadores para verificar su efecto en el resultado de la reacción del proceso. Se preparó una muestra de 12 procesos utilizando el catalizador 1 y una de 10 utilizando el catalizador 2. En el primer caso se obtuvo un rendimiento promedio de 85, mientras que en el segundo caso el rendimiento promedio fue de 81. Suponiendo normalidad en las distribuciones poblacionales y con desviaciones estándar de 4 y 5 respectivamente. Con una confianza del 96% ¿se podría decir que ambos catalizadores presentan similares rendimientos? ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 48 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Capítulo 3 HIPÓTESIS ESTADÍSTICAS Objetivos del capítulo: 4. Reconocer la importancia de las hipótesis estadísticas en el proceso inferencial. 5. Identificar distintas componentes de una hipótesis estadística. 6. Formular, adecuada y pertinentemente, hipótesis estadísticas. 7. Construir y efectuar pruebas de hipótesis estadísticas Hemos establecido las bases de un proceso de inferencia a partir de observaciones obtenidas de una población normal, básicamente. En forma específica, hemos establecido los mecanismos de la inferencia en relación a medias y varianzas poblacionales. La construcción de un intervalo de confianza es tal vez una de estas técnicas que mayor aceptación pudiera tener. Sin embargo no siempre estamos interesados en estimar de esta forma un determinado parámetro, sino que quisiéramos saber si, por ejemplo, los datos sustentan o no cierta afirmación en relación a tal parámetro. Por ejemplo, supongamos que una organización independiente desea saber si, en realidad, el precio del pan ha subido o no durante los últimos seis meses. Tal vez la construcción de un intervalo de confianza para el valor promedio del pan podría ayudar a la solución del problema, pero existe otra forma más eficiente y quizá menos complicada de hacerlo. Es por medio de lo que se conoce como Prueba de Hipótesis. 3.1. CONCEPTOS PRELIMINARES ¿Qué es una hipótesis estadística? Podemos decir que una hipótesis estadística es una proposición, formulada en términos de parámetros. Recordemos que, desde un punto de vista de la lógica (Aristotélica), una proposición es una expresión del lenguaje a la que se le pueden asignar sólo uno de dos posibles "valores de verdad": Verdadero o Falso. Esto es precisamente lo que corresponde a una hipótesis estadística: Una afirmación acerca de los parámetros de una población, como por ejemplo el caso del precio del pan citado más arriba. Ejemplo 3.1: Supongamos que nuestro interés es el promedio de una población normalmente distribuída. Entonces, si suponemos que X es la variable en estudio, lo que tenemos es X~N(u;σ²). Específicamente, supongamos que deseamos saber o inquirir si u=u 0 . Entonces ésta es nuestra hipótesis, que podemos simbolizar como H 0 : u=u 0 . ♦ Es lógico pensar que, frente a una hipótesis como la anterior exista otra hipótesis, a modo de "contraparte", en que se afirma lo contrario o se niega lo que establece la primera. Si denotamos esta "contraparte" por H a , entonces, para H 0 : u=u 0 , H a podría expresarse como H a : u≠u 0 , o bien como H a : u<u 0 , o tal vez como H a : u>u 0 . Cualquiera sea esta "contraparte", se llama hipótesis alternativa, y H 0 es la hipótesis nula. Si una hipótesis se expresa en términos de igualdad, como aquí es H 0 , ésta se llama a su vez hipótesis sencilla o simple. La hipótesis expresada como H a : u<u 0 es una hipótesis unilateral (a izquierda), la expresada por H a : u>u 0 es una hipótesis unilateral (a derecha), y la hipótesis H a : u≠u 0 es bilateral. En este curso las hipótesis nula serán siempre sencilas. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 49 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco ¿Qué es una prueba de hipótesis? Componentes básicas En el proceso inferencial con base en hipótesis estadísticas, el objetivo central es contrastar las hipótesis nula y alternativa. Esto es lo que se conoce con el nombre de Prueba de Hipótesis. Una prueba de hipótesis es un procedimiento que permite establecer si la hipótesis nula es una afirmación razonable (y por tanto no debiera rechazarse), o no lo es (y debiera rechazarse). Los elementos que permiten determinar lo razonable o no de la hipótesis son la evidencia muestral y la teoría de las probabilidades, especialmente la ralativa a distribuciones de probabilidades. El procedimiento de prueba, llamado también test de hipótesis, empieza con la formulación de las hipótesis nula y alternativa, reconociendo además el tipo de hipótesis (Test Unilateral o Test Bilateral), lo que es determinado por la hipótesis alternativa (no olvidemos que la hipótesis nula será siempre del tipo simple). Como una prueba de hipótesis es en sí un procedimiento de inferencia estadística, entonces debemos identificar el estadístico que permite o facilita la inferencia. Por ejemplo, si la hipótesis se formula en términos de medias poblacionales (la inferencia es acerca de medias poblacionales), entonces los posibles estadísticos a utilizar serán el estadístico normal estándar o la t-Student, dependiendo, respectivamente, de si son o no conocidas las varianzas poblacionales. El estadístico a utilizar es llamado Estadístico de Prueba, debido a su finalidad. Un paso siguiente es establecer (decidir subjetivamente) el Nivel de Significación que tendrá el test, digamos α. Este nivel de significación corresponde a la probabilidad de rechazar una hipótesis verdadera, y se le conoce también como Probabilidad de Error de Tipo I (Algunos autores utilizan, en lugar del nivel de significación, el nivel de confianza, 1–α). Se espera que el nivel de significación sea lo menor posible, dentro de lo razonable. Por ejemplo, niveles de significación mayores al 10% (confianza menor del 90%) son "poco creíbles", mientras que niveles de significación inferiores al 1% son "menos precisos". El nivel de significación conjuntamente con la distribución del Estadístico de Prueba, determinan uno o dos valores fractiles, dependiendo del tipo de test (un valor fractil si el test es unilate- ral; dos, si es bilateral), los que a su vez determinan un conjunto de valores distribucionales que fijan teóricamente lo que se puede considerar razonable o no para rechazar una hipótesis nula. Este conjunto de valores distribucionales se llama Región Crítica, y lo denotaremos por Rc. La figura (a) anterior muestra la forma de la región crítica para un test bilateral. Por su parte, las figuras (b) y (c) siguientes ilustran la forma de la región crítica para un test unilateral a izquierda, y unilateral a derecha, respectivamente. Ejemplo 3.2: Supongamos que estamos interesados en probar la hipótesis nula H 0 : u 1 =u 2 versus la alternativa H a : u 1 ≠u 2 , en las poblaciones X 1 ~N(u 1 ; σ 1 ) y X 2 ~N(u 2 ;σ 2 ), ambas independientes. Para la prueba se extraen sendas muestras aleatorias de tamaños n 1 y n 2 , respectivamente. Si fijamos 1–α=0.95 y suponemos desconocidas las varianzas, pero homogéneas, entonces, como el test es bilateral y la distribución del esta- dístico de prueba es t-Student, con n 1 +n 2 –2 g.l., tenemos dos fractiles, dados por las cantidades ±t 1-α/2;n1+n2-2 =±t 0.975;n1+n2-2 y la región crítica tendrá la forma de la figura (b). En el caso que n 1 =23 y n 2 =18, n 1 +n 2 –2=40 grados de libertad, por lo tanto t 1-α/2;n1+n2-2 = 2.021. La región crítica en este caso estará constituída por todos los valores del estadístico de prueba que son o inferiores a -2.021 o superiores a 2.021. ♦ ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 50 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Regla de decisión El problema que sigue por resolver, es cómo utilizar la evidencia muestral (información empírica) para decidir si rechazar o no la hipótesis nula. El principio en el que se sustenta una prueba de hipótesis es que La hipótesis nula es siempre verdadera, mientras no se pruebe lo contrario. Con este principio en cuenta, el valor del estadístico de prueba, bajo H 0 , determinará si la evidencia que él resume es suficiente para apoyar el rechazo de H 0 o no. Si este valor pertenece a la región crítica, parece lógico que debiera rechazarse la hipótesis nula. Por lo tanto ésta es la Regla de Decisión: Si, bajo la hipótesis nula, el valor del Estadístico de Prueba pertenece a la Región Crítica, entonces rechazar la hipótesis nula en favor de la alternativa; caso contrario, reservar el juicio (aunque en muchos textos se habla de aceptar la hipótesis). Errores asociados a una prueba de hipotesis Cuando se decide rechazar una hipótesis, esta decisión se toma en base a una muestra aleatoria extraída de la población en estudio. Por tratarse de un proceso no excento de errores, de diverso tipo, puede ocurrir que erróneamente hayamos llegado a tal conclusión, en cuyo caso estaremos rechazando una hipótesis verdadera. Por otro lado, si no se rechaza una hipótesis, es porque el proceso no pudo detectar (o no había) evidencia en su contra, pero no estamos seguros de si verdaderamente estamos frente a una hipótesis verdadera. Estos son, pués, los dos tipos de errores más frecuentes en un proceso de prueba de hipótesis: Rechazar una hipótesis Verdadera y No Rechazar una Hipótesis Falsa. El primero es lo que llamamos Error Tipo I, y el segundo corresponde a lo que se llama Error Tipo II. Cada una de estas acciones tiene una probabilidad. Se acostumbra denotar por α la probabilidad de Error Tipo I y por β la probabilidad de Error Tipo II (Nótese la semejanza con un proceso judicial, y evalúese la gravedad de uno y otro tipo de error). En el diagrama 1 se resume el proceso de inferencia basado en una prueba de hipótesis, y en el diagrama 2 se presentan las consecuencias de una y otra decisión, en relación al rechazo o no rechazo de una hipótesis. Diagrama 1: Sugerencia de pasos a seguir en una prueba de hipótesis Paso 1 Formular las hipótesis nula y alternativas Paso 2 Identificar el Estadístico de Prueba Paso 3 Seleccionar Nivel de Confianza o de Significación Paso 4 Determinar la Región Crítica Paso 5 Tomar una decisión ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 51 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Diagrama 2: Estados de la Naturaleza y consecuencias de acciones en una prueba de hipótesis Estados de la Naturaleza Decisión H 0 Verdadera H 0 Falsa Rechazar H 0 Error Tipo I α Acción Correcta 1–β No Rechazar H 0 Acción Correcta 1–α Error Tipo II β 3. 3. 3. 3. 2. HIPÓTESIS RESPECTO DE MEDIAS EN POB 2. HIPÓTESIS RESPECTO DE MEDIAS EN POB 2. HIPÓTESIS RESPECTO DE MEDIAS EN POB 2. HIPÓTESIS RESPECTO DE MEDIAS EN POBLACIONES NORMALES LACIONES NORMALES LACIONES NORMALES LACIONES NORMALES El procedimiento general de prueba de una hipótesis fue presentado en la sección anterior, por lo que no es necesario insistir en sus aspectos teórico–formales tratándose de determinadas pruebas, como lo son las pruebas asociadas a aparámetro de una distribución conocida. Lo único que debe preocupar, en ese contexto, es la construcción de los estadísticos correspondientes y de los demás elementos de la prueba. Por tal razón, en esta sección se presentan algunos ejemplos que ilustran el uso de los respectivos procedimientos para algunos parámetros. Ejemplo 3.3: Se está sometiendo a prueba el rendimiento de un nuevo modelo de automóvil. Para ello se eligen aleatoriamente cinco autos del proceso de producción, y se someten a un recorrido de 30 mil kilóme- tros, obteniendo los siguientes rendimentos, en km/lts: 13.8, 14.6, 13,9, 14.5 y 14.2. La empresa fabricante asegura que el rendimiento esperado de este modelo es de 14.7 km/lts. ¿Costituyen estos datos evidencia sustancial en contra de la afirmación del fabricante? Solución: Si representamos por X: Rendimiento del automóvil, entonces puede suponerse que X~N(u;σ), y el problema anterior se puede reformular en términos de hipótesis como H 0 : u=14.7 vs H a : u<14.7, ya que en verdad lo que el fabricante afirma es que su auto "rinde al menos 14.7 km/lts". Como se está haciendo inferencia acerca de una media poblacional, y s es desconocida, entonces el estadístico de prueba es t n S/ - X 1 - n ~ µ . Notemos también que el test es bilateral a izquierda, así que, si fijamos 1–α=0.95, entonces el valor crítico es t α/2;n-1 =t 0.05;4 =-2.132. Por su parte, el valor del estadístico de prueba, supuesto H 0 verdadera, es t c =(14.2– 14.7)/(0.35/2.24)=–3.19. Como este valor pertenece a la región crítica, entonces la decisión es rechazar la hipótesis nula. Esto es, rechazamos la afirmación del fabricante, con un 95% de confianza. Observemos que si 1–α=0.90, entonces la evidencia contenida en los datos no permitiría rechazar la hipótesis H 0 . ♦ Ejemplo 3.4: Una empresa inmobiliaria tiene que construir una gran cantidad de edificios, de alta calidad. El proceso de fiscalización será en extremo riguroso, por lo que la empresa ha de seleccionar de la mejor forma la calidad de los insumos. Por ejemplo, para la adquisición de bloques de cemento ha seleccionado a dos compañías fabricantes de este tipo de bloques, A y B, que le merecen confianza y seguridad. La compañía fabricante que se adjudique la propuesta será aquella cuyos bloques muestren, en promedio, la mayor resistencia en libras por pulgada cuadrada (psi). En el caso de resistencias iguales, se optará por comprar la mitad de lo requerido a una empresa y la mitad a la otra. Para el efecto, se le solicitó a cada compañía una muestra (aleatoria) de bloques. La Compañía A envió 81 bloques, los que arrojaron una media de 1070 psi y una desviación típica de 63 psi. La Compañía B envió 64 bloques, los que proporcionaron una media de 1020 psi y una desviación estándar de 57 psi. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 52 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Solución: Sea X 1 : Resistencia de los bloques provenientes de A; X 2 : Resistencia de los bloques provenientes de B. Suponiendo que la resistencia es una variable que se distribuye normal, y que la producción de las compañías es independiente una de otra, el problema se puede reducir al contraste de las hipótesis H 0 :u 1 =u 2 vs H a : u 1 ≠u 2 , donde u 1 y u 2 son las medias poblacionales de X 1 y X 2 , respectivamente. Entonces el estadístico de prueba es t n 1 + n 1 S ) - ( - ) X - X ( 2 - n + n 2 1 p 2 1 2 1 2 1 ~ µ µ el que, en consideración de los tamaños de muestra y en virtud del Teorema del Límite Central, puede aproximarse por una normal estándar. Un problema puede tener el análisis anterior: la distribución de este estadístico es la indicada siempre que las varianzas sean homogéneas. Por lo tanto, supuesto poblaciones normales e independientes, se debe verificar (y ates de cualquier otro análisis), la homogeneidad de varianzas poblacionales. En efecto, el estadístico utilizado para este propósito es 2 2 2 2 2 1 2 1 σ σ S S F = que tiene distribución F con n 1 –1 g.l. en el numerador y n 2 –1g.l. en el denominador. En el caso analizado, haciendo 1–α=0.95, entonces tenemos que F 1–α;80,63 =F 0.95;80,63 =1.50. Ahora, como f c =1.22, entonces no se rechaza la hipótesis de igualdad de varianzas, por lo que podemos continuar con el análisis de las dos medias poblacionales. Si hacemos 1–α=0.95, entonces, con 81+64-2=143 g.l., los valores críticos, aproximados, son ±1.978 (notar que la prueba es bilateral), y la evidencia muestral se resume en t c =4.95 (si se hubiese utilizado aproximación normal, esta valor habría cambiado a 5.01). Como este valor pertenece a la región crítica, entonces se rechaza la hipótesis, lo que es equivalente a establecer, con un 95% de confianza, que la resistencia promedio de los bloques no es la misma. La empresa contratista deberá, entonces, seleccionar sólo un abastecedor (¿Cuál?). ♦ 3. 3. 3. 3.3. INFERENCIAS RESPECTO DE PROPORCIONES 3. INFERENCIAS RESPECTO DE PROPORCIONES 3. INFERENCIAS RESPECTO DE PROPORCIONES 3. INFERENCIAS RESPECTO DE PROPORCIONES Caso de Una Proporción En muchas situaciones prácticas puede ser de interés referirse a una caracterírtica particular de la población, en términos de proporción o porcentaje. Por ejemplo, puede ser de interés estimar la porporción de agricultores cuya actividad agrícola principal es la ganadería. En este caso la variable de interés no es continua, y más bien representa una característica (atributo) que un valor numérico. Sea una población Bernoulli de parámetro p, de la cual se extrae una muestra aleatoria de tamaño n, y sea X la variable Número de éxitosen los n ensayos. Entonces esta variable tiene distribución binomial. Su función de probabilidades es de la forma p(x|n,p) = | | ¹ | \ | x n p x (1–p) n–x para x=0,1,...n, y 0<p<1. El estimador del parámetro p puede demostrarse que es n X = pˆ . Ejemplo 3.5: Imaginemos una población de la que deseamos estimar la proporción de familias que cultivan maíz. Si se selcciona una m.a. de tamaño 40 familias de esta población y se encuentra que 26 de ellas cultivan maíz, entonces la proporción estimada de personas que cultivan maíz es 26/40 = 0.65 = 65%. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 53 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Notemos que en n X = pˆ , X~bin(n,p), por lo que p = np n 1 = ] p E[ˆ y n p) - p(1 = n pq = npq n 1 = ] p Var[ 2 ˆ . El Teorema De Moivre-Laplace permite establecer que N(0,1) ) p Var( p - p = Z ~ ˆ ˆ , con lo que este estadístico se deberá usar para hacer inferencias acerca de p. En particular, un intervalo de confianza del (1-a)100% para p está dado por n ) p - (1 p z p /2 - 1 ˆ ˆ ˆ α ± . ♦ Ejemplo 3.6: Un congresista desea estimar su popularidad en cierto sector de la población. Especifica que la proporción de electores que lo apoyarán debe calcularse dentro de ±2% de la proporción de la población y con una confianza del 95%. En las elecciones pasadas recibió el 40% de los votos de este sector, y duda que esto haya sufrido cambios sustanciales. ¿A cuántos electores habrá que encuestar? Solución: Como se sabe, el error máximo permisible está dado por la desviación del estimador respecto del parámetro. Específicamente, para el caso de estimación de proporciones, éste corresponde a la expresión: n ) p - (1 p z = ) p e.e( z = e /2 - 1 /2 - 1 ˆ ˆ ˆ α α ± ± donde e.e.( pˆ ) es el error estándar de pˆ . Si de esta relación se despeja n, encontramos que ) e z ( ) p - (1 p = n 2 ˆ ˆ Como 1–α=0.95, entonces z 1–α/2 =z 0.975 =1.96, y ya que el estimador de p es 0.40, al sustituir estos valores en la fórmula para n, obtenemos que el mínimo de encuestas a aplicar, con los requerimientos dados, es n>2304.95, ó n=2305. ♦ Ejemplo 3.7: Se cree que el 55% de los estudiantes de la UCT son de fuera de Temuco. Se encuesta a 400 estudiantes de los cuales 228 resultan ser de fuera de Temuco. ¿Apoyan estos datos la creencia inicial? Solución: Este es un problema de pruebas de hipótesis. Las hipótesis correspondientes son H 0 :p=0.55 vs H a :p≠0.55. El estadístico de prueba es p)/n - p(1 p - p = Z ˆ , que como hemos establecido, tiene distribución N(0,1). Si α=0.05, entonces z 1–α/2 =z 0.975 =1.96, y por tratarse de un test bilateral, los valores críticos son -1.96 y 1.96. El valor del estadístico de prueba, supuesto verdadera la hipótesis nula, es z c =0.804 ∉Rc. Por lo tanto, no existe evidencia suficiente como para asegurar que el porcentaje de estudiantes de la UCT que no son de Temuco es distinto del 55%. ♦ Ejemplo 3.8: Supóngase quue 1600 de 2000 electores que se han muestreado dijeron que planean votar por el candidato A. Si el nivel de confianza es 1–α=0.95, entoncs un intervalo de confianza para la proporción de personas que votarían por A en esta población es (0.782;0.818) (Nótese que n es grande). Esto es, entre un 78.2% y un 81.8% de los votantes votaría por el candidato A. Si el tamaño poblacional es 200 mil electores, por ejemplo, entonces el total de personas que votarían por A oscila entre 156400 y 163600. ♦ ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 54 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Caso de dos proporciones: diferencia Sean X 1 ~bin(n 1 ,p 1 ) y X 2 ~bin(n 2 ,p 2 ) dos poblaciones binomiales independientes. Entonces se puede demostrar que el estadístico que permite hacer inferencias acerca de la diferencia p 1 –p 2 está dado por: N(0,1) n ) p - (1 p + n ) p - (1 p p - p = Z 2 c c 1 c c 2 1 ~ ˆ ˆ ˆ ˆ ˆ ˆ , donde 2 2 ˆ n n X X = p 1 1 c + + . Ejemplo 3.9: En laboratorios del departamento de acuicultura, se realiza un experimento para evaluar el porcentaje de ovas fecundadas, usando un control de semen almacenado durante tres días (CSA3) y un control de semen almacenado durante seis días (CSA6). Tras hacer dichas mediciones se obtuvieron los siguientes resultados: de las 35 ovas en estudio, 25 de ellas fueron fecundadas usando CSA3; mientras que al usar CSA6 resultaron fecundadas 28. Pruebe, con un nivel de significación del 4%, cuál de los dos períodos de almacenamiento permite fecundar una mayor cantidad de ovas. Solución. A través de una prueba de hipótesis para la diferencia de proporciones, podemos dar respuesta a esta interrogante, sabiendo que en el primer tratamiento la proporción estimada es de 0.71 mientras que en el segundo tratamiento la proporción estimada es de 0.8. Las hipótesis correspondientes serán: 2 1 0 : p p H = v/s 2 1 1 : p p H < , basadas en la evidencia muestral entregada. El estadístico de prueba será: ) )( 1 ( ˆ ˆ 2 1 1 1 2 1 n n p p p p Z + − − = cuya distribución ya discutida es N(0,1) y su valor de z c = – 0.88. Si α = 0.05, y teniendo claro que la hipótesis alternativa es unilateral (una cola), siendo de interés la cola izquierda, entonces 05 . 0 = α z = -1.65. Siendo el valor del estadístico de prueba – 0.88, supuesta verdadera la hipótesis nula, el cual ∉ a la región crítica. Por tanto, no existe evidencia suficiente para asegurar que la proporción de ovas fecundadas es sustancialmente menor usando el método CSA3. 3.4. MUESTRAS PAREADAS Hemos presentado en las secciones anteriores los elementos más fundamentales de un proceso de Prueba de Hipótesis, como una forma de hacer inferencia acerca de parámetros de una población. En particular se presentaron situaciones en las que la inferencia comprometía a dos poblaciones. En estos casos era necesario hacer ciertas verificaciones acerca de la población. Por ejemplo, se supuso que las muestras (poblaciones) debían ser independientes, estar normalmente distribuídas y tener varianzas homogéneas. Una vez verificado o justificado estos supuestos, sólo entonces corresponde continuar el proceso de inferencia acerca de medias poblacionales, particularmente acerca de u 1 –u 2 . La verificación de los supuestos de independencia y normalidad no es posible efectuarla aún, por lo que se postpondrá para más adelante. Sin embargo, algunas veces no es posible disponer de muestras independientes, ya que el problema así lo establece. Por ejemplo, supongamos que deseamos estimar la eficacia de un programa de adiestramiento laboral, al interior de una determinada empresa. Los analistas proponen dos formas de evaluación: Una consiste en seleccionar u grupo aleatorio de trabajadores y aplicarles un test de rendimiento antes de aplicar el programa de adiestramiento; y luego, después de aplicado el adiestramiento, seleccionar al azar otro grupo y aplicarles el test de rendimiento. El otro plan consiste en aplicar el test de ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 55 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco rendimiento al mismo grupo, antes y después del adiestramiento. Cada uno de estos diseños tiene sus ventajas y desventajas, y en cualquier caso las hipótesis a contrastar se reducen a H 0 : u 1 –u 2 =0 vs Ha: 1 –u 2 ≠0. Pero supongamos que se selecciona el segundo. Entonces es claro que las muestras (grupos) aquí no son independientes, pués la persona a quien se aplica el pre y post test, es la misma. Por consiguiente nuestras observaciones son más bien pares de observaciones, hechas sobre el mismo sujeto. Por esta razón se habla comúnmente de muestras pareadas. Frente a esta situación se debe buscar un procedimiento que resuma en la mejor forma la evidencia en cotra de la hipótesis nula, esto es, debemos definir o determinar el estadístico de prueba adecuado para el análisis de muestras como éstas. El análisis en base a muestras pareadas es aconsejable cuando se tienen estudios que comprendan sujetos o individuos similares genéticamente, por no decir el mismo individuo, como por ejemplo crías de la misma camada, plantas del mismo semillero-fruta, etc. Es más, frente a una situación en la que es evidente parear las muestras, éstas se deben parear. Sean X 1 y X 2 dos variables aleatorias, distribuídas normalmente y con varianzas homogéneas. Definamos la variable D={X 1i –X 2i ; X 1i ∈X 1 , X 2i ∈X 2 }, variable aleatoria que consiste de todas las diferencias entre los e- lementos de los pares ordenados respectivos. Una deducción formal de la características de forma y escala de D está lejos de los objetivos de este curso, por lo que sólo nos limitaremos al uso de los estadísticos muestrales de D, a partir de una muestra aleatoria de tamaño n. Específicamente, se definen los estadísticos d n 1 = D i ∑ y 1 - n D -n i 2 d = S 2 D ∑ , la media y la desviación estándar de D, respectivamente, donde d i es la i- ésima observación de D, para i=1,...,n. Entonces el estadístico a utilizar en el proceso de inferencia acerca de u 1 –u 2 será t n / s ) - ( - D = T 1 - n d 2 1 _ µ µ que cuando n tiende a infinito (o mejor dicho, es grande) puede aproximarse a una normal estándar. Ejemplo 3.10: Supongamos que en el ejemplo acerca del plan de adiestramiento, que sirvió de motivación para esta sección, se seleccionó aleatoriamente un grupo de 10 trabajadores para realizar la experiencia. El índice de eficiencia, antes y después de aplicado el plan de capacitación laboral, se muestra en la tabla siguiente, junto con la diferencia D: Indice de Eficiencia Trabajador N1 Antes Después Diferencia D 1 2 3 4 5 6 7 8 9 10 128 105 119 140 98 123 127 115 122 145 135 110 131 142 105 130 131 110 125 149 7 5 12 2 7 7 4 -5 3 4 ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 56 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Lo que se pretende evaluar aquí es si el programa de capacitación produjo algún efecto diferencial en la eficiencia de los trabajadores, lo que se puede expresar por medio de las hipótesis H 0 :u 1 -u 2 =0 vs H a : u 1 -u 2 >0. A partir de los datos se obtiene 60 . 4 = d y 40 . 4 = d s , y el valor del estadístico de prueba, bajo la hipótesis nula, es t c =3.30. Si ahora α=0.05, entonces el valor crítico para esta prueba corresponde a t 1-α;n-1 =t 0.95;9 =1.833. Como la evidencia empírica, dada por t c =3.30, está en la región crítica, entonces se debe rechazar la hipótesis de efecto nulo de la capacitación, en favor de la alternativa. Esto es, existe razón estadísticamente suficiente, al 5% de significación, como para asegurar que el programa de capacitación produjo un efecto diferencial en la eficiencia de los trabajadores. ♦ 3.5. PRUEBAS DE BONDAD DE AJUSTE La mayoría de los procesos inferenciales antes vistos requieren, entre otros supuestos, el de normalidad. Un análisis que sobrepase consideraciones de tipo intuitivo o experiencial, y que se extiende más allá de la normalidad, puede expresarse como un conjunto de hipótesis del tipo: H o : Los datos se ajustan a una distribución específica H a : Los datos no siguen la distribución especificada Bajo esta perspectiva, el análisis de cualquier supuesto distribucional, en particular el de normalidad, corresponde a un contraste de hipótesis. Más general aún, frente a un conjunto de obser-vaciones el problema de bondad de ajuste es establecer (o determinar) cuán bien se ajustan las observaciones a una distribución específica. Sea F X la distribución de los datos X y sea F o la distribución del modelo propuesto, la que generalmente es sugerida por los datos. Entonces la pregunta inicial es equivalente a la hipótesis: 0 H : Fx (x) = F 0 (x) Y la hipótesis alternativa es, en consecuencia, H a : Fx (x) ≠ F o (x) Un test de bondad de ajuste debe consistir entonces en un procedimiento que evalúe estadís-ticamente el grado de concordancia (o disimilaridad) entre lo observado y el modelo sugerido o propuesto. En lo que sigue se presentan dos de estos tests, ambos de naturaleza no paramétrica, es decir, en base a estadísticas sin una distrubución de probabilidades conocida. Dos tests de bondad de ajuste Como ya se dijera, un test de bondad de ajuste debe evaluar estadísticamente el grado de concordancia o de discordancia entre la distribución de los datos y la distribución propuesta. Como es sabido, en la gran mayoría de los test, una medida de dispersión adecuada permite esta evaluación. Específicamente, una medida promedio de la dispersión entre lo observado y lo que se espera bajo la distribución propuesta, resume bien este grado de concordancia. Un desarrollo de esta forma de procedimiento, bajo condiciones especiales sobre los datos, se presenta más detalladamente a continuación. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 57 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco a. Prueba Chi-Cuadrado de bondad de ajuste Esta prueba se aplica cuando se tiene un conjunto de observaciones discretizadas. Por lo tanto, la dimensión de tal conjunto debe ser lo suficientemente grande como para asegurar una discretización aceptable. Debe notarse que la variable en estudio puede ser discreta o continua. Sea C un conjunto finito de atributos o características y k i i C , 1 } { = una partición de C. Sea, además, X i : N° de elementos de C que pertenece a C i . Entonces X i ~ bin (n (C ); P (x ∈ C i ) ) Si n (C) = n → ∞, entonces X i – np i mide la distancia (dirigida) entre los datos y lo que se observaría, conocida la probabilidad de que una observación pertenezca a la clase i. Una medida estandarizada asociada a esta distancia es i i i i q np np X − ∼ N (0,1), donde p i = P (x ∈ C i ) = 1 – q i . Una medida absoluta de esta distancia estandarizada es, en consecuencia, i i i i q np np X | | − . Esta estadística podría servir para llevar a cabo el contraste de H o vs H a , si se conociera su distribución. El problema surge cuando tenemos más de una observación, en cuyo caso se debería encontrar una función que resuma de mejor manera los datos. Pero como i i i i q np np X − ∼ N (0,1), entonces i i i i q np np X − ∼ X 2 ) 1 ( Teorema: Bajo los supuestos anteriores, ∑ = − K i i i i np np X 1 2 ) ( ∼ X 2 1 − k Demostración: Para k = 2: 1 1 2 1 ) ( q np np X i − ∼ X 2 ) 1 ( . Nótese que p 1 +p 2 = 1 y X 1 +X 2 = n . Así, q 1 = p 2 . Por lo tanto, 1 2 1 1 ) ( np np X − + 2 2 2 2 ) ( np np X − = 1 2 1 1 ) ( np np X − + 2 2 1 1 )) 1 ( ) (( np p n X n − − − = 1 2 1 1 ) ( np np X − + 2 2 1 1 ) ( np np X − = (X 1 -np 1 ) 2 + 2 1 1 1 np np = 1 1 2 1 1 ) ( q np np X − ∼ X 2 ) 1 ( ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 58 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco De lo anterior, para el contraste de H o :Los datos se ajustan a una distribución específica H a : Los datos no siguen la distribución especificada sólo es necesario la construcción del estadístico chi-cuadrado y seguir los habituales procedimientos de decisión. Notación: Si N i = X i , es costumbre llamar a N i lo observado y a np i lo esperado. N i = fobs X i = fesp Obervación: Es importante cautelar que np i > 5 . Se ha probado que n = 5 k proporciona buenos resultados, en caso de datos continuos. Ejemplo 3.11. Se sospecha que la población de cierta especie salmonídea se encuentra igualmente distribuída en sus cuatro variedades, esto es, el número de individuos por variedad tiene distribución uniforme. Para evaluar estadísticamente la sospecha se selecciona una muestra aleatoria que arrojó lo siguiente: Variedad 1 2 3 4 N° individuos 30 24 32 20 Sea X i : n° de elementos de la muestra que pertenecen a la clase i. Entonces X i ∼ bin (n , p i ), y la sospecha fundamental es equivalente a H o : p 1 = p 2 = p 3 = p 4 = 0.25 vs H a : p i ≠ 0.25 para algún i. o más abreviadamente, H o : p i = 0.25 vs H a : p i ≠ 0.25, ∀ i. Como n = 106 , entonces bajoH o , np i = 26.5 y X 2 o H = 43 . 3 5 . 26 ) 5 . 26 20 ( ...... 5 . 26 ) 5 . 26 30 ( 2 2 = − + + − ∼ X 2 3 Por lo tanto, si 05 . 0 = α , entonces X 2 3 ; 95 . 0 = 7.82 Dpto. de Matemática y Computación Facultad de Ciencias Área Estadística Como X 2 o H = 3.43 ∉ R c , entonces no hay evidencia en contra de una distribución uniforme de la especie en sus cuatro variedades. ♦ Ejemplo 3.12. Se prueban 300 ampolletas para analizar sus tiempos de vida T (en horas). Se postula que T ∼ ε (θ = 200). ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 59 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Los datos se muestran en la siguiente tabla: T frec C 1 (0,100] 121 C 2 [100,200) 78 C 3 [200,300) 43 C 4 [300, ∞) 58 Aquí f (t) = 0 1 – o t = 0.005e – 0.005t , t > 0 . Por lo tanto 7 1 = P [ 0 < T < 100 ] = 100 0 ∫ 0.005e – 0.005t dt= 0.39 y np 1 = 117 Del mismo modo, P 2 = 0.24 np 2 = 72 P 3 = 0.15 np 3 = 45 P 4 = 0.22 np 4 = 66 Ahora X 2 Ho = 17 y nuevamente X 2 3 ; 95 . 0 = 7.82. Dpto. de Matemática y Computación Facultad de Ciencias Área Estadística Por tanto, puede asegurarse que el tiempo de vida de las ampolletas se distribuye exponencialmente. ♦ b. Test De Kolmogorov-Smirnov o de Lilliefors La aplicación del test chi-cuadrado para daterminar estadísticamente el grado de "concordancia" entre la distribución de los datos y una distribución específica, requiere de una cantidad suficiente de observaciones como para obtener una clasificación de los mismos lo más racional posible. Sin embargo, no siempre es posible contar con la cantidad suficiente de observaciones, por lo que se hace necesaria una forma alternativa de resolver el problema de bondad de ajuste. Una alternativa se basa en la conocida Estadística de Kolmogorov-Smirnov, también llamada prueba de Lilliefors, apropiada cuando el tamaño de muestra es pequeño y los datos son de naturaleza continua. El procedimiento requiere de los estadísticos de orden, es decir, del conjunto ordenado de las observaciones (en forma ascendente) y de la distribución empírica. Para una muestra de tamaño n con observaciones o realizaciones X 1 , X 2 , ..., X n , los estadísticos de orden se denotan por X (1) , X (2) , .... X (n) y la distribución empírica corresponde a: S n (x) = ¦ ¦ ¹ ¦ ¦ ´ ¦ ≥ < ≤ < + + ) 1 ( ) 1 ( ) 1 ( 1 ) ( 0 k k x x x x k x n k x x ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 60 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco La estadística de Kolmogorov-Smirnov, o KS, consiste de los valores siguientes: D + n = Máx n i x F n i i o ≤ ≤ ) ` ¹ ¹ ´ ¦ − 1 ) ( ) ( D − n = Máx n i n i x F i o ≤ ≤ ) ` ¹ ¹ ´ ¦ − − 1 1 ) ( ) ( D n = Máx { } + − n n D D ; donde D + n es la máxima cantidad en la que la distribución empírica excede a la distribución ajustada; y D − n es la máxima cantidad en la que S n subestima la distribución F o (x ) acumulada propuesta. Esta última distribución, al igual que en el caso del test chi-cuadrado, es sugerida por los datos. Una forma simple de la estadística es D n = Máx \ S n (x) – F o (x )| En estas condiciones el test es unilateral a derecha, y los valores críticos se observan en tabla o se obtienen a partir de software. Ejemplo 3.13. Después de una psicoterapia de modificación de la conducta, se aplica un test a un grupo de estos individuos para establecer la evolución de la conducta. Los individuos son clasificados en dos grupos: los que mejoraron y los que no mejoraron. Los puntajes de 10 individuos que no mejoraron su conducta fueron: Sujeto 1 2 3 4 5 6 7 8 9 10 Puntaje 6.6 5.8 5.4 5.1 5.0 4.3 3.9 3.3 2.4 1.7 La naturaleza de los datos hace pensar que X ~ N (4.35 ; 1.54 2 ) . La tabla con los valores de X (i) , la distribución empírica S n (x) , F o (x ) y | S n – F o | se muestra a continuación: X (i) S n (x) F o (x ) | S n – F o | 1.7 0.1 0.0427 0.06 2.4 0.2 0.1020 0.10 3.3 0.3 0.2483 0.05 3.9 0.4 0.3859 0.01 4.3 0.5 0.4880 0.01 5.0 0.6 0.6628 0.06 5.1 0.7 0.6879 0.01 5.4 0.8 0.7517 0.05 5.8 0.9 0.8264 0.07 6.6 1 0.9279 0.07 D 10 = 0.10 ; 1– α = 0.95 y D 10 ;0.95 = 0.41 (ver Tabla J de Canavos, G.: Probabilidad y Estadística. Aplicaciones y Métodos). Por lo tanto, no existe evidencia en contra del supuesto de normalidad sobre los datos. ♦ ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 61 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco 3.6. EJERCICIOS Y PROBLEMAS 3.6. EJERCICIOS Y PROBLEMAS 3.6. EJERCICIOS Y PROBLEMAS 3.6. EJERCICIOS Y PROBLEMAS 1. Si una hipótesis Ho se rechaza con una probabilidad de error Tipo I de 0.05, ¿se rechazará si α = 0.01? Explica. 2. Considera el contraste de H o :u=20 v/s H a : u≠20. Si x =22, s=3.29 y n = 16, estudiar el rechazo de H o . 3. Supón que en el problema 2 se fija α en 0.01, y que la media y varianza de las observaciones se mantienen constantes en x =22 y s=3.29, respectivamente, al menos para un número apreciable de obser- vaciones adicionales. ¿Cuántas unidades muestrales adicionales bastarán para llevar al rechazo de H o ? 4. El departamento de seguridad de una fábrica desea saber si el tiempo promedio real que requiere el velador para realizar su ronda nocturna es de 30 minutos. Si en una muestra tomada al azar de 32 rondas, el velador promedió 30.8 minutos con una desviación estándar de 1.5 minutos, determina si ésta es evidencia suficiente para rechazar la hipótesis nula H o :u=30 en favor de la alternativa H a : u≠30. 5. Cinco mediciones del contenido de alquitrán de cierto tipo de cigarrillo arrojaron los siguientes resultados: 14.5, 14.2, 14.4, 14.3, y 14.6 mg/cig. Demuestra que para α = 0.05 se debe rechazar la hipóte- sis nula H o :u=14.0 en favor de la hipótesis alternativa H a : u≠14.0. Supóngase que los datos son una muestra tomada al azar de una población normal. 6. Los pesos de reses Black Angus de cierta edad tienen en una muestra aleatoria de 24 reses una media de 253 libras y una desviación estándar de 2.38libras. Suponiendo que los pesos constituyen una muestra aleatoria de una población normal, prueba la hipótesis nula H a : u=250 libras contra la alternativa H a : u≠250 libras. 7. En un estudio de nuevas fuentes de alimentación, se informa que una libra de cierta clase de pescado produce en promedio 2.45 onzas de FPC (concentrado proteco de pescado), que se utiliza para enriquecer diversos productos alimenticios. ¿Se soporta esta cifra en un estudio en el cual 30 muestras de esta clase produjeron en promedio 2.48 onzas de FPC (por libra de pescado) con una desviación estándar de 0.07 onzas? Explica. 8. Supóngase que las especificaciones de cierto tipo de cinta afirman que el producto tiene una resistencia media a la ruptura de 185 libras y que cinco piezas seleccionadas al azar de diferentes rollos tienen una resistencia media a la ruptura de 183.1 libras con una desviación estándar de 8.2 libras. Suponiendo que podemos considerar los datos como una muestra tomada al azar de una población normal, prueba la hipótesis de que la resistencia promedio es de 185 libras. 9. Un fabricante asegura a una compañía que le compra un producto en forma regular, que el porcentaje de productos defectuosos no es mayor del 5%. La compañía decide verificar la afirmación del fabricante, seleccionando de su inventario, 200 unidades de este producto y probándolas. Se encuentran 19 defectuosas. ¿Cuál debe ser la decisión de la compañía? 10. Una encuesta política reveló que 1400 personas de un total de 2500, seleccionadas aleatoriamente, tienen preferencia por el candidato A respecto del candidato B. a. Construir un intervalo del 99% de confianza para la verdadera proporción de votantes que está a favor del candidadto A. En base a este intervalo, ¿se puede afirmar que es probable que el candidato A gane la elección? b. Responde a las mismas preguntas anteriores en base a una muestra aleatoria de tamaño 225. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 62 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco 11. Una casa comercial recibe una gran partida de bolsitas de semilla. La nota de entrega dice que, a causa del proceso automatizado de empaquetado, el porcentaje de bolsitas que no cumplen los requerimientos indicados en ella es del 1%. La casa comercial desea hacer una estimación del total de bolsitas que no satisfacen los requerimientos, pero revisarlas todas es imposible, de modo que decide usar el muestreo estadístico para reolver el problema. Decide que desea un error en las estimaciones no superior al 3%, y una confianza del 95%. ¿Cuántas bolsitas deberá revisar? Desde otra perspectiva, formula y prueba las hipótesis asociadas al problema. 12. Se desea establecer si la aplicación de cierto tratamiento alimentario incide o no en el desarrollo de cierta variedad de vacunos. Con este fin, se seleccionaron 20 terneros de 3 meses, y se distribuyeron en grupos de tamaño 10 cada uno. Uno de estos grupos fue sometido al tratamiento en cuestión, digamos Trat1, mientras que el otro fue alimentado en condiciones normales o "tradicionales". Llamemos Trat2 a este último tratamiento. Después de una cantidad dada de meses, se midió la variación en peso (diferencias de peso) que experimentaron estos terneros, obteniéndose los datos de la tabla siguiente: Trat1 6.5 10.1 8.6 10.5 9.5 10.6 8.8 10.9 5.2 10.4 Trat2 8.9 11.1 6.8 8.0 8.2 8.0 8.2 7.1 9.2 8.6 a. Caracterizar la variación en el peso de los terneros conforme a cada uno de los tratamientos. (Revisa supuestos) b. Determinar si el tratamiento nuevo es o no más efectivo que el sistema tradicional de alimentación, en lo que al aumento de peso respecta. Analiza requisitos del análisis. 13. Sea X: Puntaje de untest de conducta. Se postula que X ~ N (7,2.72). Un resumen de los puntajes se muestra en la siguiente tabla : k = Clase fobs fesp = np i 1 2.200 – 4.625 6 2 4.625 – 7.050 5 3 7.050 – 9.474 7 4 9.475 – 11.90 5 Plantear y resolver el problema. 14. Los puntajes X correspondientes a 23 individuos seleccionados aleatoriamente de entre aquellos que presentaron mejoría en el ejemplo 3.13, fueron los siguientes: Ind 1 2 3 4 5 6 7 8 9 10 11 X 11.9 11.7 10.5 9.5 9.4 9.0 8.7 8.2 7.7 7.4 7.4 Ind 12 13 14 15 16 17 18 19 20 21 22 23 X 7.1 6.9 6.8 6.3 5.5 5.0 4.5 4.2 4.1 4.0 3.0 3.2 ¿Puede asegurarse que estos datos provienen de una distribución normal? 15. Se realiza un experimento biológico, en base a las concentraciones de un determinado elemento químico, para reforzar el crecimiento, en centímetros, de una planta medicinal. Para ello, se utilizaron 10 plantas de la especie en estudio, para finalmente medir su crecimiento en centímetros. El cuadro siguiente muestra los resultados obtenidos: Concentración1 8.7 9.4 8.2 8.6 8.5 8.9 8.9 8.4 8.9 9.2 ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 63 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Si lo que se pretende es aumentar el crecimiento de la planta en estudio y si se sabe que en condiciones naturales el crecimiento promedio de esa especie es de 7.5 centímetros, prueba si el uso del elemento químico en estudio es eficiente en el reforzamiento del crecimiento de la especie en estudio. 16. Una empresa consultora en problemas ambientales, asesora a una institución ambientalista en la compra de un instrumento para medir la cantidad de monóxido de sulfuro en la atmósfera. El proveedor dispone de 2 instrumentos, los cuales deja a prueba por un mes para que se resuelva la compra. Durante este período se realizaron mediciones en la zona, obteniendo lecturas resumidas en el siguiente cuadro: Instrumento A 0.86 0.82 0.75 0.61 0.89 0.64 0.68 0.65 0.81 Instrumento B 0.87 0.74 0.63 0.55 0.76 0.7 0.69 0.57 0.53 Considerando que el instrumento seleccionado será aquel que presente la menor variabilidad, concluye respecto del instrumento a comprar. 17. En relación al ejemplo 17, si se considera una segunda concentración del químico estudiado, obteniendo los resultados resumidos en la siguiente tabla: Concentración 2 8.3 8.4 8.2 8.1 8.5 8.9 8.9 8.4 8.9 8.2 Si la concentración más eficiente es aquella que maximiza el crecimiento de la especie en estudio, ¿cuál de ellas es más eficiente? 18. Un centro experimental animal, estudia el uso de una nueva droga para ser utilizada como anestesia en equinos. Las experiencias con esta droga indican que se logra anestesiar al 92% de los animales, por un período de 5 horas. Para evaluar la veracidad de esta experiencia, y por lo tanto masificar su uso, se aplicó a 10 caballos una dosis de dicha droga, logrando anestesiar a 8 de ellos, por un período de 5 horas. Con el ensayo realizado ¿se logran los mismos resultados que en las experiencias realizadas anteriormente? 19. En el estuario de Reloncaví, zona costera y cordillerana del litoral de la antigua décima región, se seleccionaron 2 bancos de prospección: Cochamó y Río Puelo, para evaluar la presencia de mercurio, a través de la especie Mytilus chilensis, vulgarmente llamado "chorito", por ser el primer eslabón indicador de la cadena trófica y un bioacumulador de mercurio (Moore, 1971; Golberg y Col, 1978; Davies y Pirie, 1980). Después de realizado el muestreo y los análisis necesarios, se obtuvieron los siguientes resultados, en ppm: Río Puelo 0.026 0.038 0.019 0.057 0.021 0.006 0.025 0.009 0.007 0.011 Cochamó 0.011 0.00 0.015 0.00 0.00 0.01 0.013 0.00 0.014 0.011 a) Determinar cuál de los dos bancos en estudio presenta una mayor variabilidad en la concentración de mercurio. b) Determinar cuál de los dos bancos está más contaminado por la presencia de mercurio. c) Discute respecto de los supuestos involucrados. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 64 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco ANEXOS A. INTERVALOS DE CONFIANZA MÁS COMUNES A. INTERVALOS DE CONFIANZA MÁS COMUNES A. INTERVALOS DE CONFIANZA MÁS COMUNES A. INTERVALOS DE CONFIANZA MÁS COMUNES Nivel de confianza : 1 Nivel de confianza : 1 Nivel de confianza : 1 Nivel de confianza : 1– –– –α Distribución Función de parámetros Condición (es) Intervalo de confianza µ σ conocida n Z X σ α 2 / 1− ± µ σ desconocida n s t X n 1 ; 2 / 1 − − ± α µ 1 – µ 2 X 1 , X 2 independientes σ 1 , σ 2 conocidas ( ) 2 2 1 1 2 1 2 / 1 2 1 n n Z X X σ σ α + ± − − Normal µ 1 – µ 2 X 1 , X 2 independientes σ 1 , σ 2 desconocidas σ 1 , σ 2 homogéneas ( ) 2 1 ; 1 2 1 1 1 n n Sp t X X + ± − − ν α 2 2 1 − + = n n ν ( ) ( ) 2 1 1 2 1 2 2 2 2 1 1 2 − + − + − = n n S n S n S p 2 σ No hay ! ( ) ( ) | | ¹ | \ | − − − − − 1 ; 1 ; 1 ; 1 2 2 / 2 2 2 / 1 2 n S n n S n α α χ χ 2 2 2 1 σ σ S 2 1 > S 2 2 X 1 , X 2 independientes | | ¹ | \ | − − − − 1 , 1 ; 2 / 1 2 2 2 1 ; 1 , 1 ; 2 / 2 2 2 1 2 2 1 n n n f S S f S S α α 1 , 1 ; 2 / 1 1 , 1 ; 2 / 1 2 2 1 1 − − − − − = n n n n f f α α Binomial p n grande ( ) n p p Z p ˆ 1 ˆ ˆ 2 / 1 − ± −α n x p = ˆ u : Media poblacional n . Tamaño muestral u i : Media poblacional i n i : Tamaño de la muestra i-ésima σ : Desviación estándar poblacional i X : Media de la muestra i-ésima σ i : Desviación estándar población i S i : Desviación estándar de la muestra i p : Proporción poblacional pˆ : Proporción muestral ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 65 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco B. PRUEBAS DE HIPÓTESIS COMUNES B. PRUEBAS DE HIPÓTESIS COMUNES B. PRUEBAS DE HIPÓTESIS COMUNES B. PRUEBAS DE HIPÓTESIS COMUNES Nivel de confianza : 1 Nivel de confianza : 1 Nivel de confianza : 1 Nivel de confianza : 1– –– – α αα α Hipótesis Condición (es) Estadístico de prueba bajo H o Valor(es) crítico(s) H a :u ≠ u o H a :u ≠ u o σ desconocida n S X 0 µ − 1 ; 2 / 1 − − n t α m H o :u 1 – u 2 =0 H o :u 1 – u 2 ≠0 X 1 , X 2 independientes σ 1 , σ 2 conocidas ( ) 2 2 1 1 2 1 2 1 n n X X σ σ + − 2 / 1 α − Z m H o : u 1 – u 2 = 0 H a : u 1 – u 2 ≠ 0 X 1 , X 2 independientes σ 1 , σ 2 desconocidas σ 1 , σ 2 homogénas ( ) | | ¹ | \ | + − 2 1 2 2 1 1 1 n n S X X p ( ) ( ) 2 1 1 2 1 2 2 2 2 1 1 2 − + − + − = n n S n S n S p υ α ; 2 / 1− t m ν =n 1 + n 2 – 2 H o : σ = σ 0 H a : σ > σ 0 No hay! ( ) 2 0 2 1 σ S n − 2 1 ; 2 / 1 − − n α χ H 0 : σ 1 = σ 2 H 0 : σ 1 > σ 2 2 2 2 1 S S > X 1 , X 2 independientes 2 2 2 1 S S 1 , 1 ; 1 2 1 − − − n n f α H 0 : p = p 0 H 0 : p = p 0 n grande ( ) n p p p p ˆ 1 ˆ ˆ 0 − − n x p = ˆ 2 / 1 α − Z m u : Media poblacional n : Tamaño muestral u i : Media poblacional i n i : Tamaño de la muestra i – ésima σ :Desviación estándar poblacional i X : Media de la muestra i – ésima σ i : Desviación estándar de la población i S i : Desviación estándar de la muestra i p : Proporción poblacional pˆ : Proporción muestral ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 66 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco C. SUGERENCIAS BIBLIOGRÁFICAS C. SUGERENCIAS BIBLIOGRÁFICAS C. SUGERENCIAS BIBLIOGRÁFICAS C. SUGERENCIAS BIBLIOGRÁFICAS Para una revisión bibliográfica tendiente a complementar o profundizar algunos temas tratados en esta unidad, a través de sus diferentes capítulos, se sugieren los siguientes títulos: 1. Canavos, G.: Probabilidad y estadística. Aplicaciones y métodos. McGraw-HiII, México, 1988. 2. Freund–Walpole: Estadística Matemática con aplicaciones. Prentice–Hall Hispanoamericana, S.A. México, 1990. 3. Peña, D.: Estadística. Modelos y Métodos. Vol. 2. Alianza Editorial S.A. Madrid, 1991. 4. Scheaffer–McClave: Probabilidad y Estadística para Ingeniería. Grupo editorial Iberoamérica. México, 1993. 5. Steel–Torrie: Bioestadística. Principios y Procedimientos. McGraw–Hill. México, 1992. Facultad de Ingeniería Dpto. de Cs. Matemáticas y Físicas Área Estadística INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL Prof.: Juan Moncada Herrera Temuco, agosto de 2008 PREÁMBULO El documento que tienes en tus manos no pretende ser más que una ayuda en tu programa de aprendizaje y crecimiento respecto de una disciplina que cada día se abre pasos agigantados entre la trama social, científica y técnica de la que formamos parte: la Estadística. Por lo tanto está muy lejos de proporcionar una revisión y presentación acabada de los principales temas de esta disci- plina. Más aún, se trata de un extracto de un documento más amplio que el autor tiene en prepa- ración. Para una adecuada utilización de estas notas te recomiendo completar su lectura con un libro de texto de referencia, como los sugeridos en la bibliografía, y desarrollar cuidadosamente los ejerci- cios y problemas propuestos. El autor ÍNDICE GENERAL INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL INTRODUCCIÓN 4 EL MODELO LINEAL BÁSICO 4 AJUSTE DEL MODELO 6 ANÁLISIS EXPLORATORIO 6 ESTIMACIÓN DE PARÁMETROS 6 PROPIEDADES DE LOS ESTIMADORES 7 UN CASO PARTICULAR: LA REGRESIÓN LINEAL SIMPLE 8 UN EJEMPLO 10 ANÁLISIS DEL MODELO 11 INFERENCIAS EN EL MODELO 11 EL ANÁLISIS DE LA VARIANZA 14 EL COEFICIENTE DE DETERMINACIÓN 16 DIAGNÓSTICO DEL MODELO 16 EJEMPLOS ILUSTRATIVOS 19 SUGERENCIAS BIBLIOGRÁFICAS 29 I A R L NTRODUCCIÓN AL NÁLISIS DE EGRESIÓN INEAL INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 4 Prof.: Juan Moncada Herrera INTRODUCCIÓN Existen situaciones en las que la relación entre dos variables es de tipo "causa-efecto". En estos casos, además de probar que efectivamente las variables están relacionadas (correlacionadas), interesa también determinar la forma en que ellas se relacionan funcionalmente. Esta relación es de tipo funcional, y se expresa a través de una ecuación. Si los datos muestran una tendencia lineal, entonces la ecuación ser también lineal. En dicha relación se debe distinguir la variable o independiente predictora dependiente de la variable . Denotaremos por a la variable (o conjunto de variables) \ independientes (las que causan el efecto), y por la variable independiente (el efecto). ] El análisis anterior no sólo es válido para el caso de dos variables, sino también en el caso en que se tienen varias variables independientes y una variable dependiente. Por ejemplo, puede ser de interés estudiar la forma en que se relacionan las variables Edad y Peso de un niño con la variable Rendimiento Escolar. En este ejemplo Edad y Peso son las variables independientes, y Rendimiento es la variable dependiente. El interés fundamental en este caso será quizá la predicción del Rendimiento conocidos la Edad y el Peso de un niño. La parte de la Estadística que se encarga de este tipo de estudios es el . Existen Análisis de Regresión varios tipos de regresiones (lineales, polinomiales, logarítmicas, intrínsicamente lineales, etc.), pero la más "popular" es la Regresión Lineal, la que a su vez puede ser simple o múltiple, dependiendo de la cantidad de variables independientes. EL MODELO LINEAL BÁSICO Sean , variables aleatorias ( puede ser un vector aleatorio), y un espacio paramétrico (real). Se \ ] \ @ llamará modelo lineal a una relación de la forma: E[ ] ( ), Var[ ] (1) ] œ 0 ß B ] œ M ) 5 2 con una función lineal en , , , la matriz identidad. 0 − B − \ M ) ) @ De lo anterior se deduce que ( ) , donde es un vector aleatorio cuyas componentes ] œ 0 ß B  ) X X satisfacen: IÐ Ñ œ !ß a3 œ "ß 8 X i Z +<Ð Ñ œ 3 œ "ß 8 X 5 i # , , supuesto de homocedasticidad IÐ Ñ œ ! 3 Á 4 X X i 4 , para , supuesto de independencia de errores Una forma más simple del modelo dado en (1) es , que en una forma más ] œ  \  " " X 9 " > condensada puede escribirse como: = (2) ] \ F  t X donde es la , es un vector de dimensión (cuyas componentes se llaman ] \ : variable dependiente variables independientes), es el vector de parámetros y es un vector de errores aleatorios, con las F X mismas características del modelo (1). En base al modelo (1), en el modelo (2) se tiene que E[ ] = , Var[ ] ] \ F ] œ M t 2 5 La ecuación (2) es la entre e . El problema de Regresión Lineal ecuación de regresión \ ] consiste en, a partir de un conjunto de observaciones ( , ), obtener una estimación de esta ecuación, o B C equivalentemente, de la relación funcional. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 5 Prof.: Juan Moncada Herrera Mientras en el análisis de correlación interesa establecer la medida o magnitud de la variabilidad conjunta entre e (lo que traduce en un estudio de asociación), en el análisis de regresión el interés \ ] se centra en establecer la forma en que se desarrolla esa variabilidad. Esto es equivalente a establecer la forma funcional de la relación causa-efecto entre y . Hay muchas situaciones en las que puede \ ] resultar adecuado un análisis de regresión. Por ejemplo, en estudios de producción en los que ésta puede depender de factores controlables, como tipo de máquinas, habilidades de los operarios, calidad de la materia prima, etc.; o en procesos económicos, en los que las utilidades están afectas a cambios en el sistema cambiario, velocidad de crecimiento industrial o habitacional, etc. Sobre la base de un conjunto de observaciones simultáneas del par ( , ), en la ecuación (2) se 8 \ ] tiene que es un vector de dimensión , es una matriz x , es un vector de orden y ] 8 \ 8 Ð:  "Ñ F :  " X es un vector de dimensión . Por esto, preferimos escribir el modelo (2) en su forma matricial: 8 (3) ] œ  XB X Formas particulares de este tipo de modelos son: Modelo de Regresión Lineal Simple En este modelo se tiene (1, ), ( ) . \ œ \ F œ ß t t o 1 " " Modelo de Regresión Lineal General En este modelo, (1, ,..., ) , ( , ..., ) . \ œ \ \ F œ ß 1 o 1 t t : : " " " Modelos Intrínsicamente Lineales Aunque no son lineales propiamente tal, este tipo de modelos tiene una forma tal que, mediante sencillas transformaciones, pueden linealizarse fácilmente. Los modelos más comunes de ese tipo son de la forma: E[ ] 0, Var[ ] . C œ /B:Ö B×/ß / œ / œ M " " 5 o 1 2 Este último modelo se puede linealizar aplicando logaritmo a la igualdad, para obtener las ecuaciones C œ 68ÐCÑ œ  B  / œ 68Ð Ñß / œ 68Ð/Ñ \ œ "ß B ß F œ w w w w w w " " " " " " " o o o o 1 t t , con . Aquí, ( ) ( , ). Modelos Polonomiales La forma de este tipo particular de modelos es Ejercicio: Identificar las componentes de las formas matriciales de los cuatro modelos definidos arriba. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 6 Prof.: Juan Moncada Herrera AJUSTE DEL MODELO Como ya se dijera, el análisis de modelos de regresión, particularmente los modelos de regresión lineal, se basa en los siguientes supuestos sobre el término de error: IÐ Ñ œ !ß a3 œ "ß 8 X i Z +<Ð Ñ œ 3 œ "ß 8 X 5 i # , , supuesto de homocedasticidad IÐ Ñ œ ! 3 Á 4 X X i 4 , para , supuesto de independencia de errores Dicho análisis tiene, básicamente, dos enfoques diferentes. Por una parte se pueden desarrollar técnicas de estimación y ajuste basados en gran medida en resultados de tipo geométrico. Aquí la geometría del espacio y proyectiva revisten gran importancia, y se apoyan fuertemente de resultados del Algebra Lineal. Los estimadores del modelo surgen naturalmente como consecuencia de consideraciones geométricas a veces elementales, a veces complejas. Por otro lado, se tiene un enfoque de tipo distribucional. En este caso se formula una serie de supuestos que sustentarán el análisis y darán consistencia a las conclusiones, lo que también permitirá análisis de tipo inferencial acerca del modelo o sus componentes. Esto último requiere de supuestos distribucionales adicionales, lo que demanda un formación básica en Estadística Inferencial. En estas notas seguiremos, preferentemente (aunque no exclusivamente) este último enfoque, y por ajuste del modelo entenderemos el proceso que va desde el análsisis preliminar de los datos hasta la estimación de los parámetros del modelo. ANÁLISIS EXPLORATORIO En esta fase se estudian características numéricas básicas de los datos, se valida la información, se detectan y corrigen errores, se determina tendencia de los datos, si procede, se examinan eventuales valores atípicos o extraños, etc. Es fundamental en esta parte del análisis la construcción del diagrama de dispersión nube de puntos o , presentado anteriormente en la sección de Análisis de Correlación Lineal. La definición de la base de datos es fundamental, como también lo es el permanente "retorno a los datos". Es sólo estaposibilidad de permanente confrontación con la realidad la que garantiza una base de datos de calidad, y proporciona la confianza necesaria en los resultados. Por esta razón es fundamental la fase preliminar de todo análisis de información, y particularmente el análisis estadístico. Presentaciones gráficas, tablas de resumen de información, etc., deberán preceder a cualquier análisis sofisticado y complejo. Otro aspecto importante de considerar en esta fase es la conceptualización y comprensión del problema, lo que se debe buscar en las áreas afines al problema en estudio. Vital resulta, por lo tanto, el trabajo interdisciplinario. Es lo único que puede ayudar a tener certezas en materia de conocimiento a priori del problema abordado. ESTIMACIÓN DE PARÁMETROS Los parámetros del modelo lineal simple son , y . Los parámetros del modelo lineal general son " " 5 o 1 " " " 5 " " o 1 1 t , ,..., y . Nos referiremos a ,..., ) como el vector de parámetros. En una segunda : : " œ Ð fase del análisis deberá estimarse y eventualmente . La técnica más usual de estimación es la de " 5 Mínimos Cuadrados. Debe incluirse también en esta etapa aspectos de inferencia en relación a los estimadores. Existen básicamente dos métodos de estimación de los parámetros de un modelo de regresión: El método de Mínimos Cuadrados y el de Máxima Verosimilitud. El primero consiste en minimizar el INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 7 Prof.: Juan Moncada Herrera cuadrado de las distancias entre el modelo y su estimador (el modelo ajustado). La solución, obtenida vía métodos de optimización o por medio de consideraciomnes geométricas (aplicación de espacios ortogonales), proporciona los estimadores del modelo. Se trata de método con fuerte soporte geométrico. Un segundo método de estimación de los parámetros es el método de Máxima Verosimilitud, que como es sabido, requiere de supuestos distribucionales, pués se trata de maximizar la función de verosimilitud de los datos. En ambos casos es necesario imponer ciertas restricciones a los datos. La más usual de estas restricciones es que la suma de los residuos (diferencia entre lo ajustado y lo observado) sea cero. El supuesto distribucional más importante es el normalidad de los errores. Cuando se utiliza el método de Mínimos Cuadrados, y en base a un conjunto de observaciones, la 8 ecuación estimada del modelo (3) es la ecuación , tal que ( es mínima para todos los ] œ \ ]  ] Ñ s s s " # valores de . Por esta razón también se llama a la . Usando métodos de ] ] s ecuación mínimo cuadrática optimización, como multiplicadores de Lagrange, la minimización de ( conduce a las ]  ] Ñ s # ecuaciones normales, cuyas soluciones proporcionan los estimadores: " s œ Ð\ \Ñ \ ] t -1 t 5 ^ ( ( 2 t œ ]  ] Ñ ]  ] ÑÎÐ8  Ð:  "ÑÑ s s Por otra parte, los estimadores máximo verosímil de y , respectivamente, son y " 5 2 t -1 t Ð\ \Ñ \ ] ( ( . ]  ] Ñ ]  ] ÑÎ8 s s t Definición: La matrix se llama . Algunas características de esta \Ð\ \Ñ \ t -1 t matriz de proyección matriz son: Proposición: La matriz de proyección satisface lo siguiente: - Es simétrica e idempotente. - T\ œ \ - es simétrica e idempotente M  T 8 - ( ) 0 M  T \ œ 8 PROPIEDADES DE LOS ESTIMADORES Proposición 1: Bajo el supuesto de normalidad en los errores y si es no-singular, entonces: \ \ t 1. E( ) " " s œ 2. Cov( ) ) " s œ Ð\ \ 5 2 t -1 3. Var( ) donde (en geneal) es el elemento de la fila columna de la matriz " 5 s œ - à - 3  " 4  " i 2 33 34 ( ) . \ \ t -1 4. Cov( ) " " 5 s s ß œ - i j 2 34 5. Un estimador insesgado de es , donde SCE ( ( ). Esta última 5 2 2 t SCE S œ œ ]  ] Ñ ]  ] s s 8Ð:"Ñ cantidad es conocida como . Suma de Cuadrados del Error 6. y son independientes. S 2 i " s Observación: De la parte 3. de la proposición se tiene que es el de . Un È - s 33 5 " 2 i error estándar estimador de este error estándar es, entonces, . È - 33 S 2 INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 8 Prof.: Juan Moncada Herrera Proposición 2 0 : Si ~ N( , ), entonces: X 5 2 M 1. N ; ) ) " " s Ð Ð\ \ ~ :" 5 2 t -1 2. ~N( c ) " " 5 s ß i i ii 2 3. ~ [ )] 2 8Ð:" 8Ð:"Ñ S 2 2 5 ; 4. ~ ( ) ( )( ) 2 " " " " s s  \ \  :" t t 2 5 ; UN CASO PARTICULAR: LA REGRESIÓN LINEAL SIMPLE La regresión lineal simple estudia la relación entre una variable independiente y una dependiente. Sean \ ] \ ] y estas variables, respectivamente. La relación entre y la expresaremos, siguiendo la idea del modelo (3), como: ] œ  \  ! " X donde se llama , es la y es un término de , que se supone se ! ! % intercepto pendiente error aleatorio distribuye normalmente, con media cero y varianza constante . Cuando se tiene un conjunto finito de 5 2 8 B C observaciones ( , ), entonces la relación anterior se expresa como: i i C œ  B  i i i ! " X donde N(0, ), y son todos independientes entre sí, para todo i. X 5 i 2 µ A veces la simple sospecha de una relación lineal aparente entre dos variables no es suficiente para iniciar un análisis de regresión. Es preciso asegurarse de que existe verdaderamente tal tendencia (a través de un diagrama de dispersión, por ejemplo), y que existe por cierto un relación de causa-efecto entre las dos variables. El análisis de regresión lineal simple se encarga de encontrar una recta ajustada que mejor represente a las relaciones anteriores y que mejor se ajuste a los datos. Denotaremos la recta ajustada por C œ  B ^ ^ ^ ^ ^ , donde y son los estimadores mínimo cuadráticos de y , respectivamente. i i ! " ! " ! " Para la obtención de y , notemos que el modelo , basado en observaciones, es ^ ^ ! " ! " X C œ  B  8 i i i un caso especial del modelo (3). En efecto, Ô × Ô × Ô × Ö Ù Ö Ù Ö Ù Ö Ù Ö Ù Ö Ù Ö Ù Ö Ù Ö Ù Ö Ù Ö Ù Ö Ù Ö Ù Ö Ù Ö Ù Ö Ù Ö Ù Ö Ù Õ Ø Õ Ø Õ Ø ” • C " B C " B C " B œ  Þ Þ Þ Þ Þ Þ 1 1 2 2 n n . . . . . . " # 8 ! " X X X INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 9 Prof.: Juan Moncada Herrera expresión que es de la forma , con [ , ]. Así que ] œ \  \ œ " X 1 B \ \ œ œ " " Þ Þ Þ " B B Þ Þ Þ B " B " B Þ Þ Þ Þ Þ Þ " B 8 B B B t i i i 2 Ô × Õ Ø Ô × Ö Ù Ö Ù Ö Ù Ö Ù Ö Ù Ö Ù Õ Ø Ô × Ö Ù Õ Ø ! ! ! " # 8 " # 8 . Además, ( ) , \ \ œ B  B  B 8 t -1 1 ( ) i i i 8 B  B # ! ! i 2 i 2 Ô × Ö Ù Õ Ø ! ! ! y por lo tanto, ( ) \ \ \ ] œ B  B C  B 8 B C t -1 t 1 ( ) i i i i i i 8 B  B # ! ! i 2 i 2 Ô ×Ô × Ö ÙÖ Ù Õ ØÕ Ø ! ! ! ! ! œ C B  B B C  B C  8 B C 1 ( ) i i i i i 2 i i i i 8 B  B ! ! i 2 i 2 Ô × Ö Ù Õ Ø ! ! ! ! ! ! ! De lo anterior se deduce que ! " ^ ^ œ œ ! ! ! ! ! ! ! ! ! ! ! C B  B B C  B C 8 B C 8 B  B 8 B  B i i i i i i i i i 2 i i 2 2 i i 2 2 ( ) ( ) Después de ciertos "arreglos" algebraicos, se puede escribir: ! " ^ ^ œ C  œ C  B 8 B C 8 B C 8 B  B ! ! ! i i 2 i 2 i 2 ( ) Por otra parte, el estimador mínimo cuadrático de la varianza es , mientras que su ^ 5 2 œ ! e i 2 8# estimador máximo verosímil es . ^ 5 2 œ ! e i 2 8 Proposición: Si los errores están centrados en cero y tienen varianza común , entonces: 5 2 E( ) Var( ) ^ ^ ! ! ! 5 œ œ  2 S Š ‹ " B 8 # XX E( ) Var( ) ^ ^ " " " 5 œ œ 2 1 S XX E( ) Var( ) ^ ^ 5 5 5 2 2 2 2 œ œ 5 4 8# En base a esto podemos concluir que los estimadores mínimo cuadráticos de , y son insesgados, ! " 5 2 propiedad que también se mantiene cuando se supone normalidad en los errores, a excepción del de . 5 2 Los estimadores de las varianzas se obtienen sustituyendo por en las respectivas expresiones. ^ 5 5 INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 10 Prof.: Juan Moncada Herrera UN EJEMPLO Se administra una prueba de habilidad a grupo de 5 postulantes a vendedores en una empresa, y se les deja a prueba durante un mes, al cabo del cual se registran sus ventas semanales (en miles de dólares). Los resultados fueron: B % ( $ ' "! C & "# % ) "" donde : Puntaje en la prueba; y: Ventas semanales. B Disgrama de Dispersión Puntaje vs Ventas X: PUNTAJE Y : V E N T A S 3 5 7 9 11 13 2 3 4 5 6 7 8 9 10 11 Puede pensarse que las ventas semanales "dependen" del puntaje obtenido en la prueba. Los ajustes correspondientes conducen a los siguientes valores estimados: y 1.13. Esto ^ ^ ! " œ "Þ# œ implica que la recta ajustada es 1.2 1.13 , donde son las ventas semanales estimadas y es C œ  B C B 3 3 3 3 el puntaje obtenido en la prueba. Si se graficara esta recta en el mismo diagrama anterior, habría puntos de los allí marcados que no pertenecerían a la recta, lo cual es obvio, pues ajustamos una recta a un conjunto de datos que no tienen una tendencia lineal perfecta. Puntajes vs Ventas y = 1.2+1.133*x+eps X: PUNTAJE Y : V E N T A S 3 5 7 9 11 13 2 3 4 5 6 7 8 9 10 11 La gráfica siguiente muestra el resultado gráfico de los mismos ajustes anteriores, adicionando ahora la banda de confianza para los valores predichos. Puede verse que existe una observación "fuera" de esta banda de confianza del 95%. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 11 Prof.: Juan Moncada Herrera Regression 95% confid. Predicted vs. Observed Values Dependent variable: VENTAS Predicted Values O b s e r v e d V a l u e s 3 5 7 9 11 13 4 6 8 10 12 14 El punto que está fuera de la banda de confianza debiera "estudiarse". ANÁLISIS DEL MODELO El encontrar una ecuación que represente la situación planteada, no significa que el ajuste sea de gran utilidad. A veces ocurre que la ecuación encontrada no sirve para predecir. La bondad del ajuste es, en consecuencia, un aspecto de relevancia en el análisis de regresión. NO DEBE USARSE UNA ECUACION DE REGRESION SIN ANTES HABER EFECTUADO UN ADECUADO DIAGNOSTICO Este análisis consiste, en su forma más elemental, en probar si: (1) Se hizo bien o no en suponer una relación lineal entre las variables. (2) Los valores estimados obtenidos son realmente significativos o no. Aspectos de homocedasticidad y normalidad de los errores corresponden a lo que se conoce como Diagnóstico del Modelo, y se basa fundamentalmente en el Análisis de Residuos. El análisis de residuos es quizá uno de los aspectos más importantes del ajuste de modelos, particularmente en modelos de regresión lineal. Por razones de tiempo no se expondrán aquí detalles de este análisis, pero indicamos que el uso de software adecuado facilita considera-blemente tal análisis, así como todos los aspectos antes mencionados. INFERENCIAS EN EL MODELO Supuesta la normalidad en los errores, además de los supuestos iniciales sobre el modelo de regresión, podemos formular hipótesis sobre los parámetros, y validar por lo tanto algunos supuestos que sobre ellos formulemos. Los supuestos distribucionales permiten, además, la construcción de intervalos de confianza, que pueden resultar muy útiles a la hora de juzgar la calidad del modelo ajustado. Inferencias acerca de BETA Como el ajuste de un modelo de regresión se basa en estimadores de los parámetros, un aspecto importante en el análisis dice relación con las inferencias acerca de tales estimadores. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 12 Prof.: Juan Moncada Herrera De la proposición 2, parte b), se deduce que un intervalo de confianza del ( )100% para es: " ! " i si es conocido si es desconocido " 5 5 5 s „ D - > - i 1- 1-  È È ! ! 2 2 44 44 S Otro aspecto de importancia en el análisis de los estimadores dice relación con hipótesis de interés formuladas al respecto. En este sentido uno de los problemas que reviste gran importancia es el contraste de H : v/s H : , para i o a i i0 i i0 " " " " œ Á Á ! Como ~N( ), entonces bajo H , y cuando es conocido, el estadístico de prueba, supuesto " " 5 5 s ß - i i 2 2 o 33 H verdadera, para el contraste anterior es ~ N(0,1). Y cuando es desconocido, el estadístico o 2 " " 5 s  - i i0 2 È 33 5 toma la forma ~ . " " s  - 8Ð:"Ñ i i0 2 È 33 S > Ejemplo: Los siguientes datos corresponden al crecimiento (en mm) de una planta al variar la ] temperatura ambiente desde -2°C a +2°C: \ B C -2 -1 0 1 2 0 0 1 1 3 Estudiar la posibilidad de ajustar un polinomio de segundo grado al crecimiento. Solución: El modelo que se pide ajustar es de la forma En forma vectorial C œ  B  B  /Þ " " " o 2 " # se tiene: ] œ Bß B  ( , ) 1 2 o 1 2 Ô × Õ Ø " " X " En forma matricial: Ô × Ô × Ö Ù Ö Ù Ö Ù Ö Ù Ö Ù Ö Ù Ö Ù Ö Ù Õ Ø Õ Ø Ô × Õ Ø 0 1 -2 4 0 1 -1 1 1 1 0 0 1 1 1 1 3 1 2 4 , œ  " " X " o 1 2 donde X X X X X X œ Ô × Ö Ù Ö Ù Ö Ù Ö Ù Õ Ø 1 2 3 4 5 Recordemos que . Primero calculamos . " s œ Ð\ \Ñ \ ] Ð\ \Ñ t -1 t t Pero , así que 0 0 . 5 0 10 0 10 0 10 0 34 0 0 \ \ œ Ð\ \Ñ œ t t -1 17 -2 35 14 1 10 -2 1 14 14 Ô × Õ Ø Ô × Ö Ù Õ Ø INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 13 Prof.: Juan Moncada Herrera Por su parte, . 1 1 1 1 1 0 5 -2 -1 0 1 2 1 7 4 1 0 1 4 1 13 0 3 \ ] œ œ t Ô × Ô × Õ Ø Õ Ø Ô × Ö Ù Ö Ù Ö Ù Ö Ù Õ Ø Por lo tanto, 0 0 . 0 0 5 0.5714 7 0.7000 13 0.2143 Ð\ \Ñ \ ] œ œ œ s t -1 t 17 -2 35 14 1 10 -2 1 14 14 " Ô × Ö Ù Õ Ø Ô × Ô × Õ Ø Õ Ø Esto significa que 0.5714; 0.7 y 0.2143. Luego, el polinomio ajutastado es " " " s s s œ œ œ o 1 2 C œ  B  B ^ 0.5714 0.7 0.2143 2 Se ha obtenido una ecuación a la que se ajustan los datos. Falta determinar si existe evidencia suficiente a favor de la curvatura. Calculando la , obtenemos que 0.463, por lo que ^ ^ WGI œ Ð]  ] Ñ Ð]  ] Ñ œ ] ]  \ ] WGI œ s w w w w " = œ = œ œ !Þ!& > œ > œ %Þ$!$ # 8Ð:"Ñà!*(& #à!*(& 0.2315, y 0.48. Si , entonces es el valor crítico ! superior del test. Como 0.2143, entonces , valor que no pertenece a la región de " s œ > œ "Þ'( 2 L 9 rechazo. En consecuencia, los datos no contienen evidencia suficiente para incorporar un término cuadrático en el modelo. è Dado el modelo , es el valor estimado de para una matriz dada . ^ ] œ  ] œ œ T] ] s X X X " " X Respecto de se formula la siguiente proposición: ^ ] Proposición: Bajo normalidad en los errores, E[ ] , Var[ ] . ^ ^ ] œ \ ] œ T > " 5 2 Definición: X Los (errores estimados) del modelo se definen como residuos ] œ  " X X ^ ^ ( ) . œ œ ]  ] œ M  T ] e Proposición: e e E[ ] , Var[ ] ( ) . œ ! œ M  T 5 2 Estimación de la media de en un punto [1,X ,...,X ] ] \ œ o 1 p t Es obvio que bajo normalidad en los errores, N( , ). Por lo tanto, un intervalo del ] µ M X" 5 2 (1 )100% de confianza para E[ ] en ( , ) es:  ] \ œ \ ! 1 o t ] „ \ \ \ \ ^ t ( ) 1 /2; o o t t -  8Ð:"Ñ " ! S È Ejemplo: En el ejemplo anterior, . Si , entonces = œ !Þ%()" B œ # B œ Ò"ß #ß %Ó à 9 > * * ^ C œ !Þ&("%#*  !Þ( #  !Þ#"%#)' % œ #Þ)#)' Por lo tanto, un intervalo de confianza para cuando es: IÒ] Ó B œ # #Þ)#)'„> !Þ%()" Ò"ß #ß %Ó ´ #Þ)#)'„> !Þ%()" !Þ*#!& ! ! ! # ! " % " Î#à# " Î#à# "( # $& "% " "! # " "% "% ! ! * * * Í Í Í Í Í Ì Ô × Ö Ù Õ Ø Ô × Õ Ø INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 14 Prof.: Juan Moncada Herrera Si , entonces , y en consecuencia el intervalo de confianza para "  œ !Þ*& > œ %Þ$!$ IÒ] Ó ! " Î#à# ! cuando corresponde a . B œ # Ð!Þ*%)à %Þ(##%Ñ Predicción El intervalo t ( ) es un intervalo que estima los valores entre los cuales ^ ] „ \ \ \ \ 1 /2; o o t t -  8Ð:"Ñ " ! S È puede variar la respuesta media de dado que . Otro problema es estimar la variabilidad de ] \ œ \ ] o en un punto dado . Este valor de es la en el punto dado , que denotaremos por \ ] \ o o predicción de ] ] ] ] œ ]  ] œ \ s : : : : : . Entonces un estimador de es , donde , y es un , ^ ^ ^ o o o t e e " error de predicción que es independiente de , i, con E[ ] y Var[ ] . e e e i 2 a œ ! œ : : 5 Bajo normalidad, se tiene que N ; ( ( ) ) . En consecuencia, un intervalo de ] µ \ \ \ \ \  " : " ˆ ‰ o o t t t - 2 o " 5 confianza estimado del (1 )100% para es:  ] ! : ] „> \ \ \ \  " ^ ( ) 9  8Ð:"Ñ " 1 /2; o o t t - ! S È Ejemplo: En base a los datos del ejemplo anterior, si , entonces , y por B œ # \ Ð\ \Ñ \ œ !Þ)%($ w w " 9 9 lo tanto . Luego, un interalo del 95% de confianza para en es È "  \ Ð\ \Ñ \ œ "Þ$&*$ C B œ # w w " 9 9 : Ð!Þ!$#&à &Þ'#%(Ñ C !Þ'%*) IÒ] Ó !Þ%%!" è . Nótese que el error estándar de es , mientras que el de es . ^ : En base a los resultados y ejemplos anteriores se puede decir bastante acerca de la . bondad del modelo Por ejemplo, se puede juzgar la calidad de los estimadores, de las predicciones, etc., y en base a tales juicios, decidir si el ajuste puede considerarse confiable o no para propósitos de predicción, por ejemplo. Sin embargo, como se verá más adelante, sólo en la etapa de diagnóstico obtendremos las mejores herramientas para la toma de decisiones. EL ANÁLISIS DE LA VARIANZA Hasta aquí se ha evaluado la bondad del modelo sólo en función de la calidad de los ] œ  X" X estimadores correspondientes. Además, todos los análisis se han efectuado sobre la base que el modelo ajustado es de buena calidad. Sin embargo, esto no siempre ocurre así, por lo que es necesario evaluar la calidad del modelo globalmente, de modo de obtener una apreciación más objetiva y completa al respecto. De suma importancia para el logro de este objetivo es el análisis de las siguientes hipótesis : H :EL MODELO ES , o ] œ  " o X H : EL MODELO ES a ] œ  X" X Dado que el modelo se ha supuesto lineal en los parámetros, las hipótesis anteriores se ] œ  X" X pueden interpretar como elementos de análisis de linealidad, aunque esto último requiere de exigencias adicionales que no siempre se deducen del análisis del contraste planteado. Una forma alternativa de este contraste es: H : 0 , o i " œ a3 Á ! H : 0, para algún a i " Á 3 Á ! INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 15 Prof.: Juan Moncada Herrera Un método de análisis de esta prueba se basa en el llamado , el que se basa en Análisis de la Varianza la partición de las sumas de cuadrados y de los grados de libertad asociados con la respuesta . Para ] ello es preciso definir lo siguiente: Suma de Cuadrados Total: SCT ( ) ( ) ( ) œ ]  ] ]  ] œ C  C 1 1 t 2 i=1 n i ! Suma de Cuadrados del Error: SCE ( ) ( ) ( ) ^ ^ ^ œ ]  ] ]  ] œ C  C œ t 2 2 i=1 n i i ! ! e Suma de Cuadrados de la Regresión: SCR ( ) ( ) ( ) ^ ^ ^ œ ]  ] ]  ] œ C  C 1 1 t 2 i=1 n ! Nótese que: SCT 0 todas las observaciones son iguales œ Ê SCE 0 no hay variación en œ Ê ] SCR 0 recta horizontal (en regresión lineal simple) œ Ê Proposición: SCT SCR SCE, y g.l.(Total) g.l.(Error) g.l.(Regresión) œ  œ  Demostración: Se deduce de la identidad ( ) ( ). ^ ^ ]  ] œ ]  ]  ]  ] i i i i Proposición: Si se supone que los errores se distribuyen normalmente, entonces: J œ µ J SCR SCE n-(p+1) : :à8Ð:"Ñ Este es el estadístico de prueba para el contraste H :EL MODELO ES , vs H : EL MODELO ES o a ] œ  ] œ  " " o X X X Las cantidades CMR y CME se llaman y œ œ SCR SCE n-(p+1) : Cuadrado Medio de la Regresión Cuadrado Medio del Error Error estándar , respectivamente. A la raíz cuadrada de CME se le llama de la estimación La forma y fuentes de variación de la respuesta en el modelo puede resumirse en la llamada Tabla ANOVA, de la siguiente manera: Forma General de una Tabla ANOVA para Regresión Fuentes de Gr. de Libertad Sumas de Cuadrados Cuadrados Medios Razón Variación g.l. SC CM J Regresión ^ ^ Error : ] ]  8C Ð] ]  8C ÑÎ: 8  Ð:  t t # # GQV GQI "Ñ ] ]  ] ] 8  " œ ] ]  8C t t ( ) ^ t ^ Total S ] ] ] ] 8Ð:"Ñ ] ] # t t Nota: Los grados de libertad del modelo son "el número de parámetros menos 1, o equivalentemente, el número de variables independientes". INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 16 Prof.: Juan Moncada Herrera EL COEFICIENTE DE DETERMINACIÓN El cuadrado de un coeficiente de correlación se llama C , y corresponde a oeficiente de Determinación una medida de la capacidad de para reducir la variaciónen . Puede demostrarse que, en el modelo \ ] ] œ V œ œ  V ] s ^ , 1 . representa la proporción de la varianza de que es extraída por la X" 2 2 SCR SCE SCT SCT variable , mediante el modelo descrito. Dicho de otro modo, permite medir el ajuste del modelo a la \ nube de puntos correspondiente. Pero, al igual queel rechazo de H en el ANOVA, por sí mismo no o V # puede validar un modelo, ni tener un cercano a 1 necesariamente implica que el ajuste obtenido sea V # útil para predicción. Ejemplo: Consideremos los datos relativos a versus , analizados previamente. crecimiento temperatura La tabla ANOVA correspondiente es: Fuente g.l. SC CM F Regresión 2 5.54286 2.7714 12.1250 Error 2 0.45714 0.228571 Total 4 6.00000 L 9 El valor , de modo que no puede rechazarse la hipótesis . Esto 0 œ "*Þ! L À œ œ ! #ß#à!Þ*& 9 " # " " significa que el modelo propuesto no es el adecuado. Para estos mismos datos, puede verificarse que , V œ !Þ*#$)" # error estándar de la estimación œ !Þ%()!*" è . Ejercicio: Los datos siguientes son : Altura en centímetros, y : Peso en kilogramos, de una muestra \ ] de 10 jóvenes de 18 años. Estudiar el ajuste de un modelo lineal simple para estos datos. \ ] 169.6 71.20 166.8 58.20 157.1 56.00 181.1 64.50 158.4 53.00 165.6 52.40 166.7 56.80 156.5 49.20 168.1 55.60 165.3 77.80 DIAGNÓSTICO DEL MODELO Como se recordará, todo el proceso de estimación del modelo se basa fundamentalmente en el grupo de supuestos iniciales que sobre los errores se formulara. Cualquier violación de estos supuestos puede invalidar irremediablemente las conclusiones obtenidas a partir de un modelo así estimado. Es por ello que la fase tal vez más importante en el estudio de modelos en general, y en modelos de regresión lineal en particular, es aquella en la que se "ponen a prueba" los supuestos. Esta es la llamada , y fase crítica en ella se debe buscar cualquier indicio de invalidación del modelo ajustado. Aunque en la etapa de inferencias en el modelo ya se pueden obtener algunas conclusiones parciales respecto del modelo (como por ejemplo, encontrar suficiente evidencia a favor de la hipótesis L À œ ! 9 3 " , lo que podría implicar que el modelo no es el que se postuló), tales inferencias se basan, entre otros hechos, en que los errores siguen una distribución normal. Pero una prueba de normalidad INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 17 Prof.: Juan Moncada Herrera sobre los errores necesita de los estimadores correspondientes, y estos son los , que residuos naturalmente no están a disposición de estos análisis, sino una vez que se hayan hecho los ajustes correspondientes. Esto crea una suerte de "círculo vicioso", pués aquello que permitirá evaluar si el modelo obtenido sirve o no, se obtiene una vez que éste se ha ajustado. Por esta razón se dice que este análisis es . a posteriori La validación de estos supuestos , en un escenario , se llama a priori a posteriori Diagóstico del Modelo. En la actualidad los análisis referentes a diagnóstico apuntan tanto a la validación de las hipótesis iniciales como a los datos. Lo primero es lo que se conoce como , mientras que lo diagóstico clásico segundo corresponde al . Estudio de Influencia En estas notas trataremos sólo Diagóstico Clásico, ya que el de Influencia requiere de elementos teóricos no proporcionados en cursos de Estadística Elemental. Los problemas que se analizan en este diagnóstico son: - Función de Regresión no lineal. La hipótesis de linealidad puede expresarse como H : El modelo NO o ES LINEAL. - Falta de Homocedasticidad - Errores no independientes (Autocorrelación). Durbin-Watson - Falta de Normalidad - Variables importantes omitidas en el modelo - Falta de ajuste Residuos: Están definidos por: , o por ^ ^ ^ X X œ œ ]  ] œ œ ]  s e e X" Es sencillo probar que ( ) , e œ ]  \Ð\ \Ñ \ ] œ M  T ] w " w Elementos de : T : œ B Ð\ \Ñ B 34 4 3 w w " B 3 w fila i-ésima de la matriz de datos . X B 4 w columna j-ésima de la matriz de datos . X Proposición: e e Var[ ] , Cov( ) . i œ Ð"  : Ñ œ  : 5 5 2 2 i 33 34 Residuos Sttudentizados: Estandarización: < œ Ä 3 ": e 3 33 5 ^È residuo studentizado Tamaño de muestra es grande residuos aproximadamente normales Valores rara vez fuera del Ä Ä intervalo ( )  #ß # Gráficos de Residuales: Respuesta Estimada versus : C < ^ 3 3 El gráfico más importante Modelo Adecuado Ê  ÐC ß < Ñ Pares en torno a una recta horizontal ^ 3 3 Ninguna tendencia aparente  Ð  #ß  #Ñ Rara vez fuera del intervalo (Gráfico ). a INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 18 Prof.: Juan Moncada Herrera Gráficos como los siguientes pueden indicar falta de linealidad en el ajuste. Variables Independientes versus < 3 : Una tendencia o característica sistemática en el gráfico debiera sugerir alguna anomalía en relación a la inclusión de la variable en el modelo. (b) y (c), puede indicar que la varianza de los errores es una función monótona de la variable en análisis ( ). \ 3 Otros Gráficos: - (f) acusan no linealidad y varianza no constante en los errores. - (f) indicará, quizá, que un efecto cuadrático de la variable debiera incluirse en el modelo. \ - (g) indicaría falta de independencia en los errores, o más bien, errores autocorrelacionados. Autocorrelación Estadística de Durbin-Watson Ä La Normalidad de los Errores: Plot de Normalidad Prueba bondad de ajuste ; # Estadística de Kolmogorov y Smirnov INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 19 Prof.: Juan Moncada Herrera EJEMPLOS ILUSTRATIVOS Como una forma de ilustrar y aplicar los resultados, análisis y comentarios anteriores, presentamos a continuación dos ejemplos, en los que desarrollaremos las ideas más fundamentales del Análisis de Regresión. EJEMPLO 1 (Extraído de Canavos(1988), pag. 536). Una compañía manufacturera desea predecir el costo unitario de fabricación de uno de sus productos como una función de la tasa de producción (que fluctúa en el ] tiempo) y de los costos de material y mano de obra . Los datos se recabaron durante un periodo \ \ " # de 20 meses durante el cual la tasa de producción y los costos del material y la mano de obra experimentaron un fluctuación muy amplia. La tasa de producción se midió como un porcentaje de la capacidad total de producción, y se utilizó un índice apropiado para reflejar los costos del material y mano de obra. Las observaciones se encuentran en la tabla siguiente. Obtener la mejor ecuación de regresión para predecir el costo por unidad. costo unitario de fabricación ] À \ À " tasa de producción (que fluctúa en el tiempo) \ À # costos de material y mano de obra La Tabla de Datos: ] \ \ "$Þ&* )( )! "&Þ(" () *& "&Þ*( )" "!' #!Þ#" '& ""& #%Þ'% &" "#) #"Þ#& '# "#) ")Þ*% (! ""& "%Þ)& *" *# "&Þ") *% *$ "'Þ$ "!! """ "&Þ*$ "!# ""' "'Þ%& )# ""( "*Þ!# ( " # % "#( ")Þ"' )& "$$ ")Þ&( )' "$& "(Þ!" *! "$' ")Þ!$ *$ "%! "*Þ## )" "%# #"Þ"# (# "%) #$Þ$# '! "&! INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 20 Prof.: Juan Moncada Herrera SOLUCIÓN Los Ajustes Iniciales: Se ajustó un modelo del tipo C œ  B  B  3 9 " "3 # #3 " " " X C 3 3 es la -ésima observación la variable dependiente, B 3 \ "3 " es la -ésima observación de la variable B 3 \ #3 # es la -ésima observación de Regression Summary for Dependent Variable: Y R= .95601159 R²= .91395817 Adjusted R²= .90383560 Std.Error of estimate: .89419 Tabla de coeficientes: St. Err. B of B t(17) p-level Intercept 20.28127 2.125250 9.54300 .000000 X1 -.13770 .015854 -8.68549 .000000 X2 .07425 .010965 6.77134 .000003 Coeficiente de determinación múltiple 91.4% À Error estándar de la estimación .89419 À Coeficientes y significativos " " " # Errores estándares de los estimadores À de es 0.015854 " s 1 de es 0.010965 " s 2 Analysis of Variance: Sums of Mean Squares df Square F p-level Regress. 144.3873 2 72.19367 90.28916 .000000 Residual 13.5929 17 .79958 Total 157.9803 No hay evidencia en contra de C œ  B  B  3 9 " "3 # #3 " " " X El Ajuste sería: C œ #!Þ#)  !Þ"$((B  !Þ!(%#&B s 3 "3 #3 INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 21 Prof.: Juan Moncada Herrera Diagnóstico del Modelo: Gráfico 1: Residuos versus Valores Ajustados Regression 95% confid. Predicted vs. Residual Scores Dependent variable: Y Predicted Values R e s i d u a l s -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 13 15 17 19 21 23 25 * Ninguno de los residuos cae fuera de la banda de límites y +2.  # * Al parecer algún efecto cuadrático o multiplicativo importante se pudo haber omitido en el modelo. Buscando la Solución: Gráfico 2: versus Residuales \ " Regression 95% confid. Raw residuals vs. X1 X1 = 80.200 + .00000 * Raw residuals Correlation: r = .00000 Raw residuals X 1 45 55 65 75 85 95 105 115 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 22 Prof.: Juan Moncada Herrera Gráfico 3: versus Residuales \ 2 Regression 95% confid. Raw residuals vs. X2 X2 = 120.35 + .00000 * Raw residuals Correlation: r = .00000 Raw residuals X 2 70 80 90 100 110 120 130 140 150 160 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 ¡Habría que pensar en incluir un efecto cuadrático de ! \ " Ajustando el Modelo Alternativo: El nuevo Modelo: ] œ  \  \  \  " " " " X 9 " " # # # $ " Regression Summary for Dependent Variable: Y R= .99027770 R²= .98064992 Adjusted R²= .97702178 Std.Error of estimate: .43710 Tabla de coeficientes: Interc 41.55146 X1 -3.33317 X2 .50479 SQX1 2.68815 Tabla ANOVA: Sums of Mean Squares df Square F p-level Regress. 154.9233 3 51.64111 270.2900 .000000 Residual 3.0569 16 .19106 Total 157.9803 ¿Mejoró el ajuste? INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 23 Prof.: Juan Moncada Herrera Gráfico 4: Residuos versus predicciones Regression 95% confid. Predicted vs. Residual Scores Dependent variable: Y Predicted Values R e s i d u a l s -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 12 14 16 18 20 22 24 26 Gráfico 5: Plot de Normalidad de los Residuos Normal Probability Plot of Residuals Residuals E x p e c t e d N o r m a l V a l u e -2.5 -1.5 -0.5 0.5 1.5 2.5 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 24 Prof.: Juan Moncada Herrera Comparación de los Ajustes: Gráfico 6: Valores Observados vs predichos antes de la corrección Regression 95% confid. Predicted vs. Observed Values Dependent variable: Y Predicted Values O b s e r v e d V a l u e s 12 14 16 18 20 22 24 26 13 15 17 19 21 23 25 Gráfico 7: Valores Observados vs Predichos después de la correción Regression 95% confid. Predicted vs. Observed Values Dependent variable: Y Predicted Values O b s e r v e d V a l u e s 12 14 16 18 20 22 24 26 12 14 16 18 20 22 24 26 La Ecuación Final: C œ %"Þ&&  !Þ(!!$B  !Þ!($%B  !Þ!!$'#%B 3 "3 #3 "3 # INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 25 Prof.: Juan Moncada Herrera EJEMPLO 2 Los datos siguientes representan el costo de calefacción y otras características de casas unifamiliares. ] : Temperatura exterior mínima \ 1 : Pulgadas de aislante \ 2 : Número de ventanas \ 3 : Antigüedad del calefactor \ 4 El problema es estimar una función lineal del consumo en términos de las otras variables. ] Costo de calefacción, según diversas características de la casa ] \ \ \ \ 1 2 3 4 250 35 3 1 6 360 29 4 1 10 165 36 7 9 3 43 60 6 8 9 92 65 5 8 6 200 30 5 9 5 355 10 6 14 7 290 7 10 9 10 230 21 9 11 11 120 55 2 9 5 73 54 12 11 4 205 48 5 10 1 400 20 5 12 15 320 39 4 10 7 72 60 8 8 6 272 20 5 10 8 94 58 7 10 3 190 40 8 11 11 235 27 9 14 8 139 30 7 9 5 Sólo para efectos ilustrativos separaremos los casos lineal simple del múltiple. Regresión Lineal Simple El ajuste de un modelo de regresión lineal simple entre y 1 arrojó los siguientes resultados: ] \ Regression Analysis - Linear model: = a+b 1 ] \ -------------------------------------------------------------------- Dependent variable: Independent variable: 1 ] \ -------------------------------------------------------------------- Standard T Prob. Parameter Estimate Error Value Level -------------------------------------------------------------------- Intercept 388.802 34.2408 11.3549 .00000 Slope -4.93419 0.837437 -5.89201 .00001 -------------------------------------------------------------------- En esta tabla observamos que los valores estimados son: A = 388.802 y B = -4.93419. La ecuación de regresión ajustada es por lo tanto, ] \ = 388.802 - 4.93419 1 El valor T para probar la hipótesis nula de que el coeficiente de 1 es cero, es -5.89201. El valor \ crítico, con n-(p+1)=20-2=18 g.l. y con un 95% de confianza, para un test bilateral, es 2.101, donde „ (p+1) es el número de parámetros (p es el número de variables independientes). Por lo tanto, el valor de INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 26 Prof.: Juan Moncada Herrera t =-5.89201 pertenece a la región crítica, por lo que la hipótesis nula deber rechazarse. Esto significa que el coeficiente de 1 es distinto de cero. \ La otra pregunta que hay que responderse en relación a un modelo ajustado, es si se hizo bien o no al suponer un modelo como el especificado originalmente. La tabla ANOVA entrega todos los elementos necesarios para tomar una decisión respecto de esta interrogante (hipótesis). Para los datos que estamos analizando, dicha tabla es la siguiente: Analysis of Variance -------------------------------------------------------------------- Source Sum of Squares Df Mean Square F-Ratio Prob. Level Model 140214.94 1 140214.94 34.7 .00001 Residual 72700.809 18 4038.934 -------------------------------------------------------------------- Total (Corr.) 212915.75 19 Correlation Coefficient = -0.811509 R-squared = 65.85 percent Stnd. Error of Est. = 63.5526 El valor del estadístico de prueba, la F, bajo la hipótesis nula, es 34.7. El valor crítico es una valor F con 1 g.l. en el numerador y con 18 g.l. en el denominador. Con un 95% de confianza, el valor crítico es 4.41. Entonces deber rechazarse la hipótesis de que el modelo NO ES EL SUPUESTO INICIALMENTE. Por lo tanto hicimos bien al suponer que los datos seguían una tendencia como la indicada. Por último, el valor corresponde al coeficiente de determinación, que en este R-squared = 65.85 percent caso indica que el 65.85% de la variabilidad en se puede explicar por medio de la variable 1. ] \ Todo lo anterior hace suponer que la recta ajustada es confiable para predicción. Regresión Lineal Múltiple Ahora analizaremos el ajuste de un modelo del tipo = A + B1 1 + B2 2 + B3 3 + B4 4 + E ] \ \ \ \ Los valores de los coeficientes y el respectivo valor t, entre otros, se muestran en la siguiente tabla: Model fitting results for: ] ------------------------------------------------------------------- Independent variable coefficient std. error t-value sig.level ------------------------------------------------------------------- CONSTANT 422.471898 68.079563 6.2056 0.0000 \1 -4.56175 0.807373 -5.6501 0.0000 \2 -15.214101 5.448259 -2.7925 0.0137 \3 0.672964 4.160671 0.1617 0.8737 \4 6.12764 4.143358 1.4789 0.1599 ------------------------------------------------------------------- R-SQ. (ADJ.) = 0.7524 SE= 52.676803 MAE= 36.404998 DurbWat= 1.540 En este caso el estadístico de prueba es una t-Student con 20-5=15 g.l. A un 95% de confianza, los valores críticos son 2.131. Puede apreciarse que los valores de T asociados a los coeficientes de 3 y „ \ \4 están en la región de aceptación, por lo que deber aceptarse la hipótesis de que estos coeficientes son cero. De la siguiente tabla ANOVA, según el valor F, podemos deducir que se hizo bien al suponer que los datos seguían un modelo lineal. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 27 Prof.: Juan Moncada Herrera Analysis of Variance for the Full Regression ------------------------------------------------------------------ Source Sum of Squares DF Mean Square F-Ratio P-value ------------------------------------------------------------------ Model 171293.0 4 42823.3 15.4327 .0000 Error 41622.7 15 2774.85 ------------------------------------------------------------------ Total (Corr.) 212916.0 19 R-squared = 0.804511 Stnd. error of est. = 52.6768 R-squared (Adj. for d.f.) = 0.752381 Durbin-Watson statistic = 1.53965 Observemos que el 75.24% aproximado de la variabilidad de se puede explicar a través de , , ] \ \ 1 2 \ \ 3 4 y . EJEMPLO 3 (Extraído de Canavos, G.(1984): . McGraw-Hill Probabilidad y Estadística. Aplicaciones y Métodos Interamericana, Mexico). N.H. Prater desarrolló una ecuación de regresión para estimar la producción de gasolina como una función de las propiedades de destilación de cierto tipo de petróleo crudo. Se identificaron cuatro variables de predicción: la gravedad del petróleo crudo( ), la presión del vapor \ 1 del petróleo crudo( ), el punto de 10% ASTM para el petróleo crudo( ) y el punto final ASTM para \ \ 2 3 la gasolina ( ). La respuesta fue la cantidad de gasolina producida expresada como un porcentaje \ ] 4 respecto al total de petróleo crudo. Los datos, incluidos al final de este texto, se modificaron levemente en su presentación sólo para facilitar cálculos. Al ajustar un modelo de regresión múltiple a los datos, como por ejemplo en la forma C œ  \  \  \  \  3 " " # # $ $ % % 3 ! " " " " % , se obtuvo, entre otros análisis, la siguiente tabla de coeficientes: Model fitting results for: PRATER.] ------------------------------------------------------------------- Independent variable coefficient std. error t-value sig.level ------------------------------------------------------------------- CONSTANT -69.048463 101.218363 -0.6822 0.5009 PRATER. 1 0.227512 0.099885 2.2777 0.0309 \ PRATER. 2 0.55641 0.368796 1.5087 0.1430 \ PRATER. 3 -1.493348 0.291822 -5.1173 0.0000 \ PRATER. 4 1.546868 0.064358 24.0352 0.0000 \ ------------------------------------------------------------------- R-SQ.(ADJ.) = 0.9566 SE= 22.331630 MAE= 16.762933 DurbWat= 2.166 En ella podemos apreciar los valores estimados de los respectivos parámetros, son A=-69.048, B1=0.228, B2=0.556, B3=-1.493 y B4=1.547. Esto significa que la ecuación ajustada es = -69.048 + 0.228 1 + 0.556 2 - 1.493 3 + 1.547 4 ] \ \ \ \ Observemos sin embargo, que de acuerdo al valor t indicado en esta tabla no se puede rechazar la hipótesis de que el tercer parámetro es cero (á3). Por lo tanto este parámetro es cero, y debería eliminarse del modelo ajustado, ya que su contribución a él es nula. Lo que corresponde después de excluir la variable 2 del modelo, es hacer un nuevo ajuste. Al pie de esta tabla se observan los valores \ del coeficiente de determinación, que es del 95.66%; y el error estándar del modelo, entre otros datos. La siguiente tabla, como su encabezado lo dice, es la tabla ANOVA del modelo. Ella permite evaluar estadísticamente la significancia del modelo. Específicamente la razón F permite probar si se hizo bien al suponer un modelo lineal. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 28 Prof.: Juan Moncada Herrera Analysis of Variance for the Full Regression -------------------------------------------------------------------- Source Sum of Squares DF Mean Square F-Ratio P-value -------------------------------------------------------------------- Model 342943. 4 85735.7 171.918 .0000 Error 13464.9 27 498.702 -------------------------------------------------------------------- Total (Corr.) 356408. 31 R-squared = 0.96222 Stnd. error of est. = 22.3316 R-squared (Adj. for d.f.) = 0.956623 Durbin-Watson statistic = 2.16626 En este caso, ya que el valor de la distribución F con 4 g.l. en el numerador y 27 g.l. en el denominador y con un nivel de confianza del 95% es 2.73, se debe rechazar la hipótesis nula (en el ejemplo en análisis, tenemos 5 parámetros, de modo que a la regresión le corresponden 4 g.l.). Recordemos que la hipótesis nula asociada a un modelo de regresión es que EL MODELO NO ES LINEAL. Por lo tanto, se hizo bien al ajustar un modelo lineal a los datos. Si se excluyera del modelo la variable , es probable que el modelo, que así es bastante bueno, mejore \ 2 aún más. Los Datos de PRATER: OBS ] \ \ \ \ 1 2 3 4 1 69 384 61 220 235 2 144 403 48 231 307 3 74 400 62 217 212 4 85 318 2 316 365 5 80 408 35 210 218 6 28 413 18 267 235 7 50 381 12 274 285 8 122 508 86 190 205 9 100 322 52 236 267 10 152 384 61 220 300 11 268 403 48 231 367 12 140 322 24 284 351 13 147 318 2 316 379 14 64 413 18 267 275 15 176 381 12 274 365 16 223 508 86 190 275 17 248 322 52 236 360 18 260 384 61 220 365 19 349 403 48 231 395 20 182 400 61 217 272 21 232 322 24 284 424 22 180 318 2 316 428 23 131 408 35 210 273 24 161 413 18 267 358 25 321 381 12 274 444 26 347 508 86 190 345 27 317 322 52 236 402 28 336 384 61 220 410 29 304 400 61 217 340 30 266 408 35 210 347 31 278 413 18 267 416 32 457 508 86 190 407 INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 29 Prof.: Juan Moncada Herrera SUGERENCIAS BIBLIOGRÁFICAS Para una revisión bibliográfica tendiente a complementar o profundizar algunos temas tratados en esta unidad, a través de sus diferentes capítulos, se sugieren los siguientes títulos: 1.Canavos, G.: Probabilidad y estadística. Aplicaciones y métodos. McGraw-HiII, México, 1988. 2.Freund-Walpole: Estadística Matemática con aplicaciones. Prentice-Hall Hispanoamericana, S.A. México, 1990. 3.Scheaffer-McClave: Probabilidad y Estadística para Ingeniería. Grupo editorial Iberoamérica. México, 1993. 4.Steel-Torrie: Bioestadística. Principios y Procedimientos. McGraw-Hill. México, 1992. PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 2 PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 3 INDICE DE CONTENIDOS INTRODUCCIÓN Capítulo 1. CONCEPTOS BÁSICOS DE PROBABILIDADES 1.1. PRELIMINARES................................................................................................................... 1.2. CONCEPTOS DE PROBABILIDAD.................................................................................... 1.3. EJERCICIOS Y PROBLEMAS............................................................................................. Capítulo 2. VARIABLES ALEATORIAS Y DISTRIBUCIONES DE PROBABILIDADES 2.1. VARIABLES ALEATORIAS................................................................................................ 2.2. DISTRIBUCIONES DE PROBABILIDADES...................................................................... 2.3. FUNCIONES DE VARIABLES ALEATORIAS .................................................................. 2.4. MEDIDAS NUMÉRICAS ASOCIADAS A UNA VARIABLE ALEATORIA..................... 2.5. EJERCICIOS Y PROBLEMAS............................................................................................. Capítulo 3. ALGUNOS MODELOS DISCRETOS DE PROBABILIDADES 3.1. ENSAYOS BERNOULLI...................................................................................................... 3.2. LA DISTRIBUCIÓN BINOMIAL......................................................................................... 3.3. LA DISTRIBUCIÓN DE POISSON...................................................................................... 3.4. LA DISTRIBUCIÓN HIPERGEOMÉTRICA....................................................................... 3.5. EJERCICIOS Y PROBLEMAS............................................................................................. Capítulo 4. ALGUNOS MODELOS CONTINUOS DE PROBABILIDADES 4.1. LA DISTRIBUCIÓN UNIFORME........................................................................................ 4.2. LA DISTRIBUCIÓN NORMAL............................................................................................ 4.3. LA DISTRIBUCIÓN EXPONENCIAL................................................................................. 4.4. LA DISTRIBUCIÓN GAMMA............................................................................................. 4.5. LA DISTRIBUCIÓN DE WEIBULL..................................................................................... 4.6. LA DISTRIBUCIÓN JI–CUADRADO................................................................................. 4.7. LA DISTRIBUCIÓN T–STUDENT...................................................................................... 4.8. LA DISTRIBUCIÓN F–FISHER........................................................................................... 4.9. EJERCICIOS Y PROBLEMAS............................................................................................. ANEXOS A. TEMAS COMPLEMENTARIOS ........................................................................................ A.1. ESPACIOS MUESTRALES FINITOS ........................................................................ A.2. VECTORES ALEATORIOS ........................................................................................ A.3. LA FUNCIÓN GAMMA ............................................................................................. B. RESUMEN DE LAS PRINCIPALES DISTRIBUCIONES DISCRETAS ........................... C. RESUMEN DE LAS PRINCIPALES DISTRIBUCIONES CONTINUAS .......................... D. PROBABILIDADES ACUMULADAS DE LA NORMAL ESTÁNDAR ........................... E. SUGERENCIAS BIBLIOGRÁFICAS .................................................................................. 4 5 8 10 14 15 18 19 23 25 26 27 28 29 31 32 35 35 36 37 38 39 40 41 41 42 43 45 46 47 48 Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco nos ha llevado a estudiar este fenómeno en busca de afirmaciones precisas sobre la naturaleza de este entorno incierto. es necesario desarrollar un lenguaje específico que nos permita comunicarnos con estos hechos. tanto discretas como continuas. junto con las aplicaciones necesarias para su comprensión. Para facilitar la consecución de los objetivos de esta unidad la hemos estructurado en cuatro capítulos. Ante la posible necesidad de conocer algunos temas afines a esta unidad. Matemáticas y Físicas. tanto formal como práctica.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 4 INTRODUCCIÓN La “incertidumbre” que se tiene frente a gran parte de los hechos que nos ocurren diariamente. asegurar el logro de los objetivos propuestos. UCTemuco . es posible pensar en la “Probabilidad” como el lenguaje a través del cual es posible hablar de incertidumbre. Prof. así como también a su “comportamiento” en este entorno incierto. Esta Primera Unidad Temática. se incorpora un módulo de anexos con temas complementarios. Así. en cada uno de ellos encontrarás la presentación de los conceptos particulares que lo componen. Para ello. el lector encontrará conceptos y aplicaciones que le permitirán formarse una idea de su importancia. resúmenes de las principales distribuciones. llamado distribución. en variados ámbitos de nuestra vida. contiene los principales elementos conceptuales y prácticos asociados a este lenguaje de las probabilidades. A lo largo de esta unidad. para finalizar con la entrega de sugerencias bibliográficas en caso de requerir una complementación para los temas tratados. hacia el final un módulo de ejercicios y problemas te permitirá practicar lo aprendido para finalmente. a través de un instrumento de evaluación. de Cs. Juan Moncada Herrera – Dpto. en el caso de las Probabilidades. en juegos de dados. lanzamiento de una moneda. UCTemuco . Este es el principio fundamental de la Probabilidad (el azar). es el relacionado con la fundamentación lógica de cada elemento que constituye el “Universo de Trabajo”. La industria de los seguros. dados.1. Matemáticas y Físicas. marqués de Laplace (1749 – 1827). Definición 1. Por esta razón los ejemplos iniciales clásicos para la introducción al concepto se encuentran. muchos centros de aprendizaje estudiaban la “probabilidad” como una herramienta para el entendimiento de los fenómenos sociales. precisamente. y el otro está basado en lo que se conoce como desarrollo axiomático. teniendo todos estos temas algo en común: “el azar”. En este sentido presentaremos dos enfoques muy utilizados en la presentación del concepto de Probablidad. Abraham de Moivre (1667 – 1754). 1. Valorar la importancia de las probabilidades en el contexto científico. que surgió en este siglo. A menudo se le conoce también con el nombre de probabilidad a priori. la cual fue aplicada con éxito en las mesas de juego. Es de concenso general que un espacio muestral esté constituído por elementos singulares o fundamentales. Se le simbolizará por la letra griega Ω (omega). diversas loterías. unificó todas estas primeras ideas y compiló la primera teoría general de probabilidades. es decir a priori. Pierre Simon. 2. Uno de ellos está basado en lo que se conoce como enfoque clásico. el reverendo Thomas Bayes (1702 – 1761) y Joseph Lagrange (1736 – 1813) desarrollaron fórmulas y técnicas para el cálculo de la probabilidad. es posible establecer las respuestas de antemano. Esta etapa. Reconocer y aplicar correctamente el concepto de probabilidad. requería un conocimiento preciso acerca de los riesgos de pérdida. naipes.1. Al conjunto de todos los resultados posibles de un experimento se le denomina espacio muestral. aunque se enunciarán otros. debido a que. Uno de los aspectos más relevantes en el proceso de definición o perfeccionamiento de métodos. Para el desarrollo de estas ideas se requiere la definición de algunos conceptos básicos relacionados: Definición 1. con el fin de calcular las primas. En el siglo XIX. o bien simplemente por la letra S.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 5 Capítulo 1 CONCEPTOS BÁSICOS DE PROBABILIDADES Objetivos del capítulo: 1. y lo que aquí se presenta es sólo un resumen de los elementos principales de esta fundamentación. Evaluar probabilidades de ciertos eventos. Un experimento es cualquier acción que implica o determina algún resultado. de Cs. y en lo que es más importante: el estudio de problemas sociales y económicos. etc. PRELIMINARES En un principio el desarrollo de las Probabilidades estuvo directamente relacionado con juegos de azar. la teoría matemática de la probabilidad es la base de las aplicaciones estadísticas tanto en investigaciones sociales como en la toma de decisiones y una indispensable herramienta de apoyo al desarrollo y trabajo científicos. 3. Juan Moncada Herrera – Dpto. etc. Se denotará con la letra griega ξ (epsilon). se encuentra superada desde hace mucho tiempo. si se siguen utilizando ejemplos previsibles como: monedas. Medio siglo más tarde. sin necesidad de efectuar el experimento. en el sentido de Prof. En la actualidad. Jacob Bernoulli (1654 – 1705).2. Para su denominación se utilizarán las letras mayúsculas de nuestro alfabeto: A. En el caso de espacios muestrales discretos. que no parece. simultáneamente. En el contexto de la Teoría de Conjuntos corresponde a Ω – A. debe dejarse claro. . ha quedado clara la forma de relacionar eventos con subconjuntos. como es sabido. UCTemuco . Por ejemplo. cuando se habla de la probabilidad de que en un día dado llueva. Definición 1. asociado a cada evento o suceso existe un conjunto. tema que.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 6 ser “irreducibles”. En este caso. En el caso que los eventos son conjuntos. Por ello es que. En este contexto. por ejemplo). de Cs. y los cuidados que se deben tener al definir las componentes de un experimento. Se dice que es continuo si es un conjunto formado por puntos muestrales que son continuidad (intervalos reales. Un evento es cualquier “parte” o subconjunto de un espacio muestral. Intersección: Dados dos eventos A y B de Ω. por lo tanto. Ahora.. Por ejemplo. Juan Moncada Herrera – Dpto. a A y a B. denotada A ∩ B.. . Lo mismo ocurriría si el experimento consiste en lanzar la moneda y registrar el número de lanzamientos hasta que aparezca la primera CARA. B. Recordamos las siguientes definiciones: Unión: Dados dos eventos A y B de Ω. En los comentarios subsiguientes a la definición de evento.3. El complemento de A se simboliza por Ac o bienA. de la forma en que tradicionalmente se entiende conjunto. hacer corresponder aquellas definiciones y propiedades. se define como el evento consistente de todos los elementos de A que no pertenecen a B. la unión corresponde al conjuto de todos los elementos que pertenecen a A o a B.. 2. que no sean una composición de. Un espacio muestral puede ser discreto o continuo. La unión entre A y B se denota por A ∪ B. C.}. puede haber infinitos lanzamientos (nunca aparecerá una CARA). la diferencia entre A y B. denotada por A – B. todos los subconjuntos son eventos. Complemento: El complemento de un evento A corresponde a todas aquellas características del experimento que no son registradas en A. lo que se evalúa es la probabilidad de un día lluvioso particular. entonces este experimento tiene un espacio muestral finito. Matemáticas y Físicas. entonces los resultados observados son intervalos (reales) de tiempo que. la intersección corresponde al conjuto de todos los elementos que pertenecen. 3. al menos en una primera impresión. Prof. pero en el caso de espacios continuos es posible encontrar puntos muestrales incompatibles con la relación evento–conjunto.. En el caso que los eventos son conjuntos. el conjunto asociado es el de todos los días lluviosos. Es discreto si es un conjunto finito o infinito numerable. si el experimento consiste en encender una ampolleta y registrar el tiempo de funcionamiento. En el ejemplo.. Z. No obstante. si un experimento consiste en lanzar una moneda y registrar lo que muestra la parte superior. Diferencia: Dados dos eventos A y B de Ω. la unión entre A y B se define como el evento consistente de las características tanto de A como de B. se define como el evento consistente de todas las características comunes a A y a B. es decir. el espacio muestral es {1. constituyen un infinito no numerable. y siempre resguardando las debidas diferencias entre un espacio de trabajo y otro. conformado por los elementos fundamentales CARA y SELLO. está muy lejos de los objetivos de estas notas. el espacio muestral es continuo. Sobre estos aspectos se recomiendan lecturas avanzadas sobre Teoría de Probabilidades. que son un subconjunto de un espacio muestral. pero el recíproco de esta afirmación no necesariamente es verdad. a cada suceso o evento se asocia un conjunto y se puede. en general. Puede observarse que a cualquier evento se le puede asignar un conjuto de puntos muestrales. Cada una de estas partes o componentes del espacio muestral se llama punto muestral. Por lo tanto es discreto. otros elementos simples. En este caso el evento es “día lluvioso”. En este último caso. un conjunto. todas las operaciones definidas en la Teoría de Conjuntos son también “aplicables” a los eventos. a su vez. Este es un espacio muestral infinito numerable (contable). la intersección entre A y B. c) Si el evento E = φ (vacio).PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 7 Estrictamente hablando. y salvo excepciones que se advertirán oportunamente. Similarmente. como las relaciones de De Morgan. se puede abordar con cierta precisión y formalidad el concepto clásico de probabilidad. Esta consideración puede. En lo sucesivo. de Cs. Observaciones: a) Si el número de elementos de un evento E es mayor que 1. ya que una operación “actúa” sobre dos eventos. El complemento no es más que la definición de un evento particular. y los eventos se dicen mutuamente excluyentes. en muchos casos.5: La medida de un evento o de un subconjuto E de Ω es una función m : c(Ω) → IR. m(E) = Área de E.4. en el lanzamiento de una moneda es bien sabido que no se puede obtener una cara y un sello al mismo tiempo. Algunas de estas propiedades son: A∪B = A∪A = A∪Ac = A∪Ω = A∪φ = (A∪B)c = B∪A A∩B = A A∩A = A∩Ac = Ω A∩Ω = Ω A A∩φ = Ac∩Bc (A∩B)c = A∪(B∩C) = (A∪B) ∩ (A∪C) A∩ (B∪C) = (A∩B) ∪ (A∩C) A – B = A ∩ Bc B∩A A φ A φ Ac∪Bc Definición 1. UCTemuco . Definición 1. A y B son disjuntos si y sólo si A ∩ B = φ. Sean A y B dos eventos de un espacio Ω. ayudar a la resolución de problemas tanto como a su comprensión. si el número de elementos de Ω es superior a 1. Particularmente útil puede resultar. entonces el experimento se dice aleatorio. Matemáticas y Físicas. Prof. Por ejemplo. y de representaciones. entonces E se llama evento aleatorio. para una mejor comprensión y resolución de problemas y propiedades relativas a eventos. si E es contable. entonces E se llama evento nulo o evento vacío. la utilización de propiedades. Esta propiedad es la que se conoce como exclusividad. de las anteriores definiciones sólo las tres primeras corresponden a operaciones. Juan Moncada Herrera – Dpto. como las de Euler–Venn. Con todas las aclaraciones conceptuales anteriores. si E es una región plana. que satisface las siguientes propiedades: m(E⊂ Ω) ≥ 0 m(Ω) = 1 Algunas medidas de uso común son: m(E) = Número de elementos de E. si E es un sólido. b) Si el evento E = Ω. los eventos serán entendidos como conjuntos en el contexto de la Teoría de Conjuntos. entonces E se dice evento seguro. m(E) = Volumen de E. en algunos casos. En este contexto son también importantes ideas tales como el hecho que no existan dos resultados equivalentes en forma simultánea para un experimento dado. esta definición tiene una serie de problemas relativos a su operacionalidad. En un esquema axiomático. Tampoco es un tema que se encuentre dentro de los propósitos de estas notas. Esta interpretación de la Probabilidad está basada en la presentación de un conjunto de axiomas. es: P( E ) = m( E ) m ( Ω ) . Otro enfoque. donde m(Ω) ≠ 0 Este planteamiento clásico de la “probabilidad” puede ocacionar algunos problemas en la vida real. UCTemuco . quiere decir que si el experimento se repite en similares condiciones un cantidad infinita de veces. la probabilidad se define como una función que satisface una serie de axiomas. Prof. CONCEPTOS DE PROBABILIDAD Existen varias formas o enfoques de definción de probabilidad. que está cobrando adeptos en los últimos años. Rapidamente es posible darse cuenta de lo necesario que resulta la experimentación para encontrar algún patrón de comportamiento.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 8 1. los que se apoyan fuertemente en la Teoría de Conjuntos. Juan Moncada Herrera – Dpto. a partir de los cuales se pueden deducir otra serie de propiedades y aplicaciones que. Particularmente cuestionables son los problemas de convergencia asociados. En este sentido parece más práctica la definición clásica. Según este enfoque. de Cs. Esto significa que si un evento se dice tener probabilidad 0. la probabilidad de un evento es la proporción de veces que ocurrirá el evento en una repetición infinita del experimento. Esta forma de definición recoge el conocimiento o experiencia previa que el analista tiene del fenómeno o experimento en estudio y lo utiliza como una forma de evaluación de las posibilidades de ocurrencia de un evento particular. sea ξ un experimento definido en un espacio muestral Ω.56. pueden conducir también a los resultados previstos para los enfoques anteriores. que se soporta en el concepto de medida de un evento. Ya en el siglo XIX los estadísticos británicos realizaron las primeras mediciones para lo que hoy llamamos frecuencia relativa de presentación de un evento. En este contexto se sitúan los métodos bayesianos. en el 56% de las veces se observará el evento en estudio. entonces la probabilidad del evento E está dada por P( E ) = lim N →∞ Número de ocurrencias de E N Aunque elegante. Aquí se formalizan las ideas anteriores. Según este método. Matemáticas y Físicas. Lo cual hace que sea de mucha utilidad otra forma de definirla. en el que se ha definido una medida m.2. expresado en términos de su medida. La probabilidad de un evento E perteneciente a Ω. mencionamos el enfoque o método axiomático de la probabilidad. Su principal crítica es la subjetividad que subyace a tales evaluaciones. eventualmente. desordenada y con algunos hechos extraños y poco probables. Formalmente si N representa el número de veces que se realiza el experimento. es la probabilidad como evaluación subjetiva. para dar lugar a un tratamiento lógico-deductivo de gran potencia en sus fundamentos y fuerza en sus conclusiones. En efecto. Por último. aunque no se descarta el uso de los otros enfoques. Entre ellos se tiene el concepto clásico de probabilidad. las probabilidades se definen a partir de ciertas reglas lógico–matemáticas que conforman una estructura bien definida y sólidamente respaldada: son los axiomas de probabilidad. siempre que exista coherencia y concordancia entre ellos. lo que hace difícil su aplicación al cálculo de probabilidades. Por estas razones será el método o enfoque que se utilizará en estas notas. (2.1). Se llama función de probabilidad sobre el espacio muestral Ω a cualquier función P: c(Ω) → IR.. y que E 36 tiene 6 elementos. ..5). en el sentido que no tiene un lado más probable que el otro. es decir. y hay que reconcerlo. (2. .1: Sean E. La utilización de resultados de la Teoría de Conjuntos puede ayudar a las demostraciones. El espacio muestral asociado está determinado por: Ω = {(1. Por otro lado. Ejemplo 1. es decir que no caerá “de canto”.6)}.. .. (5.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 9 Definición 1. Proposición 1.1). parece ser evidente que la probabilidad de E es la suma de todas las probabilidades de los puntos muestrales que conforman E.2).1).. esto es.. 2) P(Ω) = 1. Seguramente Ud.. m(E) = 6.. Formalmente se habla de eventos equiprobables.. Considérense el experimento ξ: “lanzar dos dados y anotar los puntos que muestran las caras superiores” y el evento E : “obtener un par cuya suma sea 7”. ii) 0 ≤ P(E) ≤1. pero no establecen una forma o método de ese cálculo. (2. ¿cuál es la probabilidad de obtener una CARA en el lanzamiento de una moneda?. Prof. en el que se ha definido una probabilidad P. dirá que ½.... Claro está que no siempre será pertinente este supuesto.(6. y que se debe tener especial cuidado con las suposiciones que sobre él se formulen.. (3. m(Ω) = 36. En el enfoque clásico. puesto que Ω tiene 36 elementos.1). Matemáticas y Físicas.2). Esta última propiedad será muy recurrente en muchos problemas relativos a juegos de azar.6)}. (3. Algunas consecuencias importantes de estos axiomas se resumen en la proposición 1. . (4. Seguramente supone una moneda con “caída regular”. (6. y puede notarse su relación con la interpretación clásica de probabilidad.. El número P(E) se llama la probabilidad de E. Por ejemplo. Por último. digamos que en la definición de probabilidad habrá que tener en consideración el conocimiento y la experiencia que en relación al fenómeno existe.6). ∀ i ≠ j. Demostraciones: Se dejan de ejercicio todas las demostraciones..1)..(6. cuando: Ei ∩ Ej = φ. ♦ Las definiciones y propiedades anteriores sólo han establecido las reglas por las que se rige el cálculo de probabilidades. En una situación particular de un evento E. 3) P( ∪ Ei) = ∑ P(Ei). (5.1.. (6. Estos tres axiomas caracterizan completamente a una función de probabilidad.1.1). Juan Moncada Herrera – Dpto.. (4..3).. pero no es lo definitivo. Por su parte el evento E corresponde a E = {(1. Solución.6: Sea Ω cualquier espacio muestral y E cualquier evento de Ω. Esto es ya un gran avance en el cálculo de probabilidades.2). Esto significa que dos resultados cualesquiera tienen las mismas posibilidades de ocurrir.1). Entonces se verifican las siguientes relaciones: i) P(φ) = 0. (c(Ω) es el conjunto potencia de Ω) tal que: 1) P(E) ≥ 0.. muchas de las cuales. habrá supuesto también que se trata de una moneda regular (no cargada).4). de Cs.. P( E ) = m( E ) m(Ω ) = 6 . UCTemuco . iii) P(Ec) = 1 – P(E) iv) P(E1 ∪ E2) = P(E1) + P(E2) – P(E1 ∩ E2). E1 y E2 eventos de un espacio muestral Ω.. (1. Pero dar esa respuesta supone una serie de consideraciones en torno al experimento. tienen una fuerte base experiencial. independientemente de la naturaleza del resultado mismo. Solución. Los alumnos de un curso disponen de dos libros para estudiar. EJERCICIOS Y PROBLEMAS Como una forma de aplicar los conceptos antes tratados. mientras que el 20% de ellos usa sólo el libro B.9 + 0.2. presentamos a continuación una serie de ejercicios y problemas prácticos para ser trabajados en forma personal o grupal.8 – 0.72. Es aconsejable trabajar los problemas sin observar previamente los resultados o soluciones. El libro teórico lo usa el 70%. El sistema funciona si cualquiera de sus componentes funciona. se tiene que P(A∪ B) = 0. Juan Moncada Herrera – Dpto. P(B) = 0. ξ2: “Se lanza una moneda cuatro veces y se observa la sucesión de caras y sellos” c.8. es que P(A) = 0. Lo que se pide es P(A∪B). Matemáticas y Físicas. necesitamos saber cuál es la probabilidad de cada elemento de Ω.3.3. Se sabe que la probabilidad de que la componente A funcione es 0.98. y de reforzar aquellos aspectos que a nuestro juicio son los más relevantes. al aplicar la propiedad iv) anterior. y se observa el número de ella” Prof. entonces cada elemento de Ω tiene probabilidad igual 1/36.♦ 36 Ejemplo 1. que funcione B. Si se supone que cada resultado es igualmente probable. ξ1: “Se lanza un dado y se observa el puntaje asociado a la cara superior” b. Esto es.72. ♦ Ejemplo 1. 1.9. 6 . la probabilidad de que el sistema funcione es del 98%. se presentan al final de la misma lista. es 0. Lo que se tiene.72 = 0. es 0. ξ3: “Se extrae una carta de una baraja de 52. Considere los siguientes experimentos y describa el espacio muestral asociado a cada uno de ellos: a.9. el libro práctico el 60% y el 40% utiliza ambos libros. ♦ 1. Un sistema contiene dos componentes A y B. donde su pinta no importa. Se pide hallar la probabilidad de que el sistema funcione. y por tanto la probabilidad de E es la suma de las probabilidades de sus puntos muestrales. y la de que ambas componentes funcionen simultáneamente. Representación gráfica mediante el Diagrama de Venn Ω 100% A B 30% 10% 40% 20% A partir del diagrama resultan evidentes los siguientes hechos: – El 30% de los alumnos usa sólo el libro A. Entonces. Las respuestas. UCTemuco . – El 10% de estudiantes no usa ninguno de los dos libros. en definitiva.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 10 En el esquema axiomático por su parte. y en algunos casos un esbozo de solución. de Cs. uno teórico y uno práctico.8 y P(A∩B) = 0. ¿cuál es la probabilidad que el pronóstico dado sea correcto? c. ¿Cuál es la probabilidad de que entre 4 personas entrevistadas en ese lugar. ¿Cuál es la probabilidad de que repruebe también matemáticas? b.7. b. Se selecciona aleatoriamente un número real en I = [0. así como las probabilidades asociadas a ellos. A∪B y A∩B. ¿Cuál es la probabilidad de que un día en que el pronóstico fue dado correctamente. En cierta carrera universitaria se sabe que el 25% de los estudiantes reprueba matemática. seleccionado aleatoriamente es 0.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 11 2. En base a esta representación: A 8 6 13 23 B a. se sabe que el 60% de los estudiantes son mujeres. entonces P(A∪B∪C) = 1 – P(Ac)P(Bc)P(Cc). y éste resultó haber reprobado estadística. 5. Los resultados de un experimento se distribuyen según se indica en el siguiente diagrama de Venn.80 mts. haya correspondido a un día lluvioso? 9. Si se selecciona al azar un estudiante. Si se selecciona al azar un estudiante y resultó ser más alto de 1. Si de entre el 4% de los hombres y el 1% de las mujeres miden más de 1. Calcular las probabilidades de cada evento de la parte a. Si un día es seleccionado aleatoriamente.25. entonces: P(A∪B/C) + P(A∩B/C) = P(A/C) + P(B/C) 7. a. Juan Moncada Herrera – Dpto. B. Sean los eventos A: el número se selecciona entre 0 y 1. El pronóstico local del tiempo atmosférico. Demostrar que si A. entregado por la estación meteorológica de la ciudad es correcto el 60% de las veces en que el pronóstico es de lluvia y el 80% de las veces en que se hacen otros pronósticos. las primeras 3 estén en contra y la última a favor del proyecto? 4. La probabilidad de que en Temuco llueva un día del año. P(A ∪ B) d. y B: el número se selecciona entre 0. c. Demostrar que si P(C) ≠ 0. Un empleado bien capacitado cumpla la cuota de producción. 3. P(A) b. UCTemuco . b.5 y 2. de Cs. Un empleado que cubre la cuota de producción no esté bien capacitado.2]. B y C son independientes. y cada número en I tiene igual probabilidad de ser seleccionado. Si la probabilidad de que una persona entrevistada en un centro comercial esté en contra de un proyecto industrial con gran impacto en el ecosistema es de 0. Si A es el evento un empleado está bien capacitado y B se define como el empleado cumple su cuota de producción. 6. entonces: a. además. Describir verbalmente los eventos A. ¿cuál es la probabilidad de que resulte ser mujer? 8.80m. Un empleado que no está bien capacitado no cubra la cuota de producción. exprese simbólicamente las probabilidades de los siguientes eventos: a. P(B) c. b. ¿Cuál es la probabilidad de que repruebe matemática o estadística? c. Matemáticas y Físicas. P(A ∩ B) Prof. Calcular las siguientes probabilidades: a. Indique claramente los sucesos involucrados. el 15% reprueba estadística y un 10% reprueba ambas asignaturas. 2. d. Demostraciones de este tipo. entonces el evento un empleado que cubre la cuota de producción no esté bien capacitado es Ac|B. b) P(B) = 0. a) Ω: { 1. 7. 7. 4.1029. K } 2.: Calcular P(A∪B∪C) y aplicar propiedad de independencia de los tres eventos. Entonces: a. A y B. El problema de la reunión. Lo que se pide es P(A1∩A2∩A3∩A4c). Respuestas a algunos problemas propuestos 1. 5. entonces P(A) ≤ P(B).7. 6. P(A/B) = 0.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 12 10.4 8. de Cs. J. un punto de partida Prof. 2. Juan Moncada Herrera – Dpto. Matemáticas y Físicas. y sus tiempos de llegada son independientes? Analice la importancia de estos dos últimos supuestos en la solución del problema.15 y P(A∩B) = 0. En este caso particular. c) Ω: { A. 3. Q. Mostrar que si A ⊆ B. 10. 10.67 b. 5.10. c) P(A/B) = 0. 9. Dados A: empleado bien capacitado y B: empleado que cumple su cuota de producción. se va. Las probabilidades de estos eventos son P(A) = 0. Sug. Se sabe que P(Ai) = 0. P(B) = 0.5/2. y puede existir más de una forma de ellos. y la probabilidad será P(Ac/B). después de lo cual. 8. Sean los eventos A: alumno reprueba matemática y B: alumno reprueba estadística. 5. pueden significar ciertos “arreglos” que no siempre son fáciles de detectar. Dos personas. La primera persona que llegue espera a la otra por 20 minutos. Sea el evento Ai: la persona i–ésima está en contra del proyecto. La medida apropiada en este caso es la longitud del segmento correspondiente (ver figura). entonces: a.25. P(A ∪ B) = 1 P(A ∩ B) = 0.2 9. P(A ∪ B) = 0. han acordado reunirse en un lugar específico entre las 12:00 y las 13:00 horas. 4.25. 6. Suponiendo independencia entre las personas entrevistadas. ¿Cuál es la probabilidad que las personas se reúnan si sus llegadas durante la hora indicada ocurren de manera aleatoria. se tiene que P(A1∩A2∩A3∩A4c) = 0. UCTemuco . 11. 3. P(A) = ½ P(B) = 1. Hacer uso de la definición de probabilidad condicional de P(A∪B/C). c. 6 }. 4. si no llega ésta. b. como se habrá visto. ii) P(B) = 19/50 3.75 . 6. 11. Algunas consideraciones geométricas conducen a 5/9 como la probabilidad pedida. Notar que la reunión se concreta si |x–y| ≤ 20. Prof. para deducir que P(B) = P(Ac ∩ B) + P(A). Matemáticas y Físicas. UCTemuco .PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 13 puede ser la identidad B = (Ac ∩ B) ∪ A.y ≤ 60. simplemente por definición de desigualdad. entonces. se tiene el resultado. así que se puede aplicar la definición 1. Definir los eventos x : Tiempo (instante) de llegada de A y y : Tiempo de llegada de B. Pero como P(Ac ∩ B) es una cantidad no negativa. parte 3. Se puede verificar también que esta descomposición de B es una partición. que se puede verificar fácilmente. Juan Moncada Herrera – Dpto. También notar que 0 ≤ x. de Cs. 1. Sea ξ un experimento aleatorio. Se llama variable aleatoria a una función X que asigna a cada elemento ω ∈ Ω un número real x. al estudio sistemático de ciertas disciplinas. Valorar la importancia de las variables aleatorias en el estudio de problemas del ámbito científico. se denomina recorrido de la variable aleatoria X. entonces no tendría sentido el estudio o el conocimiento. 2. Sin embargo. y de nuestro quehacer. Juan Moncada Herrera – Dpto. P) → ‘ ω a X(ω) = x Observación: Generalmente las variables aleatorias se designan con letras mayúsculas y un valor particular de ella con su respectiva letra minúscula. o programado cuidadosamente. En el presente capítulo se persentarán métodos y técnicas que recogen el soporte fundamental de la variabilidad para examinar y evaluar sus grados de incerteza: la información. Definición 2. Identificar y definir variable aleatoria. En el capítulo anterior se presentó y revisó el concepto de probabilidad. Ese grado de incertidumbre está presente en gran parte de la actividad humana en general. Y esta variabilidad es la que da sentido a la investigación. a su vez.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 14 Capítulo 2 VARIABLES ALEATORIAS Y DISTRIBUCIONES DE PROBABILIDADES Objetivos del capítulo: 1. Sobre este tema trata. la mayoría de los principiantes encuentran más fácil considerar las variables aleatorias tan sólo como cantidades que pueden tomar valores distintos dependiendo de la probabilidad asociada. y en la actividad científica en particular. Una variable es aleatoria si toma diferentes valores como resultado de un experimento aleatorio. esencialmente. Al conjunto de todos los valores que asume la variable aleatoria X. conceptualmente. Matemáticas y Físicas. con ω ∈ Ω} Prof. VARIABLES ALEATORIAS Definición 2. las variables aleatorias en realidad son funciones y no variables. al conocimiento. Estudiar y determinar propiedades asociadas a las variables aleatorias. con espacio muestral asociado Ω y dotado de probabilidad P. denotado por RX . finalmente. de Cs. UCTemuco . En esta variabilidad está la esencia de nuestra vida. este capítulo. como una medida del grado de incertidumbre involucrado en la ocurrencia de ciertos fenómenos. 3. la variabilidad en casi todo cuanto nos rodea. es decir: RX = {x ∈ ‘x / X(ω) = x. Pero la información no es posible concretarla sino en variables y observaciones o registros. 2. De esa incertidumbre surge. es decir: X: (Ω.1. sea cotidiano. Si todo fuera uniforme.2. y particularmente sobre las variables aleatorias y la forma en que las probabilidades de ocurrencia de los registros correspondientes se distribuyen. Puesto que asociar números con los puntos de un espacio muestral sólo es una manera de definir una función sobre los puntos del espacio muestral. con distintas especies. 1. Los dueños necesitan conocer de antemano. Antes de presentar aquellas funciones. cantidades aleatorias determinadas por el experimento. lo cual se realiza a través de un parámetro que es un rasgo. cuyos valores serán: X(C. pudiendo ser éste.C) = 2 X(S. en lo que sigue. En consecuencia. es importante referirse a una componente de definición que resulta fundamental en la comprensión del concepto de distribución. DISTRIBUCIONES DE PROBABILIDADES A cada variable aleatoria hay asociadas unas funciones especiales que informan de ciertas características de las probabilidades y su relación con los valores de la variable.S). característica o descripción del fenómeno estudiado en la población de interés. Se trata del concepto de parámetro. (C. Se define el experimento ξ: “lanzar dos monedas y registrar lo que cae cada una”. la cantidad de trozos que dispone para el cumplimiento de contrato con un comprador. Juan Moncada Herrera – Dpto. (S. Matemáticas y Físicas. Al momento de comenzar a estudiar una población. dada la extensión del terreno. definamos como población de interés un bosque de grandes dimensiones. El espacio muestral asociado a ξ será: Ω = {(C. se presentarán en detalle aquellas funciones que “hablan” de la distribución de probabilidades. se harán las distinciones para los casos discreto y continuo. 2. (S.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 15 Ejemplo 2.S)} Si a cada ω se le asigna un valor numérico.C). ♦ Se acostumbra clasificar las variables aleatorias de acuerdo con el número de valores que pueden tomar.S) = 1 X(S. Pero si es posible encontrar un indicador que caracterice a esa cantidad. Pareciera razonable pensar que no es posible cuantificar exactamente la cantidad de trozos. parece evidente que hay ciertas situaciones o fenómenos que son de interés para el estudioso. definir la variable aleatoria involucrada y determinar su recorrido. la media o promedio de trozos. consideradas como valores que toma la variable. UCTemuco . Cuando sea necesario. aún en forma aproximada. Una variable aleatoria X se dice discreta si su recorrido RX es finito o infinito numerable. de Cs. de 0 a 2. El concepto de distribución es uno de los más importantes en el estudio de las variables aleatorias.3. su recorrido es RX = {0. Todas ellas dan lugar al concepto de distribución de probabilidades o simplemente de distribución de la variable. en la definición e identificación de una distribución los parámetros juegan un papel fundamental.S) = 0 Luego. Como se irá mostrando en la medida que se avance en el estudio de estas notas. Definición 2. 2}. pero no es suficiente obtener un cúmulo de información si esta no puede ser de alguna manera resumida para ser utilizada. siendo este parámetro la cantidad que caracteriza dicho fenómeno. Solución.1.C) = X(C. en caso contrario se dice que es continua. y de sus propiedades más importantes. podemos definir la variable aleatoria X: “Número de caras obtenidas”. Se desea determinar el espacio muestral asociado a ξ. en este contexto podemos distinguir variables aleatorias discretas y continuas las que se definen a continuación. las Prof.2. Por ello. Para ilustrar el concepto anterior.C). Proposición 2. Sea X una variable aleatoria con función de probabilidades dada por: n  p ( x. es una función real F: ‘ → ‘ definida por F ( x) = P( X ≤ x) = xi ≤ x ∑ p( x ) i y que satisface las siguientes condiciones: i) 0 ≤ F ( x ) ≤ 1 ii) x < y ⇒ F ( x) < F ( y ) Notar que la función de distribución acumulada evaluada en algún punto del recorrido de la variable. Definición 2. n x n ii) Por Teorema del binomio.1.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 16 distribuciones se identifican por sus parámetros. ♦   0  x  x∈R x n Definición 2. p ) =   p x (1 − p) n− x . Matemáticas y Físicas. Aunque no se trata de una “probabilidad acumulada hasta. denotada por F.5.4. con recorrido RX. . 0 < p < 1  x Verificar que la función propuesta es una función de probabilidades. ∑ p ( x... Solución. Para probar si p es una función de cuantía. valores como P[X > x] también se entienden como probabilidades acumuladas (“acumulación más allá de. y el reconocimiento de estos será el principal trabajo y problema en el estudio de ciertas distribuciones conocidas. ya que cada componente del producto que la define es positivo. Sea X una variable aleatoria discreta. Juan Moncada Herrera – Dpto.. Por ello..2. a veces a esta función también se le llama función de probabilidades.”). donde n ∈ . En efecto: i) p(x. de Cs. p) ≥ 0. La función de distribución acumulada de una variable aleatoria discreta X posee las siguientes propiedades: i) P ( X > x) = 1 − F ( x ) ii) F (∞) = 1 iii) F ( −∞) = 0 Prof.”. n. La función de distribución acumulada de una variable aleatoria discreta X. es una probabilidad que indica o resume la información que de la variable se tiene hasta el valor que se indique. p ) = ∑   p (1 − p ) n − x = [1 + (1 − p)] = 1 . debe satisfacer las condiciones de la definición 2. la función de cuantía en cualquier punto es una probabilidad. n. n. Se llama función de cuantía a una función PX (x) = P(X = x) que satisface las siguientes condiciones: i) P(x) ≥ 0 ∀ x ∈ RX ii) p( x) = 1 x∈R x ∑ Observación: Para una variable aleatoria discreta.4. UCTemuco . Ejemplo 2. se tiene − 2du = dx .∞/2 Prof. Juan Moncada Herrera – Dpto.3.6. Si definimos la variable aleatoria X: “cantidad diaria del contaminante por cada 103 lts” y sabiendo que el problema de contaminación se genera cuando X excede los 6 mg/103 lts. en un río de la zona se modela de acuerdo a la siguiente función de densidad: f ( x) = ½e . existen funciones de densidad que evaluadas en algún punto toman valores mayores a la unidad. y por lo tanto du = − 1 dx .( e – e-6/2) = e -3 = 0. Todas ellas se basan en propiedades elementales de sumatorias y series. UCTemuco . Matemáticas y Físicas.04979. ¿Cuál es la probabilidad de que ocurra un problema de contaminación en un día cualquiera? Solución. Todas las demostraciones se dejan de ejercicio. entonces la probabilidad buscada es: − x 2 P( X > 6) = ∫ e dx = 1 2 6 x 2 ∞ ∞ x −2 ∞ 1 2 ∫ e 2 dx 6 ∞ 6 −x Haciendo la sustitución u = − .PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 17 iv) P( x1 < X < x2 ) = F ( x2 ) − F ( x1 ) v) P( X = x) = F ( x) − F ( x − 1) Demostración. ∀ x. ♦ . ♦ Definición 2. El comportamiento diario de cierto contaminante. de Cs. a b Representación gráfica de la propiedad iii) de la función de densidad Observación: Una función de densidad no representa una probabilidad. Ejemplo 2. Sea X una variable aleatoria continua. y entonces: 2 P( X > 6) = −2 1 ∫ e u du = −e u = − e 2 6 x −2 = . se tiene P(a ≤ X ≤ b) = ∫ f ( x)dx . x > 0 Además se sabe que ocurrirá un problema de contaminación si los registros del contaminante exceden los 6 mg/103 lts. Más aún. ∫ ∞ −∞ f ( x)dx = 1 iii) Para cualquier par de números reales a y b con a < b. Una función f : RX → ‘ se llama función de densidad de X si satisface las siguientes condiciones: i) ii) f ( x) ≥ 0 . La función de distribución acumulada de g(X) corresponde a Fg ( X ) ( x) = P[ g ( X ) ≤ x ] .2. la función de distribución acumulada asociada a una variable aleatoria continua es una probabilidad. UCTemuco . 2. Por ejemplo. de Cs. Dada una variable aleatoria. 3.7. Sea también g una función monótona (no decreciente) y no negativa en el recorrido de X. Proposición 2. FUNCIONES DE VARIABLES ALEATORIAS Son frecuentes los problemas en los que el interés se centra más que una variable aleatoria. dy Demostración. La aplicación del Teorema Fundamental del Cálculo Diferencial conduce al resultado: ♦ Prof. Matemáticas y Físicas. Como {g(X)≤x} y {X ≤ g-1(X)} son sucesos equivalentes. Todas las demostraciones se dejan de ejercicio. entonces P( X ≤ x) = P( X < x) = F ( x) Proposición 2. pero no necesariamente con las mismas propiedades de la variable original. Entonces la función de densidad de g(X) está dada por f g ( X ) ( x ) = f X (g −1 ( x ) ) dx . Sea X una variable aleatoria continua. entonces Fg ( X ) ( x) = P[ X ≤ g −1 ( x)] = FX ( g −1 ( x)) .3. Son estos aspectos los que se resumen en la siguiente proposición. P( X = x) = ∫ x x f (t )dt = 0 . Ellas se basan en propiedades elementales de la integral. Hay que notar que X² es una función de X. ♦ Al igual que en el caso discreto. La función de distribución acumulada de una variable aleatoria continua X posee las siguientes propiedades: i) F (−∞) = 0 ii) F (∞ ) = 1 iii) P(a < X < b) = F (b) − F (a) d FX ( x ) dx v) 0 ≤ F ( x ) ≤ 1 iv) f ( x ) = Demostración. Observación: Dado que para cualquier variable aleatoria continua X. supondremos que una función de ella es también una variable aleatoria.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 18 Definición 2. puede requerirse el estudio de la variable X² a partir del conocimiento que se tenga de X. con función de densidad f. Juan Moncada Herrera – Dpto. Se llama función de distribución acumulada de una variable aleatoria continua X a una función real F: ‘ → ‘ definida por: F ( x) = P( X ≤ x) = ∫ f (t )dt −∞ x donde t es una variable artificial de integración. en una función de ella. de las características de la distribución (de probabilidades) de la variable. Todas ellas dan cuenta. Ejemplo 2. para y>0. por lo que deber la obtención de ésta el primer problema a resolver. las más relevantes por cierto. 3. informan de la capacidad de “concentración” de la información en torno.. En otras palabras. cuando estos se lanzan. entonces el espacio muestral asociado es Ω: {2. Determinar e interpretar E[X].1]. dado que estos valores proporcionan información acerca de la naturaleza de la variable en cuestión. las medidas de posición y las medidas de variabilidad o dispersión.. en alguna forma. ♦ 2. si X es continua con función de densidad f (x). precisamenete. básicamente. Solución. UCTemuco . si X es discreta con −∞ p(x) su función de cuantía asociada. Definición 2. Estas características fijas o constantes son las que se denominan. 3. Solución. X es una variable aleatoria continua con función de densidad dada por fX(x) = 1. Algunas de estas características. Además. conviene aclarar que no es una función de X. Dentro de las medidas numéricas asociadas a una variable aleatoria se tienen. ∀x∈[0.8.. La esperanza de una variable aleatoria corresponde al centro de la distribución de probabilidades de ella. Medidas de Tendencia Central Las medidas de tendencia central asociadas a una variable aleatoria resumen características de centralidad de la variable. Sea X una variable aleatoria que es la suma de las caras de dos dados.xn. por lo que también se le llama promedio o simplemente media.. asociadas a cualquier variable existen ciertas constantes que también la caracterizan. Sea X una variable aleatoria con valores observados x1.. de aquellos valores o medidas. La función de distribución acumulada de X² requiere de la distrubución acumulada de X. como propias de la generalidad de la información. MEDIDAS NUMÉRICAS ASOCIADAS A UNA VARIABLE ALEATORIA La función de densidad de una variable aleatoria continua o la función de cuantía de una variable aleatoria discreta.. dan cuenta de aquellas características que pueden considerarse como típicas. Si X: “suma de las caras de dos dados”. describen completamente el comportamiento de la variable en estudio. Prof.4.5. ... para x = 2. Juan Moncada Herrera – Dpto. Esto es. se presentan en las siguientes definiciones.4. Con esto... Se pide hallar la función de distribución acumulada de X². Sin embargo. Matemáticas y Físicas.. de Cs. E [ X ] = ∫ xf ( x)dx .12. se puede obtener que la función de distribución de Y = X² es f Y ( y) = 1 y . Observación. tres grupos: las medidas de tendencia central.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 19 Ejemplo 2. se define la esperanza o valor esperado de X como: E[X ] = X ∈Rx ∞ ∑ xp( x) . Aplicando definiciones se obtiene que la función de distribución de X es FX(x) = x.12} y su función de probabilidades es p(x) = 6− 7−x 36 . medidas numéricas. sino un número fijo y una propiedad de la distribución de probabilidades de X. genéricamente. x2. Con esto. ♦ Definición 2. Solución. ♦ Ejemplo 2. +∞ Si la pérdida en dinero. si X es continua.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 20 Entonces E ( X ) = ∑ xp( x) = 2( x =2 12 1 36 2 2 1 ) + 3( 36 ) + . y a. esta última integral es = 25Γ(3) = 25 · 2! = 50 Luego la pérdida esperada por reparación es de 50 unidades monetarias.5 ) = 1 . La moda de una variable aleatoria X es el valor Xm que maximiza la función de probabilidades si X es discreta. ♦ Proposición 2. el valor esperado buscado es: p ( x) = 1 e 5 x (− 5 ) E[X ²] = ∫ x 2 1 e 5 0 +∞ x (− 5 ) x dx = ∫ ( 5 ) 2 5e 0 ∞ x (− 5 ) x x dx = ∫ 25( 5 ) 2 ( 5 ) 2 e 0 ∞ x (− 5 ) x d(5) La última integral es una función gamma (ver Temas Complementarios para más información sobre esta función).. Se requiere determinar e interpretar el valor esperado de las pérdidas por reparación. entonces la pérdida es X2. de Cs. Entonces la esperanza satisface las siguientes propiedades: ii) E [k ] = k i) E [aX ] = aE [ X ] iii) E [ X + k ] = E [ X ] + k iv) E [aX + b ] = aE [ X ] + b Demostración: Se dejan de ejercicio.. es igual al cuadrado del número de horas utilizadas en la reparación. . i) La moda de una distribución puede no existir. Juan Moncada Herrera – Dpto.. Para una variable aleatoria X si existe un número X0. Específicamente en este caso. si X es discreta... Matemáticas y Físicas.4.6.9. Si X es el tiempo necesario para reparar una pieza. + 11( 36 ) + 12( 36 ) = 7 Esto significa que al lanzar dos dados.5 ) ≤ 1 ∧ P( X ≤ X 0.. o bien 2 2 PX ≤ X 0. de un equipo utilizado en un proceso de manufactura. b y k constantes reales cualesquiera. el valor esperado es 7.5 tal que: P( X < X 0. UCTemuco . Observaciones. Sea X una variable aleatoria. 2 entonces X0. Se sabe que el tiempo necesario para reparar una pieza. Definición 2.10. es una variable aleatoria X cuya función de densidad está dada por: con x = 0. ii) Si X es continua la moda es la solución de df ( x ) dx =0 si d 2 f ( x) d 2x <0 Prof..5 ) ≥ 1 . o la función de densidad si X es continua.5 se llama mediana de la distribución de X. PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 21 De lo contrario, si la segunda derivada es positiva, el valor recibe el nombre de antimoda. iii) Si existe más de una moda, la distribución de probabilidades recibe el nombre de multimodal. Medidas de posición Aunque una medida de tendencia central, adecuada y pertinente, naturalemente, puede proporcionar mucha información acerca de una variable, generalmente será necesaria alguna otra información para completar el conociento que sobre la variable se busque. Entre distintas posibilidades o alternativas se tienen a las medidas de posición. Como su nombre lo indica, resumen características de ubicación o de posicionamiento, relativo, de los valores de la variable. De entre estas medidas, resumimos aquí las más importantes y usuales. Valores extremos Las medidas de posición más elementales son el máximo y el mínimo, que corresponden a los valores máximo y mínimo, respectivamente, de la variable. Percentiles Un percentil de orden α, denotado qα , es un valor (puede ser un valor de la variable, o bien no) tal que la probabilidad acumulada hasta qα es α. Entre estas medidas, las más utilizadas son los cuartiles, que son percentiles de orden α = 0.25, α = 0.50 y α = 0.75. Hay, por tanto, tres cuartiles, que denotaremos por Q1, Q2 y Q3. Otros percentiles muy utilizados son los deciles, nueve mediciones D1, D2, ..., D9 que particionan la distribución en 10 clases o grupos con la misma cantidad de información. Resulta simple visualizar que algunos de los percentiles coincidirán, ya sea con los cuartiles o con los deciles, por lo que generalmente son ellos los que se utilizan. Medidas de Variabilidad Si bien las medidas de tendencia central o de posición pueden constituir un adecuado resumen de la información contenida en una variable, por lo general ese resumen será insuficiente hasta que no se utilice una medida de la dispersión de la información. Esto es, parece muy necesario conocer cuán dispersa se encuentra la información para que, junto a su tendencia central, se tenga un resumen lo más pertinente y completo posible. Algunas de estas medidas se presentan en lo que sigue. Definición 2.11. El rango de una variable aleatoria X es la diferencia entre máximo y mínimo. El rango, que denotaremos como R(X), es una medida de dispersión muy elemental, aunque en ocaciones puede ser suficiente para formarse una idea de la dispersión de la información. Por ejemplo, si la variable corresponde a calificaciones, en la escala de 1 a 7, el rango puede ayudar a la interpretación o resumen de esa información. Sin embargo, una de las más importantes medidas de dispersión es la varianza, que se define en la siguiente definición. La varianza es una medidad del grado de dispersión de la información de una variable en torno a su media. Por este hecho, mide cuán alejadas están las observaciones del centro de la distribución. Definición 2.12. Supuesta la existencia de E[X], se define la varianza de una variable aleatoria X, denotada por Var[X] o σ2 , como: Var[ X ] = E[( X − µ X ) 2 ] = E[ X 2 ] − E 2 [ X ] Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 22 Observación. A la raíz cuadrada de la varianza de X, σ, se le llama desviación estándar de X, o desviación típica de X. Proposición 2.5. Sea X una variable aleatoria con media µ y varianza σ2X , y sea k un número real cualquiera. Entonces: i) Var[k] = 0 ii) Var[X + k] = Var[X] iii) Var[kX] = k2 Var[X] Demostración: Se dejan de ejercicio. ♦ El proceso de estandarización El proceso de estandarización es un procedimiento mediante el cual se transforma una variable aleatoria a objeto de anular algunos efectos que en la interpretación pueden tener ciertas medidas. Esto cobrará especial importancia en las aplicaciones relativas a distribuciones comunes, que se tratarán más adelante, y en el capítulo sobre estadística descriptiva de la Unidad 2. Formalmente corresponde a la transformación X → X −µ σ , donde X es una variable aleatoria con media µ y desviación típica σ. La resultante de esta transformación se llama variable estandarizada o variable tipificada. La transformación definida por X–µ se llama centrado, mientras que la definida por X/σ se llama reducción. En el primer caso, la variable obtenida es una variable centrada, mientras que en el segundo caso, la variable obtenida es una variable reducida. Una variable estandarizada es, entonces, una variable centrada y reducida. El efecto de esta transformación se traduce en una variable aleatoria con media 0, desviación típica 1 y a–dimensional. En efecto, la característica de a–dimensional es evidente, y, por otra parte, aplicando las proposiciones 2.3 y 2.4, se tienen las otras dos características. Por la importancia de estas últimas, las enunciamos formalmente en la siguiente proposición: Proposición 2.6. Si Z es una variable estandarizada, entonces E[Z] = 0 y Var[Z] = 1. Demostración. Se deja como ejercicio. ♦ Desigualdad de Tschebyshev Las relaciones y propiedades relativas tanto a medidas de centralidad como a dispersión, sólo ponen de manifiesto características matemáticas, no por ello importantes, pero no proporcionan una forma de interpretación eficaz, salvo elementales apreciaciones. Por ejemplo, es evidente que si una variable aleatoria tiene una varianza nula, entonces esa variable es una constante, y por tanto toma siempre el mismo valor. Con un análisis generalizador, se puede decir que mientras más cercano a cero se encuentre el valor de la varianza, entonces más similares son los valores de la variable. Específicamente, serán más parecidos o similares a la media, ya que la varianza mide la dispersión de los valores de la variable respecto de la media. De cualquier modo, parece ser que un resumen de la información contenida en la variable pasa por conocer al menos dos tipos de medida: de centralidad y de dispersión. Uno de los resultados, en probabilidades y en estadística, más importantes en este sentido es la Desigualdad de Tschebyshev. Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 23 Teorema 2.1. (Desigualdad de Tschebyshev). Sea X una variable aleatoria con distribución con media µ y varianza σ². Para una cosntante mayor que 1 k, se tiene P[| X − µ |≤ kσ ] ≥ 1 − 1 k² k² El teorema establece que, para una variable aleatoria X, la información contenida dentro del intervalo real [µ– kσ ; µ+kσ], para una constante adecuada k, es al menos el (1 − 1 )100% . Demostración. ∞ Si f(x) es la función de densidad de X, entonces σ 2 = E[( X − µ ) 2 ] = −∞ ∫ (x − µ) 2 f ( x)dx . Puesto que el integrando es no negativo, el valor de la integral sólo puede disminuir cuando el intervalo de integración se reduce. Por lo tanto: σ2 ≥ x− ∫ (εx − µ ) µ ≥ 2 f ( x )dx ≥ x− ∫ εε µ ≥ 2 f ( x )dx =ε 2 ∫ x − µ ≥ε f ( x)dx Dado que x − µ ≥ε ∫ f ( x)dx = P (| X − µ |≥ ε ) , entonces P( X − µ ≥ ε ) ≤ σ2 . ε2 ♦ 2.5. EJERCICIOS Y PROBLEMAS 1. Una empresa que arrienda equipos para la tala de bosques, estudia la frecuencia con que son utilizadas sus máquinas. Según los registros la demanda diaria de la máquina 3, MQ3, que es la máquina más utilizada, fluctúa entre 0 y 3 veces por día, con probabilidades respectivas de 10%, 50%, 25% y 15%. a. Indicar claramente cuál es la variable aleatoria X asociada al caso y definir explícitamente la función de cuantía. b. Calcular la probabilidad de que la máquina MQ3 sea requerida al menos 2 veces al día. c. Calcular la probabilidad de que la máquina no sea requerida en un día cualquiera. d. Calcular e interpretar E[X]. e. Calcular e interpretar SX. 2. Una máquina utilizada para eliminar la humedad de cierta variedad de plantas, posee 6 quemadores, de los cuales 2 están defectuosos. Si se seleccionan al azar dos de estos quemadores, extraídos de la máquina e inspeccionados, y si definimos la variable aleatoria X: número de unidades defectuosas observadas, obtener: a. P(X > 2) b. P(X < 1) c. La función de distribución acumulada d. Calcular e interpretar E[X] e. Calcular e interpretar SX. 3. Las ventas X de un determinado producto se modelan de acuerdo a la siguiente función: 1  x; x = 1,2,3,4 p( x) = 10  0 e.o.c.  a. Hacer la gráfica de la función y demostrar que es una función de cuantía. b. Calcular e interpretar E[X] c. Calcular e interpretar SX. Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco 4 d) E[ X ] = 1 3. 2. UCTemuco . c. b. de Cs. Calcular la probabilidad de que el primer cliente llegue antes de media hora. de la llegada del primer cliente a un parque. Se tiene información sobre el tiempo X.25 Prof. Juan Moncada Herrera – Dpto. c) P( X< 0.45 ≈ 1. Solución a algunos problemas propuestos 1. 0 ≤ x ≤ 1 f ( x) =  e. 0 a. b) P ( X ≥ 2) = 0. b) P ( X < 1) = 0. Defina la variable aleatoria. lo cual significa que la demanda promedio de la máquina es de 1 vez al día.5) = 0.o.c. b) E[ X ] = 1 4. Matemáticas y Físicas.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 24 4. cuya función se define como: 2 x.4 a) E[ X ] = 1. en horas. Demostrar que la función corresponde a una función de densidad. dependiendo sólo de un parámetro. por ejemplo. Matemáticas y Físicas. UCTemuco . y que podríamos nominar "éxito" y "fracaso". su función generadora de momentos. existen muchas variables aleatorias para las que. también tiene una distribución de probabilidades que. 3. de Cs. En síntesis. tendrá siempre la misma distribución de probabilidades (cara → ½. la variable aleatoria definida como el número de "caras" que resulta al lanzar una moneda regular. es necesario conocer sólo un par de elementos de tal función (elementos que llamamos parámetros). La variable definida como el número de accidentes que ocurren en un cruce transitado. matemático suizo que vivió hacia la última mitad del siglo XVII (1654–1705)) a todo experimento que tiene sólo dos posibes resultados. Reconocer y aplicar modelos discretos comunes en situaciones concretas. Estudiar y aplicar correctamente propiedades asociadas a algunos modelos discretos conocidos. 6. sello → ½).1. la distribución es siempre de una misma clase.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 25 Capítulo 3 ALGUNOS MODELOS DISCRETOS DE PROBABILIDADES Objetivos del capítulo: 4. genéricamente llamados "éxito" y "fracaso". ENSAYOS BERNOULLI Se llama Ensayo Bernoulli (llamado así a este tipo de experimentos en honor de Jackes Bernoulli. Así por ejemplo. 5. etc. en los que la unidad de observación se clasifica en "defectuosa" o "no defectuosa". entonces la distribución de probabilidades de la variable será "cara → p. sello →(1-p)" Esto último generaliza la situación del lanzamiento de una moneda a experimentos en los que los únicos dos posibles resultados son de naturaleza excluyente (y también independientes uno de otro). son el tema central de este capítulo. casi siempre tendrá una distribución de probabilidades que depende de dos parámetros (esta distrubución se verá más adelante). Juan Moncada Herrera – Dpto. Más general aún: si la probabilidad con que aparece una "cara" fuese igual a p. y la variable es Número de artículos defectuosos (o no defectuosos). En este tipo de experimentos (y por lo tanto. o más propiamente llamadas distribuciones. Valorar la importancia de la modelación en la comprensión y control de ciertos fenómenos empíricos. bajo ciertos supuestos. conocido el experimento aleatorio que la genera y sus parámetros. será siempre del mismo tipo. que será conocida totalmente en cuanto se conozca p. variables) podemos tener procesos de control. se sabe que una distribución de probabilidades es conocida cuando se conoce su función de probabilidades (de cuantía o de densidad). Algunas de estas variables. Por otra parte. Tal es el caso de la distribución anterior. además. La variable aleatoria asociada a este Prof. su distribución acumulada. Muchos experimentos o fenómenos aleatorios derivan en una variable aleatoria con una distribución de probabilidades típica o característica. La variable definida como "Edad de la persona" en un grupo de personas. En todos esos casos. determinar la probabilidad de que. de 4 piezas escogidas al azar: a) 1 sea defectuosa b) Más de dos sean defectuosas c) Determinar e interpretar E[X]. Cada ensayo tiene sólo dos posibles resultados ("éxito" ó "fracaso").p). por lo tanto esta variable aleatoria será una variable que se ajusta a un modelo Prof. Formalmente. y de parámetros n y p. e igual a p. p(x) = px(1–p)1-x. Determinar E[X]. Si p es la probabilidad de éxito. Para la variable aleatoria X puede obtenerse fácilmente la media.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 26 tipo de experimentos se define como Número de éxitos en el ensayo (notar que X es discreta).1. varianza. Solución. Si X es una variable aleatoria con distribución Bernoulli de parámetro p. entonces podemos anotar: p(0)=1–p y p(1)=p. Solución. o simplemente distribución binomial. si X es la variable correspondiente. Matemáticas y Físicas.2. digamos X. la variable en estudio sólo tiene dos posibles resultados. Esta distribución es muy aplicada en procesos de control de calidad y todos aquellos fenómenos que resultan de una suma de ensayos del tipo Bernoulli.1. Además. El experimento consta de n ensayos Bernoulli estadísticamente independientes. Más aún. anotaremos X~Ber(p). una variable aleatoria con distribución binomial corresponde a la suma de n variables aleatorias con distribución Bernoulli. Alternativamente. E[X] = Σxp(x) = 0·p(0) + 1·p(1) = 0·(1–p) + 1·p = p. se anota X ~ bin(n. x = 0. si la probabilidad de observar un éxito (X=1) es p. es: n p ( x ) =   p x (1 − p ) n − x . y todas las otras características asociadas. se puede probar que la función de probabilidades (o función de cuantía) de la variable. Es frecuente simbolizar la probabilidad de fracaso 1–p por q. Para indicar que X es una variable aleatoria con distribución binomial. ♦ 3. Si el 20% de las piezas producidas por una máquina son defectuosas. se define como el número de éxitos observados en n ensayos Bernoulli independientes. para x = 0. de Cs.1. LA DISTRIBUCIÓN BINOMIAL La variable aleatoria binomial.2. La probabilidad de éxito en cada ensayo es la misma. L . De esta manera. 2. Juan Moncada Herrera – Dpto. Sea X~Ber(p). Ejemplo 3.2. entonces X=0. 3. n  x   Notar que los parámetros de esta distribución son n y p. Como las piezas producidas por la máquina pueden ser o no defectuosas. UCTemuco .1. Ejemplo 3. un experimento binomial debe cumplir con los siguientes supuestos: 1. el número de cuerpos celestes en un volumen cósmico. Los eventos ocurren de manera independiente. b) E [ X ] = λ = 5 .9728 = 0.a. b) Calcular e interpretar E[X].0272 . c) E[ X ] = np = 4(0. la probabilidad de que se reciban más de 7 llamadas es de un 13% aproximadamente. los dos parámetros que definen la distribución son: n = 4 y p = 0. y muy a modo de ejemplo. 2.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 27 binomial. Solución. se encuentren más de 2 defectuosas es de un 3% aproximadamente.2) = 0. así el número esperado de piezas defectuosas en muestras de tamaño 4 es de 1 aproximadamente. Entre ellos. Teóricamente es posible que el evento pueda ocurrir infinitas veces en el intervalo.2) = 1 − 0. con distribución de Poisson de parámetro λ. de Cs. Así: a) P( X > 7 ) = 1 − P( X ≤ 7 ) = 1 − p (7. quien la introdujo en 1837. a una tasa constante λ. etc. 3.K x! Notar que esta distribución tiene sólo un parámetro: λ. Si X es una v. Así X: “número de piezas defectuosas”. a) Calcular la probabilidad de que se registren más de 7 llamadas en un minuto. ♦ 3. UCTemuco . Prof.2.1. así la probabilidad de que en una muestra de 4 piezas. Matemáticas y Físicas.5) = 1 − 0. entonces λ = 5 x minuto.3. el número de bacterias en un cultivo.3.2. Si X es el número de ocurrencias de un evento aleatorio en un intervalo de tiempo o espacio (o volumen).21 (1 − 0. que: 1. Si se define la variable aleatoria X: “número de llamadas recibidas” y se advierte que sigue un modelo poisson.2) 4 −1 = 0.0. Ejemplo 3. b) P( X > 2) = 1 − P( X ≤ 2) = 1 − b(2. Puede observarse. x = 0. especialmente en Biología y Medicina. Tiene grandes aplicaciones en variados campos.8666 = 0. entonces se anota X ~ c(λ). a partir de la definición. así la probabilidad de que en una muestra de 4 piezas se 1   encuentre 1 defectuosa es de aproximadamente un 41%. la probabilidad que ocurran exactamente x eventos por unidad de tiempo o espacio (volumen) está dada por: p( x) = e −λ λx . La probabilidad que ocurra un evento en un intervalo es proporcional a la longitud del intervalo Son muchas las aplicaciones que tiene la distribución de Poisson.8 . cuyo nombre se debe al matemático francés Simeon Denis Poisson (1781–1840). LA DISTRIBUCIÓN DE POISSON La distribución de Poisson es otra distribución discreta. Juan Moncada Herrera – Dpto. Luego.4096 . como representación estadística de fenómenos. el número de llamadas que circulan por una red de transmisión. En la central telefónica de cierta empresa se reciben en promedio 5 llamadas por minuto.1334 .4. especialmente de tipo físico–biológico. el número esperado de llamadas por minuto es de 5. Así:  4 a) P ( X = 1) =  0. N. p ) = . cuando el número de ensayos Bernoulli es muy grande (ya sobre 30 ó 40). mediante la distribución de Poisson.L lim x! n→∞ p →0 Demostración. con parámetro λ = np. específicamente de límite. P[X ≤ 1] = 0. pero ellos conducen a otra distribución de probabilidades: la distribución Hipergeométrica. no aportan mayormente a la comprensión de los conceptos probabilísticos en estudio. Así. de Cs. En estas condiciones. P[X ≤ 1] implica el cálculo de grandes factoriales.0175. Por otra parte. Demostraciones pueden encontrarse en la bibliografía sugerida en el anexo.4. la que se formula en el siguiente teorema: Teorema 3. Su función de probabilidades es: Prof.1. k de las cuales poseen cierta característica (y N . Considérese una población de N unidades de observación. Sus parámetros son.k (fracasos). Pero admitiendo que n = 200 es grande y que p = 0. como se habrá notado. el teorema establece que en una situación límite (n → ∞. a nuestro juicio.001 es pequeño. n y k. de entre 200.4.001). LA DISTRIBUCIÓN HIPERGEOMÉTRICA Cuando se hacen extracciones con reposición los resultados son independientes. Esta distribución se relaciona con experimentos con dos o más resultados. X ~ bin(n=200. en una muestra aleatoria de tamaño n. y habitualmente las tablas de probabilidades para la binomial no porporcionan éstas para un p tan pequeño como 0. Pero P[X ≥ 2] = 1–P[X < 2] = 1–P[X ≤ 1]. ♦ En términos prácticos. conducen a la distribución binomial. entonces: λx e − λ p( x. se puede utilizar la aproximación anterior y resolver el problema usando como distribución aproximada de X una distribución c (λ = 200(0. Juan Moncada Herrera – Dpto.2). Ejemplo 3. observado la tabla de probabilidades de la distribución poisson. cada elección subsecuente es dependiente y la probabilidad de éxito cambia en cada extracción. p → 0) la fórmula de la distribución binomial es la función de probabilidades de una variable Poisson. en estricto. por lo que este tipo de experimentos. La demostración requiere de algunos resultados alegebraicos que. p=0. UCTemuco . determinar la probabilidad que de 200 personas 2 o más sufran la reacción. ♦ 3. Si se hace una elección aleatoria de una unidad en esta población. Matemáticas y Físicas.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 28 Aproximación de la Distribución Binomial por medio de la Distribución de Poisson Como se habrá advertido. Experimentos en los que la extracción o selección de la unidad de observación es sin reposición son también de gran importancia. Sea X una variable con distribución binomial de parámetros n y p. el uso de la relación funcional para calcular probabilidades binomiales se hace casi imposible.001.1. Este problema de cálculo puede resolverse usando una ley de aproximación de esta distribución. x = 0. entonces. si deseamos obtener x unidades del tipo k (éxitos). el número de éxitos en esta situación se llama variable aleatoria hipergeométrica. P[X ≥ 2]. el resultado debe ser una de las k (éxitos) o una de las N . esto es. n. Lo que se pide es la probabilidad que X≥2. También requiere de algunos resultados de cálculo.k no la poseen). en los que la probabilidad de éxito cambia de ensayo a ensayo (no hay independencia).001) = 0. Pero si se hacen n selecciones al azar. si X es el número de personas que sufren una reacción desfavorable por una inyección de suero. Solución: En realidad. Si la probabilidad que un individuo sufra una reacción desfavorable por una inyección de cierto suero es de 0.001. Si existe una constante λ tal que p = λ/n. sin reposición. a. Algunos ejemplos pueden ser el número de varones que forman parte de un comité de cinco. demostrar que E[X] = np y que Var[X] = np(1-p). Si dos variables aleatorias se distribuyen conforme a un modelo Poisson. Una empresa de la zona se dedica a la crianza de una especie particular de llamas. ¿Cuál es la probabilidad de que el número de individuos que no sobrevivan al proceso de crecimiento exceda los 10 individuos? b.5.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 29  k  N − k     x  n − x    . para mercados extranjeros. Para una variable aleatoria X ~P(λ). Se pide P[X = 1].0 ≤ x ≤ n ≤ N p ( x) =   N     n Los experimentos que dan como resultado una variable con esta distribución incluyen. 3. Matemáticas y Físicas. UCTemuco . con N = 10. de Cs.  4 10 − 4        Pero P[X = 1] =  1  3 − 1  = 0. el conteo del número de "éxitos" en una muestra tomada de un lote pequeño. vendidos en tres operaciones en un almacén en el que había dos sistemas marca A y cuatro sistemas marca B. ¿puede concluirse que la suma de ellas sigue el mismo modelo? 4. Juan Moncada Herrera – Dpto. explique su resultado. EJERCICIOS Y PROBLEMAS 1. El grupo contiene 4 personas con sangre tipo A y 6 con tipo B. o bien. n = 3 y k = 4. deducir las relaciones E[X] = λ y Var[X] = λ. Lamentablemente no se tiene información respecto de el número de individuos que mueren en el proceso de crecimiento.p). 2. ¿Cuál es la variabilidad dentro de la cual debiera fluctuar el número de individuos muertos?. Si X ~ bin(n. y son independientes. a. generalmente. Ejemplo 3. Calcular las probabilidades que una muestra de tres yardas cuadradas tenga al menos un defecto.1 ♦ 10    3   3. ¿Cuál es la probabilidad que una muestra aleatoria de 3 contenga 1 persona con sangre tipo A? Solución: Notemos que la variable tiene distribución hipergeométrica. En un estudio biológico se emplea un grupo de 10 individuos. seleccionados al azar entre veinte empleados. el conteo de sistemas de alarma marca A. Si se extrae una muestra de 25 individuos. b. Sólo se sabe que en promedio mueren alrededor de 8 individuos.5. Calcular la probabilidad que una muestra de una yarda cuadrada tenga por lo menos un defecto. Prof. El número de imperfecciones en el tejido de una tela tiene distribución de Poisson con un promedio de 4 (imperfecciones) por yarda cuadrada. 5.0 ≤ x ≤ k ≤ N . d. P(X = 1) = 0. c) Var[X] = 2. se descubre un promedio de 0. c. A lo mucho una imperfección en 15 minutos. Matemáticas y Físicas. Calcular las probabilidades de encontrar: a.3011 Prof. b) P(X = 1) = 0. es decir el número de muertos debiera variar en. si existen 3 en todo el lote? Solución a algunos problemas propuestos 5.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 30 6.33. ¿Cuál es la probabilidad de que exactamente 1 defectuoso se encuentre en la muestra. aproximadamente. Juan Moncada Herrera – Dpto. Ninguna imperfección en un minuto dado. Al menos dos imperfecciones en 5 minutos. 7. Al inspeccionar la aplicación de cobre en un proceso productivo continuo. 2 individuos en torno al valor promedio. 6. UCTemuco . 7. b. los que se consideran aceptables si no contienen más de 3 defectuosos.23 aproximadamente.2 imperfecciones por minuto.66.33. En una empresa se arman lotes de 40 componentes cada uno. de Cs. a) P ( X > 10) = 0. Una imperfección en tres minutos. dado que λ en este caso es 0. El procedimiento de muestreo del lote consiste en seleccionar 5 componentes aleatoriamente y rechazar el lote si se encuentra un componente defectuoso. el costo esperado es E[C] = co + c1 31 . un sistema de cómputo se detiene hasta que se entregue una tarjeta nueva. Este capítulo trata. etc. ♦ 3 Prof.b ) ( x ) . Cuando deja de funcionar una tarjeta de circuito integrado. El tiempo de entrega X está uniformemente distribuído en el intervalo de uno a cinco días.b) supone que cada valor es igualmente probable. hay muchos fenómenos que pueden "modelarse" por medio de una distribución de probabilidades de una variable continua. 5 Solución: Lo que se pide es E[C] = co + c1E[X2].b) la función de densidad de una variable aleatoria con distribución uniforme 1 está dada por f ( x) = I ( a . Estudiar y aplicar correctamente propiedades asociadas a algunas distribuciones continuas conocidas.). LA DISTRIBUCIÓN UNIFORME Es sin duda la distribución continua más simple. 9. x =1 4 3 Por lo tanto. Sus aplicaciones van desde modelar el tiempo de llegada de un autobus a una estación de terminal. Al igual que en la caso discreto.).b) se usa la notación X ~ U(a. En un intervalo (a. de la edad en un grupo particular de personas (también la estatura. Particularmente. de modo que C = co + c1X2 . de Cs. 4. incluidos fenómenos con determinada distribución. En el intervalo real (a. b−a Para indicar que X se distribuye uniformemente en (a. el tiempo de falla de ciertas piezas electrónicas. etc.1. el peso. biológicos. de algunos de estos modelos. Se presentan conceptos. entonces E[ X 2 ] = ∫ x 2 1 dx = 31 . precisamente. UCTemuco . Valorar la importancia de la modelación en la comprensión y control de ciertos fenómenos empíricos. etc. Calcular el costo esperado de una determinada falla del componente. Por esto último. por ejemplo. Pero como X~U(1.5). En general. hasta la simulación por computadora de determinados fenómenos. suelen modelarse adecuadamente por medio de distribuciones continuas muchos fenómenos naturales (físicos. Ejemplo 4. 8. ejemplos ilustrativos y algunas situaciones prácticas para el reforzamiento y aplicación por parte del alumno. o más propiamente llamados distribuciones.b). la distribución uniforme es la base de los sitemas computacionales de simulación. Tal es el caso. Reconocer y aplicar modelos continuos comunes en situaciones concretas.1. Juan Moncada Herrera – Dpto. hay infinidad de experimentos a los que se les puede asociar una variable de tipo continuo. el tiempo de espera en una oficina de atención a público.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 31 Capítulo 4 ALGUNOS MODELOS CONTINUOS DE PROBABILIDADES Objetivos del capítulo: 7. El costo C de esa falla y la parada comprende un costo fijo co de la refacción y un costo que aumenta en forma proporcional a X2. Matemáticas y Físicas. d. Los parámetros µ y σ determinan en forma completa la distribución de probabilidades de una v. En el caso discreto. absolutamente contradictorias en algunos casos. tales como la estatura de las personas de una determinada población. entonces este experimento se puede modelar por la distribución de una v. En general. De Moivre descubrió la fómula de la Distribución de Probabilidades de una v.2. y la función de distribución de probabilidades es la siguiente: f ( x | µ.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 32 4. existe un número relativamente grande de fenómenos que se pueden modelar por una variable aleatoria discreta. por ejemplo. mediciones relacionadas con datos meteorológicos. Ello ha dado origen al estudio de una similar variedad de variables aleatorias estrechamente relacionadas con tales fenómenos. como se ilustra en la figura siguiente. sin duda la más importante es la llamada variable aleatoria normal. al llevar a cabo mediciones físicas. de Cs. discreta que se reconoce como Distribución Binomial. Después la estudió Laplace. b. y en 1809 Gauss la citó en uno de sus artículos. las conclusiones obtenidas pueden distar mucho de la realidad. Los valores x = µ ± σ son las abcisas de los dos puntos de inflexión de la curva. han demostrado que se pueden modelar por una determinada distribución de probabilidades. σ > 0 . repetidos un número grande de veces. Un estudio elemental de cálculo aplicado a esta función lleva a establecer las siguientes conclusiones: a. Durante el siglo XIX se empleó de manera extensa por científicos que habían notado que los errores. El gráfico de f tiene forma de campana. indistintamente se habla de variable aleatoria normal o de distribución normal. el número de hojas en una clase de plantas. mediciones efectuadas en organismos vivos (animales o vegetales). Todas estas características configuran una forma gráfica muy particular de la función de densidad de una variable aleatoria normal. debe tenerse mucho cuidado al suponer una distribución normal. bastando esto para que también se la conozca como Distribución Gaussiana. mediciones físicas de partes manufacturadas. El lanzamiento de una moneda es uno de los más clásicos fenómenos (experimentos) cuya distribución de probabilidades obedece a una regla bien específica.a. En 1733.σ ) = 1  −1  exp  (x − µ)2  2π σ  2σ ²  para − ∞ < x < ∞. normal. Sin temor a equivocarnos en el uso del lenguaje. se pueden estudiar diversas variables. frecuentemente seguían un patrón que sugería la distribución normal. El máximo de f se obtiene en x = µ c. El siguiente es un gráfico típico de este tipo de densidades (los de la familia Prof. Sin embargo. UCTemuco . De entre todas las variables aleatorias con una distribución de probabilidades conocida. Esta distribución se caracteriza por dos parámetros. Si el experimento consiste en lanzar 20 veces la misma moneda. Juan Moncada Herrera – Dpto. ciertos test de habilidad o inteligencia. LA DISTRIBUCIÓN NORMAL Existe una gran variedad de fenómenos que. Matemáticas y Físicas. ya que de no ser así. Por medio de este modelo (el modelo normal). Normal. y ser.a. por lo tanto.−∞ < µ < ∞. pueden ser estudiadas como parte de esta distribución. el ritmo cardíaco en personas sin afecciones importantes aparentes.a. la velocidad del flujo sanguíneo. El gráfico de f (la densidad de la normal) es simétrico respecto a la recta x = µ. la llamada Regla de Bernoulli. la cantidad de árboles de cierta especie en un área específica. µ y σ. σ ) = ∫ x −∞ 1  −1  exp ( y − µ ) 2 dy 2π σ  2σ ²  Esta integral no puede evaluarse en forma cerrada. por definición. Demostración. Teorema 4. como se verá posteriormente. Se espera. Si X es una variable aleatoria Normal. que él (el histograma) presente una forma aproximada a la de la figura anterior. Esto es importante tener en cuenta. por lo que se deja su revisión en algunos de los textos sugeridos en el anexo. el histograma de un conjunto de observaciones puede resultar realmente útil en el diagnóstico de normalidad. Por su forma de campana. Matemáticas y Físicas.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 33 normal). UCTemuco . Probabilidad acumulada como área bajo la curva Prof. σ²).1. En este sentido. entonces E(X) = µ y Var(X) = σ². Juan Moncada Herrera – Dpto. bajo normalidad. usando métodos numéricos. La demostración requiere el uso de coordenadas polares y algunos resultados de álgebra lineal. En la figura siguiente ilustra la relación entre probabilidades acumuladas de la distribución normal y áreas bajo la curva de densidad de la variable. pero sí se pueden encontrar valores aproximados para ella. Curva típica de una función de densidad Normal El gráfico de la normal (o por lo menos su apariencia) es uno de los primeros elementos de diagnóstico de normalidad (o no-normalidad) de un conjunto de datos. y en honor a Gauss. a esta familia de curvas se le conoce también con el nombre de campana de Gauss.σ) ó bien X ~ N(µ . de Cs.♦ Función de Distribución Acumulada La función de distribución acumulada de la normal corresponde.σ). entonces se anota X ~ N(µ . ya que es de fundamental importancia en la Inferencia Estadística. con parámetros µ y σ. a P[X ≤ x] = F(x) y está dada por la integral F ( x | µ . Si X ~ N(µ . La figura siguiente muestra la región asociada a la probabilidad normal estándar calculada. o bien n(1-p) > 5 y p > 0.5). b²σ²). es de suponer que la distribución normal satisface un número importante de propiedades. (De De Moivre–Laplace): Sea X~bin(n. Matemáticas y Físicas. la evaluación de P[X ≤ x] se hace imposible. De la Tabla. σ²). Prof. Sea X una variable aleatoria que representa la inteligencia medida por medio de pruebas CI. Además. y es una importante relación de cálculo.p).5) = Φ(-1. Entonces Y = X − np ~ N (0. Juan Moncada Herrera – Dpto.0668. Sea X ~ N(µ .2. Demostración. hallar las probabilidades que X sea menor que 85. Si X ~ N(100. de Cs. Este hecho se expresa en términos generales como Φ(z) = 1 – Φ(–z).5) La región achurada en la parte de la derecha del gráfico muestra la equivalencia. La variable estandarizada correspondiente se denota por Z y recibe el nombre de variable aleatoria normal estándar.5.5) y 1 – Φ(1. Este valor se encuentra en tablas. UCTemuco . Solución: Lo que se pide es P(X < 85). y a continuación enunciamos algunas de ellas. Pero esto es equivalente a calcular: P[( X-100)/10 < (85-100)/10] = P(Z<-1. gracias a la simetría. entre Φ(–1. Así es efectivamente. el valor aproximado es 0. Gráfico mostrando Φ (-1. Teorema 4. Para la demostración consultar la bibliografía indicada en el anexo. Su función de distribución acumulada.1) ⇐ n ← ∞ np(1 − p) Observación: La aproximación sugerida es cuanto mejor si np > 5 y p ≤ 0.5). denotada por Φ(z) = P(Z ≤ z). estos mismos valores se encuentran implementados en la mayoría de los Software que se relacionan con elementos estadísticos. ♦ Algunas Propiedades De La Distribución Normal Por su naturaleza y sus múltiples aplicaciones.1. visto en el capítulo 3 de la unidad 1. y en muchas calculadoras de tipo científico.5. ♦ Proposición 4. Ejemplo 4.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 34 La Variable Aleatoria Normal Estándar Como existe un número infinito de combinaciones de valores de µ y σ. Sin embargo esto puede simplificarse mediante el proceso de estandarización. se encuentra extensamente tabulada para un gran número de valores de Z (una muestra de esta tabulación se encuentra en el anexo). Entonces Y = a + bX ~ N(a + bµ .1. o se puede obtener por medio de alguna aplicación computacional. 10). σi²).∀i y ai∈ℜ. de Cs. a la hora de modelar fenómenos como los descritos a propósito de la distribución exponencial. LA DISTRIBUCIÓN GAMMA Un tipo o modelo de distribución más general que el modelo exponencial. entonces ∑a X i i ~ N (∑ ai + ∑ µ i . ∑ ai2σ i2 ) Demostración. frecuentemente se interesa en la longitud del intervalo de tiempo entre los arribos de vehículos a un punto. y continuando con situaciones ilustrativas. Si {Xi} es una muestra aleatoria tal Xi~N(µi. LA DISTRIBUCIÓN EXPONENCIAL Aunque la distribución normal tiene aplicaciones en múltiples campos o áreas de estudio. Se deja de ejercicio. que denotaremos por Ε(λ). la función de densidad de la distribución exponencial es θ f ( x) = 1 θ e −x θ . En símbolos. particularmente. Juan Moncada Herrera – Dpto. el ingeniero de transporte que observa el flujo de tráfico. X i ~ N ( µ i . Este tipo de comportamientos puede modelarse adecuadamente por una distribución llamada exponencial. Dada la estacionariedad y la independencia de los procesos Poisson.2. precisamente. σi²) independientes (muestra aleatoria). Por ejemplo. Por ejemplo. donde Y es una variable aletoria de Poisson con parámetro λx. De aquí se deduce que la función de densidad de X está dada por: f ( x) = λe − λx . Esto define la distribución exponencial. FX ( x ) = 1 − e − λx . pueda ser modelado por medio de esta distribución.x ≥ 0. Matemáticas y Físicas. x ≥ 0 . Esto es.3. comience o no en cero. e-λx es la probabilidad de que no ocurra ningún suceso en un intervalo cualquiera de tiempo de longitud x. si un intervalo es demasiado corto. Por lo tanto es una distribución continua. Entonces la probabilidad que X >x es equivalente a que en el intervalo de tiempo de longitud x no ocurra evento Poisson alguno.1. se detenga o interrumpa el flujo. Si {Xi} es una colección de variables aletorias N(µi . mismo que ocurre a una tasa constante λ. muchas tendrán una vida cercana al promedio. Su función de densidad viene dada por: Prof.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 35 Demostración. En este contexto. ♦ Proposición 4. Se sugiere usar inducción y aplicar proposición 4. normal: pocas de ellas tendrán vidas útiles muy cortas. En otra situación. Por razones que se entenderán mejor cuando se presente la distribución gamma. es frecuente denotar el parámetro λ por 1 . hará que un vehículo que intente cruzar o introducirse en el flujo de tráfico.3. la duración de ciertas componentes electrónicas tienen una distribución que no es. cY(0). UCTemuco . ♦ Proposición 4. en modo alguno ello significa que todo proceso empírico. es la distribución Gamma. σ i2 ) entonces ∑ ∑ ∑ Demostración. Usar la función generatriz de momentos. ♦ 4. Sea X el tiempo que transcurre hasta el primer evento Poisson. Describe el tiempo que transcurre hasta el primer suceso Poisson. 4.4. y muy pocas tendrán una vida útil extraordinariamente larga. Algunos detalles de la función gamma se presentan en el anexo. relacionados con componentes mecánicos y electrónicos. de Cs.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 36  1 x α −1 exp − x  θ f ( x | α .θ ) =  Γ(α )θ α  0  { } x > 0 α . Matemáticas y Físicas. edad a la que un hombre contrae matrimonio por primera vez. Esta distribución es conocida con el nombre de distribución de Erlang. UCTemuco . LA DISTRIBUCIÓN DE WEIBULL Establecida por el físico suizo del mismo nombre. Volvamos a la distribución gamma. Prof. Juan Moncada Herrera – Dpto. – Problemas relativos a lineas de espera. θ  k = 0 k!  θ     ( ) La distribución de Erlang: Un caso especial de la distribución gamma es cuando α∈ Z+.θ > 0 en otro caso Los parámetros de esta distribución son α y θ.5. Sus principales características son: – – – – Media igual a αθ Varianza igual a αθ² −α Función generatriz de momentos igual a m X (t ) = (1 − θt ) α −1 1  x  k  P[ X ≤ x] = 1 − ∑    exp − x . etc. etc. la distribución de Weibull se ha empleado en los últimos años como modelo para situaciones del tipo tiempo–falla. 4. tales como tiempo que transcurre entre dos eventos dados de un fenómeno Poisson. Para indicar que la variable aleatoria X tiene una distribución gamma con parámetros α y θ. Esta es una aproximación a la distribución acumulada. θ). La cantidad Γ(α) es la función gamma en α. se anota X ~ Γ(α . tensión a la ruptura de ciertos materiales. Entre muchas otras aplicaciones de la distribución gamma se pueden mencionar: – Aplicaciones a problemas de física. – Ingresos familiares. PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 37 Otra razón por la cual esta distribución es útil en el estudio probabilístico para tiempos de vida útil de componentes o sistemas, se encuentra en la distribución gamma. En efecto, ésta (la distribución gamma) puede servir como modelo para las situaciones señaladas. Sin embargo, la función del índice de riesgo (definida arriba) para la distribución gamma tiene una cota superior que limita su aplicabilidad a los sistemas reales. Por esta razón, y otras, a menudo son otras las distribuciones que dan mejores modelos de los datos de tiempos de vida útil. Una distribución de éstas es la de Weibull. Una variable aleatoria X se dice que tiene distribución de Weibull si su función de densidad tiene la forma: γ f ( x) = x γ −1e θ − xγ θ ;x > 0 con γ y θ positivos. Notar que esto son los parámetros. Cuando γ = 1, la densidad se transforma en la densidad de una exponencial. Para γ > 1, la función es similar a la densidad de una distribución gamma, pero tiene algunas propiedades matemáticas un tanto distintas. Una manera cómoda de ver las propiedades de la densidad de la distribución de Weibull es usar la transformación Y = Xγ. Si γ = 2, entonces puede observarse que Y = X² tiene una disrtibución exponencial. Esto es, inversamente, si se inicia con una variable aleatoria Y distribuída exponencialmente, entonces la raíz cuadrada de Y tendrá distribución de Weibull γ = 2. La distribución de Weibull es una distribución que regularmente se utiliza en problemas de tiempos de vida, debido a las propiedades de su función del índice de riesgo. 4.6. LA DISTRIBUCIÓN JI-CUADRADO Otra distribución de particular interés, especialmente por sus aplicaciones en la inferencia estadística, es la distribución Ji–cuadrado (o Chi–cuadrado), que presentamos a contuación: Sea X una variable aleatoria. Se dice que X tiene distribución Ji–cuadrado si y sólo si su función de densidad está dada por la expresión ν −2 − x  1 x 2 e2  f ( x) =  2ν 2 Γ(ν ) 2  0  ;x > 0 e.o.c. Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 38 El parámetro de esta distribución es ν, y se le conoce con el nombre de grados de libertad. Notar que el parámetro es un número entero. Para indicar que X tiene una distribución Ji–cuadrado con ν grados de libertad se anota X ~ χ²(ν). Puede notarse que la densidad de una distribución Ji–cuadrado es un caso particular de la densidad de ν una distribución gamma. En efecto, si en la densidad gamma hacemos α = y θ = 2, entonces la densidad 2 gamma es la densidad de una variable chi–cuadrado. La distribución acumulada de una variable aleatoria Ji–cuadrado se encuentra tabulada para algunos percentiles y un gran número de grados de libertad. Otra forma de obtener (o más bien construir) una variable con distribución Ji–cuadrado, es mediante la transformación Y = Z², donde Z es una variable aleatoria con distribución normal estándar. Esto es, una variable aleatoria Ji–cuadrado se puede obtener como el cuadrado de una variable normal estándar. En este caso, la variable Ji–cuadrado tiene un grado de libertad. Una generalización se obtiene mediante la suma de k variables aleatorias normales estándares, todas independientes. En este caso, la Ji–cuadrado resultante es una distribución con k grados de libertad. Esta definición es muy útil en muestreo, como en su oportunidad veremos. 4.7. LA DISTRIBUCIÓN T-STUDENT Hay una manera fácil de definir una variable aleatoria con distribución t–student, nombre debido al seudónimo con que W. Gosset la publicó después de desarrollarla en 1908. Esta manera es: Una variable aleatoria T con distribución t–Student se obtiene como la razón entre una variable aleatoria normal estándar y la raíz cuadrada de una Ji–cuadrado, independiente de la primera, donde ésta última ha sido previamente dividida por sus grados de libertad. La t–Student tiene, en consecuencia, un parámetro, y es el mismo que el de la Ji–cuadrado (los grados de libertad). En símbolos, T = donde X es una Ji–cuadrado con ν grados de libertad. La función de densidad, poco útil para efectos prácticos, puede verse en la mayoría de los textos de Estadística. En particular, en Canavos, página 235; Freund–Walpole, página 296. Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Z X ~ tν , ν PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 39 Al igual que la Ji–cuadrado, la función de distribución acumulativa de una variable t–Student se encuentra tabulada para ciertos percentiles y un importante número de grados de libertad. Puede demostrarse que esta distribución es simétrica respecto del origen (cero), asintótica respecto de la recta x = 0, y de forma gráfica muy similar al gráfico de la densidad de una normal estándar. Se sugiere hacer uso de software para obtener gráficos de la densidad de esta distribución para algunos valores de su parámetro. Es especialmente interesante el comportamiento del gráfico a medida que aumentan sus grados de libertad. 4.8. LA DISTRIBUCIÓN F-FISHER La distribución F se obtiene o se construye de la siguiente manera: Sean X ~ χ2(ν1) y Y ~ χ²(ν2) dos X variables aleatorias independientes. Entonces la variable aleatoria definida como F = Y ν 1 se dice que tiene ν2 distribución F de Fisher o de Snedecor. Sus parámetros son dos: los grados de libertad del numerador y los grados de libertad del denominador. Su aplicación, al igual que las dos distribuciones anteriores, se justifica en procesos de inferencia. Su función de distribución acumulada, también, se encuentra tabulada para algunos niveles de probabilidad y una gran combinación de grados de libertad. Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco Deducir la función generatriz de momentos de una distribución Ji–cuadrado.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 40 4. 6270 horas Prof. usar integración. Juan Moncada Herrera – Dpto.b). trabaje en forma correcta durante más de 10 mil horas.14. Las demostraciones se basan en la evaluación de algunas integrales muy elementales. b. a. Hallar las probabilidades de que uno de esos termisores. Soluciones a algunos problemas propuestos 1. UCTemuco . Demostrar que si X ~ U(a. Verificar que para una variable aleatoria X ~ Ε(θ). b. que se ha de instalar en un sistema. La vida de servicio durante la que un determinado tipo de termisor produce resistencias dentro de sus especificaciones sigue una distribución de Weibull con γ = 2 y θ = 50 (mediciones en miles de horas). Matemáticas y Físicas. que E[ X ] = θ y Var[ X ] = θ 2 . 4. 12 2.9. EJERCICIOS Y PROBLEMAS 1. 0. 2. Calcular la vida esperada para termisores de este tipo. de Cs. 3. 3. Al igual que el caso anterior. entonces E[ X ] = a +b 2 y Var[ X ] = 1 (b − a) 2 . a. permiten un mejor y eficaz tratamiento de las probabilidades. y la segunda se puede realizar de n formas. de saber “contar”. Estas herramientas son los principios de conteo. de los cuales el primero se puede efectuar de m formas. es fácil deducir el número de elementos del espacio muestral asociado al lanzamiento de un dado. que empasta un libro de estadística aplicada. que en este capítulo se presentan en relación a espacios muestrales finitos y discretos.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 41 ANEXOS A. Matemáticas y Físicas. e incluso puede resultar fácil determinar la cardinalidad del espacio muestral asociado al experimento de lanzar dos dados. En una editorial. Principio básico: Si una selección consta de dos pasos. si el experimento consiste en definir una función entre dos conjuntos.. También existen los principios aditivos.1. ♦ Prof. ESPACIOS A. existen m · n formas de selección. pero aquí no se tratarán. ¿De cuántas formas distintas un cliente puede hacer el libro? Solución. Sin embargo. Juan Moncada Herrera – Dpto.· nk maneras. sobre probabilidades. ♦ Ejemplo A. 4 tipos de ensalada. UCTemuco . Ya que m = 20 y n = 8. sin necesidad de hacer efectivamente la lista. puede haber 2 · 4 · 3 · 5 = 120 almuerzos distintos. de los cuales el primero puede efectuarse de n1 formas. ESPACIOS MUESTRALES FINITOS En el estudio de “lo que es posible” hay esencialmente dos tipos de problemas: el primero se genera al intentar realizar una lista de todo lo que puede suceder en una situación determinada.1.. n3 = 3 y n4 = 5. ¿Cuántos almuerzos distintos es posible seleccionar? Solución. n2 = 4. entre otros conceptos. Algunas de estas formas se agrupan en lo que se conoce como principios multiplicativos del conteo. se pudo apreciar que el cálculo de probabilidades tiene mucho que ver con la cantidad de elementos de un espacio muestral o de un evento. Ejemplo A. TEMAS COMPLEMENTARIOS En el capítulo 1. entonces la determinación de la cardinalidad del espacio muestral puede complicarse por la cardinalidad de cada conjunto considerado en la definición de las funciones. en el caso de espacios discretos. Determinar la cardinalidad (número de elementos) de un suceso a veces puede resultar no tan trivial. entonces. Puede resultar casi demasiado obvio decir que el cálculo de probabilidades requiere. Afortunadamente existen métodos matemáticos que facilitan este proceso de conteo y. 3 tipos de postre y 5 tipos de jugo. Principio multiplicativo: Si una selección consta de k pasos. Este último es de especial importancia pues en ocaciones necesitamos sólo el número de posibilidades y no la lista completa. Pero a veces este simple proceso de conteo puede significar enormes esfuerzos. de Cs. Por ejemplo. y el k – ésimo se puede realizar de nk formas. entonces hay 20 · 8 = 160 maneras distintas de hacer el libro. por lo tanto. En un casino universitario para el almuerzo se ofrecen 2 tipos de carne. el segundo de n2 formas.2. el cliente puede escoger entre 20 colores distintos y 8 grosores de las tapas. Principios multiplicativos Existen algunas formas útiles en algunas situaciones y que facilitan considerablemente el “conteo”. Dado que n1 = 2. entonces la selección total se puede hacer de n1 · n2 ·. y el segundo consiste en determinar cuántas cosas diferentes pueden suceder. 880. Para n = 12 y r = 4.. Matemáticas y Físicas. el vector X'=(X1. diez cursos de estadística? Solución. Se supone que en esta ocasión el orden en que se seleccionan los tres libros no es importante.4.(n − r + 1) = n! (n − r )! Ejemplo A. Si se seleccionan r objetos de un conjunto de n objetos distintos. Otra forma de hacerlo es: 12 P4 = 12! = 11. es n Pn = n! Ejemplo A. Juan Moncada Herrera – Dpto.1. VECTORES ALERATORIOS Un vector aleatorio X es un vector cuyas componentes son variables aleatorias. las formas de seleccionar son 8 C 3 =   = 8   3 8 · 7· 6 = 56 .PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 42 Permutaciones Definición A.♦ 3! A. La notación X' es para indicar que se trata de un vector columna. El número de combinaciones en que se pueden seleccionar r objetos de un conjunto de n objetos distintos se llama combinatoria y se obtienen: 10 P10 = 10!= 3628800 . de Cs. luego si n = 8 y r = 3. Si n = 10.4..X2)' es un vetor cuyas componentes X1 y X2 son variables aleatorias. en grupos de n a la vez:.2. ¿ De cuántas maneras se pueden asignar a 10 profesores. ♦ n n! Cr =   = n   r!(n − r )! r Ejemplo A. cualquier ordenamiento de estos objetos se conoce como permutación. ¿De cuántas maneras un alumno puede seleccionar tres libros de una lista de 8. Así. se pueden asignar de: Combinaciones Definición A. El número total de ordenamientos en esas condiciones es igual: n Pr = n(n − 1)(n − 2).3. Prof. ♦ (12 − 4)! Nota: El número de permutaciones de n objetos distintos. por ejemplo. indicados para un curso? Solución.5. UCTemuco . es posible ordenarlos de 12 · 11 · 10 · 9 =11. en grupos de 4? Solución.880 formas. ¿De cuántas formas distintas es posible ordenar 12 libros. 5 Solución. R ( x) ∑ p( x' ) = 1 si X es discreto.5)'. UCTemuco .6. la función de probabilidades marginal de X1 es el vector (0. 2 2 2 2 2 2 2 5 3 3 3 Pero. Definición A. R ( x) La función de distribución acumulada se define de manera análoga que en el caso univariado. Notar que la integral es Γ ( 7 ) . como función gama. ii. Por tanto. Se simboliza (o denota) y define de la siguiente manera: Γ(t ) = ∫ ∞ x =0 x t −1 exp(− x)dx. La función de probabilidades (densidad) es no negativa.5. y la función de densidad de X si todas las componentes son continuas. ya que 5 = 7 − 1 . Densidades conjunta.6. la distribución de cada una de las componentes del vector es la función de probabilidades marginal (o densidad marginal).X2)’ se define por f ( x1 | X 2 = x 0 ) = Independencia de variables aleatorias f ( x1 . t > 0 Es una función muy práctica en la evaluación de integrales impropias. mientras que la marginal de X2 es el vector (0. En el ejemplo.0.4)'. Entre sus propiedades más importantes (por no decir ¡sorprendentes!) están: • • • Γ(n + 1) = n! . Matemáticas y Físicas. Cualquiera de estas dos eventuales funciones satisfacen las siguientes propiedades: i.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 43 Para un vector aleatorio X tiene sentido definir su función de probabilidades si todas sus componentes son discretas. f X 2 ( x0 ) Dos variables aleatorias son independientes si la densidad conjunta de ellas es el producto de las respectivas marginales. Evaluar la integral ∫ ∞ 0 x 2 e − x dx .0. se tiene que 2 2 2 2 3 1 1 1 Γ( ) = Γ( + 1) = Γ( ) 2 2 2 2 Prof. ∀ n ∈ IN Γ( x + 1) = xΓ( x) . Γ( 7 ) = Γ( 5 + 1) = 5 Γ( 5 ) . simplemente. La densidad condicional de (X1. marginal y condicional En la tabla anterior se registra lo que para un vector aleatorio se llama función de probabilidad conjunta (o función de densidad conjunta. Aplicando nuevamente la misma propiedad. Juan Moncada Herrera – Dpto. ∀ x ∈ IR+ Γ( 1 ) = π 2 Ejemplo A.5.3. si se trata de variables o componentes continuas). a su vez. si X es continuo. LA FUNCIÓN GAMMA También se le conoce. A. Al igual que en probabilidades. o bien ∫ f ( x' ) = 1 . x0 ) . Γ( ) = Γ( + 1) = Γ( ) . de Cs. Desarrollar los siguientes ejercicios del texto referido en el ejercicio 3 anterior: a. 17. Sean el vector aleatorio X ' = (X1 . 19 de las páginas 131. ∫ ∞ 0 5 7 5 5 5 3 1 1 15 x 2 e − x dx = Γ( ) = Γ( ) = Γ( ) = π 2 2 2 222 2 8 Otra forma de evaluar esta integral es usando la técnica de Integración por partes. X2)' y la función definidos a continuación: X2 X1 0 1 0 0. 24. ¿Puede deducirse que las variables del ejercicio anterior sean independientes (estadísticamente)? Explique. Sean X y Y dos variables aleatorias con función de densidad conjunta definida por: 3x (1 − xy) 0 ≤ x. en un texto de probabilidades.15. 8. 3.  Verificar propiedades de f.A. EJEMPLO 3. México. y aplíquelos al ejercicio anterior. 132. 1.o. EJEMPLO 3. 3.16.22 y EJEMPLO 3.4 2 0. Hallar además. 134 y 135. Prof. ♦ Ejercicios y problemas 1.13. 4.c. 12. 1990: EJEMPLO 3. EJEMPLO 3. Consulte. lo cual puede "complicarse" un poco. y ) =  0 e. 2. la función de distribución acumulada y la media del vector. sucesivamente. 1. S. 7. Revisar los siguientes ejemplos de Freund–Walpole: ESTADÍSTICA MATEMÁTICA CON APLICACIONES.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 44 Ahora. 2.1 Verificar que la función es una función de probabilidades. 25 y 26 de la sección 3.14. 2. b.3 0. Matemáticas y Físicas. 4. y ≤ 1 f ( x. Prentice-Hall Hispanoamericana.24.5. UCTemuco . los conceptos de covarianza y de correlación.2 0. Juan Moncada Herrera – Dpto. 5. 5. de Cs. completando la serie. EJEMPLO 3. 4. las distribuciones marginales correpondientes. 2. de una manera aleatoria e independiente. RESUMEN DE LAS PRINCIPALES DISTRIBUCIONES DISCRETAS Definición/Usos Ensayos individuales con dos posibles Bernoulli resultados (éxito. de Cs.1. Distribución Función de probabilidades Esperanza Varianza p ( x) = p x (1 − p )1− x .. Hipergeométrica Adecuada en muestreo sin reposición. x = 0.1. todos con probabilidad de éxito constante.2. Extraer una lámpara y observar su condición (buena o defectuosa) Binomial Realización de n ensayos Bernoulli independientes. Poisson Ocurrencia de eventos en el tiempo o en el espacio.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 45 B. x = 0..K x! λ λ  k  N − k     x  n − x    . x = 0. y a tasa constante. UCTemuco . Ej. Matemáticas y Físicas. Juan Moncada Herrera – Dpto.  x   np np(1-p) p( x) = e −λ λx .1 p p(1-p) n p ( x) =   p x (1 − p ) n − x . fracaso).0 ≤ x ≤ n ≤ N p( x) =   N    n   n k N n( k k N −n )(1 − )( ) N N N −1 Prof..0 ≤ x ≤ k ≤ N . y en poblaciones finitas. Análisis de Tablas de contingencia Z T= ~ tν X 2ν Tablas Calculadora Software Tablas Calculadora Software Tablas Calculadora Software ν 0 F–(Snedecor) Fisher Inferencia estadística X F = ν1 Y ν2 Inferencia estadística ν . ciertos test de inteligencia. Matemáticas y Físicas. Tiempos de espera. Juan Moncada Herrera – Dpto. RESUMEN DE LAS PRINCIPALES DISTRIBUCIONES CONTINUAS Distribución Uniforme Definición/Usos Valores igualmente probables Mediciones físico– biológicas. UCTemuco . Acumulada Elemental Tablas Calculadora Software E[ X ] = a+b 2 Normal µ σ² Gamma αθ θ θ γ Γ (1 + ) γ ν 1 αθ² θ² 1 –  α −1 1  x  k  P[ X ≤ x ] = 1 − ∑    exp − x θ  k = 0 k!  θ     ( ) Exponencial Weibull Elemental γ Problemas de tráfico. de Cs.ν 2 > 2 ν2 − 2 – Prof. y muchas otras situaciones empíricas. 1 − exp{− x θ } Ji–cuadrada T–Student Inferencia estadística.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 46 C. problemas de tráfico. errores de medición. etc.ν > 2 ν −2 ν2 . etc. Tiempo entre eventos Poisson dos Esperanza Varianza 1 Var[ X ] = (b − a) 2 12 Dist. 9988 .9761 .8554 .4 2.7190 .9370 .9965 .8023 .8508 .06 .9890 .9931 .9838 .5871 .7611 .PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 47 D.9767 .7486 .9817 .9998 .9625 .9772 .7123 .9996 .8770 .9955 .9987 .00 .9015 .8315 .9981 .1 3.9994 .9932 .6628 .9 .6293 .9535 .9893 .9463 .9671 .9803 .5675 .5040 .9798 .9649 .9884 .7939 .8078 .8962 .9990 .9997 .5 2.9968 .6736 .9952 . de Cs.9963 .8051 .9970 .7734 .9306 .7257 .9949 .9990 .1 1.8665 .9706 .9975 .5832 .7642 .5 .9726 .9686 .9994 .6 2.8749 .7157 .0 2.9998 .9962 .9992 .3 3.9357 .9115 .6 .9997 .9973 .6064 .9871 .9345 .6950 .9904 .9049 .8830 .9778 .9441 .9995 .9641 .8264 .9982 .9938 .5 .9994 .9147 .8531 .9664 .9857 .9922 .9732 .9998 .9991 .7910 .3 2.3 .9984 .9989 .9913 .2 .9997 .9998 .9943 .8888 .9992 .8461 .9989 .9982 .9887 .9082 .6591 .9934 .9854 .8106 .9945 .9846 .8708 .9868 .9995 .5160 .9162 .9987 .9992 .9222 .5596 .9997 .9808 .01 .9983 .9979 .9906 .9452 .9834 .7054 .9744 .8790 .9966 .9582 .9993 .9984 .5 1.9911 .7517 .9616 .7580 .5557 .9875 .0 .5279 .9992 .9940 .8643 .8238 .6480 .8340 .9 3.9429 . UCTemuco .9418 .6808 .9998 .6985 .6879 0.9990 .03 .9236 .7389 .7673 .9987 .7967 .9750 .08 .8907 .9099 .0 3.9738 .9964 .8 2.9979 .8686 .8186 .9564 .5753 0.8 1.8849 .9279 .9998 .3 1.5199 .9996 .8980 .9901 .9985 .9719 .9998 .09 __________________________________________________________ 0.9948 .8159 .5987 .6179 .6915 .6103 .6517 0.7 1.9977 .8485 .9066 .7794 .9678 .9896 .9960 .9292 .9756 .6 1.5239 .8925 . PROBABILIDADES ACUMULADAS DE LA NORMAL ESTÁNDAR Probabilidades acumuladas para algunos valores de la variable aleatoria normal estándar Z z .05 .9591 .9997 .8389 1.9997 .1 .9959 .8869 .9515 .5319 .6700 .9995 .9996 .9994 .9946 .9997 .9830 .9997 .5910 .9998 .9996 .9864 .0 1.9842 .04 .9332 .7995 .9920 .9812 .9394 .9997 .6141 0. Matemáticas y Físicas.8189 .9981 .9997 .7357 .9881 .5714 .9131 .5517 .7422 .9986 .5080 .7088 .7764 .8599 .7019 .7454 .9972 .9991 .5398 .9793 .9898 .8365 .9918 .6844 .9495 .6554 .9994 .9251 .9850 .9969 .9929 .9951 .8577 .9573 .9599 .9 2.1 2.9991 .9996 .6664 .9265 .9826 .2 2.5359 0.9382 .7324 .9956 .9988 .9996 .9656 .9032 .9925 .9953 .9961 .9699 .5948 .2 3.9989 .9995 .9998 .9998 Prof.5000 .9993 .9993 .9976 .6255 .9941 .9878 .7823 .7549 0.5438 .9177 .9916 .7 2.8997 .9980 .9484 .6443 .6217 .9554 .4 .9993 .7703 .6368 .7224 0.9406 .9861 .9974 .9713 .5793 .9821 .9971 .8438 .5636 .9505 .4 3.8212 .2 1.9995 .9474 .9927 .6331 .9906 .8729 .8944 .9974 .02 .9986 .9192 .9998 .8133 0.9207 .7291 . Juan Moncada Herrera – Dpto.8621 .9967 .6406 .8413 .9319 .7852 0.5120 .9957 .9936 .9608 .9995 .6772 .9545 .9978 .8810 .9693 .6026 .9783 .9633 .7881 .4 1.9977 .9788 .9525 .7 .5478 .9985 .07 .8 . G. de Cs. McGraw-HiII. S. Canavos. Prentice–Hall Hispanoamericana. Juan Moncada Herrera – Dpto. 1988. Prof. Matemáticas y Físicas. se sugieren los siguientes títulos: 1. 1990. UCTemuco . México. Grupo editorial Iberoamérica. Aplicaciones y métodos. 2. Freund–Walpole: Estadística Matemática con aplicaciones. México.PROBABILIDADES Y DISTRIBUCIONES DE PROBABILIDADES 48 E.: Probabilidad y estadística. SUGERENCIAS BIBLIOGRÁFICAS Para unA revisión bibliográfica tendiente a complementar o profundizar algunos temas tratados en esta unidad. a través de sus diferentes capítulos. 3. Scheaffer–McClave: Probabilidad y Estadística para Ingeniería.A. México. 1993. FACULTAD DE INGENIERÍA DEPARTAMENTO DE CIENCIAS MATEMÁTICAS Y FÍSICAS ÁREA ESTADÍSTICA ESTADÍSTICA DESCRIPTIVA E INFERENCIAL Prof.: Juan Moncada Herrera Segundo semestre de 2008 . Matemáticas y Físicas. de Cs.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 3 ESTADÍSTICA DESCRIPTIVA E INFERENCIAL Prof. UCTemuco . Juan Moncada Herrera – Dpto. ..... Capítulo 3.................. INTERVALOS DE CONFIANZA COMUNES ........................................................................6...............1... LA INFORMACIÓN ....................................... EJERCICIOS Y PROBLEMAS... PRUEBAS DE HIPÓTESIS: Muestras pareadas .............................. 5 6 7 15 25 37 42 45 46 48 51 52 54 56 61 64 65 66 Prof............................. 3.............. INFERENCIAS RESPECTO DE PROPORCIONES .....................2...................................1....................................................................................... 1............. 1....................5........ 1..................................ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 4 INDICE DE CONTENIDOS INTRODUCCIÓN ...... ANEXOS A.........5........... B........................ 1........2..... LA ESTADÍSTICA ............ ESTIMACIÓN PUNTUAL DE PARÁMETROS................. PRUEBAS DE BONDAD DE AJUSTE ...... UCTemuco ..................... C......... EJERCICIOS Y PROBLEMAS....... PRUEBAS DE HIPÓTESIS COMUNES ................................. CONCEPTOS PRELIMINARES .......................................................................................................................... 3........................................................................................ ESTADÍSTICA UNIVARIANTE ................ 2........... 3....................................3......... de Cs................................ EJERCICIOS Y PROBLEMAS ............... 3................................................................................... ESTIMACIÓN POR INTERVALOS .... 3........................................ HIPÓTESIS ESTADÍSTICAS 3......3.....4.........4..............2........... 2...... Matemáticas y Físicas................. HIPÓTESIS RESPECTO DE MEDIAS EN POBLACIONES NORMALES .......................3.... SUGERENCIAS BIBLIOGRÁFICAS ......................................... Capítulo 2.............................................................................................................. ESTADÍSTICA BIVARIANTE .....1...................... ESTADÍSTICA DESCRIPTIVA 1...... Juan Moncada Herrera – Dpto............................................................................................................... ESTIMACIÓN DE PARÁMETROS 2...... Capítulo 1....................................................................................... entonces. se plantearon sobre la base del conocimiento de las características de definición de las variables asociadas: los parámetros. Deben hacerse esfuerzos. Básicamente de todo aquel proceso de acercamiento al parámetro. en términos estadísticos. por lograr un acercamiento a esos parámetros lo más eficaz y eficiente posible. conocer de los parámetros de la distribución correspondiente. quizá el último tema. Esa práctica es la que irá consolidando una forma de trabajar. distribuciones de probabilidades. desde la forma de obtener la información necesaria para ello. a trabajar en los problemas propuestos y rehacer aquellos ya resueltos. finalmente. lo fundamental estará.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 5 INTRODUCCIÓN En el tema Variables Aleatorias y distribuciones de Probabilidades se trataron conceptos relativos a probabilidades y variables aleatorias y distribuciones. como una forma útil de llegar. Se hace un llamado a leer el documento con atención. De ellos. Juan Moncada Herrera – Dpto. Matemáticas y Físicas. de Cs. y por sobre todo. trata esta segunda unidad. a levantar el conocimiento subyacente al problema que sea objeto de estudio. cualquier afirmación o validación de ella requiere. Esas aplicaciones. Prof. precisamente. sin embargo. pero en ningún caso un desconocimiento absoluto o muy importante de él. sus análisis pertinentes y las conclusiones derivadas de esos procesos. en el desconocimiento de los parámetros. En algunas situaciones la obtención de los parámetros pudo significar algún procedimiento más bien racional o analítico. UCTemuco . fue el que más relacionó los conceptos con situaciones prácticas. Corresponde ahora acuparnos de aquellos problemas que tienen un asidero un tanto más empírico. Como se sabe. como se verá a lo largo de esta unidad. de pensar inteligentemente cada situación que en materia de investigación se vaya presentando. En este tipo de situaciones. hay muchas razones y muchos escenarios sobre los cuales se puede entender la información. 4. 3. UCTemuco . es saber qué busca o qué necesita. es imporante notar nuestra voluntaria disposición a la recepción de la información. ocurre cuando somos nosotros quienenes definimos qué información deseamos poseer. algunas veces absurdas. 2. En fin. Pero esto requiere de la respuesta a una cuestión previa: ¿Para qué? Prof. conocida mundialmente como INTERNET. desde siempre.). Valorar la importancia de los métodos descriptivos en la comprensión y síntesis de la información. Un ejemplo de esto último lo constituye la Supercarretera de la Información. etc. un gobierno decide si endeudarse o no (información de tipo económico. y en función de este objetivo la definimos. Dada su enorme importancia. por ejemplo. Reconocer y aplicar métodos y procedimientos de resumen de información. Cualquiera de nosotros puede "poner" información en esta Red del Mundo. el hombre ha hecho esfuerzos. sin orden. y tanta otra). En algunos casos la información puede llegarnos vestida de algún comentario al pasar. Se han eliminado barreras. Pero no se somete a la burocracia ni a las leyes. es fundamental tener claridad respecto de la pregunta anterior. que se encargan de distribuirla. En síntesis. y cualquier información. corresponde o es papel de la Investigación. Por información se comete y se han cometido asesinatos (recuérdese la Guerra Fría). y ya no decidir si cambiarlo o no. de un vistazo raudo a la primera página de un diario.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 6 Capítulo 1 ESTADÍSTICA DESCRIPTIVA Objetivos del capítulo: 1. 1. LA INFORMACIÓN . de inflación. o alguno panel de comentaristas especializados. Exactamente. Información al menos en el contexto de estas notas. Matemáticas y Físicas. se ha dispuesto para cada vez más personas. le generamos. en sus definiciones más simples. ¿para qué necesitamos la información? Esta pregunta es clave. Pero. Podríamos decir que para tomar decisiones. como para proveerla. Internet es hoy día el ejemplo concreto de la importancia y utilidad de la información. Esto último. etc. pero corremos el riesgo de no considerar en nuestra justificación algunos otros aspectos tanto o más importantes que una toma de decisiones. que el objetivo final de la información sea transformar nuestro medio de vida o de acción. se han declarado las Guerras (y también se han terminado). Interpretar resúmenes y representaciones de información. abstracta o concreta. Una forma más elaborada por la que podemos obtener o recibir información. Internet es un mundo sin fronteras. de Cs. como un noticiero. Valorar la importancia de la inferencia estadística en la investigación científica. Por estas y muchas otras razones. etc. en todo contexto. Otras veces nos llega a través de un medio más elaborado de comunicación.1. Puede ocurrir. un comentario estructurado de actualidad. o más bien SU MAJESTAD.1. por tener un acceso cada vez más directo a ella (a la información). de su resitenca. más generalmente) necesita. es aquello que de alguna forma u otra nos da cuenta de alguna realidad. Lo que todo usuario de Internet (o de la información. la más auténtica y necesaria Anarquía. Juan Moncada Herrera – Dpto. En estos casos. tendencias de precios. No olvidemos que a causa de la información se construyen puentes y caminos (información de la porosidad del suelo. y está abierta tanto para obtener información. sin costo. a alguna característica que nos llamó la atención en nuestro cotidiano caminar. LA INFORMACIÓN. como alguien dijera. Pensemos en la siguiente situación: "Al profesor A le ha correspondido la jefatura del Curso B. Es este problema o interrogante lo que permitirá definir la información. Es la causa del problema lo que le aproblema. de esta disciplina. Incerteza surge también cuando observaciones repetidas de un fenómeno produce resultados variables aún cuando intentemos controlar los factores que regulan el evento que está siendo observado. y por ende. ¿Qué es Estadística? La mayoría de la gente está familiarizada con el término estadística usado para indicar y registrar hechos numéricos y cifras: por ejemplo. lo que busca es información. LA ESTADISTICA Dada su importancia en materia de análisis y procesamiento de información. así como la calidad de ésta. con el que recogerá información relativa a lugar de procedencia del alumno. Desde un comienzo ha detectado ciertos problemas de conducta. este uso del término no es el foco central del tema. UCTemuco . aún cuando hayan germinado y crecido en el mismo semillero bajo idénticas condiciones Prof. la última pregunta debe analizarse en un contexto en el que la identificación o definición de un problema es relevante. Sin embargo. nivel socioeconómico de los padres. irremediablemente. Juan Moncada Herrera – Dpto. los que ha ido tratando con celo y profesionalismo. Hay una pregunta que ronda por su mente: ¿Por qué?. porque él les habrá dado un sentido. los medios utilizados en el tratamiento de la información. Además.2. A pesar de lo mucho que ha hecho. En resumen. el tonelaje de carga encargada a un barco durante los últimos 15 años o aún el número de yardas ganadas por el equipo campeón en un juego de fútbol. Éste estará controlado en la medida que conozcamos las causas que lo originan. el que a su vez las extrajo quién sabe de qué polvoriento archivo. y sobre esta base tomará las decisiones. nuestro profesor retornará. hermanos. También es fundamental la calidad de los instrumentos de recolección u obtención de información. son fundamentales para el logro de los objetivos propuestos. En realidad lo que el maestro ha hecho es un diagnóstico de una situación. El maestro entonces procede a elaborar una estrategia que le permita definir con claridad el problema. las alturas de los rascacielos de la ciudad. Lograr explicar la realidad del curso es un proceso que puede resultar vital para el cambio de actitud de loa alumnos del curso. y también con quienes lo están haciendo en la actualidad. no ha logrado controlar el curso en la forma que él desearía. Para ello. Al momento de analizar la información. lo que en modo alguno significa que se conoce el problema. Por ejemplo. ha construido un cuestionario. Por ello. La estadística principalmente trata con situaciones en que la ocurrencia de algún evento no puede predecirse con certeza. a la realidad (el curso). situación laboral y conyugal de los padres. que le permita explicar una realidad. y será sólo aquí que las conclusiones obtenidas tendrán sentido. y por ello ha decisdido enfrentar el cómo analizar la situación" En lo anterior se ve un problema. consulta con profesores que anteriormente hayan trabajado con el curso. etc. pero que a nuestro juicio contienen en si un valiosísimo aporte para la comprensión. por no decir vital. lo más completo posible a su entender. los pinos de un año no tienen todos la misma altura. haremos una pausa en el caminar hacia el análisis para observar con algo más de detenimiento el concepto de estadística. nada mejor (a mi juicio) que la lectura de unas notas que hace algunos años me facilitó un colega. de Cs. 1. ya que es un hecho que la calidad de los resultados es función de la calidad de los instrumentos utilizados en la obtención y tratamiento de la infor-mación. Nuestras conclusiones son frecuentemente inciertas porque nos basamos en datos o información incompleta -valorar la actual tasa de desempleados en una región basado en una inspección de unos pocos miles de gente es un ejemplo. sobre todo por medio de charlas o lecciones de convivencia social. información que le permita perfilar al alumnado. Para ello. el precio diario de artículos seleccionados en un almacén. Matemáticas y Físicas. nivel educacional de los padres y familiares.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 7 Bajo una perspectiva científica. aunque parcial. delimitarlo. una gran cantidad de informes gubernamentales que contienen documentación numérica masiva y llevan títulos como "Estadísticas de la Producción Agraria" y "Estadística Laboral" son residuos del origen de la palabra "estadística". UCTemuco . el deliberado o inadvertido mal uso de la estadístiva conduce a conclusiones erróneas y distorsionadas de la realidad. ahora la estadística abarca conceptos y métodos que son de gran importancia en toda investigación que involucre recolección de datos. Aún hoy día. de Cs. Como un tema. Los métodos estadísticos sin empleados ampliamente en la preparación de tales informes. profesionales estadísticos gastan su vida únicamente construyendo tablas y gráficos. estamos aprendiendo cada día a través de un frecuente análisis implícito de información. Por ejemplo. Así. la efectividad de los analgésicos y otros intereses de la vida contemporánea recogen hechos y cifras y luego las interpretamos o intentamos entender las interpretaciones que otros hacen. Una importante parte del público en general todavía tiene el concepto erróneo que la estadística está exclusivamente asociada con traumáticos arreglos de números y a veces desconcertantes series de gráficos. documentos gubernamentales. sino que ha penetrado a la vida diaria de toda la gente que hace lo posible. el ambiente y el mundo en general. El tiempo para cortar el césped. Prof. el rendimiento de los equipos de fútbol. El razonamiento estadístico da criterios para determinar qué conclusiones están realmente basadas en datos y cuáles no. La estadística es un cuerpo de conceptos y métodos usados para coleccionar e interpretar datos relativos a un área particular de investigación y para extraer conclusiones en situaciones en que estén presentes la incerteza y la variación. Frecuentemente. índices del costo de vida y los resultados de encuestas públicas de opinión son otros ejemplos. El enterarnos acerca del estado del desempleo. la credibilidad de las conclusiones también depende en gran medida del uso de los métodos estadísticos en la etapa de colección de los datos. Pronósticos del tiempo. así la formulación de los programas políticos pueden estar más acorde con la voluntad del pueblo. mediante un proceso de experimentación y observación. Para el público en general. Los métodos estadísticos juegan un papel importante en un estado democrático moderno. Estadística en la vida diaria El descubrimiento de hechos a través de la colección e interpretación de datos. si los hay. contaminación por desechos industriales. estadística fue asociada únicamente con la exposición de hechos y cifras económicas. si los dirigentes elegidos pueden determinar los deseos de sus electores mediante un adecuado y rápido método de muestreo. informes de mercado. y realizar inferencias u obtener conclusiones mediante el análisis de tales datos. es esencial algunas ideas de razonamiento estadístico para una adecuada interpretación de los datos y evaluación de las conclusiones que son extraídas. Matemáticas y Físicas. demográficas y situaciones políticas predominantes de un país. el peso de un pollo de seis semanas criado en una granja y el período de alivio de una fiebre después de tomar cierta medición son otros ejemplos de situaciones en las cuales aparece la variabilidad en observaciones repetidas. consciente o inconsciente. los consumidores básicos de estos informes. por entender materias de interés referente a la sociedad. La exposición numérica ha llegado a ser un aspecto menor de la estadística y pocos. no está limitada a investigadores profesionales.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 8 meteorológicas y de terreno. Por lo tanto. En todos los campos de estudios en donde las inferencias son extraídas de análisis de los datos. sin embargo. Juan Moncada Herrera – Dpto. Informes que son basados en sólidos razonamientos estadísticos y la cuidadosa interpretación de las conclusiones serán genuinos e informativos. Fuentes de información varían desde la experiencia individual a informes en los medios informativos. condiciones de vida. Históricamente. la palabra "estadística" se deriva de la palabra latina "status" que significa "estado". y artículos en revistas especializadas. es esencial recordar que la teoría y metodología de la estadística moderna han hecho gigantes avances fuera de la mera compilación de tablas y gráficos numéricos. Por varias décadas. Los detalles del proceso científico son tan diversos como las disciplinas en estudio. a ensayos de terreno. los cuales numéricamente miden algunas características o registran alguna característica cualitativa poseida por los individuos o elementos bajo estudio o ambos. En algunas situaciones. Los resultados del análisis son luego empleados para responder estas preguntas y también para medir el grado de incerteza involucrada en las respuestas obtenidas. Modelos o teorías son postulados tentativos que tratan de explicar un fenómeno. los métodos de investigación pueden ser considerados para mejorar la comprensión. – Recolección de información: La información objetiva. UCTemuco . Esto podría además ser enfocado sobre metas más específicas tales como demostrar una nueva teoría o escrutar una teoría existente con respecto al alcance de las deducciones lógicas extraídas. "¿Contradicen los datos una conjetura ya establecida?". – Objetivos: Los análisis de datos están diseñados para responder a preguntas como: "¿Qué generalidades pueden extraerse del fenómeno bajo estudio a partir de las evidencias suministradas por los datos?". las cantidades promedio de tiempo gastado semanalmente en recreación podrían ser recopiladas para estudiar las componentes del uso del tiempo de los estudiantes. "¿Los datos sugieren una nueva teoría para explicar el fenómeno?". pero algunos pasos básicos que forman la base de la mayoría de las investigaciones científicas son las siguientes: – Especificación de objetivos: Cuando el estado actual de conocimiento respecto a algo de interés es considerado inadecuado. puede describirse como un proceso de gasto de esfuerzo para aprender acerca de regularidades ocultas de algunos aspectos los cuales aparecen en un mundo caótico. la meta puede ser simplemente la creación de una base de datos de información que en forma precisa refleja el estado actual del asunto. de Cs. Un cuidadoso análisis de datos es decisivo para establecer el nuevo conocimiento adquirido y para evaluar su validez y sus debilidades. Aunque la investigación científica no esté rígidamente estructurada. es una verdad descifrada en una o aún en pocas operaciones del ciclo y cambiando las condiciones en muchos campos demanda una continuación indefinida del proceso de repetición. Por ejemplo. La información es típicamente recolectada en la forma de datos. deducciones lógicas son derivadas desde el modelo postulado y luego medidas con los descubrimientos reales. es decisiva en cualquier investigación. – Análisis de los datos: Los datos coleccionados mediante un apropiado proceso de experimentación u observación sirven como la fuente básica para adquirir nuevos conocimientos acerca de la materia bajo estudio. Un objetivo de esta forma es la comprensión de la química de los desperdicios sólidos dispuesta en una planta y su uso consiguiente para la purificación del agua de un río circundante. La ciencia frecuentemente toma la forma de revisión sugerida de una teoría existente la cual puede necesitar una investigación adicional a través de la colección y análisis de los hechos. dependiendo del propósito del estudio. abarcando desde elaborados experimentos en ambientes controlados. – Informe de los descubrimientos: La significancia de la información suministrada por los datos debe entonces ser ponderada en el contexto que se conocía en la etapa inicial de la investigación cuando se especificaron los objetivos. Matemáticas y Físicas. verificándolas mediante descubrimientos reales. Prof. Es entonces necesario examinar el conjunto de datos y extraer información pertinente en las conclusiones surgidas en la especificación de objetivos. el objetivo puede ser más extenso y no sólo adquirir una comprensión de los factores que influyen en un ambiente. Así la naturaleza básica del conocimiento es típicamente una repetición de este ciclo en una u otra forma. el modelo es modificado y continúa la búsqueda de unas mejores explicaciones. Raramente.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 9 Estadística e investigación científica La importancia fundamental de la metodología estadística es mejor apreciada cuando se inspecciona a la luz del proceso general del saber: el método científico. Juan Moncada Herrera – Dpto. Otras veces. Este proceso puede involucrar una amplia variedad de actividades. investigaciones socioeconómicas y encuestas y también registros históricos. sino también determinar las posibilidades de su uso en el control o modificación de algunas facetas del fenómeno. En la era actual la progresiva instrumentación y mecanización en la cantidad de observaciones es un hecho habitual. La rama de la Estadística que trata con la planificación de los experimentos se llama diseño de experimento y la que trata con la definición recolección de información diseño de muestreo. de Cs. se debe tener una percepción de los procedimientos deductivos contemplados para usar y la potencia de las inferencias anheladas. Situaciones ilustrativas de la recolección y análisis de datos Para clasificar las generalidades precedentes se darán aquí algunos pocos ejemplos. incluyendo una determinación de tipo y extensión de los datos. los métodos de análisis de datos y extractores de conclusiones son fuertemente contingentes con el proceso por el cual fueron generados los datos. Como un ejemplo simple. Esta es el área estadística inferencial y sus métodos asociados son conocidos como los métodos de la inferencia estadística. En las áreas de estudio en las cuales la experimentación es costosa. Matemáticas y Físicas. El tópico que trata con los métodos estadísticos que resumen y describen las características sobresalientes de los datos usualmente se conoce como estadística descriptiva. interpretación y análisis de datos y la habilidad para extraer generalidades lógicas relativas al fenómeno bajo investigación. supongamos que la producción de dos variedades de Prof. de modo que las conclusiones extraídas de un análisis pueden ser establecidas con un cierto grado de precisión. Específicamente en la etapa de recolección de información. El uso de estos métodos proporciona una base de razonamiento para interpretar lógicamente los hechos observados. Aunque históricamente la primera actividad. Las diferentes áreas de la estadística mencionadas anteriormente no son entidades disjuntas pensadas para usar cada una en etapas únicas de una investigación. hoy día resúmenes descriptivos son sólo una estrecha parte de la esfera de actividades que caen bajo el alcance del tema de la estadística. ellas están integradas en un sistema entrelazado de actividades donde los métodos usados en un área pueden tener fuertes influencias de aquellos usados en las otras áreas. Uno de los principales avances en la materia es. Desde el punto de vista de las etapas esenciales del método científico descrito. es claro que la estadística penetra el dominio de toda investigación cientifica. Para decidir sobre el proceso y la dimensión de los datos que serán recolectados. Algunos de estos métodos están diseñados para resumir la información contenida en los datos y llamar la atención sobre las características sobresalientes y no hacer caso de los detalles no esenciales. UCTemuco . Después que los datos han sido recolectados hay una gran necesidad por los métodos estadísticos. la estadística guía al investigador hacia los caminos y medios apropiados para recoger datos o información. también tales decisiones son decisivas para la validez y eficacia esencial de las conclusiones extraídas de un análisis de los datos. Ellos ilustran algunas situaciones típicas en que el proceso cognitivo de investigar un fenómeno involucran la recolección y análisis de datos en que los métodos estadísticos son consecuentemente conocimiento auxiliar indispensable para una relación sobre analisis se sugiere ver el anexo. En otras áreas. Juan Moncada Herrera – Dpto. la evaluación de la información presente en los datos y la valoración del nuevo aprendizaje ganado a partir de esta información. – Producción de Vegetales: Experimentos que involucran la fertilización de diferentes tipos genéticos de especies vegetales para producir híbridos de alto rendimiento son de considerable interés para los científicos agrícolas. Por otro lado. para fijar la amplitud en la cual estos hechos soportan o conducen un modelo postulado y para sugerir precisas revisiones de la teoría existente o quizá para planificar investigaciones adicionales.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 10 El papel de la Estadística en la investigación científica La esencia de la estadística se compone del arte y la ciencia de la recoleccion. Más bien. el tipo y cantidad de datos requeridos para suministrar un nivel deseado de verosimilitud en las conclusiones se debe determinar cuidadosamente con anticipación. Un grupo más importante de métodos para analizar los datos están dedicados a extraer generalidades o inferencias respecto del fenómeno bajo estudio. actualmente. UCTemuco . incapacitados físicos. En opiniones públicas o Prof. Debido a que frecuentes chequeos en hospitales son caros e inconvenientes. en el caso de los vegetales. coleccionar los datos sobre sus rendimientos y luego analizarlos. Por ejemplo. ya que la naturaleza no sigue una ley rígida. Inspecciones Socioeconómicas: En las áreas interdisciplinarias de la sociología. que deben entonces sobrellevar chequeos en hospitales para comparación. Para determinar los méritos de los nuevos procesos en término de sus tasas de éxito en detectar casos verdaderos y evitar detecciones falsas. es esencial coleccionar datos sobre el logro o desarrollo de habilidad de materias en la completación de cada programa. Un ingrediente importante del análisis estadístico de datos es la formulación de modelos apropiados que representen la variabilidad intrínseca encontrada en la naturaleza. Análogamente. se emprenden estudios en aspectos tales como el bienestar económico de diferentes grupos étnicos. Para conocer acerca de la efectividad comparativa de diferentes programas.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 11 – – – – híbridos serán comparados bajo condiciones climáticas específicas. Tales estudios son típicamente basados en datos obtenidos mediante entrevistas o contactando una muestra representativa de personas seleccionada mediante un proceso estadístico de una gran población que forma el dominio de estudio. trabajadores industriales. Migración Animal: Los biólogos estudian los hábitos migratorios de aves y animales marcándolos con números de identificación en localizaciones geográficas relevantes y posteriormente rastreándolos en otras localizaciones. Primero. los m‚dicos buscan procesos de diagnósticos efectivos que los pacientes puedan autoadministrarse. son fácilmente visibles algunas características comunes. niños retrasados. siempre puede obtenerse un número mayor. de Cs. Segundo. Población y muestra Aunque los ejemplos anteriores están extraídos de una amplia variedad de campos y solamente se dan superficiales descripciones del alcance y objetivos de los estudios. es irreal esperar que cada planta de una variedad particular tenga exactamente el mismo rendimiento. La única forma para conocer el rendimiento relativo de estas dos variedades es sembrarlas en un cierto número de sitios.) son continuamente controlados. grupos de monitores. diseñados para un tipo específico de clientes (estudiantes. Los datos son luego analizados y se hacen interpretaciones del punto en cuestión. Los datos obtenidos por tales métodos no sólo nos ayudan a entender el mundo animal sino que ellos también alertan a los conservacionistas de situaciones que requieren acciones para proteger a las especies dañadas. Matemáticas y Físicas. economía y ciencias políticas. La presencia de alguna variación inherente a los resultados y bajo condiciones experimentales constantes tiende a obscurecer el efecto de un cambio en estas condiciones. es inevitable alguna cantidad de variabilidad en los resultados a pesar del hecho que las mismas condiciones o similares prevalecen durante las repeticiones de cada experimento u observación. el proceso debe ser ampliamente probado en un gran número de personas. Una tercera característica notable de los ejemplos del punto anterior es el hecho que es físicamente imposible o prácticamente no factible coleccionar y estudiar un conjunto de datos pertenecientes a un área específica de investigación. la característica fundamental más aparente en todas estas áreas de estudios es el hecho que la colección de datos mediante un proceso apropiado de experimentación u observación es esencial para adquirir nuevos conocimientos. Juan Moncada Herrera – Dpto. Programas de Entrenamiento: Programas de entrenamiento o enseñanza en muchos campos. etc. Cuando se obtienen los datos de experimentos de laboratorios o ensayos de terreno. no importa cuantas experimentaciones han sido realizadas. patrones de gasto en diferentes niveles de ingreso y actitudes hacia la legislación pendiente. Diagnósticos Clínicos: La detección precoz es de eminente importancia para el tratamiento quirúrgico exitoso de muchos cánceres. evaluados y modificados para mejorar su utilidad en la sociedad. un programa de entrenamiento para individuos con condiciones similares produce variabilidad en las medidas de sus logros. mientras que la población (aún cuando no existe en la realidad) es considerada como un cuerpo estable de números a Prof. Es importante notar que en contraste con su uso ordinario el término "población" en Estadística no implica una colección de seres vivos. Una muestra de una población estadística es el conjunto de medidas que son realmente recolectadas en el curso de la investigación. El conjunto de medidas que podrán resultar si todas las unidades de la colección mayor pudieran ser observadas. se define como la población. En el estudio del rendimiento de un tipo particular de vegetal bajo condiciones climáticas específicas la población estadística de rendimientos es la colección de todas las medidas de producción que imaginariamente puedan ser recogidas si el vegetal fuera extensamente cultivado en todas las localizaciones geográficas con condiciones climáticas particulares y este proceso fuera repetido año tras año. pero las limitaciones de tiempo. Esta colección forma parte de una colección mucho más grande de unidades. de Cs. Las ideas fundamentales emanadas de nuestra discusión aclaran una distinción entre el conjunto de datos que es realmente obtenido a través de un proceso de observación y la enorme colección de todas las observaciones potenciales que se pueden originar en un contexto dado.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 12 en estudios de gastos de los consumidores una colección completa de información podría emerger sólo si los datos fueran recolectados de cada individuo en la nación. significa que debemos trabajar con información incompleta lo cual corresponde a los datos que son realmente recolectados en el curso de un estudio experimental. en el mejor de los casos. Una muestra es una parte de esta población infinita o el conjunto de las medidas de rendimiento realmente registradas en el curso de un experimento que resulta de sembrar un número de vegetales en unas pocas localizaciones con las condiciones climáticas dadas. Obviamente los datos muestrales variarán cuando se repita este experimento en ocaciones diferentes. Una población (población estadística) es el conjunto completo de medidas posibles o el registro de algún rasgo cualitativo correspondiendo a la colección entera de unidades para las cuales serán hechas las inferencias. población estadística o población objetivo. Tal inmenso conjunto de datos puede ser considerado como la fuente de información completa. Juan Moncada Herrera – Dpto. UCTemuco . granjas. Los datos muestrales consisten entonces de medidas correspondientes a una colección de unidades que son incluidas en un experimento real. animales. Estas fuentes pueden ser árboles. La característica puede o no estar asociada con una población humana. Algunos detalles adicionales deberían clasificar las diferencias entre los conceptos de población y muestra. El conjunto completo de observaciones que podría coleccionarse haciendo repeticiones ilimitadas de un experimento o manteniendo un registro minucioso de todos los elementos dentro del alcance del estudio es demasiado enorme que podemos. recursos y medios y a veces la naturaleza destructiva de la prueba. La población representa el objetivo de una investigación y el objetivo del proceso de colección de datos es extraer conclusiones acerca de la población. para coleccionar un conjunto completo de datos relativos al daño sufrido por todos los coches de un cierto modelo y año por colisiones en una velocidad específica. dependiendo del dominio del estudio. Matemáticas y Físicas. Para enfatizar la distinción entre muestra y población en esta etapa consideraremos situaciones en que cada medida (o registro de un rasgo cualitativo) en un conjunto de datos se origina de una fuente distinta llamada unidad de muestreo o más simplemente unidad. familias u otros elementos. visualizarlo en nuestra imaginación. cada coche de ese modelo salido por las líneas de producción debería ser sometido a colisión. Por ejemplo. En este contexto la población estadística no tiene nada que ver con cualquier población humana. (Una definición general de una población debe ser pospuesta hasta que se introduzcan varios otros conceptos). La nomenclatura estadística para la primera es muestra y para la última es población. Una población estadística es una colección de números que representan la totalidad de mediciones de alguna característica del grupo completo de unidades que son objeto de una investigación. acerca de la cual deseamos hacer inferencias. Además deseamos aprender acerca del concepto abstracto de la totalidad de las medidas de producción. la materia de estadística juega un papel fundamental. ingeniería estadística. El diseño del proceso de muestreo es frecuentemente el paso más importante. Sin embargo. Los conceptos estadísticos son tambien esenciales durante la etapa de planificación de una investigación cuando deba tomarse decisiones. Matemáticas y Físicas. Los objetivos principales de la Estadística son: (a) Realizar inferencias de una población a partir de un análisis de la información contenida en los datos de la muestra. como el modo y la dimensión del proceso de muestreo. el tema de la estadística ha penetrado en todos los campos del esfuerzo humano en que la verificación de afirmaciones y la ramificación de la información debe ser fundamentada en evidencias basadas o apoyadas en los datos. especialmente en experimentos controlados en que diferentes factores que influyen en las mediciones pueden ser preplanificados. sicometría. y (b) hacer evaluaciones del grado de incerteza involucrado en estas inferencias. de manera que los datos adecuadamente informativos puedan ser generados dentro de las limitaciones de los recursos disponibles. Estos métodos permiten deducir generalizaciones plausibles y luego medir el grado de incerteza bajo estas generalizaciones. Juan Moncada Herrera – Dpto. Los conceptos básicos y el centro de la metodología son casi idénticas en todas las diversas áreas de la estadística aplicada. econometría y demografía. ha sido grandemente reemplazada por el moderno papel de suministrar herramientas analíticas con las cuales los datos pueden ser eficientemente recolectados. El uso de métodos estadísticos en diferentes áreas de las humanidades. Estadística interactuando con otros campos Los primeros usos de la estadística en la estereotípica recopilación y pasiva presentación de datos. Desde nuestra percepción de una población estadística como el compendio de todas las observaciones potenciales en alguna faceta de la naturaleza. Un tercer objetivo. Surgen diferencias en el énfasis.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 13 pesar de que el conjunto puede ser inmensamente grande e irregistrable. entendidos e interpretados. tales como la bioestadística. En muchas otras áreas en que los nombres compuestos no han surgido todavía. Los conceptos y métodos estadísticos permiten validar las conclusiones acerca de la población que se obtuvieron a partir de la muestra. de Cs. debido a que ciertas técnicas son más útiles en una cierta área que en otra. Un buen diseño para el proceso de colección de datos permite hacer un íntegro análisis y eficientes inferencias mientras que los sofisticados métodos de análisis de datos en sí mismo no salvan a mucha información de los datos producidos por experimentos deficientemente planificados. El tema de la estadística de la metodología para realizar inferencias inductivas respecto de la población a través de la colección y análisis de los datos muestrales. no menos importante. los ejemplos extraídos de un Prof. debido a la fuerte similaridad metodológica. El costo de la mantención anual de coches de todas las familias de Estados Unidos durante 1977 es un ejemplo de este tipo de población. Dado su extenso objetivo. Los pocos ejemplos breves dados en el punto 5 no intentan demarcar la esfera de las aplicaciones estadísticas sino que se presentan para ilustrar la diversividad de aplicaciones estadísticas. UCTemuco . el proceso de investigación experimental puede ser considerado como un esfuerzo por obtener una comprensión de la población sobre la base de información incompleta recolectada mediante el muestreo. es deseñar el proceso y la dimensión del muestreo de modo que las observaciones constituyan una base para extraer inferencias válidas y precisas. ciencia e ingeniería ha producido muchos tópicos interactivos. estadística económica. En resumen. tales como promedios. Una cuestión importante es determinar la "mejor" muestra. sin caer en extremos como perder la idea general a fin de destacar lo particular. diámetro de grano y concentración de almidón por espiga (notemos la presencia de variables cuantitativas y cualitativas en esta población). y sólo eso. estas características reciben el nombre de parámetros. Lo que verdaderamente constituye la población son las observaciones que sobre las variables se efectúen. Podemos decir que la información es la clave de éste y otros conceptos. Esta información puede ser cuantitativa o cualitativa. color del grano. ya que no se trata de describir sólo datos relativos a poblaciones. dependiendo de si es de naturaleza numérica o no-numérica. resumen y presentación de la información. la población puede consistir de la cantidad de granos/espiga. ya que dependerán de la muestra). UCTemuco . Entonces. sino el tamaño de ella. Aquí las cien espigas delimitan la cantidad de observaciones que se efectuarán sobre las otras variables. Su propósito fundamenal es la organización. otra forma de referirnos a lo anterior es: la población no es más que un conjunto de variables. y las variables pueden ser cuantitativas o cualitativas (o numéricas o no-numéricas). o vice versa. A continuación formalizaremos un poco más algunos de estos conceptos. esto es. Muestra: Una muestra es un subconjunto de la población. Parámetros y estadísticos: Cuando se obtienen medidas de resumen en una población. color del grano. de Cs. entonces reciben el nombre de estadísticos o estadísticas o estadígrafos. las variables son cantidad de granos/espiga.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 14 amplio rango de aplicaciones estadística son útiles para crear una comprensión básica de diferentes métodos estadísticos. pero en sí no constituyen la población. deseemos organizar estos de manera que podamos decir con ellos lo que deseamos decir. Si estas medidas son obtenidas a partir de una muestra. totales. Una muestra de esta población puede consistir de 20 observaciones sobre todas las variables. su uso potencial y sus vulnerabilidades al mal uso. En una primera parte del curso nos encargaremos de proporcionar los elementos básicos del proceso descriptivo de la información. Juan Moncada Herrera – Dpto. población y otros. como así mismo lograr que ellos (los datos) nos revelen información oculta.. Aquello que contiene la información se conoce con el nombre del variable. Esta última es de suma importancia en cualquier fase de la investigación. o generalizar a extremo de perder una visión más puntual de los datos. Algo más sobre terminología estadística Ya se han presentado conceptos tales como muestra. peso del grano. en cambio las estadísticas son características numéricas de la muestra (por lo tanto son variables. o bien una cantidad de observaciones sobre tres de las seis variables. Particularmente. Por ejemplo. sea ésta poblacional o muestral. Población: Entenderemos población como el conjunto de toda la información disponible o posible de disponer en un momento dado o en una situación dada. mientras que la que se encarga de lo segundo es la Estadística Descriptiva. Al respecto. También es evidente que frente a un conjunto de observaciones o datos. los parámetros son características (numéricas) fijas de la población. Prof. En investigación es frecuente el problema de "decir o conocer" algo en relación a los parámetros. acercarse al conocimiento de estos. La parte de la Estadística que se encarga de resolver el primero de estos problemas es conocida con el nombre de Inferencia Estadística. en un estudio sobre la concentración de almidón en el trigo. sino todo tipo de información. En este sentido una muestra puede contener algunas variables de las que conforman la población o parte de todas ellas. de modo de rescatar lo particular de entre lo general. respectivamente. peso del grano. Matemáticas y Físicas. observaciones realizadas sobre un total de 100 espigas. etc. diámetro del grano y concentración de almidón por espiga(ppm). la información es la que puede ser cuantitativa o cualitativa. tema que no es de este curso. longitud. las representaciones se hacen sobre la base de información cuantitativa. Actualmente se habla de formas digital y analógiga para referirse a esas formas. Estas cifras hablan de la composición del curso (constituyen las frecuencias). indigentes. La segunda categoría de información se refiere a todas aquellas características cuya unidad de medida posee propiedades propias de un subconjunto de los números reales. UCTemuco . la cuantificación permite. Matemáticas y Físicas. Juan Moncada Herrera – Dpto. como parte del procesamiento. podrá transformarse en cualitativa una varuiable cuantitativa. mientras que un asistente social podría referirse a ella como distintas categorías socioeconómicas (pobres. clasificarse en dos grandes categorías: información cualitativa (no numérica) e información cuantitativa (numérica). recopilaciones. En efecto. De la sola observación de los registros (lista) de un Libro de Clases. por lo general. etc. se puede extraer la siguiente información respecto de la variable Sexo: 20 alumnos son niños y 23 son mujeres. En cualquier caso.3. Por ejemplo. Más aún. además. o Masculino y Femenino. como se dijiera. Por ejemplo. cualitativa o cuantitativa. si la variable es “ingreso bruto mensual de la familia”. En este último caso la variable resume una cualidad del sujeto consultado. porque la observación posee una unidad de medida asociada. por tanto. Esto es. Esto significa que parte importante del análisis de información cualitativa consiste en cuantificarla a obejto de efectuar los análisis correspondientes. DATOS CUALITATIVOS Cuando nos enfrentamos a datos de natualeza categórica o cualitativa. desde el punto de vista cualitativo. y de la aparente exclusividad de naturaleza por parte de algunas variables usadas en los ejemplos. razón por la que se presentarán separadamente para los casos cualitativo y cuantitativo. de Cs. Tal cuantificación consiste en construir tablas de frecuencias (cantidad de unidades de observación que poseenla característica en estudio). Mujer. Lo inverso no es válido.) y cada observación ser asociada. entonces las modalidades serán dos: Hombre. o que permitan perfilar mejor al objeto en estudio. se debe cuantificar la información para obtener las represenbtaciones gráficas y numéricas que se requieran. ESTADÍSTICA UNIVARIANTE La información disponible por medio de algún procedimiento de obtención (investigaciones. describe o simplemente “informa” de cualidades o atributos de las unidades de observación. En el resto de este capítulo se tratarán las dos formas básicas de organización y resumen de información: forma gráfica y forma numérica. Estos enfoques adoptan formas especiales según sea el tipo a naturaleza de información a procesar. Esto resulta fácil toda vez que las variables en estudio contienen una cantidad finita o limitada de valores (las modadlidades). A pesar de las acepciones anteriores. tiempo. Ejemplo 1. un economista puede “medir” esta variable en pesos ($). en alguna de tales categorías. Frente a ese tipo de variables.). etc. es posible que una variable definida inicialmente como cuantitativa sea tratada. esta variable puede ser. construir representaciones y esquemas que mejor resuman la infrmación. Por ejemplo. “género de las personas”. estatura (medida en centímetros. La primera se refiere a auella información que resume. etc.) puede. Este tipo de información se caracetriza. indistintamente. etc. si la variable en estudio es Sexo.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 15 UNIVARIANTE 1. etc. hay que tener presente que la conversión de un tipo de información en otro puede ser posible. pero no podrá “convertirse2 en cuantitativa una variable cualitativa. diseño o muestreo.1. metros. Ejemplos de este tipo de información son “color de ojos de niños”. por lo tanto. en un curso específico. que se puede representar en una forma tabular como sigue: Tabla de frecuencias Sexo Masculino Femenino Frecuencia 20 23 Prof. “parentesco”. La relación fundamental entre unidad de observación y característica observada es la de pertenencia (el sujeto pertenece a tal categoría o posee tal característica). un gráfico de sectores en el que se resume la información: 47% 53% Masculino Femenino Respecto de la “lectura” de la información (o mejor dicho. o cuando se dispone de muchas categorías a representar. Su principal desventaja es. UCTemuco . una ventaja de la Tabla de Frecuencias es su objetividad. El lector “lee” las cifras. como la que se muestra a continuación: Composición de género del curso 23 22 21 20 19 18 Masculino Femenino Aparte de estas formas de representación pueden existir otras. y. de la misma información. La segunad representación. su subjetividad. Resulta obvio que debe tenerse especial cuidado de utilizar este este tipo de gráficos. ya que ellos no son adecuados cuando las diferencias no son muy evidentes.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 16 Una representación gráfica. El principio es muy sencillo: "Un gráfico puede decir más que mil palabras". Son el resultado de un proceso que no admite dudas. Es tarea del analista "adornar" y complementar adecuadamente aquel mensaje con el mejor y más claro lenguaje posible. en cuyo caso la fuente de error no proviene del análisis sino de una errónea aplicación del algoritmo de contar. es tarea del analista buscar o idear sus propias formas de representar la información. no se podrán hacer las compraciones. Mientras no se haga una lectura completa de ella. No se puede olvidar el objetivo de cualquiera de estas representaciones: sintetizar un resumen a objeto de transmitir un mensaje lo más claro y pertinente posible. Por ejemplo. que los cálculos no estén correctos. claro está. Matemáticas y Físicas. de Cs. además. Prof. tiene como una de sus ventajas la facilidad de lectura de la información (no se requieren cálculos para hacer las comparaciones). puede ser más interesante. del resumen) se pueden observar ventajas y desventajas de una y otra forma de representación. A continuación. ♦ La importancia de los gráficos en Estadística es fundamental. Una de sus desventajas es la necesidad imperiosa de “leer” esa información. Juan Moncada Herrera – Dpto. en cambio. y ellas son objetivas. a menos. no obstante. Otra forma muy común de representación gráfica de información de este tipo es el gráfico de barras. eso sí. Medidas de tendencia central Cuando se describe un conjunto de datos. No obstante ello. Estas son. tienen o adquieren en la distribución de los datos. Tratamiento Numérico Como se estableciera en el capítulo sobre variables aleatorias. sino sólo la realidad. medidas de posición y medidas de variabilidad. y el mínimo. no se intenta expresar demasiado ni muy poco. Matemáticas y Físicas. Tal vez en un estudio nos interese establecer el valor que excede sólo el 25% de los datos. depender de los fines que se pretendan con el análisis. Juan Moncada Herrera – Dpto. fractiles. . son: medidas de tendencia central. Las medidas numéricas descriptivas que se abordan en estas notas. las principales medidas que resumen la tendencia central de ese conjunto son: Media: X = 1 n ∑ xi n i =1 Mediana: X0. Medidas de posición Como su nombre lo indica. En ocasiones. otras veces esta situación se presenta como distribución de la frecuencia o bien como gráficas. Prof. que se denotará por min(X). es necesario encontrar formas adecuadas de resumir la información. el conjunto entero de datos. que describa a su modo. Los valores extremos más utilizados (y obvios) son el máximo. Para un conjunto de datos X = {x1. llamadas también. la mayoría de las veces se deben describir mediante uno o dos números cuidadosamente seleccionados. al igual que en el caso de información cualitativa. La forma de describir aquella realidad puede. que se denotará por Max(X). es decir descripciones estadísticas breves o muy elaboradas..5 = Valor central (promedio de valores centrales) de la serie ordenada de X Moda: Valor(es) más frecuente(s) de X (datos cuanti-tativos y cualitativos) Los conjuntos de datos (distribución) con más de una moda se llaman multimodales. xn}. de Cs. en relación al análisi de información. de la Unidad 1. de tipo numérico y también de tipo de gráfico.. las medidas de posición permiten resumir características relativas a la posición que ciertas observaciones. Entre estas medidas las más importantes son los valores extremos y los percentiles. aquel valor que no sobrepase al 10% de los datos y en otro caso el valor que describa el centro de los datos o aquel que se presenta con mayor frecuencia. la descripción y resumen de un conjunto de información de tipo numérico puede hacerse en base a medidas numéricas descriptivas. y que corresponde a la observación (dato) de mayor valor numérico. UCTemuco . Este tipo de número que seleccionamos dependerá de la característica particular que se quiera describir. que puedan hablar por ellos.. Las medidas que describen estas características se conocen con el nombre de medidas de tendencia o de localización. o conjuntos de ellas.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 17 DATOS CUANTITATIVOS Cuando los datos son de naturaleza numérica (cuantitativa). Surge así la necesidad de resumir los datos a través de un único número. en otro. los datos se presentan en su forma original y es posible que “hablen” por si solos. siendo las que describen el centro o punto medio las llamadas “Medidas de Tendencia Central”. y que corresponde a la observación de valor numérico menor. x2. 100] (esquema siguiente). etc. los percentiles se obtienen mediante una correspondencia biunívoca entre la serie ordenada de observaciones y el intervalo real [0. es el coeficiente de asimetría o coeficiente de sesgo. por su parte. UCTemuco . . x2. mientras que una medida de la segunda es el coeficiente de kurtosis. los deciles (particionan la serie en diez clases de igual frecuencia: 10% de observaciones en cada clase o grupo). se definen estos indicadores por: Coeficiente de sesgo: CS = 3(media − mdiana ) (de Pearson) desviación estándar Q − 2Q2 + Q3 CS = 1 Q3 − Q1 Kurtosis: ∑ (x K= i − x) 4 n S4 Prof. xn} son: Rango: R(X) = Max(X) – min(X) Varianza: S 2 = 1 ∑ ( xi − x ) 2 n −1 Desviación estándar: d .. el segundo cuartil. Matemáticas y Físicas. referido a la capacidad de concentrar las observaciones en torno de una valor. Juan Moncada Herrera – Dpto. Medidas de variabilidad Las medidas más utilizadas para sintetizar las características de variabilidad de un conjunto de datos de naturaleza cuantitativa X = {x1.00 .e. Para una serie de datos X.. de tal modo que cada “parte” en esa partición tiene una frecuencia (relativa o porcentual) determinada. los más utilizados son los cuartiles (particionan a la serie de observaciones en cuatro clases de igual frecuencia: 25% de datos cada clase o grupo).. de Cs. De ahí el nombre de percentiles.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 18 Los percentiles. los quintiles (particionan la serie de datos en cinco conjuntos de igual frecuencia: 20% cada grupo). Matemáticamente. o equivalentemente. y el grado de agudeza o puntiagudez. De entre los percentiles.( X ) = Coeficiente de variación: CV ( X ) = S2 = S S 100% X Medidas de forma: Simetría y Kurtosis En relación a la forma de una distribución. argumentando que es el percentil de orden 50%. Algunos autores definen a la mediana como una medida de posición. son principalmente dos los aspectos que pueden interesar en el estudio de una distribución: el grado o nivel de simetría (distribución armónica y bien espaciada de las observaciones en torno a un valor dado). porque dividen porcentualmente (percentílicamente) a la serie de datos. Una medida de la primera característica (o de una anticaracterística). corresponden a valores que “particionan” la distribución de la serie ordenada de observaciones. Matemáticas y Físicas. – Por lo general.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 19 Observaciones: – Existen varios coeficientes de asimetría. de Cs. El más utilizado es el presentado aquí. esto se ve facilitado enormemente. y asimétrica positiva si CS>0. si CS<0. – Una distribución se dice simétrica si CS=0. por lo que deberá buscarse agrupaciones alternativas. La presentación de una agrupación particular de datos continuos puede hacerse en lo que se llama Tabla de Frecuencias. según sea el valor del CS (ver figura 1). – Una distribución puede recibir distintos nombres. platicúrticas y leptocúrticas (ver figura 2). Esto es lo que se conoce como análisis en base a datos agrupados. que se atribuye a Pearson. llamados tambén clases. UCTemuco . |CS|≤3. Cuando estas clases son intervalos bien definidos se les llama intervalos de clase. Prof. y una agrupación dada puede no representar bien la información. Esta tabla de frecuencias es una disposición tabular–rectangular en la que se identifican los grupos en los cuales se ha distribuído la información y las caracaterísticas más relevantes de esos grupos. En estos casos se hace necesario algún procedimiento de agrupación de los datos de modo de hacer más comprensible su estructura. Figura 1: Curvas según coeficiente de asimetría Figura 2: Curvas según coeficiente de curtosis Resumen tabular: Tablas de frecuencia Hay situaciones en las que la cantidad de información es muy grande. Gracias a la Computación e Informática. – De acuerdo a su forma. La agrupación obedece a criterios subjetivos. Juan Moncada Herrera – Dpto. las distribuciones se clasifican en mesocúrticas. asimétrica negativa. o bien no existe una variable de clasificación que facilite su análisis. 500 16.8 16.2 15.938 8 .3600 .224 15.750 17.2 13.2 16.875 15.1 Es obvio.5 15.2. que puede expresarse en forma absoluta (número de unidades en la clase) o en forma relativa (porcentaje de unidades de observación en la clase).7 16. que corresponde a un representante de la clase correspondiente.563 15.000 13.0000 --------------------------------------------------------------------------------- ♦ Prof.0 15.1 15.9 14.4 17.0 15. Es habitual que el punto medio de la clase sea la marca de clase.438 17.8 14.4 15.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 20 Entre los elementos distintivos de la tabla de frecuencia.4 15.14064 1.7 4.0 15.1600 10 .0400 18 33 42 43 48 50 .1600 .0400 2 13.188 15.5 14. A continuación se presenta un ejemplo que ilustra la forma y estructura de una agrupación de datos en una tabla de frecuencias.1000 . of variation 15.5 16.4 14.9 13.3 15.3 7.3000 . UCTemuco .313 2 . Ejemplo 1. puede ser la mediana de la clase.7 14.875 15.125 16.1 17.5 13.6 14.6600 . que al "mirar" los datos es muy poco lo que se ve.0 14.688 8 15 9 1 5 2 .000 14.8 15.375 14. Puede ser el valor promedio de la clase. Pero antes de proceder al agrupamiento de la información.125 16.250 13.0400 2 . se tiene la frecuencia de cada clase.3 17. se pueden obtener características numéricas básicas de la información. Rel.5 15.7 15.5 13.01528 ------------------------------------ Notar que estos pesos tienen una distribución bastante simétrica.9 15.2 16.063 17. Frequency Tabulation -------------------------------------------------------------------------------Lower Upper Relative Cumulative Cum.06801 13.4 14.4 15.1 14.0 17.500 16.0 14.2 1.6 17.1800 .2 15.Con la ayuda de un software estadístico.625 13.9 16.250 14.4 14. Las siguientes cifras corresponden a pesos (en kg) de 50 niños de entre 2 y 3 años de edad. Matemáticas y Físicas.7 16. Se hace necesario un análisis en base a datos agrupados.9 14. 13.813 16.8 15. pués son similares la media.2 15.8400 .9 15.2000 3 4 5 6 7 8 14. Class Limit Limit Midpoint Frequency Frequency Frequency Frequency --------------------------------------------------------------------------------1 13. la moda y la mediana.375 18.6 15.625 14. de Cs.8 14.8 14. Juan Moncada Herrera – Dpto. que en sí es información de resumen. se obtiene: Variable: Peso de niños -------------------------------------Sample size 50 Average Median Mode Variance Standard deviation Minimum Maximum Range Coeff.8600 .7 13.0200 .750 17.3 14. Otro elemento distintivo de la tabla es la marca de clase.9600 1. o alguna otra cantidad que represente bien a la clase. Media: X = 1 n ∑ mi ni .625. la media es 15. existe una forma gráfica.2 anterior. Juan Moncada Herrera – Dpto. con más o menos elementos descriptores. primero. la distribución de los datos parece bastante simétrica. Varianza: La varianza de una distribución. que es mucho más eficiente en la obtención de este tipo de medidas. Notar que sólo podrá observarse la clase. n es el total n Med de observaciones. Ejemplo 1. Observación: Todas las medidas obtenidas a partir de una tabla de frecuencias son aproximaciones de las respectivas medidas obtenidas a partir de los datos originales. que se verá más adelante. y corresponde a la clase de más alta frecuencia. En relación a la mediana.5 = L + 0.16667. en algunas ocaciones. se obtiene de manera similar al caso de datos no agrupados. que tiene un límite inferior igual 14. Aunque exige ciertas condiciones a los datos. Pero para lograr ese reencuentro hace falta saber leer el mensaje que contiene el resumen. Por lo tanto su valor es 15. Éste es el objetivo de todo resumen. Parece natural que se necesita de una forma alternativas a las ya vistas de obtener esos estadísticos. UCTemuco . la clase mediana es la cuarta clase.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 21 Medidas numéricas a partir de un resumen tabular La tabla de frecuencias. en la forma de una proposición matemática primero. En consecuencia. y en una formulación empírica después.785. ya que no se cuenta con información original o “en bruto” como para aplicar las fórmulas de cálculo conocidas. Moda: Más bien se habla de clase modal. es un resumen. medidas de tendencia central o de variabilidad.3. la clase modal también es la clase 4. Sólo deben usarse los estadísticos adecuados. de Cs. de identificar la clase mediana. A continuación se presentan algunas medidas descriptivas básicas a partir de una tabla de frecuencias. Por último. donde mi es la marca de la clase i y ni la frecuencia absoluta respectiva. donde L es el límite inferior de la clase mediana. ♦ Desigualdad De Tschebyshev Un resumen estadístico debe ser una síntesis de la realidad. La mediana corresponde entonces al valor X 0. obtener medidas descriptivas más específicas a partir de ella. nMed es la frecuencia absoluta de la clase mediana y C es la amplitud (largo) de la clase mediana. Prof.238. n i =1 Mediana: La mediana requiere. una frecuencia absoluta de 15 y una amplitud de 0. Percentiles: Aunque existe una forma algebraica de obtención de percentiles a partir de una tabla de frecuencias. Ésta es aquella clase en la que se encuentra el valor central de la serie ordenada. y no el valor central. Como tal debe reunir los aspectos más relevantes de aquella y transmitirlos pertinentemente. Puede ser necesario.5n − F−1 C . A juzgar por estas caraterísticas. A partrir de la tabla del ejemplo 1. como por ejemplo. F-1 es la frecuencia acumulada hasta la clase inmediatamente anterior a la clase mediana. a partir de datos agrupados. debe ser también un reencuentro con la realidad. Una de las herramientas más poderosas para esa lectura se presenta a continuación. Matemáticas y Físicas. hay infinidad de situaciones en las que su uso ayuda considerablemente a la inerpretación. para comenzar luego una disminución. de Cs. (Desigualdad de Tschebyshev). entonces: – Aproximadamente el 67% de los datos se encuentra a una desviación típica de X . la forma más adecuada y atractiva de presentar la información numérica es a través de gráficos y diagramas. – Aproximadamente el 99% de los datos se encuentra a tres desviaciones típicas de X .ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 22 Proposición 1. la mayor parte de los datos oscila entre 6. ♦ Tratamiento Gráfico En muchos casos. relativamente simétrica. ¿qué se puede concluir de las observaciones? Solución.4 y 7+2·0.. La elección del tipo de gráfico más adecuado para resumir cierta información. . xn} un conjunto de observaciones con una media X y una desviación estándar S..2 y 7.4. En la figura siguiente se presenta un resumen gráfico referido al promedio mensula de material prticulado en Temuco durante los 12 meses del año 2003. se tienen los gráficos de línea o lineales. entonces. Situando el tiempo en el eje horizontal y la variable de interés en el eje vertical. el 95% de los datos oscila entre 7– 2·0. dependerá en gran medida del objetivo que se pretenda con él y del uso que a éste se le dará. En él se visualiza un claro aumento de enero a mayo. mediante aplicación de la regla empírica de la desigualdad de Tschebyshev. aproximadamente. Una formulación práctica de la Desigualdad de Tschebyshev es: Regla empírica de Tschebyshev: Si la distribución de X es simétrica en torno de su media X .. se puede establecer que. Ejemplo 1. Estos tienen la gran ventaja de que permiten una asimilación visual de las características de los datos estudiados bastante más rápida que la simple contemplación de resúmenes tabulares. Por ejemplo. Entonces para una constante k>1. Juan Moncada Herrera – Dpto. Esto es. Sea X = {x1. se resume en una media igual a 7 y una desviación típica de 0.8. se obtiene una secuencia temporal para esta última.4. x2. UCTemuco Prof. Promedio mensual pm10 en Temuco Año 2003 100 90 80 70 60 50 40 30 20 10 0 Ju lio Ag Se osto pt ie m br e O ct ub re No vi em br Di e ci em br e En er o Fe br er o M ar zo Ab ril M ay o Ju ni o Fuente: Escuela de Ingenería Ambiental. el porcentaje de información que se encuentra a kS de la media X es al menos (1 − 1 k2 )100% . – Aproximadamente el 95% de los datos se encuentra a dos desviaciones típicas de X . Matemáticas y Físicas. UCTemuco . Dado que la distribución es simétrica.4. Si una distribución. ante la necesidad de mostrar la evolución de una variable a través de un período de tiempo determinado. en millones de pesos. cuyo gran objetivo es mostrar la distribución de frecuencias de los datos estudiados. en Inv. y Desarrollo 40 30 Millones de Pesos 20 10 0 Inversión Utilidades Al intentar analizar y resumir un gran volumen de información.5. resumida en la tabla siguiente: Inversión en Investigación y Desarrollo vs Utilidades Inv. es decir. tal como se presenta en el ejemplo 1. Prof. y posteriormente se ilustra con un ejemplo su construcción. Juan Moncada Herrera – Dpto. en los últimos 9 años. Tomando la información del ejemplo 1. y Desarrollo A través de este resumen gráfico es posible establecer la relación directa o positiva existente entre las variables en estudio. Su construcción se realiza. en la medida que la inversión en investigación y desarrollo aumente. El gráfico de cajas es una herramienta de gran utilidad para el análisis de uno o más conjuntos de datos. de Cs. no podemos olvidar a los tradicionales histogramas y ojivas. también lo harán las utilidades del centro de investigación. en Inv. y las utilidades obtenidas por estos conceptos. es decir cómo se comporta una variable (dependiente) en función de otra variable (independiente). y Desarrollo 2 3 4 5 3 7 9 11 10 Utilidades 20 25 30 31 26 34 36 38 37 40 36 Utilidades 32 28 24 20 2 4 6 8 10 12 Inv. directamente. Ejemplo 1. Matemáticas y Físicas. Construido a través de las medidas de posición. permite formarse una idea respecto de la distribución de la(s) variable(s) en estudio. A continuación se muestran las formas características de estas representaciones. UCTemuco . a partir de la tabla de frecuencias.5. Información. Un centro experimental desea establecer la relación existente entre los montos invertidos en investigación y desarrollo.4 ilustraremos esta situación.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 23 A menudo nos puede interesar explorar la relación lineal entre dos variables. situación que puede ser analizada a través del diagrama de dispersión. Gráfico de Cajas para la Inversión en Inv. de la tabla de frecuencias. HISTOGRAMA OJIVA PORCENTUAL ASCENDENTE Un histograma y una ojiva (distribución acumulada) para los datos del ejemplo 1. y los tradicionales histogramas y ojivas.300 2 0. Juan Moncada Herrera – Dpto. UCTemuco . de Cs.900 0.400 0.500 4 0. y posteriormente se ilustra con un ejemplo su construcción.1 1 00 7. Consideremos los datos de la tabla adjunta. además de otras reprentaciones como gráficos de lineas. Histograma de frecuencias relativas 1 . Matemáticas y Físicas. En ella se registran los pesos. en kilogramos.700 6 0.1 1 00 4. de cien personas adultas.000 Distribución acumulada 10 0.1 00 0 13 14 15 16 17 18 0.800 Frecuencia relativa 8 0. Estos últimos se pueden construir a partir.000 1 00 3. A continuación se muestran las formas características de esas representaciones.1 1 00 6.200 0. directamente.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 24 Los gráficos adecuados para el análisis de grandes volúmenes de información pueden ser los ya vistos.600 0. Son por excelencia los homólogos gráficos de la tabla de frecuencias.1 Peso de 50 niños Ejercicio.1 1 00 5. 89 63 71 88 87 84 83 78 77 68 78 74 84 95 83 81 79 78 95 99 65 61 60 65 84 88 91 79 69 75 75 73 76 91 81 76 77 78 79 83 66 68 79 85 79 83 69 70 80 99 70 75 81 100 78 90 81 85 38 68 80 85 85 83 79 84 110 75 75 77 61 87 71 97 92 83 93 75 83 78 90 85 78 76 83 79 65 85 83 78 98 69 77 87 86 79 81 78 77 83 Prof.3 se presentan a continuación. de Cs. De este aspecto y sus derivados tratan las secciones siguientes. sino también sabe qué forma tiene esa asociación. pero no tendríamos una forma gráfica adecuada para todos los datos. Los diagramas en (b) y (c). en diagrama (b) más bien evidencia una asociación curvilinea (cuadrática). Este es el problema de asociación. que es el mayor problema. rango (diferencia entre máximo y mínimo). correlación lineal. El estudio de la correlación lineal corresponde al análisis de correlación lineal. variabilidad o dispersión. un análisis en base a datos agrupados. Es necesario.4. hay que agrupar los datos. el (a) resume y manifiesta. Formalmente el análisis de correlación corresponde al conjunto de técnicas estadísticas empleado para medir la intensidad de la relación o asociación lineal entre dos variables.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 25 La variable aquí en estudio. Un profesor puede desear establecer si existe o no relación entre el nivel de ingresos familiares y el éxito académico que los alumnos pudieran tener en la universidad. etc. CASO DE DOS VARIABLES CUANTITATIVAS CONTINUAS: CORRELACIÓN DE PEARSON El problema es determinar si dos variables cuantitativas o numéricas se encuentran o no relacionadas entre sí. existen muchas situaciones en las que el conocimiento de una asociación entre variables puede explicar un fenómeno. pareciera lógico pensar que el promedio de calificaciones de educación media de un estudiante esté relacionado con las calificaciones obtenidas en la universidad (al menos en sus primeros semestres). En estas notas se presenta el análisis de un tipo particular de asociación: La asociación lineal. al parecer. por ejemplo. el pediatra sabe que existe una relación (asociación) entre peso y talla de niños de cierta edad. En fin. Un aspecto inicial del análisis lo constituye la determinación intuitiva o a priori de esta asociación. en cambio. existe un par de variables que en algún modo resumen o permiten resumir bien el objeto o problema en estudio. permitir el control de ese fenómeno. peso de las personas. no tiene asociada una variable de clasificación que facilite su análisis. se recomienda construir un diagrama de dispersión de los datos. Particularmente. mediana (o valor central). valores extremos. es decir.. Se sugiere intentar una agrupación. construir el histograma y la ojiva. una relación lineal positiva entre las variables correspondientes. no ponen en evidencia. especialmente gráfico. Podemos determinar el peso promedio (o peso medio). UCTemuco . De los gráficos siguientes. Por ejemplo. y en cierta manera. ESTADÍSTICA BIVARIANTE Es muy común que la explicación de un fenómeno o realidad requiera del conocimiento de algún aspecto de ella. Por ejemplo. sin desechar las medidas anteriores. En este caso. ♦ 1. al menos en apariencia. Por ejemplo. Una vez que se ha establecido la posibilidad de existencia de correlación lineal. Prof. como en la mayoría de los que aquí serán tratados. Juan Moncada Herrera – Dpto. y en base a la Tabla de Frecuencias obtenida. En muchos casos las sospechas iniciales pueden ser corroboradas o refutadas por medio de un gráfico. llamada más comúnmene. Matemáticas y Físicas. mientras que en (c) no se advierte ninguna tendencia en particular. Y no sólo sabe que existe una asociación. El análisis consiste en establecer la forma en que se relacionan o asocian tales variables. relación lineal alguna. puede ser deseable conocer o explicar el comportamiento de los alumnos (en la sala de clases) por medio de su realidad familiar. que corresponde a r2. es más bien una técnica intuitiva. 4) r = 0 significa ausencia total de correlación lineal. Sean X y Y dos variables aleatorias de las que se han registrado. Y: Costo asociado al logro del puntaje. entre las dos variables. de Cs.y) del vector aleatorio (X. así como la construcción de un diagrama de dispersión. que se muestra a continuación. 3) r = –1 significa correlación lineal perfecta. Matemáticas y Físicas.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 26 El diagrama de dispersión. definido a continuación: Definición. se facilitan considerablemente con el uso de calculadoras y software. como herramienta de detección de correlación o asociación entre dos variables. El porcentaje de variabilidad de Y explicado por la variabilidad en X lo mide el coeficiente de determinación. El cálculo de r. Observaciones 1) El coeficiente de correlación de Pearson r satisface –1 ≤ r ≤ 1 2) r =1 significa correlación lineal perfecta. Esto puede lograrse con la ayuda del diagrama de dispersión. La cantidad 1–r2 se denomina coeficiente de no determinación. En primer lugar exploraremos si se evidencia o no alguna tendencia en los datos. La mayoría de las calculadoras científicas permiten el cálculo directo de r. Ejemplo 1. Prof. Esto es. n observaciones. X Y 16 77 14 70 22 85 10 50 14 62 17 70 10 52 13 63 19 80 12 57 18 81 11 54 Solución. respectivamente. El coeficiente de correlación muestral de Pearson se denota y define por: r= ∑X Y i =1 n i i − nXY (n − 1) S X S Y donde SX y SY son las desviaciones estándares muestrales de X y de Y. mediante el módulo LR. El coeficiente de correlación así definido representa la proporción de la reducción a la variabilidad de Y cuando esta variabilidad es explicada por medio de una relación lineal con X. y positiva. UCTemuco . Juan Moncada Herrera – Dpto.Y). y negativa. en forma simultánea. de una cantidad que resuma y cuantifique esta asociación en base a los datos observados. entre las dos variables. La idea es estudiar la relación que pudiera existir entre X y Y. Una medida de esta asociación muy utilizada es el coeficiente de correlación lineal de Pearson.6. se tienen n pares ordenados (x. Se necesita de una medida (numérica) de correlación lineal. Los datos siguientes son X: Puntaje en un sistema de aprendizaje. y eventualmente reducidos Prof. ρ = 0). la medida de la asociación lineal está dada por r = 0. las variables se presentan ortogonales. 4. Habrá que analizar la forma más pertinente que usaremos para comunicar lo observado. La representación gráfica de la correlación sólo es posible en un espacio de dos o tres dimensiones. ♦ Representación Gráfica de la Correlación Lineal Sin duda que los mensajes con una componente analógica (gráfica) juegan un importante papel en las interpretaciones de resultados. Ya que la representación analógica se construye a partir de vectores centrados. Sin embargo. Sobre esta base. el ángulo entre las variables mide 90° (el coseno de un ángulo que mide 90° es 0). la correlación disminuye. X Es evidente que si existe alguna asociación lineal entre X y Y. Esto significa que. Cuando el ángulo que forman las variables mide 180° (ángulo extendido). Puede demostrarse. Esta relación es muy importante. es decir. el coeficiente de determinación es r²=0. la correlación se asocia con el coseno del ángulo que las variables forman. es decir. independencia se asocia con ortogonalidad. Además. En síntesis. Algunas consideraciones: 1. la siguiente importante relación respecto del coeficiente de correlación lineal de Pearson: ρ ( X c . y en este caso veremos las variables orientadas en sentido opuesto. UCTemuco . a cada valor de ellas se les ha restado su media. En este sentido puede ser más ilustrativo un gráfico que una tabla con una serie de datos.916892. ésta debe ser lineal (ver gráfico siguiente). Dado que. 5. de Cs.Y c ) = cos(θ ) donde θ es el ángulo que forman los vectores directores asociados a las variables Xc y Yc. Recíprocamente.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL RESULTADOS DE UN PROCESO DE APRENDIZAJE 90 27 Costo de obtención del puntaje. 2. pero colineales. entonces el coseno vale –1. Juan Moncada Herrera – Dpto.95754. En ausencia de correlación (independencia total. no puede concluirse que las componentes analógicas sean de mayor importancia que las componentes digitales en un mensaje. puesto que permite "ver" las correlaciones. en tanto que estimar su valor aproximado. aproximadamente. geométricamente. con herramientas matemáticas que escapan a los objetivos de este curso. menor medida del ángulo implica una mayor correlación. el 92% de la variación en el costo se explica por la variación en el puntaje. 3. y éstas son variables centradas. Esto es. entonces a medida que dicho ángulo aumenta en magnitud. Y 80 70 60 50 9 12 15 18 21 24 Puntaje. Matemáticas y Físicas. hay una relación lineal inversa. mejor será la “representación” del vector en el plano.7. 2. Charles Spearman. 3. Los datos siguientes muestran los puntajes obtenidos por 5 trabajadores en sendas pruebas de destreza y de producción semanal. Dicha medida se conoce como Coeficiente de Correlación de Rangos de Spearman. estas mismas dos variables estarían relacionadas negativamente con X3.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 28 (de varianza unitaria). las variables X1 y X2 parecen estar altamente relacionadas (de forma positiva). se espera observar estas variables (o vectores) al interior de un círculo unitario y con sus extremos en un círculo. Nombre Trabajador Pedro José Daniel Samuel Susana Puntuación Destreza 62 92 70 50 86 Producción Semanal 800 900 840 775 875 Para utilizar el coeficiente de correlación de rangos de Spearman. En estos casos. y X2 y X4 serían independientes. En Prof. se deben jerarquizar las observaciones. Satisface que –1≤ rs ≤1. quizá una “proyección” de las asociaciones en un plano sea suficiente para formarse una idea de esa asociación. y se denota y define por: rs = 1 − 6∑ d 2 n(n ² − 1) donde d: diferencia entre los rangos de cada par. La figura adjunta ilustra las ideas anteriores. de Cs. rs = 0 significa ausencia total de correlación lineal. Ejemplo 1. y más contundente será la conclusión. cuanto más cercanos al círculo de correlaciones se encuentren los extremos de los vectores. exige que ambas variables sean continuas. llamado círculo de correlaciones. En caso de espacios de dimensión mayor a dos (incluso tres). analizado anteriormente. CASO DE DOS VARIABLES CUANTITATIVAS ORDINALES: CORRELACIÓN DE SPEARMAN Definiciones y Propiedades El coeficiente de correlación producto-momento de Pearson. rs = ±1 significa correlación lineal perfecta entre las dos variables. Matemáticas y Físicas. el rs de Spearman satisface las siguientes propiedades: 1. Es decir. datos que están o que pueden ordenarse por algún algoritmo de orden ascendente o descendente. Por su parte. Juan Moncada Herrera – Dpto. ideó una medida de correlación para datos de nivel ordinal o de rango. UCTemuco . Es pecíficamente. aunque la variable X1 no estaría bien representada en ese plano. n: número de pares observados Al igual que el r de Pearson. Matemáticas y Físicas. ya que notando que cada diferencia de rango d es cero. y Es recomendable utilizar este coeficiente de correlación sólo una vez que se haya corregido el problema de "empates". Luego de esto se obtiene una corrección para el coeficiente de correlación dada por: rs= ∑ x + ∑ y² − ∑ d ∑ x²∑ y ² 2 2 2 i donde . Prof. de Cs.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 29 este caso ordenaremos en forma ascendente las series. se tendrá también que d² = 0. ♦ 5(5² − 1) 5 4 3 2 1 0 0 1 2 3 4 5 Las observaciones que tienen el mismo rango (empates) pueden constituirse en un serio problema a la hora de utilizar este coeficiente de correlación. se puede utilizar el siguiente procedimiento de corrección: T= t³ − t 12 donde t es el número de observaciones empatadas para un mismo rango. tal como se muestra en la siguiente tabla: Nombre Trabajador Pedro José Daniel Samuel Susana Puntuación Destreza 62 92 70 50 86 Producción Semanal 800 900 840 775 875 Rango para Destreza Producción 4 4 1 1 3 3 5 5 2 2 El gráfico de Destreza versus Producción (gráfico siguiente) muestra una correlación lineal aparentemente perfecta. ∑ x² = ∑T ∑T n³ − n n³ − n − ∑ Tx . es la suma de los valores de para los rangos empatados de Y. Lo anterior es fácil de corroborar numéricamente. Puntajes altos (bajos) se relacionan o corresponden entre sí. Juan Moncada Herrera – Dpto. ∑ y ² = − ∑ Ty y 12 12 x es la suma de los valores de para los rangos empatados de X. Si hay un importante número de empates. así que rs = 1 − 6( 0) = 1. UCTemuco . si las variables son Sexo (dos modalidades. Podemos decir que el problema principal es describir las distancias entre los elementos de la tabla. Entonces se procede a contar el número de co–ocurrencias de las distintas modalidades y se registran en una tabla de doble entrada: la Tabla de Contingencia o Tabla Cruzada. No obstante. al igual que en los casos anteriores. mientras en los análisis de correlación anteriores el interés se centra en las variables. el cruce de dos variables cualitativas corresponde a un resumen de las co–ocurrencias de las distintas modalidades de las variables.. cuando examinamos las relaciones entre variables. Juan Moncada Herrera – Dpto. n Variables cualitativas X1 X2 . lo que se desea explorar por medio de una tabla del tipo Individuos x Variables Cualitativas es la relación entre las variables o las modalidades de ellas. O MÁS BIEN SON ELLAS INDEPENDIENTES? Nuevamente la idea de distancia es fundamental en la construcción de un resumen que mejor dé cuenta de las asociaciones entre variables. Individuos 1 2 . Los aspectos descriptivos de una tabla de contingencia se basan en la tabla cruzada. Matemáticas y Físicas. Y EN BASE A LAS FRECUENCIAS U OBSERVACIONES CORRESPONDIENTES: ¿EXISTE ALGUNA RELACIÓN ENTRE TALES CARACTERÍSTICAS.. Aunque un Análisis de Contingencia puede ser en cierto modo complejo. Xp Una primera diferencia con los coeficientes presentados anteriormente es que el contenido de una tabla cruzada (o de contingencia) está conformado por frecuencias. cada una con un número específico de modalidades o categorías. el problema a estudiar es muy similar. las tablas de contingencia pueden tratarse desde una perspectiva descriptiva. Hablar de asociación o relación entre dos variables cualitativas es hablar de Tablas Cruzadas o de Tablas de Contingencia.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL CASO DE DOS VARIABLES CUALITATIVAS: TABLAS DE CONTINGENCIA 30 Se dispone de dos variables cualitativas. C2 y C2). UCTemuco . lo que se está haciendo es examinar la "distancia" a Prof. M y F) y Carrera (tres modalidades: C1. se trata aquí de colectivos de individuos más que de individuos singulares. En efecto. y entre colectivos de individuos. entonces el cruce de ellas se puede resumir en una tabla con la siguiente estructura: Carrera Sexo M F C1 C2 C3 En cada "celda" de esta tabla se registra el número de co–ocurrencias de las modalidades. Sin embargo.. Específicamente. Por ejemplo. que es lo primero de un análisis de contingencia. se puede establecer que el problema principal de una tabla de contingencia es: DADAS DOS O MÁS CARACTERÍSTICAS DE LA POBLACIÓN. de Cs. en el caso que estamos presentando el interés se centra en los individuos. Más aún. cualquiera sea el análisis inicial. sin pasar por el natural análisis de contingencia. En síntesis. o resumir las comparaciones que en ella se hagan. En efecto.. UCTemuco . La Tabla de Frecuencias o Tabla de Contingencia: Un Primer Resumen Una tabla que sí constituye un resumen (y por tanto implica pérdida de información). Por ejemplo.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 31 la que se encuentran esas variables. RELIGIOSA: C1 C2 entonces la información proporcionada por los individuos encuestados puede registrarse en una planilla parecida a la siguiente: TABLA 1: Tabla de Códigos Condensados para Carrera y Adscripción Religiosa Ind 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Carrera B C A A A D B D C C A D D B C Adsc. de Cs. La Tabla de Códigos Condensados no es un resumen. Por su parte. Es la codificación de la encuesta lo que constituye la materia prima de esa tabla de datos. Así por ejemplo el problema de independencia asociado a una tabla de contingencia no es más que un problema de distancia: la distancia entre la tabla observada y una tabla que representa la situación perfecta de independencia. es simplemente la codificación de las respuestas. si disponemos de las variables: CARRERA: A B C D ADSC. Matemáticas y Físicas.Rel C2 C2 C1 C2 C2 C2 C2 C2 C2 C2 C1 C1 C1 C1 C1 Esta es una de las primeras tablas en el tratamiento de encuestas. Juan Moncada Herrera – Dpto. y se llama Tabla de Códigos Condensados. Por ejemplo. Esta tabla contiene las co-ocurrencias de las distintas modalidades de las variables. lo que es equivalente a calcular la distancia entre distintos colectivos de individuos. la tabla de frecuencias asociada a la información anterior es: Prof. La confección o construcción de la tabla de datos para este análisis parte de un protocolo de encuesta. cuando abordamos el problema de correlación. el cual es resumir la información de la tabla de datos. y casi sin darnos cuenta. Sin duda que el concepto de esa distancia puede ser el problema. En este sentido habrá que buscar alguna forma de "medir" esa distancia. lo hacemos determinando el peso que los diferentes grupos de individuos tienen en la tabla. De la Encuesta a la Tabla de Datos Retomemos el problema inicial. es la Tabla de Frecuencias o también llamada Tabla de Contingencia. 1993). Las ventas en cada zona se describen como Exportaciones. Prof. dos perspectivas: en relación a la producción y en relación a la comercialización. Juan Moncada Herrera – Dpto. No hay que olvidar que este punto del análisis es realmente esencial. puede resultar interesante un análisis descriptivo de ella. Las compras hechas de artículos producidos en otras zonas aquí son llamadas Importaciones o Autoconsumo. especialmente de las frecuencias marginales de la tabla. El siguiente ejemplo pone de relieve algunos aspectos descriptivos que pueden ser útiles en la interpretación de la información de una tabla de contingencia. RELIG. Matemáticas y Físicas. C2 TOTALES CARRERA C1 FILAS A 2 2 4 B 1 2 3 C 1 3 4 D 2 2 4 TOTALES 6 9 15 COLUMNA Aspectos Descriptivos de una Tabla de Contingencia Antes de proceder a un análisis más estadístico de una tabla de contingencia. Producción Ventas en cada zona total de lana en cada zona A B C A 75 25 54 154 B 56 78 189 323 C 89 132 202 423 Total Ventas 220 235 445 900 Gráfico 1: Producción de artículos de lana en cada zona El análisis puede hacerse desde. E.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 32 Tabla 2: Tabla de Contingencia para Carrera versus Adscripción religiosa ADSC. Ejemplo 1.: Análisis Factorial de Correspondencias. al menos.8. En el año 1994 el movimiento mercantil artesanal de tres zonas se resume en la siguiente tabla (adaptación de un problema citado en Crivisqui. de Cs. UCTemuco . Tabla 3: Tabla de contingencia para el mercado artesanal de tres zonas Producción de Art. por cierto. Tabla de frecuencias relativas asociada a la Tabla 2 ADSCRIPCIÓN RELIGIOSA CARRERA A B C D TOTALES COLUMNA C1 2 15 1 15 2 15 2 15 6 15 C2 2 15 2 15 2 15 2 15 9 15 TOTALES FILA 4 15 3 15 4 15 4 15 1 Prof.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 33 Respecto de la producción. Juan Moncada Herrera – Dpto. en tanto que la Zona B. Esto se logra dividiendo cada elemento (celda) de la tabla por el tamaño poblacional o muestral. y la zona C se muestra como la zona con mayor producción de entre las tres. En él se aprecia. si se desea extraer y representar adecuadamente la información de aquella tabla habrá que neutralizar el efecto amplificador que en las comparaciones induce el tamaño de la población o de la muestra observada. La tabla resultante será llamada en adelante Tabla de Frecuencias (relativas). en el gráfico 1 puede observarse que la Zona A produjo 154. la comparación. En el gráfico 2 se hace una representación conjunta de ambos procesos: exportación e importación. En este sentido. UCTemuco . Matemáticas y Físicas. con bastante claridad. de Cs. la naturaleza exportadora de la zona B. mientras que la zona A se presenta como una zona preferentemente importadora.Importaciones" según zona Representación digital de la información de una tabla El objetivo de un análisis estadístico es. 323. Nótese que la información proporcionada por el gráfico 2 es mucho más "informativa" que la proporcionada por el gráfico 1 Gráfico 2: "Exportaciones . ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 34 En la tabla de frecuencias (relativas). En situaciones como éstas puede suceder que una o más variables. UCTemuco . sean las que realmente den cuenta de la relación por la asociación que ella tiene con las que constituyen la base del análisis. de Cs. un Perfil Columna es la distribución de frecuencias de la columna en relación al total marginal columna correspondiente. los totales fila o columna son llamados vector de peso o Centro de Gravedad de la tabla. Por su parte. no consideradas en el estudio. Tablas de perfiles en línea y en columna Asociada a una tabla de contingencia (o de frecuencias) existen otras dos tablas: La Tabla de Perfiles en Línea y la Tabla de Perfiles en Columna. por ejemplo) se haya detectado un asociación importante entre las variables en estudio. y ésta no exista como tal. cuando se tengan tres o más variables interrelacionadas. Las tablas de perfiles asociadas a la Tabla 2 son las siguientes: Tabla de perfiles fila ADSCRIPCIÓN RELIGIOSA CARRERA A B C D TOTALES COLUMNA C1 2 4 1 3 1 4 2 4 C2 2 4 2 3 3 4 2 4 1 1 1 1 6 9 Tabla de perfiles columna ADSCRIPCIÓN RELIGIOSA CARRERA A B C D TOTALES COLUMNA C1 2 6 1 6 1 6 2 6 C2 2 9 2 9 3 9 2 9 TOTALES FILA 4 3 4 4 1 1 Correlación Condicional Algunas veces puede ocurrir que mediante el uso de algún procedimiento de análisis (como el uso de χ2 . Juan Moncada Herrera – Dpto. Un Perfil Línea (o perfil fila) es la distribución de frecuencias de la fila en relación al total marginal fila correspondiente. Matemáticas y Físicas. Por lo tanto. es necesario neutralizar el Prof. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 35 efecto de una de ellas en el estudio de la asociación de las otras. Este procedimiento es conocido como Correlación Condicional o Correlación Parcial. En esta sección veremos el impacto que en la comprensión de la información contenida en una tabla de contingencia pueden tener esos factores externos a las variables involucradas en la tabla. Por ejemplo, en la situación anterior, ¿qué efecto tiene en sexo del paciente en recuperación? Sin duda que la respuesta a esta interrogante podrá encontrarse sólo si se tiene esta última información. Ejemplo 1.9. (La paradoja de Simpson)1. Se estudió la sentencia (condenación a muerte o no) de 4764 asesinatos juzgados en Florida de 1973 a 1979 (Cf. Kripendorf: "Information Theory and Statistics". Wiley, 1986). Según la raza del asesino, se observaron los resultados de la siguiente tabla: Asesino\condenación a muerte Blanco Negro Si 72 59 No 2185 2448 Tasa 3.2% 2.4% Lo anterior puede inducir a pensar que la sentencia es más severa para un asesino blanco que para un asesino negro. Sin embargo, cuando se tomó en cuenta la raza de la víctima, se se obtuvo lo siguiente: Raza\condenación a muerte Victima Asesino Blanco Blanco Negro Negro Blanco Negro Si 72 48 0 11 No 2074 239 111 2209 Tasa 3.4% 16.7% 0.0% 0.5% Esto pone en evidencia que, cualquiera sea la raza de la víctima, la sentencia es más severa para un asesino negro que para uno blanco. 1 Ejemplo extraído de apuntes de curso del Seminario de Capacitación de Docentes PRESTA. Concepción, 1997. Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 36 Resumen Las principales características de la correlación lineal de Pearson son: Ambas variables deben ser cuantitativas continuas. El coeficiente de correlación lineal de Pearson varía siempre entre 0 y 1. Valores de cercanos a indican asociación importante e inversa. Es decir, valores grandes (pequeños) de una variable se asocian con valores pequeños (grandes) de la otra. Valores de próximos a indican correlación lineal importante y directa. Esto es, valores grandes (pequeños) de una variable asociados con valores grandes (pequeños) de la otra. La importancia de la correlación depende del número de observaciones efectuadas. Así, un coeficiente 4 podrá ser importante (significativo) en una situación, pero nada importante en otra situación. Mientras más heterogénea sea la población, más fuerza existirá en la correlación. Es necesario conocer la naturaleza del problema antes de juzgar un coeficiente de correlación. Para establecer la significación de una correlación es necesario efectuar las pruebas de hipótesis correspondientes. Para efectuar un análisis inferencial de un coeficiente de correlación se requiere que ambas variables tengan varianzas homogéneas y distribuciones normales. La correlación entre dos variables puede observarse en una representación gráfica de los vectores centrados asociados a las variables. En este caso la correlación está determinada por el ángulo que forman esos vectores. El coeficiente de correlación de Spearman: Se aplica cuando las variables, siendo cuantitativas, son particularmente ordinales. Al igual que el de Pearson, varía siempre entre 0 y 1. En general se interpreta de la misma manera que el de Pearson. No debe usarse si es más pertinente el uso del coeficiente de correlación de Pearson, ya que es menos fiable que éste. En pocas palabras, si es posible usar Pearson, úsese Pearson. Debe utilizarse sólo después de haber corregido por empates. En relación a tablas de contingencia: Hacer comparaciones entre elementos de una tabla de contingencia, sin antes tratar la información allí contenida, puede significar comparar elementos no comparables. Los perfiles ponderados, en línea y en columna, permiten establecer comparaciones entre elementos comparables. La distancia euclideana entre perfiles ponderados, o la distancia del Chi-cuadrado entre perfiles, permite describir, sin distorsión la información contenida en una tabla. Al comparar elementos comparables, se está haciendo una lectura correcta de la información. Cuando se hace una representación gráfica de los elementos de una tabla de perfiles ponderados, hay que tener en cuenta que los puntos representados está dotados de peso. Esto es, son puntos-masa. Entonces hay que tener cuidado con las interpretaciones de las distancias observadas en esa representación. Una tabla de perfiles ponderados puede representarse en dos espacios de representación: uno en el que se representan los perfiles línea, y otro en el que se representan los perfiles columna. Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 37 1.5. EJERCICIOS Y PROBLEMAS 1. Para cada una de las variables siguientes, indica naturaleza (cualitativa o cuantitativa) y valores que puede tomar: a. Color de ojos de personas adultas. b. Peso de niños al nacer c. Número de hermanos de los estudiantes de la UCT d. Región de procedencia de los alumnos ingreso '97 de la UCT. e. Edad de los asistentes a un curso de capacitación f. Origen étnico de los alumnos de una escuela rural g. Grado de ruralidad del estudiantado universitario de Temuco. h. Número de cursos en el colegio B. i. Sexo de los alumnos de cada curso del colegio B. j. Tipo de mercaderías que se vende en "negocios" de barrios. 2. Se desea investigar la relación que puede existir entre el sexo del alumno y el rendimiento del alumno en cursos del primer ciclo de enseñanza básica. Para este caso, define las variables a considerar y los posibles valores que cada una puede tomar. 3. Supón que el peso, en kg, de un grupo de personas, de edades similares, se ha resumido en el siguiente cuadro: Promedio Desviación estándar 17 kg 4 kg a. ¿Qué se puede concluir acerca de la edad de este grupo de individuos? b. Suponer que la distribución del peso de este grupo es aproximadamente simétrica (¿qué significa esto?) y determinar valores extremos de la edad (¿cuáles serían estos extremos si no hubiere simetría?). ¿Puede afirmarse algo más respecto de la mayoría de estos individuos (por ejemplo, de su situación socio–económica)? 4. En el segundo semestre de 1993, un curso de estadística para alumnos de una carrera técnica de nuestra universidad obtuvo las notas finales que se resumen a continuación. Se pide "hablar" del rendimiento de ese curso. Distribución de la Nota Final 30 Características de resumen de Notas Finales del curso ----------------------------------------------Número de alumnos 20 Sample size (N) Num missings Minimum Maximum Std deviation Quartiles: First quartile: Second quartile: Third quartile: 50 0 2.0000 5.8000 0.7936 10 4.0000 4.4000 4.8250 0 2 3 4 5 6 nota_final Prof. Juan Moncada Herrera – Dpto. de Cs. Matemáticas y Físicas, UCTemuco por separado. de los hábitos de lectura. de Cs. Originalmente2 la investigación estuvo dirigida a perfilar los hábitos de lectura de estos niños.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 38 5. Aquí se han seleccionado aquellas variables descriptivas más generales. b. Señalar condiciones que deben cumplir los datos para que sean válidas tales conclusiones. 6. UCTemuco . Juan Moncada Herrera – Dpto. por tanto. c. La información resumida a continuación. Universidad de Barcelona. es relativa a una serie de características de niños de Quinto Nivel de Enseñanza Primaria en el sistema educacional de España (en una localidad específica de la región de Cataluña). ¿Qué grupo de pequeños es más homogéneo en cuanto a su talla? Explicar. Un estudio de evaluación del impacto de un sistema de alimentación en niños de edad pre–escolar contempló la incidencia del sexo del niño en la respuesta (en este caso. Se pide hacer un análisis de esta información. en los distintos box–plot. Un resumen de lo observado es: Sexo Promedio Desv. 1990 Prof. Referirse. Matemáticas y Físicas. en cm). a niños y niñas en relación a sus características físicas. y no dan cuenta exhaustiva. Típica Femenino 69 3 Masculino 73 8 a. y se enmarcan en el contexto de la tesis doctoral de Nuria Rajadell Puiggros. Calcular errores estándares de cada promedio y relacionarlo con los comentarios anteriores. la talla. Resúmenes gráficos (Gráficos de caja) referidos a la variable Inteligencia intver 100 90 80 70 60 50 40 30 20 10 0 1 2 3 4 Inteligencia Verbal según Nivel Socieconómico 2 Los datos fueron proporcionados por el programa internacional PRESTA. de Cs. UCTemuco . Matemáticas y Físicas. Juan Moncada Herrera – Dpto.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL intnover 100 90 80 70 60 50 40 30 20 10 0 1 2 3 4 39 Inteligencia No Verbal según Nivel Socieconómico intnover 100 80 60 40 20 1 2 Inteligencia No Verbal según tipo de Escuela intver 100 90 80 70 60 50 40 30 20 10 0 1 2 Inteligencia Verbal según tipo de Escuela Prof. Así en la piscicultura de Río Bueno. UCTemuco . en la primera de ellas a los individuos se les administró alimento extruido en cantidades normales (6 bolsas diarias) y en la segunda se les administró también alimento extruido pero a saciedad (10 bolsas diarias).35 2. Saciedad) Peso (A. Saciedad) Peso (A. Tal situación ha motivado una gran cantidad de estudios y experimentos.22 3.1 35. su producción y cultivo se ha masificado en los últimos años. La información obtenida se resume en el siguiente informe: Gráfico de Cajas para el Peso Trucha Arcoiris 4 3 Kilos 2 1 A Sa c ie d a d C a n tid a d N o r ma l Cantidad de Alimento Histograma para la Longitud Trucha Arcoiris 12 12 Histograma Para la Longitud Trucha Arcoiris 10 9 8 Frecuencia Frecuencia 6 6 4 3 2 0 33 36 39 42 45 48 0 28 32 36 40 44 48 Alimentación A Saciedad Cantidad Normal de Alimento Longitud (A. así como también la búsqueda de eficiencia en ellos. Una empresa dedicada a la consultoría dispone de personal para hacer visitas en terreno.12 a) Identifica claramente las variables involucradas en el experimento y su naturaleza. de Cs. Lleva un registro diario de las distintas visitas y también de las frecuencias en las que aquellas visitas cumplieron con su objetivo y de aquellos casos en los que no se cumplió con el objetivo. se realizó un experimento con el fin de evaluar la eficiencia del tipo de alimentación. Para ello se utilizaron dos jaulas. Normal) Longitud (A.0 3. Producto del gran interés comercial de mercados extranjeros por la especie trucha arcoiris.5 1.2 46. Juan Moncada Herrera – Dpto.6 46. por parte de universidades y empresas privadas. Normal) Mínimo Máximo 28. en la Región de los Ríos. c) Realiza un análisis descriptivo respecto del peso de los individuos en estudio.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 40 7. d) Concluye respecto del tipo de alimentación más eficiente para la especie en estudio. b) Realiza un análisis descriptivo respecto de la longitud de los individuos en estudio. Matemáticas y Físicas. ¿Cuál es la mejor medida de tendencia central a efectos de programar las visitas a terreno en esta empresa? 8. Prof. que permite el "tránsito" desde una muestra a la población representada en esa muestra. no todos los aspectos de un fenómeno. en realidad. ya que si ese fuere el caso. El muestreo es la base fundamental de la inferencia: debe existir lo particular. Usar. UCTemuco . existen siempre ciertos aspectos que el investigador conoce del problema.. Matemáticas y Físicas. Indirecto. 2. en la condición empírica. sobre la base de información empírica. De esta frase resultan importantes algunos conceptos como: muestra. en este punto. representada por variables.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 41 Capítulo 2 ESTIMACIÓN DE PARÁMETROS Objetivos del capítulo: 1. Juan Moncada Herrera – Dpto. Directo. en el sentido que hay conocimiento lateral acerca del problema. Sin embargo. etc. Este conocimiento puede ser directo o indirecto. Un gran supuesto es que existe algo (parcial o casi total) de esa población que se desea explorar o conocer. llegará a ser conocida (estadísticamente) en tanto se conozacan sus parámetros de definición. De estos muestreos. métodos y recursos de estimación para hacer inferencias válidas. Reconocer la importancia del proceso de estimación en la Inferencia estadística. proceso y tránsito hacia la población. Lateralmente está presente. De cualquier modo. 3. ante la posibilidad de desarrollar una investigación. que desde una visión estadística. sin duda el muestreo aleatorio simple es la base. de Cs. en este contexto. Esto último es el punto de partida de un trabajo. científico (y más que estadístico). Es aquí. El muestreo más utilizado en la investigación en campos aplicados. como el área forestal. Es este desconocimiento de la realidad el que justifica la investigación. pueden ser desconocidos. pero la distribución de ese modelo no se conoce. para luego hacer las generalizaciones pertinentes. porque no existe. De modo entonces. que surge el concepto de muestreo. es el muestreo probabilístico. Por ejemplo. Prof. pero se sabe cuáles podría ser "candidatos" a modelo. La Inferencia es ese proceso. puede tratarse de estudiar un modelo de comportamiento específico. entonces tampoco tendría sentido estudiarlo. en el sentido que existe fuentes confiables de información (anteriores) que permiten desde ya un acercamiento a ese problema. eficientemente. que una población. la investigación persigue la estimación de parámetros. química. el problema estadístico o de investigación. ambiental. Valorar la Inferencia Estadística como un proceso válido en la investigación científica. Hay que recordar. Se ha establecido que muestras aleatorias proporcionan buenos resultados en orden a hacer inferencias.. Matemáticas y Físicas. El problema es que esos parámetrosno están disponibles. por un parámetro θ (o vector de parámetros).ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 42 Por medio del muestreo se obtiene una "parte" representativa de la población. y otra es por medio de alguna afirmación proposicional–probabilística del mismo. Si se tiene q( θ ) = h(µ1. n j • Método de Mínimos Cuadrados: Su objetivo es minimizar la distancia euclideana entre la función paramétrica que se desea estimar y un referente dado. estadísticamente. entonces. Método de Máxima Verosimilitud: Se fundamenta en la maximización de la función de verosimilitud de la muestra. En el primer caso se habla de Estimación Puntual. n . Hay básicamente dos formas de obtener un acercamiento a los parámetros: uno es a través de una estimación puntual. a objeto de. para una muestra aleatoria {X i }i =1. y habrá que obtenerlos de algún modo. Una de sus características es que no requiere de supuestos distribucionales. Es fundamental. digamos {X i }i =1. alguas de las cuales se muestran en lo que sigue. decir que el parámetro puede variar entre un valor y otro. i Prof. y en el segundo de Estimación por Intervalos. µ2. . UCTemuco . Es muy utilizado en regresión. Esta función. Hay varias formas de obtener un estimador para un parámetro. Se entiende por muestra aleatoria un conjunto de variables independientes e idénticamente distribuídas (iid). en su defecto. ˆ Denotaremos por θ este estimador. Juan Moncada Herrera – Dpto. • ˆ Método de momentos (Debido a Karl Pearson (1894)): Sea q( θ ) una función de θ que se desea ˆ ˆ estimar. que el conocimiento de esos parámetros sea uno de los más importantes objetivos de la investigación. Esto último es lo que se abordará en estas notas (y en el curso). en primer lugar. Por ejemplo. de Cs.. o. M 2 . obtener estimadores de ellos.K. desde esta parte. ESTIMACIÓN PUNTUAL DE PARÁMETROS Estimación Puntual: Primeros pasos de la Inferencia a. hacer las generalizaciones a la población que la información contenida en la muestra permita. que una muestra es una colección de variables.θ ) .1. resulta una natural consecuencia. Métodos de estimación Puntual Considérese una población determinada. PUNTUAL 2. y en segundo lugar. entonces. Esto significa. donde µi es el i– ésimo momento poblacional (µi = E[Xi]) y Mi es el i–ésimo momento muestral ( M i = 1 ∑ X ij ). En este escenario se desarrollará el proceso inferencial Sabiendo que una población está totalmente determinada si se conocen sus parámetros de definición.θ ) = • ∏ f ( x . n de una población con parámetro de interés (o vector de parámetros) θ se define como L(θ ) = f ( x. que cada una de estas variables es independiente de cualquiera otra y todas tienen la misma distribución. la calidad de la muestra. que significa obtener un valor "estimado" de él. entonces q (θ ) = h( M 1 . M r ) .. lo que no ocurre con el método de momentos. µr). Suficiencia Eficiencia Observación: Los EMV no siempre son insesgados. La ˆ ˆ cantidad θ − E[ϑ ] se llama sesgo de θ . quizá anteriores a estos dos criterios. Propiedades que se espera posean ellos. Es una de las recorridas propiedades. puede escribirse ECM (θ ) = Var (θ ) + θ − E[ϑ ] . dependiendo del método. Son a veces llamadas propiedades deseables de los estimadores puntuales (Insesgamiento.). de Cs. con mucha frecuencia. que facilitan la obtención de un estimador. Esto significa que si g es una ˆ ˆ función inyectiva y si θ es el EMV de θ . se obtengan distintos estimadores. • [ ] [ ] 2 ˆ ˆ Eficiencia relativa de θ 2 respecto de θ 1 : ˆ Var (θ 1 ) ˆ Var (θ 2 ) . Además. Propiedades de los Estimadores Puntuales Al estimar un parámetro ocurre que. Propiedad: Los estimadores MV poseen la propiedad de invarianza. suficiencia. cuál de ellos es "mejor" bajo alguno de los criterios señalados o por señalar. Esto es. b. Por último. Será función del investigador determinar. En base a toda esta información. el que no siempre está disponible. A continuación se presentan algunas propiedades deseables de los estimadores. UCTemuco . La solución del proceso en θ es el Estimador Máximo Verosímil (EMV) de θ . un estimador particular poseerá sólo algunas de estas propiedades. Consistencia. Prof. De seguro. etc. No puede esperarse que un estimador dado posea todas estas propiedades. y se dejan las otras para consulta del alumno.K. Sin embargo. A continuación se presentan algunas de estas propiedades (deseables) de los estimadores puntuales. Un ˆ ˆ estimador θ de θ se dice insesgado si su sesgo es cero. y siempre en relación al problema estudiado. El probema es entonces disponer de un criterio que permita seleccionar a uno de esos estimadores. x n )' . entonces g( θ ) lo es de g( θ ). En este sentido puede optarse por aluno de los dos criterios dados a continuación (Error Cuadrático Medio y Eficiencia).ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 43 donde f es la función de densidad (o de probabilidades) de la variable aleatoria. • • • Insesgamiento. puede ser interesante examinar algunas propiedades especiales del estimador (como consistencia y eficiencia). • ˆ ˆ ˆ Error Cuadrático Medio. de entre una serie de estimadores. y x es un símbolo ˆ para denotar el vector ( x1 . varianza mínima. si E[θ ] = θ . Se define sólo la de insesgamiento. Matemáticas y Físicas. hay otras propiedades. no siempre existe un EMV. Las medidas anteriores son útiles en la comparación de estimadores. Casi siempre es un criterio de selección. Juan Moncada Herrera – Dpto. La principal característica del método es que requiere del conocimiento de la distribución de la población. ˆ ˆ ˆ Después de algunas simplificaciones. El ECM para un estimador θ se define como ECM (θ ) = E[θ − ϑ ]2 . se deberá optar por algunos de los estimadores. Por esta razón. Juan Moncada Herrera – Dpto. Aplicando logaritmo natural (sólo 2   −n 1 para simplificaru poco la relación) se obtiene ln L( µ ) = ln(2π ) − ∑ ( xi − µ ) 2 . UCTemuco . n Prof. Es decir. el resultado se logra con muestras de tamaño supueriores a 30 o 40. ♦ c. como ya se habrá visto. Por ejemplo. Solución: Sea {X i }i =1. dado que la media muestral posee distribución normal en el límite. cuando la desviación estándar poblacional es desconocida. cuando la desviación estándar poblacional es conocida σ/ n X -µ ~ t n-1 . es fácil ver que E[X ] = µ . En la práctica. que se espera posean los estimadores puntuales. y en muestras de tamaño infinito. en una población normal: X -µ ~ Z . Distribución de la Media Muestral: Como se plantea a modo de ejercicio. La derivada parcial 2 2 ∂ ln L( µ ) de esta última expresión es ∑ ( xi − µ ) 2 . siempre se selecciona. desde el punto de vista de la Inferencia estadística. se tiene finalmente ∂µ µ =µ ˆ verosimilitud de la muestra es L( µ ) = (2π ) 2 µ = x . aquel que posee estas propiedades. de una lista posible de estimadores. Establece que en una población con media y varianza conocidas. S/ n Teorema Central Del Límite: Este teorema es uno de los más importantes en materia distribucional en el contexto de la inferencia. la media muestral tiene distribución aproximadamente normal. es fácil demostrar que. Como en una gran frecuencia de casos nos enfrentaremos con medias y varianzas poblacionales (los que además. parece razonable abordar el problema de distribución de estos estimadores. y estudiar si es o no insesgado. Matemáticas y Físicas. es insesgado. es tal vez más interesante esta última como estimador que cualquiera otra combinación de variables. ˆ Por otra parte. el EMV de la media de una población normal de varianza 1 es la media muestral. son de tipo distribucional. con una media igual a la media poblacional y una varianza igual a σ 2 . lo cual indica que el EMV en este caso. Sin embargo. son estimadores insesgados de sus respectivos parámetros). Entonces la función de −n −1  exp ∑ ( xi − µ ) 2  .ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 44 Ejercicio: Obtener el EMV de la media de una distribución normal de varianza unitaria. puede ser que una combinación lineal (distinta de la media aritmética) de las variables sea un buen estimador de la media poblacional.1).n una muestra aleatoria de una población N(µ. Aspectos Distribucionales de los Estimadores Puntuales Una de las propiedades más importantes. de Cs. Reslviendo la ecuación = 0 . Por ejemplo. La relación anterior también es válida si en Var[p] = ˆ El estadístico Z = p(1 . Juan Moncada Herrera – Dpto. Notar que este estadístico no requiere del conocimiento del parámetro µ. razón por la que. llamada pivote.p ˆ ~ N(0. Esto significa que si se extrajeran infinitas muestras aleatorias del mismo tamaño.1) Var(p) ˆ Observación: La aproximación anterior es buena ya sea que np > 5 y p ≤ 0. Esta probabilidad da cuenta de la confianza de la afirmación. puede suceder que la afirmación en base a una muestra M1 sea mucho más hacertada que en base a una muestra M2. se habla de probabilidad de cubrimiento para referirse a ella. cuando n tiende a infinito (n grande). n p. el (1–α)100% de los intervalos construídos cubrirán al verdadero valor del parámetro. y el valor α100% es el Nivel de Significación. se trata de encontrar dos funciones. o bien n(1–p) > 5 para p<0.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 45 Distribución de la Varianza Muestral: En una población normal. en lugar de decir que la media de una población normal es estimada por la media muestral.5. de Cs. una afirmación proposicional que tiene una frecuencia del (1– α)100%. si la confianza es del orden de (1–α)100%. Notar que la probabilidad que el parámetro pertenezca al intervalo es 1 o 0.2. no a vectores de parámetros. entonces se habla de Intervalo del (1–α)100% de confianza. Por ello debe tenerse cuidado al hacer las afirmaciones relativas a esta forma de estimación. en consecuencia.p). oscila entre los valores indicados. Teorema (De Moivre-Laplace): Si X~bin(n. La más utilizada es la llamada Regla del Pivote. ˆ ˆ En una forma un tanto más práctica. Un intervalo de confianza es. realmente. aún encontrando estos valores a y b. que es función del estimador y del aprámetro. y la herramienta que lo permite son las probabilidades. se podría decir que ésta "oscila" entre una valor a y un valor b. Esta capacidad de "acertar" debe medirse. que constiste en encontrar una cantidad. en algunos textos. Esta probabilidad de cubrimiento se llama Nivel de Confianza. Esto consiste en la cosntrucción de un subconjunto de los números reales que se llama Intervalo de Confianza. Matemáticas y Físicas. Prof. no es difícil verificar que (n − 1) S 2 σ2 2 ~ χ n −1 . que tiene una representación matemática a través de un intervalo real. se debe asignar (y conocer) la probabilidad con que la media. otra forma de estimar un parámetro es mediante alguna afirmación proposicional.p ˆ ~ N(0.p) se sustituye p por su estimador. UCTemuco . Var(p) ˆ 2.5. se tiene: Z= p. Más específicamente. ¿Cómo construir un intervalo de confianza? Hay varias formas de hacer esto. ESTIMACIÓN POR INTERVALOS Como se dijera oportunamente. Li (θ ) y Ls (θ ) de modo tal que la ˆ ˆ probabilidad que el intervalo aleatorio cuyos lmímites inferior y superior sean Li (θ ) y Ls (θ ) sea igual a 1–α. Por ello es que el intervalo se llama Intervalo de Confianza. entonces. Esto es. Observación: Notar que un intervalo de confianza se limita a parámetros reales. Pero.1) se usará entonces para hacer inferencias acerca de p. y que tiene una distribución conocida (independiente del parámetro). Entonces un intervalo del 95 de confianza para la media poblacional es: (8 − Z 0. y D la distribución (simétrica) de g( θ ). Juan Moncada Herrera – Dpto. b.8 1. Prof. en las mismas condiciones. Distribución de Poisson. X + t1−α . en el 95% de los casos obtendríamos intervalos de este tipo (conteniendo al parámetro).41. Ejemplo 2. Además. eontonces el intervalo encontrado es equivalente a: S S   . y g una función paramétrica que se desea estimar. con varianza desconocida.975 ) 36 36 De la tabla normal se obtiene que Z0. Obtener los estimadores por momentos de los parámetros de las siguientes distribuciones.59). es altamente probable (95%) que la media poblacional tome valores que van desde 7. una media muestral igual 8 y una desviación estándar igual a 1.3. Por lo tanto. en una situación práctica.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 46 Se resume a continuación la construcción de un intervalo de confianza para una función g simétrica del ˆ parámetro θ de una distribución. Distribución exponencial de parámetro θ . si se muestreara infinitas veces.8. Al resolver las inecuaciones correspondientes (se recomienda revisar bibliografía para una completa deducción de estas formas). Encuentre y estudie propiedades de los EMV de los parámetros de: a. en cada caso. 1–α ˆ ˆ el nivel de confianza. X + t1−α . Distribución uniforme continua entre 0 y θ. estudie propiedades que posee el estimador: a. ¿Cuál es el EVM de E( θ )? d. Matemáticas y Físicas.8 . Distribución Bernoulli. en base e la muestra dada. es: X +t   α . Distribución normal. que se obtiene. en base a estos datos.8 − Z 0. de Cs. Entonces un intervalo de confianza para la media poblacional µ de esta población. Sean θ el parámetro de una población.8. el intervalo aproximado es (7.975 1.41 a 8. ˆ ˆ Entonces el intervalo tiene la forma ( Li (θ ) .975=1. b. en una muestra aleatoria de tamaño 36 de una población normal. Ls (θ ) ).n −1  X − t1−α .n−1  2 2 n n  Supongamos ahora que. Sean. EJERCICIOS Y PROBLEMAS 1. c. Esto significa que. ♦ 2. Equivalentemente. g( θ ) la función que estima bien a g( θ ). La distribución Poisson. La distribución Bernoulli. se concluye que estos límites son: ˆ ˆ ˆ ˆ ˆ ˆ Li (θ ) = g (θ ) + Dα ee[ g (θ )] y Ls (θ ) = g (θ ) + D1−α ee[ g (θ )] 2 2 donde Dα es el percentil de orden α 2 2 ˆ ˆ de la distribución D y ee[ g (θ )] es el error estándar de g( θ ).n −1ee( X )  2 2   Notar que como la distribución t–Studente es simétrica y que el error estándar (desviación estándar) de la media muestral es S n .1: Consideremos una muestra aleatoria de tamaño n de una distribución normal. ˆ c.59. UCTemuco . 2.n −1ee( X ).96. además. ˆ estimadores de θ=µ : θ 1 = X . 8}. Si se sabe que la desviación estándar poblacional es de 7. θˆ2 = 2X1 − X 6 + X 4 . 7. UCTemuco . Determinar la magnitud del sesgo y relacione el hecho anterior con la forma que en este curso hemos usado para la varianza empírica (muestral). 7. Determinar el estimador máximo verosimil del parámetro λ. Considera una población (infinita) con media µ y varianza σ². 3. 9. ¿existe evidencia que permita concluir que la planta cumple con la reglamentación nacional? 8. Se preparó una muestra de 12 procesos utilizando el catalizador 1 y una de 10 utilizando el catalizador 2. aplicable a una planta industrial. Muestra que Var[ X ] = σ c. Verifica que el EMV de σ² en una población normal es sesgado. 8. 3. 8. exceder los 28. 10.9°C antes que pueda ser lanzada al río que corre junto a la planta. de Cs. 8. En un proceso químico se comparan dos catalizadores para verificar su efecto en el resultado de la reacción del proceso. Con una confianza del 96% ¿se podría decir que ambos catalizadores presentan similares rendimientos? Prof. ¿Alguno de estos estimadores es insesgado? b. n −1 Nota: S² no será un estimador insesgado de σ² cuando la población sea finita. 2 a. 9. en segundos. 1 ∑ ( X i − X ) 2 es un estimador insesgado de σ². 6. 7.5°C y usando un nivel de confianza del 95%. Demuestra que S² es un estimador consistente de σ². Demuestra que S 2 = 2 n . se encontró que su promedio de temperatura fue de 30. d. Además. 2. 4. en promedio. 3.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 47 3. ¿Cuál estimador es el "mejor"? ¿En qué sentido es mejor? 5. e interprete esa eficiencia. (Sug. de una población cuya función de densidad de probabilidad está dada por: f (λ ) = λ * e − λt . Se ha obtenido una muestra de tamaño 20. Juan Moncada Herrera – Dpto. 5. b. 7. 6. En el primer caso se obtuvo un rendimiento promedio de 85. 6. En base a una muestra aleatoria de tamaño n de esta población. Calcula la eficiencia asintótica de la mediana con respecto a la media. La muestra obtenida es: {6. 2. n una muestra aleatoria de una población con media µ y varianza σ². Sea {X i }i =1.2°C.: en poblaciones de tamaño grande se tiene que Var[ X 0. de reacción de un catalizador sometido a prueba. Suponiendo normalidad en las distribuciones poblacionales y con desviaciones estándar de 4 y 5 respectivamente. digamos {X i }i =1. donde t es el tiempo. De 70 muestras de agua reciclada. 4. indica que el agua reciclada no debe. La reglamentación nacional ambiental respecto del tratamiento de aguas. S nunca será un estimador insesgado de σ.5 ] = e. n : a. Considere los siguientes πσ 2 4n ). Muestra que X es un estimador insesgado de la media poblacional µ. Matemáticas y Físicas. mientras que en el segundo caso el rendimiento promedio fue de 81. 3. En forma específica. entonces. una proposición es una expresión del lenguaje a la que se le pueden asignar sólo uno de dos posibles "valores de verdad": Verdadero o Falso. desde un punto de vista de la lógica (Aristotélica). Ejemplo 3. básicamente.1. se llama hipótesis alternativa. formulada en términos de parámetros. si suponemos que X es la variable en estudio. La construcción de un intervalo de confianza es tal vez una de estas técnicas que mayor aceptación pudiera tener. Recordemos que.1: Supongamos que nuestro interés es el promedio de una población normalmente distribuída. ésta se llama a su vez hipótesis sencilla o simple. UCTemuco . ♦ Es lógico pensar que. Específicamente. La hipótesis expresada como Ha: µ<µ0 es una hipótesis unilateral (a izquierda). Ha podría expresarse como Ha: µ≠µ0. los datos sustentan o no cierta afirmación en relación a tal parámetro. y la hipótesis Ha: µ≠µ0 es bilateral. supongamos que una organización independiente desea saber si. como por ejemplo el caso del precio del pan citado más arriba. el precio del pan ha subido o no durante los últimos seis meses. como aquí es H0. Matemáticas y Físicas. Sin embargo no siempre estamos interesados en estimar de esta forma un determinado parámetro. Si denotamos esta "contraparte" por Ha. 7. Cualquiera sea esta "contraparte". en que se afirma lo contrario o se niega lo que establece la primera. o bien como Ha: µ<µ0. de Cs. Esto es precisamente lo que corresponde a una hipótesis estadística: Una afirmación acerca de los parámetros de una población.σ²). 6. CONCEPTOS PRELIMINARES ¿Qué es una hipótesis estadística? Podemos decir que una hipótesis estadística es una proposición.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 48 Capítulo 3 HIPÓTESIS ESTADÍSTICAS Objetivos del capítulo: 4. la expresada por Ha: µ>µ0 es una hipótesis unilateral (a derecha). o tal vez como Ha: µ>µ0. lo que tenemos es X~N(µ. Juan Moncada Herrera – Dpto. sino que quisiéramos saber si. Es por medio de lo que se conoce como Prueba de Hipótesis. Construir y efectuar pruebas de hipótesis estadísticas Hemos establecido las bases de un proceso de inferencia a partir de observaciones obtenidas de una población normal. En este curso las hipótesis nula serán siempre sencilas. frente a una hipótesis como la anterior exista otra hipótesis. a modo de "contraparte". Tal vez la construcción de un intervalo de confianza para el valor promedio del pan podría ayudar a la solución del problema. adecuada y pertinentemente. hemos establecido los mecanismos de la inferencia en relación a medias y varianzas poblacionales. pero existe otra forma más eficiente y quizá menos complicada de hacerlo. Si una hipótesis se expresa en términos de igualdad. Formular. Identificar distintas componentes de una hipótesis estadística. 5. supongamos que deseamos saber o inquirir si µ=µ0. Entonces ésta es nuestra hipótesis. por ejemplo. hipótesis estadísticas. Por ejemplo. Prof. para H0: µ=µ0. Reconocer la importancia de las hipótesis estadísticas en el proceso inferencial. que podemos simbolizar como H0: µ=µ0. Entonces. en realidad. y H0 es la hipótesis nula. entonces. de si son o no conocidas las varianzas poblacionales. pero homogéneas. respectivamente. Este conjunto de valores distribucionales se llama Región Crítica. Una prueba de hipótesis es un procedimiento que permite establecer si la hipótesis nula es una afirmación razonable (y por tanto no debiera rechazarse). Los elementos que permiten determinar lo razonable o no de la hipótesis son la evidencia muestral y la teoría de las probabilidades.95 y suponemos desconocidas las varianzas. niveles de significación mayores al 10% (confianza menor del 90%) son "poco creíbles". En el caso que n1=23 y n2=18.2: Supongamos que estamos interesados en probar la hipótesis nula H0: µ1=µ2 versus la alternativa Ha: µ1≠µ2. el nivel de confianza. y se le conoce también como Probabilidad de Error de Tipo I (Algunos autores utilizan. El nivel de significación conjuntamente con la distribución del Estadístico de Prueba. Como una prueba de hipótesis es en sí un procedimiento de inferencia estadística.975.l. dependiendo. 1–α). Matemáticas y Físicas.. Esto es lo que se conoce con el nombre de Prueba de Hipótesis. Ejemplo 3.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 49 ¿Qué es una prueba de hipótesis? Componentes básicas En el proceso inferencial con base en hipótesis estadísticas. debido a su finalidad. Por ejemplo. si es bilateral). La figura (a) anterior muestra la forma de la región crítica para un test bilateral. de Cs.σ2).n1+n2-2 =±t0. El estadístico a utilizar es llamado Estadístico de Prueba. las figuras (b) y (c) siguientes ilustran la forma de la región crítica para un test unilateral a izquierda. dependiendo del tipo de test (un valor fractil si el test es unilateral. ambas independientes. llamado también test de hipótesis. determinan uno o dos valores fractiles. Se espera que el nivel de significación sea lo menor posible. si la hipótesis se formula en términos de medias poblacionales (la inferencia es acerca de medias poblacionales). empieza con la formulación de las hipótesis nula y alternativa. Si fijamos 1–α=0. n1+n2–2=40 grados de libertad.021. en las poblaciones X1~N(µ1. σ1) y X2~N(µ2. El procedimiento de prueba. tenemos dos fractiles. Juan Moncada Herrera – Dpto. Para la prueba se extraen sendas muestras aleatorias de tamaños n1 y n2. La región crítica en este caso estará constituída por todos los valores del estadístico de prueba que son o inferiores a -2. en lugar del nivel de significación. entonces los posibles estadísticos a utilizar serán el estadístico normal estándar o la t-Student. dados por las cantidades ±t1-α/2. los que a su vez determinan un conjunto de valores distribucionales que fijan teóricamente lo que se puede considerar razonable o no para rechazar una hipótesis nula. Este nivel de significación corresponde a la probabilidad de rechazar una hipótesis verdadera.n1+n2-2 = 2. por lo tanto t1-α/2. UCTemuco . entonces debemos identificar el estadístico que permite o facilita la inferencia. mientras que niveles de significación inferiores al 1% son "menos precisos". Un paso siguiente es establecer (decidir subjetivamente) el Nivel de Significación que tendrá el test. dentro de lo razonable. con n1+n2–2 g.021.n1+n2-2 y la región crítica tendrá la forma de la figura (b).021 o superiores a 2. respectivamente. y unilateral a derecha. como el test es bilateral y la distribución del estadístico de prueba es t-Student. Por su parte. Por ejemplo. dos. el objetivo central es contrastar las hipótesis nula y alternativa. o no lo es (y debiera rechazarse). respectivamente. reconociendo además el tipo de hipótesis (Test Unilateral o Test Bilateral). lo que es determinado por la hipótesis alternativa (no olvidemos que la hipótesis nula será siempre del tipo simple). digamos α. y lo denotaremos por Rc. ♦ Prof. especialmente la ralativa a distribuciones de probabilidades. entonces rechazar la hipótesis nula en favor de la alternativa. es cómo utilizar la evidencia muestral (información empírica) para decidir si rechazar o no la hipótesis nula. los dos tipos de errores más frecuentes en un proceso de prueba de hipótesis: Rechazar una hipótesis Verdadera y No Rechazar una Hipótesis Falsa. es porque el proceso no pudo detectar (o no había) evidencia en su contra. pero no estamos seguros de si verdaderamente estamos frente a una hipótesis verdadera. pués. si no se rechaza una hipótesis. mientras no se pruebe lo contrario. Por lo tanto ésta es la Regla de Decisión: Si. UCTemuco . Se acostumbra denotar por α la probabilidad de Error Tipo I y por β la probabilidad de Error Tipo II (Nótese la semejanza con un proceso judicial. Si este valor pertenece a la región crítica. reservar el juicio (aunque en muchos textos se habla de aceptar la hipótesis). Con este principio en cuenta. y evalúese la gravedad de uno y otro tipo de error). Errores asociados a una prueba de hipotesis Cuando se decide rechazar una hipótesis. esta decisión se toma en base a una muestra aleatoria extraída de la población en estudio. Cada una de estas acciones tiene una probabilidad. de diverso tipo. puede ocurrir que erróneamente hayamos llegado a tal conclusión. en cuyo caso estaremos rechazando una hipótesis verdadera. En el diagrama 1 se resume el proceso de inferencia basado en una prueba de hipótesis. bajo H0. Por otro lado. El primero es lo que llamamos Error Tipo I. caso contrario. el valor del estadístico de prueba. en relación al rechazo o no rechazo de una hipótesis. Estos son. bajo la hipótesis nula. Juan Moncada Herrera – Dpto.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 50 Regla de decisión El problema que sigue por resolver. y en el diagrama 2 se presentan las consecuencias de una y otra decisión. parece lógico que debiera rechazarse la hipótesis nula. de Cs. Matemáticas y Físicas. y el segundo corresponde a lo que se llama Error Tipo II. el valor del Estadístico de Prueba pertenece a la Región Crítica. El principio en el que se sustenta una prueba de hipótesis es que La hipótesis nula es siempre verdadera. Por tratarse de un proceso no excento de errores. determinará si la evidencia que él resume es suficiente para apoyar el rechazo de H0 o no. Diagrama 1: Sugerencia de pasos a seguir en una prueba de hipótesis Paso 1 Formular las hipótesis nula y alternativas Identificar el Estadístico de Prueba Paso 2 Paso 3 Seleccionar Nivel de Confianza o de Significación Determinar la Región Crítica Tomar una decisión Paso 4 Paso 5 Prof. 5 y 14. La Compañía B envió 64 bloques. La empresa fabricante asegura que el rendimiento esperado de este modelo es de 14. por lo que no es necesario insistir en sus aspectos teórico–formales tratándose de determinadas pruebas.8. S/ n Notemos también que el test es bilateral a izquierda. HIPÓTESIS RESPECTO DE MEDIAS EN POBLACIONES NORMALES El procedimiento general de prueba de una hipótesis fue presentado en la sección anterior. entonces la decisión es rechazar la hipótesis nula.90. supuesto H0 verdadera. como lo son las pruebas asociadas a aparámetro de una distribución conocida.35/2. 14. entonces el valor crítico es tα/2.σ). Por tal razón.24)=–3.7)/(0. en km/lts: 13.7. y s es desconocida. si fijamos 1–α=0. que le merecen confianza y seguridad.9. y se someten a un recorrido de 30 mil kilómetros.95. de Cs. Para ello se eligen aleatoriamente cinco autos del proceso de producción. rechazamos la afirmación del fabricante. se optará por comprar la mitad de lo requerido a una empresa y la mitad a la otra.7 km/lts. Esto es. la mayor resistencia en libras por pulgada cuadrada (psi). El proceso de fiscalización será en extremo riguroso.2– 14. En el caso de resistencias iguales. el valor del estadístico de prueba. en promedio.3: Se está sometiendo a prueba el rendimiento de un nuevo modelo de automóvil.7 vs Ha: µ<14. entonces el estadístico de prueba es X -µ ~ t n -1 .19. los que arrojaron una media de 1070 psi y una desviación típica de 63 psi. UCTemuco . Por ejemplo.4=-2. en ese contexto. obteniendo los siguientes rendimentos. los que proporcionaron una media de 1020 psi y una desviación estándar de 57 psi. así que. es la construcción de los estadísticos correspondientes y de los demás elementos de la prueba. y el problema anterior se puede reformular en términos de hipótesis como H0: µ=14. Lo único que debe preocupar. 13. Para el efecto. Como este valor pertenece a la región crítica. La compañía fabricante que se adjudique la propuesta será aquella cuyos bloques muestren. Prof. para la adquisición de bloques de cemento ha seleccionado a dos compañías fabricantes de este tipo de bloques. A y B. ya que en verdad lo que el fabricante afirma es que su auto "rinde al menos 14. es tc=(14. La Compañía A envió 81 bloques.132.7 km/lts". Juan Moncada Herrera – Dpto. en esta sección se presentan algunos ejemplos que ilustran el uso de los respectivos procedimientos para algunos parámetros. Observemos que si 1–α=0. se le solicitó a cada compañía una muestra (aleatoria) de bloques. Ejemplo 3. 2.4: Una empresa inmobiliaria tiene que construir una gran cantidad de edificios. entonces puede suponerse que X~N(µ. con un 95% de confianza.05. Por su parte. Matemáticas y Físicas. de alta calidad.2.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 51 Diagrama 2: Estados de la Naturaleza y consecuencias de acciones en una prueba de hipótesis Estados de la Naturaleza Decisión Rechazar H0 No Rechazar H0 H0 Verdadera Error Tipo I α Acción Correcta 1–α H0 Falsa Acción Correcta 1–β Error Tipo II β POBLACIONES 3. ♦ Ejemplo 3.6.n-1=t0. 14. por lo que la empresa ha de seleccionar de la mejor forma la calidad de los insumos. entonces la evidencia contenida en los datos no permitiría rechazar la hipótesis H0. Como se está haciendo inferencia acerca de una media poblacional. ¿Costituyen estos datos evidencia sustancial en contra de la afirmación del fabricante? Solución: Si representamos por X: Rendimiento del automóvil. y que la producción de las compañías es independiente una de otra. de Cs. En efecto. puede ser de interés estimar la porporción de agricultores cuya actividad agrícola principal es la ganadería. esta valor habría cambiado a 5. Entonces esta variable tiene distribución binomial.95 (si se hubiese utilizado aproximación normal. Matemáticas y Físicas. Entonces el estadístico de prueba es ( X 1 .ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 52 Solución: Sea X1: Resistencia de los bloques provenientes de A. y la evidencia muestral se resume en tc=4. entonces. haciendo 1–α=0. de tamaño 40 familias de esta población y se encuentra que 26 de ellas cultivan maíz. Su función de probabilidades es de la forma p(x|n.95.5: Imaginemos una población de la que deseamos estimar la proporción de familias que cultivan maíz. supuesto poblaciones normales e independientes.63=1. en términos de proporción o porcentaje. el problema se puede reducir al contraste de las hipótesis H0:µ1=µ2 vs Ha: µ1≠µ2. seleccionar sólo un abastecedor (¿Cuál?).. Por ejemplo. Ahora.50. Sea una población Bernoulli de parámetro p.80. de la cual se extrae una muestra aleatoria de tamaño n. Si se selcciona una m. y más bien representa una característica (atributo) que un valor numérico. con 81+64-2=143 g.X 2 ) . en el denominador.65 = 65%.n. ♦ 3.µ 2 ) Sp 1 n1 + 1 n2 ~ t n1+n 2. respectivamente. Un problema puede tener el análisis anterior: la distribución de este estadístico es la indicada siempre que las varianzas sean homogéneas.( µ1 .. en el numerador y n2–1g. entonces se rechaza la hipótesis.l. INFERENCIAS RESPECTO DE PROPORCIONES Caso de Una Proporción En muchas situaciones prácticas puede ser de interés referirse a una caracterírtica particular de la población.3. Prof.978 (notar que la prueba es bilateral). 3.l. y sea X la variable Número de éxitosen los n ensayos. la homogeneidad de varianzas poblacionales. En el caso analizado. y 0<p<1. La empresa contratista deberá.. Como este valor pertenece a la región crítica. UCTemuco . El estimador del parámetro p puede demostrarse que es p = ˆ X . lo que es equivalente a establecer. con un 95% de confianza.63=F0. el estadístico S12 utilizado para este propósito es F = σ 12 2 σ2 S 22 que tiene distribución F con n1–1 g. entonces la proporción estimada de personas que cultivan maíz es 26/40 = 0. 3. los valores críticos. entonces. Si hacemos 1–α=0. que la resistencia promedio de los bloques no es la misma.a.l. Suponiendo que la resistencia es una variable que se distribuye normal.22. X2: Resistencia de los bloques provenientes de B. Juan Moncada Herrera – Dpto.2 el que.01). en consideración de los tamaños de muestra y en virtud del Teorema del Límite Central. por lo que podemos continuar con el análisis de las dos medias poblacionales. Por lo tanto. aproximados. se debe verificar (y ates de cualquier otro análisis). n Ejemplo 3.95.1. como fc=1. puede aproximarse por una normal estándar.80.95. entonces tenemos que F1–α. entonces no se rechaza la hipótesis de igualdad de varianzas.p) =   px(1–p)n–x   n  x para x=0. son ±1.. donde µ1 y µ2 son las medias poblacionales de X1 y X2. En este caso la variable de interés no es continua. p) ˆ ˆ . y por tratarse de un test bilateral. tiene distribución N(0. ♦ Ejemplo 3.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 53 Notemos que en p = ˆ X 1 1 pq p(1 . Por lo tanto.8: Supóngase quue 1600 de 2000 electores que se han muestreado dijeron que planean votar por el candidato A. = ˆ ˆ n n n n n p. y ya que el estimador de p es 0. El valor del estadístico de prueba.975=1.96.96. Matemáticas y Físicas.96. por lo que E[p] = np = p y Var[p] = 2 npq = . ♦ n Ejemplo 3. En las elecciones pasadas recibió el 40% de los votos de este sector. el error máximo permisible está dado por la desviación del estimador respecto del parámetro. El estadístico de prueba es Z = p.p) ˆ ˆ n donde e.p) .p ˆ . éste corresponde a la expresión: p(1 .55.8% de los votantes votaría por el candidato A.975=1.p)( ˆ ˆ z ) e 2 Como 1–α=0. ♦ Prof. los valores críticos son -1. Las hipótesis correspondientes son H0:p=0. que como hemos establecido.40. entre un 78.05. ♦ Ejemplo 3.e(p) = ± z 1-α/2 ˆ Si de esta relación se despeja n. Específicamente.96 y 1. Si el tamaño poblacional es 200 mil electores. con los requerimientos dados.p).804 ∉Rc. X~bin(n. obtenemos que el mínimo de encuestas a aplicar. entonces el total de personas que votarían por A oscila entre 156400 y 163600.782.95.0. entonces z1–α/2=z0.7: Se cree que el 55% de los estudiantes de la UCT son de fuera de Temuco. por ejemplo. En particular. al sustituir estos valores en la fórmula para n. supuesto verdadera la hipótesis nula. entoncs un intervalo de confianza para la proporción de personas que votarían por A en esta población es (0.95. ¿A cuántos electores habrá que encuestar? Solución: Como se sabe.p ˆ El Teorema De Moivre-Laplace permite establecer que Z = ~ N(0. para el caso de estimación de proporciones. ó n=2305.95.1) . de Cs.e.818) (Nótese que n es grande). Si p(1 .6: Un congresista desea estimar su popularidad en cierto sector de la población. es zc=0. Si el nivel de confianza es 1–α=0. con lo que este estadístico Var(p) ˆ se deberá usar para hacer inferencias acerca de p. es n>2304. Especifica que la proporción de electores que lo apoyarán debe calcularse dentro de ±2% de la proporción de la población y con una confianza del 95%. Juan Moncada Herrera – Dpto.( p ) es el error estándar de p .55 vs Ha:p≠0. encontramos que n = p(1 .p)/n α=0. UCTemuco . y duda que esto haya sufrido cambios sustanciales. Se encuesta a 400 estudiantes de los cuales 228 resultan ser de fuera de Temuco. ¿Apoyan estos datos la creencia inicial? Solución: Este es un problema de pruebas de hipótesis. no existe evidencia suficiente como para asegurar que el porcentaje de estudiantes de la UCT que no son de Temuco es distinto del 55%.2% y un 81. Esto es. un intervalo de confianza del (1-a)100% para p está dado por p ± z1-α/2 ˆ p(1 . entonces z1–α/2=z0. ˆ ˆ e = ± z 1-α/2 e.1). UCTemuco .1) y su valor de zc = – 0. el cual ∉ a la región crítica. después de aplicado el adiestramiento. ya que el problema así lo establece.71 mientras que en el segundo tratamiento la proporción estimada es de 0. sólo entonces corresponde continuar el proceso de inferencia acerca de medias poblacionales. MUESTRAS PAREADAS Hemos presentado en las secciones anteriores los elementos más fundamentales de un proceso de Prueba de Hipótesis.05. se supuso que las muestras (poblaciones) debían ser independientes. basadas en la evidencia muestral entregada. entonces zα = 0. El estadístico de prueba será: Z = p1 − p2 ˆ ˆ p (1 − p )( n11 + 1 n2 ) cuya distribución ya discutida es N(0. Por ejemplo.p 2 ˆ ˆ X + X2 ~ N(0. ˆ pc(1 . Una vez verificado o justificado estos supuestos. Si α = 0. Por ejemplo. no existe evidencia suficiente para asegurar que la proporción de ovas fecundadas es sustancialmente menor usando el método CSA3. supuesta verdadera la hipótesis nula. y luego. al interior de una determinada empresa. Solución. podemos dar respuesta a esta interrogante. Siendo el valor del estadístico de prueba – 0.65. Tras hacer dichas mediciones se obtuvieron los siguientes resultados: de las 35 ovas en estudio.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 54 Caso de dos proporciones: diferencia Sean X1~bin(n1. se realiza un experimento para evaluar el porcentaje de ovas fecundadas. Las hipótesis correspondientes serán: H 0 : p1 = p2 v/s H1 : p1 < p2 .p1) y X2~bin(n2. Sin embargo. Pruebe. donde pc = 1 . por lo que se postpondrá para más adelante. estar normalmente distribuídas y tener varianzas homogéneas. Entonces se puede demostrar que el estadístico que permite hacer inferencias acerca de la diferencia p1–p2 está dado por: Z= p1 .88. particularmente acerca de µ1–µ2. Por tanto.1) . de Cs.pc ) n1 + n2 ˆ ˆ ˆ ˆ + n1 n2 Ejemplo 3. como una forma de hacer inferencia acerca de parámetros de una población. supongamos que deseamos estimar la eficacia de un programa de adiestramiento laboral.9: En laboratorios del departamento de acuicultura. A través de una prueba de hipótesis para la diferencia de proporciones.8. En estos casos era necesario hacer ciertas verificaciones acerca de la población. 3. Matemáticas y Físicas. 25 de ellas fueron fecundadas usando CSA3. y teniendo claro que la hipótesis alternativa es unilateral (una cola). La verificación de los supuestos de independencia y normalidad no es posible efectuarla aún.05 = -1. siendo de interés la cola izquierda. seleccionar al azar otro grupo y aplicarles el test de rendimiento. usando un control de semen almacenado durante tres días (CSA3) y un control de semen almacenado durante seis días (CSA6). sabiendo que en el primer tratamiento la proporción estimada es de 0.88. algunas veces no es posible disponer de muestras independientes. El otro plan consiste en aplicar el test de Prof.4. En particular se presentaron situaciones en las que la inferencia comprometía a dos poblaciones. con un nivel de significación del 4%. Juan Moncada Herrera – Dpto. mientras que al usar CSA6 resultaron fecundadas 28.pc ) pc (1 . Los analistas proponen dos formas de evaluación: Una consiste en seleccionar u grupo aleatorio de trabajadores y aplicarles un test de rendimiento antes de aplicar el programa de adiestramiento. cuál de los dos períodos de almacenamiento permite fecundar una mayor cantidad de ovas.p2) dos poblaciones binomiales independientes. pués la persona a quien se aplica el pre y post test. la media y la desviación estándar de D. para i=1. El análisis en base a muestras pareadas es aconsejable cuando se tienen estudios que comprendan sujetos o individuos similares genéticamente.. éstas se deben parear. etc. distribuídas normalmente y con varianzas homogéneas. Por consiguiente nuestras observaciones son más bien pares de observaciones. Entonces es claro que las muestras (grupos) aquí no son independientes. Entonces el estadístico a utilizar en el proceso de inferencia acerca de µ1–µ2 será T= D . Definamos la variable D={X1i–X2i. X2i ∈X2}. por no decir el mismo individuo. debemos definir o determinar el estadístico de prueba adecuado para el análisis de muestras como éstas. se muestra en la tabla siguiente. donde di es la in-1 ésima observación de D. plantas del mismo semillero-fruta.µ 2 ) sd / n _ t n -1 que cuando n tiende a infinito (o mejor dicho. se definen los estadísticos 1 D = ∑d i y S D = n 2 ∑ d -n D2 i . hechas sobre el mismo sujeto. El índice de eficiencia. que sirvió de motivación para esta sección. Una deducción formal de la características de forma y escala de D está lejos de los objetivos de este curso.. Es más. a partir de una muestra aleatoria de tamaño n.( µ1 . de Cs. Ejemplo 3. variable aleatoria que consiste de todas las diferencias entre los elementos de los pares ordenados respectivos. Matemáticas y Físicas. como por ejemplo crías de la misma camada. y en cualquier caso las hipótesis a contrastar se reducen a H0: µ1–µ2=0 vs Ha: 1–µ2≠0. Cada uno de estos diseños tiene sus ventajas y desventajas. Por esta razón se habla comúnmente de muestras pareadas. Pero supongamos que se selecciona el segundo. Sean X1 y X2 dos variables aleatorias. se seleccionó aleatoriamente un grupo de 10 trabajadores para realizar la experiencia. Frente a esta situación se debe buscar un procedimiento que resuma en la mejor forma la evidencia en cotra de la hipótesis nula.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 55 rendimiento al mismo grupo.. antes y después del adiestramiento. respectivamente. UCTemuco .n. por lo que sólo nos limitaremos al uso de los estadísticos muestrales de D. X1i ∈X1 . antes y después de aplicado el plan de capacitación laboral..10: Supongamos que en el ejemplo acerca del plan de adiestramiento. Específicamente. junto con la diferencia D: Indice de Eficiencia Trabajador N1 1 2 3 4 5 6 7 8 9 10 Antes 128 105 119 140 98 123 127 115 122 145 Después 135 110 131 142 105 130 131 110 125 149 Diferencia D 7 5 12 2 7 7 4 -5 3 4 Prof. es grande) puede aproximarse a una normal estándar. esto es. Juan Moncada Herrera – Dpto. frente a una situación en la que es evidente parear las muestras. es la misma. una medida de dispersión adecuada permite esta evaluación. ambos de naturaleza no paramétrica. entre otros supuestos. se presenta más detalladamente a continuación. en la gran mayoría de los test. bajo condiciones especiales sobre los datos. una medida promedio de la dispersión entre lo observado y lo que se espera bajo la distribución propuesta. PRUEBAS DE BONDAD DE AJUSTE La mayoría de los procesos inferenciales antes vistos requieren. ♦ 3. en favor de la alternativa. la que generalmente es sugerida por los datos. Como la evidencia empírica. el análisis de cualquier supuesto distribucional. dada por tc=3. Juan Moncada Herrera – Dpto. UCTemuco . Un análisis que sobrepase consideraciones de tipo intuitivo o experiencial. corresponde a un contraste de hipótesis. es decir.05.30. está en la región crítica. Si ahora α=0. y el valor del estadístico de prueba. Como es sabido. bajo la hipótesis nula. Matemáticas y Físicas. Específicamente. en consecuencia. puede expresarse como un conjunto de hipótesis del tipo: Ho: Los datos se ajustan a una distribución específica Ha: Los datos no siguen la distribución especificada Bajo esta perspectiva.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 56 Lo que se pretende evaluar aquí es si el programa de capacitación produjo algún efecto diferencial en la eficiencia de los trabajadores. Esto es. en base a estadísticas sin una distrubución de probabilidades conocida.30. el de normalidad. frente a un conjunto de obser-vaciones el problema de bondad de ajuste es establecer (o determinar) cuán bien se ajustan las observaciones a una distribución específica. es tc=3.95. A partir de los datos se obtiene d = 4.60 y s d = 4. Entonces la pregunta inicial es equivalente a la hipótesis: H 0 : Fx (x) = F0 (x) Y la hipótesis alternativa es. al 5% de significación. resume bien este grado de concordancia. en particular el de normalidad. Ha : Fx (x) ≠ Fo (x) Un test de bondad de ajuste debe consistir entonces en un procedimiento que evalúe estadís-ticamente el grado de concordancia (o disimilaridad) entre lo observado y el modelo sugerido o propuesto. entonces el valor crítico para esta prueba corresponde a t1-α. Sea FX la distribución de los datos X y sea Fo la distribución del modelo propuesto. Dos tests de bondad de ajuste Como ya se dijera.833. lo que se puede expresar por medio de las hipótesis H0:µ1-µ2=0 vs Ha: µ1-µ2>0.9=1.40 . entonces se debe rechazar la hipótesis de efecto nulo de la capacitación. Prof. existe razón estadísticamente suficiente. de Cs.n-1=t0. En lo que sigue se presentan dos de estos tests. como para asegurar que el programa de capacitación produjo un efecto diferencial en la eficiencia de los trabajadores. y que se extiende más allá de la normalidad.5. Más general aún. un test de bondad de ajuste debe evaluar estadísticamente el grado de concordancia o de discordancia entre la distribución de los datos y la distribución propuesta. Un desarrollo de esta forma de procedimiento. si se conociera su distribución. entonces K X i − npi npi qi ∼ X (21) Teorema: Bajo los supuestos anteriores. de Cs. entonces Xi – npi mide la distancia (dirigida) entre los datos y lo que se observaría. Pero como X i − npi npi qi ∼ N (0. P (x ∈ Ci) ) Si n (C) = n → ∞. Por lo tanto. Sea. Así. Esta estadística podría servir para llevar a cabo el contraste de Ho vs Ha . El problema surge cuando tenemos más de una observación. Una medida absoluta de esta distancia estandarizada es. 2 (1) . q1 = p2. k de elementos de C que pertenece a Ci. además. Nótese que p1+p2 = 1 y X1 +X2 = n . en cuyo caso se debería encontrar una función que resuma de mejor manera los datos. Sea C un conjunto finito de atributos o características y {C i }i = 1. donde pi = P (x ∈ Ci ) = 1 – qi. | X i − npi | npi qi . conocida la probabilidad de que una observación pertenezca a la clase i. Juan Moncada Herrera – Dpto. Matemáticas y Físicas. en consecuencia. Una medida estandarizada asociada a esta distancia es una partición de C. Xi : N° X i − npi npi qi ∼ N (0. UCTemuco . Debe notarse que la variable en estudio puede ser discreta o continua. ( X i − npi ) 2 ∑ np ∼ X 2k −1 i =1 i Demostración: Para k = 2: ( X i − np1 ) 2 ∼X np1 q1 Por lo tanto.1). Entonces Xi ~ bin (n (C ).ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 57 a. Prueba Chi-Cuadrado de bondad de ajuste Esta prueba se aplica cuando se tiene un conjunto de observaciones discretizadas. la dimensión de tal conjunto debe ser lo suficientemente grande como para asegurar una discretización aceptable.1). ( X 1 − np1 ) 2 ( X 2 − np 2 ) 2 + np1 np 2 = = ( X 1 − np1 ) 2 ((n − X 1 ) − n(1 − p1 )) 2 + np1 np 2 ( X 1 − np1 ) 2 ( X 1 − np1 ) 2 + np1 np 2 (X1-np1)2  = =  1 1  +   np1 np 2  ( X 1 − np1 ) 2 2 ∼ X (1) np1 q1 Prof. 25 vs Ha : pi ≠ 0. Se postula que T ∼ ε (θ = 200). Prof. entonces bajoHo ..3 = 7. Juan Moncada Herrera – Dpto. para el contraste de Ho :Los datos se ajustan a una distribución específica Ha : Los datos no siguen la distribución especificada sólo es necesario la construcción del estadístico chi-cuadrado y seguir los habituales procedimientos de decisión.5 26. entonces X 0. Se prueban 300 ampolletas para analizar sus tiempos de vida T (en horas).. Ni = fobs Xi = fesp Obervación: Es importante cautelar que npi > 5 . Ejemplo 3. ♦ Ejemplo 3. Matemáticas y Físicas. Ho : pi = 0.82 (30 − 26. el número de individuos por variedad tiene distribución uniforme.11.25. entonces no hay evidencia en contra de una distribución uniforme de la especie en sus cuatro variedades. Se ha probado que n = 5 k proporciona buenos resultados. si α = 0.43 ∉ Rc .25 para algún i. en caso de datos continuos.43 ∼ X 3 26. Para evaluar estadísticamente la sospecha se selecciona una muestra aleatoria que arrojó lo siguiente: Variedad N° individuos 1 30 2 24 3 32 4 20 Sea Xi : n° de elementos de la muestra que pertenecen a la clase i. Como n = 106 . UCTemuco .ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 58 De lo anterior.5) 2 2 + . ∀ i.25 vs Ha : pi ≠ 0.5 Facultad de Ciencias Dpto. esto es.05 . de Matemática y Computación Área Estadística Como X 2 Ho = 3. o más abreviadamente..5 y X 2 o = H 2 Por lo tanto. + = 3.12..95. pi ). Se sospecha que la población de cierta especie salmonídea se encuentra igualmente distribuída en sus cuatro variedades. de Cs. Entonces X i ∼ bin (n . npi = 26.. es costumbre llamar a Ni lo observado y a npi lo esperado. Notación: Si Ni = Xi . y la sospecha fundamental es equivalente a Ho : p1 = p2 = p3 = p4 = 0.5) 2 (20 − 26. del conjunto ordenado de las observaciones (en forma ascendente) y de la distribución empírica..95.005t . no siempre es posible contar con la cantidad suficiente de observaciones.100] [100.005e ∫ 100 0. ∞ ) frec 121 78 43 58 1 0 – t – 0.15 np 3 = 45 P4 = 0.005t dt= 0.. Facultad de Ciencias Dpto. es decir.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 59 Los datos se muestran en la siguiente tabla: T C1 C2 C3 C4 Aquí f (t) = (0.22 np 4 = 66 Ahora X 2 Ho 2 = 17 y nuevamente X 0. de Matemática y Computación Área Estadística Por tanto.3 = 7. apropiada cuando el tamaño de muestra es pequeño y los datos son de naturaleza continua. X(2) . Xn . t > 0 . Juan Moncada Herrera – Dpto. Sin embargo. requiere de una cantidad suficiente de observaciones como para obtener una clasificación de los mismos lo más racional posible. Test De Kolmogorov-Smirnov o de Lilliefors La aplicación del test chi-cuadrado para daterminar estadísticamente el grado de "concordancia" entre la distribución de los datos y una distribución específica.200) [200. Para una muestra de tamaño n con observaciones o realizaciones X1 .82. . Una alternativa se basa en la conocida Estadística de Kolmogorov-Smirnov. . también llamada prueba de Lilliefors.005e – 0..24 np 2 = 72 P3 = 0. X2 .300) [300. de Cs.39 y np1 = 117 0 71 = P [ 0 < T < 100 ] = Del mismo modo. El procedimiento requiere de los estadísticos de orden. ♦ b. Matemáticas y Físicas.. por lo que se hace necesaria una forma alternativa de resolver el problema de bondad de ajuste. Por lo tanto o = 0. P2 = 0.. UCTemuco .. puede asegurarse que el tiempo de vida de las ampolletas se distribuye exponencialmente. X(n) y la distribución empírica corresponde a: 0 k  Sn (x) =  n 1  x < x(1) x(k ) ≤ x < x( k +1) x ≥ x( k +1) Prof. los estadísticos de orden se denotan por X(1) . Los puntajes de 10 individuos que no mejoraron su conducta fueron: Sujeto Puntaje 1 6. G.95 y D 10 .0 5.7517 0.35 .05 0. 1.01 0.6 2 5.8264 0. es sugerida por los datos. o KS. Ejemplo 3.7 0.2483 0. de Cs.0.8 0. Juan Moncada Herrera – Dpto.9 1 Fo (x ) 0.1020 0.06 0. 1– α = 0.1 0.05 0.01 0. Aplicaciones y Métodos). Matemáticas y Físicas. Los individuos son clasificados en dos grupos: los que mejoraron y los que no mejoraron.07 0.8 3 5.8 6. Después de una psicoterapia de modificación de la conducta.3 0. al igual que en el caso del test chi-cuadrado.2 0. se aplica un test a un grupo de estos individuos para establecer la evolución de la conducta.4 5.0427 0.7 2.3 9 2.1 5.1 5 5.10 .4880 0.10 0. Por lo tanto.3 5.6628 0.: Probabilidad y Estadística.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 60 La estadística de Kolmogorov-Smirnov.3 7 3.4 4 5.7 − La naturaleza de los datos hace pensar que X ~ N (4.542) . Fo (x ) y | Sn – Fo | se muestra a continuación: Sn (x) 0.6879 0. La tabla con los valores de X(i) .06 0.07 X (i ) 1.5 0. Una forma simple de la estadística es Dn = Máx \ Sn (x) – Fo (x )| En estas condiciones el test es unilateral a derecha.41 (ver Tabla J de Canavos.9 8 3. consiste de los valores siguientes: i  n  i − 1  − D n = Máx  Fo ( x ( i ) ) − 1 ≤ i ≤ n n   − + Dn = Máx {Dn . Dn } D + = Máx  − Fo ( x( i ) )1 ≤ i ≤ n n donde D + es la máxima cantidad en la que la distribución empírica excede a la distribución ajustada. y los valores críticos se observan en tabla o se obtienen a partir de software. la distribución empírica Sn (x) .9279 | Sn – F o | 0.6 D 10 = 0.3 3.4 0. y D n n es la máxima cantidad en la que Sn subestima la distribución Fo (x ) acumulada propuesta.9 4. no existe evidencia en contra del supuesto de normalidad sobre los datos.13.95 = 0.01 0.3859 0.4 10 1. Esta última distribución.0 6 4.4 3.6 0. ♦ Prof. UCTemuco . 3.29. ¿se puede afirmar que es probable que el candidato A gane la elección? b. ¿se rechazará si α = 0. 6.2 libras. Matemáticas y Físicas. Responde a las mismas preguntas anteriores en base a una muestra aleatoria de tamaño 225. respectivamente. El departamento de seguridad de una fábrica desea saber si el tiempo promedio real que requiere el velador para realizar su ronda nocturna es de 30 minutos.5. Se encuentran 19 defectuosas. que el porcentaje de productos defectuosos no es mayor del 5%. de Cs. 7.2. al menos para un número apreciable de observaciones adicionales. tienen preferencia por el candidato A respecto del candidato B.07 onzas? Explica. Prof.29 y n = 16. 9.38libras. Suponiendo que los pesos constituyen una muestra aleatoria de una población normal. a.4. 5.1 libras con una desviación estándar de 8. seleccionando de su inventario. Suponiendo que podemos considerar los datos como una muestra tomada al azar de una población normal. Supón que en el problema 2 se fija α en 0. Si en una muestra tomada al azar de 32 rondas. seleccionadas aleatoriamente.48 onzas de FPC (por libra de pescado) con una desviación estándar de 0. ¿Se soporta esta cifra en un estudio en el cual 30 muestras de esta clase produjeron en promedio 2.6. Una encuesta política reveló que 1400 personas de un total de 2500.45 onzas de FPC (concentrado proteco de pescado). s=3. ¿Cuántas unidades muestrales adicionales bastarán para llevar al rechazo de Ho? 4. prueba la hipótesis de que la resistencia promedio es de 185 libras.05.01. se informa que una libra de cierta clase de pescado produce en promedio 2. prueba la hipótesis nula Ha: µ=250 libras contra la alternativa Ha: µ≠250 libras. determina si ésta es evidencia suficiente para rechazar la hipótesis nula Ho:µ=30 en favor de la alternativa Ha: µ≠30.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 61 3. Un fabricante asegura a una compañía que le compra un producto en forma regular. Los pesos de reses Black Angus de cierta edad tienen en una muestra aleatoria de 24 reses una media de 253 libras y una desviación estándar de 2. En un estudio de nuevas fuentes de alimentación.05 se debe rechazar la hipótesis nula Ho:µ=14.5 minutos. Si x =22. Supóngase que los datos son una muestra tomada al azar de una población normal. y 14. UCTemuco . Supóngase que las especificaciones de cierto tipo de cinta afirman que el producto tiene una resistencia media a la ruptura de 185 libras y que cinco piezas seleccionadas al azar de diferentes rollos tienen una resistencia media a la ruptura de 183.8 minutos con una desviación estándar de 1. ¿Cuál debe ser la decisión de la compañía? 10. En base a este intervalo.0. estudiar el rechazo de Ho. 2. 14. Considera el contraste de Ho:µ=20 v/s Ha: µ≠20.01? Explica. Cinco mediciones del contenido de alquitrán de cierto tipo de cigarrillo arrojaron los siguientes resultados: 14.6 mg/cig. 200 unidades de este producto y probándolas. 8. La compañía decide verificar la afirmación del fabricante. que se utiliza para enriquecer diversos productos alimenticios.3.0 en favor de la hipótesis alternativa Ha: µ≠14. 14. y que la media y varianza de las observaciones se mantienen constantes en x =22 y s=3. Construir un intervalo del 99% de confianza para la verdadera proporción de votantes que está a favor del candidadto A. el velador promedió 30. Juan Moncada Herrera – Dpto. 14. EJERCICIOS Y PROBLEMAS 1. Si una hipótesis Ho se rechaza con una probabilidad de error Tipo I de 0. Demuestra que para α = 0. 2 8.2 7. El cuadro siguiente muestra los resultados obtenidos: Concentración1 8.5 8.0 8.13. en centímetros.90 fobs 6 5 7 5 fesp = npi Plantear y resolver el problema.2.9 10.72).1 5.6 8. La nota de entrega dice que. y se distribuyeron en grupos de tamaño 10 cada uno.5 8. (Revisa supuestos) b.5 4 5 6 7 8 9 10 11 9.8 6. UCTemuco .5 5. Después de una cantidad dada de meses. Caracterizar la variación en el peso de los terneros conforme a cada uno de los tratamientos. Los puntajes X correspondientes a 23 individuos seleccionados aleatoriamente de entre aquellos que presentaron mejoría en el ejemplo 3.4 8.9 2 11.200 – 4.5 9. Se desea establecer si la aplicación de cierto tratamiento alimentario incide o no en el desarrollo de cierta variedad de vacunos. Se realiza un experimento biológico. pero revisarlas todas es imposible. el porcentaje de bolsitas que no cumplen los requerimientos indicados en ella es del 1%. y una confianza del 95%. Un resumen de los puntajes se muestra en la siguiente tabla : k= 1 2 3 4 Clase 2.1 6.0 3.7 9. 14. Analiza requisitos del análisis.1 8. fueron los siguientes: Ind X 1 11. se midió la variación en peso (diferencias de peso) que experimentaron estos terneros.4 Ind 12 13 14 15 16 17 18 19 20 21 22 23 X 7. Decide que desea un error en las estimaciones no superior al 3%.9 6. formula y prueba las hipótesis asociadas al problema.9 8.2 9.0 9.7 7.6 6. de Cs.4 7.050 – 9.9 9. Juan Moncada Herrera – Dpto.0 4. se seleccionaron 20 terneros de 3 meses.625 – 7.5 8. mientras que el otro fue alimentado en condiciones normales o "tradicionales".475 – 11.2 10. digamos Trat1.8 10. 13.5 4.1 4.2 10.7 8.4 9. Se postula que X ~ N (7.7 3 10. se utilizaron 10 plantas de la especie en estudio. Una casa comercial recibe una gran partida de bolsitas de semilla.4 8. ¿Cuántas bolsitas deberá revisar? Desde otra perspectiva. Para ello.6 a. de modo que decide usar el muestreo estadístico para reolver el problema. La casa comercial desea hacer una estimación del total de bolsitas que no satisfacen los requerimientos.4 8. Con este fin.9 8.474 9.9 7.6 8.0 3. para finalmente medir su crecimiento en centímetros. Uno de estos grupos fue sometido al tratamiento en cuestión. para reforzar el crecimiento. en base a las concentraciones de un determinado elemento químico. en lo que al aumento de peso respecta.1 11. 12.5 8.3 5.2 Prof.050 7. Llamemos Trat2 a este último tratamiento.0 8.2 ¿Puede asegurarse que estos datos provienen de una distribución normal? 15.2 10.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 62 11.625 4. Sea X: Puntaje de untest de conducta. a causa del proceso automatizado de empaquetado. Determinar si el tratamiento nuevo es o no más efectivo que el sistema tradicional de alimentación. obteniéndose los datos de la tabla siguiente: Trat1 Trat2 6. de una planta medicinal. Matemáticas y Físicas.2 4.8 8. 00 0.74 0.9 8.64 0.011 0.4 8.57 0.9 8. concluye respecto del instrumento a comprar.4 8. Durante este período se realizaron mediciones en la zona. zona costera y cordillerana del litoral de la antigua décima región. 1978.011 a) Determinar cuál de los dos bancos en estudio presenta una mayor variabilidad en la concentración de mercurio.55 0.81 0. se seleccionaron 2 bancos de prospección: Cochamó y Río Puelo.82 0. se aplicó a 10 caballos una dosis de dicha droga.00 0.69 0. prueba si el uso del elemento químico en estudio es eficiente en el reforzamiento del crecimiento de la especie en estudio. los cuales deja a prueba por un mes para que se resuelva la compra.013 0.76 0. Después de realizado el muestreo y los análisis necesarios.63 0. ¿cuál de ellas es más eficiente? 18.00 0.7 0. Con el ensayo realizado ¿se logran los mismos resultados que en las experiencias realizadas anteriormente? 19.1 8. c) Discute respecto de los supuestos involucrados. Davies y Pirie. estudia el uso de una nueva droga para ser utilizada como anestesia en equinos. por un período de 5 horas.5 centímetros. Un centro experimental animal.038 0. UCTemuco . vulgarmente llamado "chorito".2 8. si se considera una segunda concentración del químico estudiado.009 0. obteniendo lecturas resumidas en el siguiente cuadro: Instrumento A Instrumento B 0. y por lo tanto masificar su uso. por ser el primer eslabón indicador de la cadena trófica y un bioacumulador de mercurio (Moore. Golberg y Col.3 8.75 0. Para evaluar la veracidad de esta experiencia. Prof.006 0. En el estuario de Reloncaví. 16.019 0. de Cs. b) Determinar cuál de los dos bancos está más contaminado por la presencia de mercurio.01 0.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 63 Si lo que se pretende es aumentar el crecimiento de la planta en estudio y si se sabe que en condiciones naturales el crecimiento promedio de esa especie es de 7. logrando anestesiar a 8 de ellos. Juan Moncada Herrera – Dpto.86 0. se obtuvieron los siguientes resultados. por un período de 5 horas. 17. a través de la especie Mytilus chilensis. para evaluar la presencia de mercurio.2 Si la concentración más eficiente es aquella que maximiza el crecimiento de la especie en estudio. en ppm: Río Puelo Cochamó 0.61 0.007 0.89 0.5 8. El proveedor dispone de 2 instrumentos.015 0. Las experiencias con esta droga indican que se logra anestesiar al 92% de los animales. Matemáticas y Físicas.65 0. obteniendo los resultados resumidos en la siguiente tabla: Concentración 2 8. 1971. Una empresa consultora en problemas ambientales.014 0.9 8. asesora a una institución ambientalista en la compra de un instrumento para medir la cantidad de monóxido de sulfuro en la atmósfera.025 0.026 0. En relación al ejemplo 17.011 0.53 Considerando que el instrumento seleccionado será aquel que presente la menor variabilidad.00 0. 1980).021 0.057 0.87 0.68 0. X2 independientes  (n − 1)S 2 (n − 1)S 2   2  . Tamaño muestral ni : Tamaño de la muestra i-ésima X i : Media de la muestra i-ésima Si : Desviación estándar de la muestra i p : Proporción muestral ˆ Prof.n1 −1. σ 2 desconocidas σ 1 . 12 f1−α / 2. INTERVALOS DE CONFIANZA MÁS COMUNES 1– Nivel de confianza : 1– α Distribución Función de parámetros Condición (es) Intervalo de confianza µ µ µ1– µ2 Normal σ conocida X ± Z 1−α / 2 X ± t1−α / 2.n1 −1 p ± Z1−α / 2 ˆ p(1 − p ) ˆ ˆ n Binomial p n grande p= ˆ µ : Media poblacional µi : Media poblacional i σ : Desviación estándar poblacional σi: Desviación estándar población i p : Proporción poblacional x n n . UCTemuco . σ 2 conocidas (X 1 − X 2 ) ± Z1−α / 2 − σ 12 n1 + σ 12 n2 X1 . 2 χ .ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 64 ANEXOS A.1. n − 1   1−α / 2  2 2  S1  S  2 f α / 2. n − 1 χα / 2 .n −1 σ n s n σ desconocida X1 .n1 −1.n2 −1  S  S2  2  1 f α / 2.n2 −1 = f1−α / 2. X2 independientes σ 1 . σ 2 homogéneas (n1 − 1)S12 + (n2 − 1)S 22 n1 + n2 − 2 σ 2 No hay ! 2 S1 > S 2 2 σ 12 2 σ2 X1 .n2 −1. Juan Moncada Herrera – Dpto. X2 independientes ( X 1 − X 2 ) ± t1 α .n2 −1. Matemáticas y Físicas. de Cs.ν Sp ν = n1 + n2 − 2 2 Sp = 1 1 + n1 n2 µ1– µ2 σ 1 . UCTemuco .n2 −1 X1 . de Cs. Matemáticas y Físicas. Juan Moncada Herrera – Dpto.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 65 B.n −1 X1 . σ2 desconocidas 1 2 1 Sp + n n  1 2 2 Sp =     2 1 2 2 m t1−α / 2. X2 independientes σ1 . X2 independientes H 0 : p = p0 n grande H 0 : p = p0 m Z 1−α / 2 µ : Media poblacional µi : Media poblacional i σ :Desviación estándar poblacional σi : Desviación estándar de la población i p : Proporción poblacional n : Tamaño muestral ni : Tamaño de la muestra i – ésima X i : Media de la muestra i – ésima Si : Desviación estándar de la muestra i p : Proporción muestral ˆ Prof. X2 independientes σ1 .n −1 f 1−α .n1 −1. σ2 homogénas (n1 − 1)S + (n 2 − 1)S n1 + n2 − 2 No hay! Ha : σ > σ0 H0 : σ1 = σ2 H0 : σ1 > σ2 2 S12 > S 2 (n − 1)S 2 σ 02 S12 2 S2 p − p0 ˆ p(1 − p ) ˆ ˆ n x p= ˆ n χ 12−α / 2. σ2 conocidas (X σ 1 2 1 − X 2) + σ 12 n2 m Z 1−α / 2 n1 Ho : µ1 – µ2 = 0 (X 1 − X 2 ) X1 .υ ν =n1 + n2 – 2 Ha : µ1 – µ2 ≠ 0 Ho : σ = σ0 σ1 . PRUEBAS DE HIPÓTESIS COMUNES 1– Nivel de confianza : 1– α Hipótesis Ha :µ ≠ µo Ha :µ ≠ µo Ho :µ1 – µ2 =0 Ho :µ1 – µ2 ≠0 Condición (es) σ desconocida Estadístico de prueba bajo Ho Valor(es) crítico(s) X − µ0 S n m t1−α / 2. SUGERENCIAS BIBLIOGRÁFICAS Para una revisión bibliográfica tendiente a complementar o profundizar algunos temas tratados en esta unidad.ESTADÍSTICA DESCRIPTIVA E INFERENCIAL 66 C. Modelos y Métodos. 1991. Grupo editorial Iberoamérica. Matemáticas y Físicas. G. Vol. D. 1993. 2. Aplicaciones y métodos. de Cs.A. 4. 1992. Steel–Torrie: Bioestadística. Prof. 1988. S. 5. Juan Moncada Herrera – Dpto. McGraw–Hill. Alianza Editorial S. 1990. se sugieren los siguientes títulos: 1.A. 3. Scheaffer–McClave: Probabilidad y Estadística para Ingeniería.: Estadística. México. McGraw-HiII. Freund–Walpole: Estadística Matemática con aplicaciones. Peña. México. México. Madrid. UCTemuco . México. Prentice–Hall Hispanoamericana. a través de sus diferentes capítulos. Canavos. 2.: Probabilidad y estadística. Principios y Procedimientos. agosto de 2008 . de Cs.: Juan Moncada Herrera Temuco. Matemáticas y Físicas Área Estadística INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL Prof.Facultad de Ingeniería Dpto. PREÁMBULO El documento que tienes en tus manos no pretende ser más que una ayuda en tu programa de aprendizaje y crecimiento respecto de una disciplina que cada día se abre pasos agigantados entre la trama social. se trata de un extracto de un documento más amplio que el autor tiene en preparación. Por lo tanto está muy lejos de proporcionar una revisión y presentación acabada de los principales temas de esta disciplina. y desarrollar cuidadosamente los ejercicios y problemas propuestos. Más aún. científica y técnica de la que formamos parte: la Estadística. Para una adecuada utilización de estas notas te recomiendo completar su lectura con un libro de texto de referencia. El autor . como los sugeridos en la bibliografía. ÍNDICE GENERAL INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL INTRODUCCIÓN EL MODELO LINEAL BÁSICO AJUSTE DEL MODELO ANÁLISIS EXPLORATORIO ESTIMACIÓN DE PARÁMETROS PROPIEDADES DE LOS ESTIMADORES UN CASO PARTICULAR: LA REGRESIÓN LINEAL SIMPLE UN EJEMPLO 4 4 6 6 6 7 8 10 11 11 14 16 16 19 29 ANÁLISIS DEL MODELO INFERENCIAS EN EL MODELO EL ANÁLISIS DE LA VARIANZA EL COEFICIENTE DE DETERMINACIÓN DIAGNÓSTICO DEL MODELO EJEMPLOS ILUSTRATIVOS SUGERENCIAS BIBLIOGRÁFICAS . INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL . Esta relación es de tipo funcional. y Rendimiento es la variable dependiente. a partir de un conjunto de observaciones (B. logarítmicas. y se expresa a través de una ecuación. El interés fundamental en este caso será quizá la predicción del Rendimiento conocidos la Edad y el Peso de un niño. entonces la ecuación ser también lineal. EL MODELO LINEAL BÁSICO Sean \ . \ es un vector de dimensión : (cuyas componentes se llaman variables independientes). En estos casos. que en una forma más condensada puede escribirse como: ] = \t F  X (2) donde ] es la variable dependiente. o equivalentemente. En base al modelo (1). En dicha relación se debe distinguir la variable independiente o predictora de la variable dependiente. donde X es un vector aleatorio cuyas componentes satisfacen: IÐXi Ñ œ !ß a3 œ "ß 8 Z +<ÐXi Ñ œ 5 # . De lo anterior se deduce que ] œ 0 () ß B)  X . intrínsicamente lineales. Prof. Por ejemplo. sino también en el caso en que se tienen varias variables independientes y una variable dependiente. de la relación funcional. Var[] ] œ 5 2 M con 0 una función lineal en ) . la que a su vez puede ser simple o múltiple. ] variables aleatorias (\ puede ser un vector aleatorio). para 3 Á 4.INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 4 INTRODUCCIÓN Existen situaciones en las que la relación entre dos variables es de tipo "causa-efecto". Existen varios tipos de regresiones (lineales.C ). interesa también determinar la forma en que ellas se relacionan funcionalmente.).: Juan Moncada Herrera . La parte de la Estadística que se encarga de este tipo de estudios es el Análisis de Regresión. Se llamará modelo lineal a una relación de la forma: E[] ] œ 0 () ß B). El análisis anterior no sólo es válido para el caso de dos variables. M la matriz identidad. F es el vector de parámetros y X es un vector de errores aleatorios. además de probar que efectivamente las variables están relacionadas (correlacionadas). Si los datos muestran una tendencia lineal. 3 œ "ß 8. obtener una estimación de esta ecuación. dependiendo de la cantidad de variables independientes. En este ejemplo Edad y Peso son las variables independientes. Denotaremos por \ a la variable (o conjunto de variables) independientes (las que causan el efecto). en el modelo (2) se tiene que E[] ] = \ t F . etc. Var[] ] œ 5 2 M La ecuación (2) es la ecuación de regresión entre \ e ] . B − \ . y por ] la variable independiente (el efecto). supuesto de homocedasticidad IÐXi X4 Ñ œ !. con las mismas características del modelo (1). ) − @. polinomiales. puede ser de interés estudiar la forma en que se relacionan las variables Edad y Peso de un niño con la variable Rendimiento Escolar. y @ un espacio paramétrico (real). El problema de Regresión Lineal consiste en. pero la más "popular" es la Regresión Lineal. supuesto de independencia de errores (1) Una forma más simple del modelo dado en (1) es ] œ "9  \ > ""  X . . Los modelos más comunes de ese tipo son de la forma: C œ "o /B:Ö"1 B×/ß E[/] œ 0..\ ).] ). en la ecuación (2) se tiene que ] es un vector de dimensión 8. o en procesos económicos. velocidad de crecimiento industrial o habitacional. Por ejemplo. ": )t . calidad de la materia prima. para obtener las ecuaciones w w w C w œ 68ÐCÑ œ "o  "" B  /w . en los que las utilidades están afectas a cambios en el sistema cambiario. \ es una matriz 8xÐ:  "Ñ. habilidades de los operarios. (3) Prof. preferimos escribir el modelo (2) en su forma matricial: ] œ XB  X Formas particulares de este tipo de modelos son:  Modelo de Regresión Lineal Simple En este modelo se tiene \ t œ (1.. Hay muchas situaciones en las que puede resultar adecuado un análisis de regresión.INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 5 Mientras en el análisis de correlación interesa establecer la medida o magnitud de la variabilidad conjunta entre \ e ] (lo que traduce en un estudio de asociación). F œ ("o ß "1 )t . Este último modelo se puede linealizar aplicando logaritmo a la igualdad. con "o œ 68Ð"o Ñß /w œ 68Ð/Ñ. . Aquí."1 ). este tipo de modelos tiene una forma tal que.: Juan Moncada Herrera . etc. Var[/] œ 5 2 M . mediante sencillas transformaciones.  Modelos Intrínsicamente Lineales Aunque no son lineales propiamente tal.  Modelos Polonomiales La forma de este tipo particular de modelos es Ejercicio: Identificar las componentes de las formas matriciales de los cuatro modelos definidos arriba. en estudios de producción en los que ésta puede depender de factores controlables.. Sobre la base de un conjunto de 8 observaciones simultáneas del par (\ . como tipo de máquinas. Esto es equivalente a establecer la forma funcional de la relación causa-efecto entre \ y ] . etc.\: )t . F œ ("o ß "1 . F es un vector de orden :  " y X es un vector de dimensión 8.. en el análisis de regresión el interés se centra en establecer la forma en que se desarrolla esa variabilidad. \ œ (1..  Modelo de Regresión Lineal General En este modelo.\1 . Por esto... pueden linealizarse fácilmente. \ t œ ("ß B)ß F t œ ("o . preferentemente (aunque no exclusivamente) este último enfoque. se determina tendencia de los datos. se detectan y corrigen errores.. Es fundamental en esta parte del análisis la construcción del diagrama de dispersión o nube de puntos.. La técnica más usual de estimación es la de Mínimos Cuadrados.INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 6 AJUSTE DEL MODELO Como ya se dijera.. El primero consiste en minimizar el Prof. Existen básicamente dos métodos de estimación de los parámetros de un modelo de regresión: El método de Mínimos Cuadrados y el de Máxima Verosimilitud. Nos referiremos a " œ Ð"1 . particularmente los modelos de regresión lineal. En este caso se formula una serie de supuestos que sustentarán el análisis y darán consistencia a las conclusiones. y por ajuste del modelo entenderemos el proceso que va desde el análsisis preliminar de los datos hasta la estimación de los parámetros del modelo. por lo tanto.: Juan Moncada Herrera . 3 œ "ß 8. dos enfoques diferentes. lo que demanda un formación básica en Estadística Inferencial. Por una parte se pueden desarrollar técnicas de estimación y ajuste basados en gran medida en resultados de tipo geométrico. lo que también permitirá análisis de tipo inferencial acerca del modelo o sus componentes. ESTIMACIÓN DE PARÁMETROS Los parámetros del modelo lineal simple son "o . y particularmente el análisis estadístico. etc.": )t como el vector de parámetros.. Aquí la geometría del espacio y proyectiva revisten gran importancia. "1 . como también lo es el permanente "retorno a los datos".": y 5 . En estas notas seguiremos. el análisis de modelos de regresión. etc. Vital resulta. Es lo único que puede ayudar a tener certezas en materia de conocimiento a priori del problema abordado. Los estimadores del modelo surgen naturalmente como consecuencia de consideraciones geométricas a veces elementales. En una segunda fase del análisis deberá estimarse " y eventualmente 5 ... Los parámetros del modelo lineal general son "o . presentado anteriormente en la sección de Análisis de Correlación Lineal. Por esta razón es fundamental la fase preliminar de todo análisis de información. lo que se debe buscar en las áreas afines al problema en estudio. Por otro lado. deberán preceder a cualquier análisis sofisticado y complejo. y proporciona la confianza necesaria en los resultados. si procede. Otro aspecto importante de considerar en esta fase es la conceptualización y comprensión del problema. La definición de la base de datos es fundamental. Esto último requiere de supuestos distribucionales adicionales. se tiene un enfoque de tipo distribucional. Es sólo estaposibilidad de permanente confrontación con la realidad la que garantiza una base de datos de calidad.. tablas de resumen de información.. ANÁLISIS EXPLORATORIO En esta fase se estudian características numéricas básicas de los datos. a veces complejas. básicamente. Presentaciones gráficas.. "1 y 5 . para 3 Á 4. supuesto de homocedasticidad IÐXi X4 Ñ œ !. Debe incluirse también en esta etapa aspectos de inferencia en relación a los estimadores. se valida la información. y se apoyan fuertemente de resultados del Algebra Lineal. supuesto de independencia de errores Dicho análisis tiene. el trabajo interdisciplinario. se examinan eventuales valores atípicos o extraños. se basa en los siguientes supuestos sobre el término de error: IÐXi Ñ œ !ß a3 œ "ß 8 Z +<ÐXi Ñ œ 5 # . son Ð\ t \Ñ-1 \ t ] y s s (]  ] Ñt (]  ] ÑÎ8 . Definición: La matrix \Ð\ t \Ñ-1 \ t se llama matriz de proyección. que como es sabido. como multiplicadores de Lagrange. y en base a un conjunto de 8 observaciones. tal que (]  ] Ñ# es mínima para todos los s valores de ] . la minimización de (]  ] Ñ# conduce a las ecuaciones normales. entonces. entonces: s 1. Se trata de método con fuerte soporte geométrico. Cuando se utiliza el método de Mínimos Cuadrados. estimador de este error estándar es. S2 y s i son independientes. 4. los estimadores máximo verosímil de " y 5 2 . Cov(s i ß " j ) œ -34 5 2 " s SCE s s 5. la s s s ecuación estimada del modelo (3) es la ecuación ] œ \ " . proporciona los estimadores del modelo. Usando métodos de s optimización. pués se trata de maximizar la función de verosimilitud de los datos. Var(s i ) œ -33 5 2 à donde -34 (en geneal) es el elemento de la fila 3  " columna 4  " de la matriz " (\ t \ )-1 . Un segundo método de estimación de los parámetros es el método de Máxima Verosimilitud.T\ œ \ . E(" ) œ " s 2. obtenida vía métodos de optimización o por medio de consideraciomnes geométricas (aplicación de espacios ortogonales). Algunas características de esta matriz son: Proposición: La matriz de proyección satisface lo siguiente: .(M8  T )\ œ 0 PROPIEDADES DE LOS ESTIMADORES Proposición 1: Bajo el supuesto de normalidad en los errores y si \ t \ es no-singular. La solución. donde SCE œ (]  ] Ñt (]  ] ). 6. È-33 S Prof. cuyas soluciones proporcionan los estimadores: s " œ Ð\ t \Ñ-1 \ t ] s s ^2 5 œ (]  ] Ñt (]  ] ÑÎÐ8  Ð:  "ÑÑ Por otra parte.M8  T es simétrica e idempotente .: Juan Moncada Herrera . El supuesto distribucional más importante es el normalidad de los errores.Es simétrica e idempotente. requiere de supuestos distribucionales. En ambos casos es necesario imponer ciertas restricciones a los datos. Esta última cantidad es conocida como Suma de Cuadrados del Error.INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 7 cuadrado de las distancias entre el modelo y su estimador (el modelo ajustado). . Un 2. Un estimador insesgado de 5 2 es S2 œ 8Ð:"Ñ . La más usual de estas restricciones es que la suma de los residuos (diferencia entre lo ajustado y lo observado) sea cero. " s Observación: De la parte 3. Por esta razón también se llama a ] la ecuación mínimo cuadrática. respectivamente. Cov(" ) œ 5 2 Ð\ t \ )-1 3. de la proposición se tiene que È-33 5 2 es el error estándar de " i . notemos que el modelo Ci œ !  " Bi  Xi . respectivamente. que se supone se distribuye normalmente. Ci ). Ù ÖÞ Ö Ù Ö Þ . Ù ÖÞ Ö ÙœÖ Ö . ^ ^ Para la obtención de ! y " .INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 8 Proposición 2: Si X ~ N(0. Cuando se tiene un conjunto finito de 8 observaciones (Bi . y que existe por cierto un relación de causa-efecto entre las dos variables. siguiendo la idea del modelo (3). Sean \ y ] estas variables. basado en 8 observaciones. para todo i. 5 2 Ð\ t \ )-1 ) 2. donde ! y " son los estimadores mínimo cuadráticos de ! y " . ! es la pendiente y % es un término de error aleatorio. " ~ N:" Ð" . s i ~N(" i ß cii 5 2 ) " 2 3. respectivamente. con media cero y varianza constante 5 2 . A veces la simple sospecha de una relación lineal aparente entre dos variables no es suficiente para iniciar un análisis de regresión. entonces: s 1. es un caso especial del modelo (3). [8Ð:")]S2 52 ~ . La relación entre \ y ] la expresaremos. Ø Õ Xn Ø B8 Prof. El análisis de regresión lineal simple se encarga de encontrar una recta ajustada que mejor represente a las relaciones anteriores y que mejor se ajuste a los datos. entonces la relación anterior se expresa como: Ci œ !  " Bi  Xi donde Xi N(0.5 2 ).5 M ).: Juan Moncada Herrera . s s (" " )t (\ t \ )(" " ) 52 ~ .2 8Ð:"Ñ 4. Denotaremos la recta ajustada por ^ ^ ^ ^ ^ C i œ !  " Bi .2 :" UN CASO PARTICULAR: LA REGRESIÓN LINEAL SIMPLE La regresión lineal simple estudia la relación entre una variable independiente y una dependiente. Ô C1 × Ô " Ö C2 Ù Ö " Ö Ù Ö Ö . y son todos independientes entre sí. Es preciso asegurarse de que existe verdaderamente tal tendencia (a través de un diagrama de dispersión. por ejemplo). como: ] œ !  "\  X donde ! se llama intercepto. Ù Ù Ö Ù Þ . Õ Cn Ø Õ " B" × Ô X1 × B# Ù Ö X2 Ù Ù Ö Ù Þ Ù ! Ö . En efecto. Ù Ö Ù Ù Þ Ù” " • Ö . (\ \ ) \ ] œ 1 Ö 8!B2 (!Bi )2 i Ô !B# i  !Bi × Ù. propiedad que también se mantiene cuando se supone normalidad en los errores. el estimador mínimo cuadrático de la varianza es 5 œ ^ estimador máximo verosímil es 5 œ 2 !e2 i 8# . ^ Los estimadores de las varianzas se obtienen sustituyendo 5 por 5 en las respectivas expresiones. se puede escribir: ^ !œC 8!B2 (!Bi )2 i 8!Bi Ci 82 B C ^ œ C  "B !e2 i ^2 Por otra parte. 8 Ø De lo anterior se deduce que Ô !Ci !B2  !Bi !Bi Ci × i Ù œ ! 2 1 ! 2Ö 8 Bi ( Bi ) !Bi !Ci  8!Bi Ci Õ  Ø !Bi !Ci 8!Bi Ci 8!B2 (!Bi )2 i ! Õ  Bi  !Bi ×Ô !Ci × ÙÖ Ù 8 ØÕ !Bi Ci Ø ^ !œ !Ci !B2 !Bi !Bi Ci i 8!B2 (!Bi )2 i ^ "œ Después de ciertos "arreglos" algebraicos. Así que Ô " B" × Ö " B# Ù !Bi × Ô " " Þ Þ Þ " ×Ö Þ Þ Ù Ô 8 Ö Ù Ö t Ù. Prof. \\œ Ö Ùœ ÖÞ Þ Ù !Bi !B2 Õ B" B# Þ Þ Þ B8 ØÖ i Ø Ù Õ Þ Þ Õ " B8 Ø Ô !B# i Además. " y 5 2 son insesgados. (\ t \ )-1 œ ! 2 1 ! 2 Ö 8 Bi ( Bi ) ! Õ  Bi t -1 t y por lo tanto. mientras que su 8 .: Juan Moncada Herrera SXX 25 4 8# . Proposición: Si los errores están centrados en cero y tienen varianza común 52 . a excepción del de 5 2 .B]. entonces: ^ E(!) œ ! ^ E(" ) œ " " ^ Var(!) œ 5 2 Š 8  ^ Var(" ) œ 5 2 1 B# SXX ‹ ^ E(5 ) œ 5 2 2 ^ Var(5 ) œ 2 En base a esto podemos concluir que los estimadores mínimo cuadráticos de !. con \ œ [1.INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 9 expresión que es de la forma ] œ \ "  X . 2+1. habría puntos de los allí marcados que no pertenecerían a la recta. Esto implica que la recta ajustada es C3 œ 1. Si se graficara esta recta en el mismo diagrama anterior. al cabo del cual se registran sus ventas semanales (en miles de dólares).INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 10 UN EJEMPLO Se administra una prueba de habilidad a grupo de 5 postulantes a vendedores en una empresa.13. donde C3 son las ventas semanales estimadas y B3 es el puntaje obtenido en la prueba.2  1. y se les deja a prueba durante un mes. ^ ^ Los ajustes correspondientes conducen a los siguientes valores estimados: ! œ "Þ# y " œ 1. lo cual es obvio.: Juan Moncada Herrera . Prof. Puede verse que existe una observación "fuera" de esta banda de confianza del 95%.13B3 . pues ajustamos una recta a un conjunto de datos que no tienen una tendencia lineal perfecta.133*x+eps 13 11 Y: VENTAS 9 7 5 3 2 3 4 5 6 7 8 9 10 11 X: PUNTAJE La gráfica siguiente muestra el resultado gráfico de los mismos ajustes anteriores. Los resultados fueron: B C % & ( "# $ % ' ) "! "" donde B: Puntaje en la prueba. Puntajes vs Ventas y = 1. Disgrama de Dispersión Puntaje vs Ventas 13 11 Y: VENTAS 9 7 5 3 2 3 4 5 6 7 8 9 10 11 X: PUNTAJE Puede pensarse que las ventas semanales "dependen" del puntaje obtenido en la prueba. y: Ventas semanales. adicionando ahora la banda de confianza para los valores predichos. 3 4 6 8 10 12 14 Predicted Values El punto que está fuera de la banda de confianza debiera "estudiarse". y se basa fundamentalmente en el Análisis de Residuos. además. podemos formular hipótesis sobre los parámetros. NO DEBE USARSE UNA ECUACION DE REGRESION SIN ANTES HABER EFECTUADO UN ADECUADO DIAGNOSTICO Este análisis consiste. particularmente en modelos de regresión lineal. un aspecto de relevancia en el análisis de regresión. Por razones de tiempo no se expondrán aquí detalles de este análisis. un aspecto importante en el análisis dice relación con las inferencias acerca de tales estimadores. Observed Values Dependent variable: VENTAS 11 13 11 Observed Values 9 7 5 Regression 95% confid. Aspectos de homocedasticidad y normalidad de los errores corresponden a lo que se conoce como Diagnóstico del Modelo. El análisis de residuos es quizá uno de los aspectos más importantes del ajuste de modelos. INFERENCIAS EN EL MODELO Supuesta la normalidad en los errores. no significa que el ajuste sea de gran utilidad. Los supuestos distribucionales permiten. así como todos los aspectos antes mencionados.: Juan Moncada Herrera .INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL Predicted vs. Inferencias acerca de BETA Como el ajuste de un modelo de regresión se basa en estimadores de los parámetros. pero indicamos que el uso de software adecuado facilita considera-blemente tal análisis. ANÁLISIS DEL MODELO El encontrar una ecuación que represente la situación planteada. además de los supuestos iniciales sobre el modelo de regresión. en consecuencia. Prof. (2) Los valores estimados obtenidos son realmente significativos o no. en su forma más elemental. La bondad del ajuste es. que pueden resultar muy útiles a la hora de juzgar la calidad del modelo ajustado. la construcción de intervalos de confianza. en probar si: (1) Se hizo bien o no en suponer una relación lineal entre las variables. A veces ocurre que la ecuación encontrada no sirve para predecir. y validar por lo tanto algunos supuestos que sobre ellos formulemos. así que Ð\ t \Ñ-1 œ Ö 0 34 Ø Õ -2 17 0 1 10 -2 14 14 0 14 × 0 Ù. Primero calculamosÐ\ t \Ñ. Ö Ù Ö Ù 1 1 1 1 Õ "2 Ø Õ3Ø Õ1 2 4Ø Ô X1 × Ö X2 Ù Ö Ù donde X œ Ö X3 Ù Ö Ù X4 Õ X5 Ø s Recordemos que " œ Ð\ t \Ñ-1 \ t ] . para el contraste anterior es Èi. el estadístico de prueba. Ô 5 Pero \ t \ œ 0 Õ 10 0 10 0 10 × Ô 35 0 . supuesto " " Ho verdadera.! SÈ-44 si 5 es desconocido 2 Otro aspecto de importancia en el análisis de los estimadores dice relación con hipótesis de interés formuladas al respecto. Solución: El modelo que se pide ajustar es de la forma C œ " o  " " B  " # B2  /Þ En forma vectorial se tiene: Ô "o × 2 ] œ (1. entonces bajo Ho . el estadístico 52 33 s toma la forma s i "i0 " È-33 S2 ~ >8Ð:"Ñ .: Juan Moncada Herrera . parte b). 1 Ø Prof. se deduce que un intervalo de confianza del ("  !)100% para " i es: D1. Y cuando 5 2 es desconocido. En este sentido uno de los problemas que reviste gran importancia es el contraste de Ho :" i œ " i0 v/s Ha :" i Á " i0 . y cuando 5 2 es conocido. para i Á ! Como s i ~N(" i ß -33 5 2 )."i0 ~ N(0.INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 12 De la proposición 2.1). Ejemplo: Los siguientes datos corresponden al crecimiento ] (en mm) de una planta al variar la temperatura ambiente \ desde -2°C a +2°C: B C -2 0 -1 0 0 1 1 1 2 3 Estudiar la posibilidad de ajustar un polinomio de segundo grado al crecimiento.Bß B ) " 1  X Õ" Ø 2 En forma matricial: Ô 0 × Ô 1 -2 4 × Ö 0 Ù Ö 1 -1 1 ÙÔ " o × Ö Ù Ö Ù Ö 1 Ù œ Ö 1 0 0 Ù "1  X.! 5 È-44 si 5 es conocido 2 si „ "  >1. E[] ] œ \ > " .2143. entonces B9 œ Ò"ß #ß %Ó> à ^ C œ !Þ&("%#*  !Þ(*#  !Þ#"%#)'*% œ #Þ)#)' Por lo tanto.2143.8Ð:"Ñ SÈ\o (\ t \ )-" \o Ejemplo: En el ejemplo anterior. por lo que # = œ 0.48. = œ !Þ%()".\o ) es: ^ t ] „t1!/2. el polinomio ajutastado es " " ^ C œ 0.X1 . Falta determinar si existe evidencia suficiente a favor de la curvatura. Luego.2143B2 Se ha obtenido una ecuación a la que se ajustan los datos. entonces >L9 œ "Þ'(.7 y " 2 œ 0.5714 × 0 Ù 7 œ 0.463. Como " 2 œ 0. Var[e] œ (M  T )5 2 . y = œ 0. Ð\ t \Ñ-1 \ t ] œ " œ Ö 0 Õ -2 17 0 1 10 -2 14 14 0 14 ×Ô 5 × Ô 0. \ ] œ -2 Õ4 1 -1 1 1 0 0 1 1 1 Ô0× 1 ×Ö 0 Ù Ô 5 × Ö Ù 2 Ö1Ù œ 7 . los datos no contienen evidencia suficiente para incorporar un término cuadrático en el modelo.7000 . ^ Respecto de ] se formula la siguiente proposición: ^ ^ Proposición: Bajo normalidad en los errores. entonces >8Ð:"Ñà!*(& œ >#à!*(& œ %Þ$!$ es el valor crítico s superior del test.2315.Xp ]t Es obvio que bajo normalidad en los errores... un intervalo de confianza para IÒ] Ó cuando B œ # es: Í Í "( Í Ô $& Í #Þ)#)'„>"!Î#à# *!Þ%()"ÍÒ"ß #ß %ÓÖ ! Õ # Ì "% ! " "! # "% ! "% ×Ô " × ! Ù # ´ #Þ)#)'„>"!Î#à# *!Þ%()"*!Þ*#!& " ØÕ % Ø Prof. Definición: Los residuos (errores estimados) del modelo ] œ X"  X se definen como ^ ^ X œ e œ ]  ] œ (M  T )] .2143 Ø 1 ØÕ 13 Ø s Esto significa que s o œ 0. valor que no pertenece a la región de rechazo. ^ ^ s Calculando la WG I œ Ð]  ] Ñw Ð]  ] Ñ œ ] w ]  " w \ w ] . obtenemos que WG I œ 0.: Juan Moncada Herrera .5714  0. Si B œ #. Por lo tanto.5 2 M ).INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL Ô1 t Por su parte.. Var[] ] œ T 5 2 .. ] œ X" œ T ] es el valor estimado de ] para una matriz dada X. En consecuencia. Estimación de la media de ] en un punto \o œ [1. è ^ s Dado el modelo ] œ X"  X . s 1 œ 0. Ö Ù Õ Ø 4Ø 1 13 Õ3Ø 13 Ô 35 s Por lo tanto. ] N(X" .7B  0. Proposición: E[e] œ !. Õ 0. Si ! œ !Þ!&. un intervalo del t (1  !)100% de confianza para E[] ] en \ œ (1.5714. Luego. aunque esto último requiere de exigencias adicionales que no siempre se deducen del análisis del contraste planteado. mientras que el de IÒ] Ó es !Þ%%!". se tiene que ]: Nˆ\o " . donde ] o œ \o " . è En base a los resultados y ejemplos anteriores se puede decir bastante acerca de la bondad del modelo. y en consecuencia el intervalo de confianza para IÒ] Ó cuando B œ # corresponde a Ð!Þ*%)à %Þ(##%Ñ. Nótese que el error estándar de C: es !Þ'%*). por lo que es necesario evaluar la calidad del modelo globalmente. un intervalo de confianza estimado del (1  !)100% para ]: es: ^ t ] 9 „>1!/2. y e: es un error de predicción. y por w lo tanto È"  \9 Ð\ w \Ñ" \9 œ "Þ$&*$.INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 14 Si "  ! œ !Þ*&. con E[e: ] œ ! y Var[e: ] œ 5 . Una forma alternativa de este contraste es: Ho : " i œ 0 . De suma importancia para el logro de este objetivo es el análisis de las siguientes hipótesis : Ho :EL MODELO ES ] œ "o  X . las hipótesis anteriores se pueden interpretar como elementos de análisis de linealidad. ai. EL ANÁLISIS DE LA VARIANZA Hasta aquí se ha evaluado la bondad del modelo ] œ X"  X sólo en función de la calidad de los estimadores correspondientes. entonces >"!Î#à# œ %Þ$!$. t t Bajo normalidad. si B œ #. (\o (\ t \ )-" \o  ")5 2 ‰. Ha : EL MODELO ES ] œ X"  X Dado que el modelo ] œ X"  X se ha supuesto lineal en los parámetros. entonces \9 Ð\ w \Ñ" \9 œ !Þ)%($. todos los análisis se han efectuado sobre la base que el modelo ajustado es de buena calidad. Predicción ^ t El intervalo ] „t1!/2. En consecuencia. de las predicciones. para algún 3 Á ! Prof. Sin embargo.: Juan Moncada Herrera . Este valor de ] es la predicción de ] en el punto dado \o . de modo de obtener una apreciación más objetiva y completa al respecto. 2 que es independiente de ei . Sin embargo.. a3 Á ! Ha : " i Á 0. Por ejemplo. se puede juzgar la calidad de los estimadores. Además. etc. que denotaremos por ^ ^ ^ ts ]: . Otro problema es estimar la variabilidad de ] en un punto dado \o .8Ð:"Ñ SÈ\o (\ t \ )-" \o es un intervalo que estima los valores entre los cuales puede variar la respuesta media de ] dado que \ œ \o .8Ð:"Ñ SÈ\o (\ t \ )-" \o  " w Ejemplo: En base a los datos del ejemplo anterior. por ejemplo. y en base a tales juicios. esto no siempre ocurre así. decidir si el ajuste puede considerarse confiable o no para propósitos de predicción. sólo en la etapa de diagnóstico obtendremos las mejores herramientas para la toma de decisiones. un interalo del 95% de confianza para C: en B œ # es ^ Ð!Þ!$#&à &Þ'#%(Ñ. Entonces un estimador de ]: es ] : œ ] o  e: . como se verá más adelante. entonces: J œ SCR : SCE n-(p+1) J:à8Ð:"Ñ Este es el estadístico de prueba para el contraste Ho :EL MODELO ES ] œ "o  X . o equivalentemente.INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 15 Un método de análisis de esta prueba se basa en el llamado Análisis de la Varianza. vs Ha : EL MODELO ES ] œ X"  X SCE Las cantidades CMR œ SCR y CME œ n-(p+1) se llaman Cuadrado Medio de la Regresión y : Cuadrado Medio del Error.(Error)  g. Para ello es preciso definir lo siguiente: n ^ ^ ^ Suma de Cuadrados del Error: SCE œ (]  ] )t (]  ] ) œ !(Ci  C)2 œ !ei2 i=1 i=1 Suma de Cuadrados Total: SCT œ (]  1] )t (]  1] ) œ !(Ci  C)2 n ^ ^ ^ Suma de Cuadrados de la Regresión: SCR œ (]  1] )t (]  1] ) œ !(C  C)2 n i=1 Nótese que: SCT œ 0 Ê todas las observaciones son iguales SCE œ 0 Ê no hay variación en ] SCR œ 0 Ê recta horizontal (en regresión lineal simple) Proposición: SCT œ SCR  SCE.l. de la siguiente manera: Forma General de una Tabla ANOVA para Regresión Fuentes de Variación Regresión Error Gr.l.(Total) œ g. A la raíz cuadrada de CME se le llama Error estándar de la estimación La forma y fuentes de variación de la respuesta en el modelo puede resumirse en la llamada Tabla ANOVA.(Regresión) ^ ^ Demostración: Se deduce de la identidad ]i  ] œ (] i  ] )  (]i  ] i ). el número de variables independientes".l. Prof. respectivamente.: Juan Moncada Herrera . y g. de Libertad g.l. : 8  Ð:  "Ñ Sumas de Cuadrados SC t ^ ] ]  8C# Cuadrados Medios CM t ^ Ð] ]  8C# ÑÎ: ^ (] t ] ] ] ) 8Ð:"Ñ t Razón J GQ V GQ I ^t ] t]  ] ] S] ] œ ] t ]  8C# Total 8" Nota: Los grados de libertad del modelo son "el número de parámetros menos 1. Proposición: Si se supone que los errores se distribuyen normalmente. el que se basa en la partición de las sumas de cuadrados y de los grados de libertad asociados con la respuesta ] . Estudiar el ajuste de un modelo lineal simple para estos datos. Dicho de otro modo.20 166.: Juan Moncada Herrera . analizados previamente. 2 2 4 SC 5. è Ejercicio: Los datos siguientes son \ : Altura en centímetros.1250 El valor 0#ß#à!Þ*& œ "*Þ!.7 56.l. Pero.00000 CM 2. entre otros hechos.20 168. de modo que no puede rechazarse la hipótesis L9 À " " œ " # œ !. de una muestra de 10 jóvenes de 18 años.1 64. Para estos mismos datos. Pero una prueba de normalidad Prof. encontrar suficiente evidencia a favor de la hipótesis L9 À "3 œ !.20 157. es aquella en la que se "ponen a prueba" los supuestos.50 158. \ ] 169. y en modelos de regresión lineal en particular.54286 0. en que los errores siguen una distribución normal. V 2 œ SCR œ 1  SCE . al igual queel rechazo de Ho en el ANOVA.80 DIAGNÓSTICO DEL MODELO Como se recordará. La tabla ANOVA correspondiente es: Fuente Regresión Error Total g.4 53.6 52. Cualquier violación de estos supuestos puede invalidar irremediablemente las conclusiones obtenidas a partir de un modelo así estimado.00 165.60 165. Puede demostrarse que. Esta es la llamada fase crítica. V # por sí mismo no puede validar un modelo.3 77.1 55.00 181. mediante el modelo descrito.40 166. Ejemplo: Consideremos los datos relativos a crecimiento versus temperatura. Esto significa que el modelo propuesto no es el adecuado.6 71.INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 16 EL COEFICIENTE DE DETERMINACIÓN El cuadrado de un coeficiente de correlación se llama Coeficiente de Determinación. ni tener un V # cercano a 1 necesariamente implica que el ajuste obtenido sea útil para predicción. todo el proceso de estimación del modelo se basa fundamentalmente en el grupo de supuestos iniciales que sobre los errores se formulara. Aunque en la etapa de inferencias en el modelo ya se pueden obtener algunas conclusiones parciales respecto del modelo (como por ejemplo. Es por ello que la fase tal vez más importante en el estudio de modelos en general. lo que podría implicar que el modelo no es el que se postuló).45714 6. puede verificarse que V # œ !Þ*#$)". permite medir el ajuste del modelo a la nube de puntos correspondiente. tales inferencias se basan.1 56.8 58.7714 0.228571 FL9 12. V 2 representa la proporción de la varianza de ] que es extraída por la SCT SCT variable \ . y en ella se debe buscar cualquier indicio de invalidación del modelo ajustado. y corresponde a una medida de la capacidad de \ para reducir la variaciónen ] .5 49. en el modelo ^ s ] œ X" .80 156. error estándar de la estimación œ !Þ%()!*". y ] : Peso en kilogramos. ya que el de Influencia requiere de elementos teóricos no proporcionados en cursos de Estadística Elemental. La validación de estos supuestos a priori. Proposición: Var[ei ] œ 5 2 Ð"  :33 Ñ.Variables importantes omitidas en el modelo . Los problemas que se analizan en este diagnóstico son: .Falta de Homocedasticidad . Prof. o por X œ e œ ]  X" w " w Es sencillo probar que e œ ]  \Ð\ \Ñ \ ] œ (M  T )] . pués aquello que permitirá evaluar si el modelo obtenido sirve o no.INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 17 sobre los errores necesita de los estimadores correspondientes. Lo primero es lo que se conoce como diagóstico clásico. mientras que lo segundo corresponde al Estudio de Influencia.: Juan Moncada Herrera . Esto crea una suerte de "círculo vicioso". En estas notas trataremos sólo Diagóstico Clásico. Por esta razón se dice que este análisis es a posteriori. La hipótesis de linealidad puede expresarse como Ho : El modelo NO ES LINEAL.Función de Regresión no lineal.Falta de Normalidad .Errores no independientes (Autocorrelación).Falta de ajuste Residuos: ^ ^ ^ s Están definidos por: X œ e œ ]  ] . en un escenario a posteriori. que naturalmente no están a disposición de estos análisis. Bw4 columna j-ésima de la matriz de datos X. Residuos Sttudentizados: Estandarización: <3 œ 5 e3 ^È": 33 Ä residuo studentizado Tamaño de muestra es grande Ä residuos aproximadamente normales Ä Valores rara vez fuera del intervalo (  #ß #) Gráficos de Residuales: ^ Respuesta Estimada C3 versus <3 : El gráfico más importante Modelo Adecuado Ê ^  Pares ÐC 3 ß <3 Ñ en torno a una recta horizontal  Ninguna tendencia aparente  Rara vez fuera del intervalo Ð  #ß  #Ñ (Gráfico a). se llama Diagóstico del Modelo. En la actualidad los análisis referentes a diagnóstico apuntan tanto a la validación de las hipótesis iniciales como a los datos. . Cov(ei ) œ  5 2 :34 . y estos son los residuos. Elementos de T : :34 œ Bw3 Ð\ w \Ñ" B4 Bw3 fila i-ésima de la matriz de datos X. se obtiene una vez que éste se ha ajustado. Durbin-Watson . sino una vez que se hayan hecho los ajustes correspondientes. (f) indicará.: Juan Moncada Herrera . Variables Independientes versus <3 :  Una tendencia o característica sistemática en el gráfico debiera sugerir alguna anomalía en relación a la inclusión de la variable en el modelo. quizá.(f) acusan no linealidad y varianza no constante en los errores. errores autocorrelacionados.(g) indicaría falta de independencia en los errores. o más bien. Otros Gráficos: . que un efecto cuadrático de la variable \ debiera incluirse en el modelo. puede indicar que la varianza de los errores es una función monótona de la variable en análisis (\3 ). .#  Estadística de Kolmogorov y Smirnov Prof.INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 18 Gráficos como los siguientes pueden indicar falta de linealidad en el ajuste. Autocorrelación Ä Estadística de Durbin-Watson La Normalidad de los Errores:  Plot de Normalidad  Prueba bondad de ajuste .  (b) y (c). . pag. Los datos se recabaron durante un periodo de 20 meses durante el cual la tasa de producción y los costos del material y la mano de obra experimentaron un fluctuación muy amplia. análisis y comentarios anteriores. presentamos a continuación dos ejemplos.INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 19 EJEMPLOS ILUSTRATIVOS Como una forma de ilustrar y aplicar los resultados. Obtener la mejor ecuación de regresión para predecir el costo por unidad. EJEMPLO 1 (Extraído de Canavos(1988). en los que desarrollaremos las ideas más fundamentales del Análisis de Regresión. Una compañía manufacturera desea predecir el costo unitario de fabricación ] de uno de sus productos como una función de la tasa de producción (que fluctúa en el tiempo) \" y de los costos de material y mano de obra \# .: Juan Moncada Herrera . ] À costo unitario de fabricación \" À tasa de producción (que fluctúa en el tiempo) \# À costos de material y mano de obra La Tabla de Datos: ] "$Þ&* "&Þ(" "&Þ*( #!Þ#" #%Þ'% #"Þ#& ")Þ*% "%Þ)& "&Þ") "'Þ$ "&Þ*$ "'Þ%& "*Þ!# ")Þ"' ")Þ&( "(Þ!" ")Þ!$ "*Þ## #"Þ"# #$Þ$# \" )( () )" '& &" '# (! *" *% "!! "!# )# (% )& )' *! *$ )" (# '! \# )! *& "!' ""& "#) "#) ""& *# *$ """ ""' ""( "#( "$$ "$& "$' "%! "%# "%) "&! Prof. La tasa de producción se midió como un porcentaje de la capacidad total de producción. Las observaciones se encuentran en la tabla siguiente. 536). y se utilizó un índice apropiado para reflejar los costos del material y mano de obra. Error of estimate: . B"3 es la 3-ésima observación de la variable \" B#3 es la 3-ésima observación de \# Regression Summary for Dependent Variable: Y R= . of B 2.28127 -.79958 F 90.19367 .13770 .000000 .95601159 R²= .000000 .54300 -8.89419 Coeficientes "" y "# significativos Errores estándares de los estimadores À de s 1 es 0.28916 p-level .9803 df 2 17 Mean Square 72.010965 t(17) 9.015854 .91395817 Adjusted R²= .5929 Total 157.77134 p-level . 144.125250 .: Juan Moncada Herrera .4% Error estándar de la estimación À .015854 " de s 2 es 0.07425 St.010965 " Analysis of Variance: Sums of Squares Regress.90383560 Std. Err.INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 20 SOLUCIÓN Los Ajustes Iniciales: Se ajustó un modelo del tipo C3 œ "9  "" B"3  "# B#3  X C3 es la 3-ésima observación la variable dependiente.3873 Residual 13.000000 No hay evidencia en contra de C3 œ "9  "" B"3  "# B#3  X El Ajuste sería: s 3 œ #!Þ#)  !Þ"$((B"3  !Þ!(%#&B#3 C Prof.89419 Tabla de coeficientes: Intercept X1 X2 B 20.000003 Coeficiente de determinación múltiple À 91.68549 6. 5 1 Residuals 0.00000 * Raw residuals Correlation: r = .5 -1 -0.5 1 1. Raw residuals Prof. Buscando la Solución: Gráfico 2: \" versus Residuales Raw residuals vs.5 -1 -1.5 2 2. Residual Scores Dependent variable: Y 2. * Al parecer algún efecto cuadrático o multiplicativo importante se pudo haber omitido en el modelo.5 Regression 95% confid.: Juan Moncada Herrera .5 13 15 17 19 21 23 25 Regression 95% confid.5 0 -0.00000 115 105 95 X1 85 75 65 55 45 -1.200 + . X1 X1 = 80.5 0 0.5 2 1. Predicted Values * Ninguno de los residuos cae fuera de la banda de límites  # y +2.INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 21 Diagnóstico del Modelo: Gráfico 1: Residuos versus Valores Ajustados Predicted vs. 0569 157.68815 Regress. X2 X2 = 120.2900 p-level .: Juan Moncada Herrera .Error of estimate: .35 + .00000 * Raw residuals Correlation: r = .5 Regression 95% confid.50479 2.19106 F 270.33317 . Raw residuals ¡Habría que pensar en incluir un efecto cuadrático de \" ! Ajustando el Modelo Alternativo: $ El nuevo Modelo: ] œ "9  "" \"  "# \#  "# \"  X Regression Summary for Dependent Variable: Y R= .64111 .5 0 0.5 2 2.000000 ¿Mejoró el ajuste? Prof.98064992 Adjusted R²= .43710 Tabla de coeficientes: Interc X1 X2 SQX1 Tabla ANOVA: 41.99027770 R²= .55146 -3.INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 22 Gráfico 3: \2 versus Residuales Raw residuals vs.5 1 1.5 -1 -0.00000 160 150 140 130 X2 120 110 100 90 80 70 -1.97702178 Std.9803 df 3 16 Mean Square 51.9233 3. Residual Total Sums of Squares 154. 2 -0.6 0.5 -0.4 0.4 -0.2 0.5 -1 -0.5 -1. Predicted Values Gráfico 5: Plot de Normalidad de los Residuos Normal Probability Plot of Residuals 2.2 Residuals 0 0.: Juan Moncada Herrera .4 -0.8 -1 12 14 16 18 20 22 24 26 Regression 95% confid.6 -0.6 0.8 -0. Residual Scores Dependent variable: Y 0.5 -2.6 -0.8 Prof.5 1.4 0.INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 23 Gráfico 4: Residuos versus predicciones Predicted vs.8 0.5 Expected Normal Value 0.2 Residuals 0 -0. 15 17 19 21 23 25 Predicted Values Gráfico 7: Valores Observados vs Predichos después de la correción Predicted vs. Observed Values Dependent variable: Y 26 24 22 Observed Values 20 18 16 14 12 13 Regression 95% confid.INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 24 Comparación de los Ajustes: Gráfico 6: Valores Observados vs predichos antes de la corrección Predicted vs. Observed Values Dependent variable: Y 26 24 22 Observed Values 20 18 16 14 12 12 Regression 95% confid.: Juan Moncada Herrera . 14 16 18 20 22 24 26 Predicted Values La Ecuación Final: C3 œ %"Þ&&  !Þ(!!$B"3  !Þ!($%B#3  !Þ!!$'#%B# "3 Prof. 00001 -------------------------------------------------------------------- En esta tabla observamos que los valores estimados son: A = 388.93419 0.93419. para un test bilateral.3549 .: Juan Moncada Herrera .837437 -5. Parameter Estimate Error Value Level -------------------------------------------------------------------Intercept 388.89201 .89201. con n-(p+1)=20-2=18 g.Linear model: ] = a+b\ 1 -------------------------------------------------------------------Dependent variable: ] Independent variable: \ 1 -------------------------------------------------------------------Standard T Prob. El valor crítico.93419\ 1 El valor T para probar la hipótesis nula de que el coeficiente de \ 1 es cero. Por lo tanto. La ecuación de regresión ajustada es por lo tanto.INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 25 EJEMPLO 2 Los datos siguientes representan el costo de calefacción ] y otras características de casas unifamiliares. es „2. el valor de Prof.802 y B = -4. ] = 388.101. según diversas características de la casa ] 250 360 165 43 92 200 355 290 230 120 73 205 400 320 72 272 94 190 235 139 \1 35 29 36 60 65 30 10 7 21 55 54 48 20 39 60 20 58 40 27 30 \2 3 4 7 6 5 5 6 10 9 2 12 5 5 4 8 5 7 8 9 7 \3 1 1 9 8 8 9 14 9 11 9 11 10 12 10 8 10 10 11 14 9 \4 6 10 3 9 6 5 7 10 11 5 4 1 15 7 6 8 3 11 8 5 Sólo para efectos ilustrativos separaremos los casos lineal simple del múltiple. Regresión Lineal Simple El ajuste de un modelo de regresión lineal simple entre ] y \ 1 arrojó los siguientes resultados: Regression Analysis .2408 11. y con un 95% de confianza.4.l. \1 : Temperatura exterior mínima \2 : Pulgadas de aislante \3 : Número de ventanas \4 : Antigüedad del calefactor El problema es estimar una función lineal del consumo ] en términos de las otras variables. es -5. donde (p+1) es el número de parámetros (p es el número de variables independientes).802 34.802 . Costo de calefacción.00000 Slope -4. 8737 \4 6. Esto significa que el coeficiente de \ 1 es distinto de cero.1617 0.0137 \3 0.75 19 Correlation Coefficient = -0. según el valor F. error t-value sig.l. bajo la hipótesis nula. es 34. Regresión Lineal Múltiple Ahora analizaremos el ajuste de un modelo del tipo ] = A + B1\ 1 + B2\ 2 + B3\3 + B4\4 + E Los valores de los coeficientes y el respectivo valor t.89201 pertenece a la región crítica.214101 5.00001 Residual 72700.807373 -5. = 63.: Juan Moncada Herrera . Todo lo anterior hace suponer que la recta ajustada es confiable para predicción. Para los datos que estamos analizando.448259 -2.471898 68. La tabla ANOVA entrega todos los elementos necesarios para tomar una decisión respecto de esta interrogante (hipótesis). los valores críticos son „2. en el denominador.level ------------------------------------------------------------------CONSTANT 422.56175 0. De la siguiente tabla ANOVA.0000 \2 -15. La otra pregunta que hay que responderse en relación a un modelo ajustado.811509 R-squared = 65.6501 0. Level Model 140214.41. es si se hizo bien o no al suponer un modelo como el especificado originalmente. Por lo tanto hicimos bien al suponer que los datos seguían una tendencia como la indicada. por lo que deber aceptarse la hipótesis de que estos coeficientes son cero.) = 0. Por último.672964 4. por lo que la hipótesis nula deber rechazarse. Con un 95% de confianza.INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 26 t =-5.131.7 .404998 DurbWat= 1.85 percent corresponde al coeficiente de determinación. dicha tabla es la siguiente: Analysis of Variance -------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio Prob. que en este caso indica que el 65. entre otros. Puede apreciarse que los valores de T asociados a los coeficientes de \ 3 y \4 están en la región de aceptación.7925 0. podemos deducir que se hizo bien al suponer que los datos seguían un modelo lineal.079563 6. A un 95% de confianza.809 18 4038.94 1 140214. la F. el valor crítico es 4.143358 1. se muestran en la siguiente tabla: Model fitting results for: ] ------------------------------------------------------------------Independent variable coefficient std.85% de la variabilidad en ] se puede explicar por medio de la variable \ 1. Entonces deber rechazarse la hipótesis de que el modelo NO ES EL SUPUESTO INICIALMENTE. el valor R-squared = 65.l.160671 0.676803 MAE= 36.2056 0.540 En este caso el estadístico de prueba es una t-Student con 20-5=15 g.85 percent Stnd. Error of Est.0000 \1 -4. El valor crítico es una valor F con 1 g.934 -------------------------------------------------------------------Total (Corr.) 212915.5526 El valor del estadístico de prueba.12764 4.7524 SE= 52. (ADJ.l. en el numerador y con 18 g.4789 0. Prof.1599 ------------------------------------------------------------------R-SQ.94 34.7. entre otros análisis. error of est. Mexico). Específicamente la razón F permite probar si se hizo bien al suponer un modelo lineal.048 + 0. Se identificaron cuatro variables de predicción: la gravedad del petróleo crudo(\1 ).331630 MAE= 16.1430 PRATER. \3 y \4 .3 15.493\ 3 + 1. Aplicaciones y Métodos. como su encabezado lo dice. Al pie de esta tabla se observan los valores del coeficiente de determinación.\ 1 0.762933 DurbWat= 2. son A=-69. como por ejemplo en la forma C3 œ !  "" \"  "# \#  "$ \$  "% \%  %3 .H. La siguiente tabla.(ADJ.556. Lo que corresponde después de excluir la variable \ 2 del modelo.493 y B4=1.218363 -0.9566 SE= 22.) = 0.] ------------------------------------------------------------------Independent variable coefficient std. el punto de 10% ASTM para el petróleo crudo(\3 ) y el punto final ASTM para la gasolina (\4 ).66%.368796 1. Al ajustar un modelo de regresión múltiple a los datos. entre otros datos.\ 3 -1. la siguiente tabla de coeficientes: Model fitting results for: PRATER.INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 27 Analysis of Variance for the Full Regression -----------------------------------------------------------------Source Sum of Squares DF Mean Square F-Ratio P-value -----------------------------------------------------------------Model 171293.556\ 2 . \2 . Prater desarrolló una ecuación de regresión para estimar la producción de gasolina como una función de las propiedades de destilación de cierto tipo de petróleo crudo.547.24% aproximado de la variabilidad de ] se puede explicar a través de \1 .(1984): Probabilidad y Estadística. EJEMPLO 3 (Extraído de Canavos. Por lo tanto este parámetro es cero.5009 PRATER.0 19 R-squared = 0. y debería eliminarse del modelo ajustado.4327 . McGraw-Hill Interamericana.) = 0. = 52.048. Los datos.1173 0.0352 0.547\ 4 Observemos sin embargo.6768 R-squared (Adj.227512 0. ya que su contribución a él es nula. B2=0. G.) 212916.546868 0.0000 PRATER.level ------------------------------------------------------------------CONSTANT -69.228\ 1 + 0. Prof. es hacer un nuevo ajuste. N.493348 0. La respuesta ] fue la cantidad de gasolina producida expresada como un porcentaje respecto al total de petróleo crudo. B3=-1.291822 -5.85 -----------------------------------------------------------------Total (Corr. se modificaron levemente en su presentación sólo para facilitar cálculos. que es del 95. se obtuvo.099885 2. es la tabla ANOVA del modelo.53965 Observemos que el 75. Esto significa que la ecuación ajustada es ] = -69.: Juan Moncada Herrera . B1=0.6822 0.048463 101. Ella permite evaluar estadísticamente la significancia del modelo. que de acuerdo al valor t indicado en esta tabla no se puede rechazar la hipótesis de que el tercer parámetro es cero (á3).\ 2 0.064358 24.0000 ------------------------------------------------------------------R-SQ. incluidos al final de este texto.166 En ella podemos apreciar los valores estimados de los respectivos parámetros.5087 0.\ 4 1.804511 Stnd.2777 0.55641 0.0309 PRATER. y el error estándar del modelo.7 15 2774. for d.228. error t-value sig. la presión del vapor del petróleo crudo(\2 ).f.752381 Durbin-Watson statistic = 1.0 4 42823.0000 Error 41622.1. INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 28 Analysis of Variance for the Full Regression -------------------------------------------------------------------Source Sum of Squares DF Mean Square F-Ratio P-value -------------------------------------------------------------------Model 342943. for d. = 22.3316 R-squared (Adj.956623 Durbin-Watson statistic = 2.). es probable que el modelo.918 . 4 85735. error of est.9 27 498.f.l. se debe rechazar la hipótesis nula (en el ejemplo en análisis.l. en el denominador y con un nivel de confianza del 95% es 2. Si se excluyera del modelo la variable \2 . tenemos 5 parámetros. Los Datos de PRATER: OBS 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 ] 69 144 74 85 80 28 50 122 100 152 268 140 147 64 176 223 248 260 349 182 232 180 131 161 321 347 317 336 304 266 278 457 \1 384 403 400 318 408 413 381 508 322 384 403 322 318 413 381 508 322 384 403 400 322 318 408 413 381 508 322 384 400 408 413 508 \2 61 48 62 2 35 18 12 86 52 61 48 24 2 18 12 86 52 61 48 61 24 2 35 18 12 86 52 61 61 35 18 86 \3 220 231 217 316 210 267 274 190 236 220 231 284 316 267 274 190 236 220 231 217 284 316 210 267 274 190 236 220 217 210 267 190 \4 235 307 212 365 218 235 285 205 267 300 367 351 379 275 365 275 360 365 395 272 424 428 273 358 444 345 402 410 340 347 416 407 Prof.) 356408. Por lo tanto.0000 Error 13464. 31 R-squared = 0. que así es bastante bueno.) = 0.16626 En este caso.73.96222 Stnd. ya que el valor de la distribución F con 4 g.702 -------------------------------------------------------------------Total (Corr. de modo que a la regresión le corresponden 4 g. se hizo bien al ajustar un modelo lineal a los datos.: Juan Moncada Herrera . en el numerador y 27 g.l.7 171. mejore aún más. Recordemos que la hipótesis nula asociada a un modelo de regresión es que EL MODELO NO ES LINEAL. Prentice-Hall Hispanoamericana.: Juan Moncada Herrera . 2. 1990. México. México. McGraw-HiII. Aplicaciones y métodos. 1992. México.A. se sugieren los siguientes títulos: 1.: Probabilidad y estadística.Freund-Walpole: Estadística Matemática con aplicaciones. Prof.Scheaffer-McClave: Probabilidad y Estadística para Ingeniería. México.Steel-Torrie: Bioestadística.INTRODUCCIÓN AL ANÁLISIS DE REGRESIÓN LINEAL 29 SUGERENCIAS BIBLIOGRÁFICAS Para una revisión bibliográfica tendiente a complementar o profundizar algunos temas tratados en esta unidad. Grupo editorial Iberoamérica. McGraw-Hill. 1988. 3. 4. Principios y Procedimientos. a través de sus diferentes capítulos. S. G. 1993.Canavos.
Copyright © 2024 DOKUMEN.SITE Inc.