UA4_ANALISISDEREGRESIONYCORRELACIONLINEALSIMPLE_2012

May 22, 2018 | Author: Sebastián Toro | Category: Covariance, Regression Analysis, Correlation And Dependence, Linear Regression, Estimation Theory


Comments



Description

     UNIVERSIDAD AUSTRAL DE CHILE  FACULTAD DE CS. ECONÓMICAS Y ADMINISTRATIVAS  INSTITUTO DE ESTADISTICA                  BAIN 052     ESTADÍSTICA Y PROBABILIDAD PARA INGENIERÌA           ASIGNATURA DEL CURRICULUM DE LAS CARRERAS DE INGENIERÍA DE LA    FACULTAD DE CIENCIAS DE LA INGENIERÍA, DE LA UNIVERSIDAD    AUSTRAL DE CHILE            APUNTES DE CLASES     Versión   Primer Semestre 2012         Profesores   Víctor Figueroa Arcila      Luis Ojeda Silva    Magaly Moraga Cárdenas        Junio 2012    2 Covarianza 72 4.2 Estimación puntual de σ 73 4.3.2.6 EL PROBLEMA DE PREDICCIÓN 74 4.4 CONTRASTES DE HIPÓTESIS 73 4.3.4 Intervalo de confianza para σ 73 4.1 CONTEXTO 71 4.7 APLICACIONES 75   84 .3 Intervalos de confianza para β 0 y β 1 73 2 4.2.        UNIDAD DE APRENDIZAJE IV: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE | Junio de 2012 Unidad de Aprendizaje IV   ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE 4.2 ESTUDIO CONJUNTO DE DOS VARIABLES 72 4.3.2.3 Coeficiente de correlación lineal de Pearson 72 4.1 Estimación puntual de β0 y β1 73 2 4.1 Diagrama de dispersión o nube de puntos 72 4.3 FUNCIÓN DE REGRESIÓN MUESTRAL (FRM) Y ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS 73 4.5 VALIDACIÓN DEL MODELO 74 4.3. BAIN 052. Víctor Figueroa Arcila.. la función f admite una aproximación lineal. en un grado menor. en el rango de valores de interés. • Hoy en día el sentido de regresión es el de predicción de una medida basándonos en el conocimiento de otra.5 altura del padre (aprox. x2 ...….xn ) β0 + u y = β 0 + f ( x1 . x2. CONTEXTO POBLACIÓN FUNCIÓN DE REGRESIÓN LINEAL SIMPLE POBLACIONAL Yi = β0 + β1 Xi + ui DESAFIO: ESTIMAR β0 .. El modelo de regresión pretende medir el efecto de las más importantes. β1 y σ2 MUESTRA X Y ALEATORIA x1 y1 Yi = β̂ 0 + β̂1 X i + û i DE TAMAÑO n x2 y2 Y i = β ˆ 0 1i i + β ˆ X + u ˆ FUNCIÓN DE REGRESIÓN LINEAL x3 y3 SIMPLE MUESTRAL … … … … DESAFIO: OBTENER βˆ0 .. + β k xk + u Ahora..  y = f (x1.1 CONTEXTO   POBLACIÓN   Supongamos que disponemos de una variable respuesta Y.. si disponemos sólo de una variable predictora.   4. xk ) + u Se espera que E[u]=0 y VAR[u]=σ 2 Supondremos que.. aunque muchas de estas pueden ser no observables o..xn..”: Regresión a la media – Su trabajo se centraba en la descripción de los rasgos físicos de los descendientes (una variable) a partir de los de sus padres (otra variable).. βˆ1 y σˆ 2 xn yn   85    . con lo que resulta el modelo de regresión lineal múltiple: y = β 0 + β1 x1 + β 2 x2 + . – Pearson (un amigo suyo) realizó un estudio con más de 1000 registros de grupos familiares observando una relación del tipo: • Altura del hijo = 85cm + 0. entonces tenemos un modelo de regresión lineal simple: y = β 0 + β1 x1 + u El término regresión fue introducido por Galton en su libro “Natural inheritance” (1889) refiriéndose a la “ley de la regresión universal”: – “Cada peculiaridad en un hombre es compartida por sus descendientes.xk ) + g(xk+1.  ESTADÍSTICA Y PROBABILIDAD PARA INGENIERÍA |  Dr. Lo mismo puede decirse de los padres muy bajos. x2... pero en media. la cual depende de muchas otras variables x1.) • Conclusión: los padres muy altos tienen tendencia a tener hijos que heredan parte de esta altura.. incluso desconocidas para el investigador. aunque tienen tendencia a acercarse (regresar) a la media. y representa el de las restantes mediante una variable aleatoria que llamaremos perturbación del modelo. Una vez observado que en una variable bidimensional existe una cierta dependencia entre las dos características o variables que la forman (nube de puntos y covarianza).  4. Inversa: Sxy <0. S xy r= SxSy Tiene el mismo signo que Sxy por tanto de su signo obtenemos el que la posible relación sea directa o inversa. pero no nos dice nada sobre el grado de relación entre las variables.1 Diagramas de dispersión o nubes de puntos 169 60 100 166 54 La representación gráfica de este tipo de variables es 90 en realidad semejante a la respresentación de puntos 80 Pesa 76 kg. Incorreladas: Sxy =0. 140 150 160 170 180 190 200 • Se puede ver en el gráfico que la serie de puntos presenta una tendencia "ascendente" . 4. • En caso en que la tendencia sea "descendente" se diría que estaríamos ante una "dependencia inversa" • Naturalmente en caso en que no se pueda observar una tendencia clara estaríamos ante una dependencia muy débil que no se puede observar mediante la nube de puntos . 60 pareja de valores da lugar a un punto en el plano y el 50 Pesa 50 kg. en Kg En cada fila tenemos los datos de un individuo. r. r es útil para determinar si hay relación lineal entre dos variables. y si es posible predecir el valor de una de ellas en función de la otra. cada individuos es un punto cuyas coordenadas son los valores de 180 78 UNIDAD DE APRENDIZAJE IV: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE | Junio de 2012 las variables. La covarianza entre entre las dos variables se define por : S xy = 1 ∑ ( xi − x )( yi − y) O equivalentemente: ∑x y i i n i S xy = i − xy n Donde xi e yi representan los pares de valores de la variable y el producto xy corresponde al producto de las medias aritméticas de las variables x e y respectivamente. yi ) pares de observaciones de dos caracteristicas X y Y. Se dice en este caso que existen entre las dos variables una "dependencia directa" . En ellos.2. nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales). conjunto de puntos que se obtiene se denomina 40 Mide 161 cm. Sxy. y sean x. La covarianza entre dos variables.3 Coeficiente de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables.2. Cada columna representa los valores que 162 61 toma una variable sobre los mismos. 171 66 4. Este es el caso que nos ocupa. Cada 163 68 Mide 187 cm. de qué tipo. Nuestro objetivo será intentar reconocer a partir del mismo si hay relación entre 158 62 las variables. 30 "diagrama de dispersión o nube de puntos".   86 . 176 84 70 en el plano. Si los puntos no están todos sobre la recta de regresión se dice que entre las variables hay una cierta correlación lineal. nos indica si la posible relación entre dos variables es directa o inversa: Directa: Sxy >0. podemos precisar el grado de dicha dependencia.2 Covarianza Sean (xi. Las individuos no se muestran en ningún orden particular. y sus respectivas medias. en cm. El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no. De su estudio se encargan las funciones. usando unos ejes de coordenadas. Para cuantificar el grado de dicha correlación se usa el Coeficiente de correlación lineal de Pearson.2. pero no servirá para otro tipo de relaciones (cuadrática.2 ESTUDIO CONJUNTO DE DOS VARIABLES A la derecha tenemos una posible manera de recoger los datos obtenido observando dos Altura Peso variables en varios individuos de una muestra. 4. Dichas observaciones pueden ser representadas en un diagrama de dispersión 154 60 (‘scatterplot’). Si los puntos de la nube estuvieran todos sobre la recta de regresión se diría que existe una dependencia funcional. .2) S ⎛ X 2 ⎞ R ⎜1 + ⎟⎟ n ⎜⎝ S 2 X ⎠ Y el intervalo al 1-α por ciento de confianza para β 0 está dado por: SˆR X2 Sˆ X2 βˆ0 − t( α . la Estadística Pivotal toma la siguiente forma: β̂ − β 0 0 ≈ t(n .y) 2 = nS 2y i =1 ⎛ n ⎞⎛ n ⎞ ⎜ ∑ x i ⎟⎜ ∑ y i ⎟ ( x i .x ) 2 = i =1 i =1 n = ∑ (X − X)Y + Y∑ (X − X) i i i n ∑ (X − X) ∑ (X − X)i 2 i 2 S xx = ∑ (x i .3.).y) 2 = ∑ (y ) n 2 − ⎝ i =1 ⎠ ∑ (X − X )Y i i i =1 i =1 n i i = n nS x2 S yy = ∑ (y i .1].  2 n i i i i Otras fórmulas de interés: βˆ0 = i i i i i β̂1 = n∑ X − (∑ X ) n ∑ X − (∑ X ) 2 2 2 2 i i i i 2 = Y − βˆ1 X = ∑ (X − X)(Y − Y) i i ⎛ n ⎜ ∑ xi ⎟ ⎞ ∑ (X − X) ∑( ) xi2 − ⎝ i =1 ⎠ n n i 2 S xx = ∑ ( xi .y) = ∑ ( x i yi ) − ⎝ i =1 ⎠⎝ i =1 ⎠ n n S xy = ∑ i =1 i =1 n 2 4.1 Estimación puntual de β0 y β1 A partir de la FRM se obtienen los estimadores por mínimos cuadrados de β0 y β1.3 Intervalos de confianza para β 0 La distribución de β̂ 0 es normal con media y varianza como se indica a continuación: σ 2 ⎛ X 2 ⎞ β̂ − β β̂ ≈ N(β . n− 2) 1 + 2 ≤ β 0 ≤ βˆ0 + t( α . que están dados a continuación: ∑ X ∑Y − ∑ X ∑ X Y ∑X Y −∑X ∑Y BAIN 052. Relación lineal perfecta entre dos variables Ù r=+1 o r=-1. cuando σ es desconocido. Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal.3. Las variables son incorreladas Ù r=0. 1) n S 0 0 ⎝ ⎠ σ ⎛ X ⎞ 2 2 ⎜1 + ⎟⎟ X n ⎜⎝ S 2 X ⎠ 2 Luego.x ) 2 = nS 2x i =1 = ∑ (X − X )Y i i ⎛ n ⎜ ∑ yi ⎟ ⎞ 2 ∑ (X − X ) i 2 S yy = n ∑ (y . Excluimos los casos de puntos alineados horizontalmente o verticalmente. Sólo toma valores en el intervalo [-1.3. ⎜⎜1 + ⎟⎟) ⇒ 0 0 ≈ N(0.3 FUNCIÓN DE REGRESIÓN MUESTRAL (FRM) Y ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS El objetivo es estimar la FRP del tipo Y = β + β X + u Con base en la FRM del tipo Y = βˆ + βˆ X + uˆ i 0 1 i i i 0 1 i i 4..x) (y i . siempre que no existan observaciones anómalas. 4. Es adimensional. Víctor Figueroa Arcila..   logarítmica.  ESTADÍSTICA Y PROBABILIDAD PARA INGENIERÍA |  Dr.2 Estimación puntual de σ Varianza Residual n ∑ û S − β̂ S 2 ŝ = = 2 i yy 1 xy i =1 n−2 n−2 R 4.n− 2 ) R 1 + 2   2 n SX 2 n SX 87    . n − 2 ) ≤ β1 ≤ βˆ1 + t ( α . el intervalo al 1-α por ciento de confianza para σ está dado por: ⎡ SˆR2 Sˆ 2 ⎤ ⎢( n − 2 ) 2 ≤ σ 2 ≤ (n − 2) 2R ⎥ ⎣⎢ χ (1−α / 2 ) χα / 2 ⎦⎥ 4.3.2) 1 Ŝ R S n X Y el intervalo al 1-α por ciento de confianza para β 1 está dado por: SˆR SˆR βˆ1 − t( α .3.2) 1 1 S ⎛ X 2 ⎞ Ŝ R R ⎜⎜1 + ⎟⎟ S n n ⎝ S 2 X ⎠ X   88 . ⎜⎜ ⎟⎟) ⇒ ≈ N(0.4 Intervalos de confianza para β 0 y β 1 La distribución de β̂ 1 es normal con media y varianza como se indica a continuación: ⎛σ 2 ⎞ β̂ − β β̂ ≈ N(β . 1) 1 1 1 ⎝ nS 1 2 X ⎠ σ S n UNIDAD DE APRENDIZAJE IV: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE | Junio de 2012 X 2 Luego. cuando σ es desconocido.  4. la Estadística Pivotal toma la siguiente forma: β̂ − β 1 ≈ t(n .4 CONTRASTES DE HIPÓTESIS H0: β1 =0 H0: β0 =0  H  1: β0 < 0 H1: β1 < 0 H1: β1 ≠ 0 H1: β1> 0 H1: β0 ≠ 0 H1: β0> 0 Estadística de Prueba:          Estadística de Prueba:  β̂ − β β̂ − β   t = 0 0 ≈ t(n .2) t = ≈ t(n .5 Intervalo de confianza para σ Estadística Pivotal: (n − 2)S 2 ≈ χ (n − 2) R 2 σ 2 2 Luego.n − 2 ) 2 SX n 2 SX n 2 4. “porcentaje de variación de Y explicada por el modelo”. Cuando un ajuste es bueno. El modelo debe satisfacer las hipótesis de partida. la expresión es de lo más 2 2 2 sencilla: R =r .(¿por qué?). Constancia estructural: Test de Chow. Valor p o valor de probabilidad: nivel de significación más bajo al cual se puede rechazar la hipótesis nula. ¿Cómo medir la bondad de una regresión? COEFICIENTE DE DETERMINACIÓN. pero en el modelo lineal simple.5 VALIDACIÓN DEL MODELO Los signos de los coeficientes deben ser los esperados. SCR ∑ (Ŷi − Y ) R2 = = SCT ∑ (Y − Y ) ∑( ) i 2 VE yˆ − y R2 = = i ∑ (y −y) ∑ (Y − Ŷ ) 2 VT i R 2 = SCR = SCT − SCE =1− i i =1− SCE SCT SCT ∑ (Y − Y ) SCT i 2 2 La bondad de un ajuste de un modelo de regresión se mide usando el coeficiente de determinación R .) R puede ser pesado de calcular en modelos de regresión general. R es una cantidad adimensional que sólo puede tomar valores en [0. R2 será 2 2 cercano a uno.( ¿por qué? ¿Difícil?. 1](¿por qué?).   4.  ESTADÍSTICA Y PROBABILIDAD PARA INGENIERÍA |  Dr. Cuando un ajuste es malo R será cercano a cero. A R también se le 2 denomina porcentaje de variabilidad explicado por el modelo de regresión.n −2) = VE Error Sˆ 2 ∑ ( y i − yˆ i ) 2 n-2 VNE/n-2 R Total ∑ (y − y) 2 i n-1 4. Del modelo en su conjunto: anulación de todos los coeficientes.5 CONTRASTE DE REGRESIÓN: DESCOMPOSICIÓN DE LA VARIABILIDAD y yi y i − yˆ i yi − y ŷ i yˆ i − y ∑(y − y ) = ∑ ( y i − yˆ i ) + ∑ ( yˆ i − y ) 2 2 2 i BAIN 052. ¿Cómo podemos saber si la recta de regresión se ajusta bien a los datos?. Contrastes de significatividad: De los parámetros: posibilidad de anulación de algún coeficiente. Víctor Figueroa Arcila. Homocedasticidad e Independencia. Capacidad predictiva postmuestral. ¿Es coherente lo dicho entonces sobre los valores de R ?   89    .  VT=SCT VNE= SCE VE=SCR Variación Total Variación no Explicada Variación Explicada xi x Fuente de Suma de Grados de Cuadrados F calculada variación cuadrados libertad medios Regresión ∑ ( yˆ − y) 2 i 1 VE/1 Análisis de varianza para probar β1 =0 F(1. El Coeficiente de Determinación (R2) da la idea de la capacidad de predicción del modelo y mide el porcentaje de variación en Y debido a X.( ¿por qué?). MEDIDA DE BONDAD DE AJUSTE: coeficiente de determinación. Especificación del modelo: Normalidad. Dada la siguiente información. ¿cuántos errores se espera que cometa?. ¿por qué? Un intervalo al (1-α)% de confianza para la respuesta media E(Y/x0 ) está dado por: ^ ^ 1 (x0 − x)2 ^ ^ 1 (x − x)2 (β1 + β2 X0 ) − tα/2ŜR + < E(Y / x0 ) < (β1+ β2 X0 ) + t α/2ŜR + 0 n S xx n S xx Un intervalo al (1-α)% de confianza para una respuesta y0 está dado por: ^ ^ 1 ( x − x) 2 ^ ^ 1 (x − x)2 (β1 + β2 X0 ) − tα/2ŜR 1+ + 0 < y0 < (β1 + β2 X0 ) + t α/2ŜR 1+ + 0 n S xx n S xx 4. vi) Determine el intervalo de confianza del 95% para ß1 vii) ¿Qué porcentaje de la variabilidad en los errores es explicada por el tiempo de dictado? 2 2 3. Interprete los coeficientes. El intervalo de confianza individual es más amplio que el promedio. Calcule la covarianza y el Coef. de la compañía donde usted es Gerente de Producción. mayor es el intervalo de confianza. tome α = 2%. al nivel de significación del 5%. Los resultados fueron como sigue: Tiempo de dictado (en minutos) 7 6 5 4 5 8 7 8 9 6 Número de errores 8 7 6 6 7 10 9 9 10 8 i) Determine la variable independiente y la variable dependiente. n = 9. ß1 < 0. Σ x = 45. ¿Cuál es la precisión de dicha predicción? v) Pruebe la hipótesis de que la pendiente de la recta de regresión de la población es cero versus la alternativa de que es distinta de cero. X = variable independiente. Σx = 285. Σ y = 45. b) Pruebe la hipótesis nula Ho : ß1 = 0 vs.6 EL PROBLEMA DE PREDICCIÓN ^ ^ ^ Y i = β1 + β 2 X i Al tener estimado un modelo: El problema de predicción Dado un Xi= X0 ¿cuál es el valor de Yi? Y UNIDAD DE APRENDIZAJE IV: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE | Junio de 2012 Intervalo de FRM Confianza para Y promedio 1. a) Determine el estimador por mínimos cuadrados de ß1 de la recta de regresión lineal. se estimó una ecuación para la recta de regresión de la forma: Û = 500000 + 1000 x i) ¿Qué significado económico tendría 500000 ?. Interprete. ii) Construya el diagrama de dispersión. Suponga que al estudiar la relación entre el costo U y la producción de unidades de Mouse X. Interprete iii) Obtenga la ecuación de la recta de regresión. Diez digitadoras. De correlación lineal de Pearson. iv) Si a una digitadora se la dicta durante diez minutos. ii) ¿Qué significado económico tendría 1000 ? 2.  4. Fundamente. ¿Por qué? Intervalo de Confianza para Y individual E (Yi X 0 ) = Y 0 = β1 + β 2 X 0 predicción media _ _ X X Yi X o = Y0 = β1 + β 2 X 0 + u 0 predicción individual 2. escogidas al azar fueron sometidas a una prueba que consistió en un dictado con cierto tiempo de duración y luego contar el número de errores cometidos al transcribirlo en un computador. Y = variable dependiente. Σ xy = 168.   90 . Entre más lejos de la media de X. Σ y = 285.7 APLICACIONES 1. 96 ∑ XY = 22.  ESTADÍSTICA Y PROBABILIDAD PARA INGENIERÍA |  Dr.3 22 2. e indique si β̂ 0 tiene aquí algún significado práctico.0 18 2.2 18 2. se obtuvieron las siguientes cantidades: 2 2 ∑ X = 11.3 23 2. b)Verifique que la regresión estimada de Y sobre X es: Y i = 0. Use la cantidad como variable dependiente en este caso. Decide asociar las ventas de 2008 con el ingreso percápita de 2007 en una muestra de 15 ciudades entre las muchas en las que su compañía tiene sucursales.7 12 1.34 ∑Y = 20.6 11 1. c) ¿Es significativo $ β̂ 1 b al 5%? ¿al 1%? d) Construya un intervalo al 95% de confianza para β.   91    .  Precio Cantidad Precio Cantidad pi qi pi qi $25 60 $15 40 20 85 20 55 35 110 30 90 40 95 40 115 60 140 50 120 55 169 70 180 45 80 45 95 a) Construya una diagrama de dispersión regresando Q sobre P.8 12 2. De una muestra de 200 pares de observaciones.1 18 2.55 + 8. 7.X y y=Y.1 25 2.   c) Encuentre el intervalo de confianza del 99% para ß1 4. b) Verifique que la función de suministro estimada es: q$ i = 15.0 17 2. BAIN 052.71 + 2. ¿al 1%? e) Construya un intervalo del 95% de confianza para β1. La siguiente muestra contiene el precio y la cantidad suministradas de materia prima para la elaboración de un producto computacional.2 23 1.16 ∑Y = 84. para la regresión lineal simple son: ∑y = n α$ + β$ ∑X ∑ XY = α$ ∑X + β$ ∑ X 2 muestre por sustitución directa lo siguiente: βˆ = ∑ α$ β$ X xy = Y - ∑ x2 donde: x = X . 6.2 16 2. El presidente de una cadena de tiendas al por menor cree que hay una relación positiva entre las ventas del producto de su compañía y el ingreso percápita del año pasado. Los datos son como sigue.72 ∑X = 12.Y 5.5 25 2.0 15 2. ¿Tiene β̂ 0 algún significado práctico aquí ?. en dólares.191 pi c) De interpretaciones verbales a β̂ 0 y β̂ 1 acabadas de obtener.5 10 a) Construya un diagrama de dispersión. d) ¿Es significativo β̂1 al 5%?.6765 Xi b) Interprete β̂ 0 y β̂ 1 . Las acuaciones normales.13 Estime las 2 regresiones lineales y la varianza del coeficiente de regresión estimado de Y sobre X. Víctor Figueroa Arcila. xi yi xi yi xi yi 2. donde X es el ingreso percápita de 2007 en miles de dólares y Y es la venta percápita de 2008.
Copyright © 2024 DOKUMEN.SITE Inc.