apuntes



Comments



Description

ECONOMETRÍAAPUNTES DE CLASE Profesores: Verónica Gil Aroztegui Aldo Lema Navarro Agosto 2004 Pontificia Universidad Católica de Chile Estos apuntes están en permanente revisión por lo cual sugerencias o correcciones serán bienvenidas. E-mails: [email protected] y [email protected] Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 1 INDICE 1. INTRODUCCIÓN............................................................................................................................................ 1 1.1 ORÍGEN Y CONCEPTO....................................................................................................................................1 Definiciones................................................................................................................................................................ 1 Diferencias entre un econometrista y un estadístico:......................................................................................... 2 1.2 MODELO ECONOMÉTRICO. .........................................................................................................................2 1.3 OBJETIVOS DE LA ECONOMETRÍA...........................................................................................................3 1.4 METODO DE LA ECONOMETRÍA. ..............................................................................................................3 1.5 DATOS, VARIABLES Y MODELOS. ............................................................................................................5 DATOS. ....................................................................................................................................................................... 5 RELACIONES. ........................................................................................................................................................... 7 VARIABLES................................................................................................................................................................ 7 FORMAS FUNCIONALES (Introducción) ........................................................................................................... 8 ANEXO 1: RECORDANDO DE INFERENCIA.....................................................................................................................9 Variable Aleatoria..................................................................................................................................................... 9 Notación:..................................................................................................................................................................... 9 Distribución de Probabilidades.............................................................................................................................. 9 ANEXO 2: UN REPASO DE MATRICES .................................................................................................................11 3.1.1 Operaciones matriciales:.............................................................................................................................11 3.1.2 Valores y vectores propios...........................................................................................................................16 3.2 ALGUNOS EJERCICIOS DE MATRICES..................................................................................................................19 3.2.1 Operaciones con matrices............................................................................................................................19 3.2.2 Determinantes...............................................................................................................................................19 3.2.3 Matriz Inversa ...............................................................................................................................................20 3.2.4 Valores y Vectores propios..........................................................................................................................20 2. REGRESIÓN SIMPLE..............................................................................................................................22 2.1 EL MÉTODO DE MÍNIMOS CUADRADOS ORDINARIOS (MICO). .......................................................................22 2.1.1 Definición de análisis de regresión............................................................................................................22 2.1.2 Especificación de la Regresión Simple......................................................................................................23 2.1.3 Ejemplo:..........................................................................................................................................................23 2.1.4 Fuentes de Error µ........................................................................................................................................25 2.1.5 Función de regresión poblacional y muestral.........................................................................................25 2.1.6. MICO para una regresión simple..............................................................................................................29 2.1.7 Ejemplo de cálculo de ˆ β 1 y ˆ β 2 ..................................................................................................................31 2.1.8 Expresión de las formulas en desvíos. .......................................................................................................32 2.1.9 Corolarios de los estimadores MICO. .......................................................................................................33 2.1.10. Coeficiente de determinacion (R 2 )..........................................................................................................38 2.1.11 Algunas Regresiones Particulares...........................................................................................................40 2.1.12. ¿Cómo seleccionar entre estimadores? .................................................................................................42 2.2 SUPUESTOS CLÁSICOS DEL MODELO DE REGRESIÓN. .....................................................................................45 1. La variable explicativa X está dada (es no estocástica o no aleatoria)..............................................46 2. E(µ i /X i )=0 ∀ i ...............................................................................................................................................46 3. No autocorrelación ⇒ Cov( µ i , u j )=0 i ≠j...............................................................................................46 4. Homocedasticidad ⇒ V(µ i /X i )=σ 2 ...........................................................................................................48 5. El modelo está bien especificado...............................................................................................................49 6. Normalidad ⇒ µ i ∼N( 0 , σ 2 ) ..................................................................................................................49 Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 2 2.3 PROPIEDADES ESTADÍSTICAS DE LOS ESTIMADORES MICO.............................................................................49 2.3.1 Linealidad.................................................................................................................................................50 2.3.2 Insesgamiento...........................................................................................................................................50 2.3.3 Eficiencia..................................................................................................................................................52 2.4 INFERENCIA ESTADÍSTICA EN EL MODELO DE REGRESIÓN LINEAL SIMPLE..................................................62 2.4.1 Repaso Breve de algunos teoremas de Inferencia...................................................................................62 2.4.2 ¿Qué Consecuencias tiene suponer µ i ~ N(0, σ 2 )?.................................................................................65 2.4.3 Intervalos de Confianza para β 1 y β 2 . ....................................................................................................67 2.4.4 Prueba de hipótesis......................................................................................................................................68 2.4.5 Recordando de inferencia:...........................................................................................................................70 2.4.6 Ejemplos de Test De Hipótesis....................................................................................................................71 2.5 ANALISIS DE VARIANZA.......................................................................................................................................76 Grados de Libertad.................................................................................................................................................78 2.6 PRUEBA DE NORMALIDAD......................................................................................................................................80 3. MODELO DE REGRESIÓN MULTIPLE..........................................................................................................81 3.1 DEFINICIONES...................................................................................................................................................81 • Modelo de regresión poblacional múltiple...............................................................................................81 • Modelo de regresión muestral múltiple....................................................................................................82 3.2 ESTIMADORES MICO......................................................................................................................................84 3.2.1 Primera forma de derivación.....................................................................................................................84 3.2.2 Otra forma de encontrar β ˆ ...................................................................................................................87 3.2.3 Deducción de los estimadores MICO en el modelo simple...................................................................89 3.2.4 Una interpretación de los estimadores MICO. ......................................................................................93 3.2.5 Corolarios de los Estimadores MICO......................................................................................................95 3.3 SUPUESTOS CLÁSICOS.........................................................................................................................................101 Explicación.............................................................................................................................................................102 3.4 PROPIEDADES ESTADÍSTICAS DE LOS ESTIMADORES MICO..........................................................................105 3.5.1 Linealidad....................................................................................................................................................105 3.5.2 Insesgamiento..............................................................................................................................................105 3.5.3 Eficiencia......................................................................................................................................................105 3.5.4 Consistencia.................................................................................................................................................111 3.6 INFERENCIA EN EL MODELO GENERAL...............................................................................................................112 3.6.1 Distribución de β ˆ ......................................................................................................................................112 3.6.2 Distribuciones derivadas de µ...................................................................................................................112 3.6.3 Distribución de 2 ' σ e e .................................................................................................................................113 3.6.4 Prueba de Hipótesis en el Modelo Múltiple............................................................................................115 3.5.5 Test General Para Probar Restricciones Lineales de Parámetros.....................................................117 3.5.6 Estabilidad y Cambio Estructural ............................................................................................................123 3.6 PREDICCION ......................................................................................................................................................131 • ¿Cuál es el valor esperado del error de predicción?...........................................................................132 • ¿Cuál es la varianza de e 0 ?.......................................................................................................................132 • ¿Cómo se distribuye e 0 ?............................................................................................................................133 • Intervalo de confianza para el error de predicción..............................................................................133 • Intervalo de confianza para Y 0 .................................................................................................................134 4. VARIABLES FICTICIAS O DUMMY O BINARIAS O DICOTÓMICAS.............................................135 4.1 MODELOS ALTERNATIVOS. .......................................................................................................................135 Ejemplo 1: Unica Variable Explicativa es una variable dummy. .................................................................135 Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 3 Ejemplo 2: Una variable cualitativa y otra cuantitativa................................................................................136 Ejemplo 3: Dos variables cualitativas...............................................................................................................137 Ejemplo 4: Interacción entre una variable cuantitativa y una cualitativa..................................................137 Ejemplo 5: Variables Cualitativas Politómicas...............................................................................................138 4.2 VARIABLES DUMMY PARA DESESTACIONALIZAR.........................................................................140 4.3 VARIABLES DUMMY PARA DETECTAR CAMBIO ESTRUCTURAL............................................143 4.4 VARIABLES DUMMY PARA CORREGIR OUTLIERS. ........................................................................145 5. MULTICOLINEALIDAD....................................................................................................................................147 5.1 INTUICIÓN..........................................................................................................................................................147 5.2 TIPOS DE MULTICOLINEALIDAD.............................................................................................................148 Multicolinealidad perfecta...................................................................................................................................148 Multicolinealidad imperfecta..............................................................................................................................150 ¿Por qué importa el determinante?....................................................................................................................151 5.3 EFECTO DE LA MULTICOLINEALIDAD A NIVEL EMPÍRICO........................................................152 En el modelo con dos variables explicativas...................................................................................................152 En el Modelo General...........................................................................................................................................152 Efectos prácticos de la multicolinealidad:........................................................................................................153 5.4 FORMAS DE DETECTAR LA MULTICOLINEALIDAD.........................................................................153 Por sus efectos sobre los test...............................................................................................................................153 5.5 FORMAS DE SOLUCIONAR LA MULTICOLINEALIDAD...................................................................154 No hacer nada........................................................................................................................................................154 Incorporar información adicional......................................................................................................................154 6. HETEROCEDASTICIDAD...................................................................................................................................157 6.1 ¿CÓMO SE AFECTAN LAS PROPIEDADES DEL ESTIMADOR MICO CUANDO EXISTE HETEROCEDASTICIDAD? ....................................................................................................................................158 ¿Qué ocurre si se estima por MICO sin tener en cuenta la heterocedasticidad?......................................160 6.2. MÉTODO DE MÍNIMOS CUADRADOS GENERALIZADOS................................................................................160 Derivación de MCG en el caso simple ..............................................................................................................162 Derivación de MCG en el caso múltiple. ..........................................................................................................162 6.3. ¿CÓMO DETECTAR LA HETEROCEDASTICIDAD? ..........................................................................163 • Naturaleza del problema:..........................................................................................................................164 • Método gráfico:...........................................................................................................................................164 • Prueba de Park............................................................................................................................................164 • Prueba de Glesjer .......................................................................................................................................164 • Goldfeld - Quant .........................................................................................................................................165 • Test de White. ..............................................................................................................................................166 6.4 ¿CÓMO SOLUCIONAR HETEROCEDATICIDAD? ..............................................................................166 Ejemplo en caso general ......................................................................................................................................167 7. AUTOCORRELACIÓN.........................................................................................................................................169 7.1 INTRODUCCIÓN................................................................................................................................................169 7.2 CAUSAS MÁS FRECUENTES DE AUTOCORRELACIÓN....................................................................170 Ciclos o tendencias en las variables, .................................................................................................................170 Autocorrelación espacial,....................................................................................................................................170 Influencia prolongada de shocks:.......................................................................................................................170 Inercia:....................................................................................................................................................................170 Mala especificación..............................................................................................................................................170 Quiebre o cambio estructural..............................................................................................................................171 7.3 ALGUNAS DEFINICIONES.............................................................................................................................172 Autocovarianza ......................................................................................................................................................172 Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 4 Coeficiente de Autocorrelación...........................................................................................................................172 EJEMPLO...............................................................................................................................................................172 7.4 PROPIEDADES DE LA ESTIMACIÓN MICO BAJO AUTOCORRELACIÓN ...................................175 7.5 ¿CÓMO DETECTAR AUTOCORRELACIÓN?...........................................................................................................176 Método gráfico:.....................................................................................................................................................176 Estadístico de Durbin-Watson (1951)................................................................................................................176 Test de Breusch - Godfrey (1978).......................................................................................................................179 Ejemplo de utilización de los test en Eviews. ...................................................................................................179 7.6 FORMAS DE CORREGIR POR AUTOCORRELACION ......................................................................181 7.6.1 Conozco la forma de la autocorrelación y conozco ρ.....................................................................181 7.6.2 . No conocemos ρ...............................................................................................................................184 8. ESPECIFICACION DE MODELOS...................................................................................................................186 8.1 ATRIBUTOS DE UN BUEN MODELO.........................................................................................................186 8.2 TIPO DE ERRORES DE ESPECIFICACIÓN................................................................................................186 8.3 CONSECUENCIAS DE LOS ERRORES DE ESPECIFICACIÓN. .........................................................186 8.3.1 Variables Omitidas......................................................................................................................................186 8.3.2 Inclusión de una Variable Irrelevante (Variables Intrusas)................................................................189 Conclusión para Especifi car Modelos...............................................................................................................190 Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 1 1 1. . I IN NT TR RO OD DU UC CC CI IÓ ÓN N 1.1 ORÍGEN Y CONCEPTO Algunos economistas ⇒ Europa S. XIX Otros ⇒ S. XX (como movimiento organizado) 1930 ⇒ fundación de la Sociedad Econométrica (Revista, 1933) La Econometría se nutre de: • Economía (“Teoría”) • Matemáticas (“especificaciones” y “tools”) • Estadística (“Técnicas”) Definiciones. • “Es lo que hacen los econometristas” • Etimológicamente: “Economía Medida” Sin embargo, este es un concepto vago, porque medir el PIB, el empleo, la oferta de dinero, etc., no es econometría. El concepto es más amplio que este. • Maddala: “Es la aplicación de métodos estadísticos y matemáticos al análisis de los datos económicos con el propósito de otorgar contenido empírico a las teorías económicas, verificándolas o refutándolas” • Kennedy: “ Los desacuerdos permitirían escribir un paper” La confusión proviene de que los econometristas son al mismo tiempo: i) Economistas: interpretan (o crean teoría) para probar empíricamente. ii) Matemáticos: formulan matemáticamente su teoría iii) Estadísticos aplicados: buscando datos para sus variables y gastando horas frente al computador tratando de estimar relaciones económicas y prediciendo. iv) Estadísticos teóricos: aplicando su habilidad para desarrollar técnicas estadísticas apropiadas a los problemas empíricos. • La econometría no significa lo mismo que estadística económica, tampoco es lo que conocemos como teoría económica, ni es la aplicación de las matemáticas a la economía. Econometría es la unificación de estas tres áreas. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 2 Diferencias entre un econometrista y un estadístico: La preocupación del econometrista está en los problemas causados por la violación de “supuestos estadísticos clásicos”; la naturaleza de las relaciones económicas y la falta de “experimentos controlados” 1.2 MODELO ECONOMÉTRICO. i) MODELO: representación simplificada de la realidad, recurriendo a un número limitado de conceptos formalizados. Críticas: • Sobre-simplificación. El contra-argumento es que se puede partir con un modelo sencillo y luego complicarlo. • Supuestos poco realistas. Sin embargo, se podría argumentar como lo hace Friedman, que lo importante no es cuán reales sean los supuestos, sino que tan buenos son como aproximación al fenómeno a explicar. • Se basa en un número limitado de “datos” ii) MODELO ECONÓMICO, conjunto de supuestos que aproximadamente describen el comportamiento de una economía (o de un sector) Ej. La función de producción Cobb-Douglas, Y= A K α L β , establece la relación exacta, deterministica, que existe entre los insumos y el producto, basándose en una serie de supuestos. Pero, si quisiéramos testear cuán bueno es este modelo para explicar la evolución del PIB en Chile, tendríamos algunos problemas. Sin importar lo sofisticado que sea nuestro modelo de producción, no nos servirá para explicar hechos como la caída de la producción por inundación o sequía, los momentos de huelga, etc. Para poder testear este modelo, es necesario incorporarle elementos estocásticos. Esto lo convertirá de un modelo económico en uno econométrico. iii) MODELO ECONOMÉTRICO: es un set de ecuaciones de comportamiento derivadas de un modelo económico que involucra: - variables observables - elementos estocásticos o shocks, que recogen errores de medición en las variables observadas y factores que no pueden ser recogidos por el modelo. Esto hace que la variable objetivo varíe no sólo porque lo hacen las variables explicativas, sino por cierta aleatoriedad del comportamiento humano o del contexto. El modelo determinístico ⇒ Y= A K α L β se transforma en El modelo econométrico ⇒ Y= A K α L β e µ Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 3 El término e µ será una variable aleatoria con determinadas propiedades que veremos en el curso, por lo que deberemos especificar la distribución de probabilidad de µ y las consecuencias de estas sobre la estimación. 1.3 OBJETIVOS DE LA ECONOMETRÍA i) Formulación de modelos econométricos (o sea modelos económicos en una forma testeable empíricamente). Objetivo: DESCRIPTIVO⇒ representar la realidad Usualmente hay diversas formas de formular un modelo econométrico a partir de un modelo económico ya que debe elegirse ⇒ forma funcional ⇒ especificación de la estructura estocástica de las variables, etc. ii) Estimar y testear los modelos con datos. Objetivo: INTERPRETAR. iii) Usar los modelos con fines predictivos y de política. De lo anterior se infiere que LA ECONOMETRIA ⇒ ¿Es una ciencia? ⇒ Aplicación de modelos estadísticos para intentar verificar modelos económicos que representan el funcionamiento de la economía 1.4 METODO DE LA ECONOMETRÍA. i) Diagrama que resume la Metodología de la econometría (Cuadro 1) 1. Teoría Económica o Modelo Económico 3.Información apriori 2. Modelo Econométrico 4. Datos 5. Estimación del Modelo 6. Testeo de Hipótesis sugeridas por el Modelo Económico 7.Predicción y Políticas Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 4 Para el ejemplo que veíamos antes: ii) Críticas: - Hay feedback entre 1 y 6 (no es cierto que sólo se “testean teorías”) - Hay feedback entre 2 y 5 con 3 (también hay aportes en datos) - Hay feedback entre 6 y 2 (como resultado de los test econométricos es posible replantear modelos econométricos) Por tanto hay retroalimentación (Cuadro 2) ¿Es el modelo adecuado? si no Prueba de alguna hipótesis Uso del modelo para predicción y políticas Teoría Económica Modelo Econométrico Estimación Pruebas de Especificación y examen de Diagnóstico Datos 1. Y=AK α L β 2. Y=AK α L β e µ 3. Revisión de resultados obtenidos en otros estudios similares, nacionales e internacionales 4. Conseguir los datos de PIB (Y) y Empleo (L) del Banco Central. Construir una serie de capital (K). 5. Estimación de α y β 6. Verifico hipótesis respecto a los parámetros. Ej: Test α+β=1 7. Predicción: dadas las estimaciones de K y L, cual será el PIB del próximo año Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 5 ⇒ los resultados econométricos influyen en la teoría ⇒ del modelo econométrico hacia los datos ⇒ De los test de especificación hacia la revisión de la especificación del modelo. ¿Qué constituye un test para la teoría económica? - Signos de los coeficientes son correctos. Problema: diferentes estudios econométricos llegan a conclusiones contradictorias. - El test más válido: “que una teoría económica genere mejores predicciones que una alternativa”. - Estabilidad de los coeficientes estimados (Crítica de Lucas). - IMPORTANTE: La econometría no es un elemento para derribar teorías, sino para conocer la realidad, y ver si los datos que tenemos se ajustar a la teoría. - SI LOS DATOS NO SE AJUSTAN LO ÚNICO QUE SE PUEDE DECIR ES QUE ESTOS DATOS NO VERIFICAN LA TEORÍA. - Error muy común: concluir que la equivocada es la realidad, si esta no coincide con el modelo. - Sin embargo pueden haber ciertas fuentes de error en la elaboración del modelo: - El modelo no se ajusta a la realidad. - Mala formulación del modelo - No se dispone de buena cantidad y/o calidad de datos. 1.5 DATOS, VARIABLES Y MODELOS. DATOS. Hay tres tipos: i. Datos de cross-section (sección cruzada): son observaciones de una variable para varias unidades individuales en un momento de tiempo. Por ejemplo, la tasa de crecimiento del PIB para el año 1991, para distintos países de América Latina. 1991 ARGENTINA 8.9 BOLIVIA 5.1 BRASIL 0.3 CHILE 6.8 COLOMBIA 1.8 ECUADOR 4.9 MEXICO 3.6 PARAGUAY 2.3 PERU 2.6 URUGUAY 3.2 VENEZUELA 9.7 Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 6 ii. Datos de series temporales: son observaciones de una determinada variable a lo largo de cierto período de tiempo. Por ejemplo en PIB del período 1976-1997 PIB de CHILE a precios constantes (escala logarítmica) iii. Pool-Data: es la mezcla de datos de cross-section y series temporales. Ejemplo: tasas de crecimiento de varios países de América Latina en el período 1991-1995. Un tipo especial son los datos de panel (Panel Data), donde a la unidad de corte transversal se la sigue en el tiempo. 1999 2000 2001 2002 2003 Argentina -3.1 -0.5 -4.4 -10.9 8.4 Brasil 1.0 4.5 1.5 1.6 0.0 Colombia -4.5 2.8 1.4 1.5 3.3 Chile -1.0 4.4 2.8 2.1 3.5 México 3.5 6.9 -0.3 0.9 1.1 Perú 3.8 3.6 0.2 5.2 4.0 Venezuela -7.2 3.2 2.7 -8.9 -10.0 Ecuador -7.3 2.3 5.6 3.4 2.3 Guatemala 3.8 3.6 1.8 2.3 2.5 Rep.Dominicana 8.0 7.8 3.0 3.5 -3.0 Uruguay -3.2 -1.1 -3.1 -10.8 2.5 15.6 16.0 16.4 16.8 17.2 17.6 60 65 70 75 80 85 90 95 00 Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 7 RELACIONES. i) Uniecuacionales: Es aquella en que la variable dependiente “está determinada” por variables explicativas. C= f(Y,r,G), donde C (Consumo) es la variable dependiente e Y(Ingreso) , r (tasa de interés) y G (Gustos) las variables independientes. ii) Multiecuacionales Es cuando para explicar un fenómeno se requieren varias ecuaciones. Ej: Consumo Durables =f(Ingreso Permanente, tasa de interés) Consumo No Durables: f(Ingreso Transitorio) El tratamiento de las ecuaciones puede ser en forma separada o conjunta. iii) Ecuaciones simultáneas. Es cuando dos o más variables vienen determinadas “simultáneamente” por un cierto número de variables explicativas. En los casos anteriores, el ingreso (Y) es “dado” para una familia individual, pero en la economía como un todo no se puede considerar que el ingreso esté “dado” Para un consumidor individual el precio de un bien viene “dado”. Para toda la economía, los precios y las cantidades vienen determinadas simultáneamente por las condiciones de oferta y demanda. Q d = f (p,x) Q s = f (p,z) Q d =Q s Donde Q d es la cantidad demandada, Q s es la cantidad ofrecida, X es la variable de escala en la demanda (Ingreso) y Z es la variable de escala en la oferta (tecnología). VARIABLES. En general: Variable dependiente: Y Variables independientes: X 1 , X 2 ......X k Sin embargo, reciben también otros nombres: Y X 1 , X 2 ......X k a) Predicha Predictores b) Regresandos Regresores c) Explicada Explicativas d) Dependiente Independientes e) Causada Causante f) Endógena Exógena g) Objetivo Control Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 8 La primera denominación surge de la posibilidad de efectuar predicciones. La terminología de las letras b, c y d son las usualmente utilizadas cuando se habla de modelos de regresión. En los estudios de causalidad se utiliza la expresión e). Se habla de variables exógenas y endógenas cuando se quiere distinguir entre aquellas variables que se determinan dentro del sistema (endógenas) y aquellas que se determinar fuera (exógenas). Por ejemplo en modelos de gran escala para explicar la economía de un país las variables exógenas son las determinadas fuera del país, como precios internacionales, tasas de interés, movimientos de capitales, etc. En problemas de control, se utiliza g). Por lo general las objetivo son aquellas que se desea influenciar. FORMAS FUNCIONALES (Introducción) i) Lineal ⇒ C= α + βY ii) Log-Lineal ⇒ ln C= α + β ln Y También se le llama Doble Logarítmica. Elasticidad Constante. iii) Semi-logarítmica ⇒ ln C= α + β Y ⇒Elasticidad Variable iv) Lineal-Recíproco ⇒ C=α + β (1/Y) v) Log-Recíproco ⇒ ln C= α +β (1/Y) vi) Lineal Log ⇒ C=α +β lnY En iv y v, la relación entre C e Y no es lineal. ¿Qué significa linealidad? i) En las variables: la relación entre la variable dependiente y las variables independientes es lineal. Y= α +β X ii) En los parámetros: la relación es lineal en β por ejemplo, si dicho coeficiente aparece con potencia 1 y no está multiplicado ni dividido por otro parámetro. Y= α +β X (lineal en variables y parámetro β) Y= α +β (1/X) (lineal en parámetro, pero no en las variables). Cuando se habla de linealidad en este curso se hace referencia a la LINEALIDAD EN LOS PARÁMETROS. TAREA: de los modelos anteriores determine cuáles son lineales en los parámetros, en las variables o en ambos. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 9 ANEXO 1: RECORDANDO DE INFERENCIA Variable Aleatoria Una variable aleatoria es una función que asocia un número real a cada elemento de un espacio muestral. En particular X es una V.A si para cada numero real a, existe una probabilidad P(X≤ a) de que X tome un valor menor o igual que a. Notación: • X,Y,Z para variables aleatorias, x,y,z para los valores particulares que toman las variables aleatorias X,Y,Z. • P(X=x) es la probabilidad de que la variable aleatoria X, tome el valor x. • P(x 1 ≤ X≤ x 2 ) es la probabilidad de que la variable X tome valores entre x 1 y x 2 . Hay dos tipos de variables aleatorias: i) Variables aleatorias discretas: Si la variable aleatoria toma un conjunto finito de valores o un conjunto “contable” de valores infinitos. Ej: el número de clientes que arriban en una hora a una tienda. ii) Variables aleatorias continuas Si en un cierto rango pueden adoptar infinitos valores. Ej. Ingreso de una familia en Chile. Distribución de Probabilidades. Discreta: Lista de los posibles valores que una variable aleatoria discreta puede tomar conjuntamente con sus probabilidades asociadas. Ej. X es el número que sale en la cara superior al tirar un dado. x P(X=x) 1 1/6 2 1/6 3 1/6 4 1/6 5 1/6 6 1/6 Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 10 Continua: se le denomina “función densidad”: f(x) Las probabilidades se discuten solo para intervalos, no para valores concretos. La probabilidad de obtener un valor exacto es cero. Las variables aleatorias continuas son una creación muy útil. Dentro de ellas la más utilizada es la normal, que tiene la siguiente función densidad: f(x) µ X Donde µ es la media y σ es el desvío estándar. Tarea: • Revisar INFERENCIA • Leer Apéndice A de Gujarati. ∫ · ≤ ≤ b a dx ) x ( f ) b X a ( P 2 ) x ( 2 1 2 e 2 1 ) x ( f µ σ π σ − − · Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 11 ANEXO 2: UN REPASO DE MATRICES 1 DEFINICIÓN: una matriz es un arreglo rectangular de elementos a ij donde i representa la fila en que se encuentra el elemento y j representa la columna en que se encuentra. El orden de una matriz es la cantidad de filas y columnas que esta tiene. Por ejemplo, la matriz A= , _ ¸ ¸ −3 1 2 4 3 1 , se dirá que es de orden 2×3. El elemento a 21 =2 3.1.1 Operaciones matriciales: • Igualdad A=B, si a ij =b ij • Transposición La traspuesta de la matriz A m×n , es una matriz A’ n×m , que tiene por filas las columnas de A. Propiedades: ⇒ (A′)′=A ⇒ (A+B)′=A′+B′ ⇒ (AB)′=B′A′ ⇒ (αA)′=αA′, si α es un escalar y A una matriz. ⇒ Si A=A′, entonces se dice que A es simétrica. • Suma y Resta Sea A m×n y B m×n , entonces C m×n =A+B es tal que c ij =a ij +b ij Sea A m×n y B m×n , entonces D m×n =A-B es tal que d ij =a ij -b ij Propiedades: ⇒ A+B+C=A+(B+C)=(A+B)+C ⇒ A+B=B+A 1 Este anexo repasa solamente algunas propiedades de matrices. Mas detalles en: • Econometría. Alfonso Novales. Segunda Edición. Capítulo 1 • Métodos de Econometría. J. Johnston. Capítulo 4 • Introducción a la Econometría. G.S. Maddala. Segunda edición. Apendice al Capítulo 2. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 12 • Producto de matriz por escalar Sea A m×n una matriz y α una constante, entonces B m×n =αA, es tal que b ij = α a ij • Producto de matriz por matriz Sea A m×n y B p×q , el producto AB solo se puede calcular si n=p (matrices conformables), C m×q =AB es tal que c ij se obtiene multiplicando elemento a elemento de la fila i-esima de A por la columna j-esima de B y sumando estos productos. Es decir ∑ · · n 1 s sj b is a ij c . Propiedades: ⇒ AB ≠ BA ⇒ La única matriz que se puede multiplicar por si misma es la matriz cuadrada. ⇒ Si AA=A se dice que A es idempotente. ⇒ Si A n×1 , entonces A′A es un escalar igual ∑ n 1 2 i a , mientras que AA′ será una matriz cuadrada y simétrica de orden n × n. ⇒ A(BC)=ABC=(AB)C ⇒ A(B+C)=AB+AC • Traza La traza de una matriz cuadrada es igual a la suma de los elementos de la diagonal principal. Propiedades: ⇒ Tr(A+B)=Tr(A)+Tr(B) ⇒ Tr(ABC)=Tr(CAB)=Tr(BCA) • Matriz identidad. Se denota como I n a la matriz cuadrada de orden n, que tiene elementos 1 en la diagonal y cero en el resto. I 2 = , _ ¸ ¸ 1 0 0 1 Propiedades: Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 13 ⇒ Sea A m×n , luego, I m A=AI n =A • Diferenciación Matricial Si b n×1 , entonces [ ] [ ] [ ] [ ] 1 1 1 1 1 1 1 1 1 ] 1 ¸ ∂ ∂ ∂ ∂ ∂ ∂ · ∂ ∂ n 2 1 b ) b ( f . . b ) b ( f b ) b ( f b ) b ( f Ejemplos: ⇒ [ ] a b b ' a · ∂ ∂ ⇒ [ ] Ab 2 b Ab ' b · ∂ ∂ ⇒ [ ] A 2 b Ab 2 · ∂ ∂ • Determinante de una matriz El determinante es una función que asocia un número real a una matriz cuadrada. Procedimiento de Laplace: 1. Elija cualquier fila o columna de una matriz y para cada uno de los elementos calcule el cofactor. El cofactor de un elemento a ij será c ij =(-1) i+j M ij . 2. M ij (matriz menor) es el determinante de la matriz que surge de eliminar la fila i y la columna j de la matriz original. 3. Multiplique cada elemento a ij de esa fila (o columna) por su cofactor c ij 4. Determinante de A=|A|= ∑ · ∀ n 1 j ij ij i c a Ejemplos: Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 14 1. , _ ¸ ¸ · 22 21 12 11 a a a a A 12 21 11 11 c a c a A + · c 11 =(-1) 1+1 M 11 =(-1) 2 (a 22 )=a 22 c 21 =(-1) 2+1 M 21 =(-1) 3 (a 12 )= -a 12 12 21 22 11 12 21 22 11 a a a a ) a ( a a a A − · − + · 2. A= , _ ¸ ¸ − − 1 1 2 5 0 3 3 1 2 31 21 11 c 2 c 3 c 2 A + + · c 11 =(-1) 1+1 M 11 =(-1) 2 1 1 5 0 − =5 c 21 =(-1) 2+1 M 21 =(-1) 3 1 1 3 1 − =(-1)(-1-3)=4 c 31 =(-1) 3+1 M 31 =(-1) 4 5 0 3 1 − − =5 32 ) 5 ( 2 ) 4 ( 3 ) 5 ( 2 A · + + · Propiedades: ⇒ ' A A · ⇒ Intercambiar 2 filas (o columnas) cambia el signo del determinante ⇒ Si una fila de un determinante se multiplica por k, el determinante queda multiplicado por k. ⇒ La adición de un múltiplo de una fila a otra no altera el valor del determinante. ⇒ Si una fila (o columna) es combinación lineal de otra fila (o columna) el determinante de la matriz es cero. Una matriz con determinante cero se denomina singular. • Matriz inversa Dada la matriz cuadrada A n , 1 n A − es su matriz inversa si n 1 n n I A A · − Procedimiento de calculo: Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 15 A de e eterminant d uesta transp cofactores de matriz A )' A ( A c 1 · · − La matriz de cofactores se forma de sustituir cada elemento de la matriz por su correspondiente cofactor c ij . Donde c ij =(-1) i+j M ij , siendo M ij (menor) el determinante de la submatriz que se forma cuando a la matriz A se le elimina la fila i y la columna j. Ejemplo: , _ ¸ ¸ · 0 1 0 1 0 0 0 0 1 A 31 21 11 c 0 c 0 c 1 A + + · = 1 c 11 =(-1) 1+1 M 11 =(-1) 2 0 1 1 0 =-1 ) 1 ( A − · , _ ¸ ¸ · − , _ ¸ ¸ − − − · − , _ ¸ ¸ − − − · · − , _ ¸ ¸ − − − − − · − , _ ¸ ¸ , _ ¸ ¸ , _ ¸ ¸ − , _ ¸ ¸ , _ ¸ ¸ − , _ ¸ ¸ , _ ¸ ¸ − , _ ¸ ¸ , _ ¸ ¸ − , _ ¸ ¸ · 0 1 0 1 0 0 0 0 1 1 0 1 0 1 0 0 0 0 1 1 ' 0 1 0 1 0 0 0 0 1 1 ' ) 0 )( 1 ( ) 1 )( 1 ( ) 0 )( 1 ( ) 1 )( 1 ( ) 0 )( 1 ( ) 0 )( 1 ( ) 0 )( 1 ( ) 0 )( 1 ( ) 1 )( 1 ( 1 ' 0 0 0 1 ) 1 ( 1 0 0 1 ) 1 ( 1 0 0 0 ) 1 ( 1 0 0 1 ) 1 ( 0 0 0 1 ) 1 ( 0 1 0 0 ) 1 ( 1 0 0 0 ) 1 ( 0 0 1 0 ) 1 ( 0 1 1 0 ) 1 ( A )' A ( c Propiedades: ⇒ ¿Siempre existe 1 A − ? No, la matriz A debe ser cuadrada y no singular ⇒ A ) A ( 1 1 · − − ⇒ La inversa (si existe) es única. ⇒ 1 1 1 A B ) AB ( − − − · ⇒ )' A ( ) ' A ( 1 1 − − · Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 16 • Rango de una matriz Una matriz A m×n puede interpretarse como una colección de m vectores fila de dimensión n, o como una colección de n vectores columna de dimensión m. Entonces, podemos hablarse de filas linealmente independientes (LI) o linealmente dependientes (LD). Se denomina rango de la matriz al máximo número de columnas (o filas) LI. Propiedades: ⇒ El número máximo de filas LI es igual al número máximo de columnas LI ⇒ Rango (A m×n )=min (m,n) ⇒ Rango A=Rango A’ ⇒ Si rango A m×n =m=n, entonces A es no singular y su inversa existe y es única. 3.1.2 Valores y vectores propios Dada una matriz cuadrada A n , entonces existe una constante λ y un vector x (no nulo), tal que satisfacen la siguiente ecuación: Ax=λx y que reciben el nombre λ= valor propio de A x= vector propio de A Ax=λx es una ecuación que tiene implícita dos incógnitas, un vector y un escalar. Las soluciones vendrán en parejas, a cada λ le corresponde un vector x Procedimiento de cálculo: Ax=λx Ax-λx=0 (A-λI)x=0 Si A-λI es no singular, entonces la única solución a la ecuación anterior es la trivial (x=0). Entonces, para que la solución sea no nula, el determinante de A-λI debe ser igual a cero. A esta se le conoce como ecuación característica y tiene n soluciones a las que se denomina valores propios. Para cada valor propio existe un vector propio que se obtiene sustituyendo el valor de λ en la ecuación (A-λI)x=0. Ejemplo: 1 ] 1 ¸ · 5 . 0 5 . 0 1 0 A i) Encontramos los valores propios de la matriz A: Debemos resolver: det( A-λI)=0 Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 17 − − λ λ 1 0 5 0 5 . . = (-λ)(0.5-λ)-0.5= -0.5λ+λ 2 -0.5 =0 0.5t 2 ) 5 . 0 ( 4 5 . 0 2 − − =(0.5t1.5)/2= 1 0 5 − ¹ ' ¹ . Los valores propios son 1 y –0.5 ii) Vectores propios: ♦ Para λ=1 (A-λ 1 I)x 1 =0 (A-(1)I)x=0 1 ] 1 ¸ · 1 ] 1 ¸ 1 ] 1 ¸ − − 0 0 b a 5 . 0 5 . 0 1 1 -a+b=0 ⇒ a=b 0.5a-0.5b=0 ⇒ a=b Dado que las dos ecuaciones son iguales el vector propio es un vector genérico x 1 = 1 ] 1 ¸ · 1 ] 1 ¸ a a b a Cualquier vector que tenga dos componentes que sean iguales verifica esta ecuación. En particular se puede normalizar el vector haciendo que su longitud sea 1, es decir, haciendo que a 2 +b 2 =1 Luego, a=b= 2 1 con lo que , _ ¸ ¸ · 2 1 2 1 1 x ♦ Para λ=-0.5 det(A-λ 2 I)x 2 =0 (A- 0.5I)x 2 =0 1 ] 1 ¸ · 1 ] 1 ¸ 1 ] 1 ¸ 0 0 d c 1 5 . 0 1 5 . 0 0.5c+d=0 c= -2d 05c+d=0 c= -2d · , _ ¸ ¸ − · , _ ¸ ¸ · d d 2 d c 2 x Normalizando tenemos dos ecuaciones: c 2 +d 2 =1 y c= -2d , con lo que: (-2d) 2 +d 2 =1 ⇒ 4d 2 +d 2 = 1 ⇒ 5d 2 =1 ⇒ 5 / 1 d · Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 18 c= -2d ⇒ 5 / 2 c − · , _ ¸ ¸ − · , _ ¸ ¸ · 5 1 5 2 d c 2 x Propiedades: ⇒ Los valores propios de una matriz simétrica son reales. ⇒ Los vectores propios correspondientes a distintos valores propios de una matriz simétrica son ortogonales entre si. Es decir que su producto es cero. 0 · x2 x1' ⇒ Sea B una matriz que tenga por columnas los vectores propios de A y D una matriz que tiene los valores propios en la diagonal y cero en el resto. B= , _ ¸ ¸ | | | | | | x . . x x | | | | | | n 2 1 y D= , _ ¸ ¸ λ λ λ n 2 1 0 0 0 . 0 0 0 . 0 0 0 0 0 0 La propiedad anterior asegura que B’B= BB’=I n , esto implica que B’ es la inversa de B (B es ortogonal). ⇒ D AB ' B · , es decir que la matriz B (de vectores propios) diagonaliza a A. ⇒ Si A es una matriz simétrica, definida positiva, existe una matriz no singular P tal que A=P’P ⇒ La suma de los valores propios de una matriz A es igual a la traza de A ⇒ El producto de los valores propios de una matriz A es igual al determinante de A ⇒ Una matriz es singular si y solo si al menos un valor propio es cero. ⇒ El rango de una matriz es igual al número de valores propios no nulos de ella. ⇒ Los valores propios de la matriz A 2 son el cuadrado de los valores propios de A. ⇒ Los valores propios de A -1 son los inversos de los valores propios de A, los vectores propios son los mismos que los de A. ⇒ Los valores propios de una matriz idempotente son cero o uno. ⇒ El rango de una matriz idempotente es igual al número de valores propios iguales a 1 e igual a su traza. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 19 ⇒ Sea una matriz A de orden m, definida positiva, y P una matriz de m×n, de orden m, el producto P’AP es una matriz definida positiva. ⇒ Los elementos de la diagonal principal de una matriz definida positiva son estrictamente positivos, mientras que los elementos de la diagonal principal de una matriz semidefinida positiva son no negativos. 3.2 ALGUNOS EJERCICIOS DE MATRICES 2 3.2.1 Operaciones con matrices a) Dadas los siguientes matrices, A · ¸ ¸ _ , 3 5 8 4 0 2 B · ¸ ¸ _ , 3 8 0 2 1 4 3 2 1 C· − − ¸ ¸ _ , 4 2 1 Calcular: (ABC), (C`A`); (AC)` ; (B`C)` ; (C`B) b) Dadas las matrices: A · ¸ ¸ _ , 1 3 4 2 0 7 5 6 9 B · ¸ ¸ _ , 10 2 0 7 1 3 4 5 6 Calcular (A+B); (A-B); (4A+7B) 3.2.2 Determinantes a. Dadas las matrices cuadradas: A · ¸ ¸ _ , 1 0 3 1 B · ¸ ¸ _ , 4 1 0 2 , _ ¸ ¸ · 1 2 2 1 C Comprobar: A B A B A B C A B C . . . . . . · · 2 Recomendables para quienes el tema de matrices resulte nuevo o olvidado. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 20 b. Dada la siguiente matriz cuadrada: A · ¸ ¸ _ , 1 0 1 2 3 0 0 4 1 Comprobar: A A kA k A n · · ' probar con k=2 c. Calcular los siguientes determinantes: t 1 1 1 z 2 1 1 y 1 2 1 x 1 1 2 B a 1 0 0 a 1 1 0 a A · · 3.2.3 Matriz Inversa a. Hallar la inversa de las siguientes matrices: A · − − ¸ ¸ _ , 2 2 3 1 0 3 3 4 0 B · ¸ ¸ _ , 3 1 1 1 2 2 1 2 4 b. Dadas tres matrices A, B y C cuadradas cualquiera, verificar: (ABC) -1 = C -1 B -1 A -1 3.2.4 Valores y Vectores propios. a) Encontrar los valores y vectores propios de: , _ ¸ ¸ − · 2 2 1 2 1 1 4 0 3 A y mostrar que Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 21 i) la suma de las raíces características (valores propios) es igual a la suma de los elementos de la diagonal de A ii) el producto de las raíces características es igual al determinante de A. b) Dada la matriz: A · ¸ ¸ _ , 1 4 1 1 i) Encontrar los vectores propios de A ii) Calcular A 2 y comprobar que λ 2 es un valor propio de A 2 . iii) Calcular A -1 y comprobar que 1/λ es un valor propio de A -1 c) Dada la siguiente matriz: A · ¸ ¸ _ , 2 1 1 2 i) Encontrar los valores y vectores propios ii) Probar que x 1 es ortogonal a x 2 ⇒(x 1 ’x 2 )=0 iii) Formar B y D y probar que el determinante de A es igual al determinante de D (es obvio?), que el rango de A es igual al rango de D y que A y D tienen la misma ecuación característica. iv) Probar que B diagonaliza A⇒ B’AB=D d) Dado que X= , _ ¸ ¸ 3 1 2 1 1 1 1 1 , calcular A=[ ] ) ' X ) X ' X ( X ( I 1 4 − − . Demostrar que A es idempotente y determinar su rango. Calcular los valores propios de A y obtener la matriz que diagonaliza a A. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 22 2 2. . R RE EG GR RE ES SI IÓ ÓN N S SI IM MP PL LE E 2.1 EL MÉTODO DE MÍNIMOS CUADRADOS ORDINARIOS (MICO). 2.1.1 Definición de análisis de regresión. Se vincula a la descripción y evaluación de la relación entre una determinada variable (dependiente o explicada) y una o más variables denominadas explicativas o independientes. Significado del término de regresión (Francis Galton, 1886): la estatura promedio de los niños que nacían de padres con una determinada estatura tendía a moverse o “regresar” hacia la altura promedio de la población total. Ello aún cuando existía una tendencia a que los padres altos tuvieran hijos altos y padres bajos tuvieran hijos bajos. Galton dijo que existía una “regresión a la mediocridad”. Actualmente se denomina regresión al estudio de la dependencia de una variable (la variable dependiente) de una o más variables (las explicativas) con la perspectiva de estimar y/o predecir el valor poblacional medio de la primera en términos de los valores conocidos de las segundas. Si k=2 ⇒ Regresión Simple Si k>2 ⇒ Regresión Múltiple Donde en general X 1 no representa una variable, sino que es una columna de “unos” que permitirá calcular la constante del modelo. Ej. Y = gasto en consumo de una familia X 2 = ingreso de la familia X 3 = activos financieros de la familia X 4 = tamaño de la familia Objetivos del Análisis de Regresión: ⇒ Predecir el valor poblacional medio de Y dado los valores fijos de las X ⇒ Analizar los efectos de políticas que alteren las X ⇒ Saber si las X tienen o no efectos sobre la Y (y si estos efectos son significativos). ) X ,....., X , X ( f Y k 2 1 · Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 23 2.1.2 Especificación de la Regresión Simple. Antes habíamos hablado de relación entre variables dependientes e independientes. Y= f (X) Esta puede ser de dos tipos: i) determinística o matemática. De este tipo de relación se preocupa la economía matemática. Ej: Y=1+X Y queda determinada exactamente dado el valor de la variable X. ii) estocástica o estadística De este tipo de relación se preocupa la Econometría. Para valores de X no podemos determinar Y en forma exacta, sino probabilísticamente. Y=1 + X+ µ Donde µ, conocido como RESIDUO, es una variable aleatoria. Representa la ignorancia residual, por lo tanto podemos atribuirle las propiedades más convenientes al problema en cuestión. 2.1.3 Ejemplo: Relación deterministica Y=K 0.3 L 0.7 Divido entre L, 3 . 0 3 . 0 3 . 0 3 . 0 3 . 0 7 . 0 3 . 0 L K L 1 K L K L L K L Y , _ ¸ ¸ · · · · − Aplico logaritmo: LN(Y/L) =0.3 LN(K/L) Dados los valores de K/L (relación capital/trabajo), existe un único valor de producto por trabajador (Y/L). LN(K/L) LN(Y/L) Y/L 12 3.6 36.6 14 4.2 66.7 20 6 403.4 5 1.5 4.5 10 3 20.1 0 1 2 3 4 5 6 7 0 5 10 15 20 25 LN (K/L) L N ( Y / L ) Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 24 0 1 2 3 4 5 6 7 8 0 5 10 15 20 25 LN (K/L) L N ( Y / L ) Relación estocástica Y=K 0.3 L 0.7 e µ Divido entre L, µ µ µ µ e L K e L 1 K e L K L e L K L Y 3 . 0 3 . 0 3 . 0 3 . 0 3 . 0 7 . 0 3 . 0 , _ ¸ ¸ · · · · − Aplico logarítmo: LN(Y/L) =0.3 LN(K/L) + µ Ahora el valor final de LN(Y/L) no depende solamente del valor de LN(K/L) sino también del valor de µ. Sabemos que µ es una variable aleatoria, pero aún no conocemos su distribución. Supongamos que µ tiene la siguiente distribución: ¹ ' ¹+ · 1/2 de ad probabilid con 1 - 1/2 de ad probabilid con 1 µ Entonces para cada valor de K/L tendríamos dos valores posibles de Y/L LN(K/L) X LN(Y/L) si µ=1 Y LN(Y/L) si µ=-1 Y 12 4.6 2.6 14 5.2 3.2 20 7 5 5 2.5 0.5 10 4 2 Supongamos ahora que µ es una variable aleatoria continua que tiene una distribución normal estandarizada (con esperanza cero y varianza 1). Entonces por cada valor de K/L tendremos infinitos valores para Y/L, dependiendo del valor de µ. El gráfico que obtendríamos sería algo similar a esto: Valor posible de LN(Y/L) para un valor dado de K/L La relación entre LN(Y/L) y (K/L), ahora es estocástica. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 25 En términos generales en econometría tendremos relaciones estocásticas entre la variable dependiente (Y i ) y la explicativa (X i ). Y i =α+βX i +µ tiene dos componentes ⇒ componente determinístico: α+βX i , donde α y β son los parámetros o coeficientes de la regresión. Sus valores serán estimados a partir de los datos disponibles para X e Y. ⇒ componente estocástico: µ 2.1.4 Fuentes de Error µ i) Elementos impredecibles y aleatorios en las respuestas humanas. Por ejemplo Consumo=f(ingreso), pero las personas no siempre responden de igual forma para iguales valores del ingreso. ii) Variables Omitidas: En el término de error se resume la incapacidad de identificar la influencia de ciertas variables o en otros casos imposibilidad de representarlas en valores (por ser de difícil cuantificación). iii) Errores de medida en la variable dependiente. Cuidado: estos errores de medida tienen ciertos problemas que estudiaremos más adelante. 2.1.5 Función de regresión poblacional y muestral. Dado que el objetivo del análisis de regresión es estimar o predecir el valor medio o promedio (poblacional) de la variable dependiente basándose en los valores fijos o conocidos de las variables explicativas, distinguiremos algunos conceptos. Función de Regresión Poblacional (FRP): es la recta que surge de unir las esperanzas condicionales de la variable dependiente para los valores fijos de la variable explicativa. Dado que para cada Xi, existe una población de valores de Y, se puede calcular la esperanza condicional de los valores de Y, condicional a cada Xi. A la unión de las esperanzas condicionales se le denomina FRP. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 26 Del gráfico podemos concluir que E(Y/Xi) es una función de Xi, y esa será una función lineal de Xi. Recordar: la linealidad puede ser en las variables y en los parámetros. Lo que nos interesa es que la relación sea lineal en los parámetros. variables las en ni , parámetros los en ni lineal es no 2 i X 2 1 ) 1 X / Y ( E variables las en no , parámetros en lineal es 2 i X 2 1 ) i X / Y ( E → β + β · → β + β · Modelos Linealizables: 2 i X 1 ) i X / Y ( E β β · ln E(Y/X i ) = ln β 1 + β 2 X i No Linealizables i X 2 e ) i X / Y ( E 2 1 β β + β · Qué forma tiene esta función? Para saberlo hay que recurrir a la teoría, pero podría ser por ejemplo E(Y/Xi)= β 1 +β 2 Xi Existe una relación lineal entre Xi y E(Y/Xi), en el caso del gráfico esta relación es positiva. Pero, ¿cómo es la relación entre cada Yi y el Xi correspondiente? Para cada Xi dado, un Yi en particular se desvía de la E(Y/Xi), por un término de error, µi. Es decir, µi= Yi - E(Y/Xi) o Yi= E(Y/Xi) + µi , Por lo que Yi= β 1 +β 2 X i + µ i Para el ejemplo que veíamos antes: Ln (Y/L) = β 1 +β 2 Ln (K/L) + u i , lo que indica que para encontrar cada valor particular de producto por trabajador debo sumar dos componentes, el primero representa el promedio de producto obtenido dado el nivel de capital utilizado [β 1 +β 2 Ln (K/L)], el segundo que indica cuánto hay que sumarle o restarle a ese promedio para alcanzar el valor de Y/L particular. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 27 Función de Regresión muestral (FRM). Hasta ahora nos hemos referido a los valores poblacionales de Y correspondientes a los valores fijos de X. Al hacer econometría nuestro interés es estimar β 1 y β 2 , pero el primer obstáculo que enfrentamos es que no conocemos la población, sino una muestra de ella. Antes (población) Ahora (una muestra) Así como tenemos esta muestra, podríamos tener otra. Dado que no conocemos la población sino muestras, la estimación de la E(Y/X i ) dependerá de la muestra elegida. ¿Cuál es la verdadera? No lo sabemos. Nuestro objetivo es conocer E(Y/X i ) ⇒ lo sabemos si tenemos β 1 + β 2 X i pero en realidad no conocemos β 1 y β 2 (parámetros poblacionales o teóricos), por lo que debemos estimarlos: estimada recta la será X ˆ ˆ Y ˆ X Y i 2 1 i i i 2 1 i β + β · µ + β + β · i i 2 1 i i i i e X ˆ ˆ Y e Y ˆ Y + β + β · + · donde Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 28 1 ˆ β estimación para β 1 2 ˆ β estimación para β 2 Estimamos ˆ Y i · ˆ β 1 + ˆ β 2 X i donde los ˆ β i - son los valores resultantes (estimaciones) a partir de estimadores (fórmulas o algoritmos). Modelo teórico 2 β Y 1 i 2 1 i X ) X / Y ( E β + β · 1 β µ 1 µ 2 Y 2 Xi Yi X 1 X 2 Modelo estimado β 1 1 ˆ β i 2 1 i X ˆ ˆ Y ˆ β + β · E(Y/X i )=β 1 +β 2 X i 2 ˆ β X 1 1 Y ˆ E(Y/X 1 ) Y 1 µ 1 e 1 β 2 Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 29 Diferencias entre µ i y e i µi= Yi - E(Y/Xi) X ˆ ˆ Y e Y ˆ Y e i 2 1 i i i i i β − β − · − · µ -es no observable -es una variable aleatoria a la que se le supone cierta distribución de probabilidad e -es observable (se dispone de valores) - satisface ciertas propiedades que veremos más adelante. ¿Cómo calcular β 1 y β 2 ? Método de momentos? Máxima Verosimilitud? Método de Mínimos Cuadrados Ordinarios (MICO)? 2.1.6. MICO para una regresión simple Utilizaremos un método llamado Mínimos Cuadrados Ordinarios (MICO). Idea: “Pasar la recta de regresión a través de los puntos del gráfico de forma que esté lo más próxima posible a la urbe de puntos”. Trataremos que las distancias verticales (errores) sean lo más pequeñas posible. i X 2 1 ˆ i Y i e i Y ˆ i Y i e β − β − · − · Se trata de elegir ˆ β 1 y ˆ β 2 tal que la diferencia sea mínima. Minimizaremos e i 2 ∑ (para dar peso equivalente a residuos más grandes). O sea, minimizaremos la suma de los cuadrados de las “distancias verticales” desde los puntos de la recta. Q · ( Y i ∑ − ˆ Y i ) 2 · (Y i ∑ − ˆ β 1 − ˆ β 2 X i ) 2 · f ( ˆ β 1 , ˆ β 2 ) Debemos minimizar Q, es decir que debemos encontrar las condiciones de mínimo CNPO CNSO mínimo de s condicione 0 2 ) 2 ˆ ( Q 2 0 2 ˆ Q 0 2 ) 1 ˆ ( Q 2 0 1 ˆ Q ¹ ¹ ¹ ¹ ¹ ¹ ¹ ; ¹ > β ∂ ∂ · β ∂ ∂ • > β ∂ ∂ · β ∂ ∂ • Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 30 0 ) X ˆ ˆ Y ( 0 ) 1 ( ) X ˆ ˆ Y ( 2 ˆ Q ) 1 ( i 2 1 i i 2 1 i 1 · β − β − · − β − β − · β ∂ ∂ ∑ ∑ 0 X ˆ 1 ˆ Y i 2 1 i · β − β − ∑ ∑ ∑ 0 X ˆ n n ˆ Y 2 1 · β − β − ˆ β 1 · Y − ˆ β 2 X (*) Alternativamente podríamos expresar (1) de la forma ∑ ∑ · ⇒ · − 0 e 0 ) 1 ( e 2 i i , esta es la primera condición que se debe cumplir para minimizar la suma de cuadrados de los residuos. Y i ∑ X i − ˆ β 1 X i − ∑ ˆ β 2 X i 2 ∑ · 0 Sustituyo 1 ˆ β por (*) ˆ β 2 · Y i X i − n X Y ∑ X i 2 − n X 2 ∑ (**) Alternativamente podríamos expresar (2) de la forma ∑ ∑ · ⇒ · − 0 X e 0 ) 1 ( X e 2 i i i i , esta es la segunda condición que se debe cumplir para minimizar la suma de cuadrados de los residuos. A las dos condiciones se le llama generalmente ECUACIONES NORMALES. La fórmula (**) la podemos transformar para interpretarla mejor. 0 ) X )( X ˆ ˆ Y ( 2 ˆ Q ) 2 ( i i 2 1 i 2 · β − β − − · β ∂ ∂ ∑ 0 X ˆ X ) X ˆ Y ( X Y 2 i 2 i 2 i i · β − β − − ∑ ∑ ∑ ∑ ∑ ∑ β + β − · 2 i 2 i 2 i i X ˆ X ) X ˆ Y ( X Y ∑ ∑ β + β − · 2 i 2 2 2 i i X ˆ X n ˆ Y X n X Y ∑ ∑ β + β − · 2 i 2 2 i i X ˆ X n ) X ˆ Y ( X Y ) X n X ( ˆ Y X n X Y 2 2 i 2 i i − β + · ∑ ∑ Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 31 Recordando de Inferencia: S xy · cov(X,Y) · (X i − X )(Y i − Y ) ∑ n · ( X i Y i − X i Y − X Y i + X Y ) ∑ n · X i Y i ∑ n − Y X i ∑ n − X Y i ∑ n + X Y n n · Este último es el término que tenemos en el numerador de (**). El denominador es parecido a la formula de la varianza muestral, 1 n ) X X ( S 2 i 2 x − − · ∑ . Por lo que (**), para muestras grandes, se puede expresar: X de muestral ianza var Y e X entre muestral arianza cov S S S n nS X n X Y X n X Y ˆ 2 x XY 2 x XY 2 2 i i i 2 · · · − − · β ∑ ∑ donde: ˆ β 1 - ordenada en el origen ˆ β 2 - coeficiente angular o pendiente 2.1.7 Ejemplo de cálculo de ˆ β 1 y ˆ β 2 Supongamos que conocemos los datos de producción y horas trabajadas de 10 trabajadores de una fábrica en un momento de tiempo (corte transversal). Definimos Y = producto , X = horas de trabajo X Y X 2 Y 2 XY 1 10 11 100 121 110 2 7 10 49 100 . 3 10 12 100 . . 4 5 6 25 . 5 8 10 64 6 8 7 64 7 6 9 36 8 7 10 49 9 9 11 81 10 10 10 100 ∑ 80 96 668 952 789 6 , 9 Y 8 X · · Y i · ˆ β 1 + ˆ β 2 X i + e i ˆ β 1 · Y − ˆ β 2 X · 9,6 − ˆ β 2 • 8 · 9,6 − 0,75(8) · 3,6 n X Y n Y X Y X Y X X Y n Y X i i i i ∑ ∑ − · + − − · Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 32 ˆ β 2 · X Y − n X Y ∑ X i 2 − n X 2 ∑ · 789 − 10(8) 9,6 668 − 10(8) 2 · 0,75 ˆ Y i · ˆ β 1 + ˆ β 2 X i ˆ Y i · 3, 6 + 0, 75 X i Y i · ˆ β 1 + ˆ β 2 X i + e i Por ejemplo: 1 Y ˆ =3,6+0,75(10)=7,5+3,6=11,1 2 Y ˆ = 3,6 + 0,75(7)= 8,85 e 1 = 1 , 0 1 , 11 0 , 11 Y ˆ Y 1 i − · − · − e 2 = 15 . 1 85 , 8 0 , 10 Y ˆ Y 1 i · − · − 0 5 10 15 0 2 4 6 8 10 12 Y X Intercepto: 3.6 Pendiente: 0.75 e1=-0.1 e2=1.15 Tarea: Verificar que en el ejemplo se cumplen los corolarios de las ecuaciones normales 0 X e 0 e i i i · · ∑ ∑ 2.1.8 Expresión de las formulas en desvíos. Veremos una segunda forma de expresar los resultados anteriores: X ˆ Y ˆ 2 1 β − · β (*) ∑ ∑ ∑ ∑ − − − · · − − · β 2 i i i 2 X XY 2 2 i i i 2 ) X X ( ) Y Y )( X X ( S S X n X Y X n Y X ˆ (**) Definamos las variables en desvíos respecto a su media Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 33 Y Y y X X x i i i i − · − · Entonces, (**) la podemos expresar ∑ ∑ · β 2 i i i 2 x y x ˆ (***), donde las variables en minúsculas representan desvíos respecto a la media de la variable. TAREA: demostrar CNSO 2.1.9 Corolarios de los estimadores MICO. 1. De las ecuaciones normales se desprende 0) (media compensan se errores los · ⇒ · ⇒ · − · β ∂ ∂ ∑ ∑ 0 e 0 e 2 ˆ Q i i 1 0 X e 0 X e 2 ˆ Q i i i i 2 · ⇒ · − · β ∂ ∂ ∑ ∑ 2. La regresión siempre pasa por el punto Y , X . Y i · ˆ β 1 + ˆ β 2 X i + e i Sumando para todo i, tenemos: Y i ∑ · N ˆ β 1 + ˆ β 2 X i ∑ + e i ∑ Dado que ∑ · 0 e i Y · ˆ β 1 + ˆ β 2 X , Con lo que el punto Y , X verifica la recta de regresión. 3. El valor medio de Y estimado es igual al valor medio de Y observado. i i 2 1 i e X ˆ ˆ Y + β + β · Sumando para todo i, i i i e Y ˆ Y + · i i i e Y ˆ Y ∑ ∑ ∑ + · 0 n Y ˆ Y i + · ∑ Y ˆ Y · Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 34 4. La regresión se puede expresar en desvíos: Como ∑e i = 0 (1) i i 2 1 i e X ˆ ˆ Y + β + β · , sumando para todo i, ∑ ∑ ∑ + β + β · i i 2 1 i e X ˆ ˆ n Y , recordando que ∑e i = 0 y dividiendo entre n (2) X ˆ ˆ Y 2 1 β + β · Restando (1) –(2)⇒ X ˆ e X ˆ ˆ ˆ Y Y 2 i i 2 1 1 i β − + β + β − β · − i i 2 i e ) X X ( ˆ Y Y + − β · − Expresado en desvíos ⇒ i i 2 i e x ˆ y + β · Similarmente se podría verificar que i 2 i x ˆ y ˆ β · 5. 0 ) e , X ( Cov ) e , Y ˆ ( Cov · · Los residuos no están correlacionados con el valor estimado de Y i , ni con los valores explicativos. Para demostrar este resultado debemos recordar la propiedad 1 y su corolario 0 e · • Cov(X,e)= ) e ( ) X X ( n 1 ) e e ( ) X X ( n 1 i i i i − · − − ∑ ∑ [ ] [ ] 0 e X 0 n 1 e X e X n 1 i i i i · − · − · ∑ ∑ ∑ De este resultado se deriva que ∑ i i e x también es igual a cero. 1 ] 1 ¸ − · 1 ] 1 ¸ − · − − · ∑ ∑ ∑ ∑ ∑ i i i i i i e Y ˆ e Y ˆ n 1 e Y ˆ e Y ˆ n 1 ) e e ( ) Y ˆ Y ˆ ( n 1 ) e , Y ˆ ( Cov Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 35 Analizando la última expresión, comprobamos que el segundo término es cero. Y como se observa debajo también lo es el primero. [ ] [ ] i i 2 2 i i 2 1 i e X ˆ ) X ˆ Y ( n 1 e ) X ˆ ˆ ( n 1 e Y ˆ n 1 ∑ ∑ ∑ β + β − · β + β · [ ] 0 e X ˆ e X ˆ e Y n 1 i i 2 i 2 i · β + β − ∑ ∑ ∑ 6. Descomposición en Suma de Cuadrados Veamos un resultado previo. Sabemos que: Y ˆ Y e Y ˆ Y i i i · + · Restando las dos expresiones anteriores, obtenemos i i i e Y ˆ Y ˆ Y Y + − · − , lo que en desvíos respecto a la media, se puede expresar: i i i e y ˆ y + · y dado que i 2 i x ˆ y ˆ β · entonces i i 2 i e x ˆ y + β · Con lo que: i i i i 2 i e y ˆ e x ˆ y + · + β · Se eleva al cuadrado: 2 i i i 2 i 2 i i i 2 2 i 2 2 2 i 2 i i 2 i i 2 2 i e e yˆ 2 yˆ e e x ˆ 2 x ˆ y ) e yˆ ( ) e x ˆ ( y + + · + β + β · + · + β · Se aplica ∑: ( ) ∑ ∑ ∑ ∑ ∑ + + · + β + β · 2 i i i 2 i 2 i i i 2 2 i 2 2 2 i e e y ˆ 2 y ˆ e e x ˆ 2 x ˆ y ∑ ∑ ∑ ∑ ∑ ∑ ∑ + + · + β + β · 2 i i i 2 i 2 i i i 2 2 i 2 2 2 i e e y ˆ 2 y ˆ e e x ˆ 2 x ˆ y ∑ ∑ ∑ ∑ ∑ + · + β · 2 i 2 i 2 i 2 i 2 2 2 i e yˆ e x ˆ y , (****) dado que los dos términos de Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 36 productos cruzados se hacen cero por algunas de las propiedades anteriores. Definimos: SSR residuales cuadrados de Suma SCR e SSE SCE explicados cuadrados de Suma x ˆ y ˆ SST CT S totales cuadrados de uma S y 2 i 2 i 2 2 2 i 2 i · · · · · · β · · · · ∑ ∑ ∑ ∑ Entonces el resultado (****) ⇒ SCT=SCE+SCR Una expresión alternativa para SCE, se deriva a continuación: ∑ β · 2 i 2 2 x ˆ SCE [ ] [ ] [ ] ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ β · · · 1 1 ] 1 ¸ · β · · β i i 2 2 i 2 i i 2 i 2 2 i 2 i i 2 i 2 2 i i i 2 i 2 2 2 i i i 2 y x ˆ x y x x x y x x x y x x ˆ SCE x y x ˆ Como Ejemplo. Supongamos que el consumo de los hogares se explica por su nivel de ingreso. En el diagrama de dispersión (Gráfico1) cada punto (Xi,Yi) indica la combinación de ingreso y consumo del hogar. Podríamos partir explicando el consumo de una cierta familia por el consumo medio observado de la muestra. Para cada familia cometeríamos un error dado por Y i Y − . Si realizamos una regresión y estimamos los parámetros 2 1 ˆ y ˆ β β por MICO, el error que cometemos al asignar a la familia Xi cuyo verdadero consumo es Yi, la media de los consumos, se divide ahora en dos partes (Gráfico 2). Una de ellas nos indica la parte del error que ha sido explicada por el modelo ( Y Y ˆ i − ). La otra mide el error que aún subsiste (e i ) Esto se puede generalizar obteniendo medidas resumen para todas las observaciones (o sea para toda la muestra). Estas medidas son las sumas de cuadrados que vimos antes: la suma de cuadrados totales (SCT) puede descomponerse en una parte explicada por la regresión (SCE) y otra parte que aún no logramos explicar o residual (SCR). Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 37 Gráfico 1: Desvío respecto a la media X Y * * * * * * * Y Y i − Es el desvío total (DT) respecto a la media. (X i ,Y i ) Y DR DE ) Y Y ˆ ( ) Y ˆ Y ( Y Y ˆ Y ˆ Y DT , Y ˆ restamos y sumamos le ) Y Y ( DT Al i i i i i i i i + · − + − · − + − · − · Gráfico 2: Desvío Total, Desvío Explicado y Desvío Residual DT= Y Y i − DR= Y ˆ Y i − DE= Y Y ˆ i − i Y ˆ Y i Y * * * * * * * (X i ,Y i ) i 2 1 X ˆ ˆ β + β Y X X i X Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 38 2.1.10. Coeficiente de determinacion (R 2 ) Esta descomposición da lugar a una medida de la bondad de ajuste de modelo de regresión SCT SCR 1 SCT SCR SCT SCT SCE R 2 − · − · · Consideraciones: 1. Es una medida de bondad absoluta del modelo ya que mide qué proporción de la varianza total (la varianza de Y) es explicada por el modelo de regresión (por X). Cuanto mayor sea la relación entre X e Y, mayor será este indicador. 2. Es una medida de bondad relativa entre modelos. Por ejemplo, permite comparar si la capacidad explicativa es mayor incluyendo X como variable independiente respecto a incluir Z. 3. 0 ≤ R 2 ≤ 1 (Si el modelo no explica nada SCR = SCT ⇒ R 2 = 0) (Si el modelo explica todo SCE = SCT ⇒ R 2 = 1) * * * * * * * Y Y X X R 2 =1 R 2 =0 Y X Todas las observaciones coinciden con la línea No existe relación alguna que de regresión⇒ ajuste perfecto (imposible) sea expresable linealmente Otras formas de expresarlo: ( ) 2 y , x 2 y 2 x 2 xy 2 i 2 i 2 i i 2 i 2 i 2 2 i i i 2 i 2 i 2 2 2 i 2 i 2 r S • S S x y y x y x x y x y x ˆ y y ˆ SCT SCE R · · · , _ ¸ ¸ · β · · · ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ Es decir, en el modelo de regresión simple el R 2 es igual al cuadrado del coeficiente de Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 39 correlación muestral simple entre X e Y. Recordar que y x y , x 2 i 2 i i i XY S S S y x y x ) Y ( V ) X ( V ) Y , X ( Cov r · · · ∑ ∑ ∑ , era una medida de la asociación lineal que existe entre X e Y. Debemos recordar que el concepto de covarianza nos da una primera aproximación del grado de asociación que tienen X e Y. n xy n ) Y Y )( X X ( S xy ∑ ∑ · − − · Y Y X X ∑ < 0 xy ∑ > 0 xy ∑ > 0 xy ∑ < 0 xy Esto se cumple si los puntos muestrales se concentran predominantemente en estos cuadrantes. Puede pasar que exista una relación, pero pequeña, entre las dos variables, en ese caso los puntos estarán dispersos en los cuatro cuadrantes. Desventajas de trabajar con ∑ xy : a. Su valor puede aumentar simplemente agregando más observaciones. La solución es dividir por el tamaño muestral, con esto se obtiene S xy b. La covarianza depende de las unidades en que se miden X e Y. Por ejemplo si pasamos variables de dólares a centavos, la covarianza aumenta en 10000. Por esta razón, la covarianza se escala dividiendo por la desviación estándar de las variables en cuestión. Por eso trabajamos con 2 y xy 2 XY S S ˆ ) Y ( V ) X ( V ) Y , X ( Cov r β · · . El signo de r XY dependerá del signo de la covarianza. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 40 Propiedades de r: a. Está entre –1 y 1 b. Simetría r xy =r yx c. Es independiente del origen y de la escala. d. Si X e Y son estadísticamente independientes, entonces r=0. Pero r=0, no implica independencia. e. Como es una medida de asociación lineal, no tiene sentido utilizarlo para describir relaciones no lineales. f. No dice nada de las relaciones causa-efecto. Para eso se utiliza el test de Granger. 2.1.11 Algunas Regresiones Particulares • Regresión que incluye sólo Constante (o sea no incluye X) 2 1 i 2 i i 1 i 1 i i 1 i ) ˆ Y ( e Q e ˆ Y ˆ Y ˆ u Y β − · · + β · β · + β · ∑ ∑ 0 ) 1 )( ˆ Y ( 2 ˆ Q 1 i 1 · − β − · β ∂ ∂ ∑ Y n Y ˆ ˆ Y i 1 1 i · · β β · ∑ ∑ ∑ Y ˆ 1 · β • La regresión que pasa por el origen (incluye X, pero no constante) · β − · · β − · + β · ∑ ∑ ) X ˆ Y ( e Q ) X ˆ Y ( e u X Y 2 i 2 i 2 i i 2 i i i i 2 i 0 ) X )( X ˆ Y ( 2 ˆ Q i i 2 i 2 · − β − · β ∂ ∂ ∑ 0 X ˆ X Y 0 X ) X ˆ Y ( 2 i 2 i i i i 2 i · β − ⇒ · β − ∑ ∑ ∑ ∑ ∑ · β 2 i i i 2 X X Y ˆ Tarea: verificar qué propiedades se cumplen para esta regresión. . Tarea: calcular R 2 , verificar las restantes propiedades. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 41 Características: 0 X e 0 e i i i · ≠ ∑ ∑ • Modelo doble logarítmico i 2 1 u X ln Y ln + β + β · X en porcentual cambio al respecto , Y de porcentual cambio ˆ X a respecto Y de d elasticida X ln Y ln 2 YX ↓ β · · ∂ ∂ · η • Modelo Semilogarítmico i 2 1 u X Y ln + β + β · . X en unidad una en cambio el por Y en cambio de tasa : cidad semielasti . X en absoluto cambio un por Y en relativo cambio ln 2 ↓ ⇒ · β ∂ ∂ X Y • Ejemplo: el tiempo como variable explicativa Supongamos que tenemos el siguiente modelo para representar la evolución de una cierta economía: PIB=Ae r t (Ver Recuadro) Donde A es un término constante, r es la tasa de crecimiento anual (que se supone constante) y t es el tiempo (1,2,3.......). Para estimar esta ecuación debemos linealizarla e incorporarle el componente aleatorio: PIB t =Ae rt e µ ln PIB t = ln A + rt+µ i Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 42 ln PIB t = β 0 + β 1 t+µ i (*) Luego de estimar (*) con los datos de un cierto país, obtenemos: ln PIB t = 6,96 + 0,0269 t +e i Esto significa que la tasa de crecimiento del PIB promedio en el período de esta economía es 2.69%. Supongamos que el PIB crece a una tasa de 3% anual. Matemáticamente esto significa que: PIB 03 . 0 dt dPIB · Esta es una ecuación diferencial que se puede reescribir como: dt 03 . 0 dPIB PIB 1 · . Si integramos a ambos lados de la ecuación, tenemos: ∫ ∫ · dt 03 . 0 dPIB PIB 1 y resolviendo ambas integrales: 2 1 c t 03 . 0 c PIB ln + · + Con lo que: c t 03 . 0 PIB ln + · . Encontrando el antilogaritmo de esta ecuación: PIB(t)=e 0.03t e c 2.1.12. ¿Cómo seleccionar entre estimadores? Hasta ahora hemos derivado los estimadores MICO para 2 1 ˆ y ˆ β β . También hemos derivado sus propiedades. En este punto nos preguntamos qué criterios podemos aplicar para saber que tan buenos son estos estimadores. Pese a que MICO es el método más popular para estimar los parámetros de un modelo, minimizar la suma de los errores al cuadrado, no dice nada sobre la relación del estimador y el verdadero valor del parámetro. Puede pasar que la minimización sea válida para una muestra en particular. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 43 MICO siempre minimiza e i 2 ∑ , pero esto no garantiza que se cumplan otras propiedades. Mayor R 2 ¿Tiene sentido decir que los estimadores tendrán buenas propiedades si hacen que el R 2 sea el mayor posible? No, MICO minimiza e i 2 ∑ para una muestra en particular y esto es equivalente a maximizar R 2 . El R 2 no es válido como criterio para "buena" estimación, sino como indicador ajuste de la regresión a la muestra seleccionada. Ver Sección 2.1.10 Insesgamiento ⇒ β · β) ˆ ( E Esto no quiere decir que β · β ˆ , sino que se calcula el estimador correspondiente para muestras repetidas, "en promedio" estaremos sobre el parámetro poblacional. Minimizar e i 2 ∑ puede aplicarse sin requerir casi ninguna información sobre la forma en que los datos han sido generados. Este no es el caso del criterio de insesgamiento. Para verificar si el estimador MICO es insesgado, deberemos realizar ciertos supuestos sobre la forma en que se extrajo la muestra con la que trabajamos. Eficiencia ¿Cómo elegimos entre estimadores que son todos insesgados? Será mejor el que tenga la varianza más pequeña, es decir el que sea más eficiente. Veremos qué supuestos deben plantearse para que se cumpla con esta propiedad. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 44 Ahora, si tengo un estimador con mínima varianza, ¿estaré seguro que es el mejor estimador? No, depende del sesgo. Error Cuadrático Medio ECM ( β ˆ ) = 2 ) ˆ ( E β − β = Var ( β ˆ )+ [Sesgo ( β ˆ )] 2 ) ˆ (β ) ( f * β E( β ≠ β ) * En este caso β* es sesgado, pero con menor varianza, mientras β ˆ es insesgado pero con mayor varianza. Para poder elegir entre ellos debo comparar el ECM, que resume varianza y sesgo. Debieramos elegir el estimador con menor ECM. Consistencia En muchos problemas econometricos es imposible encontrar estimadores con las propiedades anteriores. Sin embargo, muchas veces se puede justificar la utilización de un estimador en base a sus propiedades asintóticas. La distribución muestral de un estimador muchas veces cambia en la medida que cambia el tamaño muestral. Es posible que el sesgo de un estimador se haga cada vez mas pequeño en la medida que aumenta n. Por esta razón al analizar las propiedades deseables de un estimador se deben tener en cuenta las propiedades asintóticas o de “muestras grandes” del mismo: 1. Si la distribución asintótica de β ˆ se concentra en un valor k en la medida que n tiende a infinito, se dice que k es el límite en probabilidad de β ˆ (plim β ˆ =k). Si plim β ˆ =β se dice que el estimador es consistente. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 45 2. La varianza de la distribución asintotica de β ˆ se denomina varianza asintótica de β ˆ . Si β ˆ es consistente y su varianza asintótica es menor que la varianza asintótica de otros estimadores, se dice que β ˆ es asintóticamente eficiente. f(x) β 40 ) ˆ ( f β 100 ) ˆ ( f β 20 ) ˆ (β En el grafico vemos un ejemplo en que a medida que aumenta n (de 20 a100) la distribución se concentra respecto a β mientras la varianza del estimador va disminuyendo. En conclusión: cuando no se encuentra un estimador con buenas propiedades para muestras pequeñas es deseable elegir un estimador con buenas propiedades para muestras grandes. 2.2 SUPUESTOS CLÁSICOS DEL MODELO DE REGRESIÓN. Recordemos que para derivar las fórmulas de los estimadores MICO, no fue necesario realizar supuestos sobre la forma en que se extrajo la muestra o sobre la distribución de probabilidad de µ. Sin embargo para verificar las propiedades estadísticas que tienen estos estimadores si requeriremos ciertos supuestos. Los supuestos usuales que se requieren y que por tanto reciben el nombre de SUPUESTOS CLÁSICOS, son los siguientes: Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 46 1. La variable explicativa X está dada (es no estocástica o no aleatoria). Este supuesto implica que si se repitiera la selección de muestras se podría considerar que las variables independientes serían las mismas. Como se ve este supuesto es muy fuerte. Dado que X es no estocástica, la COV(X, µ)=0. 2. E(µ i /X i )=0 ∀ i µ i ⇒ es una perturbación aleatoria que puede tomar valores positivos o negativos, pero no existe razón para esperar que sea sistemáticamente positiva o negativa. Por el contrario, suponemos que los errores “a la larga” se compensan. Dado que la X es fija y teniendo en cuenta este supuesto: E(Y i /X i )= E(β 1 +β 2 X i +µ i )= β 1 +β 2 X i Con lo que este supuesto también implica que todo lo que no está incluido explícitamente en el modelo (“todo lo que ignoramos” sobre los determinantes de la variable Y), se supone que no afecta en forma sistemática el valor promedio de Y, porque se compensan los errores negativos y los positivos. 3. No autocorrelación ⇒ Cov( µ i , u j )=0 i≠j Se supone que los errores cometidos en dos momentos distintos en el tiempo no están correlacionados. Esto significa que en repetidas muestras no existe ninguna tendencia a que los errores asociados con una observación estén relacionada a los errores de otra. Si en un momento de tiempo o en un individuo de la muestra se genera un error positivo, esto no nos da ninguna información sobre si el próximo error será positivo o negativo. Este supuesto implica que los errores no tienen un patrón de comportamiento sistemático. [ ][ ] { } 0 ) , E( 1 supuesto el dado y ) ( E ) ( E E ) , ( COV j i j j i i j i · µ µ · µ − µ µ − µ · µ µ Cuando los términos de error correspondientes a períodos diferentes están correlacionados, diremos que existe autocorrelación. Más tarde en el curso estudiaremos MICO bajo autocorrelación. Ejemplo: Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 47 Cuando se trabaja con series de tiempo en economía es muy común que se presenten fenómenos que tienen inercia y si esta no es recogida por el modelo, se genera autocorrelación en el error. Por ejemplo, los efectos de la crisis de 1982 generalmente son difíciles de recoger en su totalidad por un modelo, por lo que se genera un error que estará correlacionado con el error cometido en el período siguiente. * * * * * * * * * * * * * * * * * * * * * * * * ** * * µ i -µ i -µ j µ j µ i -µ j µ j -µ i Correlación Positiva Correlación Negativa -µ j µ j -µ i µ i No existe Correlación Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 48 4. Homocedasticidad ⇒ V(µ i /X i )=σ 2 Se supone que las perturbaciones se distribuyen con igual dispersión (varianza) respecto a la media. 2 2 i 2 i i 2 i ) E( a e equivalent es 1 supuesto el dado y )) ( E ( E ) ( V σ · µ µ − µ · σ · µ Cuando este supuesto no se cumple, decimos que existe heterocedasticidad. X 1 X 2 X 3 ) ( f µ X Y E(Y/X i )=β 1 +β 2 X i Homocedasticidad. Y X 1 X 2 X 3 ) ( f µ X E(Y/X i )=β 1 +β 2 X i Heterocedasticidad Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 49 Ejemplo: supongamos que deseamos explicar el gasto en consumo de las familias en función de su ingreso. Si los datos se refieren a una muestra de corte transversal, el supuesto de homocedasticidad no tiene mucho sentido, ya que indica que independiente del nivel de ingreso, los gastos de cada familia se desvían del modelo con la misma dispersión. Lo lógico es pensar que a mayores niveles de ingreso, hay un mayor espacio para que las familias distribuyan su ingreso. 5. El modelo está bien especificado. Es decir que no hay errores en la especificación: • No hay omisión de variables ni variables en exceso • La forma funcional es la correcta • No hay supuestos estocásticos incorrectos. Esto evitará errores en la estimación de los parámetros. 6. Normalidad ⇒ µ i ∼N( 0 , σ 2 ) Los errores son normales, idéntica e independientemente distribuidos. Es decir que cada error es una extracción aleatoria independiente de una distribución normal con media cero y varianza σ 2 . X 1 X 2 X 3 µ 1 ∼N(0, σ 2 ) ) ( f µ X Y E(Y/X i )=β 1 +β 2 X i µ 2 ∼N(0, σ 2 ) 2.3 PROPIEDADES ESTADÍSTICAS DE LOS ESTIMADORES MICO Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 50 En base a algunos de los supuestos clásicos anteriores, veremos ahora que propiedades estadísticas tienen los estimadores MICO. ¿Son insesgados? ¿Son eficientes? ¿Tienen el menor ECM? 2.3.1 Linealidad ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ − · − · − · · β 2 i i i i 2 i i i i 2 i i i 2 i i i 2 x x Y Y x x Y x Y x x ) Y Y ( x x y x ˆ Dado que la ∑x i =0 ⇒ x Y x ˆ 2 i i i 2 ∑ ∑ · β (*) Si definimos x x k 2 i i i ∑ · como un tipo especial de ponderador que cumple las siguientes propiedades: a) no estocástico b) 0 k i · ∑ c) ∑ ∑ · 2 i 2 i x 1 k d) 1 X k x k i i i i · · ∑ ∑ Esto nos permite volver a (*) y expresar Y k ˆ i i 2 ∑ · β (**) Esta expresión muestra que 2 ˆ β es un estimador que puede expresarse como combinación lineal de la variable Y i (donde k i son las ponderaciones de esa combinación lineal). 2.3.2 Insesgamiento Sabemos que i i 2 1 i X Y µ + β + β · y por (**) sabemos que Y k ˆ i i 2 ∑ · β , entonces Tarea: Verificar estas cuatro propiedades Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 51 i i i i 2 i 1 2 i i i 2 i 1 i 2 i i 2 1 i 2 k X k k ˆ k X k k ˆ ) X ( k ˆ µ + β + β · β µ + β + β · β µ + β + β · β ∑ ∑ ∑ ∑ ∑ ∑ ∑ 0 1 por a) por d) ∑ µ + β · β i i 2 2 k ˆ (***) Esta expresión es muy útil porque expresa al estimador como la suma del verdadero parámetro β 2 más una suma ponderada de errores aleatorios que puede resultar positiva o negativa, pero cuyo valor esperado es 0. 2 ) 2 ˆ ( E si insesgado es 2 ˆ β · β β Tomando esperanza a (***) 0 ) ( E : 2 Supuesto ) ( E k ) ˆ ( E aleatorio no , fijo es k que dado ) k ( E ) ( E ) ˆ ( E ) k ( E ) ˆ ( E i i i 2 2 i i i 2 2 i i 2 2 · µ µ + β · β µ + β · β µ + β · β ∑ ∑ ∑ 2 2 ) ˆ ( E β · β El estimador es insesgado, esto es, aunque para una muestra en particular 2 ˆ β se puede alejar de β 2 en algo positivo o negativo ( ∑ µ · β − β i i 2 2 k ˆ ), si repetimos muchas veces el experimento, estaremos en promedio sobre el verdadero valor del parámetro. Recordar: que el estimador sea insesgado no nos garantiza que sea el "mejor" estimador. Tarea: Chequear para 1 ˆ β Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 52 2.3.3 Eficiencia 2.3.3.1 Cálculo de varianzas y covarianzas. Para verificar cuan concentrado o disperso (respecto al verdadero valor) se encuentra el estimador MICO necesitamos calcular las VARIANZAS: Recordar ( ) 2 i ) X ( E X E ) X var( − · • ( ) 2 2 2 2 2 2 2 2 2 2 )] ˆ [( E ) ˆ ( VAR luego, ) ˆ ( E pero , ) ˆ ( E ˆ E ) ˆ ( VAR β − β · β β · β β − β · β De (***) sabemos que k ˆ i i 2 2 µ + β · β ∑ k ˆ i i 2 2 µ · β − β ∑ , con lo que: ( ) [ ] ( )( ) [ ] [ ] … + µ µ + µ + + µ µ + µ µ + µ · β · µ + + µ + µ µ + + µ + µ · β · µ + + µ + µ · µ · β ∑ k k k . . . k k k k k E ) ˆ ( Var k . . . k k k . . . k k E ) ˆ ( Var k . . . k k E ) k ( E ) ˆ ( Var 1 1 2 2 2 2 2 2 3 1 3 1 2 1 2 1 2 1 2 1 2 n n 2 2 1 1 n n 2 2 1 1 2 2 n n 2 2 1 1 2 i i 2 nos quedan j i j ) 1 n ( n 1 i j j i i 2 i n 1 2 i 2 i 2 i k k 2 ) k k 2 ( términos 2 ) 1 n ( n k k terminos n µ µ → µ µ − → µ → µ → ∑ ∑ − 1 1 1 ] 1 ¸ µ µ + µ · β ∑ ∑ − n 1 2 ) 1 n ( n 1 j i j i 2 i 2 i 2 k k 2 k E ) ˆ ( Var Recordando ¹ ¹ ¹ ' ¹ · µ µ σ · µ 0 ) ( E ) ( E aleatorio no k j i 2 2 i i ) ( E k k 2 ) ( E k ) ( E k k 2 ) ( E k ) ˆ ( Var 2 ) 1 n ( n 1 j i j i n 1 2 i 2 i j i j 2 ) 1 n ( n 1 i 2 i n 1 2 i 2 ∑ ∑ ∑ ∑ − − µ µ + µ · µ µ + µ · β σ 2 ∀ i 0 Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 53 ∑ ∑ ∑ σ · , _ ¸ ¸ σ · σ · β 2 i 2 2 i 2 2 i 2 2 x x 1 k ) ˆ ( Var por c), ∑ ∑ · 2 i 2 i x 1 k Tarea: verificar que 1 1 ] 1 ¸ + σ · σ · β ∑ ∑ ∑ n 1 x X x n X ) ˆ ( Var 2 i 2 2 2 i 2 i 2 1 • COV( ) ˆ , ˆ 2 1 β β ( )( ) [ ] ) ˆ ( E ) ˆ ( E ) ˆ ( ) ˆ ( E ) ˆ ( E ˆ ) ˆ ( E ˆ E ) ˆ , ˆ ( COV 2 2 1 1 2 2 1 1 2 2 1 1 2 1 β · β β · β ↓ ↓ β − β β − β · β − β β − β · β β Pero, X ˆ Y ˆ 2 1 β − · β , con lo que 1 2 2 1 1 1 X ˆ X ˆ β − β − µ + β + β · β − β , y por tanto, · + − · − µ β β β β ) 2 ˆ 2 ( 1 ˆ 1 ˆ X µ β β β β + − − · − ) 2 2 ˆ ( 1 1 ˆ X Entonces, [ ][ ] { } [ ] [ ] ∑ ∑ ∑ ∑ ∑ + − · 1 ] 1 ¸ + + + + + + + − · 1 1 ] 1 ¸ + − − · − + − − − · − + − − · i i n n n i i i i k x X k k k N E x X k N E E X E X E X E COV 2 2 2 2 2 1 1 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 • ) . . . )( . . . ( 1 • ) )( ( ) ˆ ( ) ˆ ( ) ˆ ( ) ˆ ( ˆ ) ) ˆ ( ) ˆ , ˆ ( σ σ µ µ µ µ µ µ σ µ µ β β β β µ β β β β β β µ β β β β Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 54 ∑ σ − · β β 2 i 2 2 1 x • X ) ˆ , ˆ ( COV Características de la varianza • La varianza de 2 ˆ β es directamente proporcional a σ 2 (varianza de µ i ) e inversamente proporcional a ∑ 2 i x (varianza de variable X) • Dado σ 2 , cuanto mayor sea la variabilidad de la variable X, más centrado estará el estimador del verdadero valor. • Dada la varianza de X i , a mayor σ 2 (mayor variabilidad de los datos a explicar o mayor variabilidad del error aleatorio), mayor será la varianza del estimador. Y X variabilidad de Y no explicada por X variabilidad de X variabilidad común, en el sentido que se puede explicar una por otra. Cuanto mayor esta área, mayor la información empleada por el procedimiento de estimación para calcular la pendiente , entonces, menor su varianza. β 2 La amplitud de esta área es σ 2 Características de la covarianza • Implica que 2 1 ˆ y ˆ β β dependen entre sí 0 ) 2 ˆ , 1 ˆ ( cov 0 X 0 ) 2 ˆ , 1 ˆ ( cov 0 X si , X de depende signo > β β → < < β β → > Tanto las varianzas y como la covarianza de los estimadores quedan dependiendo de datos conocidos( ) ∑ ∑ … X , n , X , X 2 i i y de un parámetro desconocido σ 2 . • Cómo no conocemos σ 2 (es un parámetro poblacional), no conoceremos los valores de Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 55 las verdaderas varianzas. Estimaremos σ 2 y eso nos permitirá estimar las varianzas de 2 1 ˆ y ˆ β β . Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 56 2.3.3.2 Estimador de σ 2 (1) i i 2 1 i X Y µ + β + β · (divido entre n y sumo para todo i) n n X n Y i i 2 1 i ∑ ∑ ∑ µ + β + β · (2) µ + β + β · X Y 2 1 (1)-(2) µ − µ + − β + β − β · − → ˆ ) X X ( Y Y i i 2 1 1 i , expresado en desvíos: (3) ) ( x y i i 2 i µ − µ + β · Recordando que: (4) i x 2 ˆ i y i y ˆ i y i e β − · − · Sustituyendo (3) en (4) (5) i x 2 ˆ i i x 2 i e β − µ − µ + β · (6) µ − µ + − β − β · i ) i x )( 2 2 ˆ ( i e Se eleva (6) al cuadrado [ ] 2 2 i i ) i x )( 2 2 ˆ ( e µ − µ + − β − β · (7) ) ( ) ˆ ( x 2 ) ( ) ˆ ( ) x ( e i 2 2 i 2 i 2 2 2 2 i 2 i µ − µ β − β − µ − µ + β − β − · Sumando para todo i (8) ) i ( ) 2 2 ˆ ( i x 2 2 ) i ( 2 ) 2 2 ˆ ( 2 i x 2 i e ∑ µ − µ β − β − µ − µ Σ + β − β ∑ · Σ Aplicando esperanza a (8) (9) [ ] ) i ( ) 2 2 ˆ ( i x E 2 2 ) i ( E 2 ) 2 2 ˆ ( 2 i x E ) 2 i e ( E ∑ µ − µ β − β − 1 ] 1 ¸ µ − µ Σ + 1 ] 1 ¸ β − β ∑ · Σ (10) [ ] 4 4 4 4 4 3 4 4 4 4 4 2 1 4 4 3 4 4 2 1 4 4 4 3 4 4 4 2 1 C ) i ( i x ) 2 2 ˆ ( E 2 B 2 ) i ( E A 2 ) 2 2 ˆ ( E 2 i x ) 2 i e ( E ∑ µ − µ β − β − 1 ] 1 ¸ µ − µ Σ + β − β ∑ · Σ Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 57 (11) C B A ) 2 i e ( E + + · Σ Desarrollando A ( ) 2 2 i x 2 • 2 i x 2 2 – 2 ˆ E 2 i x A σ · ∑ σ ∑ · β β ∑ · Recordar que ∑ σ · β 2 1 2 2 x ) ˆ ( V Desarrollando B ∑ − σ · σ − σ · ∑σ − ∑σ ∑ · σ µ − σ · · , _ ¸ ¸ ∑µ − ∑ σ · , _ ¸ ¸ ∑µ − ∑ σ µ · , _ ¸ ¸ µ − , _ ¸ ¸ ∑ µ · , _ ¸ ¸ ∑ µ − µ · , _ ¸ ¸ ∑ µ − µ + µ · , _ ¸ ¸ ∑ µ µ − µ + µ · , _ ¸ ¸ ∑ ∑µ µ − µ − µ · , _ ¸ ¸ ∑ ∑ µ µ ∑ − µ + µ · , _ ¸ ¸ ∑ µ + µ µ − µ · , _ ¸ ¸ ∑ µ − µ · ) 1 n ( 2 2 n n 1 2 n 2 n 1 2 2 ) 2 i ( E • 2 n 1 n 2 2 n 2 i E n 2 2 n i E n 2 ) 2 i ( E 2 E n 2 i E 2 n 2 i E 2 n 2 2 n 2 i E n • 2 2 n 2 i E i 2 2 n 2 i E i 2 2 2 i E ) 2 i 2 2 i ( E 2 ) i ( E B 3 2 1 3 2 1 Desarrollando C ( ) ( ) { [ ] [ ] 2 2 1 i x i k 2 2 2 i x i k 2 0 ) 1 n n ( E 1 n x n k 2 ) 2 n ( E n x n k 2 ) 2 2 ( E 2 x 2 k 2 ) 2 1 ( E 1 x 1 k 2 ) n n x 2 2 x 1 1 x )( n n k 2 2 k 1 1 k ( E 2 i i x i i k E 2 0 i x i i x i i k E 2 ) i ( i x i i k 2 2 ˆ E 2 C σ − · ∑ ∑ σ − · σ − · 1 1 1 1 ] 1 ¸ − µ µ − … + σ µ + … + σ µ + σ µ − · µ … µ + µ µ … µ + µ − · ∑ ∑ µ µ − · · 1 1 1 ] 1 ¸ , _ ¸ ¸ ∑ µ − µ ∑ ∑ µ − · 1 1 1 1 ] 1 ¸ µ − µ ∑ ∑ µ β − β − · 3 2 1 4 43 4 42 1 3 2 1 3 2 1 3 2 1 43 42 1 Entonces ahora (11) Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 58 (12) ) 2 n ( ) 2 1 n 1 ( 2 ) 1 n ( C B A ) e ( E 2 2 2 2 2 2 i − σ · − − + σ · σ − σ − + σ · + + · ∑ (13) ) 2 n ( ) e ( E 2 2 i − σ · ∑ Definamos que el estimador de σ 2 es 2 n 2 i e 2 ˆ − ∑ · σ , el resultado (13) nos asegura que estamos definiendo un estimador insesgado de σ 2 . Esto porque σ 2 será insesgado si: 2 ) 2 n ( 2 • 2 n 1 ) 2 n ( 2 2 i e E 2 n 1 2 n 2 i e E ) 2 ˆ E( y 2 2 ˆ E σ · − σ − · − σ , _ ¸ ¸ ∑ − · , _ ¸ ¸ − ∑ · σ σ · , _ ¸ ¸ σ 43 42 1 El estimador insesgado de σ 2 será 2 n 2 i e 2 ˆ − ∑ · σ 2.3.3.3 Varianzas estimadas Sabemos que 2 n e ˆ y x ) ˆ ( V 2 i 2 2 i 2 2 − · σ σ · β ∑ ∑ , luego, ∑ ∑ ∑ ∑ ∑ − · − · σ · σ · β β 2 i 2 i 2 i 2 i 2 i 2 2 ˆ 2 x ) 2 n ( e x 2 n / e x ˆ ˆ ) ˆ ( V ˆ 2 o alternativamente ∑ σ · σ β 2 i 2 ˆ x ˆ ˆ y análogas para ˆ β 1 , 1 1 ] 1 ¸ + σ · σ · β ∑ ∑ ∑ n 1 x X x n X ) ˆ ( Var 2 i 2 2 2 i 2 i 2 1 Tarea: para el ejemplo 2.1.7, calcular las varianzas y covarianzas estimadas. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 59 1 1 ] 1 ¸ + σ · σ · σ · β ∑ ∑ ∑ β n 1 x X ˆ x n X ~ ˆ ) ˆ ( V ˆ 2 i 2 2 2 i 2 i 2 2 ˆ 1 1 2.3.3.4 Teorema De Gauss-Markov HIPÓTESIS: Si se cumplen los siguientes supuestos clásicos: 1. La variable explicativa X está dada (es no estocástica o no aleatoria). 2. E(µ i ) = 0 ∀i 3. y 4. ¹ ¹ ¹ ' ¹ ≠ · σ · , _ ¸ ¸ j i si 0 j i si 2 j u , i u E homocedasticidad y no autocorrelación 5. No hay errores de especificación TESI S: Los estimadores MI CO son de mínima varianza entre los estimadores lineales e insesgados ⇒ MI CO son los mejores estimadores lineales insesgados (MELI ). Demostración Sabemos que 2 ˆ β es lineal ( ∑ · β i Y i k 2 ˆ ) e insesgado ( ) ˆ ( E 2 2 β · β ). Además x ) ˆ ( V 2 i 2 2 ∑ σ · β • Supongamos que existe otro estimador * 2 β lineal de β 2 . Entonces para que será lineal * 2 β deberá ser igual a i Y i w * 2 ∑ · β donde w i es alguna ponderación. • Calculemos ) * 2 ( E β y veamos que condición debemos exigirle a w i para que * 2 β sea insesgado. i i 2 i 1 i 2 1 i i i 2 1 i i 2 X w w ) X ( w ) X ( E i w ) Y ( E w ) * ( E ∑ β + ∑ β · · β + β ∑ · µ + β + β ∑ · ∑ · β Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 60 El término entre paréntesis es cero, ya que para que exista insesgamiento se requiere que 1 w x · ∑ para que * 2 β sea insesgado se debe cumplir: ∑ ∑ ∑ · · · 1 x w X w 0 w i i i i i • Veamos las condiciones que tiene que cumplir w i para que la varianza sea mínima ∑ σ · σ ∑ · σ ∑ · ∑ · β 2 i w 2 2 • 2 i w 2 ) i Y ( Var 2 i w ) i Y i w ( Var * 2 Var 43 42 1 Sumando y restando ∑ 2 i x i x al término con sumatoria, = 2 2 i x i x 2 i x i x i w 2 2 2 i x i x 2 i x i x i w 2 ∑ 1 1 1 ] 1 ¸ ∑ + , _ ¸ ¸ ∑ − σ · ∑ , _ ¸ ¸ ∑ + ∑ − σ ∑ 1 1 1 1 ] 1 ¸ , _ ¸ ¸ ∑ , _ ¸ ¸ ∑ − + , _ ¸ ¸ ∑ + , _ ¸ ¸ ∑ − σ · 2 i x i x 2 i x i x i w 2 2 2 i x i x 2 2 i x i x i w 2 ∑ , _ ¸ ¸ ∑ − ∑ σ ∑ + ∑ , _ ¸ ¸ ∑ σ + , _ ¸ ¸ ∑ − σ · 2 ) 2 i x ( 2 i x 2 i x i x i w 2 2 2 2 i x i x 2 2 2 i x i x i w 2 , _ ¸ ¸ − σ ∑ + σ + , _ ¸ ¸ ∑ − σ · ∑ ∑ ∑ ∑ ∑ ∑ 2 i 2 i i i 2 i 2 i 2 2 i x x x w x 1 2 2 x ) x ( 1 2 2 2 i x i x i w 2 ∑ σ + ∑ , _ ¸ ¸ ∑ − σ · β 2 i x 2 2 2 i x i x i w 2 ) * 2 ( Var Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 61 quiero minimizar esto, pero el segundo sumando número un es 2 i x 2 ∑ σ , es una constante, Entonces, minimizar Var(β 2 * ) es equivalente a minimizar 2 ) 2 i x i x i w ( ∑ − ∑ y este cuadrado se minimiza cuando la base es igual a cero ⇒ se minimiza cuando ∑ ∑ · · − 2 i i i 2 i i i x x w cuando o 0 x x w La condición que minimiza la varianza es que ∑ · 2 i i i x x w , que es una condición igual a la de MICO, por lo que * 2 2 ˆ β · β Este teorema asegura que si existe otro estimador (β 2 * ) con similares propiedades al que tiene MICO (linealidad e insesgamiento), para que la varianza de β 2 * sea mínima, este estimador debe ser el estimador MICO. Como consecuencia, MICO es el mejor estimador entre los estimadores lineales e insesgados. Hasta este punto hemos demostrado que los estimadores MICO tienen propiedades importantes: • linealidad • insesgamiento • mínima varianza dentro de la familia de estimadores lineales e insesgados (eficientes entre los estimadores lineales e insesgados) De los seis supuestos clásicos solo hemos utilizado los cinco primeros, es decir, para determinar estas propiedades no hemos requerido ningún supuesto sobre la distribución de los errores. Tarea: verificar qué supuestos son necesarios para determinar cada una de las propiedades Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 62 2.4 INFERENCIA ESTADÍSTICA EN EL MODELO DE REGRESIÓN LINEAL SIMPLE Recordar: Para obtener estimadores de β 1 y β 2 que sean MELI no se requiere suponer ninguna distribución de probabilidades de µ . ⇓ Ahora, para tener intervalos de confianza para los parámetros y testear cualquier hipótesis requerimos el supuesto 6: ) , 0 ( N 2 i σ ≈ µ ∀i Nos interesa saber: • ¿Qué tan cerca están 2 1 ˆ y ˆ β β de los parámetros poblacionales? • ¿Qué tan cerca está i Y ˆ del verdadero E(Y/X i )? 2.4.1 Repaso Breve de algunos teoremas de Inferencia. TM1 Teorema Central de Límite: Si X es la media de una muestra aleatoria de tamaño n que se toma de una población con media µ y varianza finita σ 2 , entonces ∞ → σ µ − · n ) 1 , 0 ( N ~ n / X z de ite lím TM2 ) , ( ntes Independie e Normales ~ Z 2 i i i σ µ y Z 1 , Z 2 , ..., Z n son variables aleatorias Entonces, ∑ ∑ ∑ σ µ ≈ · ) k , k ( N Z k Z 2 2 i i i i i i TM3 Una covarianza nula entre dos variables aleatorias que se distribuyen normal, implica independencia estadística. f(x, y) = f(x) • f(y) Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 63 TM4. Formación de la distribución Chi-Cuadrado 2 n 2 n 2 2 2 1 2 i i n 1 ~ Z Z Z Z ntes independie ), 1 , 0 ( N ~ Z . A . sonV Z Z Si χ + … + + · ¹ ; ¹ … ∑ 0 2 α χ α α · χ > χ α ) ( P 2 2 la probabilidad de que cualquier valor de la chi-cuadrado sea mayor a 2 α χ es igual al área que se acumula arriba y a la derecha de 2 α χ Exactamente el 95% de una distribución chi-cuadrado caen entre 2 0.025 2 975 . 0 y χ χ . TM5 Si Z i son variables aleatorias independientes y 2 k i i ~ Z χ Entonces, ∑ ∑ χ 2 k i i ~ Z TM6 Si S 2 es la varianza de una muestra aleatoria de tamaño n tomada de una población normal que tiene la varianza σ 2 , entonces el estadístico 2 2 2 S ) 1 n ( σ − · χ tiene una distribución chi-cuadrado con n-1 grados de libertad. TM7 Formación de la distribución t- student. k 2 1 2 1 2 1 2 k 2 1 t ~ Z k Z k / Z Z t ntes independie son Z y Z ~ Z ) 1 , 0 ( N ~ Z · · ¹ ¹ ¹ ; ¹ χ Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 64 0 -t α /2 t α /2 α/2 P(-t α /2 < t < t α /2 ) = 1-α TM8 Si X es la media de una muestra aleatoria de tamaño n que se toma de una población normal con media µ y varianza finita y desconocida σ 2 , pero varianza estimada S 2 , entonces el estadístico 1 n t ~ n / S X t − µ − · , se distribuye t con n-1 grados de libertad. TM9 Formación de la distribución F de Fischer 2 1 2 1 k k 2 2 1 1 2 1 2 k 2 2 k 1 , F ~ k / Z k / Z F Z de nte independie es Z ~ Z ~ Z · ¹ ¹ ¹ ; ¹ χ χ 0 α α · > α ) F F ( P la probabilidad de que cualquier valor de la F sea mayor a F α es igual al área que se acumula arriba y a la derecha de F α F α TM 10 t k 2 · F 1 , k Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 65 2.4.2 ¿Qué Consecuencias tiene suponer µ i ~ N(0, σ 2 )? 1. µ i normal e incorrelacionados ⇒ son independientes. 2. i i 2 1 i X Y µ + β + β · Por lo que Y i es una combinación lineal de variables aleatorias que se distribuyen normal ⇒ Yi se distribuirá normal E(Y i )= E(β 1 +β 2 X i +µ i )= β 1 +β 2 X i V(Y i ) = V (β 1 +β 2 X i +µ i )=V(µ i )=σ 2 Por lo que ) , X ( N ~ Y 2 i 2 1 i σ β + β 3. Recordemos que i i 2 2 k ˆ µ + β · β ∑ 2 ˆ β también es C.L. de VA normales ⇒ 2 ˆ β es una variable aleatoria que se distribuye normal ∑ µ β σ · σ · β β · β 2 i 2 2 ˆ 2 2 2 x ) ˆ ( V ) ˆ ( E 2 ˆ β 2 ~ N (β 2 , σ ˆ β 2 2 ) 4. Estandarizando, ) 1 , 0 ( N ~ ˆ Z 2 ˆ 2 2 2 β σ β − β · ) 1 , 0 ( N ~ ˆ Z 1 ˆ 1 1 1 β σ β − β · Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 66 β 2 ) , ( N ˆ 2 ˆ 2 2 2 β σ β ≈ β 0 0 Z 2 = 2 ˆ 2 2 2 ˆ β σ β − β ~ N(0,1) 5. Recordando el teorema 6, podríamos probar que: (1) 2 2 n ~ 2 2 ˆ ) 2 n ( − χ σ σ − 6. Sabemos que ∑ ∑ µ µ β β σ · σ · σ σ β − β 2 i 2 i 2 ˆ ˆ 2 2 x x con ) 1 , 0 ( N ~ ˆ 2 2 Entonces, ) 1 , 0 ( N ~ x ) ˆ ( x ˆ 2 i 2 2 2 i 2 2 µ µ σ β − β · σ β − β ∑ ∑ (2) Podríamos probar que (1) y (2) son independientes. Entonces: t ~ 2 n ˆ ) 2 n ( x ) ˆ ( t 2 n 2 2 2 i 2 2 − µ µ µ − σ σ − σ β − β · ∑ (3) Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 67 Expresando (3) de otra forma y simplificando: ˆ x ) ˆ ( ˆ x ) ˆ ( ) 2 n ( 1 ) 2 n ( ˆ x ) ˆ ( t 2 i 2 2 2 2 2 i 2 2 2 2 2 i 2 2 µ µ µ µ µ µ µ µ µ σ σ σ β − β · σ σ σ β − β · − ⋅ σ − σ σ β − β · ∑ ∑ ∑ = 2 2 ˆ 2 2 ˆ 2 i 2 2 2 i 2 2 ˆ ) ˆ ( ˆ x ˆ ) ˆ ( ˆ x ) ˆ ( β β µ µ σ β − β · σ ¹ ¹ ¹ ; ¹ σ β − β · σ β − β ∑ ∑ Es decir que: 2 n ˆ 2 2 t ˆ ) ˆ ( 2 − β ≈ σ β − β y por similar procedimiento, 2 n ˆ 1 1 t ˆ ) ˆ ( 1 − β ≈ σ β − β Esto nos permitirá obtener intervalos de confianza y realizar test de hipótesis sobre β 1 y β 2 . 2.4.3 Intervalos de Confianza para β 1 y β 2 . Estamos buscando , α − · δ + β ≤ β ≤ δ − β 1 ) ˆ ˆ ( P 2 2 2 , es decir que la probabilidad de que β 2 esté entre dos valores sea 1-α. Notación: (1-α) % nivel de confianza α nivel de significancia El intervalo será aleatorio (depende de la muestra), pero después que se utilizó una muestra, el intervalo queda fijo y por tanto la probabilidad de que el verdadero valor esté en el intervalo es cero o uno (“está o no está”) Dado que 2 n ˆ 2 2 t ~ ˆ ˆ 2 − β σ β − β , entonces exactamente el 1-α de esta distribución t con n-2 grados de libertad, estará entre los valores -t α/2 y t α/2 . α − · ≤ ≤ − α − α 1 ) t t t ( P 2 / 2 n 2 / α − · ≤ σ β − β ≤ − α β α 1 ) t ˆ ˆ t ( P 2 / ˆ 2 2 2 / 2 Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 68 α − · σ ≤ β − β ≤ σ − β α β α 1 ) ˆ • t ˆ ˆ • t ( P 2 2 ˆ 2 / 2 2 ˆ 2 / α − · σ + β − ≤ β − ≤ σ − β − β α β α 1 ) ˆ • t ˆ ˆ • t ˆ ( P 2 2 ˆ 2 / 2 2 ˆ 2 / 2 Por lo que finalmente: α − · σ + β ≤ β ≤ σ − β β α β α 1 ) ˆ • t ˆ ˆ • t ˆ ( P 2 2 ˆ 2 / 2 2 ˆ 2 / 2 Esto implica que el intervalo de confianza para β 2 es: 2 ˆ 2 / 2 2 ˆ t ˆ IC β α σ t β · β Y en forma similar: 1 ˆ 2 / 1 1 ˆ t ˆ IC β α σ t β · β 2.4.4 Prueba de hipótesis Nos interesa verificar si las observaciones muestrales son compatibles con determinada hipótesis. Por ejemplo: b ) H b ) H 2 1 2 0 ≠ β · β Para eso desarrollamos un procedimiento que nos permita decidir si se rechaza o no esa hipótesis en base a la información muestral. Hay dos enfoques de la prueba de hipótesis: Enfoque del intervalo de confianza. Supongamos que construimos un intervalo de confianza para β 2 . Luego es posible discutir si el valor b que me estoy planteando como hipótesis nula cae o no dentro del intervalo. Es decir buscamos un intervalo 2 ˆ 2 / 2 2 ˆ t ˆ IC β α σ t β · β y luego • Si b ∈ IC ⇒ No rech H 0 • Si b ∉ IC ⇒ Rech Ho. Rech H0 No rech H0 Rech H0 2 ˆ 2 / 2 2 ˆ t ˆ β α σ − β · β 2 ˆ 2 / 2 2 ˆ t ˆ β α σ + β · β Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 69 Enfoque de pruebas de significación. El procedimiento se basa en utilizar un estimador y su distribución, considerando que ésta se cumple bajo la hipótesis nula. Sabemos que 2 n ˆ 2 2 t ~ ˆ ˆ 2 − β σ β − β , entonces bajo la hipótesis nula 2 n ˆ 2 t ~ ˆ b ˆ 2 − β σ − β α − · ≤ σ − β ≤ − α β α 1 ) t ˆ b ˆ t ( P 2 / ˆ 2 2 / 2 α − · σ ≤ − β ≤ σ − β α β α 1 ) ˆ • t b ˆ ˆ • t ( P 2 2 ˆ 2 / 2 ˆ 2 / α − · σ + − ≤ β − ≤ σ − − β α β α 1 ) ˆ • t b ˆ ˆ • t b ( P 2 2 ˆ 2 / 2 ˆ 2 / Por lo que finalmente: α − · σ + ≤ β ≤ σ − β α β α 1 ) ˆ • t b ˆ ˆ • t b ( P 2 2 ˆ 2 / 2 ˆ 2 / Esto determina la región de aceptación y rechazo de la hipótesis: 2 ˆ 2 / ˆ t b : aceptación egión r β α σ t 0 -t c t c α/2 Bajo Ho, 2 ˆ 2 ˆ b ˆ β σ − β ~ t n-2 Acepto la hipótesis nula (Ho) No rech H 0 Rech Ho⇒ > β 2 ˆ b + 2 ˆ ˆ β σ t α /2 Rech Ho⇒ < β 2 ˆ b - 2 ˆ ˆ β σ t α /2 Entonces rechazamos H 0 si • t >t c • t < t c Rech H 0 si | t | > t c Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 70 Como 2 ˆ 2 ˆ b ˆ t β σ − β · , entonces Rech H 0 si c ˆ 2 t ˆ b ˆ 2 > σ − β β 2.4.5 Recordando de inferencia: 1. Diferencia entre test a una o dos colas, viene dada por la hipótesis alternativa. Una cola t c α b : H b : H 2 2 1 2 2 0 > β · β Rech H 0 si t > t c Dos colas t c α/2 b : H b : H 2 2 1 2 2 0 ≠ β · β Rech H 0 si |t| > t c α/2 - t c Si 2 ˆ β cae en alguna de las colas de la distribución (Rech H 0 ), puede ser por dos razones a. La hipótesis nula es cierta, pero se ha elegido una muestra equivocada. b. La hipótesis nula es efectivamente falsa. H 0 cierto H 0 falso Rech H 0 Error I Ok No Rech H 0 Ok Error II Al hacer test de hipótesis, estoy fijando en α, la probabilidad de cometer error I. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 71 β 2 bajo H 0 β 2 bajo H 1 α = P(Error Tipo I) = P(Rech H 0 /H 0 es cierto) Al minimizar la probabilidad de error I , se aumenta la probabilidad de cometer error II. β = P(Error Tipo II) = P(No Rech H 0 /H 0 es falso) 3. La hipótesis nula más común utilizada: 0 : H 0 : H 2 1 2 0 ≠ β · β , luego, bajo la hipótesis nula 2 n ˆ 2 t ~ ˆ ˆ t 2 − β σ β · Objetivo: Evaluar si β 2 es significativamente distinto de cero. Si lo es se dice que la variable X es significativa o relevante. 2.4.6 Ejemplos de Test De Hipótesis Ejemplo 1 El caso más común es probar Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 72 H 0 : β 2 = 0 H 1 : β 2 ≠ 0 Para el ejemplo 2.1.7, teníamos que i X 75 . 0 6 . 3 Y ˆ + · y los desvíos estándar de los coeficientes eran: 256 . 0 ˆ 09 . 2 ˆ 2 1 ˆ ˆ · σ · σ β β Nos interesa saber si la variable X es estadísticamente significativa, esto es probar la hipótesis nula de que β 2 = 0 Esto se puede hacer de dos maneras: Por medio de un intervalo de confianza. t α/2, 8 = t 0,025 = 2,306 IC β 2 0,75 – (2,306)(0,256) ≤ β 2 ≤ 0,75 + (2,306)( 0,256) 0.16≤ β 2 ≤ 1.34 IC 95% Como el cero no pertenece al intervalo, rechazo la hipótesis nula a un 95% de nivel de confianza. Esto significa que de cada 100 intervalos que se realicen, 95 contendrán el verdadero valor de β 2 . Pero luego de calculado uno (0,16; 1,34), la probabilidad de que β 2 esté contenido en él es 1 o 0. (o está o no está). ¿Cómo podemos producir intervalos menores? • aumentar el nivel de confianza (reduciendo α). • ampliar el tamaño de la muestra buscando reducir la varianza. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 73 Por medio de una prueba de significación. 0 -2.306 2.306 0.025 Rech Ho si |t |>2.306 0 ˆ 2 H . rech 3 , 2 93 , 2 256 , 0 75 , 0 ˆ 0 ˆ t 2 ⇒ > · · σ − β · β 2.93 Rech β 2 =0 ⇒ β 2 es significativamente distinto de cero, X es significativo o relevante para explicar Y. Regla 2t Cuando n = 20, P(t > 2,085) = 0,025 ⇒ si i ˆ i ˆ ˆ t β σ β · ≥ 2,0 estamos seguros que rechazamos H 0 y el coeficiente β i es significativamente distinto de cero. Salida de E-Views para este ejemplo: Nos interesa ver solo la parte de la salida que hemos estudiado hasta ahora. LS // Dependent Variable is Y Date: 08/25/98 Time: 09:51 Sample: 1 10 Included observations: 10 Variable Coefficient Std. Error t-Statistic Prob. C 3.600000 2.090177 1.722342 0.1233 X 0.750000 0.255738 2.932692 0.0189 R-squared 0.518092 Mean dependent var 9.600000 Adjusted R-squared 0.457854 S.D. dependent var 1.837873 S.E. of regression 1.353237 Akaike info criterion 0.781855 Sum squared resid 14.65000 Schwarz criterion 0.842372 Log likelihood -16.09866 F-statistic 8.600683 Durbin-Watson stat 2.346416 Prob(F-statistic) 0.018920 Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 74 La salida tiene tres partes: i) La primera indica la variable dependiente (Y), el período muestra utilizado (sample) y su tamaño (número de observaciones). ii) La segunda parte plantea las estimaciones de los coeficientes y sus varianzas. Se muestran cinco columnas: Variable: variables explicativas (siempre se identifica el intercepto con la letra C) Coefficient: muestra los coeficientes estimados. Std. Error: indica las estimaciones de los desvíos estándar de los coeficientes ( i ˆ ˆ β σ ). t-Statistic: presenta el valor del estadístico t ( i i t β σ β ˆ ˆ ˆ · ) para la hipótesis nula β i =0. Para el ejemplo, vemos que el estadístico t del intercepto es menor que dos, por lo que podríamos decir que la constante no es significativa. Prob: el p-value, o sea, el nivel de significancia (α) máximo ex post que requerimos para no rechazar la hipótesis nula. En este ejemplo, si trabajamos con α=1.8%, no rechazamos la hipótesis de que β 2 =0. iii) La tercera parte de la salida presenta indicadores de ajuste y otros estadísticos veremos más adelante en este curso. Los que conocemos hasta ahora son: R-squared: es el R 2 de la regresión e indica que la regresión logra explicar el 51% de la variación total de Y. S.E. of regression: desvíación estándar de la regresión= 2 n e ˆ 2 i − · σ ∑ Sum squared resid: suma al cuadrado de los residuos: ∑ 2 i e Mean dependent var: Y S.D. dependent var: desvíación estándar de la variable dependiente: 1 n ) Y Y ( 2 i − − ∑ Ejemplo 2: Relación Error I y Error II • Rech H 0 /H 0 ⇒ Error de tipo I , P(Error I)=α • no rech H 0 /H 1 ⇒ Error de tipo II Ejemplo: Considere el siguiente modelo: Y i = β 1 + β 2 X i + µ i Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 75 donde a priori se sabe que la varianza verdadera de µ i es 40 (σ 2 = 40). Dado una muestra de 10 observaciones, se sabe que X i ∑ · 20 y X i 2 ∑ · 50. Usted está interesado en probar la hipótesis nula de que β 2 = 1, versus la hipótesis alternativa de que β 2 > 1, con un nivel de significación de 5%. Si el verdadero valor de β 2 es 4, ¿cuál es la probabilidad de que usted rechace correctamente la hipótesis nula? Sabemos que i i 2 1 i X Y µ + β + β · H 0 )β 2 = 1 H 1 )β 2 > 1 Se pide calcular la Probabilidad de rechazar H 0 correctamente. Esto es, la probabilidad de que rechacemos que β 2 =1, dado que en realidad es 4. Debemos calcular Prob (rech H 0 / β 2 =4) Bajo H 0 , 1 ˆ 2 ˆ 2 β σ − β ~ N(0,1), porque se conoce la verdadera varianza de µ i Bajo H 0 , β2~ N(1, ) 2 ˆ β σ Bajo H 1 , β2~ N(4, ) 2 ˆ β σ c ˆ β No rech Ho Rech Ho 1 4 El área achurada es la que se nos pide calcular, es la P(rech H 0 , dado H 1 ) y es igual a 1-P(no Rech H 0 , dado H 1 )=1-β Lo primero que debemos calcular es el área de rechazo. Sabemos que rechazamos H 0 si c ˆ ˆ β > β , Rech. H 0 si 645 , 1 1 ˆ 2 ˆ 2 > σ − β β Dada la información que conocemos: Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 76 2 4 4 10 40 ) 2 ( 10 50 40 X n X 1 ) X X ( 1 x 1 • 50 X 20 X 10 n 40 ˆ 2 2 2 1 2 2 i 2 2 1 2 2 ˆ 2 i i 2 2 · · σ ⇒ · · − · − σ · − σ · σ · σ ¹ ¹ ¹ ¹ ¹ ; ¹ · · · · σ β µ µ µ β µ ∑ ∑ ∑ ∑ ∑ 2 Rech. H 0 si 645 , 1 2 1 ˆ 2 > − β Rech Ho si 29 . 4 1 2 * 645 , 1 ˆ 2 · + > β Rech Ho si 29 . 4 ˆ 2 > β Luego, , _ ¸ ¸ − > − β · · β > β · · β 2 4 29 , 4 2 4 ˆ P ) 4 / 29 , 4 ˆ ( ob Pr ) 4 2 / chH (Re ob Pr 2 2 2 0 = P(Z > 0,145) = 0,4443 4443 , 0 ) 4 2 / 0 chH (Re ob Pr · · β 2.5 ANALISIS DE VARIANZA ANOVA ⇒ Es un test de significancia global del modelo en su conjunto. ⇒ Intenta medir el ajuste de la recta de regresión con el conjunto de datos proveniente de la muestra. La hipótesis a probar es 3 : H 0 : β 2 = 0 H 1 : β 2 ≠ 0 Trataremos de encontrar un nuevo estadístico que nos permita verificar esta hipótesis. 3 En el caso de la regresión simple, tanto la hipótesis a probar como el estadístico que utilizaremos son coincidentes con un test de significancia. Esto debido a que solo existe una variable explicativa. Este resultado no será igual en un modelo general. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 77 Sabemos que: ) 1 , 0 ( N ~ ˆ 2 ˆ 2 2 β σ β − β (1) Si elevamos (1) al cuadrado, tenemos que (2) se distribuye chi-cuadrado con un grado de libertad. ( ) 2 1 2 ˆ 2 2 2 ~ ˆ 2 χ σ β − β β (2) Transformando (2): ( ) 2 1 2 2 i 2 2 2 i 2 2 2 ~ x ˆ x 1 ˆ χ σ β − β · σ β − β µ µ ∑ ∑ (3) Por otro lado sabemos que: 2 2 n 2 2 i 2 2 n 2 2 ~ e ~ ) 2 n ( ˆ − − χ σ ⇒ χ σ − σ ∑ (4) Se puede demostrar que (3) y (4) son independientes y pueden formar una nueva expresión que se distribuye F. ( ) 2 n , 1 2 u 2 1 2 2 i 2 2 2 F ~ 2 n e 1 x ˆ F − µ − σ σ β − β · ∑ ∑ (5) Simplificando (5) ( ) 2 n , 1 2 1 2 i 2 2 2 F ~ 2 n e x ˆ F − − β − β · ∑ ∑ (6) Bajo H 0 : Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 78 2 n , 1 2 1 2 i 2 2 F ~ 2 n e x ˆ F − − β · ∑ ∑ (7) Analizando esta expresión, vemos que el numerador coincide con la suma de cuadrados explicados (SCE), y el denominador es la SCR dividida por sus grados de libertad. 2 n , 1 F ~ 2 n / SCR SCE F − − · (8) 0 α Rechazo H 0 , si el valor calculado del estadístico 2 n / SCR SCE F − · es mayor que α −2 n , 1 F F α Este test indica que el modelo es significativo en su conjunto, si el "efecto explicado por el modelo" es suficientemente grande respecto al "ruido", a lo residual. Si 0 H . ch Re ) 2 n , 1 ( F 2 n / SCR SCE F ⇒ − > − · α Rechazo que β 2 = 0, si obtengo un valor del "aporte de X" respecto al residuo que sea considerable. ¿Cuán considerable? El límite nos lo da el valor de tabla. Grados de Libertad Asociado a cada suma de cuadrados hay grados de libertad; (valores que pueden elegirse arbitrariamente). Suma de cuadrados Totales (SCT): tiene n-1 grados de libertad. Esto surge como consecuencia de la pérdida de un grado de libertad, necesario para calcular Y. Suma de cuadrados residuales (SCR): tiene n-2 grados de libertad. Se pierden dos grados de libertad que son necesarios para asegurar que se cumplan las ecuaciones normales. Estas Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 79 condiciones son: 2 - n 0 X e 0 e i i i ¹ ; ¹ · · ∑ ∑ Suma de cuadrados explicados (SCE): g.l 1 tiene SCE calculo ˆ dado 2 ⇒ β Antes veíamos que al realizar una regresión, esto nos permitía dividir la variación total en dos partes, la parte explicada por la regresión y la parte residual. Es decir que existen distintas fuentes en que se descompone la variación total. Esto se puede resumir en esta tabla a la que generalmente se conoce como TABLA ANOVA. FUENTES DE VARIACION: Suma de Cuadrados Grados de Libertad Suma Promedio de Cuadrados Regresión ∑ β · 2 i 2 2 x ˆ SCE 1 SCE/1 Residuo ∑ · 2 i e SCR n-2 SCR/n-2 Total SCT · y 1 2 ∑ n-1 Existe una forma alternativa de expresar (8) que también permite realizar el test: 2 n , 1 2 2 2 F ~ R 1 R ) 2 n ( ) 2 n ( SCT SCE SCT R SCT 2 n SCE SCT SCT / SCE 2 n SCE SCT SCE 2 n / SCR SCE F − − − · − − · − − · − − · − · Verifiquemos ahora que este test, para el caso del modelo de regresión simple, es equivalente a un test de significancia de β 2 . Sabemos que 2 n , 2 / t ˆ 2 i x 2 ˆ 2 i x / ˆ 2 ˆ si 0 H ch Re − α > µ σ ∑ β · ∑ µ σ β Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 80 Elevamos esta expresión al cuadrado, 2 n , 1 F 2 n / 2 i e 2 i x 2 2 ˆ 2 ˆ 2 i x 2 2 ˆ si 0 H ch Re − > ∑ − ∑ β · µ σ ∑ β Esta expresión es la misma de (7). Debemos recordar que el cualquier valor de la tabla t para k grados de libertad, elevado al cuadrado es igual al valor de la tabla F en 1, k grados de libertad. En particular 2 n , 1 2 2 n F t − − · . Este resultado no se verifica en regresiones con mayor número de variables explicativas. 2.6 PRUEBA DE NORMALIDAD Las pruebas de hipótesis e intervalos de confianza estudiados, tienen como punto de partida el supuesto de normalidad del residuo, si µ no es normal, estas pruebas no son validas. Existen test que permiten verificar si los residuo calculados para una muestra en particular (e i ) provienen de una distribucion normal. Uno de ellos es el test de Jarque-Bera Esta es una prueba asintótica que se basa en el tercer y cuarto momento de la distribución (asimetría y curtosis respectivamente). coeficiente de simetría: S= ( ) 3 3 i n X X σ − ∑ coeficiente de curtosis: C= ( ) 4 4 i n X X σ − ∑ Para una ditribución normal el coeficiente de asimetria es cero y el coeficiente de curtosis es 3. Bajo la hipótesis nula de que los residuos estan normalmente distribuidos, Jarque y Bera demostraron que asintóticamente el estadistico 1 ] 1 ¸ − + · 24 ) 3 C ( 6 S n JB 2 2 sigue una distribución chi-cuadrado con dos grados de libertad. Si el valor JB es grande comparado con el valor de una distribución chi-cuadrado con dos grados de libertad, rechazo la hipótesis nula, rechazo normalidad. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 81 3 3. . M MO OD DE EL LO O D DE E R RE EG GR RE ES SI IÓ ÓN N M MU UL LT TI IP PL LE E 3.1 DEFINICIONES En algunas aplicaciones científicas (medicina, agronomía) los modelos de regresión generalmente utilizados tienen una única variable explicativa (modelo simple). En economía, sin embargo, es difícil tener un fenómeno explicado por una sola variable explicativa. Generalmente, Y = f(X 1 , X 2 , ...., X k , µ i ) ⇒ a este tipo de modelo lo llamamos modelo múltiple. Ejemplo: Vtas Empresa = f (PIB, tasa de interés real, Gastos Publicidad) • Modelo de regresión poblacional múltiple (1) Y i = β 1 + β 2 X i2 + β 3 X i3 + ......................+ β k X ik + µ i para i =1,2, ....n y donde X ik representa la observación i de la variable k. (1) es equivalente a: (2) ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ' ¹ µ + β + + β + β + β · µ + β + + β + β + β · µ + β + + β + β + β · n nk k 3 n 3 2 n 2 1 n 2 k 2 k 23 3 22 2 1 2 1 k 1 k 13 3 12 2 1 1 X . . . X X Y • • • • X . . . X X Y X . . . X X Y (2) es la forma abreviada de n ecuaciones con k incógnitas y por tanto se puede escribir: Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 82 (3) 1 1 1 1 1 ] 1 ¸ µ µ µ + 1 1 1 1 1 ] 1 ¸ β β β 1 1 1 1 1 1 ] 1 ¸ · 1 1 1 1 1 ] 1 ¸ n 2 1 k 2 1 nk 3 n 2 n k 2 23 22 k 1 13 12 n 2 1 . . . . X . X X 1 . . . . . . . . . . X . X X 1 X . X X 1 Y . . Y Y Definiendo las siguientes matrices: 1 1 1 1 1 ] 1 ¸ · × n 2 1 1 n Y . . Y Y Y 1 1 1 1 1 1 ] 1 ¸ · × nk 3 n 2 n k 2 23 22 k 1 13 12 k n X . X X 1 . . . . . . . . . . X . X X 1 X . X X 1 X 1 1 1 1 1 ] 1 ¸ β β β · β × k 2 1 1 k . . 1 1 1 1 1 ] 1 ¸ µ µ µ · µ × n 2 1 1 n . . Podemos expresar (3) de la siguiente forma: (4) 1 n 1 k k n 1 n X Y × × × × µ + β · • Modelo de regresión muestral múltiple (5) ik k 3 i 3 2 i 2 1 i X ˆ . . . X ˆ X ˆ ˆ Y ˆ β + + β + β + β · para i=1,2,.....n Nuevamente tenemos un sistema de n ecuaciones, que puede transformarse en: Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 83 (6) ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ' ¹ β + + β + β + β · β + + β + β + β · β + + β + β + β · nk k 3 n 3 2 n 2 1 n k 2 k 23 3 22 2 1 2 k 1 k 13 3 12 2 1 1 X ˆ . . . X ˆ X ˆ ˆ Y ˆ • • • • X ˆ . . . X ˆ X ˆ ˆ Y ˆ X ˆ . . . X ˆ X ˆ ˆ Y ˆ Utilizando las definiciones matriciales anteriores y agregando: 1 1 1 1 1 1 ] 1 ¸ · × n 2 1 1 n Y ˆ . . Y ˆ Y ˆ Y ˆ 1 1 1 1 1 1 ] 1 ¸ β β β · β × k 2 1 1 k ˆ . . ˆ ˆ ˆ (6) se puede transformar en: (7) 1 k k n 1 n ˆ X Y ˆ × × × β · Además tenemos que: (8) i ik k 3 i 3 2 i 2 1 i e X ˆ . . . X ˆ X ˆ ˆ Y + β + + β + β + β · Con lo que definiendo 1 1 1 1 1 1 ] 1 ¸ · × n 2 1 1 n e . . e e e , lo podemos transformar en forma matricial como (9) 1 n 1 k k n 1 n e ˆ X Y × × × × + β · • De la diferencia entre (9) y (7), sale la definición del error: Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 84 (10) β − · − · 1 1 1 1 1 1 ] 1 ¸ · × ˆ X Y Y ˆ Y e . . e e e n 2 1 1 n Entonces: Y ˆ X Y ˆ X e Y ˆ ) ˆ ( X ˆ X u X e ˆ X Y e ˆ X Y ˆ X Y · β − + β · + ⇓ µ + β − β · β − + β · ¹ ¹ ¹ ¹ ¹ ; ¹ β − · β · µ + β · 3.2 ESTIMADORES MICO Al igual que antes se trata de minimizar ∑ 2 i e 3.2.1 Primera forma de derivación. 2 ik k 3 i 3 2 i 2 1 i 2 i ) X ˆ X ˆ X ˆ ˆ Y ( min e min Q min β … … − β − β − β − · · ∑ ∑ Ahora tenemos k ecuaciones normales (11) 0 ) X )( X ˆ X ˆ X ˆ ˆ Y ( 2 ˆ Q ) k ( • • • 0 ) X )( X ˆ X ˆ X ˆ ˆ Y ( 2 ˆ Q ) 2 ( 0 ) 1 )( X ˆ X ˆ X ˆ ˆ Y ( 2 ˆ Q ) 1 ( ik ik k 3 i k 2 i 2 1 i k 2 i ik k 3 i 3 2 i 2 1 i 2 ik k 3 i 3 2 i 2 1 i 1 ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ' ¹ · − β − … − β − β − β − · β ∂ ∂ · − β − … − β − β − β − · β ∂ ∂ · − β − … − β − β − β − · β ∂ ∂ ∑ ∑ ∑ Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 85 Trabajando: (12) X ˆ X X ˆ X ˆ X Y ) k ( • • • X X ˆ X ˆ X ˆ X Y ) 2 ( X ˆ X ˆ ˆ N Y ) 1 ( 2 ik k ik 2 i 2 ik 1 ik i 2 i ik k 2 2 i 2 2 i 1 2 i i ik k 2 i 2 1 i ¹ ¹ ¹ ¹ ¹ ¹ ¹ ' ¹ β + … + β + β · β + … + β + β · β + … β + β · ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ Matricialmente podemos expresar esto de la siguiente manera (Demostrarlo): (13) 1 1 1 1 1 1 ] 1 ¸ β β β 1 1 1 1 1 1 ] 1 ¸ · 1 1 1 1 1 1 ] 1 ¸ 1 1 1 1 1 1 ] 1 ¸ . ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ k 2 1 2 ik ik 2 i ik ik 2 i 2 2 i 2 i ik 2 i n 2 1 k 2 k 1 2 n 22 12 ˆ . . ˆ ˆ X . . X X X . . . . . . . . . . X X . . X X X . . X n Y . . Y Y X . . X X . . . . . . . . . X . . X X 1 . . 1 1 nk Y dadas las definiciones anteriores, 1 1 1 1 1 1 ] 1 ¸ · × nk 3 n 2 n k 2 23 22 k 1 13 12 k n X . X X 1 . . . . . . . . . . X . X X 1 X . X X 1 X 1 1 1 1 1 1 ] 1 ¸ . · × nk X . . X X . . . . . . . . . X . . X X 1 . . 1 1 X k 2 k 1 2 n 22 12 ' n k 1 1 1 1 1 1 ] 1 ¸ · ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ 2 ik ik 2 i ik ik 2 i 2 2 i 2 i ik 2 i X . . X X X . . . . . . . . . . X X . . X X X . . X n X ' X Entonces (13) puede expresarse: (14) β · ˆ X ' X Y ' X Esta expresión representa el conjunto de ecuaciones normales. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 86 la matriz X’X tiene las siguientes características: - simetría - de dimensión k x k (cuadrada) - en la diagonal principal aparecen la suma de cuadrados de cada variable y en el resto las sumas de productos cruzados. Si (X’X) -1 existe puedo postmultiplicar (14) por (X’X) -1 (15) β · − − ˆ X ' X ) X ' X ( Y ' X ) X ' X ( 1 1 , con lo que: (16) β · − ˆ I Y ' X ) X ' X ( 1 (17) Y ' X ) X ' X ( ˆ 1 − · β Esta es la fórmula matricial que estabamos buscando y que resume los k estimadores MICO. Pero, ¿necesitamos algún supuesto para obtener los β ˆ ? Sí, necesitamos que X’X sea invertible ¿Cuándo una matriz es invertible? - Si es cuadrada - Si no se pueden expresar las filas o las columnas como combinación lineal entre sí ⇔ la matriz es de rango completo ⇔ el determinante de la matriz es distinto de cero. Esto implica que para poder calcular β ˆ , las variables explicativas que son las que forman X’X, tendrán que cumplir con determinadas condiciones que aseguren que la matriz sea invertible. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 87 3.2.2 Otra forma de encontrar β ˆ Queremos minimizar ∑ 2 i e y esto es equivalente a minimizar e’e, porque ∑ · · , _ ¸ ¸ … 2 i n 2 1 n 1 e e ' e e . e e ) e e ( Como : e = Y - X β ˆ e’e = (Y - X β ˆ )’ (Y - Xβ ˆ ) ⇒ Debemos minimizar e’e Algunas propiedades de operaciones con matrices: - (A + B)’ = A’ + B’ - (A B)’ = B’A’ - (A’)’ = A - (A -1 )’ = (A’) -1 - z’Az es una forma cuadrática⇒ Az 2 z Az ' z · ∂ ∂ ) ˆ X Y ( )' ˆ X Y ( min e ' e min e min ˆ 2 i β − β − · · β ∑ β β + β − β − · β − β − · β − β − β ˆ X ' X ' ˆ Y ' X ' ˆ ˆ X ' Y Y ' Y ) ˆ X Y )( ' X ' ˆ ' Y ( ) ˆ X Y ( )' ˆ X Y ( min * ˆ 4 4 3 4 4 2 1 ¿A qué son iguales estos dos términos (*)? escalar ˆ X ' Y 1 k k n n 1 · β × × × por ser de orden 1×1 escalar Y ' X ' ˆ 1 n n k k 1 · β × × × por ser de orden 1×1 Son escalares y uno es el transpuesto del otro ⇒ puedo sustituirlo por Y ' X ' ˆ 2 β − Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 88 Debemos β β + β − · β ˆ X ' X ' ˆ Y ' X ' ˆ 2 Y ' Y minQ ˆ β ∂ β β ∂ + β ∂ β − ∂ + β ∂ ∂ · β ∂ ∂ ˆ ) ˆ X ' X ' ˆ ( ˆ ) Y ' X ' ˆ 2 ( ˆ Y ' Y ˆ Q =0 β ∂ β β ∂ + β ∂ β − ∂ · β ∂ ∂ ˆ ) ˆ X ' X ' ˆ ( ˆ ) Y ' X ' ˆ 2 ( ˆ Q =0 • Queremos encontrar ˆ ) Y ' X ' ˆ 2 ( β ∂ β − ∂ , Sea a un vector de constantes, a · , _ ¸ ¸ · , _ ¸ ¸ ∂ + + ∂ · ∂ ∂ k 2 1 k 1 k k 2 2 1 1 a a a b b ) b a b a b a ( b ) b ' a ( M M L Luego, ˆ ) Y ' X ' ˆ 2 ( β ∂ β − ∂ = -2X’Y • β ∂ β β ∂ ˆ ) ˆ X ' X ' ˆ ( Sea A una matriz de constantes simétrica, A= , _ ¸ ¸ kk k 2 k 1 k 2 22 12 k 1 12 11 a a a a a a a a a L L L L L L L , entonces: b’Ab= 2 k kk k 2 2k 3 2 23 2 2 22 k 1 k 1 3 1 13 2 1 12 2 1 11 b a b b 2a b b 2a b a b b a 2 b b a 2 b b a 2 b a + + + + + + + + + + + O L L Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 89 Ab 2 b 2 2 2 b a b a b a ( 2 b a b a b a ( 2 b b b ) Ab ' b ( k kk 2 k 2 1 k 1 k k 1 2 12 1 11 k 2 1 · , _ ¸ ¸ · , _ ¸ ¸ · , _ ¸ ¸ + + + + + + · 1 1 1 1 ] 1 ¸ ∂ ∂ k 1 k 1 a a b a b a M M L M L M Luego, β · β ∂ β β ∂ ˆ X ' X 2 ˆ ) ˆ X ' X ' ˆ ( 0 ˆ X ' X 2 Y ' X 2 ˆ Q · β + − · β ∂ ∂ Con lo que: existe ) X ' X ( Si Y ' X ˆ X ' X Y ' X 2 ˆ X ' X 2 1 − · β · β Y ' X ) X ' X ( ˆ 1 − · β Condiciones de segundo orden X ' X 2 )' ˆ )( ˆ ( Q 2 · β ∂ β ∂ ∂ Las condiciones de mínimo implican que esta matriz debe ser definida positiva. Para comprobar esto definamos d cualquier vector no nulo de k elementos y c un vector de n elementos tal que c=Xd. Como X es de rango completo por columna esto implica que c sea no nulo (de lo contrario habría dependencia lineal entre las columnas de X). Por lo tanto, c’c= d’X’Xd >0 y entonces X’X es definida positiva. 3.2.3 Deducción de los estimadores MICO en el modelo simple. Y ' X ) X ' X ( ˆ 1 − · β i 2 i 2 1 i X Y µ + β + β · ¿Cómo son las matrices para este caso en particular? Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 90 1 1 1 1 ] 1 ¸ · 1 1 1 ] 1 ¸ … … … … … … · 1 1 1 1 1 1 ] 1 ¸ · n 1 2 n 22 12 2 n 12 12 Y : : Y Y X X X 1 1 ' X X 1 : : : : X 1 X 1 X 1 ] 1 ¸ · 1 1 1 1 1 1 ] 1 ¸ 1 ] 1 ¸ · ∑ ∑ ∑ 2 2 i 2 i 2 i 2 n 22 12 2 n 22 12 X X X n X 1 . . . . X 1 X 1 . X . . X X 1 . . 1 1 X ' X Recordar: A de te determinan uesta transp cofactores de matriz A )' A ( A c 1 · · − La matriz de cofactores se forma de sustituir cada elemento de la matriz por su correspondiente cofactor C ij . Donde Cij=(-1) i+j M ij , siendo M ij (menor) el determinante de la submatriz que se forma cuando a la matriz A se le elimina la fila i y la columna j. 1 1 ] 1 ¸ − − − · ∑ ∑ ∑ ∑ ∑ − n X X X ) X ( X n 1 ) X ' X ( 2 i 2 i 2 2 i 2 2 i 2 2 i 1 1 1 1 1 1 1 ] 1 ¸ − − − − − − · ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ − 2 2 i 2 2 i 2 2 i 2 2 i 2 i 2 2 i 2 2 i 2 i 2 2 i 2 2 i 2 2 i 1 ) X ( X n n ) X ( X n X ) X ( X n X ) X ( X n X ) X ' X ( 1 ] 1 ¸ · 1 1 1 1 ] 1 ¸ 1 ] 1 ¸ · ∑ ∑ i 2 i i n 1 2 n 22 12 Y X Y Y : : Y . X . . X X 1 . . 1 1 Y ' X Reemplazando en la fórmula encontrada para β ˆ , tenemos: Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 91 1 1 1 ] 1 ¸ 1 1 1 1 1 1 ] 1 ¸ − − − − − − · · β ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ − i 2 i i 2 2 i 2 2 i 2 2 i 2 2 i 2 i 2 2 i 2 2 i 2 i 2 2 i 2 2 i 2 2 i 1 Y X Y ) X ( X n n ) X ( X n X ) X ( X n X ) X ( X n X Y ' X ) X ' X ( ˆ Multiplicando: 1 1 1 1 1 1 ] 1 ¸ − + − − − · · β ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ − 2 2 i 2 2 i i 2 i i 2 i 2 2 i 2 2 i i 2 i 2 i i 2 2 i 1 ) X ( X n Y X n Y X ) X ( X n Y X X Y X Y ' X ) X ' X ( ˆ Reemplazando ∑ ∑ · · X n X y Y n Y i i y dividiendo entre n, obtenemos: 1 1 1 1 1 1 1 ] 1 ¸ − + − − − · 1 1 1 1 1 1 1 ] 1 ¸ − + − − − · · β ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ − 2 2 2 i i 2 i 2 2 2 i i 2 i 2 2 i 2 2 2 i i 2 i 2 2 2 i i 2 i 2 2 i 1 X n X Y X Y X n X n X Y X X Y X ) X n ( X n Y X n Y n X n ) X n ( X n Y X X n Y n X Y ' X ) X ' X ( ˆ 1 1 1 1 1 1 1 ] 1 ¸ − − − − · β ∑ ∑ ∑ ∑ ∑ 2 2 2 i i 2 i 2 2 2 i i 2 i 2 2 i X n X Y X n Y X X n X Y X X Y X ˆ En la segunda fila obtenemos una formula que es idéntica a la que teníamos en el modelo simple. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 92 1 1 1 1 1 ] 1 ¸ β − + − − · β ∑ ∑ ∑ 2 2 2 2 i i 2 i 2 2 i ˆ X n X ) Y X n Y X n Y X ( X Y X ˆ 1 1 1 1 1 1 1 ] 1 ¸ β − − − − − · 1 1 1 1 1 ] 1 ¸ β − − − − · β ∑ ∑ ∑ ∑ ∑ ∑ ∑ 2 2 2 2 i i 2 i 2 2 2 i 2 2 2 i 2 2 2 2 i i 2 i 2 2 2 i ˆ X n X ) Y X n Y X ( X X n X Y X n Y X ˆ X n X ) Y X n Y X ( X Y X n Y X ˆ Simplificando: 1 1 ] 1 ¸ β β − · 1 1 1 1 1 1 1 1 ] 1 ¸ β , _ ¸ ¸ − − − , _ ¸ ¸ − − · β ∑ ∑ ∑ ∑ 2 2 2 2 2 2 i i 2 i 2 2 2 i 2 2 2 i ˆ ˆ X Y ˆ X n X Y X n Y X X X n X X n X Y ˆ Con lo que: 1 1 1 1 1 1 1 ] 1 ¸ β − · 1 1 1 1 1 1 1 ] 1 ¸ − − β − · β ∑ ∑ ∑ ∑ 2 2 i i 2 i 2 2 2 2 i i 2 i 2 x y x X ˆ Y X n X Y X n Y X X ˆ Y ˆ Para el caso de la regresión con intercepto y dos variables: i 3 i 3 2 i 2 1 i X X Y µ + β + β + β · Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 93 1 1 1 1 1 1 ] 1 ¸ · × 3 n 2 n 23 22 13 12 3 n X X 1 . . . . . . X X 1 X X 1 X 1 1 1 ] 1 ¸ · ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ 2 3 i 3 i 2 i 3 i 3 i 2 i 2 2 i 2 i 3 i 2 i X X X X X X X X X X n X ' X 1 1 1 ] 1 ¸ · ∑ ∑ ∑ i 3 i i 2 i i Y X Y X Y Y ' X 3.2.4 Una interpretación de los estimadores MICO. En el modelo simple i 2 i 2 1 i e X ˆ ˆ Y ˆ + β + β · nos interesaba medir el efecto de la variable explicativa sobre la variable explicada. Este efecto se cuantifica a través de 2 ˆ β . Cuando tenemos un modelo múltiple, i ik k 3 i 3 2 i 2 1 i e X ˆ . . . X ˆ X ˆ ˆ Y + β + + β + β + β · , los coeficientes i ˆ β estimados miden el efecto parcial de la variable X i sobre Y i . Esto es, el efecto de X i sobre Y i luego de eliminados los efectos de las otras variables sobre X i . Para entender esto veamos algunos diagramas de Ballentine. Supongamos que el modelo es i i 1 i e X ˆ ˆ Y ˆ + β + β · X . En el diagrama que sigue el circulo Y representa la variación de la variable dependiente y el circulo X representa la variación de la variable explicativa. El área achurada donde se sobreponen los dos círculos, representa la variación que es común entre X e Y y que por tanto puede ser explicada por MICO. Esta área representa la información que es utilizada para calcular x ˆ β . Cuanto mayor esta área, mayor la información y por tanto menor la varianza del coeficiente. X Y Consideremos ahora que se incluye una nueva variable explicativa Z, de forma que el modelo es i i z i x i e Z ˆ X ˆ ˆ Y ˆ + β + β + β · Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 94 X Y Z * * * * * * * * • • • • • • • • • • • • • ∇ ∇ ∇∇ ∇ ∇ ∇ ∇ ∇ ∇ ∇ En general existirá una zona (triángulos y rayas) en que X y Z se overlapan. Si Y fuera explicada sólo por X, para calcular ˆ x β se utilizaría la información común entre X e Y (rayas y asteriscos). Si Y fuera explicada sólo por Z, para calcular ˆ z β se utilizaría la información común entre Y y Z (rayas y puntos). En la regresión múltiple se incluyen X y Z como variables explicativas. Para calcular ˆ x β se usa la intersección entre X e Y, luego de eliminar la intersección entre Xy Z. Es decir que el estimador es calculado usando sólo la información representada por el área marcada con asteriscos. En forma análoga, la información contenida en el área con puntos es la única utilizada para calcular ˆ z β . La información contenida en el área rayada no es utilizada porque al reflejar la variación en Y que es determinada en conjunto por X y Z no permite aislar sus efectos y asignarlos a cada estimador. Debe notarse que al agregara variables explicativas los parámetros del modelo son calculados utilizando cada vez menos información. Esto provocará un incremento de las varianzas de los estimadores. Además, debe tenerse en cuenta que la información utilizada en la estimación de los parámetros (y por tanto su varianza) dependerá de cuanta información común exista entre las variables explicativas utilizadas. Cuanto mayor el área común entre X y Z (mayor colinealidad entre las variables explicativas), menor resultarán las áreas de puntos y asteriscos y por tanto mayor la varianza de los estimadores. Si la colinealidad es perfecta los círculos X e Z se overlapan completamente haciendo imposible la estimación. Por el contrario, si no existe ningún área común entre X y Z (si son ortogonales) no existe zona rayada y por tanto los estimadores encontrados en la regresión múltiple serían los mismos que en dos regresiones simples (una respecto a X y otra respecto a Z). Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 95 3.2.5 Corolarios de los Estimadores MICO Ortogonalidad del residuo (1) β − · − · ˆ X Y Y ˆ Y e (2) e ˆ X Y + β · De las ecuaciones normales sabemos que: e ' X ˆ X ' X ˆ ) X ' X ( ) e ˆ X ( ' X ˆ ) X ' X ( Y ' X ˆ ) X ' X ( + β · β + β · β · β Con lo que: 0 e ' X · ¿Qué significa? 1 1 1 1 1 1 ] 1 ¸ · 1 1 1 1 1 1 ] 1 ¸ · 1 1 1 1 1 1 ] 1 ¸ 1 1 1 1 1 1 ] 1 ¸ . · ∑ ∑ ∑ ∑ 0 . 0 0 0 X e . X e X e e e . e e e X . . X X . . . . . . . . . X . . X X 1 . . 1 1 e ' X ik i 3 i i 2 i i i n 3 2 1 k 2 k 1 2 n 22 12 nk La igualdad de la primera fila implica que si la regresión tiene constante 0 e · . Los elementos restante indican que la correlación muestral entre los residuos y cada variable X i es cero. En términos matriciales esto implica que el vector de errores es ortogonal a la matriz X de variables del modelo. Recordar: dos vectores a y b son ortogonales si 0 b ' a · . Un vector como e, que es ortogonal a cualquier vector del hiperplano generado por las columnas de X, se dice que es normal al hiperplano. El hiperplano de regresión pasa por el punto determinado por las medias muestrales de todas las variables involucradas en el modelo. ( ) Y , X ,...., X , X k 3 2 , siempre que éste posea intercepto. Esto debido a que la primera ecuación de (12) implica que k k 3 3 2 2 1 X ˆ .... X ˆ X ˆ ˆ Y β + + β + β + β · Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 96 Descomposición en suma de cuadrados. Recordar que en el modelo lineal simple: SCT=SCE+SCR ∑ ∑ ∑ ∑ ∑ + · + β · 2 i 2 i 2 i 2 i 2 2 2 i e y ˆ e x ˆ y Ahora: • SCT Y n Y ) Y Y ( y SCT 2 2 i 2 i 2 i − · − Σ · Σ · ∑ Dado que ( ) ∑ · 1 1 1 1 1 1 ] 1 ¸ , _ ¸ ¸ · 2 i n 2 1 n 2 1 Y Y . . Y Y Y . . Y Y Y ' Y Luego, 2 Y n Y ' Y SCT − · Definiendo: )' Y Y ( ' y − · , SCT también es igual a 2 Y N Y ' Y y ' y − · • SCE ∑ ∑ − · · ) Y ˆ Y ˆ ( y ˆ SCE 2 i 2 i Dado que Y Y ˆ · (demostrarlo de tarea) y que β · ˆ X Y ˆ = Y N ˆ X ' X ' ˆ Y N Y ˆ ' Y ˆ Y n Y ˆ 2 2 2 2 i − β β · − · − ∑ Y N ˆ X ' X ' ˆ SCE 2 − β β · • SCR ⇒SCR= e ' e e 2 i ∑ · Demostración: ) e ˆ X ( Y + β · Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 97 e ' e ˆ X ' e e ' X ' ˆ ˆ X ' X ' ˆ ) e ˆ X ( ) ' e ' X ' ˆ ( Y ' Y ) e ˆ X ( )' e ˆ X ( Y ' Y + β + β + β β · + β + β · + β + β · Dado corolario 1 ⇒ 0 ˆ X ' e y 0 e ' X ' ˆ · β · β Luego: e ' e ˆ X ' X ' ˆ Y ' Y + β β · (*) Finalmente, restando a ambos lados 2 Y n e ' e Y n ˆ X ' X ' ˆ Y n Y ' Y 2 2 + − β β · − (**) Obtenemos el mismo resultado anterior: SCT= SCE+SCR ⇒ es decir que en el modelo múltiple también es posible dividir la suma de cuadrados totales en dos partes, una explicada por el modelo y otra residual. Otra forma de expresar este resultado: Dado: Y ' X ) X ' X ( ˆ 1 − · β (*) Es equivalente a: e ' e Y ' X ' ˆ e ' e Y ' X ) X ' X ( X ' X ' ˆ Y ' Y I 1 + β · + β · − 4 43 4 42 1 ( ) e ' e Y ' X ) X ' X ( X ' Y e ' e Y ' X ' Y ' X ) X ' X ( Y ' Y 1 1 + · + · − − El modelo en desvíos. k k 3 3 2 2 1 i ik k 3 i 3 2 i 2 1 i i ik k 3 i 3 2 i 2 1 i X ˆ ........ X ˆ X ˆ ˆ Y n e n X ˆ ........ n X ˆ n X ˆ ˆ n Y (1) e X ˆ ........ X ˆ X ˆ ˆ Y β + + β + β + β · Σ + Σ β + + Σ β + Σ β + β · Σ + β + + β + β + β · Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 98 k k 3 3 2 2 1 X ˆ ........ X ˆ X ˆ Y ˆ β − − β − β − · β (2) Sustituyendo (2) en (1): ( ) i k ik k 3 3 i 3 2 2 i 2 i i ik k 2 i 2 k k 2 2 i i ik k 2 i 2 k k 2 2 i i ik k 2 i 2 1 i e ) X X ( ˆ ........ ) X X ( ˆ ) X X ( ˆ Y Y e X ˆ ...... X ˆ X ˆ ........ X ˆ Y Y e X ˆ ........ X ˆ X ˆ ........ X ˆ Y Y e X ˆ ........ X ˆ ˆ Y ) 1 ( + − β − β + − β · − + β + + β + β − − β − · + β + + β + β − − β − · + β + + β + β · i ik k 3 i 3 2 i 2 i e x ˆ ........ x ˆ x ˆ y + β + + β + β · ⇒ el modelo se puede expresar en desvíos. ¿Cómo son las matrices? 1 1 1 1 1 1 ] 1 ¸ · 1 1 1 1 1 ] 1 ¸ − − − · n 2 1 n 2 1 y . . y y Y Y . . Y Y Y Y y 1 1 1 1 ] 1 ¸ · 1 1 1 1 ] 1 ¸ − − − − − − · − × nk 2 n k 2 22 k 1 12 k nk 2 2 n k k 2 2 22 k k 1 2 12 ) 1 k ( n x . . x . . . . x . . x x . . x X X . . X X . . . . X X . . X X X X . . X X x 1 1 1 1 ] 1 ¸ β β β · β × − k 3 2 * 1 ) 1 k ( ˆ . ˆ ˆ ˆ Con lo que e ˆ x y * + β · * ˆ x y ˆ β · Notar que el vector β ˆ * no incluye 1 ˆ β Derivación de MICO en desvíos: ˆ x ' x ' ˆ y ' x ' ˆ 2 - y y' ˆ x ' x ' ˆ y ' x ' ˆ ˆ x ' y y ' y ) ˆ x y ( )' ˆ x y ( e ' e ˆ x y yˆ y e ˆ x yˆ * * * * * * * * * * β β + β · β β + β − β − · β − β − · β − · − · β · Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 99 y ' x ) x ' x ( ˆ 0 ˆ x ' x y ' x 0 ˆ x ' x 2 y ' x 2 ˆ e ' e 1 * * * − · β ⇓ · β + − · · β + − · β ∂ ∂ si x’x es invertible Es decir que la fórmula de calculo de los estimadores no cambia al utilizar las variables en desvíos respecto a la media. A esto debe agregarse: k k 3 3 2 2 1 X ˆ ........ X ˆ X ˆ Y ˆ β + + β + β − · β Suma de cuadrados en desvíos: e ˆ x y * + β · e ' e ˆ x ' x ' ˆ e ' e ˆ x ' e e ' x ' ˆ ˆ x ' x ' ˆ ) e ˆ x )( ' e ' x ˆ ( ) e ˆ x ( )' e ˆ x ( y ' y * * * * * * * * * * + β β · + β + β + β β · + β + β · + β + β · Con e ' x = x ' e = 0 SCR SCE e ' e ˆ x ' x ' ˆ y ' y e ' e SCR ˆ x ' x ' ˆ yˆ ' yˆ SCE y ' y SCT * * * * + · + β β · ¹ ¹ ¹ ; ¹ · β β · · · Notar que cuando las variables están expresadas en desvíos, no es necesario restar el término 2 Y n para el cálculo de la suma de cuadrados totales y de la suma de cuadrados explicados. Coeficiente de determinación: R 2 y ' y e ' e 1 Y n Y ' Y e ' e 1 SCT SCR 1 SCT SCR SCT R y ' y y ' x ' ˆ y ' y ˆ x ' x ' ˆ Y n Y ' Y Y n Y ' X ' ˆ Y n Y ' Y Y n ˆ X ' X ' ˆ SCT SCE R 2 2 * * 2 2 2 2 2 − · − − · − · − · β · β β · − − β · − − β β · · El R 2 corregido. El R 2 múltiple tiene un problema Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 100 (1) i 2 i 2 1 i X Y µ + β + β · (2) i 3 i 3 2 i 2 1 i X X Y µ + β + β + β · Y i es la misma ⇒ ¿qué ocurre con SCT? es la misma ya que no cambia la muestra. ¹ ' ¹ + · + · 2 2 2 1 1 1 SCR SCE SCT SCR SCE SCT Sin embargo, sólo por agregar una nueva variable (“algo explica”), la SCR 2 disminuye, provocando un aumento R 2 cuando aumenta k. Por esta razón, para comparar el R 2 de dos regresiones, estas deben tener igual numero de variables. Para evitar este problema se define un R 2 corregido por grados de libertad 1 n y ' y k n e ' e 1 1 n Y n Y ' Y k n e ' e 1 R 2 2 c − − − · − − − − · ¿Qué relación tiene R 2 y 2 C R ? k n 1 n ) R 1 ( 1 Y n Y ' Y 1 n • k n e ' e 1 R 2 2 2 c − − − − · − − − − · = ) R 1 ( k n 1 n 1 R R 2 2 2 − , _ ¸ ¸ − − − + − = , _ ¸ ¸ − − − − + · − , _ ¸ ¸ − − − − + k n 1 n 1 ) R 1 ( R ) R 1 ( k n 1 n ) R 1 ( R 2 2 2 2 2 = , _ ¸ ¸ − − − − · , _ ¸ ¸ − + − − − + k n 1 k ) R 1 ( R k n 1 n k n ) R 1 ( R 2 2 2 2 , _ ¸ ¸ − − − − · k n 1 k ) R 1 ( R R 2 2 2 C Otra formula: , _ ¸ ¸ − − + − − · k n n 1 R k n k 1 R 2 2 c Para entender esto: Supongamos que tenemos dos observaciones: Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 101 La recta va a tener que pasar por los dos puntos ⇒ minimizar la e 2 i ∑ implica que 0 e 2 i · ∑ , con lo que 1 y e 1 R 2 1 2 i 2 · Σ Σ − · . Esto significaría un ajuste perfecto, sin embargo, no tiene ninguna significancia estadística. El 2 C R está indeterminado. 1 n / y 0 0 1 1 n / y 2 n / e 1 R 2 i 2 i 2 i 2 c − Σ − · − Σ − Σ − · . Algunas propiedades: i) 2 C R < R 2 , son iguales cuando la correlación es perfecta. ii) Si aumenta el tamaño muestral, dado k, el 2 C R tiende al R 2 iii) Dado n, al aumentar el número de variables explicativas, (R 2 - 2 C R ) aumenta. iv) 2 C R puede ser negativo. 3.3 SUPUESTOS CLÁSICOS Al igual que en el modelo simple, requerimos una serie de supuestos (supuestos clásicos) para determinar las propiedades estadísticas de los estimadores MICO. Estos supuestos clásicos para el modelo de regresión múltiple son equivalentes a los del modelo simple y se pueden expresar en notación escalar o matricial. Y = βX + µ Notación escalar Notación matricial 1. X 2 .... X k son no estocásticas X nxk es no estocástica * * Y X Y X i i 2 1 X Yi µ + β + β · Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 102 2. E(µ i ) = 0 ∀i E(µ) = 0 n×1 donde µ n×1 3. Homocedasticidad y no autocorrelación COV(µ i , µ j )= ¹ ' ¹ · σ ≠ · µ µ j i j i 0 ) ( E 2 j i E(µµ’) = σ 2 I 4. Ausencia de multicolinealidad perfecta. Las X i no son combinación lineal exacta entre sí Rango de X=ρ(X) = k 5. u i ~ N(0, σ 2 ) ∀i u ~ N(0, σ 2 I) Explicación 1. Todo nuestro análisis está condicionado a conocer X que se supone se mantiene fija en distintas muestras. Esto implica que la única fuente de variación de Y viene dada por µ i . Este supuesto se puede relajar suponiendo X estocásticos, pero independientes de µ. 2. 0 ) ( E · µ 1 nx n 2 1 n 2 1 0 0 . 0 0 ) ( E . ) ( E ) ( E . E ) ( E · , _ ¸ ¸ · , _ ¸ ¸ µ µ µ · , _ ¸ ¸ µ µ µ · µ Esto permite calcular: E(Y/X) = E(Xβ + µ) = Xβ + E(µ) = Xβ Es decir que se cometen errores pero en promedio estaremos sobre el plano de regresión. 3. E(µµ‘) = σ 2 I En general Varianza de X = [ ] [ ] )' X )( X ( E ))' X ( E X ))( X ( E X ( E · µ − µ − · − − Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 103 ( ) 1 1 1 1 1 1 ] 1 ¸ µ − µ − µ − , _ ¸ ¸ µ − µ − µ − · n 2 1 n 2 1 X . . X X X . . X X E , _ ¸ ¸ µ − µ − µ − µ − µ − µ − µ − · 2 ) n X ( . . . . . . . . . . 2 ) 2 X ( . ) n X )( 1 X ( . . ) 2 X )( 1 X ( 2 ) 1 X ( E , _ ¸ ¸ µ − µ − µ − µ − µ − µ − µ − · 2 ) n X ( E . . . . . . . . . . 2 ) 2 X ( E . ) n X )( 1 X ( E . . ) 2 X )( 1 X ( E 2 ) 1 X ( E ) X ( VAR . . . ) X , X ( Cov ) X , X ( Cov ) X , X ( Cov ) X ( VAR n 2 1 n 1 2 1 1 , _ ¸ ¸ … · =matriz varianza y covarianza En nuestro caso la variable aleatoria es µ y su esperanza es 0. Por lo tanto, E(µµ‘) = ( ) 1 1 1 1 1 1 ] 1 ¸ µ µ µ µ µ µ µ · 1 1 1 1 1 1 ] 1 ¸ µ µ µ , _ ¸ ¸ µ µ µ 2 n 2 2 n 1 2 1 2 1 n 2 1 n 2 1 . . . . E . . . . E Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 104 1 1 1 1 1 1 ] 1 ¸ σ · 1 1 1 1 1 1 ] 1 ¸ σ σ σ · 1 1 1 1 1 1 ] 1 ¸ µ µ µ µ µ µ µ · 1 0 0 . 1 1 0 0 . . 0 1 . . 0 . . 0 ) ( E . . ) ( E ) ( E . . ) ( E ) ( E 2 2 2 2 2 n 2 2 n 1 2 1 2 1 E(µµ‘)=σ 2 I nxn 4. El rango de X es k. Este es un requisito que permite invertir X’X y que es necesario para obtener estimadores MICO β ˆ en forma única. • Rango de una matriz Una matriz A m×n puede interpretarse como una colección de m vectores fila de dimensión n, o como una colección de n vectores columna de dimensión m. Entonces, podemos hablarse de filas linealmente independientes (LI) o linealmente dependientes (LD). Se denomina rango de la matriz a máximo número de columnas (o filas) LI. Propiedades: ⇒ El número máximo de filas LI es igual al número máximo de columnas LI ⇒ Rango (A m×n )≤ min (m,n) ⇒ Rango A=Rango A’ ⇒ Si rango A m×n =m=n, entonces A es no singular y su inversa existe y es única. ⇒ Rango (X’X) = Rango (XX’) = Rango de X 5. µ ~ N (0, σ 2 I) es normal multivariante. 105 3.4 PROPIEDADES ESTADÍSTICAS DE LOS ESTIMADORES MICO. 3.5.1 Linealidad Y ' X ) X ' X ( ˆ 1 − · β El estimador es lineal en Y, ya que cada elemento de ˆ β es una combinación lineal de los elementos de Y. Las ponderaciones son funciones de los datos X, que son no estocásticos. 3.5.2 Insesgamiento I ' X ) X ' X ( ' X ) X ' X ( X ' X ) X ' X ( ˆ ) X ( ' X ) X ' X ( ˆ Y ' X ) X ' X ( ˆ 1 1 1 1 1 ⇓ µ + β · µ + β · β µ + β · β · β − − − − − ' X ) X ' X ( ˆ 1 µ + β · β − [ ] ) ( E ' X ) X ' X ( ) ˆ ( E ' X ) X ' X ( E ) ( E ) ˆ ( E 1 1 µ + β · β µ + β · β − − β · β ) ˆ ( E Es insesgado 3.5.3 Eficiencia 3.5.3.1 Matriz de Varianzas y Covarianzas. [ ] ))' ˆ ( E ˆ ( )) ˆ ( E ˆ ( E ) ˆ ( V ) ˆ ( Cov Var β − β β − β · β · β − Como µ + β · β − ' X ) X ' X ( ˆ 1 y β · β ) ˆ ( E Entonces: µ · β − β · β − β − ' X ) X ' X ( ˆ ) ˆ ( E ˆ 1 106 ( ) ( ) I ) X ' X ( X ' X ) X ' X ( ) X ' X ( X I ' X ) X ' X ( ) X ' X ( X ) ' ( E ' X ) X ' X ( ) X ' X ( X ' ' X ) X ' X ( E )' ' X ) X ' X (( ) ' X ) X ' X ( E 1 1 2 1 2 1 1 1 1 1 1 1 ⇓ · σ · σ · µµ · µµ · µ µ · − − − − − − − − − − ) X ' X ( ) ˆ ( V ) ˆ ( Cov - Var 1 2 − σ · β · β Para el caso de dos variables: , _ ¸ ¸ · , _ ¸ ¸ · σ · β − n 2 1 n 1 1 2 X . . X X 1 . . 1 1 ' X X 1 . . . . . . X 1 X ) X ' X ( ) ˆ ( V 1 ] 1 ¸ · 1 1 1 1 1 1 ] 1 ¸ , _ ¸ ¸ , _ ¸ ¸ · ∑ ∑ ∑ 2 i i i n 1 n 2 1 X X X n X 1 . . . . . . X 1 X . . X X 1 . . 1 1 X ' X · , _ ¸ ¸ − − − · ∑ ∑ ∑ ∑ ∑ − n X X X ) X ( X n 1 ) X ' X ( i i 2 i 2 i 2 i 1 n X X X ) X n ( X n n X X X ) X ( X n ) ˆ ( V i i 2 i 2 2 i 2 i i 2 i 2 i 2 i 2 , _ ¸ ¸ − − − σ · , _ ¸ ¸ − − − σ · β ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ( ) n X X X x n n X X X X n X n ) ˆ ( V i i 2 i 2 i 2 i i 2 i 2 2 i 2 , _ ¸ ¸ − − σ · , _ ¸ ¸ − − − σ · β ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ 107 x x n X x n X x n X x n n X x n x n X X x n ) ˆ ( V 2 i 2 2 i 2 2 i 2 2 i 2 i 2 2 i 2 i 2 i 2 2 i i 2 2 i 2 i 2 , _ ¸ ¸ σ σ − σ − σ · , _ ¸ ¸ σ Σ σ − σ − σ · β ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ Tarea: Chequear con las encontradas en el caso simple. Al igual que en el caso simple tanto las varianzas como las covarianzas dependen de σ 2 , parámetro poblacional desconocido que es necesario estimar. 3.5.3.2 Un estimador de σ 2 Debemos estimar σ 2 , la varianza del término de error. Como los valores de µ no se pueden observar, el estimador se basará en los residuos e. Sabemos que: β − · ˆ X Y e y dado que Y ' X ) X ' X ( ˆ 1 − · β Y ' X ) X ' X ( X Y e 1 − − · , con lo que se puede sacar Y de post-factor común, de forma que: ( )Y ' X ) X ' X ( X I e 1 − − · , y definiendo ' X ) X ' X ( X I M 1 − − · , luego: MY e · La matriz M es especial por cumplir las siguientes propiedades: ♦ Es cuadrada (n×n) ♦ Es no estocástica ♦ Es simétrica (M’=M) ( ) M ' X ) X ' X ( X ' I ' ' X ) X ' X ( X I ' M 1 1 · − · − · − − ♦ Es idempotente (M.M=M) ( )( ) · − − · − − ' X ) X ' X ( X I ' X ) X ' X ( X I MM 1 1 ' X ) X ' X ( X ' X ) X ' X ( X ' X ) X ' X ( X ' X ) X ' X ( X I 1 1 1 1 − − − − + − − · M ' X ) X ' X ( X I ' X ) X ' X ( X ' X ) X ' X ( X ' X ) X ' X ( X I 1 1 1 1 · − · + − − · − − − − ♦ MX=0 108 0 X X X ' X ) X ' X ( X X X ) ' X ) X ' X ( X I ( MX 1 1 · − · − · − · − − µ · µ + β · µ + β · · M M MX ) X ( M MY e Luego, µ µ · µ µ · µ µ · M ' MM ' M ' M ' e ' e µ µ · M ' e ' e Deseamos conocer ) M ' ( E ) e ' e ( E µ µ · ( ) · 1 1 1 1 1 1 ] 1 ¸ , _ ¸ ¸ µ µ µ , _ ¸ ¸ µ µ µ · µ µ · n 2 1 nn 2 n 1 n n 2 22 21 n 1 12 11 n 2 1 . . a a a . . a . . a a a . . a a . . E ) M ' ( E ) e ' e ( E ( ) ( ) ∑ ∑ ∑ ∑ ∑ ∑ µ µ + + µ µ + µ µ · 1 1 1 1 1 1 ] 1 ¸ , _ ¸ ¸ µ µ µ µ µ µ · in i n 2 i i 2 1 i i 1 n 2 1 in i 2 i i 1 i i a ... a a E . . a . . a a E [ ] ) a ... a a ( ... ) a ... a a ( ) a ... a a ( E nn n n 2 2 n 1 1 n 2 n n 22 2 12 1 2 1 n n 21 2 11 1 1 µ + + µ + µ µ + + µ + + µ + µ µ + µ + + µ + µ µ · Al aplicar el término de esperanza y dado el supuesto de no autocorrelación, los términos cruzados se hacen cero. ( ) ) M Traza ( ) a ... a a ( ) ( E a ... ) ( E a E a 2 nn 22 11 2 2 n nn 2 2 22 2 1 11 σ · + + + σ · µ + + µ + µ · Recordando que traza: • La traza de una matriz es la suma de los elementos de la diagonal principal • Tr(AtB)=Tr(A) tTr(B) • Tr(ABC)=Tr(CBA)=Tr(BAC) • Si A es una matriz idempotente, entonces Tr(A)=rango(A) 109 = ( ) [ ] [ ] · − σ · − σ · − σ − − − 1 2 1 n 2 1 n 2 ) X ' X ( X ' X n ' X ) X ' X ( X Tr ) I ( Tr ) ' X ) X ' X ( X I ( Tr [ ] [ ] k n ) I ( Tr n 2 k 2 − σ · − σ · Con lo que : [ ] k n ) M ' ( E ) e ' e ( E 2 − σ · µ µ · Luego si definimos: k n e ' e ˆ 2 − · σ , tendremos un estimador de la varianza del término de perturbación que cumple la propiedad de ser insesgado. Esto porque: 2 2 2 ) k n ( k n 1 ) e ' e ( E k n 1 k n e ' e E ) ˆ ( E σ · − σ − · − · , _ ¸ ¸ − · σ 3.5.3.3 Teorema de Gauss-Markov Sabemos que µ + β · · β − − ' X ) X ' X ( Y ' X ) X ' X ( ˆ 1 1 , es un estimador lineal e insesgado de β. En esta expresión ' X ) X ' X ( 1 − es una matriz de números fijos. a. Supongamos que existe β*, otro estimador lineal de β, tal que: [ ]Y C ' X ) X ' X ( * 1 + · β − , donde C es una matriz de constantes de orden k×n. Dado que Y=Xβ+µ, [ ] [ ] µ + β + µ + β · µ + β + · + · β − − − − C CX ' X ) X ' X ( X ' X ) X ' X ( ) X ( C ' X ) X ' X ( Y C ' X ) X ' X ( * 1 1 1 1 µ + β + µ + β · β − C CX ' X ) X ' X ( * 1 b. ¿Qué condiciones se deben cumplir para que β* sea insesgado? ) ( CE CX ) ( E ' X ) X ' X ( *) ( E 1 µ + β + µ + β · β − β + β · β CX *) ( E Luego, para que β* sea insesgado se debe cumplir que CX=0 c. Calculemos la varianza de β* [ ] *))' ( E * ( *)) ( E * ( E ) ˆ ( V β − β β − β · β Dados los resultados de a y b sabemos que : • E(β*)=β 110 • µ + µ · β β − C ' X ) X ' X ( - * 1 Luego, [ ] [ ] )' C ' X ) X ' X (( ) C ' X ) X ' X (( E )' * ( ) * ( E *) ( V 1 1 µ + µ µ + µ · β − β β − β · β − − [ ] ) ' C ' ) X ' X ( X ' ( ) C ' X ) X ' X (( E *) ( V 1 1 µ + µ µ + µ · β − − [ ] ' C ' C ) X ' X ( X ' C ' C ' ' X ) X ' X ( ) X ' X ( X ' ' X ) X ' X ( E *) ( V 1 1 1 1 µµ + µµ + µµ + µµ · β − − − − ' C ) ' ( CE ) X ' X ( X ) ' ( CE ' C ) ' ( E ' X ) X ' X ( ) X ' X ( X ) ' ( E ' X ) X ' X ( *) ( V 1 1 1 1 µµ + µµ + µµ + µµ · β − − − − Recordando que E(µµ‘)=σ 2 I ' CC ) X ' X ( CX ' C ' X ) X ' X ( ) X ' X ( X ' X ) X ' X ( *) ( V 2 1 2 1 2 1 1 2 σ + σ + σ + σ · β − − − − Dado que CX=0 y simplificando, obtenemos: ' CC ) X ' X ( CX ' C ' X ) X ' X ( ) X ' X ( *) ( V 2 1 2 1 2 1 2 σ + σ + σ + σ · β − − − ' CC ) X ' X ( *) ( V 2 1 2 σ + σ · β − ' CC ) ˆ ( V *) ( V 2 σ + β · β d. Dado que C es una matriz de constantes de orden k×n, , _ ¸ ¸ , _ ¸ ¸ · kn n 2 n 1 2 k 22 12 1 k 21 11 kn 2 k 1 k n 2 22 21 n 1 12 11 c . . c c . . . . c . . c c c . . c c c . . c c . . c . . c c c . . c c ' CC , _ ¸ ¸ · ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ 2 ki ki i 2 ki i 1 ki i 2 2 i 2 i 2 i 1 ki i 1 i 2 i 1 2 i 1 c . . c c c c . . . . . . . . c c . . c c c c c . . c c c ' CC Los elementos de la diagonal principal son positivos o cero, por lo que necesariamente se cumple que ) ˆ ( V *) ( V β ≥ β . Con esto se concluye que si existe un estimador lineal e insesgado de β, para que éste sea el de menor varianza (eficiente), debe ser el estimador MICO. Si tenemos un estimador lineal e insesgado distinto de MICO, necesariamente tiene mayor varianza que MICO. Con lo que demostramos que MICO es el mejor estimador lineal e insesgado. MICO es MELI. 111 3.5.4 Consistencia Sabemos que : ' X ) X ' X ( ˆ 1 µ + β · β − luego, multiplicando y dividiendo entre n n ' X ) X ' X n 1 ( ˆ 1 , _ ¸ ¸ µ + β · β − plim n ' X ) X ' X n 1 ( plim ) ( plim ˆ 1 1 ] 1 ¸ , _ ¸ ¸ µ + β · β − = n ' X plim ) X ' X n 1 ( plim 1 , _ ¸ ¸ µ • + β − = n ' X plim )) X ' X n 1 ( plim ( 1 , _ ¸ ¸ µ • + β − La matriz ) X ' X n 1 ( consta de las medias cuadráticas y de las medias de los productos cruzados de las variables explicativas. Como la matriz X es constante para repetidas muestras, entonces, lim ) X ' X n 1 ( = ) X ' X n 1 ( El limite en probabilidad de la matriz , _ ¸ ¸ µ n ' X = 1 1 1 1 1 1 1 1 ] 1 ¸ , _ ¸ ¸ µ , _ ¸ ¸ µ , _ ¸ ¸ µ ∑ ∑ ∑ i ki i i 2 i X n 1 plim X n 1 plim n 1 plim M • , _ ¸ ¸ µ ∑ i n 1 plim =plim (µ ), como E( µ )=0 y var( µ )= n 2 σ , se deduce que plim (µ )=0 • , _ ¸ ¸ µ ∑ i ki X n 1 plim , se cumple que E , _ ¸ ¸ µ ∑ i ki X n 1 =0 y var( n X n X n 1 ki 2 2 i ki ∑ ∑ σ · , _ ¸ ¸ µ , con lo que plim var( 0 X n 1 i ki · , _ ¸ ¸ µ ∑ , luego, plim , _ ¸ ¸ µ n ' X =0 asi, 0 ) X ' X n 1 ( 1 β · • + β − , con lo que el estimador MICO es consistente. 112 3.6 INFERENCIA EN EL MODELO GENERAL Hasta ahora no hemos usado el supuesto de que las µ siguen una distribución normal multivariante. Si suponemos ) I , 0 ( N ~ 2 σ µ podremos derivar algunas distribuciones. 3.6.1 Distribución de β ˆ µ + β · β − ' X ) X ' X ( ˆ 1 , con lo que β ˆ por ser combinación lineal de variables aleatorias es también una variable aleatoria que se distribuye normal multivariante. Esperanza: β · β ) ˆ ( E Varianza: , _ ¸ ¸ σ · σ · β − kk k 1 22 12 k 1 12 11 2 1 2 a . . . a . . a a a . . a a ) X ' X ( ) ˆ ( V Luego ) ) X ' X ( , ( N ~ ˆ 1 2 − σ β β Esto es, ) a , ( N ~ ˆ ii 2 i i σ β β donde a ii es el i-ésimo elemento de la diagonal principal de (X’X) -1 . Así: ) 1 , 0 ( N ~ a ˆ ii i i σ β − β Este resultado no es muy útil por si mismo, porque no conocemos σ 2 . 3.6.2 Distribuciones derivadas de µ Dado que ) I , 0 ( N ~ 2 σ µ , esto significa que cada µ i se distribuye normal e independiente con media cero y varianza σ 2 . Luego, 2 n 2 2 n 2 2 2 2 2 1 ~ ...... χ σ µ + σ µ + σ µ , con lo que 2 n 2 ~ ' 1 χ µ µ σ 2 n 1 2 ~ ) I ( ' χ µ σ µ − 113 Este resultado, nos sirve para recordar como se forman las distribuciones derivadas de una normal multivariante. Sin embargo, tampoco es útil por si mismo ya que no conocemos µ. 3.6.3 Distribución de 2 ' σ e e Hemos visto los siguientes resultados: • µ · M e , como ) I , 0 ( N ~ u 2 σ , por lo que e también se distribuye normal. • µ µ · M ' e ' e • ' X ) X ' X ( X I M 1 − − · , siendo simétrica e idempotente. • Tr(M)=Rg(M)=n-k . Como M es idempotente de aquí se deriva que M tiene n-k valores propios. • Sea B una matriz que tenga por columnas los vectores propios de M y D una matriz que tiene los valores propios en la diagonal y cero en el resto. B= , _ ¸ ¸ | | | | | | x . . x x | | | | | | n 2 1 y D= , _ ¸ ¸ λ λ λ n 2 1 0 0 0 . 0 0 0 . 0 0 0 0 0 0 Sabemos que: ⇒ B’B=BB’=I n ⇒ D MB ' B · ⇒ Dado que los valores propios de una matriz idempotente son cero o uno, sabemos que D tiene n-k valores propios 1 y k valores propios igual a cero. D= , _ ¸ ¸ · , _ ¸ ¸ − k k k k n 0 0 0 I 0 . . . . . 0 . . 0 . 1 . . . . . . . 1 0 0 . . . . 0 1 Definamos: y= B’µ Luego, premultiplicando por B tenemos que, By=B B’µ=Iµ y B · µ 114 Dado que y= B’µ, y será una variable que se distribuye normal multivariada. Encontremos la esperanza y la varianza de y. Esperanza: E(y) =E( B’µ)=B’E(µ)=0 Varianza: V(y) =E{[y –E(y)][y –E(y)]’}= E(yy’)= E(B’µ µ‘B)= B’E(µ µ‘) B= = B’σ 2 IB= σ 2 B’B=σ 2 I Es decir que y ~ N (0, σ 2 I) , con lo que cada N(0,1) ~ i σ y se distribuye normal tipificada e independiente. Sabemos que: ( ) , _ ¸ ¸ , _ ¸ ¸ · · · µ µ · + − − + − − n 1 k n k n 2 1 n 1 k n k n 2 1 D y . y y . y y 0 . . . . . 0 . . 0 . 1 . . . . . . . 1 0 0 . . . . 0 1 y . y y . y y MB ' B ' M ' e ' e y y 3 2 1 = ∑ − − · + + + + + k n 1 2 i 2 k n 2 2 2 1 y 0 .... 0 y .... y y ∑ − · k n 1 2 i y e ' e Como N(0,1) ~ i σ y , luego 2 k - n k n 1 2 i ~ χ , _ ¸ ¸ σ ∑ − y ⇒ 2 k - n 2 k n 1 2 i 2 2 k n 2 2 2 2 2 1 ~ y y ..... y y χ σ · σ + σ + σ ∑ − − 115 ⇒ 2 k - n 2 ~ ' χ σ e e 3.6.4 Prueba de Hipótesis en el Modelo Múltiple Pruebas Individuales Tenemos: i) ) 1 , 0 ( ~ ˆ N a ii i i σ β β − pero σ es desconocida ii) 2 k - n 2 2 ~ ) /( ' ) ( ' χ σ σ k n e e k n e e − − · iii) puede demostrarse que i) y ii) son independientes: Definimos: ii i i ii i i 2 ii i i a ˆ ˆ ˆ a ˆ k n e ' e a ˆ t σ β − β · σ β − β · − σ σ β − β · ∼ t n-k Prueba de Significación global en el Modelo Múltiple: ANÁLISIS DE VARIANZA ANOVA ⇒ Es un test de significancia global del modelo H 0 : β 2 = β 3 =............= β k = 0 H 1 : Algún β i distinto de 0 i) SCE/σ 2 ∼ 2 1 - k χ 116 ii) 2 k - n 2 2 ~ SCR ' χ σ σ · e e iii) Puede demostrarse que i) y ii) son independientes. k n k F R k R k n k n SCT SCE SCT R SCT k n SCE SCT SCT k n SCR k n SCR F − − − − − · − − · − − · − · − · , 1 2 2 2 2 2 ~ ) 1 )( 1 ( ) ( ) ( 1 - k / 1 - k SCE 1 - k SCE / 1 - k SCE/ σ σ Recordar diferentes expresiones para la SCE 0 α Rechazo H 0 , si el valor calculado del estadístico SCR ) 1 (k SCE ) k n ( − − es mayor que α K n K F − − , 1 F α Este test indica que el modelo es significativo en su conjunto, si el "efecto explicado por el modelo" es suficientemente grande respecto al "ruido", a lo residual. Si el F calculado es mayor que el F de tabla, rechazo que β 2 = β 3 =............= β k = 0, o sea el "aporte de las X" respecto al residuo es considerable. ¿Cuán considerable? El límite nos lo da el valor de tabla. TABLA ANOVA Variación Suma de Cuadrados Grados de Libertad Suma Promedio de Cuadrados Regresión SCE k-1 SCE/(k-1) Residuo SCR n-k SCR/(n-k) Total SCT n-1 SCT/ (n-1) 117 Grados de Libertad Asociado a cada suma de cuadrados hay grados de libertad; (valores que pueden elegirse arbitrariamente). Suma de cuadrados Totales (SCT): tiene n-1 grados de libertad. Esto surge como consecuencia de la pérdida de un grado de libertad, necesario para calcular Y. Suma de cuadrados residuales (SCR): tiene n-k grados de libertad. Se pierden k grados de libertad que son necesarios para asegurar que se cumplan las ecuaciones normales. Estas condiciones son: 1 1 1 1 1 1 ] 1 ¸ · 1 1 1 1 1 1 ] 1 ¸ · 1 1 1 1 1 1 ] 1 ¸ 1 1 1 1 1 1 ] 1 ¸ . · ∑ ∑ ∑ ∑ 0 . 0 0 0 X e . X e X e e e . e e e X . . X X . . . . . . . . . X . . X X 1 . . 1 1 e ' X ik i 3 i i 2 i i i n 3 2 1 k 2 k 1 2 n 22 12 nk Suma de cuadrados explicados (SCE): tiene k-1 grados de libertad ya que se encuentra en función de todos los parámetros estimados, excepto el intercepto. 3.5.5 Test General Para Probar Restricciones Lineales de Parámetros i. Introducción Supongamos que estamos interesados en estimar una función de producción Cobb-Douglas: lnY i = β 1 + β 2 lnL i + β 3 lnK i + µ i Repasemos distintas hipótesis a probar: Ejemplo 1: Si queremos testear H 0 : β 2 = 0 H 1 : β 2 ≠0 podemos expresar esta restricción en forma matricial H 0 : Cβ = r H 1 : Cβ ≠ r 118 donde C = [0 1 0] Cβ = [ ] 1 1 1 ] 1 ¸ 3 2 1 0 1 0 β β β = β 2 r = 0 Ejemplo 2: Si queremos testear H 0 : β 2 +β 3 = 1 H 1 : β 2 +β 3 ≠ 1 debemos definir la matriz C y el vector r: H 0 : Cβ = r H 1 : Cβ ≠ r donde C = [0 1 1] Cβ = [ ] 1 1 1 ] 1 ¸ 3 2 1 1 1 0 β β β = β 2 + β 3 r = 1 (en este caso un vector de 1x1, o sea un escalar) Ejemplo 3: Si queremos testear 119 H 0 : β 2 = β 3 H 1 : β 2 ≠ β 3 H 0 : Cβ = r H 1 : Cβ ≠ r donde C = [0 1 -1] Cβ = [ ] 1 1 1 ] 1 ¸ − 3 2 1 1 1 0 β β β = β 2 - β 3 r = 0 Ejemplo 4: H 0 : β 2 = β 3 = 0 H 1 : Algún β i distinto de 0 Cβ = 1 1 1 ] 1 ¸ β β β 1 ] 1 ¸ 3 2 1 1 0 0 0 1 0 = 1 ] 1 ¸ β β 3 2 r = 1 ] 1 ¸ 0 0 Ejemplo 5: lnY i = β 1 + β 2 lnL i + β 3 lnK i + β 4 lnZ i + β 5 lnW i + µ i 120 H 0 : β 4 = β 5 = 0 H 1 : Algún β i distinto de 0 Cβ = 1 1 1 1 1 1 ] 1 ¸ β β β β β 1 ] 1 ¸ 5 4 3 2 1 1 0 0 0 0 0 1 0 0 0 = 1 ] 1 ¸ β β 5 4 r= 1 ] 1 ¸ 0 0 ii. Desarrollo del Test Existen distintas formas de desarrollar el test. • Mediante el desarrollo del test β ˆ C ? Sabemos que: ) ) ' ( , ( ~ ˆ 1 2 − X X N σ β β La distribución de probabilidad de una combinación lineal de β ˆ será también normal. Debemos encontrar los parámetros de la distribución. β · β · β C ) ˆ ( CE ) ˆ C ( E [ ] [ ] · β − β β − β · β − β β − β · β ) ' C ' ' C ' ˆ )( C ˆ C ( E )' C ˆ C )( C ˆ C E ) ˆ C ( V [ ] [ ] · β − β β − β · β − β β − β ' C )' ˆ )( ˆ ( C E ' C ) ' ' ˆ )( ˆ ( C E [ ] ' C ) X ' X ( C ' C )' ˆ )( ˆ ( CE 1 2 − σ · β − β β − β ) ' C ) X ' X ( C , 0 ( N ~ C ˆ C ) ' C ) X ' X ( C , C ( N ~ ˆ C 1 2 1 2 − − σ β − β σ β β Si H 0 es cierta: Cβ = r ) ' C ) X ' X ( C , 0 ( N ~ r ˆ C 1 2 − σ − β Se puede demostrar que dado: 121 i. [ ] 2 R 1 1 2 ~ ) r ˆ C ( ' C ) X ' X ( C )' r ˆ C ( χ − β σ − β − − [Estamos sumando R normales(0,1) elevadas al cuadrado] donde R es el número de restricciones involucradas bajo la hipótesis nula. ii. 2 k n 2 2 2 ~ e ' e ) k n ( ˆ − χ σ · σ − σ iii. i y ii son independientes Entonces: [ ] k n , R 2 1 1 2 F ~ ) k n ( e ' e R / ) r ˆ C ( ' C ) X ' X ( C )' r ˆ C ( − − − − σ − β σ − β k n , R 1 1 2 F ~ ) r ˆ C ( ) ' C ) X ' X ( C ˆ ( )' r ˆ C ( R 1 − − − − β σ − β Rech H si F calculado > F de tabla 0 α Volvamos al Ejemplo 1 Siguiendo con el ejemplo de la función de producción Cobb-Douglas, retomemos la prueba de algunas hipótesis importantes: H 0 : β 2 = 0 H 1 : β 2 ≠ 0 C = [0 1 0] r = 0 R = 1 122 k n , R 1 1 2 F ~ ) r ˆ C ( ) ' C ) X ' X ( C ˆ ( )' r ˆ C ( R 1 − − − − β σ − β 3 n , 1 2 33 32 31 23 22 21 13 12 11 2 2 F ~ ˆ 0 1 0 a a a a a a a a a ) 0 1 0 ( ˆ ˆ 1 − 1 1 1 1 ] 1 ¸ β 1 1 1 ] 1 ¸ , _ ¸ ¸ , _ ¸ ¸ σ β − ( ) 3 n , 1 2 1 0 1 0 23 22 21 2 2 F ~ ˆ a a a ˆ ˆ − − , _ ¸ ¸ β 1 1 ] 1 ¸ σ β [ ] 3 n , 1 2 1 22 2 2 F ~ ˆ a ˆ ˆ − − β σ β ˆ β 2 2 ˆ σ 2 a 22 ~ F 1, n−3 • Mediante el cálculo de los residuos libres y restringidos. Se puede demostrar que: [ ] ) C ˆ C ( C ) X ' X ( C )' C ˆ C ( e ' e e ~ ' e ~ 1 1 1 β − β β − β · − − − donde e ~ ' e ~ es suma de cuadrados restringida, es decir, los obtenidos de la regresión en la que se impone H 0 (la restricción). Entonces, tenemos que: 2 k n 2 2 ) R k ( n 2 ~ e ' e y ~ e ~ ' e ~ − − − χ σ χ σ Por lo que 2 R 2 ) k n ( ) R k ( n 2 ~ e ' e e ~ ' e ~ χ · χ σ − − − − − k n , R 2 2 2 k n 2 2 R 2 F ~ k n / e ' e R / e ' e e ~ ' e ~ ntes independie • ~ e ' e • ~ e ' e e ~ ' e ~ • − − − σ σ − ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ; ¹ χ σ χ σ − Con lo que: 123 k n , R F ~ k n / e ' e R / ) e ' e e ~ ' e ~ ( − − − Etapas: 1. Se estima regresión restringida (imponiendo que se cumpla la hipótesis nula) y se obtiene la SCR restringida→ ˜ e ' ˜ e 2. Se estima regresión libre (sin imponer que se cumpla la hipótesis nula) y se obtiene la SCR libres→ e' e' 3. Se calcula el estadístico ) k n /( e ' e R / ) e ' e e ~ ' e ~ ( F − − · Si F > F TABLA rech H 0 (Rech que la restricción sea valida si la suma se reduce mucho al calcular dicho estadístico) rech H 0 • Mediante el coeficiente de determinación, R 2 Una tercera forma equivalente de probar la misma hipótesis es: · − − − − − · − − ∑ ∑ ∑ k n y R 1 ( R y ) R 1 ( y ) R ~ 1 ( k n e ' e R e ' e e ~ ' e ~ 2 2 2 2 2 2 [ ] [ ] ) k n /( ) R 1 ( R / R 1 R ~ 1 ) k n /( ) R 1 ( R / ) R 1 ( ) R ~ 1 ( 2 2 2 2 2 2 − − + − − · − − − − − · k n , R 2 2 2 F ~ ) k n /( ) R 1 ( R / ) R ~ R ( − − − − · 3.5.6 Estabilidad y Cambio Estructural Volvamos al ejemplo de la función de producción para Chile en el período 1960-97 lnY i = β 1 + β 2 lnL i + β 3 lnK i + µ i 124 Tenemos la hipótesis a priori que la función de producción difiere según períodos; por ejemplo: 1960-74 → I 1 β , I 2 β , I 3 β 1975-97 → II 1 β , II 2 β , II 3 β n = 38 y tenemos dos submuestras: n I = 15 y n II = 23 Y I = X I β I + µ I Y II = X II β II + µ II II I 0 II I 0 : H : H β ≠ β β · β Modelo restringido: los parámetros del primer período coinciden con los del segundo. µ + β 1 1 ] 1 ¸ · 1 ] 1 ¸ ⇒ µ + β · X X Y Y X Y II I II I Es decir se supone que hay un solo modelo a lo largo del período y se obtiene SCR restringida, e ~ ' e ~ Modelo libre (no restringido): Se corren dos regresiones: una para el primer período y otra para el segundo. 1 ] 1 ¸ µ µ + 1 ] 1 ¸ β β 1 ] 1 ¸ · 1 ] 1 ¸ II I II I II I II I X 0 0 X Y Y SCR libre = e'e = SCR I + SCR II = (e'e) I + (e'e) II 125 Asumiendo la distribución bajo la nula, V(µ I ) = V(µ II ) = σ 2 Luego: k 2 n , k F ~ k 2 n e ' e R e ' e e ~ ' e ~ − − − Grados de Libertad Numerador: R = número de restricciones (k, se impone que los k parámetros sean iguales entre períodos). También puede deducirse como: gl de e ~ ' e ~ - gl de e'e gl de e ~ ' e ~ = n - k gl de e'e = gl de (e'e) I + gl de (e'e) II = n 1 – k + n 2 – k = n 1 + n 2 – 2k = n-2k gl numerador = n - k – (n-2k ) = k Denominador: gl de e'e = n-2k El Test de Chow es un caso particular del test de cambio estructural. Chow discutió dos situaciones peculiares: n II = k y n II < k. iv. Un Ejemplo Numérico del test Cβ Supongamos que estamos interesados en estimar el siguiente modelo: Y i = β 1 + β 2 X i2 + β 3 X i3 + µ i con los siguientes datos: 126 1 1 1 1 1 1 ] 1 ¸ · 5 3 8 1 3 Y 1 1 1 1 1 1 ] 1 ¸ · 6 4 1 4 2 1 6 5 1 4 1 1 5 3 1 X , luego 1 1 1 ] 1 ¸ − − − − · − 5 . 2 5 . 1 8 5 . 1 1 5 . 4 8 5 . 4 7 . 26 ) X ' X ( 1 Con estos datos se estima la regresión: LS // Dependent Variable is Y Included observations: 5 Variable Coefficient Std. Error t-Statistic Prob. C 4.000000 4.474930 0.893869 0.4657 X1 2.500000 0.866025 2.886751 0.1020 X2 -1.500000 1.369306 -1.095445 0.3876 R-squared 0.946429 Mean dependent var 4.000000 Adjusted R-squared 0.892857 S.D. dependent var 2.645751 S.E. of regression 0.866025 Akaike info criterion -0.003973 Sum squared resid 1.500000 Schwarz criterion -0.238310 Log likelihood -4.084760 F-statistic 17.66667 Durbin-Watson stat 1.666667 Prob(F-statistic) 0.053571 y podemos calcular SCE=26.5 y SCT=28 Ejemplos: 1. Significación conjunta de X 2 y X 3 Ho: β 2 =β 3 =0 F= 67 . 17 3 5 5 . 1 1 3 5 . 26 k n SCR 1 k SCE · − − · − − Como F 0.95 (2,2)=19, la F muestral es menor que el valor critico⇒ no rechazo Ho. 2. Significación de X 3 Ho: β 3 =0 Una forma de probarlo es con un test de hipótesis simple. Observando la salida de E-Views se concluye que este parámetro es no significativo. 127 Otra forma de probar esto es estimando la regresión restringida (es decir aquella donde se supone válida la hipótesis nula). LS // Dependent Variable is Y Included observations: 5 Variable Coefficient Std. Error t-Statistic Prob. C -0.800000 0.938083 -0.852803 0.4564 X1 1.600000 0.282843 5.656854 0.0109 R-squared 0.914286 Mean dependent var 4.000000 Adjusted R-squared 0.885714 S.D. dependent var 2.645751 S.E. of regression 0.894427 Akaike info criterion 0.066031 Sum squared resid 2.400000 Schwarz criterion -0.090194 Log likelihood - 5.259770 F-statistic 32.00000 Durbin-Watson stat 1.366667 Prob(F-statistic) 0.010938 Como ahora la SCR=2.4 ⇒ ' e ~ ' e ~ =2.4 Luego, podemos utilizar el estadístico: F= 2 . 1 3 5 5 . 1 1 5 . 1 4 . 2 k n / e ' e R / ) e ' e e ~ ' e ~ ( · − − · − − F 0.95 (1,2)=18.51, la F muestral es menor que el valor critico⇒ no rechazo Ho. 3. Los coeficientes de X2 y X3 son de igual magnitud pero de signo opuesto Ho: β 2 +β 3 =0 o en términos generales: C=[ ] 1 1 0 r=0 con R=1 Sabemos que: F= k n , R 1 1 2 F ~ ) r ˆ C ( ) ' C ) X ' X ( C ˆ ( )' r ˆ C ( R 1 − − − − β σ − β F= ( ) ( ) 1 1 1 ] 1 ¸ − , _ ¸ ¸ β β β ¹ ¹ ¹ ; ¹ ¹ ¹ ¹ ' ¹ , _ ¸ ¸ 1 1 1 ] 1 ¸ − − − − 1 1 1 ] 1 ¸ − , _ ¸ ¸ β β β − 0 ˆ ˆ ˆ 1 1 0 1 1 0 875 . 1 125 . 1 6 125 . 1 75 . 0 37 . 3 6 37 . 3 02 . 20 ) 1 1 0 ( ' 0 ˆ ˆ ˆ 1 1 0 1 1 3 2 1 1 3 2 1 128 ( ) ( ) ( ) 5 . 1 5 . 2 1 1 0 875 . 1 125 . 1 125 . 1 75 . 0 6 37 . 3 ' 5 . 1 5 . 2 1 − 1 1 1 ] 1 ¸ , _ ¸ ¸ + − − − − − F= [ ] 66 . 2 375 . 0 1 1 875 . 1 125 . 1 125 . 1 75 . 0 1 2 1 · · + − − − Dado que el valor del test F es muy pequeño, rechazo la hipótesis nula. 4. Región de confianza conjunta para β 2 y β 3 Sabemos que k n , R 1 1 2 F ~ ) C ˆ C ( ) ' C ) X ' X ( C ˆ ( )' C ˆ C ( R 1 − − − β − β σ β − β , luego podemos utilizar este resultado para construir regiones de confianza de los test. Distintas especificaciones de R, darán diferentes regiones de confianza para grupos de parámetros. Supongamos que nos interesa conocer la región en que se cumple que β 2 y β 3 son conjuntamente significativos. Ho: β 2 =β 3 =0 Luego, , _ ¸ ¸ · 1 0 0 0 1 0 C y R=2 F= k n e ' e R ) C ˆ C ( ) ' C ) X ' X ( C ( )' C ˆ C ( ) C ˆ C ( ) ' C ) X ' X ( C ˆ ( )' C ˆ C ( R 1 1 1 1 1 2 − β − β β − β · β − β σ β − β − − − − F= 75 . 0 2 ˆ ˆ ˆ 1 0 0 0 1 0 1 0 0 1 0 0 5 . 2 5 . 1 8 5 . 1 1 5 . 4 8 5 . 4 7 . 26 1 0 0 0 1 0 ' ˆ ˆ ˆ 1 0 0 0 1 0 3 2 1 3 2 1 1 3 2 1 3 2 1 1 1 1 ] 1 ¸ 1 1 1 ] 1 ¸ , _ ¸ ¸ β β β − , _ ¸ ¸ β β β , _ ¸ ¸ ¹ ¹ ¹ ; ¹ ¹ ¹ ¹ ' ¹ , _ ¸ ¸ 1 1 1 ] 1 ¸ − − − − , _ ¸ ¸ 1 1 1 ] 1 ¸ 1 1 1 ] 1 ¸ , _ ¸ ¸ β β β − , _ ¸ ¸ β β β , _ ¸ ¸ − F= ( ) , _ ¸ ¸ β − β β − β ¹ ¹ ¹ ; ¹ ¹ ¹ ¹ ' ¹ , _ ¸ ¸ , _ ¸ ¸ − − − β − β β − β − 3 3 2 2 1 3 3 2 2 ˆ ˆ 1 0 0 1 0 0 5 . 2 5 . 1 8 5 . 1 1 5 . 4 ˆ ˆ 5 . 1 1 129 F= ( ) ( ) , _ ¸ ¸ β − β β − β , _ ¸ ¸ β − − β − · , _ ¸ ¸ β − β β − β , _ ¸ ¸ − − β − β β − β − 3 3 2 2 3 2 3 3 2 2 1 3 3 2 2 ˆ ˆ 4 6 6 10 5 . 1 5 . 2 5 . 1 1 ˆ ˆ 5 . 2 5 . 1 5 . 1 1 ˆ ˆ 5 . 1 1 F= 5 . 1 4 10 12 18 32 5 . 26 2 3 2 2 3 2 3 2 β + β + β β + β − β − Eligiendo, por ejemplo, el valor crítico de F al 5 por ciento tenemos: Pr {F<F 0.95 }=0.95, y F(2,2)=19 Entonces, haciendo F= F 0.95 se tiene 5 . 1 4 10 12 18 32 5 . 26 2 3 2 2 3 2 3 2 β + β + β β + β − β − =19, es decir 0 2 18 32 12 4 10 3 2 3 2 2 3 2 2 · − β − β − β β + β + β . Esta es la ecuación de una elipse. Este procedimiento permite establecer una elipse de confianza al 95% para los parámetros β que son desconocidos. La elipse está centrada en el punto estimado 5 . 2 ˆ 2 · β y 5 . 1 ˆ 3 − · β . 3 β 2 ˆ β El origen (0,0) se encuentra dentro de la elipse, lo que significa que, con un 95% de confianza, no se puede rechazar la hipótesis de que ambos parámetros son cero en forma conjunta. 130 Es importante observar : • que la elipse cambia de forma en función de la covarianza entre los parámetros estimados 2 ˆ β y 3 ˆ β . Si 0 ) ˆ , ˆ cov( 3 2 < β β la elipse se inclina hacia la izquierda, mientras que si 0 ) ˆ , ˆ cov( 3 2 > β β se inclina hacia la derecha. • que los límites que se obtienen en forma conjunta para 2 ˆ β y 3 ˆ β son distintos a los que se obtienen en intervalos de confianza individuales. Es perfectamente posible que utilizando test individuales se concluya que los parámetros son individualmente no significativos, pero testeando conjuntamente la hipótesis de que ambos parámetros son cero esta sea rechazada por obtener un elipse tal que el punto (0,0) este fuera de la misma. En ese caso uno puede decir que al menos uno de los parámetros tiene suficiente influencia sobre la variable explicativa, pero no puede asignar esa influencia a uno de los parámetros en particular. 131 3.6 PREDICCION Para predecir debemos recurrir a los parámetros estimados dentro de la muestra: ik k 3 i 3 2 i 2 1 i X ˆ . . . X ˆ X ˆ ˆ Y ˆ β + + β + β + β · i = 1 ....... n 1 k k n 1 n ˆ X Y ˆ × × × β · El interés en general es pronosticar el valor de Y en un período posterior a n (por ejemplo el período que denominaremos 0). Si el interés está en predecir Y 0 se hablará de predicción individual. Si, alternativamente, se predice E(Y 0 /X), hablaremos de predicción media o promedio. Ambas alternativas dan lugar a la misma predicción puntual, pero diferentes intervalos de confianza, ya que difieren en la varianza del error de predicción. Ello por cuanto en ambos casos se utiliza para predecir la siguiente ecuación: k 0 k 03 3 02 2 1 i X ˆ . . . X ˆ X ˆ ˆ Y ˆ β + + β + β + β · Es fácil probar que 0 Y ˆ es un estimador insesgado de E(Y 0 /X) ) Y ( E ) Y ˆ ( E 0 0 · (porque 0 Y ˆ e Y 0 son V.A.) 0 k 0 k 02 2 1 0 u X X Y + β + … + β + β · (verdadero valor) k 0 k 02 2 1 0 k 0 k 02 2 1 0 k 0 k 02 2 0 0 X X ) u ( E X X ) u X X ( E ) X / Y ( E • β + … + β + β · + β + … + β + β · + β + … + β + β · k 0 k 02 2 1 k 0 k 02 2 1 k 0 k 02 2 1 0 0 X X X ) ˆ ( E X ) ˆ ( E ) ˆ ( E ) X ˆ X ˆ ˆ ( E ) X / Y ˆ ( E • β + … + β + β · · β + … + β + β · · β + … + β + β · 132 Es decir: ˆ Y 0 en promedio estará sobre Y 0 promedio. El punto clave es realizar una proyección correcta de las variables explicativas y verificar si es correcto usar ˆ β i históricos hacia adelante. Que E( 0 Y ˆ ) = E(Y 0 ) (no hay sesgo), no implica que no exista error de predicción, Error de predicción = e 0 = Y 0 - 0 Y ˆ (escalar) 1 x 1 0 1 kx xk 1 ' 0 0 k 0 k 02 2 1 0 k 0 k 02 2 1 0 u ) ˆ ( X e X ˆ X ˆ ˆ u X X e + β − β · β … … β − β − + β + … + β + β · • ¿Cuál es el valor esperado del error de predicción? [ ] 0 ) u ( E ) ˆ ( X E ) u ) ˆ ( X ( E ) e ( E 0 ' 0 0 ' 0 0 · + β − β · + β − β · E(e 0 ) = 0 • ¿Cuál es la varianza de e 0 ? V(e 0 ) = ) u ) ˆ ( X ( V 0 ' 0 + β − β = [ ] [ ] 0 ' 0 0 ' 0 u ) ˆ ( X Cov 2 ) u ( V ) ˆ ( X V β − β + + β − β La covarianza está en función de dos variables aleatorias (β ˆ y µ 0 ). β ˆ es función de los (i=1 hasta n) y µ 0 es un error aleatorio posterior a n. Por lo tanto, COV (µ i ,µ 0 )=0 por el supuesto de no autocorrelación de los errores y [ ] 0 ' 0 u ), ˆ ( X Cov β − β =0 = [ ] 2 ' 0 ) ˆ ( X V σ + β − β = [ ][ ] { } 2 ' 0 ' 0 ' ) ˆ ( X ) ˆ ( X E σ + β − β β − β = [ ] 2 0 ' 0 X )' ˆ )( ˆ ( X E σ + β − β β − β = 2 0 ' 0 X )' ˆ )( ˆ ( E X σ + β − β β − β = 2 0 ' 0 X ) ˆ ( V X σ + β = X ) X ' X ( • X 2 0 1 2 ' 0 σ + σ − 133 = [ ] 1 X ) X ' X ( X 0 1 ' 0 2 + σ − • ¿Cómo podemos obtener un intervalo de confianza para Y 0 ? • ¿Cómo se distribuye e 0 ? 0 ' 0 0 u ) ˆ ( X e + β − β · ) I , 0 ( N ~ u 2 σ ) ) X ' X ( , ( N ~ ˆ 1 2 − σ β β [ ] [ ] ) e ( V , 0 N ~ e ) 1 X ) X ' X ( X ( , 0 N ~ e 0 0 0 1 ' 0 2 0 + σ − 1 X ) X ' X ( X ) e ( DS 0 1 ' 0 0 + σ · − k n 0 1 ' 0 0 2 k n 2 2 2 0 0 0 t ~ 1 X ) X ' X ( X ˆ e ~ ) k n ( ˆ k n e ' e ˆ ) 1 , 0 ( N ~ ) e ( DS ) e ( E e − − − + σ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ; ¹ χ − σ σ − · σ − Con lo que k n 0 0 t ~ ) e ( ˆ DS e − • Intervalo de confianza para el error de predicción. Esto nos permite hacer un intervalo para el error de predicción. [ ] α − · ≤ ≤ − α − · 1 ] 1 ¸ ≤ ≤ − α α α α 1 ) e ( ˆ DS • t e ) e ( ˆ DS • t P 1 t ) e ( ˆ DS e t P 0 2 / 0 0 2 / 2 / 0 0 2 / ) e ( ˆ DS • t ) e ( INT 0 2 / 0 α t · 134 • Intervalo de confianza para Y 0 Como e 0 = Y 0 - ˆ Y 0 , podemos obtener un intervalo de confianza para Y 0 INT (e 0 ) = INT (Y 0 - ˆ Y 0 ) ) e ( ˆ DS • t ) Y ˆ Y ( INT 0 2 / 0 0 α t · − ) e ( ˆ DS • t Y ˆ ) Y ( INT 0 2 / 0 0 α t · Tarea: Demostrar que el intervalo de predicción para una regresión simple es ∑ − + + σ t · α 2 i 2 0 2 / 0 0 x ) X X ( N 1 1 ˆ t Y ˆ Y En algunos casos interesa predecir ) X / Y ˆ ( E β · ˆ X ) Y ( E ' 0 0 ) ˆ ( X ˆ X X ) Y ˆ ( E ) Y ( E e ' 0 ' 0 ' 0 0 0 0 β − β · β − β · − · [ ] 0 1 ' 0 2 0 1 2 ' 0 ' 0 0 X ) X ' X ( X X ) X ' X ( X ) ˆ ( X V ) e ( V − − σ · σ · β − β · Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 135 4 4. . V VA AR RI IA AB BL LE ES S F FI IC CT TI IC CI IA AS S O O D DU UM MM MY Y O O B BI IN NA AR RI IA AS S O O D DI IC CO OT TÓ ÓM MI IC CA AS S Variable dependiente = f (variables cualitativas como sexo, raza, religión, nacional o extranjero, etc) En estos casos se utiliza una variable explicativa dicotómica. solo puede adoptar dos valores. 1 o 0. Si la variable adopta más de dos valores, también puede convertirse fácilmente en dicotómica. 4.1 MODELOS ALTERNATIVOS. Ejemplo 1: Unica Variable Explicativa es una variable dummy. ¹ ' ¹ · mujer es alumno el si 1 hombre es alumno el si 0 S i N i = β 1 + β 2 S i + µ i para i =1,2, ....n donde N i es nota en curso de Econometría y S i es una variable dummy (única variable explicativa) que representa el sexo del alumno. ¿Nota esperada para alumnas mujeres? E(N i /mujer) = E(N i / S i =1) = β 1 + β 2 (nota esperada para una mujer) ¿Nota esperada para alumnos hombres? E(N i /hombre) = E(N i / S i =0) = β 1 (nota esperada para un hombre) ¿Cómo se prueba que no hay diferencias de notas asociadas al sexo? H 0 : β 2 ≤0 H 1 : β 2 > 0 (las mujeres muestran en mayor nota promedio) Podemos estimar β 1 y β 2 y luego realizar una prueba de hipótesis sobre diferencia de resultados según sexo. 2 n 2 2 t ~ ) ˆ ( ˆ DS ˆ − β β − β Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 136 Observación Ni E(Ni) 1 β 2 1 β + β con β 2 > 0 2 β Ejemplo 2: Una variable cualitativa y otra cuantitativa Variable Dependiente = f(Intercepto, Variable Cualitativa, Variable Cuantitativa) La nota en econometría podría ser función del PPA. N i = β 1 + β 2 S i + β 3 PPA i + µ i para i =1,2, ....n E(N i /mujer) = E(N i / S i =1) = β 1 + β 2 + β 3 PPA i (nota esperada para una mujer) E(N i /hombre) = E(N i / S i =0) = β 1 + β 3 PPA i (nota esperada para un hombre) H 0 : β 2 ≤ 0 H 1 : β 2 > 0 (las mujeres muestran en mayor nota promedio) PPA i nota i 3 1 PPA β + β i 3 2 1 PPA β + β + β 2 β Supuestos: β 2 > 0 β 3 igual para ambos sexos Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 137 Ejemplo 3: Dos variables cualitativas Variable Dependiente = f(Intercepto, dos Variables Cualitativas) La nota en econometría podría ser función del sexo y de la nacionalidad (por ejemplo extranjero versus chileno). N i = β 1 + β 2 S i + β 3 E i + µ i para i =1,2, ....n ¹ ' ¹ · extranjero es alumno el si 1 chileno es alumno el si 0 E i E(N i /hombre, chileno) = E(N i / S i =0, E i =0) = β 1 (nota esperada para un hombre chileno) E(N i /hombre, extranjero) = E(N i / S i =0, E i =1) = β 1 + β 3 (nota esperada para un hombre extranjero) E(N i /mujer, chilena) = E(N i / S i =1, E i =0) = β 1 + β 2 (nota esperada para una mujer chilena) E(N i /mujer,extranjera) = E(N i / S i =1, E i =1) = β 1 + β 2 + β 3 (nota esperada para una mujer extranjera) Ejemplo 4: Interacción entre una variable cuantitativa y una cualitativa. Con la especificación planteada en el ejemplo 2, se esta suponiendo que el efecto “diferencial” asociado al sexo es constante, independiente del nivel de PPA i . Es posible que la PPAi dependa del sexo. N i = β 1 + β 2 S i + β 3 PPA i + β 4 PPA i * S i + µ i para i =1,2, ....n H 0 : β 2 = β 4 = 0 (hombres y mujeres tienen nota similar) H 1 : Algún β i ≠ 0 (el sexo explica diferencias de notas) Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 138 Otra hipótesis a probar es si la influencia de la PPA en la nota en Econometría es la misma, independiente del sexo. H 0 : β 4 = 0 (hombres y mujeres tiene nota similar) H 1 : β 4 ≠ 0 (el sexo genera efecto diferencial de la PAA) PPA nota i 3 1 PPA β + β 2 β Supuestos: β 2 > 0 β 4 > 0 1 β i 4 3 2 1 PPA ) ( ) ( β + β + β + β Ejemplo 5: Variables Cualitativas Politómicas ¹ ' ¹ · resto el en 0 nce costarrice es alumno el si 1 CR i ¹ ' ¹ · resto el en 0 uruguayo es alumno el si 1 U i ¹ ' ¹ · resto el en 0 ad nacionalid otras de es alumno el si 1 R i Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 139 Uruguayo .Resto Costa Rica Nota Uru CR Resto i i 4 i 3 i 2 1 i u CR UR R N + β + β + β + β · Sin embargo, la regresión anterior no puede estimarse porque la matriz X no es de rango completo por columnas. 1 1 1 1 1 1 1 1 ] 1 ¸ · 1 0 0 1 1 0 0 • 0 1 0 • 0 1 0 • 0 0 1 1 0 0 1 1 X i CR i UR i R R i + U i + CR i = 1 (las tres variables dummy sumadas dan lugar a la columna 1) r (X) < k ⇒ X’X no es invertible Posibles soluciones i) Eliminar el intercepto i i 4 i 3 i 2 i u CR U R N + α + α + α · ii) Eliminar una de las variables dummy. i i 3 i 2 1 i u CR U N + δ + δ + δ · Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 140 ¿Cuáles son las notas esperadas? En la alternativa i): 2 i i i i resto) del alumno , 0 CR , 0 U , 1 R / N ( E α · · · · 3 i i i i uruguayo) alumno , 0 CR , 0 R , 1 U / N ( E α · · · · 4 i i i i nce) costarrice alumno , 0 U , 0 R , 1 CR / N ( E α · · · · En la alternativa ii): 1 i i i i resto) del alumno , 0 CR , 0 U , 1 R / N ( E δ · · · · 2 1 i i i i uruguayo) alumno , 0 CR , 0 R , 1 U / N ( E δ + δ · · · · 3 1 i i i i nce) costarrice alumno , 0 U , 0 R , 1 CR / N ( E δ + δ · · · · ¿Qué diferencia tiene i) y ii)? De interpretación de los coeficientes. i) α 3 refleja la nota esperada para un alumno uruguayo. ii) δ 2 refleja en cuánto difiere la nota de un uruguayo de la de un alumno “resto”. ¿Cómo realizar algunas pruebas de hipótesis? Con pruebas individuales o conjuntas. 4.2 VARIABLES DUMMY PARA DESESTACIONALIZAR En general, toda serie económica contiene cuatro componentes: Z = C + T + S +I donde : Z es la serie original C es el ciclo (podría aproximarse por funciones trigonométricas) T es la tendencia (en función del tiempo) S es la estacionalidad o el efecto en la variable originado por factores asociados al calendario (por ejemplo la actividad económica declina en febrero producto de las vacaciones) I es la parte irregular o ruido blanco que no responde a ningún patrón determínistico. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 141 Identifiquemos en la serie “dinero real” estos componentes. DINERO: DISTINTOS COMPONENTES 200000 250000 300000 350000 400000 450000 500000 550000 600000 650000 700000 8 6 - I 8 7 - I 8 8 - I 8 9 - I 9 0 - I 9 1 - I 9 2 - I 9 3 - I 9 4 - I 9 5 - I 9 6 - I 9 7 - I 9 8 - I M1A serie original Ciclo Tendencia Sabemos que el comportamiento de largo plazo del dinero (componente tendencia-ciclo) depende de una variable de escala (ingreso) y del costo de mantenerlo (tasa de interés nominal). Pero además la trayectoria del dinero esta afectada por factores estacionales (por ejemplo aumenta fuertemente en septiembre por fiestas patrias o en diciembre, etc). (M/P) d = f(ingreso, tasa de interés, factores estacionales, componente irregular) Los efectos estacionales pueden aproximarse a través de variables dummy. ln (M/P) = β 1 + β 2 lnY i + β 3 i i + β 4 D 1i + β 5 D 2i + β 6 D 3i + β 7 D 4i + µ i ¹ ' ¹ · resto el en 0 primero el es trimestre el si 1 D 1 ¹ ' ¹ · resto el en 0 segundo el es trimestre el si 1 D 2 ¹ ' ¹ · resto el en 0 tercero el es trimestre el si 1 D 3 ¹ ' ¹ · resto el en 0 cuarto el es trimestre el si 1 D 4 Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 142 Sin embargo, la regresión anterior no puede estimarse porque la matriz X no es de rango completo por columnas. D 1 D 2 D 3 D 4 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 ] 1 ¸ · 1 0 0 0 i Y ln 1 . . . . . . . . . . . . . . . . . . . . . 1 0 0 0 i Y ln 1 0 1 0 0 i Y ln 1 0 0 1 0 i Y ln 1 0 0 0 1 i Y ln 1 1 0 0 0 i Y ln 1 0 1 0 0 i Y ln 1 0 0 1 0 i Y ln 1 0 0 0 1 i Y ln 1 X n n 8 8 7 7 6 6 5 5 4 4 3 3 2 2 1 1 D 1 + D 2 + D 3 + D 4 = 1 (las cuatro variables dummy son una combinación lineal que dan lugar a la columna 1) r (X) < k ⇒ X’X no es invertible Posibles soluciones i) Eliminar el intercepto ln (M/P) = β 2 lnY i + β 3 i i + β 4 D 1i + β 5 D 2i + β 6 D 3i + β 7 D 4i + µ i E[ ln(M/P)/ D 1i =1; D 2i = 0; D 3i = 0; D 4i = 0] = β 2 lnY i + β 3 i i + β 4 E[ ln(M/P)/ D 2i =1; D 1i = 0; D 3i = 0; D 4i = 0] = β 2 lnY i + β 3 i i + β 5 E[ ln(M/P)/ D 3i =1; D 1i = 0; D 2i = 0; D 4i = 0] = β 2 lnY i + β 3 i i + β 6 E[ ln(M/P)/ D 4i =1; D 1i = 0; D 2i = 0; D 3i = 0] = β 2 lnY i + β 3 i i + β 7 Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 143 ii) Eliminar una de las variables dummy ln (M/P) = β 1 + β 2 lnY i + β 3 i i + β 4 D 1i + β 5 D 2i + β 6 D 3i + β 7 D 4i + µ i En este caso si existe estacionalidad en el cuarto trimestre, el efecto será captado por el intercepto. E[ ln(M/P)/ D 1i =1; D 2i = 0; D 3i = 0] = β 1 + β 2 lnY i + β 3 i i + β 4 E[ ln(M/P)/ D 2i =1; D 1i = 0; D 3i = 0] = β 1 + β 2 lnY i + β 3 i i + β 5 E[ ln(M/P)/ D 3i =1; D 1i = 0; D 2i = 0] = β 1 + β 2 lnY i + β 3 i i + β 6 E[ ln(M/P)/ D 1i =1; D 2i = 0; D 3i = 0] = β 1 + β 2 lnY i + β 3 i i iii) Suponer que la suma de los efectos estacionales es cero. β 4 + β 5 + β 6 + β 7 = 0 ln (M/P) = β 1 + β 2 lnY i + β 3 i i + β 4 D 1i + β 5 D 2i + β 6 D 3i + (-β 4 - β 5 - β 6 ) D 4i + µ i ln (M/P) = β 1 + β 2 lnY i + β 3 i i + β 4 (D 1i - D 4i ) + β 5 (D 2i - D 4i ) + β 6 (D 3i - D 4i ) + µ i iv) Desestacionalizar las series utilizadas. Por ejemplo en E-Views el comando SEAS elimina los efectos estacionales. SEAS Y YSA donde YSA es la series desestacionalizada. Luego se corre la regresión con las series desestacionalizadas. Por ejemplo: ln (M/PSA i ) = β 1 + β 2 lnYSA i + β 3 iSA i + µ i 4.3 VARIABLES DUMMY PARA DETECTAR CAMBIO ESTRUCTURAL Recordar test de cambio estructural CP i = β 1 + β 2 Y i + µ i Chile 1960 - 1997 Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 144 II I II I H H β β β β : : 1 0 ≠ · Supongamos que intuimos que hubo cambio estructural en 1974 producto del proceso de apertura comercial iniciado por el país. 1960-74 → I 1 β , I 2 β 1975-97 → II 1 β , II 2 β Podríamos definir: ¹ ¹ ¹ ' ¹ − − · ) 97 75 ( abierta es economía si 1 ) 74 60 ( cerrada es economía si 0 D i Planteamos un modelo más general: C i · β 1 + β 2 D i + β 3 Y i + β 4 D i Y i + u i E(C i / D i · 0, Y i ) · β 1 + β 3 Y i E(C i / D i · 1, Y i ) · (β 1 + β 2 ) + (β 3 + β 4 ) Y i β 2 es el intercepto diferencial β 4 es la pendiente diferencial H 0 : β 2 = β 4 · 0 H 1 : Algún β ι ≠ 0 Efectuar la prueba de la hipótesis anterior es absolutamente equivalente al test de cambio estructural presentado anteriormente. Sin embargo, utilizar variables dummy para verificar cambio estructural tiene una ventaja importante: indica en forma precisa cuál parámetro es diferente. En el ejemplo anterior podríamos identificar si cambió el intercepto o la pendiente o ambos. El procedimiento basado en los residuos o en el test Cβ sólo reportaba si había estructural, sin especificar en qué parámetro(s) se produjo. También es posible efectuar pruebas individuales e identificar en que parámetro se produjo el cambio estructural. H 0 : β 2 = 0 H 1 : β 2 ≠ 0 H 0 : β 4 = 0 Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 145 H 1 : β 4 ≠ 0 4.4 VARIABLES DUMMY PARA CORREGIR OUTLIERS. Un outlier es un error anormal. Su valor absoluto es largamente superior al desvío estándar de la regresión. Los parámetros estimados pueden estar fuertemente distorsionados considerando la presencia del outlier. ln (M/P) = β 1 + β 2 lnY i + β 3 i i + β 4 D 1i + β 5 D 2i + β 6 D 3i + β 7 D 4i + β 8 D 5i + β 9 D 6i + β 9 D 7i + β 10 D 8i + β 11 D 9i + β 12 D 10i + β 13 D 11i + µ i Aquí utilizamos 11 dummies para captar estacionalidad por tratarse de datos mensuales. ECUACIÓN ESTIMADA PARA LA DEMANDA POR DINERO -0.05 0.00 0.05 0.10 0.15 0.20 12.0 12.5 13.0 13.5 87 88 89 90 91 92 93 94 95 96 97 98 Residual Actual Fitted Se percibe que en marzo de 1992 tenemos un residuo anormal: casi 0.15 en circunstancias que el desvío estándar de la regresión es de 0.023. Existe justificación para controlar ese residuo anormal a través de la inclusión de una dummy. ¹ ¹ ¹ ' ¹ · · resto. el en 0 1992 de marzo i si 1 923 D ln (M/P) = β 1 + β 2 lnY i + β 3 i i + β 4 D 1i + β 5 D 2i + β 6 D 3i + β 7 D 4i + β 8 D 5i + β 9 D 6i + β 9 D 7i + β 10 D 8i + β 11 D 9i + β 12 D 10i + β 13 D 11i + β 14 D923 + µ i Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 146 ECUACIÓN ESTIMADA PARA LA DEMANDA POR DINERO (Incluyendo la Variable Dummy D923) -0.04 -0.02 0.00 0.02 0.04 0.06 12.0 12.5 13.0 13.5 87 88 89 90 91 92 93 94 95 96 97 98 Residual Actual Fitted A primera vista, parecería que el numero de outliers hubiera aumentado. Sin embargo, debe considerarse que la banda se estrechó producto de la disminución del desvío estándar de la regresión (desde 0.023 a 0.017). Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 147 5 5. . M MU UL LT TI IC CO OL LI IN NE EA AL LI ID DA AD D 5.1 INTUICIÓN El estimador MICO de un parámetro específico del vector β, no involucra solamente las observaciones de la variable correspondientes a ese β, sino también el resto de las variables independientes. Esto es porque, para obtener estimaciones precisas de la influencia de una variable sobre otra, se debe tomar en cuenta la influencia simultánea de las otras variables explicativas. Hacer esto asegura que el elemento β j refleja la influencia de la variable independiente j, cuando el efecto de las otras variables se mantiene constante. • Si el modelo a estimar es Y i = β 1 + β 2 X i + u i Y X Y = variación de Y X = variación de X = variación común de Y y X. es la información utilizada para estimar la pendiente β 2 (cuanto mayor ésta área, mayor información es usada y menor su varianza). • Si el modelo incorpora una variable adicional, generalmente habrá una zona en que estas dos variables tienen variabilidad común, lo que denominaremos multicolinealidad o colinealidad ( + ). Y X Z Y i = β 1 + β 2 X i + β 3 Z i + u i Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 148 En la regresión múltiple de Y respecto a X y Z, el estimador MICO utiliza el área ( ) para estimar β 2 y el área ( ) para estimar β 3 . Esto implica que el área común ahora es desechada, esto es porque no es posible saber a-priori a qué variable (X o Z) atribuirlo. • Si las variables X y Z son ortogonales [covarianza (X, Z) = 0] no hay áreas comunes y los estimadores MICO utilizan sólo los datos de la variable X para estimar β 2 y sólo Z para X 3 . • Si las variables X y Z son muy colineales, el área es muy grande y las áreas ( ) y ( ) son pequeñas, lo que implica que para estimar β 2 y β 3 se utiliza muy poca información. Esto provoca que las varianzas estimadas de estos coeficientes son muy elevadas. • Si hay colinealidad perfecta entre X y Z, el área común abarca todo el círculo (no hay área ( ) y ( )esto implica que no es posible hacer estimaciones. Veamos estos resultados con mayor rigurosidad 5.2 TIPOS DE MULTICOLINEALIDAD Multicolinealidad: es el fenómeno que se produce cuando las variables explicativas tienen alta correlación. Distinguiremos entre dos casos: 1. Multicolinealidad perfecta: la relación entre las variables X y Z es perfecta (Ej X = XZ). 2. Multicolinealidad imperfecta: la correlación entre las variables X y Z es alta, pero no perfecta. Multicolinealidad perfecta Es el fenómeno presente cuando tenemos λ 1 X 1 + λ 2 X 2 + …… + λ k X k · 0 con algún λ i ≠ 0 ⇒ relación perfecta entre variables X i . Ej. :Supongamos el siguiente modelo expresado en desvíos: µ − µ + β + β · x x y 3 3 2 2 donde se tiene que x 3 = λ x 2 Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 149 1 1 1 ] 1 ¸ · 1 1 1 1 1 1 ] 1 ¸ 1 ] 1 ¸ · ∑ ∑ ∑ ∑ • • 2 3 i 3 i 2 i 3 i 2 i 2 2 i 3 n 2 n 23 22 13 12 3 n 23 13 2 n 22 12 x x x x x x x x • • x x x x x x x x x x x ' x Como x 3 = λ x 2 1 1 1 ] 1 ¸ λ λ λ · 1 1 1 ] 1 ¸ λ λ λ · ∑ ∑ ∑ ∑ ∑ 2 2 2 i 2 2 i 2 i 2 i 2 i 2 i 2 2 i 1 x ) x ( x x x x x x ' x Luego, el determinante de x’x es igual a cero (o el rango de x es uno) ⇒ No se puede obtener una solución única para ˆ β Más aún, de las ecuaciones normales sabemos: 1 1 1 ] 1 ¸ β λ + β λ β λ + β · 1 1 1 ] 1 ¸ β β 1 1 1 ] 1 ¸ λ λ λ · β 1 1 1 ] 1 ¸ λ · 1 1 1 ] 1 ¸ · · β ∑ ∑ ∑ ∑ ∑ ∑ ) ˆ ˆ ( x ) ˆ ˆ ( x ˆ ˆ x 1 ˆ ) x ' x ( 1 y x y x y x y ' x : donde y ' x ˆ ) x ' x ( 3 2 2 2 i 3 2 2 2 i 3 2 2 2 i 2 2 i 3 i 2 i Por lo que: : estimar permiten nos y una son ecuaciones dos las y x ) ˆ ˆ ( x y x ) ˆ ˆ ( x 2 i 3 2 2 2 i 2 i 3 2 2 2 i ¹ ¹ ¹ ; ¹ λ · β λ + β λ · β λ + β ∑ ∑ ∑ ∑ ∑ ∑ · β λ + β 2 2 i 2 i 3 2 x y x ˆ ˆ es estimable la combinación, pero no ˆ β 2 y ˆ β 3 . La presencia de multicolinealidad perfecta hace imposible el cálculo de ˆ β 2 y ˆ β 3 en forma independiente. Solo es posible estimar una combinación lineal de esos estimadores. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 150 Otra forma de verlo: 2 3 3 3 2 2 x x ) ( x x y λ · µ − µ + β + β · ) ( x ) ( y ) ( x x y 2 3 2 2 3 2 2 µ − µ + λβ + β · µ − µ + λ β + β · Si definimos 3 2 λβ + β · β , el único parámetro que podremos estimar será ˆ β · x i2 y ∑ x i2 2 ∑ Multicolinealidad imperfecta Hay fuerte asociación entre variables explicativas en la regresión simple: el coeficiente de correlación simple 2 1 x x r es alto ⇒ en la regresión múltiple: el coeficiente de determinación 2 resto x , j x R de una regresión en que una de las variables explicativas x j es explicada por el resto de las variables explicativas j k 2 1 j sin x ) x _____ x , x ( f x ↓ · es alto Ejemplo: Supongamos el mismo modelo anterior expresado en desvíos µ − µ + β + β · x x y 3 3 2 2 donde ahora se tiene que x i3 · ˆ λ x 2i + v i . Es decir que hay una relación entre x i3 y x i2 , pero esta no es perfecta. v i es un término estocástico. 1 1 1 ] 1 ¸ + λ + λ + λ · 1 1 1 ] 1 ¸ · ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ 2 i 2 i i 2 i 2 i i 2 i 2 i 2 2 i 2 3 i 3 i 2 i 3 i 2 i 2 2 i ) v ˆ x ( ) v x ˆ ( x ) v x ˆ ( x x x x x x x x x ' x Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 151 [ ] ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ · λ − + λ · 1 1 ] 1 ¸ + λ λ λ · · 1 1 ] 1 ¸ + λ + λ + λ · 2 i 2 2 i 2 2 i 2 2 i 2 2 i 2 2 i 2 2 i 2 2 i 2 2 2 i 2 2 i 2 2 i i 2 i 2 i 2 2 i 2 i 2 i 2 i i 2 i 2 i 2 2 i v x x x ˆ v x ˆ x ' x det v x ˆ x ˆ x ˆ x x ' x 0 v x que dado y v x ˆ v x x ˆ v x x ˆ x x ' x ⇒ Supongamos que x 2 x 3 son ortogonales ⇒ 1 1 1 ] 1 ¸ · ∑ ∑ 2 3 i 2 2 i x 0 0 x x ' x luego, ∑ ∑ · 2 3 i 2 2 i x x x ' x det ⇒ Sabemos que ) v x ˆ x regresión la de SCR la es v porque ( x v i 2 3 2 i 2 3 i 2 i + λ · < ∑ ∑ y siempre SCT> SCR ⇒ Entonces, concluimos que x x v x 2 3 i 2 2 i 2 1 2 2 i ∑ ∑ ∑ ∑ < y por tanto el determinante cuando existe colinealidad es menor que el determinante bajo Ortogonalidad. A mayor colinealidad ⇒ más pequeños el determinante ( cuanto más grande sea R 2 , más pequeño será ∑ ∑ 2 3 i 2 i x a respecto v ¿Por qué importa el determinante? Porque, 1 1 1 ] 1 ¸ − − · ∑ ∑ ∑ ∑ − x x x x x x ) x ' x det( 1 ) x ' x ( 2 i 3 i 2 i 3 i 2 i 2 3 i 1 y este resultado se utiliza no solo para calcular ˆ β , sino también para var-cov ( ˆ β ). Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 152 5.3 EFECTO DE LA MULTICOLINEALIDAD A NIVEL EMPÍRICO En el modelo con dos variables explicativas. El principal efecto de la empírico de la multicolinealidad se deriva del resultado anterior: 2 3 2 2 2 i 2 3 i 2 2 3 2 3 2 2 3 1 ) x x ( x x D x x x x x x D 1 ) x ' x ( ∑ ∑ ∑ ∑ ∑ ∑ ∑ − · 1 1 ] 1 ¸ − − · − ∑ ∑ ∑ ∑ ∑ ∑ ∑ − σ · − σ · β 2 3 i 2 3 i 2 i 2 2 2 2 3 i 2 i 2 2 2 3 2 3 2 2 x ) x x ( x ) x x ( x x x ˆ Var ( ) , _ ¸ ¸ − σ · − σ · β 2 3 2 2 3 2 2 2 2 3 2 3 2 2 2 2 x var x var n x var ) x x cov( n x var n x var n ) x x ( cov n x var n ˆ Var y recordando 3 x 2 x 3 x , 2 x ) 3 x , 2 x cov( r σ σ · ( ) ( ) r 1 x r x var n x var n ˆ Var 2 x , x 2 2 i 2 2 x , x 2 2 2 2 3 2 3 2 ∑ − σ · − σ · β es decir que la varianza que 2 ˆ β queda dependiendo del grado de correlación entre las variables explicativas (r x 2 , x 3 ). Ceteris paribus, a mayor correlación, mayor varianza del parámetro (intuitivamente este era un resultado conocido) En el Modelo General ) R 1 )( X ( var n ) ˆ ( V 2 j j 2 j − σ · β Tarea: demostrarlo 2 j R = coeficiente de determinación de una regresión entre las variables j y el resto de las variables explicativas. Cuando R j 2 aumenta, la varianza aumenta. Si ∞ ⇒ β ⇒ → ) ˆ ( V 1 R j 2 j Importante: Esta colinealidad puede compensarse por alta varianza X i o por elevado n. Si X i es de baja varianza, el efecto sobre la varianza será igual al que produce la colinealidad. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 153 Un modelo con alta correlación ( R 2 alto), pero σ 2 bajo, puede tener estimaciones confiables para V( ˆ β j ) . Efectos prácticos de la multicolinealidad: 1. Crecimiento varianzas y covarianzas. 2. Intervalos de confianza se amplían. 3. Test t se reducen . bajos t test ) ( V ˆ ) ˆ ( V ) ˆ ( var j j j j ⇒ ↓ β β ⇒ β ↑ ⇒ β ↑ Que los resultados de los test sean mas bajos no necesariamente quiere decir que hay que excluir una variable explicativa. Este resultado puede ser efecto de la multicolinealidad. 4. El R 2 del modelo es alto y los test t de los coeficientes son bajos. 5. Errores numéricos por redondeos de dígitos. 5.4 FORMAS DE DETECTAR LA MULTICOLINEALIDAD Por sus efectos sobre los test. ⇒ R 2 altos y test más bajos. Esto no significa que la multicolinealidad aumente el R 2 . Cuidado: 1. A mayor multicolinealidad no implica mayor R 2 . 2. Alta multicolinealidad no siempre implica test t más bajos, puede compensarse por otros efectos. 3. No es una condición necesaria, ni suficiente para que exista multicolinealidad. ⇒ Test sobre R 2 j Donde R 2 j , es el R 2 de la siguiente regresión i 1 j 1 j 1 j 1 j 2 2 1 j ... X X ... X X µ + + δ + δ + + δ + δ · + + − − Se calcula : Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 154 ) 1 k ( n , 2 k 2 j 2 j j F ) 1 k ( n / ) R 1 ( 2 k / R : F − − − ≈ − − − − cero a diferente una lg a : H 0 , , , : H i 1 k 3 2 0 · δ … … δ δ − Si F>F tabla, se rechaza H 0 ⇒ hay multicolinealidad. ⇒ Factor de Inflación de Varianza VIF ( ˆ β i ) · 1 1 − R i 2 donde R i 2 es el coeficiente de correlación múltiple entre x i y las demás variables explicativas. VIF sería la razón entre la varianza real de ˆ β i con la que tendría ˆ β i sin correlación. Esta comparación lo único que da es la relación entre la realidad y lo ideal, pero no más que esto. Tampoco ayuda a solucionar el problema. Conclusión: No hay un test único que me permita detectarlo, además en caso de hacerlo, solo son medidas de lo mal que están las cosas respecto a la situación ideal. 5.5 FORMAS DE SOLUCIONAR LA MULTICOLINEALIDAD No hacer nada Dado que la multicolinealidad (imperfecta) no afecta las propiedades de la estimación, los estimadores siguen siendo MELI, aunque la varianza sea grande (aunque mínima), una solución es no hacer nada. Es asumir que la realidad es así, que la muestra utilizada, tiene estos problemas. Asumir que multicolinealidad es un problema muestral. Hay dos reglas prácticas en este sentido: 1. No preocuparse por la multicolinealidad si el R 2 de la regresión total es mayor que el R 2 de las regresiones de las variables explicativas entre sí. 2. No preocuparse si los test t son mayores que 2. Incorporar información adicional a) Aumentar el tamaño muestral (n). Esto va en dos sentidos ya que aumenta n y puede aumentar var x i . Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 155 ) R 1 )( x var( n ) ( V 2 j j 2 j − σ · β b) Aumentar n intentando maximizar la Ortogonalidad en los datos. No es fácil de realizar en ciencias sociales, c) Utilizar datos en primeras diferencias: 1 i 3 1 i 3 1 i 2 2 1 1 i i 3 i 3 i 2 2 1 i X X Y X X Y − − − − − µ + β + β + β · µ + β + β + β · _____________________________________ i i 3 3 i 2 2 i 1 i i 13 i 3 i 3 1 i 2 i 2 2 1 i i v X X Y ) X X ( ) X X ( Y Y + ∆ β + ∆ β · ∆ µ − µ + − β + − β · − − − − − Ahora explicamos las variables en cambios y no en niveles ⇒correlación disminuye en cambios. Para que esto sea aplicable v i debe cumplir supuestos clásicos. d) Utilizar información a priori suministrada por la teoría. Ej.: i 3 i 3 2 i 2 1 i X X Y µ + β + β + β · donde X i2 y X i3 son correlacionadas pero la teoría dice que 1 3 2 · β + β i i 2 i 3 3 1 i 2 i i i 3 3 i 2 3 i 2 1 i i i 3 3 i 2 3 1 i ) X X ( X Y X X X Y X X ) 1 ( Y µ + − β + β · − µ + β + β − + β · µ + β + β − + β · ⇒ i i 3 1 i W Z µ + β + β · Problema: Si la restricción es falsa, se genera sesgo. Empíricamente: se hace un test F para saber si se acepta la restricción. e) Combinación de series de tiempo y series de corte transversal. Esto es, ocupar información para algún parámetro en un momento de tiempo e Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 156 imponerla como válida en toda la muestra. Ej.: t t 3 t 2 1 t I ln P ln Y ln µ + β + β + β · , pero entre P e I hay multicolinealidad . Pero, de otro estudio sabemos que para un momento de tiempo β 3 = 1,02. t t 2 1 t t t t t 2 1 t P ln I ln 02 , 1 Y ln I ln 02 , 1 P ln Y ln µ + β + β · − µ + + β + β · Si la restricción es válida, soluciono el problema de multicolinealidad. f) Eliminación de una variable. Supongo que un β i es cero. Esto tiene problemas si la variable no tiene coeficiente cero en el modelo teórico (verdadero). Modelo verdadero: i i 3 3 i 2 2 1 i X X Y µ + β + β + β · Pero ajusta: i i 2 2 1 i u X b b Y + + · ∑ ∑ · 2 i i i 2 x y x b ˆ µ − µ + β + β · x x y i i 3 3 i 2 2 i ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ − + β + β · − + β + β · · − + β + β · 2 2 i i 2 i 2 2 i 3 i 2 i 3 2 2 i 2 i 2 i 3 i 2 i 3 2 2 i 2 2 i 2 i i 3 3 i 2 2 2 i 2 x ) u u ( x x x x x ) u u ( x x x x x ) u u x x ( x b ˆ E( ˆ b 2 ) · β 2 + β 3 x i2 ∑ x i3 x i2 2 ∑ ⇒ salvo en el caso de Ortogonalidad, el estimador de ˆ b 2 es sesgado al excluir una variable que debe ir en el modelo. g) Método de componentes principales No lo veremos, pero es un método más completo de solución del problema Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 157 6 6. . H HE ET TE ER RO OC CE ED DA AS ST TI IC CI ID DA AD D Uno de los supuestos clásicos que hemos mantenido hasta ahora es: I ) ' ( E ) ( E 2 2 2 i σ · µµ σ · µ o en términos matriciales Es decir que la varianza del término de error es constante ∀ i . Esto se refleja en una varianza constante para la regresión ⇒ 2 i ) Y ( V σ · . Este supuesto es irreal en algunos casos: § En estudios de corte transversal es más fácil imaginar ejemplos donde la varianza del término de error aumenta (o disminuye) con una variable explicativa. Ello debido a la convivencia de unidades heterogéneas. Esta heterogeneidad generalmente está asociada al comportamiento de una o mas variables explicativas. Ejemplo: explicamos el consumo en función del ingreso. Pero a medida que el ingreso aumenta, aumentan los posibles usos de éste por lo que si nuestra regresión es del tipo i i 2 1 i Y C µ + β + β · , la varianza del error no será constante sino que será creciente con el nivel de ingreso. Y i C i • • • • • • • • • • • recta de regresión estimada § Ejemplos de aprendizaje-error; en la medida que se produce aprendizaje los errores de comportamiento se reducen (σ i disminuye). Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 158 tiempo de aprendizaje errores al tirar penales • • • • • • • • • • • § Otro ejemplo es el de mejoras en el procesamiento de datos. En series de tiempo que son recolectadas por una entidad, 2 i σ tiende a disminuir por aprendizajes en la recolección de la serie. 6.1 ¿CÓMO SE AFECTAN LAS PROPIEDADES DEL ESTIMADOR MICO CUANDO EXISTE HETEROCEDASTICIDAD? Supongamos que exista una relación positiva entre el valor absoluto de los residuos y una variable explicativa. En este caso, ampliar la muestra al final, afectará la recta de regresión fuertemente hacia la derecha (si la observación agregada es positiva) o hacia la izquierda (si la observación agregada es negativa). X i Y i • • • • • • • • • • • En muestas repetidas, estos casos se compensarán, y el estimador MICO seguirá siendo insesgado, pero la varianza de los estimadores será mayor. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 159 Veamos esto en el caso simple: i i 2 1 i X Y µ + β + β · Pero con 2 i 2 i ) ( E σ · µ · µ + β + β · · · · β ∑ ∑ ∑ ∑ ∑ ) X ( k Y k y k x y x ˆ i i 2 1 i i i i i 2 i i i 2 k X k k ˆ i i i i 2 i 1 2 µ + β + β · β ∑ ∑ ∑ y dadas las propiedades de k i i i 2 2 k ˆ µ + β · β ∑ • insesgado siendo sigue ) ˆ ( E 2 2 → β · β • ) k k k k ( E ) k ( E ) ˆ ( E ) ˆ ( V 2 1 2 1 2 n 2 n 2 1 2 1 2 i i 2 2 2 2 … µ µ + µ + … + µ · µ · β − β · β ∑ 0 .... 0 ) k ( E ) k ( E ) k ( E 2 n 2 n 2 2 2 2 2 1 2 1 · + + µ + … … + µ + µ · 2 i 2 i 2 n 2 n 2 2 2 2 2 1 2 1 k ) ( E k ) ( E k ) ( E k 2 n 2 2 2 1 σ · µ + … … + µ + µ · ∑ σ σ σ 3 2 1 3 2 1 3 2 1 ∑ ∑ ∑ ∑ σ · σ 1 1 ] 1 ¸ · 2 2 i 2 i 2 i 2 i 2 2 i i ) x ( x x x Antes teníamos que ∑ σ · β 2 i 2 2 x ) ˆ ( V , por lo que las varianzas de los estimadores cambian relajar el supuesto de homocedasticidad. Veamos que ocurre en el modelo general: Matricialmente: Ω σ · , _ ¸ ¸ ω ω ω σ · , _ ¸ ¸ σ σ σ · µµ · µ 0 • • 0 0 • • 0 ) ' ( E ) ( E 2 n 2 1 2 2 n 2 2 2 1 2 i µ + β · µ + β · · β − − − − ' X ) X ' X ( X ' X ) X ' X ( ) X ( ' X ) X ' X ( Y ' X ) X ' X ( 1 1 1 1 µ + β · β − ' X ) X ' X ( ˆ 1 • E( ˆ β ) · β Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 160 [ ] ( ) 1 1 2 1 2 1 1 1 1 1 ) X ' X ( X ' X ) X ' X ( ) X ' X ( X ' X ) X ' X ( ) X ' X ( X ) ' ( E ' X ) X ' X ( ) X ' X ( X ' ' X ) X ' X ( E )' ˆ )( ˆ ( E ) ˆ ( V − − − − − − − − Ω σ · Ω σ · µµ · · µµ · β − β β − β · β Por lo que: • El estimador sigue siendo insesgado. • Las varianzas deben ser corregidas para incorporar heterocedasticidad. ¿Qué ocurre si se estima por MICO sin tener en cuenta la heterocedasticidad? La varianza estimada con la fórmulas anterior , _ ¸ ¸ σ σ − ∑ 1 2 2 i 2 ) X ' X ( o x es un estimador sesgado de la varianza corregida. Será sobreestimada o subestimada, dependiendo de la naturaleza de la relación de 2 i σ y X i . El sesgo surge de que el estimador de σ 2 , , _ ¸ ¸ − · σ ∑ 2 n e ˆ 2 i 2 , deja de ser insesgado bajo heterocedasticidad. Esto implica que usar los procedimientos habituales de MICO puede provocar serios errores. Por eso se utiliza un método alternativo: Método de Mínimos Cuadrados Generalizados Se recomienda ver ejercicio 6.18 de la Guía. 6.2. MÉTODO DE MÍNIMOS CUADRADOS GENERALIZADOS Idea: Utilizar una técnica que presta menos atención a los residuos asociados con observaciones con alta varianza. Esto se hace asignando menos "peso" a esas observaciones, dado que éstas dan una indicación menos precisa del lugar donde pasa la verdadera recta de regresión. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 161 X i Y i • • • • • • • • • • • Partamos del modelo simple: (1) i i 2 1 i X Y µ + β + β · Otra forma de expresarlo es (2) X X Y i i 2 i 0 1 i µ + β + β · , donde X 0i =1 para todo i. Supongamos que se conoce 2 i σ y se divide (2) por i σ : * i * i * 2 * 01 * 1 * i i i i i 2 i i 0 1 i i X X Y ) 4 ( X X Y ) 3 ( µ + β + β · σ µ + , _ ¸ ¸ σ β + , _ ¸ ¸ σ β · σ Calculemos ahora la varianza del término de error de la regresión en que los datos fueron transformados: 1 ) ( E 1 E ) ( E ) ( Var 2 i 2 i 2 i 2 i 2 i i 2 * i * i · σ σ · µ σ · , _ ¸ ¸ σ µ · µ · µ § Este método implica que ahora el error es homocedástico, la varianza es 1. En este caso se cumplen todos los supuestos clásicos ⇒ es MELI. § Aplicar MICO a variables transformadas es lo mismo que aplicar MCG. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 162 Derivación de MCG en el caso simple 2 i i * i * 02 2 * * 01 * 1 i i i i i * 2 i 01 * 1 i i 1 w Sea e X ˆ X ˆ Y e X ˆ X ˆ Y σ · + β + β · σ + σ β + σ β · σ 2 i * 2 * 1 i i 2 i i 2 i 2 i 2 i i 2 * i ) X ˆ ˆ Y ( w min ) e w ( min e min e min e min β − β − · · σ · , _ ¸ ¸ σ · ∑ ∑ ∑ ∑ ∑ 0 ) 1 )( X ˆ ˆ Y ( w 2 ˆ e w 0 ) 1 )( X ˆ ˆ Y ( w 2 ˆ e w i * 2 * 1 i i * 2 2 i i i * 2 * 1 i i * 1 2 i i · − β − β − · β ∂ ∂ · − β − β − · β ∂ ∂ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ − − · β β − · β 2 i i 2 1 i i i i i i i i i i * 2 * 2 * i ) X w ( ) X w )( w ( ) Y w )( X w ( ) X Y w )( w ( ˆ * X * Y ˆ Derivación de MCG en el caso múltiple. µ + β · X Y donde hay heterocedasticidad, Ω σ · µµ 2 ) ' ( E Quisiéramos transformar el modelo y queremos que al transformar las variables se cumpla que el error sea homocedástico. Supongamos que existe una matriz T, que transforma los datos: v TX T TX TY + β · µ + β · Requerimos que E(vv') = σ 2 I, donde v = Tu Como ' T T ' T T ' T ) ' ( TE ) ' T ' T ( E ) ' vv ( E v Var 2 2 Ω σ · Ω σ · µµ · µµ · · y se requiere I ' T T · Ω , Luego, 1 1 ) ' T ( T − − · Ω Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 163 T ' T 1 · Ω − (*) Es decir que T, debe ser una matriz que satisfaga (*) Para obtener los estimadores MCG, aplicamos MICO al modelo transformado; v TX TY + β · ( ) µ Ω Ω + β · · µ Ω Ω + β Ω Ω · µ + β Ω Ω · Ω Ω · · · β − − − − − − − − − − − − − − − − − ' X ) X ' X ( ' X ) X ' X ( X ' X ) X ' X ( ) X ( ' X ) X ' X ( Y ' X ) X ' X ( TY ' T ' X ) TX ' T ' X ( TY )' TX ( TX )' TX ( ˆ 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 MCG β · β ) ˆ ( E MCG ( )( ) [ ] ( ) ( ) [ ] ( ) ( ) [ ] ( ) ( ) [ ] ( ) ( ) [ ] ( ) 1 1 2 1 1 1 1 1 1 2 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 MGB X ' X X ' X X ' X X ' X X ' X X ' X X ' X X ' X X ) ' ( E ' X X ' X X ' X X ' ' X X ' X E ' ˆ ˆ ( E ) ˆ ( V − − − − − − − − − − − − − − − − − − + − − − − − − − Ω σ · Ω ΩΩ Ω Ω σ · · Ω ΩΩ σ Ω Ω · Ω Ω µµ Ω Ω · · Ω Ω µµ Ω Ω · β − β β − β · β Se puede demostrar que esta varianza cumple el teorema de Gauss Markov. El estimador de σ 2 es: MCG 2 ˆ TX TY vˆ k n vˆ ' vˆ ˆ β − · − · σ k n ) ˆ X Y ( )' ˆ X Y ( k n ) ˆ X Y ( T ' T )' ˆ X Y ( k n ) ˆ TX TY ( )' ˆ TX TY ( ˆ MCG 1 MCG MCG MCG MCG MCG 2 − β − Ω β − · − β − β − · − β − β − · σ − Este método se conoce generalmente como mínimos cuadrados ponderados. Cuando existe heterocedasticidad, el método que verifica TM Gaus Markov es MCG y no MICO. . H . C ) MICO ( var ) MCG ( var < 6.3. ¿CÓMO DETECTAR LA HETEROCEDASTICIDAD? La mayoría de los métodos para detectar la heterocedasticidad se basan en el análisis de los residuos. Esto se hace esperando que los e i sean buenos estimadores de µ i , lo que se puede Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 164 cumplir si la muestra es relativamente grande. • Naturaleza del problema: hay casos en que desde el comienzo de la investigación conocemos que hay problemas. • Método gráfico: intentar detectar la presencia de un patrón sistemático en los residuos. • Prueba de Park Supone que 2 i σ es función de una variable X i i i 2 2 i v i 2 2 i v X ln ln Ln e X i + β + σ · σ σ · σ β Dado que 2 i σ es desconocida, se propone usar 2 i e ) i ( v X ln e ln v X ln ln e ln i i 2 i i i 2 2 i + β + α · + β + σ · La idea es hacer un test: Si β ⇒ es significativo ⇒ heterocedasticidad ⇒ no significativo ⇒ homocedasticidad Para hacerlo hay 2 etapas: 1) Aplicamos MICO a la regresión original (que queremos testear), calculamos e i 2) Corremos regresión (i) y hacemos test de hipótesis. Problemas: vi no satisface las propiedades para aplicar MICO • Prueba de Glesjer Es similar al método anterior pero se realiza testeando con diferentes formas funcionales: Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 165 i i 2 1 i i i 2 1 i i i 2 1 i i i 2 1 i i i 2 1 i v X e v X 1 e v X 1 e v X e v X e + β + β · + β + β · + β + β · + β + β · + β + β · Problema: § El residuo tiene como propiedades: E(vi) ≠ 0, correlacionado y heterocedástico. Pero para nuestras grandes pueden ocuparse las 4 primeras formas. Ventaja: trata de estimar la verdadera forma de la heterocedasticidad. • Goldfeld - Quant 2 i 2 2 i i i 2 1 i X X Y σ · σ µ + β + β · Pasos: 1. Ordenar las observaciones de acuerdo a X i 2. Omitir observaciones centrales (c). Nos quedan 2 grupos de 2 c n − observaciones cada uno. 3. Aplicar MICO a las dos submuestras y obtener SCR I y SCR II 4. Calcular icidad Homocedast rech Si F ~ ocedástico hom y N ~ si l de g / SCR l de g / SCR 2 , 2 i i ii k 2 c n k 2 c n → > λ λ µ · λ − − − − F Idea: Si existe heterocedasticidad del tipo supuesto, con la ordenación la varianza del término de error será mayor hacia el final de la muestra ⇒SCR II > SCR I ⇒ Si Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 166 λ> F ⇒ rechaza homocedasticidad. • Test de White. Es válida para n grande. Pasos: (1) Aplicamos MICO a la regresión original ⇒ calculo e i . (2) Se hace la regresión de ) X , X , X X , X , Constante ( f e 2 3 2 2 3 2 2 2 i · , es decir, i 2 3 6 2 2 5 3 2 4 3 3 2 2 1 2 i X X X X X X e µ + α + α + α + α + α + α · (3) Bajo la hipótesis nula de ausencia de heterocedasticidad (α 2 =α 3 =α 4 =α 5 =α 6 =0) asintóticamente el estadístico nR 2 ~ 2 1 p− χ donde p son la cantidad de parámetros del modelo (2) Idea: Mientras n crece, R 2 tenderá a cero bajo la hipótesis nula de homocedasticidad. El R 2 no tiende a cero, si la varianza del e i depende de las variables explicativas del modelo ⇒ en ese caso nR 2 > χ 2 . 6.4 ¿CÓMO SOLUCIONAR HETEROCEDATICIDAD? Bajo heterocedasticidad MICO ya no es eficiente § Se conoce 2 i σ si se conoce 2 i σ ⇒ estimo por MCG ⇒ transformo los datos de forma que el residuo sea homocedástico. § Se desconoce 2 i σ . Lo primero es estimar 2 i σ , según la forma de la heterocedasticidad, será la forma de transformar los datos. 1) Supongo 2 i 2 2 i X ) ( E σ · µ La forma es dividir datos por X i Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 167 vi X 1 X Y X X X Y X Y 2 1 i i i i i 2 i 1 i i i i 2 1 i + β + β · µ + β + β · µ + β + β · 2 2 i 2 i 2 2 i 2 i 2 i i 2 i i i i X X ) ( E X 1 X E ) v ( E 0 X E ) v ( E σ · σ · µ · , _ ¸ ¸ µ · · , _ ¸ ¸ µ · 2) Supongo i 2 2 i X ) ( E σ · µ Mejor transformación i i 2 i 1 i i i 2 i 1 i i i i i i 2 i 1 i i v X X 1 X X X 1 X Y X X X X X Y + β + β · µ + β + β · µ + β + β · 0 X E ) v ( E i i i · , _ ¸ ¸ µ · 2 i i 2 2 i i 2 i 2 i 2 i i i X X ) ( E X 1 ) X ( E X E ) v ( E σ · σ · µ · , _ ¸ ¸ µ · , _ ¸ ¸ µ · Ejemplo en caso general Supongamos un modelo de corte transversal t t t X Y µ + β + α · para t = 1....n u t homocedástico Pero solo tenemos acceso a datos agrupados en m grupos con n i observaciones en cada grupo i. i 2 i i i i n ) var( X Y σ · µ µ + β + α · Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 168 n / 1 . . 0 . . . . . . n / 1 0 0 . 0 n / 1 m 2 2 2 1 1 1 1 ] 1 ¸ σ · Ω σ 1 1 1 1 1 1 ] 1 ¸ · Ω − m 2 1 1 n n n 1 1 1 1 1 1 1 1 ] 1 ¸ · Ω · − m 2 1 1 n • • • n n T T ' T Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 169 7 7. . A AU UT TO OC CO OR RR RE EL LA AC CI IÓ ÓN N 7.1 INTRODUCCIÓN La heterocedasticidad es solo una de las formas en que se puede levantar el supuesto de E(µµ’) = σ 2 I. La segunda manera es suponer que los errores presenten estén correlacionados entre sí ⇒ E(µ i µ j ) ≠ 0 para i ≠ j Esto provocaría que la matriz de varianzas y covarianzas de los errores presentará términos distintos de 0 fuera de la diagonal principal: 1 1 1 1 1 1 1 1 ] 1 ¸ γ γ γ γ … γ γ γ · µµ 0 2 0 1 2 1 0 • • • ) ' ( E donde γ s = E(µ i µ i-s ) A este fenómeno se le denomina autocorrelación y está presente fundamentalmente en estudios de series de tiempo, donde un shock en el período i, genera errores en los próximos períodos. En lo anterior, se está suponiendo que la covarianza entre dos errores depende sólo de la distancia temporal entre las observaciones. A su vez, como todos los términos de la diagonal principal se tiene el mismo valor, se está suponiendo homocedasticidad ⇒ γ 0 = E(µ i µ i-0 )= ) ( E 2 i µ 2 0 µ σ · γ · En términos gráficos: x x x x x x x x x x x x x x x x x x x x x x x x x u i u i e i t t Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 170 7.2 CAUSAS MÁS FRECUENTES DE AUTOCORRELACIÓN Ciclos o tendencias en las variables, Es decir rachas de valores altos o bajos provocados por shocks o innovaciones no esperados que son difícilmente captados por las variables explicativas. Autocorrelación espacial, En datos de cross-section un shock aleatorio que afecta la actividad de una región puede causar actividad económica en regiones adyacentes (ej.: mal tiempo). También ocurre efecto vecindad o efecto demostración. Influencia prolongada de shocks: En las series de tiempo, los shocks en general persisten por más de un período. Inercia: Debido a la inercia o a fenómenos psicológicos, las acciones pasadas muchas veces tienen efecto en el presente. Si al modelo le falta incorporar dinámica presente en la realidad, a través de rezagos, los residuos tendrán patrones autocorrelacionados. Mala especificación i) Omisión de una variable relevante La omisión de una variable relevante que es autocorrelacionada provocará un residuo autocorrelacionado. Si el modelo es i 3 3 2 2 1 i X X Y µ + β + β + β · pero estimamos i 2 2 1 i v X Y + β + β · Entonces, 3 3 i i X v β + µ · Si X 3 presenta autocorrelación, entonces, v i la presentará aunque u i no esté autocorrelacionado. Si esta es la razón para un patrón de este tipo, entonces lo correcto es corregir la mala especificación, incorporando X 3 al modelo. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 171 ii) Forma funcional inadecuada. f. funcional estimada verdadera forma errores positivos o negativos Quiebre o cambio estructural Si se produjo un cambio estructural en la muestra, los residuos pueden presentar patrones sistemáticos antes y después del cambio estructural. forma verdadera forma estimada Entonces, es muy importante detectar la razón de patrones de comportamiento autocorrelacionados en los residuos, porque ello determinará la mejor forma de corregir este problema. En adelante, supondremos que la autocorrelación no está provocada por errores de especificación, ni de quiebre estructural, ni ausencia de rezagos, sino que por alguna razón distinta de estas, los residuos se encuentran correlacionados entre sí. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 172 7.3 ALGUNAS DEFINICIONES Autocovarianza Definimos autocovarianza entre µ i y µ i-s como ) , ( E s s i i γ · µ µ − para s=0, t1, t2... Si 2 0 2 i s i i ) ( E ) , ( E 0 s µ − σ · γ · µ · µ µ ⇒ · Entonces, podemos E( ) ' µµ se puede expresar: · 1 1 1 1 1 1 ] 1 ¸ γ γ γ γ γ γ · µµ . . . . . ) ' ( E 0 0 1 2 1 0 Coeficiente de Autocorrelación Definimos 0 s 0 s i i 0 0 s i i 2 s i 2 i s i i s ) . ( E • ) . ( E ) ( E • ) ( E ) , ( Cov r γ γ · γ µ µ · γ γ µ µ · µ µ µ µ · − − − − s 2 s s 0 s 0 s s r r r µ σ · γ ⇒ γ · γ ⇒ γ γ · ⇒ Si s=0, 2 0 µ σ · γ Luego, también podemos expresar E( ) ' µµ : Ω σ · µµ 1 1 1 1 1 1 ] 1 ¸ σ · 1 1 1 1 1 1 ] 1 ¸ σ σ σ σ σ σ · 1 1 1 1 1 1 ] 1 ¸ γ γ γ γ γ γ · µµ µ µ µ µ µ µ µ µ 2 1 2 1 2 2 2 1 2 2 2 1 2 2 0 0 1 2 1 0 ) ' ( E 1 1 . . . 1 r . r r 1 . . . . r . r r . . . . . ) ' ( E Esta es la forma genérica de la matriz. Para distintos casos de autocorrelación tendremos distintas matrices de E(µµ'). Para encontrar cada forma en particular debemos calcular los γ i EJEMPLO Encontremos E(µµ') para el caso más común de autocorrelación que es AUTOCORRELACION DE PRIMER ORDEN [AR(1)]. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 173 Esta ocurre cuando el residuo en un período es proporcional al residuo en el período anterior más un residuo bien comportado⇒ i 1 i i ε + µ ρ · µ − i 1 i i ε + µ ρ · µ − donde ) I , 0 ( N ~ 2 i ε σ ε Calculo de γ 0 2 2 i 0 ) ( E µ σ · µ · γ ....... ..... ) ( ) ( 3 i 3 2 i 2 1 i i i 1 i 2 i 2 3 i 3 i 1 i 2 i 3 i 2 i 1 i 2 i 2 i 1 i 2 i i 1 i i − − − − − − − − − − − − − − µ ρ + ε ρ + ε ρ + ε · · ε + ε ρ + ε ρ + µ ρ · ε + ε ρ + ε + µ ρ ρ · · ε + ε ρ + µ ρ · ε + ε + µ ρ ρ · ε + µ ρ · µ 0 .......) E( ) ( E • 3 i 3 2 i 2 1 i i i · µ ρ + ε ρ + ε ρ + ε · µ − − − 0 ) ( E i · µ (i) [ ] [ ] … ε ε ρ + ε ε ρ + … + ε ρ + ε ρ + ε · … ε ρ + ρε + ε + … + ε ρ + ρε + ε · µ − − − − − − − − − ( E ) )( ( E ) ( E • 2 i 1 i 3 1 i i 2 2 i 4 2 1 i 2 2 i 2 i 2 1 i i 2 i 2 1 i i 2 i ) 1 ( 0 0 4 2 2 2 4 2 2 2 … + ρ + ρ + σ · + + … + σ ρ + σ ρ + σ · ε ε ε ε El segundo término es la suma de una progresión geométrica . 2 1 1 . G . P . S ρ − · , por lo que entonces, 2 2 2 i 1 ) ( E ρ − σ · µ ε (ii) Por definición 2 0 2 i ) ( E µ σ · γ · µ , por lo que (ii) implica: 2 2 2 0 1 ρ − σ · σ · γ ε µ (iii) Calculo de γ 1 ) , ( E 1 i i 1 − µ µ · γ pero como: ..... 3 i 3 2 i 2 1 i i i − − − µ ρ + ε ρ + ε ρ + ε · µ y ..... 4 i 3 3 i 2 2 i 1 i 1 i − − − − − µ ρ + ε ρ + ε ρ + ε · µ [ ] 2 2 4 2 2 2 5 2 3 2 2 3 i 5 2 2 t 3 2 1 i 2 i i 1 i i 2 3 i 5 2 2 t 3 2 1 i 2 i i 1 i i 3 i 2 2 i 1 i 2 i 2 1 i i 1 i i 1 1 ) 1 ( .. .. 0 0 .. ) ( E ) ( E ) ( E .. ) ( E ) ( E ..) .. ( E ..) ..)( ( E ) , ( E ρ − σ ρ · … … + ρ + ρ + σ ρ · σ ρ + σ ρ + σ ρ + + + · + ε ρ + ε ρ + ε ρ + + ε ε ρ + ε ε · + ε ρ + ε ρ + ρε + + ε ρε + ε ε · ε ρ + ρε + ε + ε ρ + ρε + ε · · µ µ · γ ε ε ε ε ε − − − − − − − − − − − − − − − − Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 174 2 2 1 1 ρ − σ ρ · γ ε (iv) Por inducción: 2 s 2 s 2 s 2 2 2 1 2 2 2 0 1 1 1 µ ε µ ε µ ε σ ρ · ρ − ρ σ · γ σ ρ · ρ − ρ σ · γ σ · ρ − σ · γ M Entonces, Ω σ · Ω ρ − σ · 1 1 1 1 1 1 ] 1 ¸ ρ ρ ρ ρ − σ · · 1 1 1 1 1 1 1 1 1 1 ] 1 ¸ ρ − σ ρ − σ ρ − σ ρ ρ − σ ρ ρ − σ ρ ρ − σ · 1 1 1 1 1 1 ] 1 ¸ γ γ γ γ γ γ · µµ µ ε ε ε ε ε ε ε ε 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 0 0 1 2 1 0 1 1 . . . . 1 . 1 1 1 . . . . 1 1 . 1 1 1 . . . . . ) ' ( E Recordar: s 2 2 s 2 s s r ρ · σ σ ρ · σ γ · µ µ µ Con autocorrelación el supuesto E(µµ') = I se cambia por E(µµ') = σ 2 Ω. En el caso AR(1), Ω toma la forma que acabamos de derivar. En otros casos de autocorrelación, se debe ver que forma toma Ω. 1 t t t t 2 t 2 1 t 1 t ) 1 ( MA • ) 2 ( AR • − − − ε θ + ε · µ ⇒ ε + µ ρ + µ ρ · µ ⇒ Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 175 7.4 PROPIEDADES DE LA ESTIMACIÓN MICO BAJO AUTOCORRELACIÓN 1. Estimando por MICO una regresión que presente autocorrelación en el residuo, obtendremos un estimador cercano a la verdadera línea poblacional. Estimando en repetidas muestras, el promedio del valor estimado estará sobre el verdadero valor, pero la alta varianza de las distintas estimaciones llevará a que la varianza del estimador sea mayor que la que obtendríamos con errores no correlacionados. § Y ' X ) X ' X ( ˆ 1 − · β seguirá siendo insesgado, pero la varianza estimada será mayor que la que podríamos obtener si ponderamos las observaciones (si aplicamos MCG) § k n e ' e ˆ 2 − · σ subestima la verdadera varianza σ 2 y esto hace que la varianza estimada para una muestra ˆ V ( ˆ β 2 ) [ ] sea menor que la verdadera varianza. Por tanto, los test t no son adecuados. § El R 2 está sobreestimado. 2. Si se estima por MICO, pero se corrige la varianza asumiendo autocorrelación: [ ] [ ] ) X ' X ( X ' X ) X ' X ( ) X ' X ( X ' ' X ) X ' X ( E )' ˆ )( ˆ ( E ) ˆ ( V ' X ) X ' X ( ˆ 1 1 2 1 1 1 − − − − − Ω σ · µµ · β − β β − β · β µ + β · β Si utilizamos esta varianza el estimador obtenido tampoco será un estimador eficiente . 3. Método Mínimos Cuadrados Generalizados (MCG) Como vimos antes (heterocedasticidad), cuando no se cumple el supuesto clásico de E(µµ’)=I, el estimador eficiente es MCG. Este método consiste en realizar transformaciones a los datos de forma de conseguir un error que sea bien comportado. T ' T donde ) X ' X ( ) ˆ ( V Y ' X ) X ' X ( ˆ 1 1 1 2 MCG 1 1 1 MCG · Ω Ω σ · β Ω Ω · β − − − − − − Para el caso AR(1), donde t 1 t t ε + µ ρ · µ − Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 176 Ω σ · Ω ρ − σ · 1 1 1 1 1 1 ] 1 ¸ ρ ρ ρ ρ − σ · µµ µ ε ε 2 2 2 2 2 2 1 1 . . . . 1 . 1 1 ) ' ( E 1 ) 1 ( 0 ) 1 ( 0 0 1 1 1 1 1 1 1 1 ] 1 ¸ ρ − ρ + ρ − ρ − ρ + ρ − ρ − · Ω − M O M M L L 7.5 ¿CÓMO DETECTAR AUTOCORRELACIÓN? Método gráfico: el simple análisis de los residuos obtenidos puede confirmar la presencia de errores mal comportados. Estadístico de Durbin-Watson (1951) Consiste en el cálculo del coeficiente ∑ ∑ − − · 2 i 2 1 i i e ) e e ( d Este estadístico es calculado con los residuos de la regresión MICO y es usado para testear autocorrelación de primer orden. El test es válido bajo las siguientes condiciones: 1) En la regresión hay constante ⇒ ∑ · 0 e i 2) La matriz X es no estocástica 3) Solo sirve para testear procesos AR(1). 4) No es válido cuando la variable dependiente está rezagada. Derivación: ∑ ∑ ∑ ∑ ∑ ∑ − − − − + · − · 2 i 1 i i 2 1 i 2 i 2 i 2 1 i i e e e 2 e e e ) e e ( d Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 177 como ∑ ∑ − ≅ 2 1 i 2 i e e (*) e e e 1 2 e e e e e 2 e e e 2 e 2 d 2 i 1 i i 2 i 1 i i 2 i 2 i 2 i 1 i i 2 i ↓ , _ ¸ ¸ − · , _ ¸ ¸ − · − ≅ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ − − − El término (*) corresponde a la estimación de ˆ ρ en un proceso AR(1). Esto porque en AR(1) ⇒ ρ · ⇒ ρ · r r s s ) ˆ 1 ( 2 e e e 1 2 d e e e ) e e ( ) e e )( e e ( ˆ ) e ( VAR ) e , e cov( ˆ 2 i 1 i i 2 i 1 i i 2 i 1 i i i 1 i i 0 1 ρ − · , _ ¸ ¸ − · ⇒ · − − − · ρ · ρ ⇒ γ γ · ρ ∑ ∑ ∑ ∑ ∑ ∑ − − − − Entonces, ) ˆ 1 ( 2 e e e 1 2 d 2 i 1 i i ρ − · , _ ¸ ¸ − · ∑ − La hipótesis nula del test es que no existe autocorrelación H 0 ) No hay autocorrelación ≅ ρ = 0 ≅ d = 2 H 1 ) Hay autocorrelación El estadístico d no tiene una distribución conocida. Por eso Durbin y Watson tabularon la distribución del test. Para cada valor de k y n (al 5% y al 1%) se obtienen dos valores críticos: d u y d L que permiten establecer zonas en que se rechaza la hipótesis nula, zonas en que se acepta y zonas de indecisión Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 178 2 4-d U d U d L 4-d L Autocorrelación positiva Autocorrelación negativa El criterio no decide El criterio no decide No hay Autocorrelación Supongamos DW indica errores de autocorrelacionados que hacemos? Estimamos por MCG? Depende, esto puede deberse a una variable omitida, a una forma funcional incorrecta o a falta de dinámica en la especificación. Solo si se ha verificado que el error no se debe a ninguna de estas causas es necesario aplicar MCG. § Test H de Durbin Sirve para testear autocorrelación cuando la variable dependiente rezagada se incluye entre las explicativas. i 1 i i k k r 1 1 r r i r 2 i 2 1 i 2 1 i u donde X X Y Y Y Y ε + ρµ · β … … β + β + … + β + β + β · − + + − − − H 0 ) ρ = 0 H 1 ) ρ ≠ 0 solo es válido para muestras grandes )] ˆ ( [var n 1 n ˆ h 2 β − ρ · n - tamaño muestral ˆ ρ - estimación de ρ 2 ˆ var β - varianza del coeficiente asociado a Y t-1 . Bajo la hipótesis nula h ~ N (0, 1), por lo que: P [ -1,96 < h < 1,96 ] = 0,95 por lo que si h calculado (bajo alguna estimación de ρˆ ) es mayor en valor absoluto que 1,96 rechazo H 0 al 5%. Características de la prueba: Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 179 1. No importa cuantas veces está rezagada Y t , solo necesito la varianza del coeficiente asociado a Y t-1 . 2. La prueba no es válida si n 2 ˆ var β > 1. 3. La prueba solo es válida si la muestra es grande. Test de Breusch - Godfrey (1978) Este test permite verificar autocorrelación de orden mayor que uno. El modelo general al que se aplica al test es: (*) t k k r 1 1 r r t r 2 t 2 1 t 1 0 t X X Y Y Y Y µ + β + … + β + β + … + β + β + β · + + − − − donde r son los rezagos de la variable dependiente La hipótesis nula es que no hay autocorrelación H 0 ) ) I , 0 ( N ~ 2 i σ µ H 1 ) µ i presenta errores mal comportados. Pasos i) Se realiza la regresión (*) por MICO y se extraen los residuos ⇒ e i . ii) Usando los residuos calculados en i) se realiza la siguiente regresión: e i = f(e i-1 , e i-2 , ........, e i-p , Y i-1 , Y i-2 ..........Y i-r , X 1 ........ X k ) iii) El estimador (n-p)R 2 bajo la hipótesis nula se distribuye χ 2,p , con lo que si (n-p)R 2 > χ 2,p (α) se rechaza la hipótesis nula. Donde n es el tamaño de la muestra de la regresión principal. Ejemplo de utilización de los test en Eviews. En E-Views podemos realizar fácilmente alguno de estos test. Para los datos del ejercicio 2.1.7 tenemos la siguiente salida: LS // Dependent Variable is Y Sample: 1 10 Included observations: 10 Variable Coefficient Std. Error t-Statistic Prob. C 3.600000 2.090177 1.722342 0.1233 X 0.750000 0.255738 2.932692 0.0189 R-squared 0.518092 Mean dependent var 9.600000 Adjusted R-squared 0.457854 S.D. dependent var 1.837873 Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 180 S.E. of regression 1.353237 Akaike info criterion 0.781855 Sum squared resid 14.65000 Schwarz criterion 0.842372 Log likelihood -16.09866 F-statistic 8.600683 Durbin-Watson stat 2.346416 Prob(F-statistic) 0.018920 Corresponde al valor calculado del estadístico de DW. Este valor hay que contrastarlo con los valores de d U y d L de la tabla k=2 (k’=1) n=10 ⇒ d U =1.32 , d L =0.879 2 2.68 1.32 0.879 3.121 Autocorrelación positiva Autocorrelación negativa El criterio no decide El criterio no decide No hay Autocorrelación 2.34 Por DW, no rechazo H0 (no rechazamos que ρ sea cero). Breusch-Godfrey Serial Correlation LM Test: F-statistic 0.245626 Probability 0.789711 Obs*R-squared 0.756792 Probability 0.684959 Test Equation: LS // Dependent Variable is RESID Date: 11/24/98 Time: 13:02 Variable Coefficient Std. Error t-Statistic Prob. C -0.572430 2.461777 -0.232527 0.8239 X 0.076530 0.304399 0.251415 0.8099 RESID(-1) -0.301095 0.448296 -0.671642 0.5268 RESID(-2) -0.148734 0.428825 -0.346841 0.7406 R-squared 0.075679 Mean dependent var -4.22E-16 Adjusted R-squared -0.386481 S.D. dependent var 1.275844 S.E. of regression 1.502293 Akaike info criterion 1.103159 Sum squared resid 13.54130 Schwarz criterion 1.224193 Log likelihood -15.70518 F-statistic 0.163751 Durbin-Watson stat 2.006501 Prob(F-statistic) 0.916964 Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 181 p=2, n=10 El estimador nR 2 bajo la hipótesis nula se distribuye χ 2,p , con lo que si nR 2 > χ 2,p (α) se rechaza la hipótesis nula. χ ) 05 . 0 ( 2 2 =5.9 nR 2 =0.75 Por tanto no se rechaza la hipótesis nula (podíamos intuir este resultado por la falta de significancia de los coeficientes asociados a los residuos). 7.6 FORMAS DE CORREGIR POR AUTOCORRELACION 7.6.1 Conozco la forma de la autocorrelación y conozco ρ 7.6.1.1 AR(1) Sabemos que t 1 i i ε + µ ρ · µ − y supongamos que conocemos ρ. Ω σ · Ω ρ − σ · 1 1 1 1 1 1 ] 1 ¸ ρ ρ ρ ρ − σ · µµ µ ε ε 2 2 2 2 2 2 1 1 . . . . 1 . 1 1 ) ' ( E 1 ) 1 ( 0 ) 1 ( 0 0 1 1 1 1 1 1 1 1 ] 1 ¸ ρ − ρ + ρ − ρ − ρ + ρ − ρ − · Ω − M O M M L L Sabemos que la regresión debe ser con los datos transformados, de forma que el residuo sea bien comportado v X T T X T TY X Y t 1 t t + β · µ + β · ε + µ ρ · µ µ + β · − Para que v sea bien comportado, se debe cumplir que T'T = Ω -1 Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 182 Entonces, T debe ser igual a: 1 1 1 1 1 1 ] 1 ¸ ρ − ρ − ρ − ρ − · 1 0 0 0 0 0 1 0 0 0 1 0 0 1 T 2 L O O M M L L L por tanto 1 1 1 1 1 1 1 1 1 ] 1 ¸ ρ − ρ − ρ − ρ − · − Y Y • • • • Y Y Y Y Y 1 TY 1 n n 2 3 1 2 1 2 1 1 1 1 1 1 1 1 1 ] 1 ¸ ε ε ε ρ − · 1 1 1 1 1 1 1 1 1 ] 1 ¸ ρµ − µ ρµ − µ ρµ − µ µ ρ − · µ − • • • • 1 • • • • 1 T n 3 2 2 1 n n 2 3 1 2 1 2 1 1 1 1 1 1 1 1 1 1 1 ] 1 ¸ ρ − … … … ρ − ρ − ρ − … … … … ρ − ρ − ρ − … … … … ρ − ρ − · − − k , 1 n nk 2 , 1 n 2 n k 1 k 2 12 22 k 1 2 12 2 2 X X X X 1 • • • • X X X X 1 X 1 X 1 1 TX Observación: Si partimos de: (1) i ik k 2 i 2 1 i X X Y µ + β + … … + β + β · donde µ i = ρ µ i-1 + ε i Entonces, para el rezago de (1) se cumple (2) 1 i k , 1 i k 2 , 1 i 2 1 1 i X X Y − − − − µ + β + … … + β + β · Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 183 multiplicando (2) por ρ, (3) 1 i k , 1 i k 2 , 1 i 2 1 1 i X X Y − − − − ρµ + ρ β + … … + ρβ + ρβ · ρ Restando (1) - (3), tenemos: (4) i 1 i i k , 1 i ik k 2 , 1 i 2 i 2 1 1 i i ) X X ( ) X X ( ) 1 ( Y Y ε ↓ ρµ − µ + ρ − β + … … + ρ − β + ρ − β · ρ − − − − − Correr la regresión (4), es muy parecido a aplicar el procedimiento anterior, con la diferencia de la primera observación. Este último método es más utilizado, pero menos eficiente para corregir autocorrelación. 7.6.1.2 AR(2) i 2 i 2 1 i 1 i ε + µ ρ + µ ρ · µ − − § Una alternativa es definir Ω, Ω -1 , T y multiplicar TY = T X β + Tµ. § Otra forma es proceder como sigue, (5) i ik k 2 i 2 1 i X X Y µ + β + … … + β + β · Rezago (5) (6) 1 i k , 1 i k 2 , 1 i 2 1 1 i X X Y − − − − µ + β + … … + β + β · Rezago (6) (7) 2 i k , 2 i k 2 , 1 i 2 1 2 i X X Y − − − − µ + β + … … + β + β · Multiplico (6) por ρ 1 y (7) por ρ 2 (8) 1 i 1 k , 1 i 1 k 2 , 1 i 1 2 1 1 1 i 1 X X Y − − − − µ ρ + ρ β + … … + ρ β + ρ β · ρ (9) 2 i 2 k , 2 i 2 k 2 , 2 i 2 2 2 1 2 i 2 X X Y − − − − µ ρ + ρ β + … … + ρ β + ρ β · ρ Resto (5) - (8) - (9) nos queda, (10) 2 i 2 1 i 1 i k , 2 i 2 k , 1 i 1 ik k 2 , 2 i 2 2 , 1 i 1 2 i 2 2 1 1 2 i 2 1 i 1 i ) X X X ( ) X X X ( ) 1 ( Y Y Y − − − − − − − − µ ρ − µ ρ − µ + ρ − ρ − β + + + ρ − ρ − β + ρ − ρ − β · ρ − ρ − L donde el último término es ε i Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 184 Correr la regresión (10) dará un resultado aproximadamente igual. Es decir que si conocemos la forma de la autocorrelación y los ρ, es fácil aplicar MCG y obtener los parámetros, pero generalmente no conocemos ρ, entonces primero hay que estimarlo y luego aplicar los métodos anteriores para calcular MCG. 7.6.2 . No conocemos ρ. Hay métodos para calcularlos 7.6.2.1 Método de posiciones extremas Como no conocemos ρ, podríamos partir de alguno de los dos casos extremos. Esto es suponer que ρ = 1 o ρ = - 1. § Si ρ=1 la ecuación (4) nos queda, ) X X ( ) X X ( Y Y i k , 1 i ik k 1 i 2 i 2 1 i i ε + − β + … … + − β · − − − − X X Y i ik k 2 i 2 i ε + ∆ β + … … + ∆ β · ∆ Es decir que hay que estimar con los datos expresados en primeras diferencias § Si ρ=-1 la ecuación (4) nos queda, i 3 , 1 i 3 i 3 2 , 1 i 2 i 2 1 1 i i i 3 , 1 i 3 i 3 2 , 1 i 2 i 2 1 1 i i 2 X X 2 X X 2 Y Y ) X X ( ) X X ( 2 Y Y ε + … + , _ ¸ ¸ + β + , _ ¸ ¸ + β + β · + ε + … + + β + + β + β · + − − − − − − Es decir que hay que estimar con los datos expresados en promedios. El problema de este método, es que si ρ≠1 o ρ≠-1 el remedio puede ser peor que la enfermedad. 7.6.2.2 Método basado en estadístico d de Durbin y Watson d ≅ 2 (1− ˆ ρ ) ⇓ ˆ ρ ≅ 1 − d \ 2 → esto solo es válido si n es grande Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 185 7.6.2.3 Procedimiento iterativo de Cochrane - Orcutt i. Se estima el modelo por MICO y se obtienen los residuos e i ii. Estimamos por MICO la siguiente regresión: v e ˆ e t 1 i i + ρ · − iii. con ρˆ estimado, corregir los datos y correr la ecuación (4) 1 i i k , 1 i ik k 1 i 2 i 2 1 1 i i u u ) x x ( ) x x ( ) 1 ( Y Y − − − − ρ − + ρ − β + … … + ρ − β + ρ − β · ρ − iv. como no sabemos si ˆ ρ es buena estimación de ρ, volvemos a la regresión original utilizando los coeficientes estimados en la iii etapa y obtenemos e i * . v. t * 1 i * i w e ˆ ˆ e + ρ · − con esta estimación de ˆ ˆ ρ , se vuelve a repetir desde la etapa iii. El método es iterativo y se para cuando en dos corridas sucesivas los ρ estimados difieren poco. 7.6.2.4 Método de Durbin La ecuación (4) se puede escribir como: t 1 t 1 t 2 t 2 2 1 t Y X X ) 1 ( Y ε + … … + ρ + ρβ − β + ρ − β · − − i) Partir de esta ecuación regresando Y t en X t , X t-1 , ..., Y t y utilizar el valor estimado del coeficiente de Y t-1 como estimación de ρ (el estimador es segado, pero consistente). ii) Luego de tener ˆ ρ , transformar los datos y correr la regresión (4). 7.6.2.5 Método de la malla - Hildreth y Lu. Se define un conjunto de valores posibles de ρ (entre -1 y 1), donde los intervalos entre los distintos valores de ρ son de 0,1. Para cada ˆ ρ se corre la ecuación (4) y se computa la e i 2 ∑ . Se elige el valor de ˆ ρ que minimice la suma de cuadrados residuales (maximice R 2 ). Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 186 8 8. . E ES SP PE EC CI IF FI IC CA AC CI IO ON N D DE E M MO OD DE EL LO OS S 8.1 ATRIBUTOS DE UN BUEN MODELO Un modelo que está bien especificado tiene los siguientes atributos: § Parsimonia: esto implica que hay que maximizar la explicación del fenómeno, maximizando la simplificación. § Identificabilidad: dadas las observaciones los coeficientes estimados deben ser únicos. § Bondad del Ajuste: R 2 alto, coeficientes correctos, etc. Cuidado con Data Mining: Uso indiscriminado de variables con la única finalidad de aumentar el R 2 . Ames y Reiter (1961) ⇒ en promedio el R 2 de una regresión entre una variable económica y su rezago es 0,7. § Plausibilidad Teórica : Coeficientes con signos correctos, etc. Implica consistencia con el modelo teórico planteado. § Poder Predictivo: el R 2 es un indicador del ajuste dentro de muestra. Importa predecir fuera de muestra dentro y fuera del período. § Estabilidad de la Ecuación Estimada: inexistencia de cambio estructural (test de Chow, CUSUM y CUSUM cuadrado) 8.2 TIPO DE ERRORES DE ESPECIFICACIÓN § Omitir una variable relevante (variables omitidas) § Inclusión de variables irrelevantes (variables intrusas) § Forma funcional incorrecta § Errores de medición. 8.3 CONSECUENCIAS DE LOS ERRORES DE ESPECIFICACIÓN. 8.3.1 Variables Omitidas 8.3.1.1. Introducción Supongamos que por alguna razón no es posible estimar el verdadero modelo y se estima uno alternativo: (**) v X Y X sin Estimación estimado Modelo (*) X X Y Modelo Verdadero i i 2 2 1 i 3 i i 3 3 i 2 2 1 i + β + β · ⇒ ⇒ µ + β + β + β · ⇒ Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 187 Expresando (*) y (**) en desvíos: ) v v ( x y ) ( x x y i i i 2 2 i i i 3 3 i 2 2 i − + β · µ − µ + β + β · Al estimar 2 ˆ β de la segunda ecuación: ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ µ − µ + β + β · µ − µ + β + β · µ − µ + β + β · · β 2 i 2 i 2 i i 3 i 2 3 2 2 i 2 i i 2 i 3 i 2 3 2 i 2 2 2 i 2 i i 3 3 i 2 2 i 2 2 i 2 i i 2 2 x x ) ( x x x ) ( x x x x x ) x x ( x x y x ˆ ∑ ∑ β + β · β 2 i 2 i 2 i 3 3 2 2 x x x ) ˆ ( E Entonces se dan los siguientes casos: § Si x 3 y x 2 fueran ortogonales nto Insesgamie 0 x x i 2 i 3 ⇒ · ∑ § En los demás casos hay sesgo y este es una función de la relación o covarianza entre variable omitida y la incluida. Ejemplo: Estimamos la demanda por algún bien y se omite el precio de un sustituto. ∑ ∑ β + β · β 2 2 3 2 3 2 2 x x x ) ˆ ( E donde β 2 = coeficiente del precio "del bien" ⇒ esperamos signo negativo β 3 = coeficiente del precio del sustituto⇒ esperamos signo positivo ) Causalidad No ( . iables var entre asociación de do gra cierto existe porque , 0 x x x 2 2 3 2 > ∑ ∑ Luego, al estimar sin el precio del sustituto, el coeficiente estimado queda sesgado y el sesgo es positivo. 8.3.1.2. Consecuencias § Si X 3 esta correlacionada con X 2 ⇒ ambos estimadores son sesgados inconsistentes (es decir que el sesgo no desaparece para muestras grandes) § Si X 2 y X 3 no están correlacionados ⇒ el estimador de la pendiente es insesgado, pero el del intercepto sesgado. § 2 ˆ µ σ está mal estimado si omito variables Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 188 Sesgo ) r k ( N e ' e E 2 → σ > 1 ] 1 ¸ − − µ Esto porque e’e es mayor , mientras el efecto sobre el denominador es marginal. § Como consecuencia del punto anterior la varianza de los estimadores es sesgada estimada mal ) X ' X ( ˆ ) ˆ ( V 1 2 ↓ σ · β − µ § Intervalos de confianza y pruebas de hipótesis incorrectas ⇒ conclusiones erradas. 8.3.1.3. Test para detectar Variables Omitidas § Bondad de ajuste y plausibilidad teórica R 2 , t , signos de los coeficientes § Examen de los residuos: pueden presentar cierto patrón determinístico. § Prueba d de Durbin-Watson. Si existe correlación positiva en los errores ⇒ significa que estos no son aleatorios y que pueden estar asociados a alguna variable no incluida en el modelo. Otra forma de Usarlo: - Se corre el modelo original. - Se obtienen los residuos. - Si se piensa que se excluye una variable explicativa relevante, ordenar los residuos según el orden ascendente de dicha variable. - Se calcula ∑ ∑ − − · 2 i 2 1 i i e ) e e ( d - Se compara el d con el d de tabla (con los grados de libertad originales). § Prueba Breusch-Godfrey § Prueba Reset de Ramsey - Se corre la regresión original ⇒ se obtienen los ⇒ Y ˆ i se extrae el Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 189 R 2 . - Se vuelve a correr la regresión, introduciendo como variables explicativas formas funcionales de [ ] 2 * 3 i 2 i i R obtiene se . etc , Y ˆ , Y ˆ ejemplo por Y ˆ ⇒ . - H 0 ) Modelo Bien Especificado. H 1 ) Modelo Mal Especificado. - Nuevo Modelo Variables Número n / ) R 1 ( s Adicionale Variables de Número / ) R R ( F 2 * 2 2 * − − − · - Si F> F tabla , rechazo H 0 , por tanto rechazo que que modelo esté bien especificado. 8.3.2 Inclusión de una Variable Irrelevante (Variables Intrusas) Supongamos que i i 2 2 1 i X Y µ + β + β · sea el Modelo Verdadero pero se corre, i i 3 3 i 2 2 1 i v X X Y + α + α + α · , donde X 3i es una variable intrusa. Consecuencias i ) Estimadores insesgados y consistentes ii) 2 ˆ µ σ se computa correctamente ) s k ( n e ' e E 2 µ σ ≅ , _ ¸ ¸ + esto porque la caída en e’e no es muy grande, porque la variable donde s es el N KO de Variables Intrusas. Hay que distinguir "computar" de la estimación que se encuentra. Se "computa" correctamente porque el estimador que se usa e' e N −K ¸ ¸ _ , sigue siendo un estimador insesgado. Puede haber, sin embargo, un error de estimación (pequeño) por agregar una variable que no debía ir. iii) Intervalos y pruebas de hipótesis son válidos. iv) Pero la varianza estimada para los parámetros son más grandes que las del modelo original. Econometría E-250: Apuntes de Clase Profesores Verónica Gil y Aldo Lema Agosto 2004 190 v( ˆ β 2 ) · σ 2 x 2i 2 ∑ (Modelo original) v( ˆ α 2 ) · σ 2 x 2i 2 (1 − 2,3 2 ) ∑ (Modelo estimado) V( ˆ α 2 ) V( ˆ β 2 ) · 1 1 − 2,3 2 Como 0 ≤ r 2, 3 2 ≤ 1 ⇒ v( ˆ α 2 ) v( ˆ β 2 ) > 1 Cuidado: De este análisis no se concluye que la introducción de variables irrelevantes sea poco costosa. Conclusión para Especificar Modelos • Conviene siempre comenzar por un modelo general (que incluya todas las posibles variables) e ir eliminando variables según los tests t. Ello por cuanto la inclusión de variables irrelevantes no sesga la estimación de ? 2 . Econometría Inglesa: Se parte de un modelo general y se eliminan variables. Econometría estadounidense: se parte de un modelo particular y se agregan variables.
Copyright © 2024 DOKUMEN.SITE Inc.