UNIVERSIDADE FEDERAL DO RIO GRANDE DO SULINSTITUTO DE MATEMÁTICA DEPARTAMENTO DE ESTATÍSTICA APOSTILA: MAT02207 - ESTATÍSTICA ECONÔMICA Prof. Vanessa B. Leotti Torman (
[email protected]) MAT02207 – Estatística Econômica – Prof. Vanessa Leotti Março de 2012. 2 MAT02207 – Estatística Econômica – Prof. Vanessa Leotti ÍNDICE 1 MODELO DE REGRESSÃO LINEAR SIMPLES (MRLS).................................................................... 5 1.1 INTRODUÇÃO À REGRESSÃO.....................................................................................................................5 1.1.1 RELAÇÕES ESTATÍSTICAS VERSUS DETERMINÍSTICAS...............................................................................5 1.2 MODELO DE REGRESSÃO LINEAR SIMPLES (MRLS)...............................................................................5 1.2.1 FUNÇÃO LINEAR DE REGRESSÃO POPULACIONAL.....................................................................................5 1.2.2 FUNÇÃO LINEAR DE REGRESSÃO AMOSTRAL............................................................................................6 1.2.3 PREMISSAS CLÁSSICAS.............................................................................................................................7 1.3 ESTIMAÇÃO DOS PARÂMETROS DO MODELO: MÉTODO DE MÍNIMOS QUADRADOS ORDINÁRIOS (MQO)................................................................................................................................................................8 1.3.1 SIGNIFICADO DE E ..................................................................................................................................9 1.3.2 PRECISÃO OU ERRO-PADRÃO DAS ESTIMATIVAS DE MQO......................................................................10 1.3.3 PROPRIEDADES DOS ESTIMADORES DE MQO.........................................................................................10 1.4 COEFICIENTE DE CORRELAÇÃO LINEAR DE PEARSON - R......................................................................13 1.5 COEFICIENTE DE DETERMINAÇÃO - R2...................................................................................................14 1.6 A PREMISSA DE NORMALIDADE DOS RESÍDUOS......................................................................................16 1.7 ESTIMAÇÃO POR INTERVALO..................................................................................................................16 1.7.1 INTERVALOS DE CONFIANÇA PARA OS COEFICIENTES DE REGRESSÃO.....................................................16 1.7.2 INTERVALO DE CONFIANÇA PARA A VARIÂNCIA RESIDUAL....................................................................18 1.8 TESTES DE HIPÓTESES.............................................................................................................................19 1.8.1 ABORDAGEM DO INTERVALO DE CONFIANÇA.........................................................................................19 1.8.2 ABORDAGEM DO TESTE DE SIGNIFICÂNCIA.............................................................................................20 1.9 PREVISÃO.................................................................................................................................................22 1.9.1 INTERVALO DE CONFIANÇA PARA A ESTIMATIVA MÉDIA DE Y, DADO X = X0.......................................22 1.9.2 INTERVALO DE CONFIANÇA PARA A ESTIMATIVA INDIVIDUAL DE Y, DADO X = X0...............................23 1.10 ANÁLISE DE VARIÂNCIA – ANOVA......................................................................................................24 1.10.1 TESTE DE SIGNIFICÂNCIA PARA O COEFICIENTE DE DETERMINAÇÃO....................................................25 1.11 REGRESSÃO PELA ORIGEM....................................................................................................................26 1.12 FORMAS FUNCIONAIS DOS MODELOS DE REGRESSÃO...........................................................................27 1.12.1 MODELO LOG-LINEAR OU LOG-LOG....................................................................................................27 1.12.2 MODELOS SEMILOGARÍTMICOS LOG-LIN E LIN-LOG............................................................................27 1.12.3 MODELOS RECÍPROCOS (INVERSOS).....................................................................................................28 2 MODELO DE REGRESSÃO LINEAR MÚLTIPLA (MRLM)............................................................ 31 2.1 SIGNIFICADO DOS PARÂMETROS DO MODELO........................................................................................31 2.2 NOTAÇÃO MATRICIAL DO MRLM..........................................................................................................31 2.3 PREMISSAS DO MRLM............................................................................................................................32 2.4 MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS (MQO)...................................................................32 2.4.1 VARIÂNCIAS DOS ESTIMADORES DE MQO.............................................................................................33 2.5 COEFICIENTE MÚLTIPLO DE DETERMINAÇÃO: R2.................................................................................35 2.6 COEFICIENTE MÚLTIPLO DE DETERMINAÇÃO AJUSTADO: ....................................................................35 2.7 COEFICIENTE DE CORRELAÇÃO PARCIAL...............................................................................................36 2.8 COEFICIENTE DE DETERMINAÇÃO PARCIAL...........................................................................................37 2.9 INTERVALO DE CONFIANÇA E TESTE DE SIGNIFICÂNCIA INDIVIDUAL PARA OS COEFICIENTES DE REGRESSÃO....................................................................................................................................................37 2.10 INTERVALO DE CONFIANÇA PARA A VARIÂNCIA RESIDUAL.................................................................38 2.11 TESTE DA SIGNIFICÂNCIA GERAL DA REGRESSÃO (ANOVA)..............................................................39 2.12 CONTRIBUIÇÃO MARGINAL OU INCREMENTAL DE UMA VARIÁVEL EXPLICATIVA..............................41 2.13 PREVISÃO NO MRLM............................................................................................................................44 2.14 MODELO DE REGRESSÃO POLINOMIAL.................................................................................................45 2.15 VARIÁVEIS DUMMIES.............................................................................................................................46 3 MAT02207 – Estatística Econômica – Prof. Vanessa Leotti 2.15.1 REGRESSÃO SOMENTE COM VARIÁVEIS DUMMIES (MODELOS ANOVA)..............................................46 2.15.2 REGRESSÃO COM VARIÁVEIS QUANTITATIVAS E DUMMIES (MODELOS ANCOVA).............................49 2.15.3 EFEITOS DE INTERAÇÃO COM O USO DE VARIÁVEIS BINÁRIAS..............................................................50 2.15.4 O EMPREGO DE VARIÁVEIS BINÁRIAS EM ANÁLISES SAZONAIS.............................................................52 2.15.5 MODELOS LOG-LIN E VARIÁVEIS DUMMIES........................................................................................52 3 VIOLAÇÕES DAS PREMISSAS DO MODELO DE REGRESSÃO................................................... 54 3.1 NÃO-NORMALIDADE DOS RESÍDUOS........................................................................................................54 3.1.1 DETECÇÃO..............................................................................................................................................54 3.1.2 CONSEQÜÊNCIAS....................................................................................................................................55 3.1.3 MEDIDAS CORRETIVAS...........................................................................................................................55 3.2 MULTICOLINEARIDADE...........................................................................................................................57 3.2.1 CONSEQÜÊNCIAS....................................................................................................................................58 3.2.2 DETECÇÃO..............................................................................................................................................60 3.2.3 MEDIDAS CORRETIVAS...........................................................................................................................64 3.3 HETEROCEDASTICIDADE.........................................................................................................................66 3.3.1 MÉTODO DOS MÍNIMOS QUADRADOS GENERALIZADOS (MQG)............................................................67 3.3.2 CONSEQÜÊNCIAS....................................................................................................................................67 3.3.3 DETECÇÃO..............................................................................................................................................68 3.3.4 MEDIDAS CORRETIVAS...........................................................................................................................73 3.4 AUTOCORRELAÇÃO.................................................................................................................................75 3.4.1 CONSEQÜÊNCIAS....................................................................................................................................77 3.4.2 DETECÇÃO..............................................................................................................................................77 3.4.3 MEDIDAS CORRETIVAS...........................................................................................................................80 4 variáveis que têm distribuições probabilísticas.2. Este modelo também é conhecido como modelo de duas variáveis. Ambas as variáveis são quantitativas. Como dito anteriormente. o objetivo da regressão é estimar um valor médio da variável dependente com base nos valores conhecidos da variável explanatória. Exemplo: Poderia-se estudar a relação de dependência do rendimento das lavouras em relação à temperatura. isto é. denominadas de variáveis independentes. Vanessa Leotti 1 MODELO DE REGRESSÃO LINEAR SIMPLES (MRLS) 1. Desenho (fertilizante x produtividade): 5 .1 Relações estatísticas versus determinísticas Na análise de regressão. se as houver. entre a variável dependente e as explanatórias só se dão em uma direção: das variáveis explanatórias para a dependente. entre as variáveis. luz solar ou fertilizante. estamos preocupados com o que é conhecido como dependência estatística. em relação a uma ou mais variáveis. e não funcional ou determinística. lidamos essencialmente com variáveis aleatórias ou estocásticas.1 Introdução à Regressão A análise de regressão estuda a dependência de uma variável. também lidamos com variáveis. mas estas não são aleatórias ou estocásticas. Pressupõe-se implicitamente que as relações causais.MAT02207 – Estatística Econômica – Prof.2 Modelo de Regressão Linear Simples (MRLS) Método de ajustamento de uma reta para análise da relação entre uma variável independente (explicativa ou regressora) e uma variável dependente (explicada ou resposta). chamada de variável dependente. Na dependência funcional ou determinística. por outro lado. 1.1 Função linear de regressão populacional Denotaremos por Yi o valor da variável dependente para a i-ésima observação e X i o valor da variável independente para a i-ésima observação. por exemplo. 1.1. Já um exemplo de dependência determinística é a fórmula: lucro bruto = preço x unidades vendidas. pluviosidade. O exemplo anterior é uma dependência estatística. Nas relações estatísticas entre variáveis. 1. com o objetivo de estimar e/ou prever o valor médio da primeira em termos de valores conhecidos ou fixados das segundas. ou seja. dos elementos não-previsíveis de aleatoriedade e dos erros de mensuração em Y. Assim. se um censo fosse realizado.MAT02207 – Estatística Econômica – Prof. mas não foram incluídas no modelo de regressão. na prática.. que pode ser denotado por: ei = Yi − E ( Y | X i ) Ou Yi = E ( Y | X i ) + ei O que implica que Yi = β1 + β2 X i + ei . 1. temos a função linear de regressão amostral: ˆ +β ˆ X Yˆi = β 1 2 i é um estimador de E ( Y | X i ) . assim como a distância eˆi =Yi Assim. n. ˆ +β ˆ X + eˆ = Yˆ + eˆ Yi = β 1 2 i i i i A figura abaixo ilustra as diferenças entre a FRP e FRA: 6 . Entretanto. existe um desvio em torno de seu valor esperado. amostras são utilizadas para estimar a função de regressão. ou respectivamente. é um “substituto” ou representante de todas as variáveis que podem afetar Y.2 Função linear de regressão amostral β1 e β2 são parâmetros conhecidos apenas se toda a população fosse pesquisada.. Vanessa Leotti Podemos expressar isso matematicamente escrevendo: E ( Y | X i ) = β1 + β 2 X i onde β1 e β2 são chamados de coeficientes de regressão. intercepto e coeficiente angular. . também conhecido como perturbação aleatória. i = 1.2. ou distúrbio aleatório.. pode-se escrever a função de regressão amostral como: ˆ Y i −Yˆi estima o resíduo e. e o subscrito i indica os pares de observações. 2. Nem todos os valores de Y caem sobre a reta. resíduo aleatório. ∀i O desvio e. A expressão acima é conhecida como função linear de regressão populacional. Após β 1 2 parâmetros β1 e β2 ? 1. não afetam sistematicamente o valor médio de Y. A idéia é que os valores de X são fixos e se observa os valores de Y correspondentes. Y. ∀i A variância do resíduo aleatório é constante (homoscedasticidade: variâncias iguais. como podemos fazer inferências sobre os verdadeiros ˆ e β . Isso implica que X não é uma variável aleatória. [1]: Yi = β1 + β2 X i + ei . ∀i Estabelece que. e veremos que alguns casos desse tipo podem ser resolvidos através do modelo acima. o modelo é linear nos parâmetros e nas variáveis. heteroscedasticidade: variâncias diferentes).Como obter β 1 2 ˆ terem sido obtidos. Isso significa que fatores não incluídos no modelo e.MAT02207 – Estatística Econômica – Prof. uma variável explicativa observável. ∀i O valor médio do termo de erro é zero. X e um termo de perturbação aleatório não observável. 2 [4]: Var ( ei | X i ) = σ . [3]: E ( ei | X i ) = 0. temos duas questões para responder: ˆ e β ˆ ? . e. agrupados em e.3 Premissas clássicas Para realizarmos inferências sobre β1 e β2 . existe uma relação linear de dependência entre uma variável explicada observável. precisamos fazer algumas suposições sobre a maneira com que X e e influenciam em Y. Um exemplo de modelo não linear nas variáveis é Yi = β1 + β 2 X i2 + ei . Tipos de não-linearidade nas variáveis: 2 Um exemplo de modelo não linear nos parâmetros é Yi = β1 + ( β 2 ) X i + ei e não veremos esse tipo de modelo. Vanessa Leotti Assim. portanto.2. Desenho da heteroscedasticidade: 7 . Ou seja. [2]: Os valores de X são fixados em amostragem repetida. para cada observação i. presumimos que X e e exercem influências separadas em Y. Vanessa Leotti [5]: Cov (ei . A covariância entre o termo de erro e a variável explicativa é nula. β1. Assim. no conjunto das observações. Primeiro. Então. ∀i.MAT02207 – Estatística Econômica – Prof. Isso ocorre automaticamente se X é não aleatório. isto é: 2 2 ∑eˆi = ∑ Yi −Yˆi . a variável X não é constante na amostra. Para tanto. influencia em u t . ei) = 0. geralmente desconhecidos. mesmo se X não for aleatório. devemos lembrar da definição do resíduo estimado. [8]: A variável explicativa X assume. Para entender esse método será visto brevemente o princípio dos mínimos quadrados. [9]: O modelo está corretamente especificado (não há viés ou erro de especificação). β2 e σ2 são os parâmetros. i ≠ j É nula a covariância entre os resíduos aleatórios (ausência de autocorrelação).3 Estimação dos parâmetros do modelo: Método de Mínimos Quadrados Ordinários (MQO) Dentre os diversos métodos existentes para estimar os verdadeiros parâmetros de funções estatísticas. Contudo. que em alguma medida. a importância dessa hipótese pode ser explicada do seguinte modo: seja nossa FRP Yt = β1 + β2 X t + ut . podemos adotar o seguinte critério: escolher a FRA para que a soma dos resíduos. ( ) 8 . Exemplo de erro de especificação: ajustar uma reta a dados que tem comportamento quadrático. Ou seja. é preferível adotar o critério da minimização dos quadrados dos resíduos. ∑eˆi = ∑(Yi −Yˆi ) . Ou seja. no contexto da análise de regressão. são necessários no mínimo 2 pares de observações para ajustar o modelo postulado em 1. Intuitivamente. Yt não depende apenas de X t mas também de u t −1 . 1. valores não todos iguais. [6]: Cov(Xi. e j ) = 0. j . seja a menor possível. os resíduos são a distância entre o ponto observado de Y e a reta estimada. mas for não correlacionado com e. isto é: eˆi =Yi −Yˆi . média dada por: E(Yi |Xi) = β1 + β2Xi (Implica de 3) E variância: Var(Yi|Xi) = σ2 (Implica de 4) Assim. onde ut e u t −1 apresentam correlação. Por isso. Queremos determinar a FRA de tal modo que seja tão próxima quanto possível do Y observado. [7]: O número de observações (n) deve ser maior que o número de parâmetros a serem estimados. Resulta destas hipóteses que Y é uma variável aleatória que tem. da distribuição de Y. o modelo é válido. o método dos mínimos quadrados ordinários (MQO) é um dos mais populares. para todo i. ou seja. esse método pode conduzir a resultados inócuos e dessa forma. onde X e Y são as médias amostrais de X e Y. xi = X i − X e yi =Yi −Y . Vanessa Leotti Gráfico: Critério dos mínimos quadrados Assim. ou seja. O processo de diferenciação resulta na resolução do seguinte sistema de equações normais: ∑ Yi = nβˆ1 + βˆ2 ∑ X i 2 ∑ X iYi = βˆ1 ∑ X i + βˆ2 ∑ X i onde. obtemos: (X βˆ2 = ∑ i ∑( X e. X = ∑ X n e Y =∑ . Resolvendo as equações normais simultaneamente.1 Significado de β 1 2 ˆ : valor estimado para Y quando X = 0 β 1 ˆ : acréscimo (ou decréscimo) em Y quando X aumenta 1 unidade. )( − X Yi − Y i −X ) 2 ) = ∑xy ∑x 2 βˆ1 = Y − βˆ 2 X .3. através do cálculo diferencial (ver demonstração em Gujarati) o método de MQO 2 nos fornece as estimativas únicas de β1 e β2 que resultam no menor valor possível de ∑eˆi . n é o tamanho da amostra. ˆ ˆ e β 1. Y n e x e y são as variáveis em formato desvio.MAT02207 – Estatística Econômica – Prof. Seu sinal indica se a relação β 2 entre X e Y é positiva ou negativa. ou seja. 9 . σˆ = n −2 ∑x2 Assim. Dadas as premissas do MRLS.2 Precisão ou erro-padrão das estimativas de MQO As estimativas de MQO são uma função dos dados amostrais. segundo a premissa 4.3. Utilize o método dos mínimos quadrados para estimar a reta de regressão entre número de pizzarias (Y) e renda (X) per capita. menor sua variância. a precisão de uma ˆ e β medida da confiabilidade ou precisão dos estimadores β 1 2 estimativa é medida pelo seu erro-padrão. onde ∑eˆ = ∑ y − βˆ2 ∑ x = ∑ y − . como os dados tendem a mudar de amostra para amostra. Linear: função linear de Y b.3. Vanessa Leotti 1. Mas. Isto significa que: a. 4. podemos estimar as variâncias e erros-padrão dos estimadores de MQO apenas substituindo σ 2 por σˆ 2 nas expressões acima: 1 X 2 1 X2 ˆ ˆ ˆ σˆ β2ˆ = var βˆ1 = σˆ 2 + ⇒ σ = ep β = σ + 1 2 βˆ n ∑ x2 n ∑x 1 ( ) ( ) σˆ β2ˆ = var βˆ2 = 2 ( ) 1 σˆ 2 ∑x 2 ( ) σˆ ⇒ σˆ βˆ = ep βˆ2 = 2 ∑x 2 1. Não-tendencioso: esperança do estimador é igual ao verdadeiro valor do parâmetro.3 Propriedades dos estimadores de MQO 1. A soma dos resíduos estimados é igual a zero: ⇒ Y = βˆ1 + βˆ 2 X ∑eˆ i ( ) = ∑ Yi −Yˆi = 0 . que nada mais é do que a raiz quadrada da variância. A reta de regressão sempre passa pelas médias amostrais de Y e X: βˆ1 = Y − βˆ 2 X 2. baseado numa amostra observada de cinco cidades. é necessária alguma ˆ . Exemplo 1. maior sua precisão. os estimadores de MQO são os melhores estimadores lineares não-tendenciosos de seus respectivos parâmetros. Em estatística. c. 3. Pode ser mostrado que as variâncias e os erros-padrão dos estimadores de MQO podem ser obtidos por: 1 X 2 1 X2 ˆ σ β2ˆ = Var βˆ1 = σ 2 + ⇒ σ = Ep β = σ + 1 2 βˆ n ∑ x2 n ∑x 1 ( ) ( ) σ2 σ β2ˆ = Var βˆ2 = 2 2 ( ) 1 ∑x ( ) σ ⇒ σ βˆ = Ep βˆ 2 = 2 ∑x 2 onde σ 2 é a variância de ei. Têm variância mínima dentre todos os estimadores lineares não-tendenciosos. ou seja. as estimativas também mudarão. 10 .MAT02207 – Estatística Econômica – Prof. Portanto. a partir de uma amostra. pois quanto maior o n. São consistentes. que pode ser estimada através da fórmula: 2 ( xy ) eˆ 2 ∑ 2 2 2 2 2 ∑ 2 . X 8 4 6 12 15 Y 40 30 28 46 59 x y x² y² xy Y versus X (com ajustamento por mínimos quadrados) 60 Y = 16. Estime também as variâncias e errospadrão dos estimadores.MAT02207 – Estatística Econômica – Prof. Vanessa Leotti Interprete os valores do intercepto e coeficiente angular.1 + 2.73X 55 50 45 Y i 1 2 3 4 5 Total 40 35 30 25 4 6 8 10 12 14 X 11 . Vanessa Leotti Exercício 1. b) Estime as variâncias e erros-padrão dos estimadores.MAT02207 – Estatística Econômica – Prof. A tabela a seguir informa quantas semanas (X) seis pessoas trabalharam em um posto de inspeção de automóveis e quantos automóveis (Y) cada pessoa inspecionou entre 12hs e 14hs. interpretando as estimativas obtidas. a) Ajuste o modelo de regressão linear para esses dados. X 2 7 9 1 5 12 Y 13 19 20 13 16 21 12 . em determinado dia. Gráfico: Tipos de correlação Obs: o verdadeiro valor da correlação linear (populacional. cujo valor amostral é dado por: r= ∑xy ∑x ∑ y 2 2 Este coeficiente tem a propriedade de que: − 1 ≤ r ≤ 1 . Calcular e interpretar o coeficiente de correlação linear de Pearson para os dados do Exemplo 1. Calcular e interpretar o coeficiente de correlação linear de Pearson para os dados do Exercício 1. desconhecido) é representado pela letra ρ (rô). uma medida utilizada para verificar o grau de correlação entre elas é o coeficiente de correlação linear de Pearson. Exercício 2.MAT02207 – Estatística Econômica – Prof. Vanessa Leotti 1. Exemplo 2.r Supondo que exista algum tipo de relação linear entre as variáveis X e Y na população. 13 .4 Coeficiente de correlação linear de Pearson . em geral. a forças aleatórias porque nem todas as observações de Y se situam sobre a linha. Lembrando da FRA Yi =Yˆi +eˆi . o r2 determina a proporção (percentual) da variação total de Y explicada pela variação de X (ou pelo modelo de regressão). a variação total dos valores observados de Y em torno de sua média pode ser divida em duas partes: uma atribuível à linha de regressão e a outra. o quão “bem” a reta de regressão se ajusta aos dados. obtemos: ∑(Y i −Y ) 2 ( = ∑Yˆi −Y ) +∑(Y 2 i −Yˆi ) 2 SQT = SQE + SQR onde SQT é a soma de quadrados total. tem-se: ( Yi −Y = Yˆi −Y + Yi −Yˆi ) Elevando ao quadrado ambos os lados e somando ao longo da amostra. subtraindo-se a média de Y dos dois lados. Então. SQE é a soma de quadrados explicados pela regressão e SQR é a soma de quadrados de resíduos.5 Coeficiente de determinação . É uma medida para verificar a qualidade do ajuste de uma regressão. o coeficiente de determinação possui uma interpretação bastante distinta. Fórmulas alternativas: 14 . Gráfico.r2 Apesar de ser diretamente ligado ao coeficiente de correlação. ou seja. melhor será o grau de ajuste e é essa a informação que o coeficiente de determinação sintetiza. quanto mais próximos da reta os pontos estiverem. Decomposição da soma de quadrados total Definimos agora r2 como: r2 = SQE SQT SQR 2 ou alternativamente. r =1 − SQT Assim. Quando ajustamos uma reta. esperamos que os resíduos em torno da linha sejam os menores possíveis. Seus limites são: 0 ≤ r 2 ≤ 1 .MAT02207 – Estatística Econômica – Prof. Ou seja. Vanessa Leotti 1. MAT02207 – Estatística Econômica – Prof. Exemplo 3. Vanessa Leotti ∑ x2 ( xy ) ˆ = ∑ r =β ∑ y2 ∑ x2 ∑ y2 2 2 2 2 A relação entre o coeficiente de correlação e o de determinação é dada por: r =± r2 . Calcule e interprete o coeficiente de determinação para os dados do Exercício 1. 15 . Calcule e interprete o coeficiente de determinação para os dados do Exemplo 1. Exercício 3. Vanessa Leotti 1. 95% de probabilidade de incluir o verdadeiro valor do parâmetro.σ β2ˆ . Trocamos então a palavra probabilidade por confiança. de tal modo que esse intervalo tenha. uma única estimativa possivelmente será diferente do verdadeiro valor. em vez de nos embasar apenas na estimativa pontual.σ 2 ) Isso implica que: βˆ1 ~ N β1 .1) onde i =1. Podemos nos perguntar: até que ponto essas estimativas são confiáveis? Em decorrência de variações amostrais. Depois de observarmos a amostra e calcularmos o intervalo para ela. ele deixa de ser aleatório e passa a ser fixo. a confiabilidade de um estimador é medida por seu erro-padrão.MAT02207 – Estatística Econômica – Prof.6 A premissa de normalidade dos resíduos Para poder fazer inferências sobre os parâmetros do modelo de regressão. em amostras repetidas. seu valor médio seja igual ao verdadeiro valor. se σ 2 conhecida. σ βˆ i Contudo. Ele é um número fixo. Agora. digamos. dizemos que tal intervalo possui “x” de confiança de conter o verdadeiro valor do parâmetro. na estatística. Essa é a idéia que está por trás dos intervalos de confiança.7. digamos.2 . então: t= βˆi − βi ~ t ( n −2 ) σˆ βˆ i 16 . ( ) ~ N ( β .1 Intervalos de confiança para os coeficientes de regressão Pode-se demonstrar que. embora se espere que. e então não podemos mais falar em probabilidade. sabemos que a variância raramente é conhecida e devemos estimá-la a partir da amostra.σ 2 . Assim devemos usar a aproximação da normal pela distribuição t de Student com n-2 graus de liberdade. E assim. Não podemos dizer que o verdadeiro valor do parâmetro possui tal probabilidade de estar contido no intervalo. 1. 1. tem-se: βˆ − βi Z= i ~ N ( 0. Portanto. de dois ou três erros-padrão de cada lado. os coeficientes do modelo distribuem-se normalmente. podemos construir um intervalo em torno do estimador pontual. Assim. Geralmente se supõe que: [11]: ei ~ NID(0.7 Estimação por intervalo Vimos anteriormente a estimação pontual dos coeficientes de regressão por MQO. 1 βˆ2 2 2 βˆ 2 ˆ ( n − 2) σ 2 ~ χ (2n−2 ) e σ 2 ( ) Yi ~ N β1 + β 2 X i . então ou está ou não está no intervalo (probabilidade 0 ou 1).σ ) . devemos fazer alguma pressuposição sobre a distribuição de probabilidades dos resíduos ei. ασβˆi 2 2 =1 −α o qual é o intervalo de confiança para βi. 2 Exemplo 4. n −2. IC 100 ×(1 −α)% para βi : β i ±t ασ i n −2 . 17 . e pode ser escrito mais concisamente como: ˆ ˆ βˆ . chega-se a ˆ ˆ ˆ ˆ P βi −t n −2.α =1 −α 2 2 Substituindo-se em t. Vanessa Leotti Podemos estabelecer um intervalo de confiança tal que: P −t n −2 . Intervalos de 95% de confiança para os coeficientes da regressão do Exemplo 1. temos βˆ − βi P − t α ≤ i ≤t α n −2. Calcule e interprete os IC com 90% e 99% para os coeficientes de regressão para os dados do Exercício 1. 2 σˆ βˆi 2 = 1 −α e.α ≤t ≤t n −2.ασβˆi ≤βi ≤βi +t n −2. com algumas manipulações. Exercício 4.MAT02207 – Estatística Econômica – Prof. 2 Intervalo de confiança para a variância residual Vimos que a variável q2 = ( n − 2)σˆ 2 σ2 ~ χ 2 ( n−2 ) . Vanessa Leotti 1.MAT02207 – Estatística Econômica – Prof.1−α ≤q ≤ χn −2.1− 2 2 Ou =1 −α σˆ 2 σˆ 2 IC 100 ×(1 −α)% para σ : ( n − 2 ) 2 . n −2. n −2. temos: σˆ 2 σˆ 2 P ( n − 2 ) 2 ≤σ 2 ≤ ( n − 2 ) 2 χ α χ α n −2.7.1− 2 2 2 . Calcule e interprete os IC com 90% e 99% para a variância residual do Exercício 1. ( n − 2) 2 χ α χ α n −2 . a variância residual estimada foi 42.α =1 −α 2 2 Substituindo-se em q2 e fazendo-se algumas manipulações. O IC de 95% para a verdadeira variância residual é: Exercício 5. Supondo que temos uma amostra de 10 observações de duas variáveis X e Y. 18 .1591. Exemplo 5. Podemos usar essa variável para estabelecer um intervalo de confiança para a variância residual da seguinte forma: 2 2 2 P χn −2. 1. poderíamos estar interessados em testar as seguintes hipóteses: 1. temos uma forte expectativa a priori ou teórica de que a hipótese alternativa seja unilateral. βi* = 0 .1 Abordagem do intervalo de confiança 19 .Teste bilateral ou bicaudal As hipóteses deste teste são: H 0 : β i = β i* H1 : β i ≠ β i* onde i =1. a teoria do teste de hipóteses cuida da formulação de regras ou procedimentos a serem adotados para decidir se a hipótese nula deve ser rejeitada ou não rejeitada. . veremos testes unilaterais apenas através da abordagem dos testes de significância. Vanessa Leotti 1. não existe relação linear entre X e Y? H 0 : β 2 = 0 H 1 : β 2 ≠ 0 Em ambos os casos acima. Há duas abordagens complementares para a elaboração dessas regras: o intervalo de confiança e o teste de significância.8 Testes de hipóteses O problema do teste estatístico de hipóteses pode ser resumido assim: uma dada observação ou resultado é compatível com alguma hipótese feita ou não? Assim temos a hipótese nula (H0) que é testada contra a hipótese alternativa (H1). H1 : β 2 > 0 Veremos a seguir que um teste de hipótese pode ser realizado através de duas abordagens: a do intervalo de confiança e a do teste de significância.MAT02207 – Estatística Econômica – Prof. Um exemplo de teste unilateral é: H0 : β 2 ≤ 0 . Por questões de facilidade. Por exemplo. e decidimos sobre a veracidade ou a falsidade da hipótese nula através dos resultados amostrais.8. a regressão passa pela origem do sistema coordenado? H 0 : β1 = 0 H 1 : β1 ≠ 0 2. .Teste unilateral ou unicaudal Às vezes. O intercepto do modelo (coeficiente linear) é nulo? Ou. A inclinação do modelo (coeficiente angular) é nula? Ou. Ou seja.2 e βi* é um valor constante de interesse do pesquisador. que será t n −2.2 Abordagem do teste de significância A rotina de procedimentos para os testes de significância pode ser resumida da seguinte maneira: a) Escolhe-se o nível de significância α. c) Verificar o valor crítico (valor tabelado). unilateral ou bilateral. as hipóteses de que o intercepto e o coeficiente angular são significativamente diferentes de zero para os dados do Exercício 1. dizemos que nossos resultados foram estatisticamente significativos.α para um teste unilateral. Em estatística. Se βi* cair dentro do intervalo de confiança. estabeleça um intervalo de confiança de 100 × (1 − α ) % para βi . quando rejeitamos a hipótese nula. 1. através dos intervalos de confiança. não rejeite H 0.α 2 para um teste bilateral e t n −2. b) Estabelecer as hipóteses e verificar a forma do teste. Vanessa Leotti Regra de decisão: para um nível de significância α . teste. rejeite.8. em geral 1%. Exemplo 6: Usando um nível de significância de 5%. d) Calcular o valor amostral da estatística de teste: βˆ − βi* t= i σˆ βˆ i e) Decidir conforme a tabela abaixo: Tipo de hipótese H0 H1 Decisão: rejeitar H0 20 . Exercício 6: Usando um nível de significância de 10%. através dos intervalos de confiança. as hipóteses de que o intercepto e o coeficiente angular são diferentes de zero para os dados do Exemplo 1. teste. caso contrário. isto é.MAT02207 – Estatística Econômica – Prof. 5% ou 10%. teste a hipótese de que o coeficiente angular é maior que 1. Exemplo 8: Para os dados do exemplo 1. Vanessa Leotti se Bicaudal Cauda direita Cauda esquerda * i H 0 : βi = β H 1 : βi ≠ β * i H 0 : βi ≤ β H 1 : βi > β H 0 : βi ≥ β H 1 : βi < β * i * i * i * i t > t n −2.MAT02207 – Estatística Econômica – Prof.α Exemplo 7: Usando um nível de significância de 5%.5 e β2 = 2.34 .α t <−t n −2. através dos testes de significância. teste. usando um nível de significância de 5%. Exercício 7: Considere os dados do Exemplo 1.α 2 t >t n −2. Existe diferença significativa entre as estimativas obtidas no Exemplo 1 e os valores da outra região. as hipóteses de que o intercepto e o coeficiente angular são diferentes de zero para os dados do Exemplo 1. Em um censo realizado em uma outra região. a 5% de nível de significância? 21 . obteve-se β1 =15. 1 Intervalo de confiança para a estimativa média de Y. obtida de uma amostra de 10 observações.9 Previsão Um dos principais objetivos da análise de regressão é “prever” valores de Y com base em valores conhecidos de X. para a regressão Yˆ =24. Yˆ0 = estimador de (Y | X = X 0 ) = βˆ1 + βˆ2 X 0 1. 1.159 . Vanessa Leotti Exercício 8: Considere os dados do Exercício 1. Só pode ser calculado exatamente através de métodos computacionais. quando X = 100. Yˆ0 = estimador de E (Y | X = X 0 ) = βˆ1 + βˆ2 X 0 2.O valor-p: é definido como o menor nível de significância ao qual a hipótese nula pode ser rejeitada.5091 X .4525 +0. dado X = X0 ˆm IC 100 ×(1 −α)% para E (Y | X = X 0 ) : Yˆ0 ±t ασ n −2. Calcular um intervalo com 95% de confiança para o valor médio de Y. Previsão para a estimativa individual de Y dado X=X 0: Exemplo: Estimar o consumo de pizza para uma cidade com renda igual a 7. Previsão para a estimativa média de Y dado X=X0: Exemplo: Estimar o consumo médio de pizza para cidades com renda igual a 7. rejeita-se H0. ∑x = 33. teste as hipóteses de que o intercepto e o coeficiente angular são maiores que zero. A um nível de significância de 1%.000 e σ 22 .9. A relação entre o valor-p e o nível de significância é: se valor-p < α . X =170 . 2 ( X 0 − X ) 2 2 2 1 ˆ ˆ e σm =σ + ∑ x 2 n Exemplo 9.MAT02207 – Estatística Econômica – Prof. com 2 ˆ 2 =42. Há dois tipos de previsão: 1. caso contrário não se rejeita. . Quanto mais afastados da média dos valores observados na amostra for a estimativa. Vanessa Leotti 1. dado X = X0 ˆi IC 100 ×(1 −α)% para (Y | X = X 0 ) : Yˆ0 ±t ασ n −2 . Calcular um intervalo com 95% de confiança para o valor individual de Y. para a regressão do Exemplo 9.MAT02207 – Estatística Econômica – Prof. Alguns cuidados em relação à previsão: 1. Calcular os intervalos com 90% de confiança para a estimativa média e individual de Y dado que X = 10 para os dados do Exercício 1. quando X = 100.2 Intervalo de confiança para a estimativa individual de Y.9. Ao extrapolar as estimativas para valores fora do intervalo dos dados amostrais. 2. não existem garantias de que a relação entre as variáveis manterá o mesmo padrão observado na amostra. 2 1 ( X 0 − X )2 2 2 ˆ ˆ σ = σ 1+ + e i 2 n x ∑ Exemplo 10. menos precisão haverá. 23 . Exercício 9. l. rejeita-se H0. esse método é equivalente ao teste t para testar se o coeficiente angular do modelo é nulo.n −2 ) . considerando um nível de significância de 5%. é possível particionar as somas de quadrados da seguinte forma: ∑(Y i −Y ) 2 ( ) +∑(Y = ∑Yˆi −Y 2 i −Yˆi ) 2 SQT = SQE + SQR Ou seja: SQT: soma de quadrados total.. no denominador.l. com (n-1) g. 2 24 . No caso de apenas duas variáveis (ou seja..n-2) Regra de decisão: Se F > Fα. com 1 g. No caso de apenas duas variáveis.l. Utilizando os dados do Exemplo 1. no numerador e n-2 g. caso contrário não se rejeita.MAT02207 – Estatística Econômica – Prof.10 Análise de Variância – ANOVA Um método complementar para o estudo da análise de regressão é a análise de variância. As somas de quadrados também podem ser calculadas através das seguintes expressões: SQT = ∑(Yi −Y ) = ∑yi2 2 ( ) ( ) SQE = ∑Yˆi −Y SQR = ∑ Yi − Yˆi 2 2 2 ˆ2 =β 2 ∑xi ( ∑ xy ) = ∑ eˆ = ∑ y − βˆ22 ∑ x 2 = ∑ y 2 − ∑x2 2 i 2 2 A ANOVA utiliza essa relação entre as somas de quadrados é geralmente resumida e analisada através da seguinte tabela: ANOVA Causas de Variação Devida à regressão GL 1 Devido aos resíduos n-2 ∑eˆ Total n-1 ∑yi2 SQ βˆ 2 2 ∑x 2 i 2 i QM βˆ22 ∑ xi2 QME = QMR = ∑ eˆ 1 2 i n−2 F QME QMR = σˆ 2 O valor da estatística F tem 1 g. isto é: H 0 : β 2 = 0 H 1 : β 2 ≠ 0 Como já mencionado.(1. Vanessa Leotti 1. SQE: soma de quadrados explicada pela regressão. A ANOVA verifica se o modelo estimado possui algum grau de explicação sobre a variável resposta.l. SQR: soma de quadrados dos resíduos.. ou seja: F ~ F(1. deve-se observar que a relação entre as estatísticas t e f é t = f .l. Exemplo 11. com (n-2) g. construa a tabela da análise de variância e analise os resultados. MRLS). 1 Teste de significância para o coeficiente de determinação Alternativamente. Refazer a tabela de análise de variância do exemplo 11 em termos do coeficiente de determinação.MAT02207 – Estatística Econômica – Prof. Vanessa Leotti 1.10. se o coeficiente de determinação é nulo ou não: H 0 : ρ 2 = 0 2 H1 : ρ ≠ 0 Através de manipulações algébricas. pode-se observar que o teste F para testar a significância global do modelo também pode ser visto como um teste de significância para o coeficiente de determinação r2. 25 . isto é. a tabela ANOVA pode ser re-escrita em termos desse coeficiente da seguinte forma: ANOVA CV Regressão GL 1 Resíduos n-2 Total n-1 SQ r 2 QM r ∑ y i2 1 (∑ y ) 2 i 2 ( ) (1 − r )( ∑ y ) (1 − r )( ∑ y ) ( n − 2) 2 ∑y 2 i 2 F ( n − 2) r 2 1− r2 ( ) 2 i 2 i Exemplo 12. obtemos as seguintes fórmulas para β 2 XY βˆ2 = ∑ 2 . obtendo o que se chama de r2 bruto. calcular o r2 bruto e testar a hipótese de que existe influência linear de X em Y. Em decorrência das características especiais deste modelo. Aplicando então o método de ˆ e sua variância: MQO. Exemplo 13. Portanto. ∑ X 2 ∑Y 2 O r2 bruto está sempre entre 0 e 1. a) Faça a ANOVA para os dados do Exercício 1 e analise os resultados. A segunda diferença são os graus de liberdade. a FRP de duas variáveis assume a seguinte forma: Yi = β2 X i + ei Nesse modelo. σˆ 2 2 ( ∑ XY ) = ∑Y − ∑X 2 2 2 A primeira diferença entre o modelo de regressão pela origem e o modelo com intercepto é que as fórmulas para o primeiro envolvem somas brutas das variáveis. já na regressão pela origem. isto nem sempre acontece. seria preferível ater-se ao modelo com intercepto. Outra diferença é que. b) Refaça a ANOVA em termos do coeficiente de determinação e compare os resultados com o item a). definido como: 2 ( XY ) ∑ 2 rbruto = .MAT02207 – Estatística Econômica – Prof. é preciso ter grande cautela ao empregá-lo. 1. para uma significância de 5%. A menos que exista uma expectativa a priori muito forte. que passam a ser n – 1. Vanessa Leotti Exercício 10. 26 . Além disso. no modelo com intercepto ∑eˆi = 0 . ele não pode ser usado diretamente nesse caso e também é necessário ajustar os cálculos. o r2 conforme definido anteriormente pode ser negativo nos modelos com intercepto ausente. e não no formato desvio. Ajustar o modelo de regressão pela origem aos dados do Exemplo 1.11 Regressão pela origem Em algumas situações. ∑X σˆ 2 βˆ 2 = σˆ 2 ∑X ∑eˆ . o termo do intercepto está ausente ou é nulo. ∑eˆ = n −1 2 2 . mas não pode ser comparado diretamente ao valor do r2 convencional. isto é.12.Modelo Log-Lin Muitas vezes é interessante conhecer a taxa de crescimento de algumas variáveis como população.12 Formas funcionais dos modelos de regressão Trabalhamos até agora com um modelo linear nos parâmetros e nas variáveis. traça-se o diagrama de dispersão de ln (Yi ) contra ln ( X i ) e verifica-se se os pontos se aproximam de uma reta.1 Modelo Log-Linear ou Log-Log Modelo de Regressão Exponencial: Yi = β1 X iβ 2 exp( ei ) Este modelo pode ser expresso como: ln( Yi ) = ln ( β1 ) + β 2 ln X i + ei ( ) Se escrevermos α = ln( β1 ) . Desenhos: * * No modelo de 2 variáveis. 27 . 1. Entretanto. alguns modelos de regressão bastante usados não são lineares nas variáveis. β2 mede a elasticidade preço da demanda. 1. Yi = ln ( Yi ) e X i = ln( X i ) . Vanessa Leotti Exercício 11. para verificar se o modelo log-linear se ajusta aos dados. se Y representa a quantidade demandada de um bem e X seu preço unitário. Esses modelos podem ser tornados lineares por meio de transformações nas variáveis. 1. etc. que é linear nos parâmetros mas não nas variáveis: ln( Yi ) = α + β 2 ln X i + ei ( ) Se fizermos. A utilidade desse modelo é que β2 mede a elasticidade de Y em relação a X. Denotemos por Yt a população no final do período e Y0 no início do período.MAT02207 – Estatística Econômica – Prof.2 Modelos semilogarítmicos Log-Lin e Lin-Log .12. temos o modelo log-linear. que pode ser estimado por MQO. mas o são nos parâmetros. Assim. calcular o r2 bruto e testar a hipótese de que existe influência linear de X em Y. PNB. teremos o MRLS Yi * = α + β2 X i* + ei . para uma significância de 5%. Ajustar o modelo de regressão pela origem aos dados do Exercício 1. a variação percentual de Y correspondente a variação de 1% em X. Imagine que desejamos conhecer a taxa de crescimento de uma população no período t. Modelo Lin-Log: No modelo anterior (Log-lin) queremos conhecer o crescimento percentual de Y para uma variação absoluta em X. * 1.MAT02207 – Estatística Econômica – Prof. Assim. Yi = β1 + β 2 ln ( X i ) + ei que pode ser analisado por MQO fazendo-se X i = ln ( X i ) . Incluindo o termo de erro temos o modelo log-lin: ln( Yt ) = β1 + β 2 t + et que pode ser analisado por MQO fazendo-se Yt * = ln (Yt ) . Xi Este modelo pode assumir formas como (desenhos): 28 . Dividindo-se β2 por 100 tem-se a variação absoluta de Y dada uma variação de 1% em X. . Se multiplicarmos β2 por 100 temos a taxa de crescimento de Y. que verificou que “o total de despesas com alimentação tende a aumentar em PA enquanto as despesas totais aumentam em PG”. Vanessa Leotti Recordando a fórmula de juros compostos. podemos utilizar MQO. O modelo Lin-log serve para conhecermos a variação absoluta em Y para uma variação percentual em X. fazendo β1 = ln ( Y0 ) e β 2 = ln (1 + r ) .12. temos: ln( Yt ) = β 1 + β 2 t . temos que: t Yt =Y 0 (1 + r ) Onde r é a taxa de crescimento de Y. Aplicando-se o logaritmo natural nos 2 lados da equação temos que: ln( Yt ) = ln ( Y0 ) + t ln (1 + r ) Agora.3 Modelos Recíprocos (Inversos) São do tipo: 1 Yi = β1 + β 2 Xi + ei 1 * Se fizermos X i = . Uma das aplicações deste modelo são os modelos de despesas de Engel. mas esta relação não é uma linha reta. 3 a) Ajuste a reta de mínimos quadrados que permita predizer o lucro operacional líquido em termos das despesas com propaganda. 29 . tem-se parte de um conjunto de dados que mostra as despesas com serviços por trimestre. Exercício 15.00743t . e a variável dependente é Y é o mesmo que ajustar um MRLS onde a variável independente é t e a variável dependente é Y*. Ano-trimestre 1993-I 1993-II 1993-III 1993-IV . 8 0. (Y) 2445.3 2455. e a variável independente é o PNB per capita de cada um.961 2904. no período de 1993 até o 3° trimestre de 1998.. Espera-se que..4 .3 Y*=ln(Y) 7. 4 1. Exemplo 14: Na tabela a seguir.822 . 9 4.. 4 1. quanto maior o PNB per capita.. as despesas com serviços aumentaram a uma taxa trimestral de 0.8 7. e o lucro operacional líquido (Y). 2829.9 2480.802 7. expresso em percentagem do total de vendas. 6 2. 7. Vanessa Leotti Como ilustração pode-se pensar em ajustar um modelo onde a variável dependente é mortalidade infantil de vários países.0 2494. mas depois a queda ameniza.MAT02207 – Estatística Econômica – Prof.743%. 5 1. Quando PNB aumenta. menor a mortalidade.806 7.974 Ajustar um modelo log-lin onde a variável independente é t..948 2866. 3 2.8 7. expressas em percentagem das despesas totais. isso indica que em um período que vai do 1° trimestre de 1993 até o 3° trimestre de 1998. Os dados a seguir mostram as despesas com propaganda (X).. no início há uma redução substancial da mortalidade. 1998-I 1998-II 1998-III t 1 2 3 4 .7890 + 0. X 1.816 7. Fazendo isso se obtém a equação Yˆt * = 7. em uma amostra de seis drogarias. 2 1 2 2 2 3 Desp. 0 Y 3. 8 5. Uma das aplicações deste modelo é a curva de Phillips. 0 2. 9 2. Serv. da macroeconomia... 6. d) Teste a hipótese nula β2 ≥ 1.6 contra a hipótese β2 < 1. e) Construa um intervalo de 99% de confiança para β2.01 de significância. Vanessa Leotti b) Calcule o coeficiente de correlação e interprete. 30 .MAT02207 – Estatística Econômica – Prof. h) É possível utilizar o modelo ajustado para prever o lucro quando as despesas são iguais a 5%? i) Ajuste um modelo de regressão que passe pela origem do sistema coordenado. f) Construa um intervalo de 90% de confiança para a variância residual. g) Construa um intervalo de 95% de confiança para o lucro operacional líquido médio quando as despesas com propaganda são de 2. c) Qual o grau de ajuste do modelo? Interprete. ao nível de 0.5% da despesa total. por uma unidade de variação em Xi. Essa equação é uma expressão abreviada do seguinte conjunto de n equações: Y1 = β1 + β 2 X 21 + β 3 X 31 + + β k X k1 + e1 Y2 = β1 + β 2 X 22 + β 3 X 32 + + β k X k 2 + e 2 . .. desconhecidos...Os ei são os erros aleatórios (resíduos) que seguem as hipóteses clássicas. mantendo-se as demais variáveis constantes (ceteris paribus).MAT02207 – Estatística Econômica – Prof. . β3. X3. . Xk. = Xk = 0 . de forma que a FRP do modelo de três variáveis é dada por: Yi = β1 + β 2 X 2i + β 3 X 3i + ei Generalizando quando temos k variáveis: Yi = β1 + β2 X 2i + β3 X 3i + + βk X ki + ei . βk: βi mede a variação de Y. com i = 1. são β2. 2... . . 2. 2.. ampliaremos o que já foi discutido para o caso de mais de uma variável independente. β3. e Y é a variável dependente ou explicada. uma vez formulado o modelo... n.. Yn = β1 + β 2 X 2 n + β 3 X 3n + + β k X kn + e n Em notação matricial.β1 é o intercepto. a FRP sob a forma matricial é então representada por: 31 .. a solução se aplica a uma. duas ou qualquer número de variáveis. βk.β2. esse conjunto pode ser escrito como: Y1 1 Y 1 2 = Yn 1 Y X k 1 β1 e1 X k 2 β 2 e2 + X 2 n X kn β k en β e X X 21 X 22 Assim.. .1 Significado dos parâmetros do modelo ...β1 é o valor médio de Y quando X2 = X3 = . Vanessa Leotti 2 MODELO DE REGRESSÃO LINEAR MÚLTIPLA (MRLM) A teoria econômica raramente é simples a ponto de explicar o comportamento da variável de interesse com base na informação de apenas uma outra variável explicativa.. O mais simples caso de regressão múltipla possui três variáveis..As k-1 variáveis explicativas são X2.2 Notação matricial do MRLM A grande vantagem da álgebra matricial sobre a álgebra escalar é que ela oferece um método compacto para lidar com modelos de regressão envolvendo qualquer número de variáveis. Dessa forma.Os coeficientes parciais de regressão. sendo duas explicativas e uma resposta. Seja a FRP para o modelo de k variáveis. Nesse modelo: . .. isto equivale a minimizar e eˆ ' eˆ = [ eˆ1 eˆ2 eˆ1 eˆ 2 2 2 2 eˆn ] 2 = eˆ1 + eˆ2 + + eˆ n = ∑ eˆi eˆ n A aplicação desse método conduz ao vetor de estimadores de mínimos quadrados dos coeficientes de regressão: 32 . sendo In a matriz identidade de ordem n (hipótese de ausência de heteroscedasticidade ou autocorrelação serial). σ 2 I n . β : é o vetor (k x 1) de parâmetros desconhecidos. [3]: E (ee' ) = σ 2 I n . isto é. 2. [4]: a matriz X é não aleatória. os estimadores de MQO podem ser obtidos através da minimização da soma dos quadrados dos resíduos. pois: Em notação matricial. Y =Xβ Da mesma forma que no modelo de duas variáveis. consiste em um conjunto de números fixos. ou posto de X é k < n (hipótese de ausência de multicolinearidade). Isto significa que as colunas da matriz X são linearmente independentes. ou seja. que pode ser escrita em notação matricial como: ˆ +e ˆ +e ˆ =Y ˆ. e os elementos fora da diagonal principal são as covariâncias. e : representa o vetor (n x 1) de perturbações (erros) aleatórias. não há uma relação linear exata entre as variáveis X. [5]: a raiz característica. ˆ' e ˆ . isto é: ∑ eˆ 2 i ( = ∑ Yi − βˆ1 − βˆ 2 X 2 i − βˆ 3 X 3i − − βˆ k X ki ) 2 . [6]: para realizarmos inferências. [2]: E (e) = 0 .4 Método dos mínimos quadrados ordinários (MQO) Seja a FRA de k variáveis: Yi = βˆ1 + βˆ 2 X 2i + βˆ 3 X 3i + + βˆ k X ki + eˆi = Yˆi + eˆi . Vanessa Leotti Y = Xβ + e onde: Y: é o vetor coluna de dimensão (n x 1) de valores observados.MAT02207 – Estatística Econômica – Prof. Obs: as notações negrito representam formas matriciais. Os elementos na diagonal principal dessa matriz são as variâncias. E (ee' ) é a chamada matriz de variâncias e covariâncias dos resíduos aleatórios. é necessário supor que e ~ N 0.3 Premissas do MRLM [1]: Y = Xβ + e . ( ) 2. X: é a matriz (n x k) de valores observados para as variáveis explicativas. as variâncias estimadas dos estimadores de MQO são: σˆ β2ˆ = σˆ 2 aii . coluna i. −1 Em resumo: A = 1 C' . Para isso devemos fazer: 1. da matriz ( X' X ) −1 . i+j 2. C’. 2. Fazem-se operações lineares nas linhas até que a primeira matriz se torne a identidade. 33 . n −k n −k Assim. eˆ ' eˆ Y' Y − βˆ ' X' Y = . Obter a matriz de cofatores C. Vanessa Leotti ˆ =( X' X ) −1 X' Y β As matrizes X' X e X' Y são dadas por: n ∑ X 2 i X' X = ∑ X 3i X ∑ ki ∑X ∑X ∑X X 2i 2 2i 2i ∑X ∑X X ∑X 2i 3i 2i 3i 2 3i ∑X 3i X ki ∑X 3i X ki ∑X ∑X X ∑X X ∑Yi 2i ki ∑ X 2i Yi e X' Y = ∑ X 3i Yi . lembrando que: cij = ( −1) M ij . Fazer a transposta da matriz de cofatores. Demonstra-se que o vetor ˆ β é um estimador linear. não-tendencioso e de variância mínima. Entretanto. a variância residual pode ser estimada por: σˆ 2 = 2 onde Y' Y = ∑ Yi .1 Variâncias dos estimadores de MQO Demonstra-se que () ˆ =σ 2 ( X' X ) −1 . Achar o det(A). A-1. que só e conhecida se σ 2 for conhecido. 4. Dividir cada elemento de C’ por det(A). 3. onde Mij é o menor do elemento da linha i e coluna j. Var β que é a matriz de variâncias e covariâncias dos estimadores de MQO. obtido suprimindo-se a linha i e coluna j. det(A) 2) Escalonamento Escreve-se a matriz identidade do lado da matriz que se quer inverter. ou seja.MAT02207 – Estatística Econômica – Prof. i onde aii é o elemento da linha i.4. 3i ki X Y ∑ X ki2 ∑ ki i ki Obs: Métodos para inverter uma matriz 1) Cofatores Queremos determinar a inversa da matriz A. 2 X2 100 50 100 100 50 X3 4 3 4 2 2 Y² X2² X3² X2Y X3Y X2X3 34 . Vanessa Leotti Exemplo 1. i 1 2 3 4 5 Total Y 9. Uma empresa de tele-entrega quer estimar o tempo que seus funcionários devem levar até que retornem com uma lista de tarefas concluída.MAT02207 – Estatística Econômica – Prof. bem como os erros-padrão dos estimadores. Assim. coletou o tempo de viagem (Y).9 6.3 4. a quantidade de km percorridos (X2) e o número de entregas (X 3) de cinco de seus moto-boys. Com os dados a seguir.5 4.8 8. estime o modelo de regressão linear múltipla. 35 . o coeficiente de correlação múltipla ( R = R 2 ).: No modelo de duas variáveis definimos o coeficiente de correlação (r) como uma medida do grau da relação entre as variáveis. há um coeficiente análogo. A quantidade mais significativa é R2. R sempre será positivo (pois nem todas as variáveis explicativas podem ter relação no mesmo sentido com a variável resposta). porém. na prática. ao comparar dois modelos de regressão com a mesma variável dependente. Estime o MRLM de três variáveis. No caso de três ou mais variáveis.MAT02207 – Estatística Econômica – Prof. no MRLM o coeficiente múltiplo de determinação R2 é definido como: R2 = ˆ ' X' Y − n Y 2 β Y' Y − nY 2 = SQE e' e SQR =1 − =1 − 2 SQT SQT Y' Y − n Y Obs. O R2 quase invariavelmente aumenta e nunca diminui quando o número de regressores aumenta. o coeficiente de determinação mede a proporção da variação em Y explicada conjuntamente por todas as variáveis X. Para comparar dois termos R². Assim. Seja a amostra abaixo. seu valor será tomado como zero. mas com número diferente de variáveis X. Isto pode ser feito se considerarmos o coeficiente múltiplo de determinação ajustado. outras medidas conhecidas são o R2 Modificado. e neste caso.: o R 2 . deveríamos escolher o modelo com o R² mais alto. Y 5 6 7 8 8 X2 1 2 3 4 5 X3 1 1 2 2 2 2. R tem pouca importância. R 2 para os dados do Exemplo 1. Vanessa Leotti Exercício 1. Cálculo do R2. Exemplo 2.5 Coeficiente múltiplo de determinação: R2 No modelo de k variáveis. não é a única forma de correção do R2 e nem a única medida para julgar a adequação de um modelo de regressão. Na prática. é preciso levar em conta o número de variáveis X presentes no modelo. Obs. Embora r possa ser positivo ou negativo. que é dado por: SQR n −1 R 2 = 1 − n − k = 1 − (1 − R 2 ) SQT n −k n −1 O R 2 pode ser negativo. que mede a associação entre Y e todas as variáveis explanatórias em conjunto.6 Coeficiente múltiplo de determinação ajustado: R2 Uma propriedade importante do R2 é que ele é uma função não-decrescente do número de variáveis explicativas. 2. bem como as variâncias e erros-padrão dos estimadores. o critério de Informação de Akaike e os critérios de Predição de Amemiya. Em vista disto. 1: coeficiente de correlação parcial entre X2 e X3 mantendo Y constante.3. ocorreriam também coeficientes de correlação de segunda ordem (r12.2: coeficiente de correlação parcial entre Y e X3.7 Coeficiente de correlação parcial Na regressão linear múltipla.3 são os coeficientes de primeira ordem. é necessário manter a influência das demais variáveis constante. ou de ordem zero.1 = r23 − r12 r13 (1 − r )(1 − r ) 2 12 2 13 r12. Ele não refletirá o verdadeiro grau de associação entre Y e X2 na presença de X3. Assim. Esses coeficientes são denominados de coeficientes de correlação simples.3 = .MAT02207 – Estatística Econômica – Prof. 1 − r132 1 − r232 ( )( ) r13. Vanessa Leotti Exercício 2. Se houvessem mais variáveis no modelo. r13. no modelo com três variáveis.34). As fórmulas de cálculo são: r12 − r13 r23 r12.3 e r12. pelo fato que X3 provavelmente influencia em Y e X2. R 2 para os dados do Exercício 1. 2. no modelo de três variáveis. têm-se r12. Eles podem ser calculados conforme a fórmula: n∑ XY − ( ∑ X )( ∑Y ) ∑ xy = r= 2 2 2 2 [n ∑ X 2 − ( ∑ X ) ][ n∑Y 2 − ( ∑Y ) ] ∑x ∑ y Seja o coeficiente r12. r23.3: coeficiente de correlação parcial entre Y e X2. mantendo X2 constante. 36 . Cálculo do R2. Por exemplo. r12. podemos ter um coeficiente de correlação para cada par de variáveis do modelo.345) e assim por diante.2 = r13 − r12 r23 ( 1− r ) ( 1− r ) 2 12 2 23 e r23. r13 e r23. mantendo X3 constante. denota-se: r12. Para obter um coeficiente de correlação que reflita o verdadeiro grau da relação entre duas variáveis na presença das demais. terceira ordem (r12. r13 = 0. ) 37 . isto é: sob as hipóteses clássicas. Dados r12 = 0.8 Coeficiente de determinação parcial Os coeficientes de determinação parciais expressam o grau de explicação que cada variável exerce sobre as demais. Os coeficientes de determinação parciais são obtidos simplesmente tomando-se o quadrado dos coeficientes de correlação parciais correspondentes.9 Intervalo de confiança e teste de significância individual para os coeficientes de regressão ( ) Para podermos realizar inferências.3 Então.7043. encontrou-se r12 = 0. mantendo constante todos os outros fatores. Calcule e interprete os coeficientes de determinação parciais. R sempre cresce com a inclusão de uma nova 2 variável. 2. Exercício 3.1391 e r23=0. σ 2 I n . σ 2 ( X' X ) ( Isso implica que. r13 = 0.8822. Ao se ajustar um modelo de três variáveis. R > r desde que r > 0 . β −1 βˆ ~ N β. Existe as seguintes relações entre esses coeficientes e R²: r 2 + r 2 − 2r12 r13 r23 R 2 = 12 13 1 − r232 R 2 = r122 + (1 − r122 ) r132 . Vanessa Leotti 2. onde teríamos R 2 = r122 .4564 para o Exemplo 1.2 = 0 . Ou seja.2 ( ) R 2 = r132 + 1 − r132 r122 . ou seja: 2 r12 . supomos que e ~ N 0.3048. 2 2 12 2 13.MAT02207 – Estatística Econômica – Prof.2 2 Exemplo 3. calcular e interpretar os coeficientes de determinação parciais. a menos que r13.3 : o coeficiente de determinação parcial entre Y e X2 é a proporção da variação em Y não explicada pela variável X3 que foi explicada pela inclusão de X2 no modelo.8089 e r23 = 0. ˆ tem distribuição normal multivariada. sabe-se que ( n − k )σˆ 2 ~ χ 2 . utilizamos o procedimento idêntico do teste de hipóteses para o modelo de duas variáveis para testar a significância individual dos coeficientes. Teste se os coeficientes do modelo de regressão estimado no Exemplo 1 são significativamente diferentes de zero. o intervalo de confiança para cada coeficiente de regressão é dado por: ˆ ˆ βˆ IC 100 ×(1 −α)% para βi : β i ±t ασ i n −k .1− 2 2 2 . Exercício 4. 38 . Por exemplo.α H 0 : βi ≥ βi* H 1 : βi < βi* t <−t n −k . Além disso. σ 2 a ii ) com aii sendo o elemento da i-ésima linha e i-ésima coluna de (X’X)-1. seja o modelo de 3 variáveis. o intervalo de confiança para a variância residual é: σˆ 2 σˆ 2 IC 100 ×(1 −α)% para σ : ( n − k ) 2 . Poderia ser interessante testar as hipóteses H 0 : β 2 = 0 H 1 : β 2 ≠ 0 . construa os intervalos de 95% de confiança para os coeficientes de regressão e para a variância residual. estaríamos avaliando se X2 tem alguma influência linear sobre Y. ( n −k ) 2 χ α χ α n −k . ( n− k ) σ2 Assim. Neste caso. A tabela abaixo nos dá a área de rejeição de cada teste: Tipo de hipótese H0 H1 Decisão: rejeitar H0 se Bicaudal H 0 : βi = βi* H 1 : βi ≠ βi* t > t n−k . 2 i 2 i Assim.MAT02207 – Estatística Econômica – Prof.α 2 2.10 Intervalo de confiança para a variância residual Na regressão múltipla. Sendo σ 2 desconhecido. mantendo-se X3 constante. para um nível de significância de 5%. n −k . Exemplo 4.α Cauda direita Cauda esquerda H 0 : βi ≤ βi* H 1 : βi > βi* t >t n −k . 2 Além disso. Vanessa Leotti ˆ β i E cada tem distribuição marginal também normal: βˆ i ~N ( β i . tem-se que: βˆ − β i* t= i ~ t ( n −k ) σˆ βˆ i com σˆ 2 βˆ = σ a ii e σˆ βˆ = σ a ii . 2. rejeita-se H0. R²: CV GL SQ QM Regressão k-1 Resíduos n-k (1 − R )(Y' Y −nY Total n-1 Y ' Y −nY ( R 2 Y ' Y −nY 2 2 ) 2 ) SQE k −1 SQR n −k F (n − k )R2 ( k −1) (1 − R 2 ) 2 39 .n-k) Regra de decisão: Se F > Fα.( k −1. ou seja: F ~ F(k-1. c) Teste.l.11 Teste da significância geral da regressão (ANOVA) No teste individual. Isto porque. caso contrário não se rejeita. Pode-se reescrever a tabela de ANOVA em termos do coeficiente múltiplo de determinação. se o intercepto é maior que 2. se para cada teste adotamos um nível de significância α (probabilidade de erro tipo I).n −k ) . trabalhamos separadamente com a hipótese de que cada verdadeiro coeficiente parcial de regressão era zero.l. A tabela de ANOVA para o modelo de k variáveis é: CV GL SQ Regressão k-1 Resíduos n-k Y ' Y − β ' X' Y Total n-1 Y ' Y −nY ^ β' X' Y − nY 2 QM F SQE k −1 QME QMR SQR n −k ^ 2 Demonstra-se que a estatística F segue distribuição F de Snedecor com k-1 g. a 5% de significância. podemos testar as hipóteses abaixo de uma única vez: H0 : β 2 = β 3 = = β k = 0 H1 : ao menos um dos β i é diferente de zero. Mas vejamos agora a seguinte hipótese: H 0 : β2 = β3 = = βk = 0 Esta hipótese não pode ser testada fazendo-se um teste de significância para cada coeficiente parcial. Vanessa Leotti a) Teste se os coeficientes do modelo de regressão estimado no Exercício 1 são significativamente diferentes de zero. através da ANOVA. b) Construa um IC de 90% para o coeficiente de X2 e teste se ele é diferente de 1.MAT02207 – Estatística Econômica – Prof. para um nível de significância de 5%. a probabilidade de erro tipo I de todos os testes simultaneamente é maior que α . Entretanto. no denominador. no numerador e n-k g. estabelecer as hipóteses e proceder ao teste F. a 5% de significância. Exercício 5. Construir a ANOVA. para os dados do Exercício 1. a 5% de significância. Exemplo 5. Construir a ANOVA. para os dados do Exemplo 1. estabelecer as hipóteses e proceder ao teste F. Vanessa Leotti Novamente.MAT02207 – Estatística Econômica – Prof. 40 . a ANOVA serve para testar também as hipóteses: H 0 : ρ 2 = 0 2 H1 : ρ ≠ 0 onde ρ2 é o coeficiente múltiplo de determinação populacional. R². Assim. Não se quer incluir variáveis que contribuam muito pouco para a SQE. concluímos que o acréscimo de X3 ao modelo aumenta significativamente a SQE.(1. Mas como decidir se uma variável X reduz significativamente a SQR? A técnica da ANOVA pode ser empregada para responder essa pergunta. acrescentamos X3. Imagine que façamos a inclusão seqüencial de X 2 e X3. fazemos a regressão entre Y e X2. R²) “significativamente” em relação à SQR. Se seu valor for maior que Fα. Com contribuição. ( n − n° de parâmetros do novo modelo) 41 .n −3 ) . queremos dizer que desejamos saber se a inclusão da variável no modelo aumenta a SQE (e.12 Contribuição marginal ou incremental de uma variável explicativa Seja um modelo de três variáveis. A questão da contribuição marginal é importante na prática.MAT02207 – Estatística Econômica – Prof. primeiro fazemos a regressão entre Y e X 2 e avaliamos sua significância e então acrescentamos X3 ao modelo para verificar se este contribui com algo (obviamente. Na maioria das pesquisas. a ordem de entrada pode ser invertida). deve-se acrescentar X3 ao modelo. por conseqüência. e portanto. isto é. o pesquisador pode não estar totalmente convencido de que valha a pena acrescentar uma variável X ao modelo sabendo que várias outras variáveis X já estão presentes no modelo. Essa é a contribuição marginal ou incremental de uma variável explicativa. Este teste também poderia ser reformulado em termos dos valores R²: F= (R 2 novo (1 − R ) 2 novo ) − R 2 velho n° de novos regressores . também não se quer excluir variáveis que aumentem substancialmente a SQE. Vanessa Leotti 2. produzindo a tabela de ANOVA abaixo: CV Regressão (devido a X2) Resíduos Total GL 1 n-2 n-1 SQ Q1=SQE SQR SQT QM QME QMR Após. Primeiramente. e produzimos outra tabela de ANOVA: CV Regressão (devido a X2 e X3) Resíduos Total GL 2 n-3 n-1 SQ Q3=SQE Q4=SQR Q5=SQT QM QME QMR Combinando estas duas tabelas. Contudo. obtemos: CV Regressão (devido a X2) Regressão (devido a X3) Regressão (devido a X2 e X3) Resíduos Total GL 1 1 2 n-3 n-1 SQ Q1 Q2 = Q3 – Q1 Q3 Q4 = Q5 – Q3 Q5 QM Q1 /1 Q2 /1 Q3 /2 Q4 /(n-3) F (n-3)Q2 /Q4 A estatística F segue distribuição F com “1” e “n-3” graus de liberdade. com as devidas correções dos graus de liberdade.MAT02207 – Estatística Econômica – Prof. Vanessa Leotti Observação: o mesmo procedimento poderia ser usado para testar a adição de um grupo de variáveis simultaneamente. 42 . 9978 CV Regressão Resíduos Total GL 1 13 14 R ² = 0.2353 144.0340 66042. 43 .2982 ) R ² = 0.0800 F 5947. obtendo-se os seguintes resultados: Yˆi =12.5500 6.1693 66042.2246 ) R ² = 0.762 +0.0811) (14.2693 QM 65898.4302 F 5129.494 Ao se incluir X3 no modelo.7266 X 2 i +2.2693 QM 32982.9988 CV Regressão Resíduos Total GL 2 12 14 (3. para 5% de nível de significância.MAT02207 – Estatística Econômica – Prof.9986 SQ 65965.8812 X 2 i t = ( 2.9060 ) R ² = 0.1603 +0. Observou-se 15 anos (1956 a 1970). regrediu-se Y contra X2. renda pessoal disponível (X 2) e tempo medido em anos (X3). obteve-se: Yˆi =53.319 Testar se vale a pena acrescentar X3 ao modelo. Para se estudar o comportamento do consumo pessoal nos EUA em certo período.7259 ) ( 77.1000 77. observou-se as variáveis despesa de consumo pessoal (Y).7363 X 3i t = ( 4.2353 11. Vanessa Leotti Exemplo 6. Primeiramente.9977 SQ 65898. construa a tabela ANOVA para analisar se a inclusão de variável X3 na regressão que já possui X2 é significativa a 5% e interprete o resultado. Vanessa Leotti Exemplo 7. Exercício 6. Após. A diferença está nas variâncias para os dois tipos de previsão: Previsão da média: Previsão individual: σˆ m2 = σˆ 2 X '0 ( X' X ) −1 X 0 [ σˆ i2 = σˆ 2 1 + X '0 ( X' X ) −1 X 0 ] Conseqüentemente. X3 e X4). temos novamente 2 tipos de previsão: média e individual. Em um primeiro momento.7111. ajustou-se o modelo com todas as variáveis independentes.MAT02207 – Estatística Econômica – Prof. obtendo-se R² = 0. na forma matricial. 2 44 . Seja um conjunto de dados com 20 observações e 3 variáveis independentes (X 2. a 5%. Com os dados do Exemplo 1. Testar se o acréscimo de X3 e X4 aumentou significativamente a SQE. obtendo-se R² = 0. os intervalos de confiança para essas previsões. ajustou-se a regressão entre Y e X 2. são: IC para previsão média: ˆm IC 100 ×(1 −α)% para E (Y | X = X 0 ) : Yˆ0 ±t ασ n −k . é o mesmo que ˆ. Yˆ0 = X '0 β Este é o valor estimado para Y tanto na previsão média como individual.7913. Dado o vetor de valores das variáveis X para os quais queremos prever Y: X'0 = [ 1 X 02 X 03 X 0k ] . 2. 2 IC para previsão individual: ˆi IC 100 ×(1 −α)% para Y | X = X 0 : Yˆ0 ±t ασ n −k .13 Previsão no MRLM No contexto de previsão de valores da variável dependente. desejamos prever ˆ +β ˆ X +β ˆ X + + β ˆ X Yˆ0 = β 1 2 02 3 03 k 0k que. a empresa quer saber quanto tempo deveria esperar em média para que um moto-boy retorne de uma tarefa com 3 entregas e 80km a percorrer. No Exemplo 1. Exercício 7. e pode ser ajustada normalmente por MQO. Calcule o IC 99% para E(Y| X=X0).MAT02207 – Estatística Econômica – Prof. A forma geral da regressão polinomial de k-ésimo grau é: Yi = β 0 + β1 X i + β 2 X i2 + + β k X ik + ei 45 . como abaixo: O modelo que expressa essa relação é dado por: Yi = β0 + β1 X i + β 2 X i2 + ei . Poderíamos ajustar uma parábola a esta relação. que é a regressão polinomial de 2° grau. 2. Vanessa Leotti Exemplo 8. Para o Exemplo 1.14 Modelo de regressão polinomial Suponha que desejamos relacionar custo marginal de produção (Y) com quantidade produzida (X). construa um intervalo com 95% de confiança para o tempo médio que a empresa deve esperar no caso de um moto-boy sair com 4 entregas e 70km a percorrer. 5 0 46 .5 21 20. obtém-se que: Salário médio professora: E ( Yi | D2i = 0 ) = β1 Salário médio professor: E ( Yi | D2i = 1) = β1 + β 2 O coeficiente β2 será a diferença de salário dos homens em relação às mulheres.7 0 21 20. é influenciada por variáveis independentes quantitativas. As variáveis dummies são também chamadas de variáveis indicadoras. 1. raça. como sexo. categóricas. cursos de pósgraduação e anos de experiência. a variável dependente. qualitativas ou dicotômicas. considere o seguinte modelo: Yi = β1 + β2 D2i + ei Onde: Y: salário anual de um professor universitário. se do sexo feminino Este modelo nos permite saber se o sexo faz alguma diferença no salário dos professores universitários. Y 22 19 18 21.5 17 D 1 0 0 1 0 1 1 0 Y² 484 361 324 470. etc. Exemplo 9. por isso é chamado de coeficiente diferencial de intercepto. 2. cor. se do sexo masculino D2i = 0.89 342. obviamente desconsiderando a influência de variáveis como idade. Uma maneira de inserir essas variáveis no modelo de regressão é através das variáveis dummies. Vanessa Leotti 2.7 18. Fazendo as suposições clássicas sobre os resíduos. religião. região geográfica.15.MAT02207 – Estatística Econômica – Prof. e o teste para verificar se há diferença nos salários médios para homens e mulheres é: H0 : β 2 = 0 H1 : β 2 ≠ 0 que pode ser verificado pelo teste t usual. e o sexo de cada um. que é de natureza quantitativa. nacionalidade. binárias.25 289 D² 1 0 0 1 0 1 1 0 YD 22 0 0 21. Como um exemplo. mas também por outras que são de natureza qualitativa.25 441 420.1 Regressão somente com variáveis dummies (Modelos ANOVA) Um modelo de regressão pode conter regressores que sejam de natureza exclusivamente binária. ou nominal. Sejam os dados hipotéticos dos salários de 10 professores universitários.15 Variáveis Dummies Na análise de regressão. e seus valores são geralmente codificados como 0 e 1. se pós − doutorado eD = D2i = 3i 0 . por isso ela é chamada de categoria de referência. c.2 196. 0. O modelo seria: Yi = β1 + β2 D2i + β3 D3i + ei Onde: Y: salário anual de um professor universitário. 47 . suponha que se queira verificar se existe diferença entre os salários dos professores segundo o nível de pós-graduação (mestrado. Observe que assim. deve-se criar mais de uma variável dummy.0). sendo que o valor correspondente a essa categoria é o par (0. 1. Por exemplo. a 5%. c.c.4 0 1 5 306.MAT02207 – Estatística Econômica – Prof. e testar se existe diferença nos salários médios entre os sexos. se doutorado 1.44 3888.08 0 1 5 0 21. Para se inserir uma variável qualitativa com mais de duas categorias. a categoria “mestrado” já está expressa nas duas variáveis dummies.2 106. Vanessa Leotti 17.4 Estimar o modelo.25 449.c. doutorado e pós-doutorado).5 21. MAT02207 – Estatística Econômica – Prof. Vanessa Leotti 48 . 4854 −3. deve-se estar atento na hora das interpretações.A categoria para o qual não se designa uma variável binária é a categoria de referência e todas as comparações são feitas em relação a ela. c. se casado 1. X: anos de experiência. Ainda considerando o exemplo dos salários dos professores universitários.Se uma variável qualitativa tem m categorias. D = eD = . Exemplo 10. chamados de coeficientes diferencias de intercepto.c. 0. dão a diferença da categoria que recebe valor 1 em relação a categoria de referência.9528 2. Yˆi =8.0006 1.6729 D3i ep =0. na maioria dos estudos econômicos.Os coeficientes angulares.c. Vanessa Leotti Observações no uso de variáveis dummies: . suponha que temos também uma variável quantitativa.4642 t = 21.O valor do intercepto é o valor médio da categoria de referência.4462 0. .0000 0. um modelo de regressão contém algumas variáveis explanatórias quantitativas e outras qualitativas.A categoria de referência é arbitrária ao pesquisador. 49 . foi calculada uma regressão com os seguintes resultados. 2i 3i 0. c. . A partir de uma amostra de 528 americanos.0997 D2i −1.4015 0.0182 0. . .8148 +1.MAT02207 – Estatística Econômica – Prof. se mora no Sul Onde Y=salário-hora em $.2 Regressão com variáveis quantitativas e dummies (Modelos ANCOVA) De modo geral. Assim: Y: salário anual de um professor universitário. Também se pode ter mais de uma variável qualitativa no mesmo modelo. Interpretar os resultados. 2.3688 p = 0.15. devemos introduzir no modelo m – 1 variáveis dummies. Suponha que você gostaria de regredir despesas anuais com saúde (Y).3 Efeitos de interação com o uso de variáveis binárias Considere o problema a seguir.c 50 . Di = 0. se do sexo masculino . médio e superior). mulher 1. ensino superior D2i = D3i = 0. homem 0. se do sexo feminino Queremos investigar um modelo de regressão do tipo: Yi = β1 + β2 Di + β3 X i + ei Nesse caso. 2.15. 1. renda anual (X) e nível de escolaridade (fundamental. c. Di = 0 ) = β1 + β 3 X i Salário médio professor: E ( Yi | X i . Vanessa Leotti 1. onde possuímos uma variável quantitativa e duas qualitativas binárias: Yi = α1 + α 2 D2i + α3 D3i + βX i + ei Y: despesa anual com roupas. Como seria o modelo? Faça o gráfico. X: renda anual. temos o salário médio de professores de ambos os sexos são: Salário médio professora: E ( Yi | X i . Di = 1) = ( β1 + β 2 ) + β 3 X i Graficamente: Exemplo 11.MAT02207 – Estatística Econômica – Prof. estamos supondo que a taxa de aumento dos salários-hora em relação à escolaridade (de cerca de 80 centavos de dólar por ano adicional de escolaridade) não varia com o gênero e raça. seu efeito sobre Y pode não ser apenas aditivo. se pessoas com ensino superior gastam mais com roupas que as que não possuem.05( ≅ 0. o modelo com a interação das variáveis qualitativas é representado por: Yi = α1 + α 2 D2i + α 3 D3i + α 4 D2i D3i + βX i + ei onde. Mas pode ser que não seja este o caso.3606 D2 i −1. Regrediu-se salários-hora (Y). α4 : efeito diferencial de ser mulher com nível superior. como no modelo a seguir: Nesse caso. pode-se incluir coeficientes diferenciais angulares: Yi = α1 + α2 D2i + α3 D3i + α4 D2i D3i + β1 X i + β2 D2i X i + β3 D3i X i + ei 51 . premissas desse tipo são insustentáveis. está implícita a premissa de que o efeito diferencial da variável binária sexo é constante nas duas categorias de escolaridade e que o efeito diferencial da variável binária escolaridade também é constante entre os dois sexos. como no modelo acima.05 < 0.05 > 0. Para testar isso.05 Fazer o gráfico e interpretar os resultados. sexo (D 2. contra anos de escolaridade (X).26100 −2. Portanto. Os resultados estão abaixo: Yˆi = −0. Em outras palavras. isso ocorre sejam elas graduados ou não. Vanessa Leotti Neste modelo. Do mesmo modo.05 < 0. 1 se não branco e não hispânico).MAT02207 – Estatística Econômica – Prof. mas também multiplicativo.8028 X i p = > 0. se o gasto anual com roupas é maior para mulheres que para homens.1289 D2 i D3i +0. Em muitas aplicações. pode haver uma interação entre as duas variáveis qualitativas. Uma mulher graduada pode gastar mais com roupas que um homem graduado. Ou seja.08) < 0. α3 : efeito diferencial de ter nível superior.7327 D3i +2. 1 se mulher) e raça (D3. Observação: Neste exemplo. isso se verificará tanto para homens quanto para as mulheres. Exemplo 12. para 528 americanos. α2 : efeito diferencial de ser mulher. MAT02207 – Estatística Econômica – Prof. Vanessa Leotti 2.15.4 O emprego de variáveis binárias em análises sazonais Muitos dados econômicos são formados a partir de dados mensais ou trimestrais que apresentam padrões sazonais (movimentos oscilatórios regulares). Exemplos disso são as vendas das lojas no Natal e em outras épocas, a demanda por passagem aéreas, etc. Através das variáveis binárias, podemos inserir essa informação no modelo. Exemplo 13. Estudaram-se as vendas trimestrais de geladeiras (Y), em milhares de unidades, no período de 1978 a 1995 nos EUA. Também se observou, em cada trimestre, os gastos com bens duráveis (X), em bilhões de dólares. Ajustou-se o seguinte modelo: Yˆi = 456, 2440 +242,4976 D2i +325,2643D3i −86,0804 D4i +2,7734 X i p = <0,05 <0,05 <0,05 >0,05 <0,05 1, se trimestre j . Interpretar os resultados. 0, caso contrário onde D j = 2.15.5 Modelos Log-Lin e Variáveis Dummies Já estudamos o modelo log-lin, que são aqueles em que a variável dependente é o logaritmo natural de Y, e as variáveis independentes estão em suas escalas naturais. Nestes modelos, os coeficientes angulares das variáveis independentes, após serem multiplicados por 100, são interpretados como variação percentual de Y para uma variação de uma unidade de X. Pode-se inserir variáveis independentes dummies nestes modelos, entretanto, a interpretação dos coeficientes angulares destas variáveis não é a mesma. Para se obter a variação percentual de Y devida a mudança de categorias na variável dummy, deve-se calcular 100 ( exp( β ) − 1) , onde β é o coeficiente angular da variável dummy. Exemplo 14. A certo conjunto de dados ajustou-se o modelo de regressão linear múltipla: ln(Y ) = 2,9298 + 0, 0546 X + 0,1341D t = (481,524) (48,3356) (27,2250) n = 15 onde Y é o salário inicial de professores universitários, X são os anos de experiência, e D é uma variável indicadora do sexo (D = 1 se homem). Mantendo-se D constante, o salário dos professores cresce 5,46% a cada ano a mais de experiência. Mas não se pode dizer que mantendo X constante, o salário é 13,41% maior para homens em relação a mulheres. Fazendo-se 100 ( exp(0,1341) − 1) = 14,35% , ou seja, o salário dos professores é 14,35% maior do que o salário das professoras. 52 MAT02207 – Estatística Econômica – Prof. Vanessa Leotti Exercício 8: (ANPEC – 2003) O método dos mínimos quadrados ordinários foi empregado para estimar o modelo de regressão abaixo, cujo objetivo é explicar as variações de renda entre 526 indivíduos: log(renda ) = 0,417 − 0,297 sexo + 0,080 educ + 0,029 exper − 0,00058 exper 2 + u , ( 0 , 099 ) ( 0 , 036 ) ( 0 , 007 ) R = 0,441, 2 ( 0 , 005 ) ( 0 , 00010 ) n = 526, em que sexo é uma variável dicotômica (valor 1, se for homem e 0, caso contrário), educ é o número de anos de escolaridade, exper é experiência profissional, também medida em anos. Os 1 .,4) . Com base nos números entre parênteses são os erros-padrão das estimativas ( sb i = 0,,.,.. resultados acima, responda V ou F. a) um ano a mais de escolaridade, mantidos constantes todos os demais fatores, aumenta em 0,08% a renda de um indivíduo; b) a significância conjunta das variáveis educ e exper não pode ser medida por meio da estatística t. Para isto, o teste F deve ser utilizado; c) o modelo é incapaz de captar diferenças nos retornos da educação entre homens e mulheres; d) a renda dos homens é 29,7% menor que a renda das mulheres. i 53 MAT02207 – Estatística Econômica – Prof. Vanessa Leotti 3 VIOLAÇÕES DAS PREMISSAS DO MODELO DE REGRESSÃO 3.1 Não-normalidade dos resíduos Vimos que os testes de hipóteses e intervalos de confiança que estudamos somente podem ser aplicados supondo-se normalidade aos resíduos. Entretanto, essa suposição deve ser verificada, para se avaliar se essas técnicas de inferência podem ser realmente aplicadas ou não. 3.1.1 Detecção Para fazer a verificação da normalidade dos resíduos, três técnicas são mais conhecidas: histograma dos resíduos, gráfico de probabilidade normal e testes não-paramétricos. - Histograma dos resíduos: Trata-se de um simples gráfico que é usado para conhecer algo da forma da função de densidade de probabilidade de uma variável aleatória. No eixo horizontal, dividimos os valores da variável (no caso, dos resíduos) em intervalos adequados e, em cada um, traçamos retângulos cuja altura é dada pelo número de observações (isto é, sua freqüência) nesse intervalo de classe. A partir desse gráfico, devemos tentar verificar se a forma de sino na Normal se aproxima da forma encontrada no histograma. Exemplos de histogramas gerados pelo Gretl: 0,4 0,7 uhat1 N(-2,9886e-016 1,025) Estatística de teste para normalidade: Qui-quadrado(2) = 0,943 [0,6241] uhat2 N(-3,5461e-016 0,9135) Estatística de teste para normalidade: Qui-quadrado(2) = 68,648 [0,0000] 0,35 0,6 0,3 0,5 Densidade Densidade 0,25 0,2 0,4 0,3 0,15 0,2 0,1 0,1 0,05 0 0 -3 -2 -1 0 uhat1 1 2 3 -3 -2 -1 0 1 2 3 uhat2 - Gráfico de probabilidade normal (ou Q-Q Plot): No eixo vertical, marcamos os valores da variável que nos interessam (no caso, os resíduos) e no eixo horizontal representamos o valor esperado para essa variável caso ela fosse normalmente distribuída. Se a variável for, de fato, normalmente distribuída, o gráfico tomará a forma de uma reta. 54 MAT02207 – Estatística Econômica – Prof. Vanessa Leotti Exemplos de gráficos de probabilidade normal gerados pelo Gretl: Gráfico Q-Q para uhat2 Gráfico Q-Q para uhat1 3 4 y=x y=x 3 2 2 1 1 0 0 -1 -1 -2 -2 -3 -3 -2 -1 0 1 2 Quantis normais 3 -3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 Quantis normais - Testes não-paramétricos: Existem vários testes utilizados para verificar se um conjunto de dados é normalmente distribuído, e estão disponíveis na maioria dos programas estatísticos. Alguns deles são: Anderson-Darlin, Qui-quadrado, Jarque-Bera, Kolmogorov-Smirnov, Lilliefors, DoornikHansen e Shapiro-Wilk. A hipótese nula desses testes é que os dados provêm de uma distribuição normal, contra a alternativa de que os dados não provêm de uma distribuição normal. Ao pedir esses testes no Gretl, devemos observar se o valor-p é menor que o nível de significância adotado. Se for, a suposição de normalidade não está satisfeita. Exemplo dos testes de Normalidade no Gretl: Teste da normalidade de uhat1: Teste da normalidade de uhat2: Teste de Doornik-Hansen = 0,942923, com p-valor 0,62409 Teste de Doornik-Hansen = 68,6476, com p-valor 1,23983e-015 Shapiro-Wilk W = 0,99156, com p-valor 0,78854 Shapiro-Wilk W = 0,83696, com p-valor 4,02623e-009 Teste de Lilliefors = 0,0550418, com p-valor ~= 0,64 Teste de Lilliefors = 0,15247, com p-valor ~= 0 Teste de Jarque-Bera = 1,01753, com p-valor 0,601239 Teste de Jarque-Bera = 61,2039, com p-valor 5,12548e-014 3.1.2 Conseqüências Já vimos que a premissa de normalidade não é essencial se o objetivo for apenas estimar o modelo. Além disso, demonstra-se que os estimadores de MQO são os melhores estimadores lineares não tendenciosos quer os resíduos sejam normais quer não. Entretanto, se os resíduos não forem normais, os testes e intervalos de confiança baseados nas distribuições t, F e Qui-quadrado serão inválidos. 3.1.3 Medidas corretivas Demonstra-se que, mesmo se os resíduos não forem normais, mas forem homocedásticos, os estimadores de MQO seguem distribuição assintoticamente normal. Ou seja, se a amostra for grande, os habituais procedimentos de inferência ainda são válidos. Infelizmente, não se tem um consenso sobre quão grande uma amostra deve ser para que a normalidade assintótica seja válida. Alguns autores consideram n = 30 como sendo um tamanho de amostra mínimo satisfatório. 55 3461. como tomar o logaritmo ou a raiz quadrada de Y.30963e-06 razão-t 15. usando as observações 1-20 Variável dependente: l_PD Const VENDAS Coeficiente Erro Padrão 5.4) Estatística de teste para normalidade: razão-t 0.2684 4.4425 p-valor <0. existe o recurso de proceder transformações na variável Y.97 0.47032e-05 3. Vanessa Leotti Quando não se pode aumentar o tamanho da amostra.00566732 Ajustou-se também o modelo ln ( PD ) = β1 + β 2VENDAS + e . Exemplo 1.385208 1. com p-valor ~= 0 Teste de Jarque-Bera = 10. Modelo 1: MQO.00025 Qui-quadrado(2) = 13.0624 8000 y=x 6000 0.00785265 Const VENDAS 0.994 913. com p-valor 0. Procedeu-se um estudo sobre gastos com pesquisa e desenvolvimento (PD) e as vendas (VENDAS) de 20 setores industriais dos EUA.MAT02207 – Estatística Econômica – Prof.0319003 0.88152 0.243594.0009] p-valor 0. com p-valor 0.00015 2000 0 0. usando as observações 1-20 Variável dependente: PD Coeficiente Erro Padrão 192.0001 -2000 5e-005 -4000 0 -8000 -6000 -4000 -2000 0 2000 4000 6000 8000 -6000 -5000 -4000 -3000 -2000 uhat1 -1000 0 1000 2000 3000 4000 Quantis normais Teste da normalidade de uhat1: Teste de Doornik-Hansen = 13.983 [0.83513 0.84162. os resultados estão abaixo.2633e-014 2601. Ajustou-se o modelo PD = β1 + β2VENDAS + e no Gretl.00001 0.00073 *** Gráfico Q-Q para uhat1 uhat1 N(-4. obtendo-se os seguintes resultados: Modelo 2: MQO.00031 *** *** 56 5000 .2112 4.9829.00387022 Teste de Lilliefors = 0. com p-valor 0.0002 4000 Densidade 0.000919708 Shapiro-Wilk W = 0. 05 -2 0 -3 -2 -1 0 1 2 3 -2. com p-valor 0. X k (onde X 1 =1 para todas as observações a fim de levar em conta o intercepto). Assim. diz-se que existe uma relação linear exata se a seguinte condição for atendida: λ1 X 1 + λ2 X 2 + + λk X k = 0 .93767.1 -1.12 Teste de Jarque-Bera = 1.532274 3.172371.89276.388144 Shapiro-Wilk W = 0.5 -2. 57 2.4409e-017 1. não há relações lineares perfeitas entre as variáveis explicativas”.5 1 Densidade 0.5 0.5 -2 -1. Vanessa Leotti 0.5 1 1.3881] Gráfico Q-Q para uhat2 2. onde os λi são constantes tais que nem todas são zero simultaneamente. nesse caso teríamos: X 2i = − λ1 λ λ 1 X 1i − 3 X 3i − k X k − υi = 0 λ2 λ2 λ2 λ2 O que é o mesmo que regredir X2 sobre as demais variáveis na forma: X 2i = α 1 + α 2 X 1i + α 3 X 3i + + α k X ki + u i .2612.5 y=x 0. ou seja. com p-valor ~= 0.15 -0.2 0 0.3 1.MAT02207 – Estatística Econômica – Prof. como a seguir: λ1 X 1 + λ2 X 2 + + λk X k + υi = 0 . onde υi é um erro aleatório. . Entretanto. com p-valor 0. X 2 .0964) Estatística de teste para normalidade: Qui-quadrado(2) = 1. a multicolinearidade não ocorre apenas com relações perfeitas.2 Multicolinearidade Uma das premissas do modelo de regressão é que: “não existe multicolinearidade perfeita.4 uhat2 N(4. suponha que a variável X2 possa ser expressa com um alto grau de explicação por uma composição linear das demais variáveis.5 -1 -0.5 -1 0.25 0.5 uhat2 0 0.5 2 Quantis normais Teste da normalidade de uhat2: Teste de Doornik-Hansen = 1.5 .35 2 0.5 0. No caso da regressão com k variáveis envolvendo as variáveis explanatórias X 1 . mas de um modo menos que perfeito.893 [0.216583 Teste de Lilliefors = 0. com p-valor 0. e também ocorre quando as variáveis X são intercorrelacionadas. Se a multicolinearidade é perfeita. Vanessa Leotti Como exemplo numérico. Vejamos os diagramas que ilustram os diferentes graus de multicolineridade: 3. vejamos os seguintes dados hipotéticos: X2 10 15 18 24 30 X3 50 75 90 120 150 X4 52 75 97 129 152 Observe que X 3i = 5 X 2i . a relação existente entre as variáveis independentes não é linear e rigorosamente falando. Mas se as duas variáveis independentes foram perfeitamente colineares. então. não há modo de manter X3 constante: quando X2 variar. que não há forma de isolar as influências das duas variáveis na amostra dada. X3 também o fará. Para exemplificar. mas essas duas variáveis estão estreitamente relacionadas já que o coeficiente de correlação simples entre elas é 0. os coeficientes da regressão são indeterminados e seus erros-padrão são infinitos. não há colinearidade perfeita entre X2 e X4. 7. 0. O que quer dizer. 2 k Em modelos de regressão do tipo Yi = β 0 + β1 X i + β 2 X i + + β k X i + ei . 9.1 Conseqüências 1. e neste caso o coeficiente de correlação simples é igual a 1. A variável X4 foi criada a partir de X3 simplesmente somando a ele os seguintes números: 2. em geral é observada uma alta correlação entre os regressores. 4 Nesse caso. o que nos impede de estimar o modelo. e as seguintes observações: Y 10 15 18 30 X2 2 3 4 4 Onde λ é uma constante não nula. ˆ : ele nos dá a taxa de Há uma razão intuitiva para isto.2.MAT02207 – Estatística Econômica – Prof. Entretanto.9959. mantendo-se X3 constante. Assim. não viola a hipótese de ausência de multicolinearidade. a uma taxa de λ . portanto há colinearidade perfeita entre essas duas variáveis. 2. 58 . seja um modelo de 3 variáveis. a matriz X ' X = 13 13λ 13 45 45λ X3=λ X2 2λ 3λ 4λ 4λ 13λ 45λ tem determinante: 45λ² det ( X ' X ) = 8100λ² + 7605λ² + 7605λ² − 7605λ² − 8100λ² − 7605λ² = 0 e por isso a sua inversa não existe. Lembrando o significado de β 2 variação de Y quando X2 varia uma unidade. e quanto maior a colinearidade maior o FIV. percebe-se que. ou seja. FIV será: 59 . j como variável dependente Nesse caso.MAT02207 – Estatística Econômica – Prof. os estimadores MQO têm grandes variâncias. então FIV = 1. também pode-se ter as seguintes expressões: σ2 σ β2ˆ = e ∑x22i (1 − r232 ) 2 σ β2ˆ = 3 σ2 . que é o infinito. definido por: 1 FIV = 1 − r232 ( ) Se não há colinearidade. as variâncias dos dois estimadores aumentam até o limite. quando r23 tende (em termos absolutos) a 1. Para um modelo de k variáveis. Entretanto. os coeficientes podem ser determinados. ∑ x 2j (1 − R 2j ) j 2 onde R j é o coeficiente múltiplo de determinação da regressão de X e os outros k – 2 X como variáveis independentes. Se a multicolinearidade é “imperfeita” mas “alta”. Seja um modelo de regressão múltipla de 3 variáveis. o que diminui a precisão na estimação. A velocidade com que as variâncias aumentam pode ser mensurada através do Fator de Inflação de Variância (FIV). quando a colinearidade entre as variáveis X aumenta. Vanessa Leotti 2. A figura abaixo mostra o quanto as variâncias dos estimadores aumentam à medida que a correlação entre as variáveis independentes aumenta. ∑x (1 − r ) 2 3i 2 23 Assim. e os estimadores MQO ainda possuem a propriedade de melhores estimadores lineares não-viesados. pode-se escrever as variâncias dos coeficientes angulares parciais como: σ2 σ β2ˆ = . Além da forma matricial de cálculo das variâncias dos estimadores. 7737 ) (0.1252) (0. 6.0851) (0. medimos seu grau em uma amostra específica. Vanessa Leotti 1 (1 − R 2j ) . com base no teste F.0270 X 3 ep : (0. levando a não rejeição de H 0 :βi = 0 .4014 X 2 + 0.2.9747) Nesse caso temos também que R2 = 0.7480) (0. O inverso do FIV é conhecido como Tolerância (TOL): FIV j = TOL j = 1 . o R² pode ser bastante alto. e não da população.2628) (0. obtemos Yˆ1 =1.2781) (0. 4. os testes t de um ou mais coeficientes tendem a ser estatisticamente não significativos.1939 + 0. mas entre seus vários graus. Na verdade. r23 = 0. 3.8143. 5.8101.8491) sendo observados que R2 = 0.2721) p : (0. Apesar das conseqüências 3 e 4. Além disso. Nessas situações o R² pode ser tão alto que. Portanto. ela é uma característica da amostra. deve-se ter em mente que a multicolinearidade é uma questão de grau. Considere a pequena variação nos dados das duas tabelas a seguir: Y1 X2 X3 Y X2 X3 2 0 4 6 8 4 2 0 12 16 2 1 2 3 4 5 2 0 4 6 8 4 2 12 0 16 1 2 3 4 5 Da primeira tabela.4463 X 2 + 0. somos levados à rejeição da hipótese H 0 : β2 = β3 = = βk = 0 .8285. r23 = 0. 60 .1848) p : (0.2 Detecção Primeiramente. e não de tipo. esse é um dos indícios de multicolinearidade: valores t insignificantes.MAT02207 – Estatística Econômica – Prof. A distinção significativa não é entre a presença e ausência de multicolinearidade. os intervalos de confiança tendem a ser bastante amplos. temos Yˆ2 =1.1371) (0. mas um alto R² e um valor de F significativo. Por causa da conseqüência 2. Também por causa da conseqüência 2.2101 + 0. As estimativas dos coeficientes e dos erros-padrão podem ser muito sensíveis a pequenas variações nos dados.2469) (0.003 X 3 ep : (0. FIV j 3. Da segunda tabela.5523. maior a multicolinearidade. Se o F calculado for maior que o tabelado. diz-se que essa variável é altamente colinear. e sim algumas regras práticas. e analogamente para os demais modelos. menor a TOL. Se R² é alto. pode-se calcular a estatística de teste Fi = Ri2 / ( k − 2 ) ~ F( k −2. Regressões auxiliares. se o FIV de uma variável for maior que 10. R² alto.23 são baixos. considera-se que Xi é colinear em relação aos outros X. e por conseqüência. r132 . 1. pode-se adotar a Regra prática de 2 Klein: a multicolinearidade só será problema sério se todos os Ri forem maiores que o R² geral. Porém. para mais variáveis a correlação alta é uma condição suficiente mas não necessária para a multicolinearidade. r24 . isto é. Então algo deverá ser feito para corrigir a multicolinearidade. olharemos para r23 .34 . Altas correlações entre pares de regressores. Consideraremos a correlação de ordem zero alta se for em módulo maior que 0. o teste F rejeitará. Em lugar de testar formalmente as regressões auxiliares. mas poucas razões t significativas.9 . o que acontece se Ri2 > 0.24 .8. Então. Como regra prática. 2. para r23 . 2 que aqui designamos por Ri . 4. No modelo de 3 variáveis. Exame das correlações parciais entre regressores. Consideraremos um R² alto se for maior que 0. 3.8.n−k +1) 1 − Ri2 / ( n − k + 1) ( ) onde k é o número de variáveis do modelo com o Y como variável dependente. mas é exigente demais. r34 . Como a multicolinearidade decorre do fato de que um ou mais regressores são combinações lineares exatas ou aproximadas de outros regressores. Este exame não é infalível e é criticado por vários autores. Quanto maior o FIV. mas r122 .MAT02207 – Estatística Econômica – Prof. Já vimos o FIV e a TOL. já no modelo de 4 variáveis. Este é um critério sensato. aquele obtido na regressão entre o Y e todos os X. Neste caso. isto pode sugerir que as variáveis independentes são estreitamente intercorrelacionadas. na maioria das vezes. mas os testes t individuais mostrarão que nenhum ou muito poucos desses coeficientes são significativamente diferentes de zero. Seja um modelo de 4 variáveis. Tolerância e fator de inflação de variância. 5. a hipótese de que os coeficientes parciais angulares são simultaneamente iguais a zero. Vanessa Leotti Não há um método único para detectar multicolinearidade. Para o modelo de 3 variáveis. 61 . r142 . uma forma de verificar qual das variáveis X se relaciona a outras X é fazer regressões de cada Xi contra os demais X e calcular os respectivos R². esse é um bom critério. 963504 92. usando as observações 1-10 Variável dependente: Y Const X2 R-quadrado Coeficiente Erro Padrão 24.40196 razão-t 3.41382 0.1442 -0.0357428 0.941537 0.0 Valores > 10.953077 9.5261 p-valor 0.128 VIF(j) = 1/(1 .957319 62 .962062 razão-t 3. Vanessa Leotti Exemplo 2.6690 1.00798 0.7747 6.Regressão entre Y e X2 Modelo 2: MQO.35068e+009 Número de condição recíproca = 2.128 482.29016 0.509091 0.00514 <0. obtemos os seguintes resultados: Modelo 1: MQO. Considere uma regressão do consumo (Y) em função da renda (X2) e riqueza (X3).7525 0.2432 R-quadrado ajustado p-valor 0.0806645 const X2 X3 R-quadrado F(2.0424345 0.727131e-008 Também é interessante observamos o resultado das regressões entre Y e cada um dos X separadamente: .MAT02207 – Estatística Econômica – Prof.61509 R-quadrado ajustado P-valor(F) *** 0.822898 -0.R(j)^2).0 podem indicar um problema de colinearidade X2 X3 482.4545 6. usando as observações 1-10 Variável dependente: Y Coeficiente Erro Padrão 24.29e-06 Fatores de Inflacionamento da Variância (VIF) Valor mínimo possível = 1.00001 *** *** 0. 7) 0.8128 14. com os dados abaixo: Y 70 65 90 95 110 115 120 140 155 150 X2 80 100 120 140 160 180 200 220 240 260 X3 810 1009 1273 1425 1633 1876 2052 2201 2435 2686 Através do Gretl. onde R(j) é o coeficiente de correlação múltipla entre a variável j e a outra variável independente Propriedades da matriz X'X: Norma-1 = 37022026 Determinante = 2. 00750 <0.8741 0. temos a regressão auxiliar entre X2 e X3: Modelo 4: MQO. e com base em todos os indícios.00001 *** 0.89726 <0.0979231 0.997926 razão-t -0.00374399 0. 63 .956679 razão-t 3. Calcular FIV. TOL.MAT02207 – Estatística Econômica – Prof. a um nível de 5% de significância.00001 *** *** 0. usando as observações 1-10 Variável dependente: Y Const X3 R-quadrado Coeficiente Erro Padrão 24.89796 0.411 6.0497638 0.Regressão entre Y e X3 Modelo 3: MQO. Vanessa Leotti .997667 Fazer o teste F para verificar se as variáveis independentes são colineares.0405 R-quadrado ajustado p-valor 0. concluir sobre multicolinearidade.386271 2. usando as observações 1-10 Variável dependente: X2 const X3 R-quadrado Coeficiente Erro Padrão -0.2917 R-quadrado ajustado p-valor 0.00157838 0.1333 62.5512 13.951264 Por último. ocasionando multicolinearidade. 4. gerando multicolinearidade. Seja uma série temporal do consumo versus renda e riqueza: Yt = β1 + β2 X 2t + β3 X 3t + et Ao longo do tempo. reescreve-se o modelo como: Y * = β1 + β 2 P + e . Combinação de dados de corte transversal e séries temporais. 3. pois os preços estarão praticamente constantes. As conseqüências do viés de especificação são que as estimativas de MQO se tornam viesadas. 5. 2. Transformação de variáveis. Com essa estimativa. Pode-se então tomar a primeira diferença: Yt − Yt −1 = β1 + β2 ( X 2t − X 2. Corte transversal = pesquisa feita em um único momento do tempo. Outra transformação usada na prática é a transformação proporcional. Então podemos calcular a seguinte regressão: Y = β1 + β2 X 2 + 0.1β2. Dados novos. Seja também o modelo: Y = β1 + β2 P + β3 R + e .1β2 X 3 + e = β1 + β2 X + e . renda e riqueza tendem a evoluir na mesma direção. que a taxa de variação do consumo em relação à riqueza é um décimo da taxa correspondente em relação à renda. Y* é Y sem o efeito da renda. ou seja. pode-se chegar a uma estimativa bastante confiável de β3 . Séries temporais = dados são coletados em momentos diferentes no tempo. Seja o exemplo do consumo versus renda e riqueza. 64 . seus preços médios (P) e a renda dos consumidores (R).MAT02207 – Estatística Econômica – Prof. isto é. mas pode gerar autocorrelação dos resíduos. Sabe-se que preço e renda tendem a registrar alta colinearidade.t −1 ) + ut Essa transformação normalmente resolve a multicolinearidade. Deve-se tomar o cuidado para não cair em um “viés de especificação”. Imagine que saibamos “a priori” que β3 = 0. Podese expressar esse modelo em termos “per capita”: 1 Yt = β1 X 3t X 3t X e + β 2 2t + β 3 + t X 3t X 3t A desvantagem dessa transformação é que ela pode gerar heterocedasticidade.3 Medidas corretivas 1. que decorre da especificação incorreta do modelo empregado. Utilização de informações “a priori”. Imagine que dispomos de uma série temporal do n° de carros vendidos (Y). Além disso.2. onde X = X 2 + 0. Onde Y * =Y − βˆ3 R .1X 3 A informação a priori pode vir de trabalhos anteriores nos quais o problema de colinearidade é menos grave ou da teoria do campo de estudo.t −1 ) + β3 ( X 3t − X 3. Excluir variáveis. se fizer uma pesquisa relacionando consumo e renda. PNB (X2) e população (X3): Yt = β1 + β2 X 2t + β3 X 3t + et Em geral PNB e população crescem ao longo do tempo. Se em determinado momento. perde-se uma observação. Seja uma série temporal entre consumo (Y). Vanessa Leotti 3. nas séries temporais. 85685 2.0000 0.3078777e-009 Coeficientes de correlação.MAT02207 – Estatística Econômica – Prof.085 99.8433 X1 1. como análise fatorial e regressão de cumeeira.18606 1. 7.7824 4. aumentar o tamanho da amostra.0 Valores > 10.801359 21. usando todas as observações 1 .0000 Y Há indícios de que a multicolinearidade afeta esses dados? Quais são eles? 65 .16991 0. 16) 0.4578 0. Deve-se cuidar se a conjuntura econômica não se modificou. Exercício 1.0 podem indicar um problema de colinearidade X1 X2 X3 708. Foi feito um estudo com 20 mulheres saudáveis relacionando quantidade de gordura corporal (Y). Vanessa Leotti Ou seja. onde R(j) é o coeficiente de correlação múltipla entre a variável j e a outra variável independente Propriedades da matriz X'X: Norma-1 = 108567.843 564.8781 X2 1.7 Número de condição recíproca = 5.11 Determinante = 1767107.3701 p-valor 0. A regressão resultou nos seguintes resultados: Modelo 1: MQO.4438 para n = 20 X1 X2 X3 Y 1.1064 -1.606 VIF(j) = 1/(1 . com medidas do tríceps (X1).1734 1.4373 -1.58202 -2. Ao subtrair a média. 2 Pode-se ajustar o modelo: Yi = β0 + β1 ( X i − X ) + β2 ( X i − X ) + ei .5955 Const X1 X2 X3 R-quadrado F(3. Regressões polinomiais.764113 7.01551 -2.R(j)^2).1424 X3 1.20 5% valor crítico (bilateral) = 0. 6.343 104.33409 3. Outras técnicas.0000 0.28489 0. Exemplo: Yi = β0 + β1 X i + β 2 X i2 + ei .18956 R-quadrado ajustado P-valor(F) 0. Há muitas outras técnicas sugeridas e ainda sendo pesquisadas para resolver multicolinearidade. circunferência da coxa (X2) e circunferência do antebraço (X3). geralmente a multicolinearidade reduz.34e-06 Fatores de Inflacionamento da Variância (VIF) Valor mínimo possível = 1.25781 0. usando as observações 1-20 Variável dependente: Y Coeficiente Erro Padrão 117.0847 0.51571 razão-t 1.9238 0.0000 0. Mas é o “melhor” estimador. possui a variância mínima dentre todos os estimadores não-tendenciosos? A resposta é não e a justificativa é dada a seguir. Pode-se demonstrar que. ∀i 2 Heterocedasticidade: Var ( ei ) = σ i Graficamente. na presença de homocedasticidade. é consistente e segue distribuição normal assintótica. devem ter todos a mesma variância. presença de outliers (valores discrepantes). Seja um modelo de regressão simples: Yi = β1 + β2 X i + ei . Além disso. isto é. Estudamos que. 66 .3 Heterocedasticidade Uma das premissas do modelo de regressão linear clássico é a de que os termos de erro ei da FRP sejam homocedásticos. temos: Essa característica pode ser observada em diversos tipos de dados. por exemplo: a variabilidade do número de erros de digitação que um operador comete tende a diminuir com o passar do tempo. a variabilidade dos valores depositados numa conta poupança tende a aumentar com o aumento da renda dos clientes.MAT02207 – Estatística Econômica – Prof. o estimador de MQO é o melhor estimador linear não-tendencioso. na presença de heterocedasticidade. Simbolicamente: 2 Homocedasticidade: Var ( ei ) = σ . o estimador de MQO ainda é linear e não-tendencioso. isto é. Se a heterocedasticidade estiver presente. Vanessa Leotti 3. o estimador de MQO de β2 continuará sendo: βˆ2 = ∑ xy ∑x mas agora a sua variância é dada por: σ β2ˆ = 2 2 ∑x σ ∑x 2 i 2 i 2 i 2 ao invés da expressão na presença da homocedasticidade: σ βˆ = 2 σ2 ∑x 2 . que escreveremos como: Yi = β1 X 0i + β2 X i + ei . 2 3. divindo a expressão acima por elas. obtendo-se: βˆ2* = ( ∑ω )(∑ω X Y ) − ( ∑ω X )( ∑ω Y ) ( ∑ω )( ∑ω X ) − ( ∑ω X ) i i i e sua variância é: ( ) Var βˆ2* = i i i i i i i 2 2 i i i ( ∑ω ) ( ∑ω )( ∑ω X ) − ( ∑ω X ) i i i 2 i i 2 i onde. se aplicarmos MQO ao modelo transformado. todas as conclusões ou inferências que podemos fazer com base nos testes de hipóteses e intervalos de confiança podem ser enganosas. σi σi σi σi Yi = β1* X 0*i + β2* X i* + ei* * Obs: A notação βi* é usada apenas para diferenciar os parâmetros do modelo transformado dos parâmetros de MQO. Onde X 0i =1 para todas as observações. Neste modelo transformado. ele gerará estimadores que são os melhores estimadores lineares não tendenciosos. obtemos: Yi X X e = β 1 0i + β 2 i + i . a variância do 67 . Assim. então as variâncias dos estimadores vão ser viesadas. Ou seja. tem-se que: e 2 1 * * 2 Var ( ei ) = E [ei ] = E i = 2 E [ei σ i σ i ( ) ( ] ) = σ1 σ 2 2 i 2 i =1 Ou seja.Se usarmos as fórmulas de MQO que consideram a heterocedasticidade. 2 Para obter os estimadores de MQG.2 Conseqüências . continuando a utilizar o MQO tradicional. a variância dos resíduos do modelo transformado é uma constante.1 Método dos Mínimos Quadrados Generalizados (MQG) Seja o modelo de duas variáveis: Yi = β1 + β2 X i + ei . Vanessa Leotti 3. pois o melhor é o MQG. Em conseqüência. . ωi = 1 σ i .3.MAT02207 – Estatística Econômica – Prof. O MQG são os MQO aplicados a variáveis transformadas que satisfazem as premissas do modelo clássico. Ou seja. o que implica que o modelo é homocedástico.3. Supondo que as variâncias heterocedásticas σi2 são conhecidas. e sim os estimadores de MQO do modelo transformado. minimizamos ∑(ei* ) . Por isso os estimadores de MQO no modelo original não são os “melhores”. βi . o estimador não será o melhor estimador que poderia ser utilizado.Se determinado problema é afetado pela heterocedasticidade. no MQG o peso de cada observação é inversamente proporcional à sua variância. e ignoramos esse fato. 3. Ordenar as observações de forma crescente de acordo com os valores Xi. A primeira dessas somas corresponde ao grupo de valores menores Xi. Vanessa Leotti MQO que considera a heteroscedasticidade é maior que a do MQG. e a segunda de valores maiores. Esse método consiste nas seguintes etapas: 1. e sim. e o que parece ser estatisticamente insignificante.MAT02207 – Estatística Econômica – Prof. 4. Se não for observado algum padrão sistemático. e obter SQR1 e SQR2. . Seja o modelo Yi = β1 + β2 X i + ei . Cada uma dessas somas tem (n-c-2k)/2 gl.Teste de Goldfeld-Quandt: 2 Esse método formal é aplicável quando se pressupõe que σi se relaciona positivamente com uma das variáveis explicativas.3. os testes de hipóteses e intervalos de confiança nos darão resultados inexatos. A maneira de concluir sobre a heterocedasticidade é a mesma. Omitir as c observações centrais e dividir as (n-c) observações em dois grupos. então se pode assumir que não há heterocedasticidade: Caso contrário. σi é porporcional ao quadrado da variável X. apenas algumas regras práticas. Não há regras firmes e prontas. 3. . Calcular a estatística de teste: Fcalc = SQR2 / gl ( n − c − 2k ) ( n − c − 2k ) ~ F . pode na verdade ser significante. Ou seja. gl SQR1 / gl 2 2 68 .Método gráfico: Faz-se um gráfico de dispersão entre Yˆ e eˆ . uma para cada grupo de (n-c)/2 observações. e imagine que: σ i2 = σ 2 X i2 . Ajustar duas regressões.3 Detecção Há métodos formais e informais para detectar a heterocedasticidade. 2. Assim. há indícios de heterocedasticidade: Pode-se fazer também gráficos entre cada variável X e os resíduos. 2 onde σ 2 é uma constante. P. usando as observações 1-30 Variável dependente: Y Coeficiente Erro Padrão 9. deve-se escolher qualquer uma das variáveis X para fazer a ordenação da primeira etapa. dependente E. Já para as 13 últimas observações. e com base em todos os indícios apresentados.8.06134 9. Proceda o teste de Goldfeld-Quandt.08662 <0.29031 5. Sejam as despesas de consumo (Y) e a renda (X) de 30 famílias. a 5%.7333 2361.637785 0. dependente Soma resíd.P. var.153 0.7759 22.1076 221.00001 D. quadrados R-quadrado F(1. Exemplo 3.23139 0. A análise desses dados pelo Gretl forneceu os seguintes resultados: Modelo 1: MQO. obteve-se SQR = 1536.17. A escolha do valor c é muito importante para o bom desempenho do teste. Os autores do teste sugerem que c=8 se n for em torno de 30.0041 Resíduos da regressão (= observados .9099 razão-t 1. 69 .0538 222.7183 -108. obtendo-se: SQR = 377.ajustados Y) 25 20 15 resíduo 10 5 0 -5 -10 -15 -20 80 100 120 140 160 180 200 220 240 260 X Após ordenar as observações. No caso de modelos de 3 variáveis ou mais. para modelos de 2 variáveis. Vanessa Leotti H 0 : SQR1 = SQR2 (homocedasticidade) As hipóteses desse teste são: H1 : SQR1 ≠ SQR2 (heterocedasticidade) Rejeita-se H0 se Fcalc > Ftab.2872 p-valor 0. ajustou-se um modelo para as primeiras 13 observações.946638 496. 28) Log da verossimilhança Critério de Schwarz 119. Mas outro autor sugere que c=4 se n=30 e c=10 se n=60 são valores satisfatórios na prática.33e-19 220. da regressão R-quadrado ajustado P-valor(F) Critério de Akaike Critério Hannan-Quinn * *** 39.182968 0. conclua sobre heterocedasticidade.0286167 Const X Média var. e de 16 se n=60.MAT02207 – Estatística Econômica – Prof.944732 2. α . Obter os resíduos estimados ao quadrado. Caso contrário. Obs: O mesmo resultado seria obtido usando a estatística F da ANOVA da regressão auxiliar. Os resultados para o exemplo anterior são: Teste de Breusch-Pagan para a heteroscedasticidade 70 . ajustou-se o seguinte modelo: eˆi2 = α1 + α 2 X i + ui obtendo-se um R² de 0. não há evidências de heterocedasticidade. teremos os seus valores amostrais estimados por eˆi2 . eˆi . Se o valor de LM > χgl . a suposição de homocedasticididade 2 2 também pode ser escrita como Var ( ei ) = E ei = σ .Teste de Breusch-Pagan: Como supomos que os resíduos tem média zero. ∀i . que pode ser testada 2 através de uma ANOVA. uma regressão dos quadrados dos resíduos da regressão original contra os regressores 2 X originais. O Gretl realiza o teste de Breusch-Pagan. 2. onde n é o tamanho de amostra. A idéia do teste de Breusch-Pagan é testar se os resíduos ao quadrado tem relação linear com uma ou mais variáveis independentes do modelo. que denotaremos por RBP . Com os dados pertinentes. Para fazer o teste de BreuschPagan. onde gl = k-1. 2 3.17574. Calcular a estatística de teste LM = nRBP . Apesar de não termos os verdadeiros ei . Sejam os dados de consumo e renda para as 30 famílias. Estimar a seguinte regressão (auxiliar): eˆi2 = α1 + α 2 X 2i + α 3 X 3i + + α k X ki + ui Isto é. Vanessa Leotti . Conduza o teste de Breusch-Pagan para heterocedasticidade. 2 pois considera como variável independente eˆi dividido pela sua média (“escalada”). Assim. com uma pequena modificação nos passos 2 e 3. seja o modelo: ei2 = α1 + α 2 X 2i + α 3 X 3i + + α k X ki + ui ( ) A hipótese nula de homocedasticidade é: H 0 : α2 = α3 = = αk = 0 . conclui-se que há heterocedasticidade. Obter o R² dessa regressão. 2 4. a 5% de significância. eˆi2 . Assim os passos para realização do teste de Breusch-Pagan são: 1. Exemplo 4. 2. Demonstra-se 2 que LM ~ χgl assintoticamente.MAT02207 – Estatística Econômica – Prof. estimar o modelo de regressão entre Y e as variáveis independentes e obter os resíduos estimados. Sejam os dados de consumo e renda para as 30 famílias.00411865 2.214011) = 0. Com os dados pertinentes. Obter o R² da regressão anterior (que chamaremos de RW ).752927 -0. usando as observações 1-30 Variável dependente: 'uhat^2' escalada coeficiente erro padrão razão-t p-valor -------------------------------------------------------const -0. O Gretl realiza o teste de White. aos seus quadrados ou a seus produtos cruzados. estimar o modelo acima e obter os resíduos estimados. Seja o modelo de 3 variáveis: Yi = β1 + β2 X 2i + β3 X 3i + ei . Conduza o teste de White para heterocedasticidade. e calcular a estatística de 2 teste W = nRW2 .022406 . O teste de White é conduzido do seguinte modo: 1. Se o valor de W > χgl . a 5% de significância.3324 X 0. eˆi . Demonstra-se que W ~ χgl assintoticamente.214011. onde gl = n° de regressores (excluindo o intercepto) da regressão auxiliar. 2 4. Para um modelo de k variáveis.MAT02207 – Estatística Econômica – Prof.9863 0. conclui-se que há heterocedasticidade. Vanessa Leotti MQO. onde n é o tamanho de amostra. seus quadrados e seus produtos cruzados. uma regressão dos quadrados dos resíduos da regressão original contra os regressores X originais. não há evidências de heterocedasticidade.0100632 0. 2. Calcular a seguinte regressão (auxiliar): eˆi2 = α1 + α 2 X 2i + α3 X 3i + α 4 X 22i + α5 X 32i + α 6 X 2i X 3i + ui Isto é. 2 3. Para fazer o teste de White.1777. Caso contrário. com p-valor = P(Qui-quadrado(1) > 5. é análogo. ajustou-se o seguinte modelo: eˆi2 = α1 + α 2 X i + α3 X i2 + ui obtendo-se um R² de 0. Exemplo 5.428 Estatística de teste: LM = 5.α .742614 0.0211 ** Soma dos quadrados explicada = 10.443 0. no exemplo anterior temos como saída: 71 .Teste de White: O teste de White pressupõe que as variâncias dos resíduos se relacionam funcionalmente aos regressores. 177697 Estatística de teste: TR^2 = 5.9342 sq_X 0. usando as observações 1-30 Variável dependente: uhat^2 coeficiente erro padrão razão-t p-valor ----------------------------------------------------------const -12.069568 Exercício 2.197385 2.08333 0.06412 0.00170024 0. 72 .773 -0.2962 191.2171 Regressão auxiliar para teste de White: R² = 0. trabalhado na seção de não-normalidade.9493 X 0.330902. Vanessa Leotti Teste de White para a heteroscedasticidade MQO.ajustados PD) 8000 6000 4000 resíduo 2000 0 -2000 -4000 -6000 0 50000 100000 150000 200000 250000 300000 VENDAS Verifique se a heterocedasticidade afeta esse problema através de todos os métodos diagnósticos vistos.00670701 0. Conferir no Gretl.2535 0.0 Regressão com as 7 últimas observações: SQR2 = 97356910 Regressão auxiliar para teste de Breusch-Pagan: R² = 0. com p-valor = P(Qui-quadrado(2) > 5.MAT02207 – Estatística Econômica – Prof.8018 R-quadrado não-ajustado = 0. Alguns resultados adicionais estão produzidos: Regressão com as 7 primeiras observações: SQR1 = 412586.330902) = 0. Sejam os dados de gastos com pesquisa e desenvolvimento e as vendas.36876 0.2603 Resíduos da regressão (= observados . usando as observações 1-9 Variável dependente: Yast X0ast Xast Coeficiente Erro Padrão 3408.Quando σi2 são conhecidos – MQG: 2 Já vimos que. quando σi são conhecidos.7 1112.7702 153. que é um modelo de 3 variáveis mas sem intercepto..4480 5.2 1307. pode-se aplicar o método dos mínimos quadrados generalizados.6 1243.4702 4.0804 p-valor <0.0011 0. Exemplo 6.8 805. . deve-se fazer * Yi = β1* X 0*i + β2* X i* + ei* . Seja o modelo: Yi = β1 + β2 X i + ei : 2 2 2 a) Quando a variância do erro é proporcional a X² ( σ i = σ X i ).5 4.9 1080..5664 4. pode-se transformar o modelo para corrigir o problema.0061 0.Quando σi não são conhecidos: 1) Tranformações: A partir de alguns pressupostos sobre o padrão de heterocedasticidade.0978 4. . Os dados estão abaixo: Y 3396 3787 4013 4104 4146 4241 4387 4538 4834 X 1 2 3 4 5 6 7 8 9 σi Yi * = Yi σ i X 0*i =1 σi X i* = X i σ i 743.1970 9.00001 0.26 80.0008 0.00004 *** *** 2 .3452 0.0081 Para se ajustar o modelo Yi = β1 + β2 X i + ei por MQG.0013 0.0012 0. divide-se todo o modelo por X: Yi e β 1 = 1 + β 2 + i = β1 + β 2 + ui Xi Xi Xi Xi 73 .0023 0.7 851.4585 3.0056 0.0009 0.5288 3.5139 5..0009 0. 9 (1000 a 2499 empregados).9247 3.0012 0. Os resultados do Gretl são: Modelo 1: MQO.3. Vanessa Leotti 3.592 16.MAT02207 – Estatística Econômica – Prof.0054 0.4 727. medido através das classes de n° de empregados: 1 (1 a 4 empregados).4 Medidas corretivas 2 Há duas abordagens para a correção: quando os σi são conhecidos e quando não são.9147 razão-t 42.0041 0. pois os estimadores assim obtidos são os melhores estimadores lineares não tendenciosos. Imagine que desejamos estudar a relação entre remuneração média por empregado (Y) e o tamanho da empresa (X).0008 0.0050 0.0013 0.0014 0.06 929.0056 0. 00538 *** 74 . Para voltar ao modelo original. reduz a heterocedasticidade. Observe que o modelo transformado não tem intercepto. ou seja. só pode ser utilizados para amostras grandes. Essa transformação só pode ser utilizada se os valores de X forem positivos. temos os seguintes resultados produzidos no Gretl utilizando estimadores robustos: Modelo 1: MQO. usando as observações 1-20 Variável dependente: PD Erros padrão robustos à heteroscedasticidade.994 545. Exemplo 7: Voltando aos dados do Exercício 2. deve-se multiplicar por X . Para voltar ao modelo original. variante HC1 const VENDAS Coeficiente Erro Padrão 192.0319003 0.3537 3. Vanessa Leotti ([ ] ) = σ e 2 1 Assim. Var ui = E i = 2 E ei X Xi i ( ) 2 2 . Entretanto.MAT02207 – Estatística Econômica – Prof. divide-se todo o modelo por Yi Xi = e β1 1 + β 2 X i + i = β1 + β 2 X i + ui Xi Xi Xi 2 1 ei E ei = Assim.1634 p-valor 0. Var ui = E X i X i ( ) X : ([ ] ) = σ 2 2 . basta multiplicar a equação estimada por X. 2 2 b) Quando a variância do erro é proporcional a X ( σ i = σ X i ).72769 0. ajustar um modelo log-log ln( Yi ) = β1 + β 2 ln( X i ) + ei ao invés das variáveis em suas escalas originais. desenvolvidos por White. 2) Estimadores robustos: Há também estimadores modificados disponíveis em alguns pacotes estatísticos (como o Gretl) que corrigem para a heterocedasticidade.684 0. tem-se homocedasticidade. c) Em geral.0100842 razão-t 0. o aumento de despesa de consumo de uma família pode levar a vizinha a aumentar o consumo também. Os gráficos a seguir ilustram os dois processos. Exemplos: observandose índices de preços de ações diariamente. Quando há autocorrelação.4 Autocorrelação Uma das premissas do modelo clássico de regressão era: E (ei e j ) = 0. A autocorrelação positiva se caracteriza quando os resíduos evoluem para cima ou para baixo durante longos períodos. o modelo clássico pressupõe que o termo de erro relacionado a qualquer das observações não é influenciado pelo termo de erro de qualquer outra observação. já na negativa. i ≠ j Há dois tipos de autocorrelação: no tempo (em dados de séries temporais) e no espaço (em dados de corte transversal). Vanessa Leotti 3. Os gráficos abaixo apresentam alguns padrões plausíveis de presença e de ausência de autocorrelação serial: Além de ser classificada como no tempo e no espaço. Dito de forma simples. ao regredir despesas de consumo com renda das famílias. embora ela seja mais comum no primeiro caso. 75 . não é raro verificar que esses índices sobem ou descem por vários dias seguidos (autocorrelação no tempo). então: E ( ei e j ) ≠ 0.MAT02207 – Estatística Econômica – Prof. a autocorrelação também pode ser positiva ou negativa. para não ficar para trás (autocorrelação no espaço). ∀i ≠ j . há oscilações constantes. Como ponto de partida. Poderia-se ter esquemas AR(2).MAT02207 – Estatística Econômica – Prof. O subscrito t está sendo usado para destacar que estamos lidando com séries temporais. as duas coincidem. podemos mostrar que o MELNT é dado pela expressão: n MQG βˆ2 = ∑( x − ρx ) ( y t =2 t −1 t t − ρ yt −1 ) n ∑( x − ρx ) t =2 t 2 +C t −1 Em que C é um fator de correção que. e que ajustamos a Imagine que continuamos a empregar o estimador de MQO. É de primeira ordem porque apenas o resíduo do período anterior influencia no resíduo atual. se ρ = 0 . Também é consistente e com distribuição normal assintótica. como de hábito. Na linguagem de séries temporais. Obviamente. Continuando com o modelo de duas variáveis. Vanessa Leotti Para avaliar os efeitos da autocorrelação no modelo de regressão. devemos novamente recorrer ao MQG. na prática. Quais são. no modelo tradicional essa variância era: σ2 Var βˆ 2 = 2 ( ) ∑x t Percebe-se que a primeira é igual a segunda multiplicada por um termo que depende de ρ . agora. e ut é o termo de erro que atende as premissas clássicas de um modelo de regressão (média zero. voltemos novamente ao modelo de duas variáveis: Yt = β1 + β2 X t + et . Para encontrar o MELNT na presença de autocorrelação. Entretanto. homocedasticidade e independência). O esquema anterior é conhecido como esquema auto-regressivo de primeira ordem de Markov – AR(1). com −1 < ρ <1 . precisamos imaginar o mecanismo que gera et . AR(3) e assim por diante. β 2 ˆ ? variância habitual levando em conta o esquema AR(1). Na presença da autocorrelação de primeira ordem. a qual é dada por: 76 . e admitindo o processo AR(1). assim como na heterocedasticidade. ut geralmente é chamado de ruído branco. ele não é mais o MELNT (não é eficiente). ˆ . podemos supor que o termo de erro seja gerado pelo seguinte mecanismo: et = ρet −1 + u t . pode ser desconsiderado. A denominação auto-regressivo é usada porque o esquema pode ser interpretado como uma regressão de et contra ele mesmo com defasagem de um período. o estimador de MQO de β2. as propriedades de β 2 Pode-se demonstrar que ele ainda é linear e não tendencioso. é: ∑ xt y t βˆ 2 = ∑ xt2 Mas sua variância é: ( ) Var βˆ2 = AR1 σ2 ∑ xt2 ∑ xt xt −1 + 2ρ 2 1 + 2 ρ ∑ xt2 ∑x x ∑x t t −2 2 t + + 2 ρ n−1 x1 xn ∑ xt2 Lembrando que. Esse estimador possui variância mínima. Para avançar. Onde ρ é conhecido como coeficiente de autocorrelação. os testes de hipóteses e intervalos de confiança nos darão resultados inexatos. Em conseqüência.4. Portanto.O teste de Durbin-Watson: 77 . observaremos padrões como estes: .2 Detecção .Método gráfico: 1.MAT02207 – Estatística Econômica – Prof. o estimador não será o melhor estimador que poderia ser utilizado. 3. os resíduos no período t contra seu valor em t-1. Se houver autocorrelação. Plotar et versus et −1 : Ou seja. Var (βˆ 2 ) pode subestimar Var β 2 AR1 . não serão mais válidos e provavelmente nos levarão a conclusões extremamente equivocadas quanto à significância dos coeficientes. A variância residual provavelmente subestimará o verdadeiro σ 2 . ˆ 3. pode na verdade ser significante. a variância do MQO que considera a autocorrelação é maior que a do MQG. e ignoramos esse fato. Vanessa Leotti ( ) Var βˆ2MQG = σ2 n ∑( x − ρx ) t =2 t 2 +D t −1 Em que D também é um fator de correção que pode ser desconsiderado. Ou seja. 3. 2.Se determinado problema é afetado pela autocorrelação.4. e o que parece ser estatisticamente insignificante. pois o melhor é o MQG. 2. Mesmo que σ 2 não seja subestimado. ( ) . continuando a utilizar o MQO tradicional. Assim. então: 1. Plotagem seqüencial no tempo: Faz-se um gráfico de dispersão com o tempo ou n° da observação do eixo X e os resíduos no eixo Y.Se usarmos as fórmulas de MQO que consideram a presença de autocorrelação.1 Conseqüências . os habituais testes de significância. há indícios de autocorrelação. R² será superestimado. 4. Se observar que os resíduos seguem algum padrão não-aleatório. Anotar os valores críticos dL e dU (Tabela D) baseado no número de observações (n). Rodar a regressão por MQO e obter os resíduos estimados. Os resíduos seguem distribuição Normal. como o SPSS. no número de regressores (k’ = k-1) e no nível de significância. 4. Calcular a estatística d. 3. O modelo não inclui valores defasados da variável independente como uma das variáveis explanatórias. n Seja o estimador do coeficiente de autocorrelação: ρˆ = ˆ ) . Logo: 0 ≤ d ≤ 4 . Os regressores são fixos em amostragem repetida (não-aleatórios). Se não possuir deve-se refazer a regressão incluindo o mesmo. Demonstra-se que: 2 t Os procedimentos para a execução do teste de Durbin-Watson são: 1. Os termos de erro são gerados pelo esquema AR(1). aceitação e indecisão do teste: 78 . Não há observações faltantes. A estatística d de Durbin-Watson é definida por: n d= ∑ ( eˆ t t =2 − eˆt −1 ) n ∑ eˆ t =1 a) b) c) d) e) f) 2 2 t É importante estar atento às premissas subjacentes desse teste: O modelo possui intercepto.MAT02207 – Estatística Econômica – Prof. pois −1 ≤ ρ ≤ +1 . Vanessa Leotti Esse teste é muito popular e já está incorporado na maioria dos pacotes estatísticos. d ≈ 2(1 − ρ ∑eˆ eˆ t =2 n t t −1 ∑eˆ t =1 . Decidir conforme a tabela abaixo: Hipótese nula Decisão Se Ausência de autocorrelação positiva Rejeitar 0 < d < dL Ausência de autocorrelação positiva Sem decisão d L ≤ d ≤ dU Ausência de autocorrelação negativa Rejeitar 4 − dL < d < 4 Ausência de autocorrelação negativa Sem decisão 4 − dU ≤ d ≤ 4 − d L Ausência de autocorrelação positiva ou negativa Não rejeitar dU < d < 4 − dU A figura a seguir ilustra as regiões de rejeição. 2. anualmente. 4 variáveis regressoras e d = 1. Rejeita-se H 0 ao nível 2α se d < dU ou se ( 4 − d ) < dU . seja positiva ou negativa. H 0 : ρ = 0 versus H 1 : ρ ≠ 0 . Seja um problema com n = 50. Vanessa Leotti Caso a estatística do teste seja encontrada em alguma das regiões de indecisão. com o qual se ajustou um MRLS e obteve-se d = 0. Dado o nível de significância α : 1.1380. 2. teste se existe autocorrelação positiva.43. Exemplo 8. concluir se esse problema afeta esses dados. Isto é. Rejeita-se H 0 ao nível α se d < dU . A análise no Gretl forneceu: Resíduos da regressão (= observados . A 5% de significância.ajustados Y) uhat1 versus uhat1_1 (com ajustamento por mínimos quadrados) 4 4 3 3 2 2 1 1 0 uhat1 0 resíduo Y = 0. com base em todos os indícios. há autocorrelação negativa estatisticamente significativa. há autocorrelação. Têm-se dados relativos a índices de remuneração real por hora (Y) e produção por hora (X). H 0 : ρ = 0 versus H 1 : ρ < 0 . Exercício 3. 3. Teste a 5% de significância de a autocorrelação afeta esse problema.MAT02207 – Estatística Econômica – Prof. se existe autocorrelação e.122904 p-valor = 4. Isto é.914X -1 -1 -2 -2 -3 -3 -4 -4 -5 -5 -6 -5 -6 1960 1965 1970 1975 1980 1985 1990 1995 -4 -3 -2 -1 0 1 2 3 uhat1_1 Estatística de Durbin-Watson = 0. 79 . há autocorrelação positiva estatisticamente significativa. H 0 : ρ = 0 versus H 1 : ρ > 0 .66575e-011 Testar. Rejeita-se H 0 ao nível α se ( 4 − d ) < dU . pode-se recorrer ao teste d modificado.0438 + 0. Exemplo 9. a 5% de significância. estatisticamente significativa. Isto é. Considere um conjunto de dados com 32 observações. no período de 1959 a 1998 nos EUA (n=40). pode-se estimar Yt * = β1* + β2* X t* + ut . Primeiro. deve-se tentar verificar se se trata de uma autocorrelação pura.MAT02207 – Estatística Econômica – Prof. e ρ for conhecido. deve-se usar técnicas de séries temporais. 80 . Seja o modelo de duas variáveis: Yt = β1 + β2 X t + et O mesmo modelo. e não de um erro de especificação do modelo. Esta regressão é conhecida como a equação em diferenças generalizadas. e subtraindo-se do modelo original: ( Yt − ρYt −1 ) = β1 (1 − ρ ) + β 2 ( X t − ρX t −1 ) + ( et − ρet −1 ) = β1 (1 − ρ ) + β 2 ( X t − ρX t −1 ) + ut * * Fazendo-se Yt = (Yt − ρYt −1 ) .4. observamos padrões nos resíduos porque o modelo foi especificado de forma equivocada – isto é. utiliza-se MQG. e ρ não for conhecido. 2. Se se tratar de autocorrelação pura. X t = ( X t − ρX t −1 ) e β2* = β2 . β1* = β1 (1 − ρ ) . Multiplicando-se por ρ em ambos os lados obtém-se: ρYt −1 = ρβ1 + ρβ2 X t −1 + ρet −1 . Vanessa Leotti 3. mas no período t-1 é: Yt −1 = β1 + β2 X t −1 +et −1 . Nesse processo de obtenção das diferenças. Às vezes. Se se tratar de autocorrelação pura. por MQO. 3. sempre perdemos a primeira observação.3 Medidas corretivas 1. foram excluídas algumas variáveis importantes – ou porque sua forma funcional é incorreta.