MÉTODOS EMPÍRICOS DE PESQUISA IIProfa. Daniela Schettini 3ª. Lista de Exercícios Obs.: os cálculos da ANOVA devem ser mostrados passo a passo (como será exigido na prova). Utilizem o Excel somente se quiserem confirmar o resultado. 1) Uma organização mexicana coletou informações sobre episódios violentos em diversas cidades no mundo em 2011. A organização quer determinar se existe alguma diferença no número médio de episódios violentos nas 4 primeiras cidades dos primeiros países citados.. Para isso coletou uma amostra de registros durante seis dias. Usando um nível de significância de 5%, ela pode concluir que existe uma diferença no número médio de episódios? Defina as hipóteses (por média e por variância) e construa a ANOVA. San Pedro Sula Ciudad Juarez Maceió Caracas (Honduras) (México) (Brasil) (Venezuela) 13 21 12 16 15 13 14 17 14 18 15 18 15 19 13 15 14 18 12 20 15 19 15 18 Com relação às medias de episódios violentos em cada cidade, as hipóteses são: { H 0 : μ❑SanPedro Sula=μ❑Ciudad Juarez=μ❑Maceió =μ❑Caracas =μ H 1 :ao menos uma das medias difere das demais que equivalem, respectivamente, às seguintes hipóteses em termos de episódios violentos cometidos em cada cidade: { H 0 : MQE=MQD (ou variância❑entre =variância❑dentro) ❑ H 1 : MQE> MQD (ou variância❑ entre > vari â nciadentro ) onde MQE é a media dos quadrados entre cidade ou a estimativa da variância populacional entre cidades (grupos ou tratamentos) e MQD é a media dos quadrados dentro das cidades ou a estimativa da variância populacional dentro das cidades (grupos ou tratamentos). A tabela Anova tem o seguinte formato: ANOVA Fonte da variação SQ gl MQ Entre grupos Dentro dos grupos SQE k–1 MQE SQD n–k MQD Total SQT n–1 F MQE/MQ D temos que: ´x San PedroSula =14.2+1. A soma de quadrados entre (cidades) é dada por: k SQE =∑ ni∗( ´xi −´x ) 2 i=1 onde ni é o tamanho da amostra da cidade i . ni=6 e com os valores apresentados para cada amostra.9 . SQD=5∗( 0. ∑ ( ni−1 ) j=1 Para todas as amostras.33−15. s Maceió=1. k k 1 1 ´x = ∗∑ ni∗´x i= ∗∑ ´x i n i=1 k i=1 Para todas as amostras. ´x enquanto ´x i é a media amostral da cidade i . Quando as amostras têm o mesmo tamanho. a média global é: 4 1 1 ´x = ∗∑ ´x i= ∗(14. A soma dos quadrados dentro é.5. portanto. x´ Caracas =17.33 )=15. SQE =6∗ [ ( 14.79 )2+ ( 17. que é calculada por: nj 1 2 ( x ji − x´ i ) .33+ 18+ 13. é a media global (ou das medias) das amostras. portanto. 4 j =1 4 A soma dos quadrados entre é.5−15.79. nj k 1 1 ´x i= ∗∑ x ji e ´x = ∗∑ ni∗´xi ni j=1 n i=1 onde x ji é o valor da observação j da amostra da cidade i.67+7.2 .67 .No problema. ni=6 e com os valores apresentados para cada amostra. sCiudad Juarez =7. ou seja. temos que: 2 2 2 2 s San Pedro Sula=0.5+17. ou seja.33 . k = 4.79 )2 + ( 13.79. n = 24 (pois há 6 observações em cada uma das 4 amostras).33. ´x Maceió =13. s Caracas =3. . Assim.07 )=64.79 )2 ]=87. enquanto n é o número total de observações.9+3.17.33−15. k é o número de (fatores) cidades. Por sua vez.79 )2 + ( 18−15. ´xCiudad Juarez =18 .07. A soma de quadrados dentro (das cidades) é dada por: nj k 2 k SQD=∑ ∑ ( x ji −´x i ) =∑ ( n i−1 )∗s 2i i =1 j=1 onde s 2i = s 2i i=1 é o valor da variância da amostra da cidade i . temos que a região crítica é definida pelo intervalo [3. +∞). k −1 A media dos quadrados dentro das cidades (MQD) é dada por: MQD= SQD =3.26.05. Como o valor observado da estatística F pertence à região crítica. 20) graus de liberdade. Com os dados disponíveis da Análise de Variância abaixo.12 Considerando-se um nível de significância de 0.12 MQD sendo que F segue distribuição de Fischer-Snedecor com (3. então se rejeita a hipótese (nula) de que o número médio de episódios violentos cometidos em cada cidade seja igual.26 64. 2.21.098. os graus de liberdade totais são dados por n – 1 = 23. n−k Desta forma. enquanto dentro das cidades é igual n – k = 20. então: SQT =SQE + SQD=151. Logo. responda: a) Complete a tabela da Anova.21 151. Desta maneira.Como a soma de quadrados total (SQT) equivale à soma dos quadrados entre (SQE) as cidades e dentro (SQD) das cidades. . A media dos quadrados entre cidades (MQE) é dada por: MQE= SQE =29. da distribuição de Fischer-Snedecor com (3.79 Gl 3 MQ 29. 20) graus de liberdade.96 . Os graus de liberdade entre cidades (grupos) é igual k – 1 = 3.96 23 F 9. o valor observado da estatística F é Fobs = MQE =9. d) Teste a hipótese com 5% de significância.17 20 3. b) Quantos grupos estão sendo testados? c) Defina as hipóteses (por média e por variância). a tabela de análise de variância é ANOVA Fonte da variação Entre grupos Dentro dos grupos Total SQ 87. temos que a região crítica é definida pelo intervalo [3. 12) graus de liberdade.72 76.05. O mesmo vale para os Graus de Liberdade. Com apenas dois deles. em apartamentos fora do campus e .06 F 2.19 48. é possível chegar ao terceiro resultado. às seguintes hipóteses em termos de variância: { H 0 : MQE=MQD (ou variância❑entre =variância❑dentro) ❑ H 1 : MQE> MQD (ou variância❑ entre > vari â nciadentro ) d) Considerando-se um nível de significância de 0. é possível encontra o resultado por meio da divisão ou multiplicação. ANOVA Fonte da variação Entre grupos Dentro dos grupos Total SQ 28. as hipóteses são: { ❑ ❑ ❑ H 0 : μ❑ 1 =μ 2 =μ3 =μ 4 =μ H 1 :ao menos uma das medias difere das demais que equivalem. da distribuição de FischerSnedecor com (3. por exemplo. então se rejeita a hipótese (nula). via adição ou subtração. a hipótese alternativa de que ao menos uma média difere das demais. Para isso.91 gl 3 MQ 9. c) Com relação às medias. a SQ entre grupos.31 15 a) Não é necessário calcular.39 12 4.19 Total gl MQ 12 4. Como o valor observado da estatística F pertence à região crítica. 3) Uma pesquisadora está interessada no efeito que o tipo de residência tem sobre a felicidade pessoal de estudantes universitários. Também se sabe que MQ é dada pela expressão: MQ= SQ gl Logo.49. +∞).ANOVA Fonte da variação Entre grupos Dentro dos grupos SQ 28. portanto. mantendo. respectivamente. calcula-se que o número de grupos que estão sendo testados é igual a 4.06 F 2. ela seleciona amostras de estudantes que moram em dormitórios do campus. a SQ dentro dos grupos e a SQ Total.31 15 b) O Grau de Liberdade entre os grupos é igual: n – 1 = 3 logo. as hipóteses são: { H 0 : μ❑Dorm =μ❑Apto =μ❑Casa=μ H 1 :ao menos uma das medias difere das demais que equivalem.256. da distribuição de Fischer-Snedecor com (2.em sua casa e pede a 12 entrevistados que classifiquem seu grau de felicidade em uma escala de 1 (não é feliz) a 10 (feliz). temos que a região crítica é definida pelo intervalo [4.25 11 MQ 34. temos: Fobs = MQE =46. c) O que é possível concluir? Analise pelo valor do F e pelo p-valor. Com os resultados a seguir.50 6. respectivamente. ANOVA Fonte da variação Entre grupos Dentro dos grupos SQ 69. Considerando-se um nível de significância de 0.75 gl 2 9 Total 76. Justifique.33 MQD Como o valor observado da estatística F pertence à região crítica. +∞). . então rejeita-se a hipótese (nula) de que as felicidades pessoais médias de estudantes universitários em cada tipo de residência sejam iguais. às seguintes hipóteses em termos de variâncias: { H 0 : MQE=MQD (ou variância❑entre =variância❑dentro) ❑ H 1 : MQE> MQD (ou variância❑ entre > vari â nciadentro ) onde MQE é a media dos quadrados entre tipos de residência ou a estimativa da variância populacional entre tipos de residência (grupos ou tratamentos) e MQD é a media dos quadrados dentro dos tipos de residência ou a estimativa da variância populacional dentro dos tipos de residência (grupos ou tratamentos). b) Complete a tabela da Anova. 9) graus de liberdade. Coletaram-se dados para as duas variáveis no Banco Mundial e na Freedom House.75 F Com relação às medias das felicidades pessoais de estudantes universitários em cada tipo de residência. Aplicando a metodologia da Anova.05. respectivamente. 4) Procura-se investigar se a média da expectativa de vida dos países difere de acordo com o nível de qualidade de direitos políticos. teste se a felicidade difere por tipo de residência. média e alta qualidade. Defina as hipóteses (por média e por variância) e teste com 5% de significância. Os países foram agrupados em três categorias: baixa qualidade de direitos políticos. a) Defina as hipóteses nula e alternativa em termos de média e variância.75 0. obteve-se o resultado abaixo. Da tabela. às seguintes hipóteses em termos de variâncias: { H 0 : MQE=MQD (ou variância❑entre =variância❑dentro) ❑ H 1 : MQE> MQD (ou variância❑ entre > vari â nciadentro ) b) ANOVA Fonte da variação SQ gl MQ Entre grupos 2842.9957* * 93. +∞)**. temos que a região crítica é definida pelo intervalo [2.96 a) Com relação às medias das variáveis que representam a qualidade de direitos políticos.0000 2.96 SQ MQE e que F= gl MQD c) Considerando-se um nível de significância de 0.0 8 176 * Lembrando que: MQ= F 1421. as hipóteses são: { ❑ ❑ H 0 : μ❑ baixa =μmédia =μ alta=μ H 1 :ao menos uma das medias difere das demais que equivalem.9957.72 2* Dentro dos grupos 16349.72 Dentro dos grupos 16349.3 6 174 valor-P F crítico 0. Como o valor observado da estatística F pertence à região crítica.127* valor-P F crítico 0.3 6 15.0 8 gl MQ F 1421. da distribuição de FischerSnedecor com (2.05.3 5 Total 19192. respectivamente.ANOVA Fonte da variação SQ Entre grupos 2842. . 174) graus de liberdade.3 5 174 Total 19192. então se rejeita a hipótese (nula) de que o nível de qualidade de direitos políticos é igual.0000 93. 5 0 a) Com relação às medias dos investimentos estrangeiros nos quatro setores. Para isso. respectivamente.25 Dentro dos grupos Total gl MQ 3 F 21.946 7* . as hipóteses são: { ❑ ❑ ❑ H 0 : μ❑ financeira =μinfraestrutura =μ alimentos =μ energia=μ H 1 :ao menos uma das medias difere das demais que equivalem. 25 28 Total 12361. 5) Uma consultoria busca identificar se alguns investidores estrangeiros têm preferência por investir em determinados setores. ou a distribuição do investimento é feita aleatoriamente entre as atividades. Dado o p-valor de 0%.986 F crítico 2.986 28 12361.Analisando pelo p-valor. b) Complete a tabela da Anova.083 valor-P F crítico 0. infraestrutura. ANOVA Fonte da variação SQ Entre grupos 63. alimentos e energia. a) Defina as hipóteses nula e alternativa em termos de média e variância. rejeita-se H 0. c) Como você concluiria esse estudo? Analise pelo valor do F e pelo p-valor.25 gl MQ 3 21. rejeita-se a hipótese nula. para um nível de significância de 5%. Coletou uma amostra de 32 investimentos separados em 4 áreas: financeira.048 valorP 0. quer testar se há diferença de investimento médio estrangeiro entre os setores. Justifique. sabe-se que se p-valor < nível de significância.22 3 F 0. às seguintes hipóteses em termos de variâncias: { H 0 : MQE=MQD (ou variância❑entre =variância❑dentro) ❑ H 1 : MQE> MQD (ou variância❑ entre > vari â nciadentro ) b) ANOVA Fonte da variação Entre grupos SQ 63. 50 31 439.083 Dentro dos grupos 12298. sabe-se que se p-valor < nível de significância.575 e ^β=−0.575−0. SQReg=∑ ( Y^ i−Y´ ) = β ∗∑ xi .575−0. Y´ = ∑ Y i . rejeita-se a hipótese nula.4135 X . temos que a região crítica é definida pelo intervalo [2. 6) Um pesquisador coletou os seguintes dados sobre os anos de instrução (X) e o número de filhos (Y) para uma amostra de 10 adultos casados. α^ =7.575 Y^ = α^ + ^β X=7. +∞)*. então não se rejeita a hipótese (nula) e conclui-se que os investidores não mostraram preferência entre os setores de atividade.4135 X . a media amostral de Y ( Y´ ) .6%.3758 2 . Analisando pelo p-valor. 28) graus de liberdade. que são dados por: Tendo os valores estimados Y^ podemos calcular os valores estimados .9467.4135 : a) Escreva a regressão (modelo teórico e modelo estimado) b) Construa a ANOVA. podemos calcular a soma de quadrados da regressão (SQReg) e a soma de quadrados dos resíduos (SQRes) com as seguintes fórmulas: 10 10 10 2 1 2 2 Y^ i=7. 10 i=1 i=1 i=1 10 2 SQRes=∑ ( Y i−Y^ i❑ ) .1706 0. Y 2 1 0 3 5 3 4 2 0 2 X 12 14 17 10 8 9 12 14 18 16 a) Modelo teórico: Considerando e ^β=−0. Dado o p-valor de 98.4135 Y^ =7.61 0. não se rejeita H0. i=1 A tabela abaixo mostra os respectivos valores: Yi Xi Y^ i ( Y^ i−Y´ )2 ( Y i−Y^ i) 2 12 2.575−0. O que se pode concluir à respeito do modelo (usar 5% de significância)? c) Calcule e interprete o R2 Y =α + βX + ε .c) Considerando-se um nível de significância de 0. da distribuição de FischerSnedecor com (2.4135∗X i .05. Modelo estimado: b) Com os valores α^ =7. da variável explicada. para um nível de significância de 5%. Como o valor observado da estatística F não pertence à região crítica. MQRes= .8212 2. SQRes=5.9238 0.7822.27 3.7822 0.1936 0. podemos então calcular: MQReg= SQReg SQRes MQReg .782 24.1714 4.55 3. F= 1 n−2 MQRes que estão apresentados na tabela abaixo: ANOVA gl SQ MQ F 17.7374 1.7534 SQTot 23.603 Total 9 3 O teste F envolve as seguintes hipóteses: { 2 H 0 : R =0 H 1 : R2 >0 .85 2.1706 0. SQReg=17.1714 2. c) O valor do coeficiente de determinação R2 é R 2= SQReg 17. Y´ =2.44 4. .6033 o que indica que cerca de 75% das variações do número de filhos existentes entre adultos com diferentes níveis de instrução existem justamente por causa destas variações no nível de instrução.7285 1.1 0 3 5 3 4 2 0 2 soma media 14 17 10 8 9 12 14 18 16 1. o que equivale a { H 0 : MQReg=MQRes H 1 : MQReg> MQRes Com nível de significância de 0.438 Regressão 1 2 2 0 Resíduo 8 5.61 1.782 17.96 0.2766 1. Como o valor observado da estatística F pertence à região crítica.7822 = =0.0174 1.6178 0.2725 2.79 0.5401 17. então se rejeita a hipótese (nula) de que o nível de instrução da pessoa (X) não afeta o número de filhos que se espera que esta pessoa tenha (Y) ou que o modelo é bom a 5%.05 e considerando-se a de Fischer-Snedecor com (1.79 0.13 0.0837 5.318.5376 4. +∞). Com estes valores.8212 0.7277 23.7341 0. 8) graus de liberdade.8212 .2976 0.5373 0. temos que a região crítica é definida pelo intervalo [5.0458 0.20 Assim.20 . 6819 SQTot 353. a) Modelo teórico: Ve ndas=α + β 1 X 1 + β 2 X 2+ β3 X 3 + ε b) Para calcular se o modelo construído pelo consultor é bom.7) Um consultor está tentando explicar as vendas que ocorrem em uma rede de lojas de eletrodomésticos. cujo valor é: 2 R= SQReg 241.1 43 F 2.067 o que indica que cerca de 68% das variações do valor das vendas mensais (Vendas) são explicadas pelas variações das variáveis X. temos que a região crítica é definida pelo intervalo [6. 928 112. Como o valor observado da estatística F não pertence à região crítica.2487 0. 8) Com os resultados da ANOVA construída para um modelo de regressão.0497 84.110. ANOVA gl Regressão 3 Resíduo 4 Total 7 SQ 241. Calcule e interprete o R2. Para isso.0005 Resíduo 38 01 87 Total 43 0. +∞). Para calcularmos e interpretarmos o R² devemos encontrar o coeficiente de determinação R2 deste modelo de regressão.928 = =0.591. devemos fazer o teste F: O teste F envolve as seguintes hipóteses: { H 0 : R2=0 H 1 : R2 >0 . o que equivale a { H 0 : MQReg=MQRes H 1 : MQReg> MQRes Com nível de significância de 0.0223 0. coletou a amostra abaixo. responda: ANOVA gl SQ MQ F Regress 0.476.3 09 28119. verifique se o modelo do consultor é bom a 5% de significância. 4) graus de liberdade.858 a) Qual é a modelo de regressão proposto pelo consultor? b) Com os resultados da Anova.2710 . então não se rejeita a hipótese (nula) de que as variáveis independentes (X) não afetem o valor das vendas mensais (Vendas) ou que o modelo não seja bom a 5%.537.783 ão 5 79 56 46 0.05 e considerando-se a de Fischer-Snedecor com (3.537. 573 353. 067 MQ 80370.110. então há 5 variáveis independentes no modelo.248779 = =0. Como o valor observado da estatística F pertence à região crítica.8 a) b) c) d) Há quantas variáveis independentes no modelo? Qual o tamanho da amostra? O que se pode concluir sobre a validade da regressão? Calcule e interprete o R2. . a) O grau de liberdade da regressão é 5 e como ele é igual a (k – 1). onde n é o tamanho da amostra. então há 44 observações. d) O valor do coeficiente de determinação R2 é R 2= SQReg 0. c) O valor observado da estatística de teste (Fobs) é igual a 84. onde k é o número de variáveis independentes no modelo. +∞). b) O grau de liberdade total é 43 e como ele é igual a (n – 1).78.463. 38) graus de liberdade.27108 o que indica que quase 92% das variações da variável explicada é causada pelas variações das variáveis explicativas incluídas no modelo. considerando o intercepto.05 e o fato de que a estatística de teste segue uma distribuição de FischerSnedecor com (5. temos que a região crítica é definida pelo intervalo [2. Considerando-se um nível de 0.9177 SQTot 0. então se rejeita a hipótese (nula) de que a regressão não seja válida.