Estatística AplicadaUnidade II 5 AMOSTRAGEM Nesta parte do curso de Estatística Aplicada nós iremos nos ater à amostragem e à correlação. Por amostragem, entendem‑se os procedimentos destinados a estudar as relações entre populações e suas amostras. Já dentro da correlação e da regressão, estaremos nos direcionando aos relacionamentos entre duas variáveis, procurando verificar se o comportamento de uma está de alguma forma relacionado com o comportamento da outra. Caso você queira saber se uma determinada marca de uísque é boa, você precisa beber a garrafa inteira? A menos que você tenha acabado de bebê‑la, a sua resposta será certamente não. Todos nós sabemos que basta beber uma dose para conseguirmos avaliar a qualidade da bebida. Essa pequena dose é chamada de amostra, e o processo pelo qual estimamos a qualidade do uísque usando a avaliação de uma amostra é chamado de amostragem. Agora, note que, se você quiser fazer o mesmo raciocínio para uma feijoada, terá de considerar alguns aspectos. O processo de amostragem ainda é válido, mas, a amostra certamente terá de ser maior do que aquela de uísque. Por quê? Porque enquanto o uísque é totalmente homogêneo, a feijoada tem um alto grau de heterogeneidade. Em outras palavras, se você pegar uma pequena amostra da feijoada, correrá o risco de não provar o paio, que está uma porcaria, e, assim, chegar a conclusões errôneas. Em Estatística, a medida que nos informa qual é o grau de homogeneidade do universo que estamos trabalhando é o desvio padrão, e quanto maior ele for, menos homogêneo serão o universo e a amostra. Observação Assim, quando quisermos saber qual é o tamanho que uma amostra deve ter, deveremos saber qual é o seu desvio padrão. Por outro lado, observe que quando você experimenta uma amostra para saber como funciona o universo todo, você está fazendo uma estimação, ou seja, uma previsão do todo com base em uma parte. Isso é possível, mas com um cuidado fundamental: a previsão está sujeita a um erro estatístico, ou seja, uma tolerância para mais e para menos em torno do valor previsto. Essa tolerância é chamada de erro máximo da estimativa e deve ser estabelecida por você em função da resposta que você espera 55 Unidade II obter. Note que quanto menor for o erro que você está disposto a aceitar, maior vai ser o tamanho da amostra que terá de ser colhida, ou seja, mais cara será sua amostragem. Observação Assim, quando quisermos saber qual é o tamanho que uma amostra deve ter, deveremos estabelecer qual é o erro máximo esperado. Por fim, você terá que notar de essa sua estimativa merece certa confiança de sua parte, ou seja, o quanto você acredita que ela está certa. Lembre‑se de que, se você quiser ter 100% de confiança, terá de pagar por isso. A amostra ficará grande e cara. Na maior parte das vezes, uma confiança de 90% ou 95% é suficientemente boa para podermos tomar uma decisão segura e coerente. Certamente você trabalhou com uma confiança muito menor quando decidiu pedir a mão daquela garota bonita ou aceitou o pedido de casamento daquele galante rapaz! Observação Assim, quando quisermos saber qual é o tamanho que uma amostra deve ter, deveremos estabelecer qual é o nível de confiança com que devemos trabalhar. Observação Note, portanto, que grande parte de nossas preocupações no processo de amostragem é a determinação do tamanho das amostras. Amostragem, fundamentalmente, é o processo de colher amostras e estudá‑las, determinando suas medidas estatísticas, e, a partir desse estudo, induzir os parâmetros populacionais. Quando falamos que estamos estimando um parâmetro estatístico, queremos dizer que a partir do conhecimento de uma medida estatística iremos prever o valor da medida (parâmetro) populacional. Por exemplo, suponha que tenhamos escolhido aleatoriamente 100 alunos de Estatística, dentro de uma população de 1.000 estudantes, coletado as notas de cada um, e encontrado a média dessas notas. Suponha que essa média tenha sido 5,6. É lógico supor, em princípio, que a média de todos os 1.000 alunos de Estatística também seja igual a 5,6. Para diferenciarmos as duas informações, iremos utilizar simbologia diferente para as medidas estatísticas e para os parâmetros populacionais. Assim, diríamos que, para a amostra de 100 alunos, a média é X = 5,6 e que para a população de 1.000 estudantes a média estimada é µ = 5,6. As medidas estatísticas são simbolizadas por letras do nosso alfabeto, e os parâmetros estatísticos, por letras gregas. 56 Estatística Aplicada Essa estimativa feita é chamada de estimativa por pontos e normalmente é preterida em favor das estimativas por intervalos, que indicam a precisão ou a exatidão. As estimativas por intervalos são dadas por dois números obtidos pela introdução do conceito de erro estatístico. Assim, seria preferível apresentar a estimativa que acabamos de apresentar da seguinte maneira: o valor estimado para a média dos 100 estudantes mencionados é de 5,6±0,2, ou seja, a média será um valor entre 5,4 e 5,8. O valor 0,2 é o erro esperado nessa estimativa. Os cálculos envolvendo essas estimativas serão mostrados a seguir. Inicialmente, vamos verificar como selecionamos as amostras. A generalização dos dados de uma amostra para uma população deve atender a uma condição básica e imprescindível: a amostra deve ser representativa da população, ou seja, devemos garantir que a probabilidade de se encontrar determinados elementos numa população seja a mesma na amostra. Isso significa que características importantes devem ser mantidas proporcionais na amostra e na população. Por exemplo, se o gênero é importante em determinado estudo e sabemos que 48% da população são formados por homens, então, nas amostras, deveremos ter 48% de homens. Uma amostra de 500 elementos deverá ter obrigatoriamente 240 homens. Essas amostras colhidas são chamadas de probabilísticas. Essas amostras probabilísticas são as mais indicadas, pelo fato de permitirem o cálculo da variabilidade e, consequentemente, do erro esperado ou inferencial. Quando falamos anteriormente dos erros esperados, estávamos nos referindo a esse modelo de amostragem. Existem, no entanto, amostragens nas quais a proporcionalidade entre amostras e populações não é respeitada. São as amostragens não probabilísticas ou amostragens por julgamento. Nesse tipo de amostragem, evidentemente, não é possível o cálculo da variabilidade – e, portanto, dos erros esperados e previstos. Consequentemente, não tem a mesma precisão, porém é muito mais barato e rápido e tem sido usado com frequência cada vez maior em situações nas quais não é tão determinante a precisão. Pesquisas de marketing, por exemplo, podem seguir esse modelo. Outro exemplo bem próximo do nosso dia a dia são as pesquisas feitas em sites na internet. Como a votação é voluntária e não guarda correspondência controlada com a população, os resultados não têm validade estatística, mas servem para fins jornalísticos e como um indicador superficial de uma tendência. Saiba mais No site a seguir você encontrará uma série de pesquisas sobre política, comportamento, esportes, entre outros. Algumas dessas pesquisas você notará que são probabilísticas, enquanto outras são por julgamento. PESQUISAS de opinião. UOL Notícias, 2014. Disponível em: <http:// noticias.uol.com.br/politica/pesquisas/>. Acesso em: 15 jul. 2014. 57 Unidade II Quanto a amostras probabilísticas, com as quais iremos nos preocupar principalmente, existem diversos modelos possíveis, ou seja, existem vários critérios diferentes para selecioná‑las. Vejamos os principais. 5.1 Amostragem aleatória simples É uma das principais maneiras de se obter uma amostra, principalmente,em razão da sua simplicidade. Como o próprio nome indica, consiste em escolher aleatoriamente (sortear) os elementos que irão compor a amostra dentro de uma população. Suponha, por exemplo, que o setor de contabilidade de sua empresa deseje encontrar o valor médio das contas a pagar em determinado mês, mas que não tenha tempo de somar todos os valores de todas as contas e dividir pelo número de contas (que é o cálculo da média, como se estuda em Estatística). A maneira de se chegar a esse valor mais rapidamente seria a partir de uma amostragem aleatória simples. O encarregado do cálculo sortearia algumas das contas e obteria a média dessas contas. A média encontrada provavelmente será igual (ou muito próxima) da média de toda a população. Suponha que as contas a pagar pela empresa no referido mês estejam relacionadas na tabela a seguir: Tabela 11 0 R$ 259,00 27 R$ 518,00 54 R$ 388,50 81 R$ 485,63 108 R$ 1.456,88 1 R$ 486,00 28 R$ 972,00 55 R$ 729,00 82 R$ 911,25 109 R$ 2.733,75 2 R$ 2.954,00 29 R$ 5.908,00 56 R$ 4.431,00 83 R$ 5.538,75 110 R$ 16.616,25 3 R$ 3.985,00 30 R$ 7.970,00 57 R$ 5.977,50 84 R$ 7.471,88 111 R$ 22.415,63 4 R$ 235,00 31 R$ 470,00 58 R$ 352,50 85 R$ 24.708,00 112 R$ 1.321,88 5 R$ 12.000,00 32 R$ 24.000,00 59 R$ 18.000,00 86 R$ 22.500,00 113 R$ 67.500,00 6 R$ 456,00 33 R$ 912,00 60 R$ 684,00 87 R$ 855,00 114 R$ 2.565,00 7 R$ 23.587,00 34 R$ 47.174,00 61 R$ 35.380,50 88 R$ 44.225,63 115 R$ 132.676,88 8 R$ 230,00 35 R$ 460,00 62 R$ 345,00 89 R$ 431,25 116 R$ 1.293,75 9 R$ 12.354,00 36 R$ 440,63 63 R$ 18.531,00 90 R$ 23.163,75 117 R$ 69.491,25 10 R$ 235,00 37 R$ 470,00 64 R$ 352,50 91 R$ 440,63 118 R$ 1.321,88 11 R$ 1.254,00 38 R$ 2.508,00 65 R$ 1.881,00 92 R$ 2.351,25 119 R$ 7.053,75 12 R$ 3.652,00 39 R$ 7.304,00 66 R$ 5.478,00 93 R$ 6.847,50 120 R$ 20.542,50 13 R$ 1.234,00 40 R$ 2.468,00 67 R$ 1.851,00 94 R$ 2.313,75 121 R$ 6.941,25 14 R$ 10.316,25 41 R$ 530,00 68 R$ 397,50 95 R$ 496,88 122 R$ 1.490,63 15 R$ 1.834,00 42 R$ 3.668,00 69 R$ 2.751,00 96 R$ 3.438,75 123 R$ 265,00 16 R$ 236,00 43 R$ 472,00 70 R$ 354,00 97 R$ 442,50 124 R$ 1.327,50 17 R$ 468,00 44 R$ 936,00 71 R$ 702,00 98 R$ 877,50 125 R$ 2.632,50 18 R$ 1.234,00 45 R$ 2.468,00 72 R$ 1.851,00 99 R$ 2.313,75 126 R$ 6.941,25 19 R$ 23,00 46 R$ 46,00 73 R$ 34,50 100 R$ 43,13 127 R$ 129,38 20 R$ 1.243,00 47 R$ 2.486,00 74 R$ 1.864,50 101 R$ 2.330,63 128 R$ 6.991,88 58 Estatística Aplicada 21 R$ 2.328,00 48 R$ 14.516,13 75 R$ 456,00 102 R$ 2.218,55 129 R$ 2.365,00 22 R$ 313,31 49 R$ 551,61 76 R$ 284,27 103 R$ 285,48 130 R$ 485,00 23 R$ 587,90 50 R$ 28.532,66 77 R$ 1.516,94 104 R$ 566,13 131 R$ 4.567,00 24 R$ 3.573,39 51 R$ 278,23 78 R$ 4.417,74 105 R$ 1.492,74 132 R$ 895,00 25 R$ 4.820,56 52 R$ 14.944,35 79 R$ 1.492,74 106 R$ 27,82 133 R$ 2.651,00 26 R$ 284,27 53 R$ 7.650,00 80 R$ 320,56 107 R$ 1.503,63 134 R$ 3.872,00 Note que as contas a pagar estão relacionadas e numeradas de zero em diante. Destas 134 contas, iremos escolher, aleatoriamente, 10. Perceba que poderíamos fazer isso por qualquer método aleatório – por exemplo, por meio de moedas, dados ou papeizinhos numerados –, mas esses métodos podem ter defeitos estruturais, causando falhas: a moeda pode estar com uma face mais pesada ou o dado pode ter uma face desgastada. Normalmente utilizamos para isso tabelas de dados aleatórios, que podem ser encontradas em qualquer livro de Estatística (Anexo 2 deste livro‑texto). A tabela a seguir foi retirada desse Anexo 2 e será usada para apresentarmos o cálculo em andamento. Tabela 12 58137 54989 04897 59401 19847 16910 08050 49746 48326 50381 72805 40258 72318 91216 08981 90373 59507 95963 94462 46412 44836 21022 94209 54407 37064 16258 50259 21764 29143 02720 21458 83999 90047 23438 57674 15258 74466 18683 97084 49572 56224 89485 40909 57926 62133 98292 92361 61139 68485 93740 96402 54981 16098 62973 69682 51101 45235 44290 41329 09870 06624 77931 35888 63224 87244 26837 28379 20330 63149 80083 46478 66855 07593 21013 09194 77319 25976 16580 34135 44888 12468 77714 74636 50487 55343 80062 98620 85767 78863 39802 A tabela de números aleatórios tem duas características importantes. A primeira é que, independentemente da disposição em que os números aparecem e são lidos, a chance de um número ser escolhido para uma amostra é igual à chance de qualquer outro número. A segunda característica é que todas as combinações de números têm a mesma probabilidade de ocorrerem. Bruni (2013) ressalta que, apesar de muitos estudiosos questionarem o uso da tabela de números aleatórios montada a partir de recursos computacionais, atualmente, os procedimentos empregados na geração de números aleatórios sempre envolvem recursos computacionais. Ele recomenda os seguintes passos no uso dos números aleatórios: 1 – Liste todos os itens da população (foi o que fizemos na Tabela 11). 2 – Enumere todos os itens da lista começando do zero (note que foi o que fizemos na referida tabela). 59 Unidade II 3 – Leia os números da tabela obedecendo ao seguinte padrão: a quantidade de algarismos lidos de cada número da tabela de números aleatórios tem que ser igual à quantidade de algarismos lidos do último número de sua lista (observe que temos 134 valores de conta a pagar, portanto os números que usaremos na amostragem terão três algarismos significativos, ou seja, números de 000 até 134). 4 – Devem ser desprezados todos os números que não correspondem a algarismos de sua lista, assim como repetições de números já lidos (no nosso caso, se aparecer, por exemplo, o número 258, ele não terá significado, visto termos só 134 informações. Da mesma forma, se aparecer uma segunda vez o número 047, só consideraremos a primeira vez). 5 – Após a execução dos passos anteriores, verifique os números selecionados e identifique na lista os itens que deverão fazer parte da amostra aleatória selecionada. Nesse nosso exemplo, vamos estabelecer que iremos ler a tabela de números aleatórios na horizontal da esquerda para a direita. Poderíamos lê‑la em diagonal, ou na vertical, ou de qualquer outra maneira que permanecesse constante ao longo do processo. Dessa forma, ficaríamos com a tabela assim (perceba que já apresentamos os números com três casas decimais): 581 375 498 904 897 594 011 984 716 910 080 504 974 648 326 503 817 280 540 258 723 189 121 608 981 903 735 950 795 963 944 624 641 244 836 210 229 420 954 407 370 641 625 850 259 217 642 914 302 720 214 588 399 990 047 234 285 767 415 258 744 661 868 397 084 495 725 622 489 485 409 095 792 662 133 982 929 236 161 139 684 859 374 096 402 549 811 609 862 973 696 682 511 014 523 544 290 413 290 987 006 624 779 313 588 Os números em vermelho são os sorteados; os demais não são números dentro do espectro trabalhado (valores acima de 134). Assim, os dez números sorteados são: R$ 1.254,00 (a conta de número 011); R$ 485,63 (081); R$ 1.490,63 (122); R$ 14.516,13 (048); R$ 24,708,00 (085); R$ 3.438,75 (096); R$ 3.872,00 (134); R$ 442,50 (097); R$ 10.316,25 (014); R$ 456,00 (006). Com esses valores, podemos calcular a média da amostra: x= ∑ xi = N 1254 + 485, 63 + 1490, 63 + 14.516,13 + 24.708 + 3.438, 75 + 3.872 + 442, 50 + 10.316, 25 + 456 = 10 60.979, 89 = = 6.097, 99 10 Como a média da amostra trabalhada é de R$ 6.097,99, podemos inferir que a média de toda a população seria, provavelmente, igual a esse valor. Observe que isso não é exatamente a verdade. O valor real será algo parecido com R$ 6.097,99, mas não exatamente. Existe uma tolerância nessa informação que equacionaremos mais tarde. 60 Estatística Aplicada Observação Como curiosidade, poderíamos calcular a média real das contas a pagar mencionadas. Faríamos isso somando todas as contas e dividindo por 134. Esse resultado seria de R$ 6.914,08 – evidentemente diferente do induzido, mas próximo. Nesse caso, como as quantidades são relativamente pequenas, podemos fazer os dois cálculos. Na vida prática, o processo de amostragem aleatória simples nos economizaria muito trabalho. A amostragem aleatória pode ser feita a partir de dois tipos de população: a discreta e a contínua. Na discreta, todos os elementos da população devem ter a mesma probabilidade de fazer parte da amostra – é o caso do exemplo que acabamos de fazer. Já na continua, é necessário que a probabilidade dos intervalos de dados seja representada proporcionalmente. Por exemplo, se 15% das pessoas numa população têm entre 20 e 25 anos, na amostra deve ser mantida a proporção de 20% para pessoas dessa idade. Outro aspecto importante é o fato de uma população poder ser finita ou infinita. A amostragem das populações finitas evidentemente é mais fácil, podendo ser feita de duas formas diferentes. A primeira forma é a que fizemos anteriormente: relacionamos todos os elementos numa lista e posteriormente escolhemos aleatoriamente aqueles que fariam parte da amostra. Outra forma pode aparecer quando a população é difícil de ser listada. Bruni (2013) dá como exemplo desta última a pesquisa de poluição de um rio. Não há como comparar características da população com as das amostras. Nesses casos, escolhem‑se diferentes intervalos para fazer a amostragem, criando‑se em seguida um índice. Acima de determinado patamar nesse índice, o rio será considerado poluído. Quando uma população é infinita ou finita muito grande, obter amostras aleatórias é consideravelmente mais complexo. Uma das maneiras de contornar essa complexidade é registrar os dados à medida que eles surgem – por exemplo, pacientes que são atendidos num hospital. Evidentemente, não há garantia absoluta de que a correspondência entre a população e suas amostras seja rigidamente representativa. 5.2 Amostragem com reposição e sem reposição Quando trabalhamos com populações finitas, podemos fazer amostragens de duas formas diferentes: com e sem reposição. O conceito de ambos é intuitivo. Amostragens com reposição são aquelas em que um elemento, após ser retirado da população para fazer parte da amostra, é devolvido à população, podendo portanto ser sorteado novamente. Um jogo de dados ou de moedas é um exemplo desse tipo de amostragem. Em amostragens sem reposição, os elementos não são devolvidos à amostra, não podendo, portanto, ser novamente sorteados. O caso das Contas a Pagar que apresentamos anteriormente é um exemplo disso. Algumas situações tornam as amostragens sem reposição inevitáveis – por exemplo, quando temos um teste destrutivo, ou então quando estamos pesquisando itens defeituosos. Não tem sentido 61 Unidade II devolver um defeito à população. As amostras sem reposição tendem a ter menor custo, pois um item é analisado uma única vez. Podemos dizer que os tamanhos relativos das amostras e a população definem se a amostragem vai ser feita com ou sem reposição. Quando a amostra é muito grande em relação à população, a tendência é trabalhar com reposições; caso contrário, as reposições são desnecessárias ou indiferentes. 5.3 Amostragem sistemática Como o próprio nome diz, consiste em uma escolha sistemática. É estabelecida uma sistemática de escolha dos elementos que irão compor a amostra. É muito parecida com a amostragem aleatória simples, também precisando de uma lista numerada, mas a escolha é feita sistematicamente, e não por sorteio. No exemplo das Contas a Pagar, como temos 134 elementos na população e queremos amostras de 10 elementos, poderíamos montar a amostra com os elementos múltiplos de 13, por exemplo, porque 134 ÷ 10 = 13 (arredondando). Assim a amostra poderia ser composta pelos elementos de números 0; 13; 26; 39; …; 117; 130, ou 1; 14; 27... 5.4 Amostragem estratificada É uma tentativa de melhorar as amostragens aleatória simples e sistemática, consistindo em dividir a população em subgrupos de elementos semelhantes entre si e, dentro desses estratos, aplicar as amostragens aleatória ou estratificada. Por exemplo, podemos, numa pesquisa eleitoral, dividir os eleitores em estratos (de acordo com gênero, nível de escolaridade, nível socioeconômico etc.) e, dentro de cada estrato, aplicar a amostragem aleatória. Essa estratégia tende a melhorar a precisão das pesquisas, permitindo o uso de amostras menores quando os extratos são mais homogêneos. 5.5 Amostragem por conveniência A conveniência é motivada pela facilidade de obter as informações ou pela sua acessibilidade. Por exemplo, caso desejemos pesquisar a intenção de votos em determinada eleição, podemos colocar pesquisadores numa praça de grande movimento na cidade. Isso seria conveniente, porque seria fácil e barato encontrar os eleitores, mas, claramente, não permitiria precisão adequada. É fácil entender: se a tal praça estivesse num bairro periférico, teríamos uma concentração muito maior de pessoas de classes econômicas mais pobres do que na população correspondente. Esse tipo de amostragem normalmente é usado em casos extremos e especiais, ou quando a população é reconhecidamente homogênea. 5.6 Amostragem intencional Nesse caso, o pesquisador escolhe propositalmente os elementos que farão parte da amostra. Por exemplo, uma empresa poderia lançar e promover seus produtos fazendo, simultaneamente, pesquisas apenas numa determinada cidade, assumindo que essa cidade teria características mais adequadas ao estudo (por exemplo, maior homogeneidade). Ele estaria propositadamente escolhendo o local de amostragem. 62 Estatística Aplicada 5.7 Amostragem por julgamento Nesse caso, os elementos da amostra são escolhidos pelo pesquisador. Por exemplo, desejando saber algo sobre a cena cultural do Brasil, o pesquisador poderia entrevistar grandes nomes da cultura, por meio de um julgamento de relevância. 5.8 Amostragem por quotas Possivelmente seja o método de amostragem mais usado. No fundo, é um aperfeiçoamento ou uma melhoria do método de amostragem acidental. Os elementos selecionados para a amostra devem representar proporções previamente determinadas a partir da população. O seguinte processo de seleção por quotas é recomendado por Bruni (2013), a partir de Bunchaft e Kellner: Passo 1 – Devem ser selecionadas as características da população consideradas relevantes para o estudo – por exemplo, nível social, nível de escolaridade, gênero etc. Passo 2 – Com base em dados listados, censitários, cadastros e outros, devem ser determinadas as proporções de cada característica na população. Por exemplo, podemos consultar o IBGE para determinar qual a porcentagem de homens entre os eleitores brasileiros. Saiba mais No Brasil, a maioria dos dados censitários e das estatísticas é produzida pelo IBGE – Instituto Brasileiro de Geografia e Estatística. Boa parte desses dados pode ser acessada no seguinte site: <http://www.ibge.com.br>. Passo 3 – As divisões e subdivisões da população devem ser estruturadas em células, conforme ilustrado na tabela a seguir. Quanto maior o número de características analisadas, maior será o número de células estabelecidas. Tabela 13 Classe social Gênero masculino Gênero feminino Total A 4% 2% 6% B 9% 6% 15% C 13% 9% 22% D 16% 11% 27% E 16% 14% 30% Total 100% 100% 100% Fonte: Bruni (2013, p. 171). 63 Unidade II Passo 4 – O número de elementos de cada célula deve ser determinado. Se, por exemplo, o tamanho da amostra for composto por 500 indivíduos, 2% ou 10 pessoas deverão ser do sexo feminino e da classe A. Passo 5 – Cada entrevistador ou coletor de dados deverá receber uma quota, de forma que o total da amostra mantenha as proporções determinadas nas células. 6 Teoria Elementar da Amostragem Imagine uma população de grande quantidade de valores, da qual são retiradas todas as amostras possíveis de tamanho N. Para cada uma dessas amostras, podemos calcular uma determinada grandeza estatística – digamos, por exemplo, a média, que irá variar de amostra para amostra. Todos os valores calculados juntos formarão uma distribuição amostral, que no caso da média se chamará distribuição amostral das médias. Para essa distribuição, como para qualquer outra, podem ser calculados a média e o desvio padrão; portanto, podemos falar de média e desvio padrão da distribuição amostral das médias, por exemplo. Observe que, de maneira semelhante, podemos conceituar distribuições amostrais das outras medidas estatísticas – por exemplo, as distribuições amostrais das proporções, a distribuição amostral das variâncias, as distribuições amostrais dos desvios padrões etc. Neste curso, iremos nos ater às principais, ressaltando que as demais seguem exatamente os mesmos princípios. 6.1 Distribuição amostral das médias Admita que uma determinada população tenha média µ e desvio padrão σ e que retiremos dessa população todas as amostras possíveis de tamanho N. Para cada amostra, calculamos a média, e todas as médias calculadas irão compor a distribuição amostral das médias, cuja média é chamada de média da distribuição das médias e simbolizada por µx; já o desvio padrão da distribuição das médias é simbolizado por µx, sendo os valores de ambos dados, respectivamente, por: σ µx = µ e σx = N O exemplo a seguir deixa mais claros o raciocínio e a utilização desses conceitos. Sabemos que a altura média de 5.000 estudantes universitários do sexo masculino é de 1,728 m, com desvio padrão de 0,067 m. Desse grupo, retiramos 100 amostras de 30 estudantes cada uma. Qual é a média da distribuição amostral das médias e qual é o desvio padrão da distribuição amostral das médias? Observe que nos foram informados os seguintes dados: • média populacional: µ = 1,728; 64 Estatística Aplicada • desvio padrão populacional: σ = 0,067; • tamanho das amostras: N = 30. Assim, podemos calcular a média e o desvio padrão da distribuição amostral: µ x = µ ⇒ µ x = 1, 728 σ 0, 067 σx = ⇒ σx = ⇒ σ x = 0, 012 N 30 Sobre esses cálculos, é importante ressaltar: • Não estamos considerando todas as amostras possíveis e imagináveis, somente 100 delas estão sendo levadas em conta. Isso faz que essa não seja a verdadeira distribuição amostral das médias, mas uma amostragem experimental. No entanto, como o número 100 é suficientemente grande, podemos afirmar que essas duas distribuições são muito aproximadas e, do ponto de vista prático, poderão ser consideradas iguais. • Esses cálculos foram considerados para uma população muito grande, tão grande que a consideramos infinita. Caso a população não fosse tão grande e a amostragem não fosse feita com reposição, deveríamos fazer uma correção no cálculo do desvio padrão da distribuição amostral. Np - N Essa correção é feita pela multiplicação do valor do desvio padrão pela expressão: , Np -1 onde Np é o tamanho da população. Assim, o cálculo do desvio padrão sendo: σ Np - N 0, 067 3000 - 30 σx = ⇒ σx = ⇒ σ x = 0, 012 × 0, 987 ⇒ σ x = 0,0012 N Np - 1 30 3000 - 1 Perceba que, na prática, não ocorrem diferenças, em virtude do tamanho muito grande da população. • O desvio padrão da distribuição amostral é normalmente chamado de erro padrão. • Para grandes valores de N (N≥30), a distribuição amostral é aproximadamente normal, independentemente do comportamento da população. Essa característica permite responder à seguinte questão: Quantas das 100 amostras colhidas apresentarão valores médios acima de 1,735 m? Esse cálculo é feito de modo idêntico ao que fizemos no capítulo da distribuição normal, ou seja: 65 Unidade II x - µ 1, 735 - 1, 728 z1 = = = 0, 58 → tabela → At = 0, 7190 σ 0, 012 Ap = 1 - A t = 1 - 0,77190 = 0, 2810 = 28,10% A probabilidade de que uma das amostras tiradas tenha valor médio superior a 1,735 m é de 28,10%. Exemplo de aplicação Certos transistores fabricados por certa empresa têm uma vida média de 800 horas, com desvio padrão de 60 horas. Determinar a probabilidade de uma amostra aleatória de 16 válvulas retiradas do grupo ter uma vida média entre 790 e 810 horas. a) 50,28% b) 35,68% c) 99,72% d) 35,72% e) 49,72% Resolução: O cálculo das probabilidades envolvendo uma amostra é feito a partir de uma curva normal cuja média é a amostral e o desvio padrão é o amostral, ou seja, nesse caso: σ 60 µ x = µ = 800 σx = = = 15 N 16 A partir daí, o cálculo é semelhante aos exercícios de distribuição normal, ou seja: x - µ 790 - 800 z1 = = = - 0, 67 → A tab1 = 0, 2514 σ 15 x - µ 810 - 800 z1 = = = 0, 67 → A tab2 = 0, 7486 σ 15 66 Estatística Aplicada Portanto: P(vida média entre 790 e 810 horas) = Atab2 – Atab1 = 0,7486 – 0,2514 = 0,4972 Ou 49,72%; portanto, alternativa E. 6.2 Distribuição amostral das proporções Admita que uma população seja infinita, que a probabilidade de ocorrência de certo evento seja p (probabilidade de sucesso) e que retiremos dessa população todas as amostras possíveis de tamanho N. Para cada amostra calculamos a média, e todas as médias calculadas irão compor a distribuição amostral das proporções, cuja média é chamada de média da distribuição das proporções e simbolizada por µp; já o desvio padrão da distribuição das proporções é simbolizado por σp, sendo os valores de ambos dados, respectivamente, por: p(1 - p) µp = p e σp = N O exemplo a seguir deixa mais claros o raciocínio e a utilização desses conceitos. Em determinado processo produtivo, 4% dos itens produzidos são defeituosos. Em dado momento, retiram‑se da produção 500 itens produzidos. Calcule: a) Qual a média da distribuição amostral dessa proporção? b) Qual é o desvio padrão dessa distribuição amostral das proporções? c) Qual é a probabilidade de que, desses 500 itens inspecionados, 3% ou mais sejam defeituosos? Observe que nos foram informados os seguintes dados: • probabilidade de sucesso: p = 4% ou 0,04; • tamanho das amostras: N = 500. Assim, podemos calcular a média e o desvio padrão da distribuição amostral: µp = p ⇒ µp = 0, 04 0, 04(1 - 0, 04 ) σp = ⇒ σp = 0, 009 500 67 Unidade II Para o cálculo do Item c, precisamos introduzir o fator de correção para variáveis discretas. Isso é necessário porque estaremos usando conceitos da distribuição normal, pois uma distribuição para variáveis contínuas numa questão envolve variáveis discretas. Isso é permitido porque o N é 1 suficientemente grande (≥ 30), mas é necessário o uso do fator de correção: fc = . 2N 1 1 Nessa questão, o fator de correção é fc = ⇒ fc = ⇒ fc = 0, 001 . 2N 2 × 500 Esse cálculo é feito de modo idêntico ao da distribuição normal, ou seja: x - µ 0, 03 - 0, 001 - 0, 04 z1 = = = -1, 22 → tabela → At = 0,1112 σ 0, 009 Ap = 1 - A t = 1 - 0,1112 = 0, 8888 = 88, 88% A probabilidade de que desses 500 itens inspecionados 3% ou mais sejam defeituosos é de 88,88%. Exemplo de aplicação Uma prévia eleitoral mostrou que certo candidato recebeu 46% dos votos. Determine a probabilidade de uma seção eleitoral constituída de 200 pessoas selecionadas ao acaso entre a população votante apresentar a maioria de votos a favor desse candidato. a) 12,56% b) 50% c) 11,31% d) 15,31% e) 88,69% Resolução: Apesar de este exercício se referir a uma distribuição binomial, o número relativamente grande de pessoas entrevistadas permite que utilizemos a distribuição normal, desde que levemos em conta a descontinuidade. Dessa forma, teremos os seguintes parâmetros amostrais da distribuição amostral: 68 Estatística Aplicada p(1 - P) 0, 46(1 - 0, 46) µp = p = 0, 46 σ= = = 0, 035 N 200 1 1 1 Dc = = = = 0, 0025 2N 2x200 400 A partir daí, teremos um cálculo normal de distribuição normal, lembrando que maioria de votos é 50% mais um voto, ou seja, 50% mais a descontinuidade: X - µ (0, 5 + 0, 00025) - 0, 46 z1 = = = 121 , → A tab1 = 0, 8869 σ 0, 035 Ou 11,31%. Consequentemente, a alternativa correta é a C. 6.3 Distribuição amostral das diferenças Dadas duas populações das quais são retiradas amostras de NA da população A e NB elementos da população B, a distribuição amostral das diferenças (das médias, das proporções ou de qualquer outra medida estatística) é caracterizada pela diferença dos valores centrais e pela raiz quadrada da soma dos quadrados dos desvios padrões, divididas pelo tamanho da amostra, ou seja: Para diferenças entre médias: σ2xA σ2xB µX = µx - µx e σX = + A - XB A B A - XB NA NB Para diferenças entre proporções: pA (1 - pA ) pB (1 - pB ) µpA -pB = pA - pB e σp = + ` -pB NA NB Lembrete O desvio padrão, assim como o erro padrão, representam variações. Portanto, eles sempre se somam, mesmo que estejamos fazendo a diferença entre situações. Subtrair variações seria acreditar que uma variação compensasse a outra e, na verdade, elas se acumulam. Erros nunca se compensam! 69 Unidade II As questões a seguir ajudarão a entender esses conceitos: Os amortecedores do fabricante A rodam em média 65.000 km, com desvio padrão de 4.500 km normalmente distribuídos. Já os amortecedores do fabricante B duram em média 60.000 km, com desvio padrão de 3.500 km. Suponha que tenham sido testados 36 amortecedores da marca A e 49 amortecedores da marca B. Calcule: a) Quais são a média e o desvio padrão da distribuição amostral da diferença entre as vidas úteis? b) Qual é a probabilidade de que a amostra dos amortecedores da marca A dure 3.000 km a menos do que os da marca B? µX = 65000 - 60000 ⇒ µ X = 5000 A - XB A - XB σ2xA σ2xB 45002 35002 σX = + ⇒ σX -X = + ⇒ σ X - X = 901 A - XB NA NB A B 36 49 A B Observe que a diferença entre as amostras das vidas úteis dos amortecedores da marca A e da marca B é, em média, de 5.000 km a favor do primeiro, mas com um erro padrão de 901. Portanto, o cálculo da questão b será: x - µ 3000 - 5000 z1 = = = -2, 22 → tabela → At = 0, 0132 σ 901 Ap = A t = 0, 0132 = 1,332% Veja mais uma questão. Os resultados de uma eleição mostraram que um candidato obteve 60% dos votos. Qual é a probabilidade de que duas amostras aleatórias, cada uma com 200 eleitores, apresentem uma diferença superior a 10% uma em relação à outra? µpA -pB = pA - pB ⇒ µpA -pB = 0, 6 - 0, 6 ⇒ µpA -pB = 0 0, 6(1 - 0, 6) 0, 6(1 - 0, 6) σp = + ⇒ σp -pB = 0, 049 ` -pB 200 200 ` Perceba que, em princípio, não deveria haver diferença entre as duas amostras, mas é possível que a amostra A seja maior que a amostra B ou vice‑versa. A probabilidade de que a amostra A tenha 10% a mais de eleitores que a amostra B é calculada da seguinte forma: 70 Estatística Aplicada x - µ 0,10 + 0, 0025 - 0, 0 z1 = = = 2, 09 → tabela → At = 0, 9817 σ 0, 049 Ap = 1 - A t = 1 - 0, 9817 = 0, 0183 = 183 , % Devemos lembrar, no entanto, que o oposto também pode ocorrer, ou seja, existem 1,83% de probabilidade de que a amostra B tenha mais de 10% de eleitores que a amostra A. Logo, a probabilidade de que uma tenha mais que 10% de eleitores do que a outra é de: 0,0183 + 0,0183 = 0,0366 = 3,66% Exemplos de aplicação 1) As lâmpadas elétricas do fabricante A duram em média 1.400 horas, com desvio padrão de 200 horas, e as do fabricante B duram em média 1.200 horas, com desvio padrão de 100 horas. Se forem ensaiadas 125 lâmpadas de cada marca, qual será a probabilidade de que as da marca A tenham vida média maior do que as da marca B em, pelo menos, 160 horas? a) 2,28% b) 97,72% c) 58,47% d) 39,85% e) 62,8% Resolução: A distribuição de probabilidades da diferença entre essas amostras é dada pelos parâmetros: µ xa - µ xb = µ a - µb = 1400 - 1200 = 200 σ2a σ2a 200 2 1002 σ xa - σ xb = + = + = 20 Na Na 125 125 Com esses parâmetros, usando o conceito da curva normal, podemos resolver a questão: 71 Unidade II X - µ 160 - 200 z1 = = = -2, 00 → A tab1 = 0, 0228 σ 20 P(marca A durar mais que B em pelo menos 160h) = 1 – Atab1 = 1 – 0,0228 = 0,9772 Ou 97,72%. Portanto, alternativa B. 2) Os resultados de uma eleição mostram que certo candidato recebeu 65% dos votos. Determine a probabilidade de duas amostras aleatórias, constituídas cada uma de 200 eleitores, indicarem mais de 10% de diferença nas proporções dos que votaram a seu favor. a) 31,6% b) 96,84% c) 0,31% d) 3,16% e) 47,85% Resolução: A distribuição de probabilidades da diferença entre essas amostras é dada pelos parâmetros: µpa - µpb = pa - pb = 0, 65 - 0, 65 = 0 pa (1 - pa ) pb (1 - pb ) 0, 65 (1 - 0, 65) 0, 65 (1 - 0, 65) σpa - σpb = + = + = 0, 0477 Na Nb 200 200 1 1 1 Dc = = = = 0, 0025 2N 2 x 200 400 A partir daí, teremos um cálculo normal de distribuição normal, lembrando que mais de 10% de votos são 10% mais a descontinuidade e que podemos ter essa situação dos dois lados da curva: X - µ (0,1 + 0, 0025) - 0 z1 = = = 2,15 → A tab1 = 0, 9842 σ 0, 0477 P(maioria dos votos a favor do candidato na amostra A) = 1 – Atab1 = 1 – 0,9842 = 0,0158 72 Estatística Aplicada Como essa diferença pode ocorrer dos dois lados da curva (amostra A mais do que 10% da amostra B ou amostra B mais do que 10% da amostra A), devemos multiplicar o resultado obtido por 2: P(maioria dos votos a favor do candidato) = 2 x 0,0158 = 0,0316 Ou 3,16%. Consequentemente, a alternativa correta é a D. 7 Teoria da Estimação Estatística No item anterior, vimos que é possível prever o comportamento de amostras sabendo o comportamento da população da qual elas são retiradas. Do ponto de vista prático, no entanto, normalmente é mais interessante o movimento ao contrário, ou seja, a partir do estudo de uma amostra, estimar‑se o comportamento de uma população. Esse campo do estudo estatístico é conhecido como inferência estatística, sendo esta normalmente feita com a definição dos chamados intervalos de confiança. Suponha uma distribuição amostral das médias cuja média seja µX, e o erro padrão, σX. Note que uma amostra qualquer, retirada da população correspondente, deve pertencer a essa distribuição. Observe o gráfico: P(z) z -4σx -3σx -2σx -1σx µx 1σx 2σx 3σx 4σx 68,2% 95,4% 99,7% 100,0% Figura 19 73 Unidade II Observe que a probabilidade de que uma amostra tenha valor médio entre µX ‑ σX. e µX + σX é de 68,2%, quer dizer, temos uma confiança de 68,2% de que o valor médio de uma amostra qualquer esteja entre aqueles valores mencionados. Em outras palavras, o intervalo de confiança de 66,2% são os valores entre µX ‑ σX. e µX + σX. De modo semelhante, o intervalo de confiança de 99,7% está entre µX ‑ 3σX . e µX + 3σX, e assim por diante. O número de erros padrões que estabelecem a confiabilidade é chamado de coeficientes de confiança ou valores críticos e simbolizado por zc. Podemos determinar uma confiança a partir do valor crítico ou, ao contrário, determinar o valor crítico a partir da confiança desejada, utilizando a tabela da curva normal reduzida. Por exemplo, caso queiramos trabalhar com uma confiabilidade de 90%, o valor crítico será de 1,645. Chega‑se a esse valor por meio do raciocínio estabelecido no gráfico a seguir: P(z) 90% 100% – 90% = 5% = 0,0500 100% – 90% 2 = 5% = 0,0500 2 z -Zc Zc Figura 20 Utilizando a tabela da distribuição reduzida, teríamos: At = 0,0500 → Zc = 1,645 Perceba que a área 0,0500 é exatamente o ponto médio entre os valores 0,0495 (Z= ‑1,65) e 0,0505 (Z = ‑1,64), daí o valor 1,645. O sinal negativo será ignorado, por causa da simetria da curva. Existe um Zc positivo e outro negativo, simétricos. A partir desses conceitos, podemos determinar os vários intervalos de confiança: σ Intervalo de confiança para a média: estimativa = X ± Zc × N 74 Estatística Aplicada p(1 - p) Intervalo de confiança para as proporções: estimativa = p ± Zc × N σ2x σ2x A B Intervalo de confiança para as diferenças de médias: estimativa = (X A ‑XB ) ± Zc × + NA NB Intervalo de confiança para as diferenças das proporções: pA (1 - pA ) pB (1 - pB ) estimativa = (pA ‑pB ) ± Zc × + NA NB A multiplicação do valor crítico pelo erro padrão gera o chamado erro esperado, ou margem de erro. Acompanhe a seguir algumas aplicações dos raciocínios que acabamos de desenvolver: Um auditor-contábil separou aleatoriamente uma amostra de 45 contas pagas por uma empresa e encontrou um valor médio para elas de R$ 14.900,00, com desvio padrão de R$ 3.600,00. Baseando‑se nisso, qual foi o valor estimado para a média populacional, com 95% de confiabilidade? σ A estimativa para a média é dada por: estimativa = X ± Zc × . Para se fazer essa estimativa, precisamos das seguintes informações: N • média: X = 14900; • valor crítico: Zc = 1,96, conforme o seguinte cálculo: 1 - 0, 95 At = = 0, 0250 → tabela → Zc = 1, 96 ; 2 • desvio padrão: σ = s = 3600; • tamanho da amostra: 45. Assim: σ 3600 estimativa = X ± Zc × = 14900 ± 1, 96 × → estimativa = 14900 ± 1052 N 45 Baseado nesse cálculo e nessa amostra, podemos dizer que se estima que as contas dessa empresa tenham um valor médio entre R$ 13.848,00 e R$ 15.952,00, com 95% de certeza. Veja outro exemplo: 75 Unidade II Uma pesquisa eleitoral feita com 2.500 eleitores revelou que o candidato X a determinado cargo eletivo teve 45% de intenções de voto. Qual a estimativa que se faria da votação que esse candidato teria caso a eleição fosse hoje, com 99% de confiabilidade? p(1 - p) A estimativa para a proporção é dada por: estimativa = p ± Zc × . Para se fazer essa estimativa, precisamos das seguintes informações: N • proporção: p = 0,45; • valor crítico: Zc = 2,58, conforme o seguinte cálculo: 1 - 0, 99 At = = 0, 0050 → tabela → Zc = 2, 58 ; 2 • tamanho da amostra: 2500. Assim: p(1 - p) 0, 45(1 - 0, 45) estimativa = p ± Zc × → estimativa = 0,45 ± 2, 58 × → N 2500 → estimativa = 0,45 ± 0, 026 ou estimativa = 45% ± 2,6%. Desse modo, podemos afirmar que, se a eleição fosse hoje, o candidato A teria 45% dos votos, com uma margem de erro, para mais ou para menos, de 2,6%, com 99% de certeza, ou então dizer que ele teria entre 42,4% e 47,6% dos votos, com 99% de confiabilidade. Veja mais uma questão. Uma amostra de 300 lâmpadas da marca A apresentou uma durabilidade média de 2.300 horas, com desvio padrão de 200 horas. Outra amostra de 150 lâmpadas da marca B apresentou vida útil de 2.000 horas, com desvio padrão de 90 horas. Estime com 90% de confiabilidade a diferença entre as vidas úteis de ambas as marcas de lâmpadas. Informações: • médias: XA = 2300; XB = 2000; • valor crítico: Zc = 1,645, conforme o seguinte cálculo: 1 - 0, 90 At = = 0, 0500 → tabela → Zc = 1, 645 ; 2 76 Estatística Aplicada • desvios padrões: σA = sA = 200; σB = sB = 90; • tamanhos das amostras: NA = 300; NB = 150. Assim: 2002 902 estimativa = (2300‑2000) ± 1, 645 × + → estimativa = 300 ± 22, 5 . 300 150 As lâmpadas da marca A devem durar mais do que as lâmpadas da marca B entre 277,5 horas e 322,5 horas, com 90% de confiança. Outro exemplo: Uma amostra aleatória, com 250 homens e 320 mulheres, revelou que 150 dos homens e 240 das mulheres apreciaram o design de um novo modelo de automóvel. Estime com 98% de confiabilidade a diferença entre a proporção de todos os homens e de todas as mulheres em relação a esse novo automóvel. Informações: 150 240 • proporções: pH = = 0, 6; pM = = 0, 75 ; 250 320 • valor crítico: Zc = 2,33, conforme o seguinte cálculo: 1 - 0, 98 At = = 0, 0100 → tabela → Zc = 2, 33 ; 2 • tamanho da amostra: NH = 250; NM = 320. Assim: pM (1 - pM ) pH (1 - pH ) estimativa = (pM ‑pH ) ± Zc × + → NM NH 0, 75(1 - 0, 75) 0, 60(1 - 0, 60) estimativa = (0,75‑0,60) ± 2, 33 × + → 320 250 → estimativa = (0,15 ± 0, 092) ou estimativa = 15% ± 9,2%. 77 Unidade II Estima‑se que 15% a mais de mulheres do que homens gostem do design desse automóvel, com uma margem de erro de 9,2% e uma confiabilidade de 98% – ou, em outras palavras, a diferença entre mulheres e homens nesse aspecto está entre 5,8% e 24,2%, com 98% de certeza. Decorrência importante desses cálculos é a determinação do tamanho da amostra necessária para se atender a determinadas condições estatísticas. O raciocínio é o mesmo dos casos anteriores, invertendo‑se, no entanto, a incógnita procurada. A questão seguinte demonstra esse equacionamento. Um analista de treinamento deseja estimar o tempo de treinamento em horas para determinado cargo com uma confiabilidade de 95% e erro esperado de 2 horas. Baseado em estudos anteriores, ele estima o desvio padrão das horas gastas em treinamento em 18 horas. Qual é o tamanho de amostra com que deve trabalhar? σ O erro esperado, ou margem de erro, é dado por: erro esperado = Zc × . Para se fazer essa estimativa, precisamos das seguintes informações: N • valor crítico: Zc = 1,96, conforme o seguinte cálculo: 1 - 0, 95 At = = 0, 0250 → tabela → Zc = 1, 96 ; 2 • desvio padrão: σ = s = 18 horas; • erro esperado desejável: 2 horas. Assim: 2 σ 18 18 18 erro esperado = Zc × → 2 = 1, 96 × → N = 1, 96 × → N = 1, 96 × → N = 312 . N N 2 2 Baseado nesse cálculo, o analista deve trabalhar com uma amostra de 312 elementos. De maneira semelhante, podem ser calculados os tamanhos necessários para amostras em quaisquer dos intervalos de confiança. Exemplo de aplicação O seu chefe precisa tomar uma decisão acerca da implantação de uma nova unidade e pediu para você fazer uma estimativa dos gastos com salários. Ele informou a você que só conseguirá tomar essa decisão para um erro esperado máximo de 20 reais e com uma confiabilidade de 95%. Para tanto, você fez uma pesquisa com 225 trabalhadores da região em que será instalada a fábrica, seguindo a distribuição de cargos e funções, e chegou à média de R$ 1.950,00, com desvio padrão de R$ 298,00, mas não conseguiu atender ao erro esperado fixado pelo seu chefe. 78 Estatística Aplicada Quantos trabalhadores a mais você terá de pesquisar para atingir os valores estipulados de confiabilidade e erro esperado? a) 853 trabalhadores. b) 628 trabalhadores. c) 450 trabalhadores. d) 368 trabalhadores. e) 280 trabalhadores. Resolução: Diante da posição do seu chefe, a única coisa que você pode fazer é aumentar o tamanho da amostra, visto que todas as outras grandezas não podem ser alteradas por prerrogativa sua. Desse modo, você deverá calcular qual o tamanho de amostra que deverá tomar para satisfazer seu chefe: • erro esperado = 20 (imposição do chefe); • Zc=1,96 (coeficiente para 95% de confiabilidade); • o erro padrão é, por enquanto, desconhecido, porque se precisa do tamanho da amostra para ser determinado, e isso você não tem. Assim, podemos equacionar: Erro esperado = Zc × erro padrão. Logo, 20 = 1,96 × erro padrão. Portanto: ~ 20 298 298 298 erro padrao = σx = = 10, 20 ∴ σ x = ∴10, 20 = ∴ n= = 29, 2 ⇒ n = (29, 2)2 1, 96 n n 10, 20 Ou seja, n = 853 trabalhadores. Assim, você deverá tomar uma amostra de 853 trabalhadores para poder satisfazer seu chefe. Como você já pegou 225, terá de pegar mais 628. Assim, a alternativa correta é a B. 8 Correlação e regressão lineares Podemos eleger para a palavra correlação significados tais como: relação mútua entre dois termos; qualidade de correlativo; correspondência. 79 Unidade II Em Estatística, é um parâmetro que indica o grau de correspondência entre duas variáveis, ou seja, a correlação mostra a intensidade com a qual dois conjuntos de dados estão relacionados mutuamente. Eventualmente, duas variáveis interagem, ou seja, uma variável está correlacionada a outra, de maneira mais ou menos intensa, provocando questões do seguinte tipo: • O salário de um trabalhador está relacionado com sua escolaridade, ou seja, em que grau a variável salário médio de um trabalhador está ligada com a variável escolaridade do trabalhador? • A quantidade de livros que uma pessoa já leu está relacionada com sua escolaridade? • Em que grau o peso de uma pessoa está relacionado com sua altura? • A estatura de uma pessoa está relacionada com sua alimentação? • A lucratividade de uma empresa está relacionada com o grau de escolaridade de seus executivos? • A capacidade de aprender Estatística está relacionada com o sexo do aluno? Responder matematicamente a essas questões é o objetivo do estudo estatístico das correlações. Considerando que exista uma correlação entre duas variáveis, muitas vezes, desejamos saber qual é a lei matemática que as relaciona. Isso nos remete ao estudo das funções regressão. Neste momento, tanto para correlação como para regressão, iremos nos circunscrever aos relacionamentos lineares, quer dizer, àqueles que utilizam uma equação de primeiro grau. Existem outros relacionamentos, mas não serão objeto de nosso estudo. 8.1 Correlação linear Imagine qualquer uma das questões anteriormente mencionadas. Parece que algumas respostas são verdadeiras; por exemplo, um trabalhador deverá ganhar mais se tiver maior escolaridade, e uma pessoa mais alta deverá pesar mais, mas outras respostas parecem ser falsas, como relacionar o sexo da pessoa com facilidade de aprendizado. A maneira estatística de se determinar a verdade ou a falsidade dessas questões é calcular o coeficiente de correlação que existe entre as variáveis – no nosso caso, o coeficiente de correlação linear. Esse coeficiente linear, chamado de coeficiente de correlação linear de Pearson, é obtido da seguinte maneira: n.∑ xi .yi - ( ∑ xi ).( ∑ yi ) r= (n.∑ xi2 - ( ∑ xi )2 ).(n.∑ yi2 - ( ∑ yi )2 ) 80 Estatística Aplicada Onde x é a chamada variável independente e y é a variável dependente, ou seja, que está correlacionada (ou não) à variável x. Essa correlação pode existir ou não e ser intensa ou não, conforme nos informa o coeficiente de Pearson. De acordo com o coeficiente r, a correlação poderá ser: • r = ‑1,00: correlação negativa perfeita; • r = ‑0,75: correlação negativa forte; • r = ‑0,50: correlação negativa média; • r = ‑0,25: correlação negativa fraca; • r = 0,00: correlação linear inexistente; • r = +0,25: correlação positiva fraca; • r = +0,50: correlação positiva média; • r = +0,75: correlação positiva forte; • r = +1,00: correlação positiva perfeita. Correlação linear positiva significa que, se uma variável aumenta, a outra variável também aumenta ou, então, se uma variável diminui, a outra também diminui. Correlação linear negativa significa que, se uma variável aumenta, a outra variável diminui ou, então, se uma variável diminui, a outra aumenta. O exemplo a seguir mostra, passo a passo, os procedimentos de cálculo. Uma empresa de confecções quer avaliar se suas despesas com publicidade estão repercutindo favoravelmente em suas vendas. Para tanto, levantou os gastos de publicidade e as vendas em cinco meses diferentes, os quais estão relacionados na tabela a seguir. Calcule a resposta para a empresa. Tabela 14 Gastos com publicidade (em $ mil) 3 4 8 12 14 Vendas (em $ mil) 7 14 15 28 32 81 Unidade II A reposta a essa questão é o cálculo do coeficiente de correlação linear. Caso ele seja positivo, poderemos afirmar que as despesas com publicidade repercutem favoravelmente nas vendas; caso contrário, a resposta será negativa. Caso o coeficiente seja positivo, quanto mais próximo de 1, maior será a repercussão da publicidade nas vendas. Para fazermos esse cálculo, iremos montar a seguinte tabela, na qual serão determinados os somatórios necessários para a utilização da fórmula: Tabela 15 Xi YI Xi2 YI2 Xi.YI 3 7 9 49 21 4 14 16 196 56 8 15 64 225 120 12 28 144 784 336 14 32 196 1024 448 Somatórios 41 96 429 2278 981 n.∑ xi .yi - ( ∑ xi ).( ∑ yi ) 5.981 - (41).(96) r= r= (n.∑ xi2 - ( ∑ xi )2 ).(n.∑ yi2 - ( ∑ yi )2 ) (5.429 - (41)2 ).(5.2278 - (96)2 ) 4905 - 3936 969 r= r = = r = 0,96 (2145 - 1681).(11390 - 9216) (464 ).(2174 ) Existe entre as duas variáveis uma correlação positiva forte, ou seja, do ponto de vista prático, é fortemente interessante, para essa empresa, investir em publicidade. Imagine agora a seguinte questão: caso a empresa investisse R$ 18.000,00 em publicidade, qual seriam as vendas previstas? Perceba que para se responder a essa questão seria necessário estabelecer um relacionamento matemático entre as duas variáveis. Isso pode ser feito por meio da regressão linear, nosso próximo e último assunto. 8.2 Regressão linear Trata-se do processo de traduzir o comportamento conjunto de duas variáveis na forma de uma lei matemática denominada equação de regressão. Assim sendo, os conceitos de correlação e regressão são indissociáveis. A regressão é linear quando essa lei matemática mencionada é uma reta – portanto, uma equação de 1º grau. 82 Estatística Aplicada Correlação perfeita Correlação forte 16 14 14 12 12 10 10 8 8 6 6 4 4 2 2 0 0 0 1 2 3 4 5 6 0 5 10 15 20 Figura 21 Como na prática se trabalha com diversos pontos experimentais, existem inúmeras retas possíveis para um determinado conjunto de dados. No entanto, o critério normalmente utilizado para a definição dessa reta é o chamado método dos mínimos quadrados. É sabido que a equação de uma reta é dada pela fórmula geral: y = ax + b Onde a e b são os chamados coeficientes da reta. Lembrete Numa reta ou função linear, o coeficiente a é chamado de coeficiente angular. Caso ele seja positivo, a curva é crescente (aumento de x corresponde a aumento de y). Já se for negativo, a curva será decrescente (aumento de x corresponde à diminuição de y). O coeficiente b, por sua vez, informa a distância da reta em relação ao eixo horizontal, no ponto em que ela cruza o eixo dos y. Quanto maior o módulo do valor de b, maior a distância entre esse ponto e a origem. Estatisticamente, a equação da chamada reta interpoladora é dada pela fórmula: y * = K y ⋅ xi + ( y - K y ⋅ x ) sy Onde: K y = r ⋅ sx Assim, para calcularmos a equação da reta interpoladora, precisaremos calcular a média e o desvio padrão de ambas as variáveis (x e y) e o coeficiente de correlação entre elas. Vamos utilizar um exemplo para deixar mais claro o processo de cálculo, passo a passo: 83 Unidade II A tabela a seguir mostra a evolução de duas variáveis possivelmente correlacionadas. Determine a equação de regressão linear decorrente. Tabela 16 x 3 5 7 9 10 14 16 y 1 2 3 5 7 10 13 1º passo: cálculo do coeficiente de correlação linear: Tabela 17 xi yi xi2 yi2 xi.yi 3 1 9 1 3 5 2 25 4 10 7 3 49 9 21 9 5 81 25 45 10 7 100 49 70 14 10 196 100 140 16 13 256 169 208 S= 64 41 716 357 497 n.∑ xi .yi - ( ∑ xi ).( ∑ yi ) r= (n.∑ xi2 - ( ∑ xi )2 ).(n.∑ yi2 - ( ∑ yi )2 ) 7.4997 - (64 ) . (41) r= (7.716 - (64 )2 ) . (7.357 - (41)2 ) r = 0, 988 2º passo: cálculo da média e do desvio padrão da variável x: Tabela 18 xi di di2 3 3 – 9,1429 = –6,1429 37,7352 5 5 – 9,1429 = –4,1429 17,1636 7 7 – 9,1429 = –2,1429 4,5920 9 9 – 9,1429 = –0,1429 0,0204 10 10 – 9,1429 = 0,8571 0,7346 84 Estatística Aplicada 14 14 – 9,1429 = 4,8571 23,5914 16 16 – 9,1429 = 6,8571 47,0198 S= 64 130,857 x= ∑ xi ⇒ x = 64 ⇒ x = 9,1429 n 7 sx = ∑ di2 ⇒ sx = 130, 857 ⇒ sx = 4, 6701 n -1 7 -1 3º passo: cálculo da média e do desvio padrão da variável y: Tabela 19 yi di di2 1 1 – 5,8571 = –4,8571 23,5914 2 2 – 5,8571 = –3,8571 14,8772 3 3 – 5,8571 = –2,8571 8,1630 5 5 – 5,8571 = –0,8571 0,7346 7 7 – 5,8571 = 1,1429 1,3062 10 10 – 5,8571 = 4,1429 17,1636 13 13 – 5,8571 = 7,1429 51,0210 S= 41 116,857 y= ∑ yi ⇒ y = 41 ⇒ y = 5, 8571 n 7 sy = ∑ di2 ⇒ sx = 116, 857 ⇒ s x = 4, 4132 n -1 7 -1 4º passo: cálculo do coeficiente Ky: Sy 4, 4123 K y = r . ⇒ K y = 0, 988 . = 0, 93 Sx 4, 6701 5º passo: definição da equação da reta procurada: y* = Ky . xi + (y – Ky . x) 85 Unidade II y* = 0,93 . xi + (5,8571 – 0,93 . 9,1429) y* = 0,93 . xi – 2,64 A determinação dessa equação da reta permite prever valores futuros, com os devidos cuidados de sempre. Por exemplo, caso queiramos saber qual é o valor de y quando o x assumir o valor 18: y* = 0,93 . xi – 2,64 → y* = 0,93 . 18 – 2,64 → y* = 14,1 Observação O Microsoft Excel tem entre suas funções o cálculo da projeção linear. Ele pode ser encontrado no menu de funções, no campo de funções estatísticas, com o nome PROJ.LIN. Seu uso é bastante fácil dentro dos procedimentos do Excel. Resumo Um dos maiores interesses e usos da Estatística é prever cenários futuros ou muito complexos a partir da análise de amostras desses cenários. Esse processo é conhecido genericamente como amostragem e, se conceitualmente simples e imediato, em termos matemáticos é relativamente complexo de ser calculado. O principal cálculo a ser feito é a margem de erro das previsões feitas. Esse valor depende basicamente de três fatores: homogeneidade da população, tamanho das amostras e confiabilidade que desejamos ter na estimativa. Manuseando tamanho e confiabilidade, podemos encontrar a precisão adequada para nossa pesquisa, em função dos recursos que temos à nossa disposição. O custo das pesquisas e previsões é um fator importante a se considerar. Geralmente as pesquisas são caras e proporcionais à precisão. Grande precisão, grandes custos, porque precisão vem junto com o tamanho das amostras. É fundamental, portanto, que saibamos equacionar adequadamente essas grandezas. As amostragens permitem que nós façamos previsões sobre o futuro necessárias para montarmos cenários alternativos e tomarmos decisões. Outro aspecto importante é a nossa ideia de causa e efeito. Muitas vezes, atribuímos um efeito a uma determinada causa. Isso é correto? Pode ser que sim, mas pode ser também que não. O modo estatístico de se fazer essa afirmação está situado no campo das correlações e regressões. 86 Estatística Aplicada Correlação é a relação entre duas variáveis. Se eu estudar muito (primeira variável), aprenderei muito (segunda variável). Certo? Nem sempre isso é totalmente verdadeiro; dependendo das condições, isso poderá ser totalmente verdadeiro ou nem um pouco verdadeiro. Medindo e comparando essas variáveis, poderemos encontrar o grau de correlação para um caso específico e determinar até que ponto, naquela situação, a causa e o efeito estão plenamente vinculados. Essa vinculação pode ser desde total até nenhuma. Caso duas variáveis estejam correlacionadas, é possível prever qual o efeito de uma determinada variação da causa. Quanto mais vou aprender se aumentar o meu tempo de estudo em duas horas? Essa resposta pode ser dada por meio de uma curva de regressão linear ou não. A regressão linear é a mais usada, por isso foi tema deste material, mas existem outras regressões matemáticas, as logarítmicas, por exemplo, que também podem ser usadas. O raciocínio é idêntico, apenas o equacionamento é diferente. Exercícios Questão 1. (Enade 2008) Uma empresa realizou uma avaliação de desempenho de um sistema web. Nessa avaliação, foram determinados o desvio padrão e a média do tempo de resposta do referido sistema, tendo como base 10 consultas realizadas. Constatou-se que o tempo de resposta do sistema web possui distribuição normal. Para um nível de confiança de 95%, identificou-se o intervalo de confiança para a média do tempo de resposta das consultas. Com relação a essa avaliação de desempenho, julgue as afirmativas abaixo: I - Com a medição do tempo de resposta do sistema para 10 consultas adicionais, é possível que a média e o desvio padrão do tempo de resposta para o conjunto das 20 consultas aumente ou diminua. II - Com a medição do tempo de resposta do sistema para 15 consultas adicionais, com nível de confiança de 95%, o intervalo de confiança para o conjunto das 25 consultas é maior que o intervalo de confiança para o conjunto das 10 consultas iniciais. III - Na medição do tempo de resposta das 10 consultas iniciais, o intervalo de confiança com nível de confiança de 99% é maior que o intervalo de confiança com nível de confiança de 95%. Assinale a alternativa correta: A) Apenas a afirmativa I está correta. B) Apenas a afirmativa II está correta. 87 Unidade II C) Apenas a afirmativa III está correta. D) Apenas as afirmativas I e III estão corretas. E) Todas as afirmativas estão corretas. Resposta correta: alternativa C. Análise das afirmativas I – Afirmativa incorreta. Justificativa: a afirmativa I diz que “Com a medição do tempo de resposta do sistema para 10 consultas adicionais, é possível que a média e o desvio padrão do tempo de resposta para o conjunto das 20 consultas aumente ou diminua”. Porém, não é difícil imaginar que o aumento de 10 consultas adicionais possa manter a mesma média que a obtida pelos valores iniciais: basta para isto que os mesmos valores inicialmente amostrados sejam repetidos. Desta forma, essa afirmativa está errada, pois cita apenas dois casos possíveis e ignora a possibilidade de médio e desvio se manterem iguais. II – Afirmativa incorreta. Justificativa: a afirmativa II diz que “Com a medição do tempo de resposta do sistema para 15 consultas adicionais, com nível de confiança de 95%, o intervalo de confiança para o conjunto das 25 consultas é maior que o intervalo de confiança para o conjunto das 10 consultas iniciais”. Essa afirmativa está errada, pois o aumento no tamanho da amostra de 10 para 25 valores poderá afetar de qualquer maneira o intervalo de confiança, aumentando-o, diminuindo-o ou deixando-o igual. Por exemplo, se os 15 valores adicionais forem mais distantes da média que os 10 iniciais, iremos aumentar o intervalo de confiança, se eles forem mais próximos iremos diminuir o intervalo e, em um caso muito particular, podemos ter os valores com o mesmo desvio padrão, o que deixaria o intervalo de confiança igual à situação inicial, com apenas 10 valores. III – Afirmativa correta. Justificativa: a afirmativa III diz que “Na medição do tempo de resposta das 10 consultas iniciais, o intervalo de confiança com nível de confiança de 99% é maior que o intervalo de confiança com nível de confiança de 95%”. Essa afirmação está claramente correta, pois o intervalo de confiança cresce necessariamente em tamanho quando se aumenta o nível de confiança. Dito em outras palavras, o tamanho de um intervalo de confiança é inversamente proporcional ao seu nível 68 de confiança. Na verdade, quando o nível de confiança tende a 100%, o tamanho do intervalo de confiança tende a infinito. Questão 2. (IMCC 2007) É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa relação, uma nutricionista selecionou 18 mulheres, com idade entre 40 e 79 anos, e observou em cada uma delas a idade (X) e a massa muscular (Y). 88 Estatística Aplicada Massa muscular (X) Idade (Y) 82 71 91 64 100 43 68 67 87 56 73 73 78 68 80 56 65 76 84 65 116 45 76 58 97 45 100 53 105 49 77 78 73 73 78 68 I - O diagrama de dispersão “massa muscular x idade” é dado abaixo. 120 110 100 M. muscular 90 80 70 60 40 50 60 70 80 Idade II - Entre as variáveis massa muscular e idade, pode-se observar que há um forte indício de relação linear crescente entre as variáveis em estudo. III - O resultado da correlação foi de - 0,837 e pode-se notar que há uma forte correlação linear entre a variável massa muscular e idade. Nota-se que à medida que a idade da pessoa aumenta a massa muscular diminui. 89 Unidade II IV - Não é possível estimar a massa muscular média de mulheres com 50 anos. Assinale a alternativa com as informações incorretas: A) I e II B) I e III C) II e III D) II e IV E) IV Resolução desta questão na plataforma. 90 Referências Textuais ANDERSON, D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatística Aplicada à Administração e Economia. 2. ed. São Paulo: Thomson Learning, 2007. BRUNI, A. B. Estatística Aplicada à gestão empresarial. 4. ed. São Paulo: Atlas, 2013. BUSSAB, W. O., MORETIN, P. A. Estatística básica. 3. ed. São Paulo: Atual, 1986. COSTA NETO, P. L. O. Estatística. São Paulo: Edgard Blücher, 1979. COSTA NETO, P. L. O.; CYMBALISTA, M. Probabilidades. São Paulo: Edgard Blücher, 1974. DOWNING, D.; CLARK, J. Estatística Aplicada. São Paulo: Saraiva, 1998. FONSECA, J. S.; MARTINS, G. A.; TOLEDO, G.L. Estatística Aplicada. São Paulo: Atlas, 1995. GUERRA, M.; GUERRA, M. J.; DONAIRE, D. Estatística Aplicada. São Paulo: Ciência e Tecnologia, 1991. KAZMIER, L. J. Estatística Aplicada à Economia e Administração. São Paulo: Makron Books, 1982. KUNE, H. Métodos estatísticos para a melhoria da qualidade. São Paulo: Gente, 1993. LAPPONI, J. A. Estatística usando Excel. 4. ed. Rio de Janeiro: Elsevier, 2005. MEDEIROS, E. et al. Estatística para os Cursos de Economia, Administração e Ciências Contábeis. 2. ed. São Paulo: Atlas, 1997. v. 1 e 2. ___. Tabelas de Estatística para os cursos de Economia, Administração e Ciências Contábeis. 2. ed. São Paulo: Atlas, 1999. MEYER, P. L. Probabilidade: aplicações à Estatística. Rio de Janeiro: LTC, 1976. MILONE, G.; ANGELINI, F. Estatística Aplicada. São Paulo: Atlas, 1995. MLODINOW, L. O andar do bêbado: como o acaso determina nossas vidas. Rio de Janeiro: Zahar, 2009. MOORE, D. A Estatística básica e sua prática. Rio de Janeiro: LTC, 2000. MOORE, D. et al. A Prática da Estatística empresarial: como usar dados para tomar decisões. Rio de Janeiro: LTC, 2006. 91 PESQUISAS de opinião. UOL Notícias, 2014. Disponível em: <http://noticias.uol.com.br/politica/ pesquisas/>. Acesso em: 15 jul. 2014. SPIEGEl, M. R. Estatística. São Paulo: Makron Books, 1993. STEVENSON, W. J. Estatística Aplicada à Administração. São Paulo: Habra, 1981. TRIOLA, M. F. Introdução à Estatística. Rio de Janeiro: LTC, 2005. WITTE, R. S.; WITTE, J. S. Estatística. 7. ed. Rio de Janeiro: LTC, 2005. Site <http://www.ibge.com.br>. Exercícios Unidade I – Questão 1: CENTRO DE SELEÇÃO E DE PROMOÇÃO DE ENVENTOS (CESPE). Concurso público Nível superior Anac 2009: Especialista em Regulação de Aviação Civil. Questão 35. Disponível em: <http://www.cespe.unb.br/concursos/anac2009/arquivos/ANAC_CARGO_04_AREA_04_CAD_M. pdf>. Acesso em: 8 jun. 2014. Unidade II – Questão 1: INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO TEIXEIRA (INEP). Exame Nacional de Desempenho dos Estudantes (ENADE) 2008: Computação. Questão 32. Disponível em: <http://download.inep.gov.br/download/Enade2008_RNP/COMPUTACAO.pdf>. Acesso em: 8 jun. 2014. Unidade II – Questão 2: INSTITUTO DE MATEMÁTICA, ESTATÍSTICA E COMPUTAÇÃO CIENTÍFICA (IMCC). ME414: Estatística para experimentalistas 2007. Questão 1. Disponível em: <http://www.ime.unicamp. br/~hlachos/ExerciciosRegre.doc>. Acesso em: 8 jun. 2014. 92 Anexo 1 Áreas sob a curva normal reduzida Página 1 – Valores da variável reduzida negativos – Área entre -3,99 e Z z Z 0 1 2 3 4 5 6 7 8 9 -3,9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 -3,8 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 -3,7 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 -3,6 0,0002 0,0002 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 -3,5 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 -3,4 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002 -3,3 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003 -3,2 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005 -3,1 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007 -3,0 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010 -2,9 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014 -2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019 -2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026 -2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036 -2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048 -2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064 -2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084 -2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110 -2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143 -2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183 -1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233 -1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294 -1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367 -1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455 -1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559 -1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681 -1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823 -1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985 -1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170 -1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379 -0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611 -0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867 -0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148 -0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451 -0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776 -0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121 -0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483 -0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859 -0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247 0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641 93 Áreas sob a curva normal reduzida Página 1 – Valores da variável reduzida positivos – Área entre -3,99 e Z z Z 0 1 2 3 4 5 6 7 8 9 0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359 0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753 0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141 0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517 0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879 0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224 0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549 0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852 0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133 0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389 1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621 1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830 1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015 1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177 1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319 1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441 1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545 1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633 1,8 0,9641 0,9649 0,9646 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706 1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767 2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817 2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857 2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890 2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916 2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936 2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952 2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964 2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974 2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981 2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986 3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990 3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993 3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995 3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997 3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998 3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 3,6 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 3,7 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 3,8 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 3,9 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 94 Anexo 2 Tabela de números aleatórios 58137 54989 04897 59401 19847 16910 08050 49746 48326 50381 72805 40258 72318 91216 08981 90373 59507 95963 94462 46412 44836 21022 94209 54407 37064 16258 50259 21764 29143 02720 21458 83999 90047 23438 57674 15258 74466 18683 97084 49572 56224 89485 40909 57926 62133 98292 92361 61139 68485 93740 96402 54981 16098 62973 69682 51101 45235 44290 41329 09870 06624 77931 35888 63224 87244 26837 28379 20330 63149 80083 46478 66855 07593 21013 09194 77319 25976 16580 34135 44888 12468 77714 74636 50487 55343 80062 98620 85767 78863 39802 91129 35625 21492 70652 95890 09846 19638 68966 20187 4761 34034 87420 10191 42333 10412 01463 29158 63717 18308 50769 41104 59731 99577 86938 10459 78754 07444 44896 72698 10709 14085 09687 06979 30978 48491 19432 00557 72058 76378 94086 55657 96664 08412 13961 57294 98073 85306 34074 24190 76407 28682 67799 15533 12631 03641 24640 04804 92802 10510 54182 90083 13895 94559 42560 94824 07050 31085 95592 09262 05660 03545 67072 33543 10470 87718 44822 05943 10002 40936 27326 36232 70849 70188 71718 11788 56407 94329 12458 55687 96861 23436 84288 65890 03446 62920 68300 39913 44360 30090 07976 74108 85641 73661 50547 34026 80886 63806 04044 44772 82208 66521 70957 20052 32266 72994 43309 99243 92570 84759 97720 29947 47022 67059 70108 22807 38771 62874 48456 51993 59288 36530 30491 90603 64942 68315 78135 29664 35711 39812 45262 88307 67019 83358 99006 38279 58092 67936 55720 47480 71180 16218 91452 28155 53749 47295 54481 87493 93484 19075 17867 74504 34952 48990 13629 92376 16862 97638 79948 98674 33858 74284 39589 02384 59658 22042 00259 27863 34097 20944 15538 53348 36041 61438 15046 31825 93368 51564 11827 44908 38051 15313 51424 91197 5214 76877 65789 45405 32926 98397 39326 46633 15115 44220 17834 47859 34554 45329 90752 21601 84677 95141 71230 84347 71684 71330 06201 79707 89957 46150 75999 39734 58601 87075 24826 54224 95 20653 76455 75954 53872 42634 31415 25222 00802 28136 45203 65225 48939 00586 87288 72289 39919 70768 45107 4535 35212 24700 24124 21744 53666 10191 42824 44350 50309 70630 52986 85066 93704 00660 58694 26333 75714 26291 45231 05332 34260 62487 30349 49271 56487 29841 96 97 98 99 100 Informações: www.sepi.unip.br ou 0800 010 9000