Estatística básica

Prof.Nagib Yassin Rio Verde-Go 2012 2 ESTATÍSTICA BÁSICA 3 UNIVERSIDADE DE RIO VERDE PRÓ-REITORIA DE GRADUAÇÃO PLANO DE ENSINO 1. IDENTIFICAÇÃO Professor: Nagib Yassin Disciplina: Estatística Básica Ano: 2012 Carga horária: 72h Semestre letivo: 2012/1 Pré-requisitos: Cálculo Diferencial e Integral Oferecido para o curso: Biologia, Matemática, Medicina Veterinária 2. EMENTA Estatística Descritiva, Elementos de Probabilidade e de Inferência Estatística, Base conceitual, Métodos e Aplicações da Estatística em Ciência e Tecnologia. 3. OBJETIVOS 3.1. Objetivo geral Habilitar o estudante para a compreensão da base conceitual e metodológica da estatística requerida no planejamento, análise de dados e interpretação de resultados de pesquisa científica. 3.2. Objetivos específicos Fundamentação estatística para o estudo de disciplinas do ciclo profissional. 4. CONTEÚDO PROGRAMÁTICO I. Introdução • História, conceito, funções e aplicações da estatística; estatística na pesquisa científica; • Conceito de população e amostra; tipos de variáveis e escalas de mensuração; II. Estatística Descritiva • Organização e Apresentação de dados; 4 • Tabelas de freqüências; histograma e polígono de freqüências; resumo de cinco pontos; diagrama de ramo e folhas; gráfico de caixas (“Box-Plot”); • Síntese Numérica: Medidas de tendência central (médias aritmética, harmônica e geométrica, moda e mediana); Medidas separatrizes: quartis, decis e percentis; Medidas de Variabilidade (amplitude, amplitude interquartílica, variância, desvio-padrão e coeficiente de variação); III. Elementos de Probabilidade • Introdução aos principais conceitos de probabilidade: Experimento aleatório, espaço amostral e eventos. • Definição clássica e frequentista de probabilidade; • Probabilidade Condicional e Independência de eventos. • Variáveis aleatórias unidimensionais discretas e contínuas; Modelo Binomial, de Poisson. E modelos Normais; IV. Inferência Estatística • Introdução aos principais conceitos de Inferência Estatística; • Distribuição amostral da média e da proporção; teorema central do limite; • Estimação pontual e por intervalo da média e proporção populacional: conceitos; métodos de estimação; propriedades dos estimadores; • Teste de hipótese: conceitos; hipótese estatística; erros de decisão; nível de significância e potência do teste; • Teste de hipótese referente à média de uma população normal; teste de hipótese de igualdade de médias e teste de hipótese da igualdade de variâncias de duas populações normais; testes de hipóteses referentes às proporções. 5. METODOLOGIA A disciplina será conduzida através da exposição da matéria, discussão do conteúdo programático e de exemplos ilustrativos. Eventualmente, tópicos não expostos em classe serão assinalados para estudo extraclasse. Sempre que possível, as exposições serão auxiliadas com recursos visuais, especialmente providos Por projetores de transparências e de slides. Exercícios para desenvolvimento do tirocínio serão assinalados para resolução extraclasse. Alguns minutos de cada aula serão dedicados para o esclarecimento de dúvidas e dificuldades encontradas pelo estudante. Os estudantes também terão disponível, para esses esclarecimentos, atendimento extraclasse, provido pelo docente e monitor da disciplina, em horários 5 apropriados, previamente estabelecidos. Texto próprio elaborado pela equipe docente será colocado à disposição do estudante, para auxílio ao estudo da disciplina. 6. ESTRATÉGIAS DE AVALIAÇÃO A média de aproveitamento (MA) será obtida, calculando: ( ) ( ) + + = 7 3 NP 3 NT 4(MEP) MA Sendo: (NP) Nota de uma única prova (NT) Nota referente a um trabalho mensal (MEP) Nota referente a 4 listas menais de exercícios. Trabalhos Obs: As notas de NT e de MEP não darão direito ao aluno requerer 2 a chamada A freqüência comporá o sistema de avaliação – (5% a menos para cada falta e/ou capítulo) 7. MATERIAL DIDÁTICO Textos redigidos pelo corpo docente e bibliografia existente na biblioteca da Universidade de Rio Verde. Coleção de exercícios versando sobre o conteúdo programático. 8. BIBLIOGRAFIA RECOMENDADA BLACKWELL, D. Estatística Básica. São Paulo: McGraw-Hill do Brasil Ltda. 1974. 143p. BOTELHO, E.M.D.; MACIEL, A.J. Estatística Descritiva (Um Curso Introdutório). Viçosa: Imprensa Universitária, Universidade Federal de Viçosa. 1992. 65p. BUSSAB, W.O.; MORETTIN, P.A. Estatística Básica. São Paulo: Atual Editora. 1987. HOEL, P.G. Estatística Elementar. São Paulo: Editora Atlas S.A. 1980. IEMMA, A.F. Estatística Descritiva. Piracicaba: Fi Sigma Rô Publicações. 1992. 182p. MEYER, P.L. Probabilidade, Aplicações à Estatística. Rio de Janeiro; Ao Livro Técnico S.A. 1976. MORETTIN, P.A. Introdução à Estatística para Ciências Exatas. São Paulo: Atual Editora Ltda. 1981. 211p. 6 PARADINE, C.G.; RIVETT, B.H.P. Métodos Estatísticos para Tecnologistas. São Paulo: Ed. Polígono/ Editora da Universidade de São Paulo. 1974. 350p. PIMENTEL GOMES, F. Iniciação à Estatística. 6 ed. São Paulo; Livraria Nobel S.A. 1978.211p. SILVA, J.G.C. da. Estatística Básica. Versão preliminar. Instituto de Física e Matemática, Universidade Federal de Pelotas. Pelotas, 1992. 173p. SILVEIRA, Jr., P.S., MACHADO, A.A., ZONTA, E.P., SILVA, J.B. Curso de Estatística, vol.1. Pelotas: Editora Universitária, UFPEL. Pelotas, 1989.135p. SILVEIRA, Jr., P.S., MACHADO, A.A., ZONTA, E.P., SILVA, J.B. Curso de Estatística, vol.2. Pelotas: Editora Universitária, UFPEL. Pelotas, 1992.234p. SPIEGEL, M.R. Estatística. São Paulo: McGraw-Hill do Brasil. 1975.580p. TRIOLA, M. F. Introdução à Estatística, 9 ed. São Paulo: LTC. 2005. 662p. 7 Sumário 1. INTRODUÇÃO 12 1.1. Divisão da estatística 13 1.1.1. Estatística Descritiva: 13 1.1.2. Estatística Indutiva ou Inferencial. 13 2. POPULAÇÃO E AMOSTRA 15 2.1. População ou universo 15 2.2. Amostra 16 2.3. Técnicas de Amostragem 18 2.3.1. Amostragem aleatória simples 19 2.3.2. Amostragem sistemática 20 2.3.3. Amostragem estratificada 20 2.3.4. Amostragem por conglomerados 21 2.3.5. Amostragem de conveniência (não-probabilística) 21 3. Variável 23 3.1. Classificação das variáveis 23 3.2. Contínuas 23 3.3. Discretas 23 3.4. Nominais ou categóricas 23 3.5. Ordinais 24 4. Escalas de Mensuração 25 5. Análise Exploratória de Dados 26 5.1. Introdução 26 5.2. Tabelas 27 6. SÉRIES E GRÁFICOS ESTATÍSTICOS 29 6.1. Introdução 29 6.1.1. Séries Estatísticas 29 6.1.1.1. Séries Históricas, Cronológicas, Temporais ou Marchas 29 6.1.1.2. Séries Geográficas, Espaciais, Territoriais ou de Localização 30 6.1.1.3. Séries Conjugadas e Tabela de Dupla Entrada 30 6.1.1.4. Séries Específicas ou Categóricas 31 6.2. Gráficos Estatísticos 32 6.2.1. Gráficos de linha 32 6.2.2. Gráfico de colunas e gráfico de barras 32 6.2.3. Gráfico em setores (pizza) 33 6.2.4. Outros tipos de gráficos 34 6.2.4.1. Cartograma 34 6.2.4.2. Estereograma 34 6.2.4.3. Pictograma 34 7. DISTRIBUIÇÃO DE FREQÜÊNCIAS 35 7.1. Introdução 35 7.2. Distribuições por ponto ou valores. 35 8 7.3. Distribuições por classes ou intervalos 36 7.4. Elementos de uma distribuição de frequências 37 7.4.1. Classes 37 7.4.2. Limites de classe 37 7.4.3. Amplitude de um intervalo de classe, ou, simplesmente, intervalo de classe 37 7.4.4. Amplitude total da distribuição (AT) 38 7.4.5. Amplitude amostral (AA) 38 7.4.6. Ponto médio de uma classe (xi) 38 7.4.7. Freqüência simples ou freqüência absoluta ou, simplesmente, freqüência de uma classe ou de um valor individual 38 7.5. Tipos de frequências 38 7.5.1. Freqüências simples ou absolutas (fi) 38 7.5.2. Freqüências relativas (fri) 39 7.5.3. Freqüência acumulada (Fi) 39 7.5.4. Freqüência acumulada relativa (Fri) de uma classe 39 7.6. Apresentação de uma distribuição de freqüências 39 7.6.1. Distribuição de freqüências por pontos ou valores. 39 7.6.2. Distribuição de freqüências por classes ou intervalos 40 7.7. Gráficos de distribuições de frequências 41 7.7.1. Histograma de frequências 41 7.7.2. Polígono de frequência 42 7.7.3. Polígono de frequência acumulada 43 7.7.4. Gráfico stem-and-leaf (tronco e folhas) 43 8. MEDIDAS DE POSIÇÃO 45 8.1. Média aritmética 45 8.1.1. Média nas séries de dados não agrupados 45 8.1.2. Média nas séries de dados agrupados sem intervalo de classe 46 8.1.3. Média nas séries de dados agrupados com intervalos de classes 47 8.2.1. Moda nas séries de dados agrupados sem intervalos de classes 48 8.2.2. Moda nas series de dados com intervalos de classe 48 8.3. Mediana (Md) 49 8.3.1. Medianas nas series de dados sem intervalos de classe 49 8.3.2. Mediana nas séries de dados com intervalos de classe 50 8.4. Medidas de ordenamento e posição 51 8.4.1. Quartis 51 8.4.2. Centil ou Percentil 52 8.5. Que promédio usar? 53 9. MEDIDAS DE DISPERSÃO 54 9.1 Variância 54 9.2. Desvio padrão 56 9.2.1. Desvio padrão nas séries de dados não agrupados 56 9.2.1.1. Desvio padrão nas séries de dados agrupados sem intervalo de classe 57 9.2.1.2 Desvio padrão nas séries de dados agrupados com intervalos de classe 58 9 9.3. Coeficiente de variação 59 9.5. Amplitude entre quartis 59 9.6. Box-and-Whisker plots 60 Exercícios 61 Exercícios diversos 63 10. PROBABILIDADES 73 10.1. Entendendo a probabilidade 74 10.2. Experimento aleatório 74 10.3. Cálculo de probabilidades 76 10.4 Eventos mutuamente exclusivos 77 10.5. Eventos independentes 78 10.6. Regras das probabililidades 78 10.6.1. Regras da multiplicação 79 10.6.2. Regras da adição 79 10.7. Probabilidade condicional 81 10.8. Permutações 82 10.9. Combinações 83 Exercícios 85 11. Distribuições de probabilidade 87 11.1. Distribuições discretas de probabilidade 88 11.2. Distribuição binomial 88 11.2.1. Hipóteses do modelo Binomial 88 11.2.2. Propriedades da distribuição binomial 91 11.3. Distribuição de Poisson 93 11.3.1. Propriedades da distribuição de Poisson 96 11.4. Relação entre as distribuições Binomial e Poisson 96 Exercícios 98 11.5. Distribuições contínuas de probabilidade 100 11.5.1. Distribuição normal ou Gaussiana 100 11.5.2 - Propriedades da Distribuição Normal 100 11.5.3 - Distribuição Normal Padronizada 101 12. Distribuição amostral das médias 103 12.1. Teorema central do limite 104 12.2. Desvio padrão da média 104 12.3. Distribuição t de "Student" 105 12.3.1. Propriedades da distribuição t de "Student" 106 Exercícios Diversos 107 13 ESTIMAÇÃO ESTATÍSTICA 116 13.1. Estimação de parametros populacionais 116 13.2. Intervalo de confiança para a média populacional 117 13.2.1. Intervalo de confiança para a média populacional (µ) com o desvio padrão (σ) conhecido 117 10 13.2.2. Intervalo de confiança para a média populacional (µ) com o desvio padrão (σ) desconhecido. 118 13.3. Duas amostras independentes 119 13.3.1. Intervalo de confiança para a diferença entre duas médias populacionais 121 13.4. Teste t emparelhado 124 13.5. Determinação do tamanho da amostra 125 Exercícios 126 Exercicios diversos 128 14. TESTES DE HIPÓTESES 132 14.1. Hipótese estatística 132 14.2. Regra de decisão 133 14.3. Erros de decisão 134 14.4. Probabilidade dos erros de decisão 134 14.5. Valor P 136 14.6. Significância estatística versus importância científica 136 14.7. Testes unicaudal e bicaudal 137 14.8. Execução do teste de hipótese 138 Exercícios 139 15 TESTES PARA A COMPARAÇÃO ENTRE DUAS MÉDIAS 140 15.1. Fundamento dos testes de significância 140 15.2. Teste do valor da média 141 15.3. Comparação entre a média de uma amostra e a média da população ( conhecido) 142 15.4. Região crítica: 143 15.5. Teste t 144 15.6. Comparação entre a média de uma amostra ea média da população 145 15.7. Comparação entre duas variãncias testes de Fisher (F) 147 15.8. Comparação entre as medias de duas amostras independentes 149 15.9. Duas amostras de mesmo tamanho 149 15.10. Duas amostras de tamanhos diferentes 151 15.11. Comparação entre médias de duas amostras emparelhadas 153 15.12. Resumo da aplicação de testes para comparar duas séries de dado 156 15.13. Tamanho da amostra 156 Exercícios 158 Exercícios diversos 160 16. CORRELAÇÃO E REGRESSÃO 167 16.1. Correlação 167 16.1.1. Introdução 167 16.2. Padrões de associação 167 16.3. Indicadores de associação 168 16.4. Coeficiente de correlação 171 16.5. Hipóteses básicas 171 16.7. Distribuição amostral de r (quando ρ = 0) 172 11 16.8. Distribuição amostral de r (quando ρ ≠ 0) 174 16.9. Propriedades de R 175 16.20. Regressão 175 16.21. Estimativa dos parâmetros de regressão 178 16.22. Estimativa da variância do termo erro 179 16.23. Distribuições das estimativas 182 16.23.1. Distribuição do estimador “b” 182 16.24. Decomposição da soma dos quadrados 184 16.24.1. Decomposição dos desvios 184 16.24.2. Cálculo das variações 185 16.25. Intervalos de confiança 185 16.25.1. Intervalo para o coeficiente linear (α) 185 16.25.2. Intervalo para o coeficiente angular (β) 185 16.25.3. Intervalo para previsões 186 16.26. Testes de hipóteses 187 16.26.1. Teste para a existência da regressão 188 16.26.2. Teste para o coeficiente linear 188 16.27. Coeficiente de determinação ou de explicação 189 Exercícios 190 12 1. INTRODUÇÃO Objetivos 1. Definir “estatística” 2. Listar algumas razões para o estudo da estatística 3. Definir variável 4. Distinguir entre: • Estatística descritiva e inferencial • Variável dependente e variável independente 5. Definir variáveis nominal, ordinal, intervalar e de razão. 6. Conceituar variável aleatória 7. Distinguir entre: • Variáveis qualitativas s quantitativas • Variáveis discretas e contínuas Por onde quer que se olhe ou escute uma coleção de números são normalmente enunciados como estatísticas. Estes números referem-se aos mais diversos campos de atividades: esportes, economia, finanças, etc. Assim tem-se, por exemplo: * O número de carros vendidos no país aumentou em 30%. * A taxa de desemprego atinge, hoje, 7,5%. * As ações da Telebrás subiram R$ 1,5, hoje. * Resultados do Carnaval no trânsito: 145 mortos, 2430 feridos. Um número é denominado uma estatística (singular). No fechamento da bolsa as ações da Vale foram cotadas a R$ 45.50. As vendas de uma empresa no mês constituem uma estatística. Já uma coleção de números ou fatos é denominado de estatísticas (plural). Por exemplo, As vendas da empresa Picuínhas totalizaram: 2,5 milhões em janeiro, 2,7 em fevereiro e 3.1 em março. No entanto o termo Estatística tem um sentido muito mais amplo, do que apenas números ou coleção de números. A Estatística pode ser definida como: A ciência de coletar, organizar, apresentar, analisar e interpretar dados numéricos com o objetivo de tomar melhores decisões. 13 Assim como advogados possuem “regras de evidência” e contabilistas possuem “práticas comumente aceitas”, pessoas que tratam com dados numéricos seguem alguns procedimentos padrões. Alguns destes métodos serão vistos nesta disciplina e outros em uma segunda disciplina. Não esquecendo que mesmo duas disciplinas de Estatística não esgotam o assunto, ou seja, elas dão apenas uma idéia dos procedimentos e técnicas existentes para se lidar com dados numéricos. 1.1. Divisão da estatística A estatística divide-se em três (quatro) grandes áreas de conhecimento: Teoria da Amostragem, Métodos Descritivos e Inferência Estatística – a quarta grande área é a Probabilidade, porém, segundo alguns autores, Probabilidade não é parte da Estatística, mas sim um ramo da Matemática. Toda a Estatística é baseada em eventos aleatórios e sua ocorrência é baseada em probabilidades. Deste modo é impossível estudar a Estatística sem possuir conhecimentos probabilísticos. 1.1.1. Estatística descritiva: Os procedimentos usados para organizar, resumir e apresentar dados numéricos. Conjuntos de dados desorganizados são de pouco ou nenhum valor. Para que os dados se transformem em informação é necessário organizá-los, resumi-los e apresentá-los. O resumo de conjuntos de dados é feito através das medidas e a organização e apresentação através das distribuições de freqüências e dos gráficos ou diagramas. 1.1.2. Estatística Indutiva ou Inferencial. Consiste em inferir (deduzir ou tirar conclusões a respeito das) propriedades de um universo a partir de uma amostra. O processo de generalização, que é característico do método indutivo, está associado a uma margem de incerteza. A medida da incerteza é tratada mediante técnicas e métodos que se fundamentam na Teoria das Probabilidades. Dessa forma, poderíamos resumir os passos necessários para se atingir bons resultados ao realizar um experimento: ● Planejar o processo amostral e experimental. ● Obter inferências sobre a população. 14 ● Estabelecer níveis de incerteza envolvidos nessas inferências Técnicas de Amostragem Análise Descritiva Inferência Estatística População características Amostra Informações contidas nos dados Conclusões sobre as características da população 15 2. POPULAÇÃO E AMOSTRA Objetivos 1. Distinguir entre: • População e amostra • Parâmetro e estatística 2. Explicar porque o método de seleção de uma amostra é importante 3. Explicar as razões para o uso de amostras 4. Definir amostra aleatória 5. Selecionar uma amostra empregando a tabela de números aleatórios Para a realização de inferência estatística e imprescindível o conhecimento de dois conceitos básicos: a população e a amostra. É a partir deles que são extraídos os dados que dão origem aos cálculos estatísticos e que permitem descrevê-las sob diferentes aspectos. 2.1. População ou universo: Consiste em todo o conjunto de indivíduos (pessoas, animais ou coisas) que apresentam uma ou mais características em comum susceptíveis de serem observadas e/ou determinadas. Por exemplo, peso dos habitantes de uma cidade. Cada habitante tem um peso. O conjunto de pesos de todos os seus habitantes constitui uma "população de pesos". Em estatística, a população se refere a um conjunto de seres ou a um conjunto de observações. Os valores descritivos e verdadeiros da população são chamados parâmetros. Os valores dos parâmetros devem ser estimados a partir dos dados das amostras. São simbolizados por caracteres gregos: µ = media da população. σ = desvio padrão da população. Assim, a população de pesquisa é um conjunto de indivíduos delimitados por características como: 1. O conjunto das rendas de todos os habitantes de Rio Verde-GO; 2. O conjunto de todas as notas dos alunos de Estatística; 3. O conjunto das alturas de todos os alunos da Universidade de Rio Verde; etc. Um levantamento efetuado sobre toda uma população é dito de levantamento censitário ou simplesmente censo. 16 Fazer levantamentos, estudos, pesquisas, sobre toda uma população (censo) é, em geral, muito difícil. Isto se deve a vários fatores. O principal é o custo. Um censo custa muito caro e demanda um tempo considerável para ser realizado. Assim, normalmente, se trabalha com partes da população denominadas de amostras. Uma amostra pode ser caracterizada como: Uma porção ou parte de uma população de interesse. 2.2. Amostra: É um subconjunto selecionado da população na qual se pretende estudar suas características, A pesquisa biomédica é usualmente realizada em amostras. Os dados de observação registrados na amostra fornecem informações sobre a população. O processo pelo qual se tira conclusões sobre a população, com base em resultados obtidos da amostra, é chamado inferência estatística. Os valores obtidos na amostra, calculados ou estimados, são denominados estatísticas. A estatística é uma estimativa do valor verdadeiro da população (parâmetro). Assim a média calculada da amostra e uma estatística e como tal, uma estimativa da média verdadeira da população. As estatísticas são simbolizadas por caracteres latinos. O processo pelo qual o parâmetro populacional é estimado pela estatística é chamado estimação, Em virtude da variação dentro da população, diferentes amostras tiradas de uma mesma população diferem umas das outras. Por isso, com base numa única amostra, é possível apenas estimar os atributos de populações; o investigador jamais os conhecerá exatamente os valores dos parâmetros, a não ser que examine toda a população. Uma estimação eficiente do parâmetro requer uma estatística não viciada. Vício (viés, biased, tendenciosidade) é um processo em qualquer sistematicamente dos valores verdadeiros. Na estimação de parâmetros populacionais, entre os muitos cuidados a serem observados, dois são de particular importância. 3. Definir a população a ser amostrada: A abrangência de uma população é determinada pelas características do fenômeno estudado. Essa definição deve ser criteriosa, caso contrario a amostra poderá ser inadequada. Às vezes essa definição é relativamente fácil, por exemplo, a população de trabalhadores que exercem suas atividades em determinada fábrica. Mais complexa é a situação para se estudar 17 diabéticos que procuram postos de saúde para fazer controle. 4. Utilizar amostras representativas da população: As amostras devem possuir as mesmas características básicas da população, no que diz respeito ao fenômeno que se deseja estudar. Para atender a esse requisito, usam-se amostras aleatórias representativas da população (v adiante). Procedendo-se dessa forma, elimina-se a tendenciosidade (viés) pessoal na constituição das amostras, eliminando a escolha intencional para a comprovação de certa hipótese. No entanto, deve ser lembrado que o processo de amostragem, mesmo bem elaborado e executado, traz em si a possibilidade do erro amostral devido à variabilidade, por obra do acaso e ao fato de apenas parte da população ser examinada. Utilizar amostras para se ter conhecimento sobre populações é realizado intensamente na Agricultura, Política, Negócios, Marketing, Governo, etc., como se podem ver pêlos seguintes exemplos: ● Antes da eleição diversos órgãos de pesquisa e imprensa ouvem um conjunto selecionado de eleitores para ter uma idéia do desempenho dos vários candidatos nas futuras eleições. ● Uma empresa metal-mecânica toma uma amostra do produto fabricado em intervalos de tempo especificados para verificar se o processo está sob controle e evitar a fabricação de itens defeituosos. ● O IBGE faz levantamentos periódicos sobre emprego, desemprego, inflação, etc. ● Redes de rádio e Tv se utilizam constantemente dos índices de popularidade dos programas para fixar valores da propaganda ou então modificar ou eliminar programas com audiência insatisfatória. ● Biólogos marcam pássaros, peixes, etc. para tentar prever e estudar seus hábitos. O processo de escolha de uma amostra da população é denominado de amostragem. Os problemas de amostragem podem ser mais ou menos complexos, dependendo das populações e das variáveis que se deseja estudar. Na indústria, para efeito de controle de qualidade, as amostras são freqüentemente retiradas dos produtos e materiais. Nela os problemas de amostragem são mais simples de resolver. Por outro 18 lado, em pesquisas sociais, econômicas ou de opinião, a complexidade dos problemas de amostragem é normalmente bastante grande. Em tais casos, deve-se ter extremo cuidado quanto à caracterização da população e ao processo usado para selecionar a amostra, a fim de evitar que os elementos constituam um conjunto com características fundamentalmente distintas das da população. Em resumo, a obtenção de soluções adequadas para o problema de amostragem exige, em geral, muito bom senso e experiência. Além disso, é muitas vezes conveniente que o trabalho de elaboração do plano de amostragem seja baseado em informações de um especialista do assunto em questão. Cuidado especial deve ser tomado nas conclusões em situações em que a amostra coletada não seja extraída exatamente da população de interesse (população alvo) e sim de uma população mais acessível, conveniente, nesse caso chamada de população amostrada. Veja os exemplos: 1) Suponha que um sociólogo deseja entender os hábitos religiosos dos homens com 20 anos de idade em certo país. Ele extrai uma amostra de homens com 20 anos de uma grande cidade para estudar. Neste caso, tem-se: População alvo – homens com 20 anos do país; População amostrada – homens com 20 anos da cidade grande amostrada. Então, ele pode fazer conclusões válidas apenas para os elementos da grande cidade (população amostrada), mas pode usar o seu julgamento pessoal para extrapolar os resultados obtidos para a população alvo, com muita cautela e certas reservas. 2) Um pesquisador agrícola está estudando a produção de certa variedade de trigo em determinado estado. Ele tem a sua disposição cinco fazendas espalhadas pelo estado, nas quais ele pode plantar trigo e observar a produção. A população amostrada, neste caso, consiste das produções de trigo nas cinco fazendas, enquanto a população alvo consiste das produções de trigo em todas as fazendas do estado. 2.3. Técnicas de Amostragem Existem dois tipos de amostragem: probabilística e não-probabilística. A amostragem será probabilística se todos os elementos da população tiverem probabilidade conhecida, e diferente de zero, de pertencer à amostra. 19 Caso contrário, a amostragem será não-probabilística. Uma amostragem não- probabilística é obtida quando o acesso a informações não é tão simples ou os recursos forem limitados, assim o pesquisador faz uso de dados que estão mais a seu alcance, é a chamada amostragem por conveniência. Por exemplo, podemos realizar um estudo para avaliar a qualidade do serviço prestado por uma operadora de telefonia celular. Caso tenhamos recursos suficientes, podemos realizar um plano amostral bastante abrangente de toda a população de usuários do serviço. Isso caracteriza uma amostra probabilística. Mas se por restrições orçamentárias ou de outra ordem não for possível obter uma amostra tão numerosa ou ela seja de difícil acesso, podemos restringir nossa amostra a uma pequena região delimitada de fácil acesso e de custo reduzido, usuários de uma cidade, por exemplo. Essa é uma amostragem não-probabilística. Segundo essa definição, a amostragem probabilística implica sorteio com regras bem determinadas, cuja realização só será possível se a população for finita e totalmente acessível. A utilização de uma amostragem probabilística é a melhor recomendação que se deve fazer no sentido de garantir a representatividade da amostra, pois o acaso é o único responsável por eventuais discrepâncias entre população e amostra. No caso em que a única possibilidade é o uso de uma amostragem não-probabilística, deve-se ter a consciência de que as conclusões apresentam alguma limitação. A seguir, apresentamos algumas das principais técnicas de amostragem probabilística. 2.3.1. Amostragem aleatória simples Esse tipo de amostragem, também chamada simples ao acaso, casual, elementar, randômica etc., é equivalente a um sorteio lotérico. Nela, todos os elementos da população têm igual probabilidade de pertencer à amostra e todas as possíveis amostras têm igual probabilidade de ocorrer. Sendo N o número de elementos da população e n o número de elementos da amostra, cada elemento da população tem probabilidade n/N de pertencer à amostra. A essa relação n/N denomina-se fração de amostragem. Por outro lado, sendo a amostragem feita sem reposição, supomos, em geral, que existem N n | | | \ ¹ possíveis amostras, todas igualmente prováveis. 20 Na prática, a amostragem simples ao acaso pode ser realizada numerando-se a população de 1 a N, sorteando-se, a seguir, por meio de um dispositivo aleatório qualquer, n números dessa seqüência, os quais correspondem aos elementos sorteados para a amostra. 2.3.2. Amostragem sistemática Quando os elementos da população se apresentam ordenados e a retirada dos elementos da amostra é feita periodicamente, temos uma amostragem sistemática. Assim, por exemplo, em uma linha de produção, podemos, a cada dez itens produzidos, retirar um para pertencer a uma amostra da produção diária. Assim, teremos uma produção total de N itens e extrairemos uma amostra de tamanho n, selecionando as unidades a cada dez itens. Para seleção do primeiro item, um número entre 1 e 10 é sorteado aleatoriamente e os demais subseqüentes são obtidos sistematicamente.Por exemplo, as unidades sorteadas poderão ser 8, 18, 28, 38, 48, e assim por diante, repetindo-se o procedimento até o N-ésimo item. Denomina-se k = N/n como a razão de amostragem. No exemplo, portanto, k = 10. A principal vantagem da amostragem sistemática está na grande facilidade na determinação dos elementos da amostra. O perigo em adotá-la está na possibilidade da existência de ciclos de variação da variável de interesse, especialmente se o período desses ciclos coincidir com o período de retirada dos elementos da amostra. Por outro lado, se a ordem dos elementos na população não tiver qualquer relacionamento com a variável de interesse, então a amostragem sistemática tem efeitos equivalentes à amostragem casual simples, podendo ser utilizada sem restrições. 2.3.3. Amostragem estratificada Muitas vezes, a população se divide em subpopulações ou estratos, sendo razoável supor que, de estrato para estrato, a variável de interesse apresente um comportamento substancialmente diverso, tendo, entretanto, comportamento razoavelmente homogêneo dentro de cada estrato. Em tais casos, se o sorteio dos elementos da amostra for realizado sem se levar em consideração a existência dos estratos, pode acontecer que os diversos estratos não sejam convenientemente representados na amostra, a qual seria mais influenciada pelas características da variável nos estratos mais favorecidos pelo sorteio. Evidentemente, a tendência à ocorrência de 21 tal fato será tanto maior quanto menor o tamanho da amostra. Para evitar isso, pode-se adotar uma amostragem estratificada. Constituem exemplos em que uma amostragem estratificada parece ser recomendável, a estratificação de uma cidade em bairros, quando se deseja investigar alguma variável relacionada à renda familiar; a estratificação de uma população humana em homens e mulheres, ou por faixas etárias; a estratificação de uma população de estudantes conforme suas especificações etc. 2.3.4. Amostragem por conglomerados Neste método, em vez da seleção de unidades da população, são selecionados conglomerados dessas unidades. Essa é uma alternativa para quando não existe o cadastro das unidades amostrais. Se a unidade de interesse, por exemplo, for um aluno, pode ser que não exista um cadastro de alunos, mas sim de escolas. Portanto, podem ser selecionadas escolas e nelas investigar todos os alunos. Esse tipo de amostragem induz indiretamente aleatoriedade na seleção das unidades que formam a amostra e tem a grande vantagem de facilitar a coleta de dados. 2.3.5. Amostragem de conveniência (não-probabilística) A amostra de conveniência é formada por elementos que o pesquisador reuniu simplesmente porque dispunha deles. Então, se o professor tomar os alunos de sua classe como amostra de toda a escola, está usando uma amostra de conveniência. Os estatísticos têm muitas restrições ao uso de amostras de conveniência. Mesmo assim, as amostras de conveniência são comuns na área de saúde, em que se fazem pesquisas com pacientes de uma só clínica ou de um só hospital. Mais ainda, as amostras de conveniência constituem, muitas vezes, a única maneira de estudar determinado problema. De qualquer forma, o pesquisador que utiliza amostras de conveniência precisa de muito senso crítico. Os dados podem ser tendenciosos. Por exemplo, para estimar a probabilidade de morte por desidratação não se deve recorrer aos dados de um hospital. Como só são internados os casos graves, é possível que a mortalidade entre pacientes internados seja maior do que entre pacientes não-internados. Conseqüentemente, a amostra de conveniência constituída, nesse exemplo, por pacientes internados no hospital, seria tendenciosa. 22 Finalmente, o pesquisador que trabalha com amostras sempre pretende fazer inferência, isto é, estender os resultados da amostra para toda a população. Então é muito importante caracterizar bem a amostra e estender os resultados obtidos na amostra apenas para a população da qual a amostra proveio. Exemplos de planos amostrais: Exemplo 1: Uma agência de seguros tem N = 100 clientes comerciantes. Seu proprietário pretende entrevistar uma amostra de 10 clientes para levantar possibilidades de melhora no atendimento. Escolha uma amostra aleatória simples de tamanho n = 10. Primeiro passo – atribuir a cada cliente um número entre 1 e 100. Segundo passo – recorrer a um gerador de números aleatórios de uma planilha eletrônica para selecionar aleatoriamente 10 números de 1 a 100. Os clientes identificados pelos números selecionados compõem a amostra. Exemplo 2: Uma operadora de celular tem um arquivo com N = 5 000 fichas de usuários de um serviço e é selecionada, sistematicamente, uma amostra de n = 1 000 usuários. Nesse caso, a fração de amostragem é igual a n/N = 1 000/5 000 e assim podemos definir k = 5 (N/n = 5 000/1 000 = 5), ou seja, teremos 5 elementos na população para cada elemento selecionado na amostra. Na amostragem sistemática, somente o ponto de partida é sorteado dentre as 5 primeiras fichas do arquivo. Admitamos que foi sorteado o número 3, então a amostra será formada pelas fichas 3 , 8, 13 , 18, . . . , 4993, 4998. 23 3. VARIÁVEL É a característica que se deseja estudar de uma dada população. Ex.: Cor dos olhos dos moradores da cidade de Rio Verde - GO, altura dos alunos da FESURV, resistência muscular localizada para exercícios abdominais em obesos etc. 3.1. Classificação das variáveis As variáveis são classificadas segundo suas características particulares em quatro categorias. Tais classificações não são simplesmente didáticas, mas assumem papel importante na estatística, pois terão tratamentos diferentes como será visto adiante. 3.2. Contínuas: são aquelas que podem assumir qualquer valor dentro de um intervalo de interesse. Os dados advindos deste tipo de variável são ditos contínuos. Ex.: peso, estatura, distância percorrida em um teste de esforço etc. Em geral estão associadas a medidas que tenham unidade (m, kg, l, m/s etc.) Exemplo 1: (variável quantitativa contínua) População: moradores de uma determinada cidade. Variável: estatura dos indivíduos. 3.3. Discretas: são aquelas que só podem assumir valores inteiros dentro de um intervalo de interesse. Os dados discretos são resultados da contagem do número de itens referente à variável. Ex.: número de repetições executadas em uma tarefa, número de filhos de um casal, quantidade de aves abatidas por um frigprífico, etc. Exemplo 2: (variável quantitativa discreta) População: hospitais de uma determinada cidade. Variável: número de leitos (0, 1, 2,...). 3.4. Nominais ou categóricas: são aquelas que só podem assumir alguns estados ou categorias e geralmente não são numéricas: Os dados nominais surgem quando se definem categorias e se conta suas observações. Ex.: Sexo de uma 24 população (masculino e feminino) queixas de dor lombar (sim e não), cor dos olhos de uma população (azuis, castanhos, pretos, verdes) etc. Exemplo 3: (variável qualitativa nominal) População: moradores de uma cidade. Variável: cor dos olhos (pretos, castanhos, azuis e verdes). Exemplo 4: (variável qualitativa ordinal) População: moradores de um condomínio. Variável: grau de instrução (fundamental médio e superior). 3.5. Ordinais: São aquelas que se relacionam a avaliações subjetivas segundo preferência ou desempenho. Os dados ordinais constituem valores relativos, atribuídos para denotar ordem. Ex.: primeiro, segundo, terceiro, quarto, o melhor, o maior etc. 25 4. ESCALAS DE MENSURAÇÃO Existem quatro formas de mensuração ou tipos ou níveis de medidas ou ainda, escalas. Elas são conhecidas como nominal, ordinal, intervalar e razão. • Nominal: Na classificação tenta-se separar conjuntos de elementos com respeito a certas categorias, tomando decisões sobre quais elementos são mais parecidos e quais são diferentes. Por exemplo: religião, sexo, estado civil. • Ordinal: O nível ordinal é o nível nominal onde se pode ordenar as características ou categorias. A única diferença entre os dois níveis é a relação de ordem que se pode estabelecer entre as categorias. A avaliação através de conceitos é feita por uma escala ordinal. Outros exemplos: classe social, nível de instrução. • Intervalar: Pode ser utilizada para se referir as situações em que se pode, não somente ordenar objetos com respeito ao grau que eles possuem certa característica, mas também indicar a exata distância entre eles. A escala de medida intervalar é uma escala nominal em que a distância entre as categorias, ao contrário da ordinal, é sempre a mesma. As escalas de medir temperatura como Celsius e Fahrenheit são exemplos de escalas de intervalo. Não se pode afirmar que uma temperatura de 40º é 2 vezes mais quente que uma de 20º, porém a diferença entre 20º e 40º é a mesma que entre 75º e 95º. Isto ocorre, pois não existe zero absoluto, ié, 0º não indica ausência de calor e é apenas um ponto de referência. Escores padronizados são exemplos deste tipo de medida. • Nível de razão: É o mais alto nível de medida. Caracteriza-se por apresentar todas as características do nível intervalar mais um zero absoluto. O zero absoluto aqui é entendido como ausência da característica e a comparação de valor tem sentido. Por exemplo: Peso. 0 kg indica ausência de peso e 20 kg é duas vezes mais pesado que 10 kg. 26 5. ANÁLISE EXPLORATÓRIA DE DADOS 5.1. Introdução As técnicas estatísticas clássicas foram concebidas para serem as melhores possíveis, desde que se assuma um conjunto de pressupostos rígidos. Sabe-se que essas técnicas se comportam deficientemente à medida que este conjunto de pressupostos não é satisfeito. As técnicas de Análise Exploratória de Dados contribuem para aumentar a eficácia da análise estatística, de forma fácil e rápida. Geralmente, devem ser aplicadas antes da formulação das hipóteses estatísticas para identificar padrões e características dos dados. Uma amostra é um subconjunto de uma população, necessariamente finito, pois todos os seus elementos são examinados para efeito da realização do estudo estatístico desejado. É intuitivo que, quanto maior a amostra, mais precisas e confiáveis devem ser as induções realizadas sobre a população. Levando esse raciocínio ao extremo, concluiríamos que os resultados mais perfeitos seriam obtidos pelo exame completo de toda a população, ao qual costuma-se denominar Censoou Recenseamento. Mas essa conclusão, na prática, muitas vezes não se verifica. O emprego de amostras pode ser feito de tal modo que se obtenham resultados confiáveis. Ocorre, em realidade, que diversas razões levam, em geral, à necessidade de recorrer-se apenas aos elementos de uma amostra. Entre ela, podemos citar o custo do levantamento de dados e o tempo necessário para realizá-lo, especialmente se a população for muito grande. O objetivo da Estatística Descritiva é resumir as principais características de um conjunto de dados por meio de tabelas, gráficos e resumos numéricos. A análise estatística deve ser extremamente cuidadosa ao escolher a forma adequada de resumir os dados. Apresentamos na tabela a seguir um resumo dos procedimentos da Estatística Descritiva. 27 Tabela 1: Principais técnicas de estatística descritiva Tabelas de Freqüência Apropriada para resumir um grande conjunto de dados, agrupando informações em categorias. As classes que compõem a tabela podem ser categorias pontuais ou por intervalos. Gráficos Possibilita uma visualização das principais características da amostra. Alguns exemplos de gráficos são: diagrama de barras, diagrama em setores, histograma, Box-plot, ramo-e-folhas, diagrama de dispersão. Medidas Descritivas Por meio de medidas ou resumos numéricos podemos levantar importantes informações sobre o conjunto de dados, tais como: a tendência central, variabilidade, simetria, valores extremos, valores discrepantes, etc. Um dos objetivos da Estatística é sintetizar os valores que uma ou mais variáveis podem assumir, para que tenhamos uma visão global da variação dessa ou dessas variáveis. Isso se consegue, inicialmente, apresentando esses valores em tabelas e gráficos, que fornecem rápidas e seguras informações a respeito das variáveis. 5.2. Tabelas Uma tabela resume os dados por meio do uso de linhas e colunas, nas quais são inseridos os números. Uma tabela compõe-se de: ● Corpo – conjunto de linhas e colunas que contém informações sobre a variável em estudo. ● Cabeçalho – parte superior da tabela que especifica o conteúdo das colunas. ● Coluna Indicadora – parte da tabela que especifica o conteúdo das linhas. ● Linhas – retas imaginárias que facilitam a leitura, no sentido horizontal, de dados que se inscrevem nos seus cruzamentos com as colunas. ● Casas ou Células – espaço destinado a um só número. ● Título – conjunto de informações (as mais completas possíveis) localizado no topo da tabela. Existem ainda, elementos complementares que são: a fonte, as notas e as chamadas, os quais devem ser colocados no rodapé da tabela. As notas devem esclarecer aspectos relevantes do levantamento dos dados ou da apuração. As chamadas dão esclarecimentos sobre os dados. Devem ser feitas de algarismos arábicos escritos entre parênteses, e colocados à direita da coluna. 28 Exemplo: Tabela 2: População brasileira residente, com 15 anos e mais, segundo o estado conjugal, de acordo com o censo demográfico de 1980. Estado conjugal Freqüência Percentual Solteiros1 25 146 484 34,18 Casados2 41 974 865 57,06 Separados 1 816 046 2,47 Viúvos 3 616 046 4,92 Sem declaração 1 005 234 1,37 Observação: Nas casas ou células devemos colocar: Um traço horizontal ( __ ) quando o valor é zero, não só quanto a natureza das coisas, como quanto ao resultado do inquérito; Três pontos ( ... ) quando não temos dados; Ponto de interrogação ( ? ) quando temos dúvida quanto a exatidão de um valor; Zero ( 0 ) quando o valor é muito pequeno para ser expresso pela unidade utilizada. Estão computados, como separados, os desquitados e os divorciados. 1 Exclusive as pessoas solteiras, vivendo em união consensual estável. 2 Inclusive 4 939 528 pessoas vivendo em união consensual estável. 29 6. SÉRIES E GRÁFICOS ESTATÍSTICOS 6.1. Introdução Foi estabelecido que a etapa final do método estatístico envolve a análise e interpretação de números, obtidos na etapa de coleta de dados. O conjunto de números proveniente da coleta de dados, sem qualquer manipulação na sua forma de apresentação, é denominado de dados brutos. Nesta forma de apresentação, ainda sem qualquer tipo de processamento, a tentativa de análise e interpretação de uma característica, além de extremamente árdua, pode confundir ao invés de esclarecer, quando se considera nossa limitada capacidade de lidar com um grande conjunto de dados. Surge então a necessidade de organização e redução. O processamento dos dados torna-se necessário para reduzir a quantidade de detalhes, facilitando a identificação da essência dos dados. Tanto os resumos visuais, utilizados no que denominamos de apresentação gráfica, quanto os resumos numéricos, provenientes das técnicas de apresentação tablar, proporcionam facilidades na identificação das características mais importantes dos dados. Este capítulo tem por objetivo apresentar os principais conceitos envolvidos na apresentação de dados nas formas tabular e gráfica. 6.1.1. Séries Estatísticas Toda tabela que apresenta a distribuição de um conjunto de dados estatísticos em relação à época, local ou espécie, é denominada de séries estatísticas. Em função dos fatores apontados, as séries numéricas podem ser classificadas em quatro grandes classes: históricas, geográficas, conjugadas e específicas. Nesta última classe, podemos enquadrar um tipo especial de representação de dados estatísticos: a distribuição de frquencias. 6.1.1.1. Séries Históricas, Cronológicas, Temporais ou Marchas Descrevem os valores da variável, em determinado local, discri minados segundo intervalos de tempo vari áveis. 30 Exemplo Efetivo de rebanhos bovinos (cabeças) Rio Verde-GO, 2004-2010 Ano Cabeças (1.000) 2004 325 2005 343 2006 320 2007 375 2008 390 2009 412 2010 400 Fonte: Seplan-GO 6.1.1.2. Séries Geográficas, Espaciais, Territoriais ou de Localização Descrevem os val ores da variável, em determinado instante, discriminados segundo regiões. Exemplo Produção mundoal de soja, Safra 2010/2011 País Área Colhida (mil hectares) Participação % Estados Unidos 31.006 30,2 Brasil 24.200 23,5 Argentina 18.300 17,8 Índia 9.400 9,1 China 8.520 8,3 Paraguai 2.840 2,8 Canadá 1.477 1,4 Ucrânia 1.037 1,0 Rússia 1.036 1,0 Demais Países (33) 5.007 4,9 Área Colhida Total 102.823 100,0 Fonte: IBGE 6.1.1.3. Séries Conjugadas e Tabela de Dupla Entrada Muitas vezes temos necessidade de apresentar, em uma única tabel a, a variação de valores de mais de uma vari ável, isto é, fazer uma conj ugação de duas ou mais séri es. Conj ugando duas séries em uma única tabela, obtemos uma tabel a de dupl a entrada. Em uma tabela desse ti po ficam criadas duas ordens de classificação: uma horizontal (linha) e uma vertical (coluna). 31 Exemplo: Terminais telefônicos em serviço 1991-93 REGIÕES 1991 1992 1993 Norte Nordeste Sudeste Sul Centro-Oeste 342.938 1.287.813 6.234.501 1.497.315 713.357 375.678 1.379.101 6.729.467 1.608.989 778.925 403.494 1486.649 7231.634 1.746.232 884.882 FONTE: Ministério das Comunicações 6.1.1.4. Séries Específicas ou Categóricas Descrevem os valores da variável, em determinado tempo e local, discriminados segundo especificações ou categorias. Exemplo: Efetivo da pecuária do Estado de Goiás Espécies Cabeças Aves 55.156.362 Codornas 243.150 Galináceos 54.913.212 Rebanho de Asininos 6.084 Rebanho Bovino 21.347.881 Rebanho de Bubalinos 32.656 Rebanho de Caprinos 39.737 Rebanho de Equinos 428.367 Rebanho de Muares 42.530 Rebanho de Ovinos 201.173 Rebanho de Suínos 2.046.727 Rebanho de Vacas Ordenhadas 2.479.869 Fonte: SEPLAN-GO 32 6.2. Gráficos Estatísticos Os gráficos constituem uma forma clara e objetiva de apresentar dados estatísticos. A intenção é a de proporcionar aos leitores em geral a compreensão e a veracidade dos fatos. De acordo com a característica da informação precisamos escolher o gráfico correto. Os mais usuais são: gráfico de segmentos, gráfico de barras e gráfico de setores 6.2.1. Gráficos de linha – útil quando se deseja representar a evolução de diversas variáveis ao longo de vários momentos de tempo. É um grá fico de duas dimensões formado por dois eixos perpendiculares. Em que o tempo é representado no eixo horizontal X e os resultados das variáveis no eixo vertical Y. Exemplo Uma locadora de filmes em DVD registrou o número de locações no 1º semestre do ano de 2008. Os dados foram expressos em um gráfico de segmentos 6.2.2. Gráfico de colunas e gráfico de barras – apresentam os resultados por meio do desenho de diversas barras. Em que cada categoria da variável em estudo é associada a uma barra e o comprimento da barra diz respeito ao resultado indicado para a categoria. Pode ser usada também em representações envolvendo diversas variáveis. Acompanhadas em diversos momentos de tempo Os exemplos a seguir mostram o consumo de energia elétrica no decorrer do ano de 2005 de uma família 33 6.2.3. Gráfico em setores (pizza) – composto de um círculo repartido em n fatias. Com tamanhos proporcionais à ocorrência da variável nos resultados da pesquisa. Representando um certo instante no tempo. Sugere-se que seja aplicado em variáveis com no máximo 8 categorias. O gráfico a seguir mostrará a preferência dos clientes de uma locadora quanto ao gênero dos filmes locados durante a semana 6.2.4. Outros tipos de gráficos 6.2.4.1. Cartograma: Utilizado para representar mapas; 6.2.4.2. Estereograma: 6.2.4.3. Pictograma: Utilizado para Exemplos Cartograma Pictograma Outros tipos de gráficos Utilizado para representar mapas; tereograma: Utilizado para representar volume; : Utilizado para representar figuras Cartograma Estereograma Ficção 22% Aventura 19% Comédia 25% Terror 15% Guerra 14% Outros 5% 34 35 7. DISTRIBUIÇÃO DE FREQÜÊNCIAS 7.1. Introdução Objetivos 1. Construir uma tabela de freqüência que inclua classes, limites de classe freqüência simples, freqüências relativa, freqüência acumulada e freqüência acumulada relativa. 2. Interpretar uma tabela de freqüências. Para se trabalhar com grandes conjuntos de dados é necessário inicialmente agrupar estes dados. O agrupamento é feito em tabelas, denominadas de distribuições de freqüências. Para se construir uma distribuição de freqüências é comum fazer a distinção entre dois tipos de variáveis. A variável (ou conjunto) discreta (valores que são resultados de contagem) e a variável (ou conjunto) contínua (valores que são resultados de uma medida). Em geral variáveis discretas são agrupadas em distribuições por ponto ou valores e variáveis contínuas em distribuições por classes ou intervalos. A separação não é rígida e depende basicamente dos dados considerados. Poderá ser necessário usar uma distribuição por classes ou intervalos mesmo quando a variável é discreta. 7.2. Distribuições por ponto ou valores. Considere-se um conjunto de valores resultados de uma contagem. Poderia ser, por exemplo, o número de irmãos dos alunos da turma U, disciplina de Estatística. Número de irmãos dos alunos da turma U - disciplina Estatística 0 1 1 6 3 1 3 1 1 0 4 5 1 1 1 0 2 2 4 1 3 1 2 1 1 1 1 5 5 6 4 1 1 0 2 1 4 3 2 2 1 0 2 1 1 2 3 0 1 0 Esta coleção de valores não constitui informação, mas pode ser transformada em informação mediante sua representação em uma distribuição de freqüências por pontos ou valores. Para tal, colocase o conjunto em uma tabela em que a coluna da esquerda é representada pelos diferentes números ordenados (os pontos ou valores) e a coluna da 36 direita pelo número de vezes que cada valor se repetiu (as freqüências simples ou absolutas). Para o exemplo, na tabela três, tem-se: Tabela 03 - Distribuição de freqüências por ponto ou valores do número de irmãos dos alunos da turma U. Disciplina Estatística. Número de irmãos Número de alunos 0 7 1 21 2 8 3 5 4 4 5 3 6 2 Σ 50 7.3. Distribuições por classes ou intervalos Considere-se um conjunto de valores resultados de uma medida. Poderia ser, por exemplo, a idade dos alunos da turma U da disciplina de Estatística. Idade (em meses) dos alunos da turma U - Disciplina Estatística 230 234 276 245 345 240 270 310 368 369 334 268 288 336 299 236 239 355 330 247 287 344 300 244 303 248 251 265 246 266 240 320 308 299 312 324 289 320 264 275 252 298 315 255 274 264 263 230 303 281 Este conjunto de valores, obviamente não pode ser apresentado da mesma forma que o anterior, pois quase não há repetições. Neste caso é necessário construir uma tabela denominada de ”distribuição de freqüências por classes ou intervalos”. Evidentemente haverá perda de informação neste processo, mas o ganho obtido pela facilidade compreensão dos dados compensa. O procedimento para construir esta distribuição envolve os seguintes passos (algoritmo): ● Determinar a amplitude dos dados: h = x max - x min . ● Decidir sobre o número de classes “i“ a ser utilizado. Recomenda-se um número de classes entre 5 e 15. Para que a decisão não seja totalmente arbitrária pode-se usar 37 i , . ≅ + 1 3 3 log n 1 3 3 log n 1 3 3 log n 1 3 3 log n ou i n ≅ ● Determinar a amplitude de cada classe. Sempre que possível manter todas as amplitudes iguais. Para tanto deve-se dividir a amplitude dos dados “h” pelo número de classes “i”, arredondando para mais, ou seja, i h h i ≅ . ● Contar o número de valores pertencentes a cada classe. Em geral, utiliza-se a simbologia (|--- ), para indicar um intervalo fechado à esquerda e aberto à direita. Também poderia ser utilizado o intervalo aberto à esquerda e fechado à direita (---|), aberto de ambos os lados ( --- ) ou ainda fechado de ambos os lados (|---|). Um exemplo de uma distribuição por classes ou intervalos é apresentado na tabela 04. Tabela 04 - Idades dos alunos da turma U - Disciplina Estatística. Idades Número de alunos 230 |---- 250 12 250 |---- 270 9 270 |---- 290 8 290 |---- 310 7 310 |---- 330 6 330 |---- 350 5 350 |---- 370 3 Total 50 7.4. Elementos de uma distribuição de freqüências 7.4.1. Classes São intervalos de variação da variável. As classes são representadas simbolicamente por i, sendo i = 1, 2, 3, ..., k (onde k é o número total de classes da distribuição). 7.4.2. limites de classe São os extremos de cada classe. O menor número é o limite inferior da classe (l i ) e o maior número, o limite superior da classe (L i ). 38 7.4.3. Amplitude de um intervalo de classe, ou, simplesmente, intervalo de classe É a medida do intervalo que define a classe. Ela é obtida pela diferença entre os limites superior e inferior dessa classe e indicada por h i . Assim: h i = L i - l i 7.4.4. Amplitude total da distribuição (AT) É a diferença entre o limite superior da última classe (l imite superior máximo) e o limite inferior da primeira classe (limite inferior míni mo): AT = L(máx) – l(mín) 7.4.5. Amplitude amostral (AA) É a diferença entre o valor máximo e o valor mínimo da amostra: AA = x(máx) – x(mín) 7.4.6. Ponto médio de uma classe (x i ) É como o próprio nome indica, o ponto que di vi de o intervalo de classe em duas partes iguai s. Para obtermos o ponto médio de uma classe, calcul amos a semi-soma dos limites de da cl asse (média aritmética): ( ) i i i l L x + = 2 7.4.7. Freqüência simples ou freqüência absoluta ou, simplesmente, freqüência de uma classe ou de um valor individual É o número de observações correspondentes a essa cl asse ou a esse valor. A freqüência simples é simboli zada por f i (lemos: f índice i ou freqüência da classe i). 7.5. Tipos de Freqüências 7.5.1. Freqüências simples ou absolutas (f i ) São os valores que realmente representam o número de dados de cada classe. Como vimos, a soma das freqüências simpl es é igual ao número total dos dados: 39 ∑ f i = n 7.5.2. Freqüências relativas (fr i ) São os valores das razões entre as freqüências simples e a freqüênci a total: Como vimos, a soma das freqüências simpl es é igual ao número total dos dados: i i f fr n = 7.5.3. Freqüência acumulada (F i ) É o total das freqüências de todos os valores inferiores ao l imite superior do intervalo de uma dada cl asse: F k = f 1 + f 2 + ... + f k ou F k = ∑ f i (i = 1, 2, ..., k) 7.5.4. Freqüência acumulada relativa (Fr i ) de uma classe É a freqüência acumulada da classe, di vidi da pel a f reqüência total da distribuição: i i F Fr n = Exemplo: Na tabela 05, abaixo, estão ilustrados os cálculos das freqüências relativas percentuais, da freqüência acumulada simples e da freqüência acumulada percentual. Tabela 05 - Exemplos de freqüências Fi fri Fri fri Fri 7 0,14 0,14 14,0 14,0 28 0,42 0,56 42,0 56,0 36 0,16 0,72 16,0 72,0 41 0,1 0,82 10,0 82,0 45 0,08 0,9 8,0 90,0 48 0,06 0,96 6,0 96,0 50 0,04 1 4,0 100,0 1,00 100,0 40 7.6. Apresentação de uma distribuição de freqüências 7.6.1. Distribuição de freqüências por pontos ou valores. Uma distribuição de freqüências por pontos ou valores é apresentada graficamente através de um diagrama de linhas ou colunas, onde a variável “xi” é representada no eixo das abcissas (horizontal) e as freqüências (que podem ser de qualquer tipo) no eixo das ordenadas (vertical). Veja-se um exemplo de diagrama de colunas simples na figura 01. Figura 01 - Diagrama de colunas simples da variável "número de irmãos dos alunos da turma U - Disciplina de Estatística" 7.6.2. Distribuição de freqüências por classes ou intervalos Uma distribuição de freqüências por classes ou intervalos é apresentada graficamente através de um diagrama denominado de histograma. Um histograma é um gráfico de retângulos justapostos onde a base de cada retângulo é a amplitude de cada classe e a altura é proporcional a freqüência (simples ou relativa) de modo que a área de cada retângulo seja igual a freqüência considerada. Desta forma a altura de cada retângulo será igual a: fi / hi ou então fri / hi. Veja-se o cálculo das alturas na tabela 06 e o exemplo na figura 02. Também pode ser construído um histograma utilizando-se as freqüências acumuladas. Neste caso o diagrama resultante é denominado de ogiva. Se os pontos médios de cada classe de um histograma forem unidos através de segmentos de retas teremos então um diagrama denominado de polígono de freqüências. 0 5 10 15 20 25 1 2 3 4 5 6 7 41 7.7. Gráficos de distribuições de frequências As distribuições de freqüências de uma variável contínua são representadas graficamente por histogramas de freqüências, polígonos de freqüências e polígonos de freqüências acumuladas. Empregando a tabela abaixo como exemplo serão confeccionados os gráficos correspondentes. Tabela 4.6 – Notas dos alunos da Disciplina de Genética do Curso de Medicina – 1978 Notas i f i F 0 ├ 2 2 2 2 ├ 4 7 9 4 ├ 6 11 20 6 ├ 8 10 30 8 ├ 10 5 35 35 Fonte: dados fictícios 7.7.1. Histograma de frequências O histograma é formado por um conjunto de retângulos justapostos, cujas bases se localizam sobre o eixo horizontal (eixo x), onde são representados os intervalos de classe numa escala contínua, não sendo necessário que a escala inicie de zero. As freqüências são representadas no eixo vertical (eixo y) começando de zero. As larguras dos retângulos são iguais às amplitudes dos intervalos de classe. As alturas dos retângulos devem ser proporcionais às freqüências, absoluta ou relativa, das classes. A distribuição da Tabela 4.6 de notas dos alunos do curso de Genética corresponde ao histograma da Figura 4.5. Figura 4.5 – Histograma 42 Fonte: dados fictícios Notas: 1. O histograma goza de uma propriedade de considerável utilidade: a área de um histograma é proporcional à soma das freqüências. 2. Ao empregar as freqüências relativas obtêm-se um gráfico de área unitária. 3. Para comparar duas distribuições, o ideal é fazê-lo pelo histograma de freqüências percentuais. 4. Nas distribuições contínuas com classes de intervalos diferentes é necessário o ajuste das freqüências para que a figura geométrica seja proporcional à freqüência de ocorrência da variável. 7.7.2. Polígono de frequência O polígono de freqüência é um gráfico em linha de uma distribuição de freqüências. As freqüências são marcadas sobre perpendiculares ao eixo horizontal, levantadas pêlos pontos médios dos intervalos de classe. Para realmente obter um polígono (linha fechada), deve-se completar a figura, ligando os extremos da linha obtida aos pontos médios da classe anterior à primeira e posterior à última, da distribuição. Para a distribuição da Tabela de notas dos alunos do curso de Genética (Tabela 4.6) corresponde o polígono de freqüência a seguir: Figura 4.6 - Polígono de frequências12 0 2 4 6 8 10 12 1 F r e q u ê n c i a 2 4 6 8 10 43 Fonte: dados fictícios 7.7.3. Polígono de frequência acumulada O polígono de freqüência acumulada é traçado marcando-se as freqüências acumuladas sobre perpendiculares ao eixo horizontal c levantadas nos pontos correspondentes aos limites superiores dos intervalos de classe. Assim a distribuição da Tabela 4.6 corresponde ao polígono de freqüência acumulada a seguir: Figura 4.9 – Polígono de freqüências acumuladas Fonte: dados fictícios 0 2 4 6 8 10 12 0---2 2---4 4---6 6---8 8---10 F r e q u ê n c i a 0 5 10 15 20 25 30 35 40 0---2 2---4 4---6 6---8 8---10 F r e q u ê n c i a 44 A representação gráfica de uma distribuição de freqüências sem intervalos de classe será dada por um diagrama onde cada valor da variável será representada por um segmento da rela vertical e de comprimento proporcional à respectiva freqüência. 7.7.4. Gráfico stem-and-leaf (tronco e folhas) O gráfico stem-and-leaf (tronco e folhas) (Tukey 1977) é semelhante a um histograma deitado, com maior quantidade de informações. Um gráfico stem-and-leaf bem construído informa a amplitude da série de dados, mostra a localização da maior densidade de dados e revela a presença ou ausência de simetria. A vantagem do gráfico stem-and-leaf sobre o histograma é a preservação das informações contidas em cada dado. Essas informações são perdidas quando os dados são reunidos em um intervalo de classe. Para construir um gráfico stem-and-leaf cada dado é dividido em duas partes. A primeira parte é denominada stem (tronco) e a segunda é chamada leaf (folha). O stem consiste de um ou mais dígitos iniciais do dado e a Jeaf é composta de um ou mais dos dígitos restantes. Todos os números são dispostos em um único gráfico; os troncos formam uma coluna ordenada com o menor valor no topo e o maior na base. As linhas do gráfico contêm as folhas, ordenadas c listadas a direita de seus respectivos troncos (stem). Decimais, quando presentes nos dados originais, são omitidos no gráfico stem- and-leaf. O tronco é separado das suas folhas por uma linha vertical. Os gráficos stem-and-leaf são mais efetivos com conjuntos de dados relativamente pequenos. Não são recomendáveis para um grande número de dados. São de grande valor para subsidiar investigadores nas tomadas de decisão sobre a natureza dos dados. Para documentos de circulação externa, os histogramas são mais apropriados. Como exemplo empregam-se os dados da tabela a seguir: 17 37 49 59 76 17 38 50 63 79 19 38 51 64 79 22 39 51 65 79 23 41 51 67 82 25 42 53 67 83 28 43 56 68 85 29 45 56 68 85 30 47 57 68 86 34 47 58 69 86 34 48 59 74 87 34 49 59 75 89 Fonte: dados fictícios 45 Como todos os dados são constituidos de dois digitos, o primeiro será o tronco e o segundo a folha: Tronco (Stem) Folha (Leaf) 1 779 2 23589 3 04447889 4 123477899 5 011136678999 6 344578889 7 456999 8 23556679 Fonte: dados fictícios 46 8. MEDIDAS DE POSIÇÃO As medidas de posição, também conhecidas como medidas de tendência central, indicam os valores em torno do quais ocorre a maior concentração do fenômeno quantitativo em estudo. A média aritmética, a moda e a mediana são as três medidas de tendência central ou promédios mais utilizados para descrever o conjunto de valores representativos do fenômeno que se deseja estudar. Outros promédios menos utilizados são a média geométrica, harmônica, quadrática, cúbica e biquadrática. Essas últimas não serão descritas nesse trabalho. 8.1. Média aritmética A média aritmética é o mais simples dos valores descritivos de uma amostra. A média da amostra é uma estatística representada pelo símbolo X (x barra). 8.1.1. Média nas séries de dados não agrupados É a média aritmética dos dados de observações da amostra: i x X n ∑ = A variável è representada por x i , sendo x i o valor numérico da primeira observação, x 2 o da seguinte, e assim por diante, até i = n, isto é, x n sendo n o número total de observações da amostra. O ∑ (letra grega sigma) significa "notação de somatório". ∑x i , é a soma de todas as observações x i . Portanto, a média é a soma dos - valores de todas as observações da amostra, dividida pelo número (n) de valores. Exemplo 5.1 A determinação de glicose plasmática em 9 indivíduos forneceu os seguintes resultados (em mg/dL): 90, 86, 78, 90, 98, 90, 82, 76 e 84 Calcular a média. dL mg x / 86 9 84 76 82 90 98 90 78 89 90 = + + + + + + + + = A média amostrai, Xé uma medida descritiva de uma amostra e é uma estimativa da média da população, simbolizada pela letra grega, µ (mu). Ou seja. µ é uma medida descritiva da população (parâmetro populacional). 47 8.1.2. Média nas séries de dados agrupados sem intervalo de classe Nesse caso, como as freqüências são números indicadores da intensidade de cada valor da variável, elas funcionam como fatores de ponderação, o que leva a calcular a média aritmética ponderada, dada pela fórmula: i i x f X n = ∑ Onde: x i = valor variável i f = Freqüência Exemplo 5.2 Considerando-se a distribuição relativa a 40 requisições médicas encaminhadas a um laboratório clínico, toma-se para variável o número de exames solicitados cm cada requisição (ver tabela abaixo). Um modo prático de obtenção da media ponderada abrir, na tabela, uma coluna correspondente aos produtos x i f i , assim: x i f i x i f i 2 8 16 3 23 39 4 9 36 5 6 30 6 3 18 7 1 7 ∑=40 ∑= 146 Cálculo: i i i x f X , exames f ∑ = = = ∑ 146 3 65 40 48 8.1.3. Média nas séries de dados agrupados com intervalos de classes Nesse caso, utiliza-se o ponto médio de cada classe como uma aproximação de todos os valores contidos na classe. Determina-se a média aritmética por meio da fórmula: i i i x f X f ∑ = ∑ Onde: Σx i f i = É o somatório dos produtos de cada ponto médio de classe (x i ) pela respectiva freqüência (f i ) Σf i = É o número total de observações Exemplo 5.3 Para o exemplo da determinação do colesterol em uma amostra controle (v. Cap. 3), abre-se uma coluna para os produtos médios das classes c outra para os produtos x i ,f i : i Concentração i f x i x i f i 1 154├ 158 4 156 624 2 158├ 162 12 160 1920 3 162├ 166 14 164 2296 4 166├ 170 10 168 1680 5 170├ 174 7 172 1204 6 174├ 178 3 176 528 Σ=50 Σ = 8252 Cálculo: i i i x f X mg / dL f ∑ = = = ∑ 8252 165 50 Nota: A média aritmética de dados agrupados em classes não pode ser calculada quando a primeira e a última classe apresentam extremos indefinidos indefinidos. 8.2. Moda (Mo) A moda (Mo) (ou norma) é o valor que ocorre com maior freqüência em um conjunto de valores. É uma medida de dominância. Não é afetada por valores 49 extremos. Para o conjunto de dados do exemplo 5.1: 76, 78, 82, 84, 86, 90, 90, 90, 98 a moda é 90. Pode-se deparar com conjunto de dados, onde nenhum valor é repetido e, portanto, não existe moda. Essa é uma distribuição amodal. Ex.: a serie 3,5,8,10,12,13. Em outro casos, pode haver mais de um valor repetido. Diz-se distribuição plurimodal. Na serie: 2, 3, 4, 4, 4, 5, 6, 7, 7, 7, 8, 9, temos duas modas: 4 e 7 (distribuição bimodal). 8.2.1. Moda nas séries de dados agrupados sem intervalos de classes Nesses casos a moda é o elemento que apresenta a maior freqüência: x i 2 3 4 5 6 7 i f 8 13 9 6 3 1 No Exemplo supra-citado o elemento que apresenta a maior freqüência (13) é o 3. Portanto ,a moda é 3. 8.2.2. Moda nas series de dados com intervalos de classe A classe que apresenta a maior freqüência e chamada classe modal. A moda, nesse caso, e o valor dominante compreendido entre os limites da classe modal. O processo mais comum para o cálculo da moda emprega a fórmula de Czuber: * . * . 2 1 1 h Mo ∆ + ∆ ∆ + = ℓ * ℓ = é o limite inferior da classe que contém a moda ∆ 1 = diferença entre a freqüência da classe modal e a freqüência da classe imediatamente inferior. ∆ 2 = diferença entre a freqüência da classe modal e freqüência da classe imediatamente posterior. h* = é a amplitude da classe que contem a moda. Exemplo 5.4 Assim para a distribuição: 50 i Concentração i f 1 154├ 158 4 2 158├ 162 12 3 162├ 166 14 4 166├ 170 10 5 170├ 174 7 6 174├ 178 3 Identifica-se a classe modal, ou seja, aquele que possuir maior freqüência. No caso trata- se da 3ª classe: 162├166. A seguir aplica-se a fórmula: * . * . 2 1 1 h Mo ∆ + ∆ ∆ + = ℓ Onde: ℓ* = 162 ∆1 = 14 - 12 = 2 ∆2 = 14 - 10 = 4 Portanto: ܯ݋ ൌ 162 ൅ 2 2 ൅4 ݔ 4 ൌ 2X4 6 ൌ 162 ൅ 8 6 ൌ 162 ൅1,33 ൌ ൌ 163, 33 8.3. Mediana (Md) A mediana (Md) é o valor que ocupa a posição central quando todos os itens do grupo estão disposto, em termos de valor, em ordem crescente ou decrescente de magnitude. Não é afetada por valores extremos e é indicada quando existem valores discrepantes. Para o exemplo 5.1 dos valores da determinação da glicose (76, 78, 82, 84, 86, 90, 90, 90, 98) a Md é 86. Quando o numero de observação for par deve-se somar os dois números centrais e dividir por dois. 8.3.1. Medianas nas series de dados sem intervalos de classe Nesse caso, é o bastante independente identificar a freqüência acumulada que é imediatamente superior à metade da soma das freqüências. A mediana será aquele valor da variável que corresponde a tal freqüência acumulada. Exemplo 5.5 Tome-se a distribuição relativa à tabela dos dados agrupados, completando-a com a coluna correspondente à freqüência acumulada. No exemplo do número de exames solicitados por requisição médica, tem-se: 51 Números de exames i f i F 2 8 8 3 13 21 4 9 30 5 6 36 6 3 39 7 1 40 Σ = 40 Sendo: ݔΣ݂ ଵ 2 ൅ 40 2 ൌ 20 A menor freqüência acumulada que supera esse valor é 21, que corresponde ao valor 3 da variável, sendo esse o valor mediano logo: Md = 3 exames 8.3.2. Mediana nas séries de dados com intervalos de classe Inicialmente determina-se a classe em que está compreendida a mediana (classe mediana). Tal classe evidentemente, aquela correspondente à freqüência acumulada imediatamente superior a Σf i /2. Procedendo desse modo, um problema de interpolação resolve a questão. Admitindo-se, agora, que os valores se distribuam uniformemente em todo o intervalo de classe. Para o cálculo são realizados os seguintes passos: 1 Determinar as freqüências acumuladas. 2 Calcular Σf i /2. 3 Marcar a classe correspondente à freqüência acumulada imediatamente superior a Σf i /2.- classe mediana – e, em seguida, empregar a fórmula: Md ൌ ℓ ൤ Σf ଵ 2 െF ሺantሻ൨ . h כ f כ Na qual: ℓ* = é o limite inferior da classe que contém a mediana F (ant) = é a freqüência acumulada da classe anterior a classe que contém a mediana. f* = é a freqüência simples da classe que contém a mediana. 52 h* = é a amplitude do intervalo da classe que contém a mediana. Exemplo: 5.6 Considerando a distribuição da tabela de concentração de colesterol em uma amostra controle, acrescida das freqüências acumuladas: ݔΣ݂ ଵ 2 ൅ 50 2 ൌ 25 Logo, a classe mediana é a ordem 3. Então: ℓ* = 162: F (ant) = 16: f* = 14 e h* = 4 Substituindo esses valores na fórmula, obtém-se: Md = 162 + ሺଶହିଵ଺ሻ.ସ ଵସ ൌ 162 ൅ ଷ଺ ଵସ ൌ 162 ൅2,57 ൌ 164,57 / dL 8.4. Medidas de ordenamento e posição De um modo geral, existem três grandes grupos de medidas de ordenamento: quartis, decis e percentís. 8.4.1.Quartis Quartis são os valores que subdividem uma distribuição de medidas quanto dispostas em termos de valores em ordem crescente ou decrescente, em quatro partes iguais, Há portanto, três quartis. • Primeiro quartil (Q 1 ) e o primeiro da série tal quem um quarto dos dados está abaixo dele (25%) e as três quartas partes restantes (75%) estão acima dele. Para encontrar o Q 1 emprega-se: ܳ ଵ ൌ ݊ ൅1 4 • Segundo quartil (Q 2 ) é evidentemente, coincidente. Com a mediana (Q 2 = Md). O Q 2 é obtido: ܳ ଶ ൌ 2ሺ݊ ൅1ሻ 4 ൌ ݊ ൅1 2 i Concentração i f F 1 154├ 158 4 4 2 158├ 162 12 16 3 162├ 166 14 30 ← classe mediana 4 166├ 170 10 40 5 170├ 174 7 47 6 174├ 178 3 50 Σ = 50 53 • Terceiro quartil (Q 3 ), é o número da série tal que três quartos dos dados estão abaixo dele (75%) e uma quarta parte (25%), estão acima dele, Calcula-se: ܳ ଶ ൌ 3ሺ݊ ൅1ሻ 4 Para determinar o primeiro quartil de dados agrupados em classes, emprega-se a expressão: Q ଵ ൌ ℓ כ ൅ ൤ Σf ଵ 4 െF ሺantሻ൨ . h כ f כ Exemplo 5.7 Nas duas equações acima, F(ant) é a freqüência acumulada da classe anterior a classe do quartil a ser calculado. Primeiro quartil (K = 1): Σ݂ ଵ 4 ൅ 50 4 ൌ 12.5 Aplicando a fórmula: ܳ ଵ ൌ 158 ൅ ଶሺଵଶ,ହିସሻ ଵଶ ൌ 158 ൅ ଼,ହ ௑ ସ ଵଶ ൌ 158 ൅2,8 ൌ 160,8 mg/ dL Terceiro quartil (k = 3): 3Σ݂ ଵ 4 ൌ 3 X 50 4 ൌ 37.5 Aplicando a fórmula: ܳ ଷ ൌ 166 ൅ ሺଷ଻,ହିଷ଴ሻ ଵ଴ ൌ 166 ൅ ଷ଴ ଵ଴ ൌ 166 ൅3 ൌ 169 mg/ dL 8.4.2. Centil ou Percentil Concentração i f F 154├ 158 4 4 158├ 162 12 16 ← Q 1 162├ 166 14 30 166├ 170 10 40 ← Q 3 170├ 174 7 47 174├ 178 3 50 Σ = 50 54 Os centis ou percentis são os noventa e nove valores que separam uma série de 100 partes iguais: P 1 , P 2 , ..., P 42 ,..., P 99 É evidente que: P 50 = Md; P 25 = Q 1 e P 75 = Q 3 O cálculo de um percentil segue a mesma técnica do cálculo da mediana, porém, a fórmula obedece a ordem do percentil. Exemplo 5.8 Para a tabela anterior têm-se para o 12° percentil (k = 12): tem-se: P ଵଶ ൌ ℓ כ ൅ ൤ 12∑f ଵ 100 െF ሺantሻ൨ . h כ f כ Considerando a tabela acima tem-se para o décimo segundo percentil 12∑݂ ଵ 100 ൌ 12 X 50 100 ൌ 6 Logo: 8.5. Que promédio usar? Com um pouco de experiência, facilmente é determinada qual das medidas de tendência central deve ser para cada situação. A média aritmética é de longe a mais usada. Em geral, são usadas a moda para os dados nominais, a mediana para os dados ordinais e a média para os dados intervalares ou de razão. 55 9. MEDIDAS DE DISPERSÃO Objetivos 1. Calcular as medidas de variância, desvio padrão, coeficiente de variação, amplitude e amplitude entre quartis de dados simples e agrupados. 2. Listar alguns usos das medianas de variação: variação, desvio padrão, amplitude e amplitude entre quartis. 3. Comparar diferentes dados de um paciente de variação. 4. Interpretar o gráfico Box-and-Whisker Plot. A dispersão ou variabilidade representa um dos mais importantes grupos de medidas da estatística. Para o conhecimento pleno e adequado de uma série ou uma distribuição de freqüências. É necessário determinar não apenas determinar não apenas a posição central dos valores, através das medidas de posição, mas também é preciso conhecer o real grau de dispersão dos valores em questão. As medidas de dispersão indicam o grau de afastamento de um conjunto de número em relação à sua média. 9.1 Variância As medidas de tendência central são insuficientes para descrever adequadamente uma amostra. É necessário também descrever em que medida os dados de observação estão ao redor da média. A variação media dispersão dos dados de observações de uma amostra em relação à respectiva média. A variância amostral, simbolizada por s 2 , é calculada pela fórmula: ܵ ଶ ൌ ∑ሺܺ ଵ െܺ ത ሻ ݊ െ1 Em que x i são as observações da amostra e n o número total de observações. Em termos,a variância é a soma dos quadrados dos desvios em relação à média, dividida pelo número das observações da amostra menos uma. 56 Exemplo 6.1 Empregando os dados do exemplo 5.1 cuja média (ܺ ത ) = 86 mg/ dL x x - ܺ ത (x - ܺ ത )2 90 90 – 86 =4 (4)2 = 16 86 – 86 = 0 (0)2 = 0 78 78 – 86 = -8 (-8)2 = 64 90 90 – 86 = 4 (4)2 = 16 98 98 – 86 = 12 (12)2 = 144 90 90 – 86 = 4 (-4)2 = 16 82 82 – 86 = -4 (-4)2 = 16 76 76 – 86 = -10 (-10)2 = 100 84 84 – 86 = -2 (-2)2 = 4 Σ 0 376 Aplicando-se a fórmula, a variância amostral é calculada: ܵ ଶ ൌ 376 9 െ1 ൌ 47 A variância s 2 , como estatística calculada da amostra, é uma estimativa não- viciada da variância populacional – um valor fixo representado por σ 2 (sigma ao quadrado). O denominador n-1 é chamado graus de liberdade (GL). O uso de n em lugar de n – l como denominador no cálculo da variância amostral obter-se-ia um valor denominador da variância amostral obter-se-ia um valor menor do que o verdadeiro valor do parâmetro populacional (σ 2 ). A situação é corrigida reduzindo o denominador pela subtração de uma unidade. A Variância amostral pode também ser calculada por uma fórmula particularmente bem adaptada para o emprego de calculadoras: ܵ ଶ ൌ ∑ܺ ௜ ଶ ሺ∑ݔ ௜ ሻ ଶ ݊ ൌ ݊ െ1 O termo ∑ܺ ௜ ଶ é a soma dos quadrados das observações individuais da amostra e (Σx i ) 2 /n é de correção, FC. 57 Exemplo 6.2 Aplicando esta equação ao exemplo anterior: x x 2 90 8100 86 7396 78 6084 90 8100 98 9604 90 8100 82 6724 76 5776 84 7056 774 66940 ݏ ଶ ൌ ∑ݔ ଵ ଶ ሺ∑ݔ ௜ ሻ ଶ ݊ ݊ െ 1 ൌ 66940 െ ሺ774ሻ ଶ 9 9 െ1 ൌ 66940 െ66546 8 ൌ 47 9.2. Desvio padrão O desvio padrão é a mais importante medida de dispersão dos valores individuais ao redor da média. Apresenta a vantagem sobre a variância de utilizará mesma unidade de medida de dados (kg, cm etc.) que as empregadas na tomada das observações. É representado por s. 9.2.1. Desvio padrão nas séries de dados não agrupados É cálculos pela fórmula: ݏ ൌ ඨ ∑ሺx ୧ െ xതሻ ଶ ݊ െ1 ݋ݑ ݏ ൌ ඨ ∑െ ሺx ୧ ሻ ଶ ݊ ݊ െ1 O desvio padrão e, portanto, a raiz quadrada da variância. 58 Exemplo 6.3 ࢙ ൌ ට ૜ૠ૟ ૢି૚ ൌ √૝ૠ = 6,85 mg/dL O desvio padrão da amostra é uma estimativa do valor paramétrico σ (sigma), o desvio padrão verdadeiro da população. Para os dados de medição, especialmente em grandes amostras. O desvio padrão indica os limites prováveis dentro do quais se situam certas proporções das observações. Assim verifica-se que cerca de 68% das observações da amostra estará entre os limites ܺ ത േ 2s; e 99% das obrigações entre ܺ ത േ 3s. 9.2.1.1. Desvio padrão nas séries de dados agrupados sem intervalo de classe Nesse caso emprega-se o ponto médio de cada classe para apresentar as medidas incluídas naquela classe. Deve-se levar em consideração, também, as freqüências de cada classe aplicando-se a fórmula: 2 2 | | ¹ | \ | ∑ − ∑ = n x f n x f s i i i i Exemplo 6.4 Considerando a tabela de distribuição de freqüência sem intervalos de classe do exemplo dos exames solicitados por requisição médica. O modo mais prático para a obtenção do desvio padrão é abrir, na tabela dada, uma coluna para os produtos f,x,, e outra para f i x 1 2 lembrando que para obter f i X i 2 basta multiplicar cada f i X i 2 pelo seu respectivo X i . Assim: 59 x i f i f i x i f i ݔ ௜ ଶ 2 8 16 32 3 13 39 117 4 9 36 144 5 6 30 150 6 3 18 108 7 1 7 49 Σ = 40 Σ = 146 Σ = 600 Logo: ݏ ൌ ඨ 600 40 െ ൬ 156 40 ൰ ଶ ൌ ඨ 15 െ 21316 1600 ൌ ඥ15 െ13,32 ൌ ඥ1,68 ൌ 1,29 9.2.1.2 Desvio padrão nas séries de dados agrupados com intervalos de classe Para os dados grupados com intervalo de classe, emprega-se a mesma fórmula acima descrita. Exemplo 6.5 Utilizando como exemplo a distribuição da determinação da concentração de colesterol em uma amostra controle, abrir as colunas para x i (ponto médio), para f i x i e para f i x i 2 . Assim: I Concentração f i x i f i x i f i x i 2 1 154├158 4 156 624 97344 2 158├162 12 160 1920 3076544 3 162├166 14 164 2296 376544 4 166├170 10 168 1680 282240 5 170├174 7 172 1204 207088 6 174├178 3 176 528 92928 Σ = 50 Σ = 8252 Σ = 136344 Cálculo: ݏ ൌ ඨ 136344 50 െ ൬ 8252 50 ൰ ଶ ൌ ට 27266,9 െ27238,2 ൌ ඥ28,68 ൌ 5.355 60 9.3. Coeficiente de variação O coeficiente de variação (CV) é a magnitude relativa do desvio padrão expresso em porcentagem da média. É uma estatística usada quando se deseja comparar a variabilidade relativa em diferentes tipos de dados, inclusive dados medidos em diferentes unidades de medição. O coeficiente de variação independe da unidade de medição empregado. Isto permite a comparação de vários tipos de dados, tais como. pressão arterial com temperatura. CV ൌ s x 100 xത Exemplo 6.6 Para o exemplo da secções anteriores cujos dados são: 90, 86, 78, 90, 98, 90, 82, 76, 84 com média de 86, tem-se: CV ൌ 6,85 x 100 86 ൌ 7,96% 9.4. Amplitude A amplitude é a mais simples e precária medida de variabilidade, isto é, a diferença entre o valor mais alto (H) e o valor mais baixo (L) de uma série.. A = H - L Para o exemplo 6.6 tem-se: 98 - 76 = 22 mg/dL O inconveniente da amplitude é depender dos valores extremos, não considerando os valores intermediários. Portanto, a amplitude não é influenciada pela dispersão dos demais valores entre o escore máximo e o escore mínimo. 9.5. Amplitude entre quartis É a diferença entre o valor do terceiro quartil (Q 3 ) e o valor do primeiro quartil (Q 1 ); compreende os 50% dos dados centrais da série em distribuições simétricas. É menos afetado pêlos valores extremos do que a amplitude, tornando-se uma medida de grande utilidade. Medidas de dispersão baseadas nos quartis são válidas para dados ordinais, intervalares ou de razão. AEQ = Q 3 – Q 1 61 Valores elevados de AEQ indicam grande variabilidade dos 50% dos dados relevantes, enquanto valores reduzidos indicam pequena variabilidade entre as mesmas observações. Como esses valores muitas vezes parecem vagos, foi proposta uma razão interquartil com toda a série de dados analisada. A razão obtida por AEQ/A (amplitude entre quartis/amplitude) é multiplicada por 100. Ou seja, 100(AEQ/R) relata a percentagem da AEQ em relação a amplitude total. Ex.: um valor da razão de 34% indica que a AEQ corresponde a 34% da amplitude (de toda a série de dados). 9.6. Box-and-Whisker plots Um dispositivo visual útil para a comunicação de características de uma série de dados é o gráfico tipo hox-and-whisker plot. A construção do gráfico utiliza o primeiro quartil (Q 1 ) e o terceiro quartil (Q 3 ) obtidos a partir da série de dados. Para a construção devem ser observados os seguintes ifens: 1. A variável de interesse é representada no eixo horizontal; 2. Desenhar uma caixa no espaço acima do eixo horizonlal, de tal modo que o lado esquerdo fique alinhado com o primeiro quartil (Q 1 ) e o lado direito fique alinhado com o terceiro quartil (Q 3 ). 3. Dividir a caixa em duas partes por um traço vertical que corresponde ao valor da mediana. 4. Traçar uma linha horizontal (whisker) a partir do lado esquerdo da caixa ate o ponto que alinha com o menor valor contido na série de dados. 5. Traçar uma linha horizontal (whisker) a partir do lado direito da caixa até o ponto que alinha com o maior valor contido na série de dados. 62 Vocabulário Amplitude Graus de liberdade Amplitude entre quartis Box-and-whisker Plots Coeficiente de variação Variância Desvio padrão Exercícios 6.1. Encontrar a média, mediana, variância e desvio padrão para os seguintes dados: 9, 6, 2, 6, 3, 4, 7, 4. 6.2. Calcular a média, mediana e desvio padrão para os seguintes dados: 2, 3; 2,7; 3,4; 3,2; 1,9; 4,1; 3,7; 2,2; 1,8; 2,7; 3,0. 6.3. Todas as seguintes medidas são de dispersão, EXCETO A. Variância; B. Amplitude; C. Moda; D. Desvio padrão; E. Coeficiente de variação. 63 6.4. O cálculo da variância da altura em centímetros de estudantes de determinada escola é dado em: A. √ܿ݁݊ݐ݅݉݁ݐݎ݋ݏ B. Centímetros C. (centímetros)2 D. Sem unidade E. Nenhuma das respostas 6.5 O seguinte polígono de freqüência acumulado foi obtido de batimentos cardíacos de 1.000 estudantes: Qual dos seguintes é falsa? A. a amplitude da distribuição é 60 a 100 batimentos por minuto B. a moda da distribuição c 100 batimentos por minuto C. a mediana da distribuição é 77 batimentos por minuto D. 92% dos valores são menores que 90 batimentos por minuto E. 95% dos valores são maiores que 65 batimentos por minuto 64 EXERCÍCIOS DIVERSODS 1. População ou universo é: a) Um conjunto de pessoas; b) Um conjunto de elementos quaisquer c) Um conjunto de pessoas com uma característica comum; d) Um conjunto de elementos com pelo menos uma característica em comum; e) Um conjunto de indivíduo de um mesmo município, estado ou país. 2. Uma parte da população retirada para analisá-la denomina-se: a) Universo; b) Parte; c) Pedaço; d) Dados Brutos; e) Amostra. 3. A parte da estatística que se preocupa somente com a descrição de determinadas características de um grupo, sem tirar conclusões sobre um grupo maior denomina- se: a) Estatística de População; b) Estatística de Amostra; c) Estatística Inferencial d) Estatística Descritiva; e) Estatística Grupal. 4. Uma série estatística é denominada Temporal quando? a) O elemento variável é o tempo; b) O elemento variável é o local; c) O elemento variável é a espécie; d) É o resultado da combinação de séries estatísticas de tipos diferentes; e) Os dados são agrupados em subintervalos do intervalo observado. 5. Suponha que uma pesquisa de opinião pública deve ser realizada em um estado que tem duas grandes cidades e uma zona rural. Os elementos na população de interesse são todos os homens e mulheres do estado com idade acima de 21 anos. Que tipo de amostragem você sugeriria?. Amostragem Estratificada 6. Um médico está interessado em obter informação sobre o número médio de vezes em que 15.000 especialistas prescreveram certa droga no ano anterior (N = 15.000). Deseja-se obter uma amostra n = 1.600. Que tipo de amostragem você sugeriria e por que? Amostragem A Sistemática 7. De acordo com as normas para representação tabular de dados, quando o valor de um dado é muito pequeno, para ser expresso com o número de casa decimais utilizadas ou com a unidade de medida utilizada, deve-se colocar na célula correspondente. a) Zero (0); b) Três pontos (...); c) Um traço horizontal (-) d) Um ponto de interrogação (?); e) Um ponto de exclamação (!). 65 8. Assinale a afirmativa verdadeira: a) Um gráfico de barras ou colunas é aquele em que os retângulos que o compõem estão dispostos horizontalmente. b) Um gráfico de barras ou colunas é aquele em que os retângulos que o compõem estão dispostos verticalmente. c) Um gráfico de barras é aquele em que os retângulos que o compõem estão dispostos verticalmente e um gráfico de colunas, horizontalmente. d) Um gráfico de barras é aquele em que os retângulos que o compõem estão dispostos horizontalmente e um gráfico de colunas, verticalmente. e) Todas as alternativa anteriores são falsas. 9. Um dado foi lançado 50 vezes e foram registrados os seguintes resultados 5 4 6 1 2 5 3 1 3 3 4 4 1 5 5 6 1 2 5 1 3 4 5 1 1 6 6 2 1 1 4 4 4 3 4 3 2 2 2 3 6 6 3 2 4 2 6 6 2 1 Construa uma distribuição de freqüência sem intervalo de classe e determine: a.A amplitude Total (n) a) 5 b) 6 c) 7 d) 10 e) 50 b. A freqüência total f) 5 g) 6 h) 7 i) 10 j) 50 c. A freqüência simples absoluta do primeiro elemento: k) 10% l) 20% m) 1 n) 10 o) 20 d. A freqüência simples relativa do primeiro elemento: p) 10% q) 20% r) 1 s) 10 t) 20 e. A freqüência acumulada do primeiro elemento: u) 10% 66 v) 20% w) 1 x) 10 y) 20 f. A freqüência acumulada relativa do primeiro elemento: z) 10% aa) 20% bb) 1 cc)10 dd) 20 g. A freqüência simples absoluta do segundo elemento: ee) 19 ff) 9 gg) 2 hh) 38% ii) 18% h. A freqüência simples relativa do quinto elemento: jj) 12% kk)84% ll) 5 mm) 6 nn) 42 i. A freqüência acumulada relativa do sexto elemento: oo) 50 pp) 8 qq) 6 rr) 100% ss)16% 10. Dado o rol de medidas das alturas (dadas em cm) de uma amostra de 100 indivíduos de uma faculdade: calcule: a) a amplitude amostral; b) o número de classes; c) a amplitude de classes; 151 152 154 155 158 159 159 160 161 161 161 162 163 163 163 164 165 165 165 166 166 166 166 167 167 167 167 167 168 168 168 168 168 168 168 168 168 168 169 169 169 169 169 169 169 170 170 170 170 170 170 170 171 171 171 171 172 172 172 173 173 173 174 174 174 175 175 175 175 176 176 176 176 177 177 177 177 178 178 178 179 179 180 180 180 180 181 181 181 182 182 182 183 184 185 186 187 188 190 190 67 d) os limites de classes; e) as freqüências absolutas da classes; f) as freqüências relativas; g) os pontos médios da classes; h) as freqüências acumuladas; i) o histograma e o polígono de freqüência; j) o polígono de freqüência acumulada; k) faça um breve comentário sobre os valores das alturas desta amostra através da distribuição de frequência. 11. Os dados seguintes representam 20 observações relativas ao índice pluviométrico em determinado município do Estado: Milímetros de chuva a) Determinar o número de classes pela regra de Sturges; b) Construir a tabela de freqüências absolutas simples; c) Determinar as freqüências absolutas acumuladas; d) Determinar as freqüências simples relativas; 12. Considere a seguinte distribuição de frequência correspondente aos diferentes preços de um determinado produto em vinte lojas pesquisadas. e) Quantas lojas apresentaram um preço de R$52,00? f) Construa uma tabela de freqüências simples relativas. g) Construa uma tabela de freqüências absolutas acumuladas. h) Quantas lojas apresentaram um preço de até R$52,00 (inclusive)? i) Qual o percentual de lojas com preço maior de que R$51,00 e menor de que R$54,00? 144 152 159 160 160 151 157 146 154 145 151 150 142 146 142 141 141 150 143 158 Preços No. De lojas 50 2 51 5 52 6 53 6 54 1 Total 20 68 13. O quadro seguinte representa as alturas (em cm) de 40 alunos de uma classe. j) Calcular a amplitude total. k) Admitindo-se 6 classes, qual a amplitude do intervalo de classe? l) Construir uma tabela de frequência das alturas dos alunos. m) Determinar os pontos médios das classes. 14. Vinte alunos foram submetidos a um teste de aproveitamento cujos resultados fornam os que se seguem. Pede-se agrupar tais resultados em uma distribuição de freqüências 15. Construa uma tabela para mostrar que, em determinado curso, o número de alunos matriculados nas 1 ª , 2 ª e 3 ª séries era, respectivamente, 40, 35 e 29 em 1997 e 42, 36 e 32 em 1998. 16. Construa uma tabela para mostrar que, de acordo com a Pesquisa Nacional por Amostra de Domicílios, PNAD, em 1992 havia no Brasil 73,1 milhões de pessoas com renda familiar mensal até 330 reais (pobres e miseráveis), 45 milhões de pessoas com renda familiar mensal de 330 reais até 1300 reais (emergentes) e 13,6 milhões de pessoas com renda familiar mensal acima de 1300 reais (classe média e ricos). Apresente, também, percentuais. 17. Faça um gráfico de linhas para apresentar o crescimento em altura de crianças do sexo masculino. Os dados estão na tabela a seguir. 162 163 148 166 169 154 170 166 164 165 159 175 155 163 171 172 170 157 176 157 157 165 158 158 160 158 163 165 164 178 150 168 166 169 152 170 172 165 162 164 26 28 24 13 18 18 25 18 25 24 20 21 15 28 17 27 22 13 19 28 Idades Altura Média (cm) 7 119,7 8 124,4 9 129,3 10 134,1 11 139,2 12 143,2 69 18. Dado o rol do número de erros de impressão da primeira página de um jornal durante 50 dias, obteve-se os seguintes resultados: a) Complete a tabela de distribuição de frequência: Classe f P.M. F f r 05 |- 08 08 |- 11 11 |- 14 14 |- 17 17 |- 20 20 |- 23 Total - - Segundo nos mostra a tabela acima responda: i) Qual a amplitude total (r) ? ii) Qual o valor de k (número de classe) ? iii) Qual o intervalo de cada classe (h) ? 19. Complete a tabela a seguir: 20. Considere a seguinte tabela: 5 5 5 6 6 6 7 7 7 7 7 8 8 8 8 8 8 8 9 9 10 10 10 10 10 11 11 11 11 12 12 12 12 12 12 12 12 12 13 14 14 14 14 14 14 14 15 16 19 22 Classes f P.M. Fi fr 0,02 12 62 - 65 0,06 66,5 84 126 36 225 0,15 300 Total - - Classes fi 2,75 |- 2,80 2 2,80 |- 2,85 3 2,85 |- 2,90 10 2,90 |- 2,95 11 2,95 |- 3,00 24 3,00 |- 3,05 14 3,05 |- 3,10 9 3,10 |- 3,15 8 3,15 |- 3,20 6 3,20 |- 3,25 3 Total 90 70 Identificar os seguinte elementos da tabela: a) Freqüência simples absoluta da quinta classe. b) Freqüência total. c) Limite inferior da sexta classe. d) Limite superior da quarta classe. e) Amplitude do intervalo de classe. f) Amplitude total. g) Ponto médio da terceira classe. 21. Responda as questões abaixo: Média, Mediana e Moda são medidas de : a) ( ) Dispersão b) ( ) posição c) ( ) assimetria d) ( ) curtose Na série 10, 20, 40, 50, 70, 80 a mediana será: a) ( ) 30 b) ( ) 35 c) ( ) 40 d) ( ) 45 50% dos dados da distribuição situa-se: a) ( ) abaixo da média c) ( ) abaixo da moda b) ( ) acima da mediana d) ( ) acima da média 22. Calcule para cada caso abaixo a respectiva média. a) 7, 8, 9, 12, 14 b) c) 23. Calcule o valor da mediana. d) 82, 86, 88, 84, 91, 93 e) f) 24. Calcule a moda g) 3, 4, 7, 7, 7, 8, 9, 10 h) i) Xi 3 4 7 8 12 Fi 2 5 8 4 3 Classes 68 - 72 72 - 76 76 - 80 80 - 84 Fi 8 20 35 40 Xi 73 75 77 79 81 Fi 2 10 12 5 2 Classes 1 - 3 3 - 5 5 - 7 7 - 9 9 - 11 11 - 13 Fi 3 5 8 6 4 3 Xi 2,5 3,5 4,5 6,5 Fi 7 17 10 5 Classes 10 - 20 20 - 30 30 - 40 40 - 50 Fi 7 19 28 32 71 25. Para a distribuição abaixo calcular D 2 , P 4 Q 3 26. Desvio Médio, Variância e Coeficiente de variação são medidas de : a) ( ) Assimetria c) ( ) Posição b) ( ) Dispersão d) ( ) Curtose 27. Desvio Médio para o conjunto de dados abaixo será: a) ( ) 1,28 c) ( ) 1,00 b) ( ) 1,20 d) ( ) 0,83 28. O Desvio Padrão de um conjunto de dados é 9. A variância é: a) ( ) 3 c) ( ) 81 b) ( ) 36 d) ( ) 18 29. Na distribuição de valores iguais, o Desvio padrão é: a) ( ) negativo c) ( ) zero b) ( ) a unidade d) ( ) positivo 30. O calculo da variância supõe o conhecimento da: a) ( ) Fac c) ( ) mediana b) ( ) média d) ( ) moda 31. A variância do conjunto de dados tabelados abaixo será: a) ( ) 1,36 c) ( ) 4,54 b) ( ) 18,35 d) ( ) 20,66 Classes 20 - 30 30 - 40 40 - 50 50 - 60 60 - 70 Fi 3 8 18 22 24 xi Fi 5 2 7 3 8 5 9 4 11 2 Classes Fi 03 |- 08 5 08 |- 13 15 13 |- 18 20 18 |- 23 10 72 32. Numa empresa o salário médio dos homens é de R$ 4000,00 com um desvio padrão de R$1500,00, e o das mulheres é na média de R$3000,00 com desvio padrão de R$1200,00. Qual dos sexos apresenta maior dispersão. (Analise pelo C.V.) a) ( ) as mulheres c) ( ) homens e mulheres b) ( ) os homens d) ( ) nenhuma das anteriores 33. Analisando as curvas abaixo marque a resposta correta. (I) (II) (III) a) a curva I é simétrica ; b) a curva II é assimétrica positiva c) a curva I é simétrica; d) a curva III é simétrica positiva; 34. Para as distribuições abaixo foram calculados Distrib. A Distrib. B Distrib. C Marque a alternativa correta: a) a distribuição I é assimétrica negativa; b) a distribuição II é assimétrica positiva; c) a distribuição III é assimétrica negativa moderada. d) a distribuição I é simétrica; 35. Todas as seguintes medidas são de dispersão, EXCETO F. Variância; G. Amplitude; H. Moda; I. Desvio padrão; J. Coeficiente de variação. 36. O cálculo da variância da altura em centímetros de estudantes de determinada escola é dado em Classes Fi Classes Fi Classes Fi 02 |- 06 6 02 |- 06 6 02 |- 06 6 06 |- 10 12 06 |- 10 12 06 |- 10 30 10 |- 14 24 10 |- 14 24 10 |- 14 24 14 |- 18 12 14 |- 18 30 14 |- 18 12 18 |- 22 6 18 |- 22 6 18 |- 22 6 73 a) √ܿ݁݊ݐ݅݉݁ݐݎ݋ݏ b) Centímetros c) (centímetros) 2 d) Sem unidade e) Nenhuma das respostas 37. O seguinte polígono de freqüência acumulado foi obtido de batimentos cardíacos de 1.000 estudantes: Qual dos seguintes é falsa? a) a amplitude da distribuição é 60 a 100 batimentos por minuto b) a moda da distribuição c 100 batimentos por minuto c) a mediana da distribuição é 77 batimentos por minuto d) 92% dos valores são menores que 90 batimentos por minuto e) 95% dos valores são maiores que 65 batimentos por minuto 74 10. PROBABILIDADES Objetivos 1. Compreender as propriedades básicas da probabilidade. 2. Selecionar e aplicar as regras apropriadas da probabilidade para uma dada aplicação. 3. Selecionar e aplicar a regra de probabilidade apropriada para determinada situação. 4. Distinguir entre eventos mutuamente exclusivos e eventos independentes. 5. Distinguir ente permutações e combinações. 6. Explicar o que é uma distribuição de probabilidades e seus principais usos. Probabilidade é um conceito filosófico e matemático que permite a quantificação da incerteza, permitindo que ela seja aferida, analisada e usada para a realização de previsões ou para, a orientação de intervenções. É aquilo que torna possível se lidar de forma racional com problemas envolvendo o imprevisível. Os mecanismos probabilísticos são as estruturas e dinâmicas que se acredita estarem subjacentes às probabilidades observadas para um dado fenômeno qualquer. Em outras palavras, seriam a causa do padrão de incerteza percebido num determinado instante. O conhecimento dos mecanismos probabilísticos permite não apenas o estabelecimento de expectativas quanto às probabilidades de um evento específico mas também a identificação de quais os fatores que influem em tais probabilidades e como eles atuam. Exemplo: Cartas de Baralho Os fatores subjacentes à probabilidade de uma dada carta surgir ao acaso num baralho constituem um mecanismo probabilístico relativamente complexo, envolvendo principalmente a disposição inicial das cartas, a quantidade total das mesmas, o método de embaralhamento e o procedimento de sorteio da carta. Coisas como o material de que as cartas são feitas, seu tamanho e formato, a temperatura e umidade do ambiente, e as correntes de ar no local também podem ser relevantes. 75 Dizer que todos os componentes acima constituem um mecanismo probabilístico significa que mudanças em qualquer um desses parâmetros tende a alterar as probabilidades associadas ao surgimento de cada carta ou tipo de carta. Exemplo: Fecundação A fecundação humana apresenta um mecanismo probabilístico bastante complexo, com a probabilidade de sucesso num determinado intercurso sexual dependendo de uma série de fatores que envolvem a contagem de espermatozóides no sêmen, a quantidade e a força da ejaculação, o pH vaginal, a fase do ciclo menstrual feminino, a fase da espermatogênese masculina, a data do coito anterior do homem e da mulher, a idade de ambos os envolvidos, a ausência de infecções e outros. Todas essas variáveis atuam conjuntamente para permitir a reprodução, de modo que elas também condicionam a sua probabilidade. 10.1. Entendendo a probabilidade A teoria das Probabilidades estuda os fenômenos aleatórios com vários resultados possíveis, quantificando as suas possibilidades de ocorrência. Com base na teoria das probabilidades, jamais será possível dizer o que vai ocorrer num experimento aleatório - pois isso dependerá sempre do acaso; no entanto, ela permite prever o que pode ocorrer e ainda dimensiona a chance de ocorrência de cada uma das possibilidades. Entende-se por "chance" a medida da ocorrência das circunstâncias favoráveis. 10.2. Experimento aleatório Um experimento pode ser pensado como um teste para se demonstrar uma afirmativa, para examinar a validade de uma hipótese, ou para se determinar a eficácia de alguma coisa nunca tentada previamente. A conduta de um tal teste constitui um experimento. Um bom exemplo de experimento é o ato de jogar uma moeda sobre uma superfície plana e anotar o resultado (cara ou coroa), assim como o lançamento de um dado ou o sorteio cego de uma bola a partir de uma urna com múltiplas bolas coloridas. Um ingrediente fundamental na teoria da probabilidade é a noção de um experimento que, ao menos hipoteticamente, pode ser repetido sob condições essencialmente idênticas, porém conduzindo a resultados diferentes em tentativas 76 diferentes. Em outras palavras, trata-se de uma situação onde, para todos os fins práticos, causas iguais geram (ou podem gerar) efeitos diferentes. Quando se diz ser possível repetir um experimento sob condições essencialmente idênticas, naturalmente está-se pensando no controle de um certo número de fatores. É claro que seria impossível controlar absolutamente todos os fatores em questão. Na realidade, são justamente esses fatores não controlados (também chamados de variáveis de confusão, variáveis estranhas ou variáveis espúrias) que irão constituir a aleatoriedade do fenômeno. Esta é uma forma de visualizar o conceito. Tome-se, por exemplo, o caso do .lançamento de uma moeda. De um lançamento para o outro, não se pode garantir que as condições sejam exatamente as mesmas. A exata posição inicial dos objetos e personagens envolvidos, bem como a intensidade e direção precisas da força de lançamento, não serão rigorosamente as mesmas. As condições gerais, contudo, tais como a moeda, o indivíduo que faz o lançamento e a mesa. podem ser idênticas, mas muitos fatores simplesmente não serão controlados. Caso tudo fosse absolutamente controlado, então poder-se-ia supor que os resultados seriam os mesmos, ou talvez nem assim, visto que, aparentemente, existem incertezas fundamentais no universo, tais como as que são evidenciadas no fenômeno quântico. O conjunto de todos os resultados possíveis em um experimento é denominado de espaço amostral (S). A soma de todos os resultados em um espaço amostra tem uma probabilidade de 1,0. Como todos os resultados tem a mesma probabilidade de ocorrência, qualquer um deles é igual a 1 dividido pelo número total de resultados possíveis. Qualquer conjunto de resultados de um experimento denomina-se evento (e). Sendo evento um subconjunto de S, indica-se os eventos por letras maiúsculas: A. B, C, .. Exemplo 7.1 No experimento lançar um dado: Espaço amostral será o conjunto S = {1, 2, 3, 4, 5, 6}. Seja o evento A: sair um número par. Assim, A = {2, 4, 6}. Evento simples é aquele formado por um único do espaço amostral, ao passo que o evento composto c aquele que possui mais de um elemento. No exemplo acima A é composto. 77 Diante das explicações sobre o conceito de eventos, nota-se que S (espaço amostrai) e φ (conjunto vazio) também são eventos, e são chamados respectivamente evento certo e evento impossível. Assim, o evento obter um naipe na retirada de uma carta é um evento certo. Enquanto que obter um sete no lançamento de um dado constitui um evento impossível. 10.3. Cálculo das probabilidades Uma das características dos fenômenos aleatórios é a imprevisibilidade. Na impossibilidade de prever exatamente qual dos resultados ocorrerá numa repetição isolada de um fenômeno aleatório, mede-se o grau de confiança de um determinado resultado pelo cálculo de probabilidade. A probabilidade de ocorrência de determinado evento pode ser estabelecido de duas formas diferentes: método clássico e método das freqüências relativas. O símbolo P é empregado para designar a probabilidade de um evento. Assim. P(A) denota a probabilidade de ocorrência do evento A em uma só observação ou experimento. Método clássico. Quando se supõe que os eventos elementares têm certa chance de ocorrência. As probabilidades são teóricas e determinadas independentemente da realização ou não do experimento. A probabilidade de ocorrência do evento A, é dada por: ] [ ] [ ) ( possíveis eventos de número favoráveis eventos de número N n A P = = O método clássico é também chamado de a priori, porque ele permite determinar as probabilidades antes da ocorrência dos eventos e até independentemente deles ocorrerem ou não. Assim, a probabilidade de dar cara num lançamento de uma moeda é /para toda e qualquer moeda, lançada ou não, pelo simples fato de que as moedas têm duas faces, das quais uma é cara. As únicas observações feitas são: a moeda é honesta e ela nunca cai de pé. Exemplo 7.2 Qual a probabilidade de aparecer uma face par no lançamento de um dado? Solução: 78 Seja A o evento: (aparecer um número par). Então A = {2, 4, 6}, ou seja, n = 3 (número de resultados favoráveis). O número de resultados possíveis, N = 6, pois o espaço amostral desse experimento é S = {1, 2, 3, 4, 5, 6}. Portanto: 2 1 6 3 ) ( = = par P Logo, a probabilidade de aparecer um número par no lançamento de um dado é 1/2, 0,5 ou 50% (a primeira maneira de expressar a resposta é a mais comum). Método das freqüências relativas. A probabilidade de ocorrência de certo evento A é igual à freqüência relativa observada nas experimentações ou observações passadas e a rigor, só se aplicam a elas. Pode ser utilizado para a avaliação de eventos futuros que tenham razoável semelhança com os passados. Se tal não ocorrer, os resultados podem ser totalmente inválidos. Assim, a probabilidade de ocorrência do evento A é dada por: n A realizada foi eriência a que vezes de número ocorreu que vezes de número N n A P = = = ] exp [ ] [ ) ( Esse método e denominado a posteriori porque as probabilidades somente são determinadas após a ocorrência do evento ou experimento. Desse modo, as probabilidades podem mudar com novos experimentos. O método das freqüências pressupõe que os resultados do passado são representativos e que servem de estimativa para o que se espera do futuro. Entretanto, deve-se ter sempre em mente que a "realidade" não tem memória nem compromisso com o passado, podendo diferir significativamente dele. Retomando o caso do lançamento da moeda, aqui não há restrição alguma; ela tanto pode ser viciada como cair em pé, que não há mudança de resultados. Esse conceito, do ponto de vista prático, é importante porque permite estimar a probabilidade de um evento a partir de observações. O teorema de Bernoulli, mais conhecido como a Lei dos Grandes Números, afirma que, numa série imensa de experimentos, a freqüência relativa de um evento se aproxima cada vez mais da sua probabilidade. Em outras palavras, quando se repete um experimento um número suficientemente grande de vezes é possível, na equação acima, as expressões "Freqüência Relativa" e "Probabilidade" podem ser intercambiáveis com erro desprezível. Assim, dada uma longa série de experimentos, pode-se calcular a probabilidade de um evento ou então dada a probabilidade de um evento, se pode calcular o número de vezes que ele deve ocorrer numa longa série de tentativas. A Lei dos Grandes Números é válida para qualquer tipo de experimento aleatório, de modo que, substituindo-se o "lançamento de um dado" por um resultado 79 observacional ou experimental qualquer, se pode ter, numa série longa de registros, a probabilidade de um diagnóstico específico, de um determinado achado laboratorial ou de um certo desenvolvimento clínico. E interessante notar, contudo, que o número de observações precisa ser grande o suficiente para que se possa ter uma precisão aceitável para a probabilidade estimada, o que costuma implicar em números realmente "grandes", como sugere o nome da Lei. 10.4. Eventos mutuamente exclusivos Dois ou mais eventos são mutuamente exclusivos quando a realização de um exclui a realização do(s) outro(s). Assim, no lançamento de uma moeda, o evento "tirar cara" e o evento "tirar coroa" são mutuamente exclusivos, já que, ao se realizar um deles, o outro não se realiza. Se dois eventos são mutuamente exclusivos , a probabilidade de que um ou outro se realize é igual à soma das probabilidades de que cada um deles se realize: P(A UB2) = P(A ou B) = P(A) + P(B) Exemplo: No lançamento de um dado qual a probabilidade de se tirar o nº 3 ou o nº 4 ? Os dois eventos são mutuamente exclusivos então: P = 1/6 + 1/6 = 2/6 = 1/3 10.5. Eventos independentes Dizemos que dois eventos são independentes quando a realização ou a não-realização de um dos eventos não afeta a probabilidade da realização do outro e vice-versa. Dois eventos A e B são ditos independentes se:: Por exemplo, quando lançamos dois dados, o resultado obtido em um deles independe do resultado obtido no outro. Se dois eventos são independentes, a probabilidade de que eles se realizem simultaneamente é igual ao produto das probabilidades de realização dos dois eventos. Assim, sendo p 1 a probabilidade de realização do primeiro evento e p 2 a probabilidade de realização do segundo evento, a probabilidade de que tais eventos se realizem simultaneamente é dada por: p = p 1 x p 2 Exemplo: Lançamos dois dados. A probabilidade de obtermos 1 no primeiro dado é: p 1 = 1/6 80 A probabilidade de obtermos 5 no segundo dado é: p 2 = 1/6 Logo, a probabilidade de obtermos, simultaneamente, 1 no primeiro e 5 no segundo é: p = 1/6 x 1/6 = 1/36 10.6. Regras das probabililidades Duas importantes regras ajudam a responder as questões mais comuns com a relação a probabilidades de eventos compostos (aqueles compostos de dois ou mais eventos individuais). Essas são as regras da multiplicação e a regra da soma. 10.6.1. Regras da multiplicação Dois eventos são independentes quando a ocorrência de um evento não tem efeito algum na probabilidade de ocorrência de outro evento. Os resultados de lançamentos sucessivos de uma moeda ilustra os eventos independentes, uma vez que o resultado de um lançamento não tem efeito algum nas probabilidades de ocorrência no segundo lançamento. Para determinar a probabilidade de ocorrência de dois eventos independentes, emprega-se a regra da multiplicação. A regra da multiplicação estabelece que a probabilidade de ocorrência de dois eventos independentes. A e B. é igual ao produto das probabilidades dos eventos individuais. Simbolicamente: P(A e B) = P(A) * P(B) Exemplo 7.4 No lançamento de duas moedas, qual é a probabilidade de ocorrência de "cara" tanto na primeira moeda (C 1 ) como na segunda moeda (C 2 )? P ሺC ଵ e C ଶ ሻ ൌ ሾP ሺC ଵ ሻሿ ሾPሺC ଶ ሻሿ ൌ ൬ 1 2 ൰ ൬ 1 2 ൰ ൌ 1 4 Exemplo 7.5 Supor que a probabilidade de um motorista ter um acidente em um ano é 1/10. Qual é a probabilidade que dois motoristas, escolhidos aleatoriamente, terem um acidente por ano cada um? 81 ܲ ൌ ൬ 1 10 ൰ ൬ 1 10 ൰ ൌ 1 100 10.6.2. Regras de adição Para determinar a probabilidade de ocorrer um evento ou outro (ou ambos) em uma só observação emprega-se a regra de adição. A regra de adição estabelece que a probabilidade de ocorrência do evento A ou evento B (ou ambos) é a soma das probabilidades de cada evento individual menos a probabilidade da ocorrência de A c B simultaneamente. Simbolicamente: P(A ou B) = P(A) + P(B) - P(A e B) A razão da subtração de P(A e B) é que alguns elementos estão incluídos tanto em A como em B; desse modo existe uma superposição desses dois conjuntos de eventos. Quando as áreas incluídas em A e em B são adicionadas em tais eventos não mutuamente exclusivos, a área de superposição é contada em dobro. Esse raciocínio c mostrado no diagrama de Venn. Exemplo 7.6 No lançamento de duas moedas. a probabilidade de ocorrer "cara" na primeira moeda (H 1 ),a segunda (H 2 ) ou em ambas (H 1 H 2 ) é dada por: P(H 1 ou H 2 ) = 4 3 4 1 2 1 2 1 = − − Exemplo 7.7 Qual é a probabilidade de obter 3 ou 4 em um lançamento de um dado? Pela regra de edição tem-se: ܲሺ3 ݋ݑ 4ሻ ൌ ܲሺ3ሻ ൅ܲሺ4ሻ െ ܲሺ3 ݁ 4ሻ ൌ 1 6 ൅ 1 6 െ 0 ൌ 1 3 Relembrando: quando os dois exemplos são mutuamente exclusivos a probabilidade dos dois eventos ocorrer é igual a zero . Ao obter um 3, foi excluída a probabilidade de se obter 4. Do mesmo modo, é impossível obter simultaneamente uma “cara” e uma “coroa” em um lançamento de uma moeda. Desse modo a regra de adição é simplificada quando os eventos são mutuamente excessivos. A regra torna-se: P( A ou B ou ambos ) = P(A) + P(B) Exemplo 7.8 82 Em determinada comunidade a probabilidade das mulheres sobreviverem até 65 anos é, aproximadamente. 8/10, ou seja, P(M 65 ) = 8/10. A probabilidade que um homem sobreviver até 65 anos de idade é, aproximadamente,2/3, isto é, P(H 65 ) = 2/3. Qual é a probabilidade de uma mulher morrer antes dos 65 anos? Utilizando uma das propriedades dos eventos mutuamente exclusivos (v. acima) tem-se que a probabilidade de uma mulher morrer antes dos 65 anos, P(M m ), é calculada pela subtração da probabilidade de sobreviver aos 65 anos de 1 PሺM ୫ ሻ ൌ 1 െPሺM ଺ହ ሻ ൌ 1 െ 8 8 ൌ 0,2 Continuando com o exemplo pode-se calcular outras probabilidades aplicando as regras da multiplicação e adição: 1. A probabilidade de tanto homens como mulheres sobreviverem até aos 65 anos: P ൌ PሺH ଺ହ ሻPሺM ଺ହ ሻ ൌ ൬ 2 3 ൰ ൬ 8 10 ൰ ൌ 0,533 2. A probabilidade de somente os homens sobreviverem até aos 65 anos: P ൌ PሺH ଺ହ ሻPሺM ୫ ሻ ൌ ൬1 െ 8 10 ൰ ൌ 0,13 3. A probabilidade de só a mulheres sobreviverem até aos 65 anos: P ൌ PሺH ଺ହ e H ୫ ሻ ൌ PሺH ୫ ሻ ൌ 8 10 ൬1 െ 2 3 ൰ ൌ 0,267 4. A probabilidade que ao menos um dos dois sobreviverá até aos 65 anos de idade: P= P(um ou ambos estarão vivos) P = P (M 65 e H 65 ) + P (H 65 eM m ) + P (H 65 eM m ) = 0,533 + 0,133 + 0,267 = 0,933. Essa resposta pode também ser obtida pelo cálculo da probabilidade do complemento de morte tanto de homens como mulheres, que é, 1 െPሺH ୫ e M ୫ ሻ ൌ 1 െ 1 3 X 2 10 ൌ 0,933 10.7. Probabilidade condicional Quantifica a "chance" de dois eventos dependentes e não excludentes ocorrerem em certa ordem. A expressão P(A|B) indica a probabilidade de ocorrer o evento A, dado que tenha ocorrido o evento B. A expressão algébrica para calcular a probabilidade condicional de A após ter ocorrido B 6: 83 P൫A |B൯ ൌ ୔ሺ୅ ୣ ୆ሻ ୔ሺ୆ሻ desde que P (B) não seja igual a zero. A linha vertical em P(AJB) é lida "dado". Exemplo 7.9 A partir da tabela abaixo onde são descritos os dados referentes a mães que pararam de fumar durante a gravidez relacionada ao nível de instrução, pode-se calcular várias probabilidades. Nível de inscrição Primeiro grau Segundo grau Terceiro grau Total % Parou 350 204 214 768 18.8 Não 1905 732 670 3307 81,2 parou Total 2255 936 884 4075 100 Por exemplo, se A é o evento "parar de fumar durante a gravidez" e B é o evento "todas as mães pesquisadas", têm-se: PሺAሻ ൌ 768 4075 ൌ 0,188 é a probabilidade de selecionar uma mãe que parou de fumar. A probabilidade de selecionar uma mãe com terceiro grau é PሺBሻ ൌ 884 4075 ൌ 0,2169 é a probabilidade de selecionar uma mãe que tanto parou de fumar como tem terceiro grau é. PሺA A Bሻ ൌ 214 4075 ൌ 0,0525 A probabilidade condicional de parar de fumar durante a gravidez dado que a mãe tem terceiro grau é obtido pelo emprego da seguinte fórmula: ܲ൫ܣ| ܤ൯ ൌ ܲሺܣ ܣ ܤሻ ܲሺܤሻ ൌ 0,0525 0,2169 ൌ 0,242 Notar que a probabilidade obtida peio emprego da fórmula. P(A/B) = 0.242, é a mesma obtida diretamente a partir das freqüências na tabela, 214 884 ൌ 0,242 Para eventos dependentes, a probabilidade de ocorrência conjunta de A e B é a probabilidade de A multiplicada peia probabilidade condicional de B dado A. Ou seja P( A e B) = P(A) P (B|A) 84 Essa Fórmula é frequentemente chamada de regra geral da multiplicação, porque para eventos independentes, o valor da probabilidade condicional. P(B|A), seria o mesmo que o respectivo valor da probabilidade não-condicional. P(B), que então corresponderia à fórmula P(A e B) = P(A) P (B) para eventos independentes. Essas duas probabilidades não são as mesmas a menos que os dois eventos sejam independentes. Para o exemplo 7.6 os eventos A e B não são independentes visto que P(A|B) = 0,242 não é igual a P(A) = 0.1885. 10.8. Permutações Ao determinar o número de maneiras pelas quais um grupo de objetos podem ser arranjados, deve-se inicialmente conhecer se a ordem desses objetos segue alguma regra. Por exemplo, a ordem de arranjos de uma pessoa perder os dentes é importante, mas a ordem de seleção de um grupo de pessoas para constituir uma comissão não é, pois qualquer ordem resulta na mesma comissão. Permutar é (re)ordenar os elementos de um conjunto numa seqüência previamente definida. Ou seja. é uma seleção de objetos de um grupo de n objetos. levando em conta a ordem de seleção. O número de diferentes maneiras pêlos quais n objetos podem ser; arranjados é dado por n!. O símbolo n!: designa "fatorial de n": n! (fatorial do número n) é igual ao produto de todos os números naturais, começando em n e terminando em 1. Por definição. 0! = 1. Exemplo 7.10 Para identificar os frascos de uma medicação emprega-se três diferentes símbolos, x, y e z. Quantos são os modos diferentes dos frascos serem identificados? A resposta é 3! = 3 x 2 x 1 = 6 Os seis modos diferentes de identificação são xyz, xzy, yxz, yzx, zxy e zyx. Geralmente há interesse no número de permutações de algum subgrupo dos n objetos. Ou seja. há interesse no número de permutações de n objetos tomados r de cada vez. onde r é menor do que n: ܲ ሺ݊, ݎሻ ൌ ݊! ሺ݊ െݎሻ! Exemplo 7.11 85 Supor a existência de três maneiras efetivas de tratamento de um paciente com determinado tipo de câncer - cirurgia (C), radioterapia (R) e quimioterapia (Q) - quais os diferentes modos de tratar o paciente com dois diferentes tratamentos? ܲ ሺ3,2ሻ ൌ 3! ሺ3 െ2ሻ! ൌ 3 ܺ 2 ܺ1 1 ൌ 6 ou CR, RC, QC, CQ, RQ e QR. 10.9. Combinações Nas combinações interessa o número de arranjos de diferentes agrupamentos de objetos que podem ocorrer sem levar em consideração a ordem, como a seleção de livros em uma estante. Uma combinação e uma seleção de um subgrupo de objetos distintos, onde a ordem não é importante. A equação para a obtenção do número de combinações para selecionar r objetos a partir n objetos é: ܥ ሺ݊, ݎሻ ൌ ݊! ݎ! ሺ3 െ2ሻ! onde C denota o número total de combinações dos objetos. Exemplo 7.12 Três pacientes picados por serpente foram conduzidos a um pronto-socorro. O plantonista descobre só possuir duas doses de anti-ofídico. Os três pacientes são: uma mulher grávida (M), uma criança (C) e um idoso (I). Antes de decidir qual dos dois tratar, ele examina as chances existentes: ܥ ሺ3,2ሻ ൌ 3! 2! ሺ3 െ2ሻ! ൌ 3 ܺ 2 ܺ 1 2ܺ1 ൌ 3 As três escolhas são: MC, MI, Cl. Notar que CM, M e IC são as mesmas das primeiras três pois a ordem não é importante. 86 Vocabulário Combinações Eventos mutuamente exclusivos Permutações Probabilidade Probabilidade condicional Regra da multiplicação Regra de adição Questões de revisão 1. Definir distribuição de probabilidade de uma variável aleatória discreta. 2. Definir distribuição de probabilidade de uma variável aleatória continua. Exercícios 7.1. Duas moedas são lançadas e os resultados observados. Calcular as probabilidades de observar zero "cara", uma "cara" e duas "caras". 7.2 Uma moeda não viciada é lançada três vezes e o número de "caras" é observada. Determinar a probabilidade de observar: A. Exatamente duas "caras" B. No máximo duas "caras" 7.3 Um casal planeja ter três filhos. Encontrar as seguintes possibilidades: A. Dois do sexo masculino e um do sexo feminino B. Nenhum do sexo feminino C. Dois do sexo masculino seguidos por um do sexo feminino 7.4 Uma bola é retirada aleatoriamente de uma caixa conferido 10 bolas vermelhas, 30 bolas brancas, 20 bolas azuis e 15 bolas laranjas. Calcular as seguintes probabilidades: A. Laranja ou vermelha B. Não azul C. Vermelha ou branca ou azul 87 7.5 Em um experimento envolvendo uma substância tóxica, a probabilidade que um rato branco permaneça vivo por 10 horas é 7/10, e a probabilidade que um rato preto permaneça vivo por 10 horas é 9/10. Encontrar a probabilidade que, no final de 10 horas, A. Ambos estarão vivos B. Somente o rato preto estará vivo C. Ao menos um rato estará vivo 7.6 De quantas maneiras podem ser arranjados cinco cubos coloridos em uma linha? 7.7 De quantos modos diferentes pode ser escolhida uma comissão de cinco pessoas a partir de nove candidatos? 7.8 Usando os dados da tabela abaixo com a relação da pressão sanguínea sistólica de fumantes e não-fumantes onde os eventos: A = um não-fumante, B= um fumante e C = uma "pressão sanguínea sistólica de 170 ou mais. Encontrar: A. P(A) B. P(B) C. P(C) D. P(C|A) E. P(C|B) F. Comparar a D e E (comentar). O "status" de fumante e nível depressão sanguínea são independentes? Não fumantes Fumantes Pressão sanguínea i f i f Total 90-109 10 5 15 110-129 24 15 39 130-149 18 10 28 150-169 9 3 12 170-189 2 2 4 190-209 0 2 2 Total 63 37 100 88 11. Distribuições de probabilidade Uma importante aplicação da estatística é a estimação das probabilidades de ocorrência de diferentes eventos. Por exemplo, pode-se desejar saber a probabilidade de ter uma família de três meninos e uma menina ou a probabilidade de sete entre dez pacientes serem curados com determinado medicamento. Conhecendo-se as várias probabilidades associadas com diferentes desfechos de um dado fenômeno, pode-se determinar quais os desfechos são comuns e quais não são. Assim é possível decidir se certos eventos são significantes. A lista completa de todos os desfechos possíveis, juntamente com a probabilidade de cada um, constitui uma distribuição de probabilidade. As distribuições de probabilidade são modelos matemáticos para as distribuições reais de freqüências. São modelos teóricos construídos na expectativa de explicar a realidade. Essas distribuições teóricas de probabilidade permitem solucionar a maioria dos problemas práticos de estatística. Ou seja. a partir dessas distribuições é possível fazer inferências sobre dados observados, permitindo generalizações, comparações ou previsões, acerca de fenômenos aleatórios. Os desfechos de eventos podem ser descritos numericamente (ex.: número de três meninos em uma família). O símbolo X geralmente denota a variável de interesse. Essa variável pode assumir qualquer valor numérico e é denominada variável aleatória, assim chamada pois seus valores são determinados por processos ao acaso que não estão sob o controle do observador. Desse modo. pode-se dizer que uma distribuição de probabilidade é uma lista de probabilidades associadas com os valores de uma variável aleatória obtidos em um experimento. As variáveis aleatórias podem ser discretas ou contínuas. 1. Distribuições discretas de probabilidade. A distribuição de probabilidade de uma variável aleatória discreta (dados contáveis ou enumeráveis) é uma tabela, gráfico, fórmula ou outro dispositivo empregado para especificar todos os possíveis valores da variável junto com suas respectivas probabilidades. São exemplos de específicos modelos discretos de probabilidade, as distribuições de probabilidade binomial e de Poisson. 2. Distribuições contínuas de probabilidade. Quando a variável aleatória for contínua (pode assumir qualquer valor fracionário dentro de um intervalo definido de valores). As probabilidades são determinadas por uma função matemática e descritas por uma função de densidade ou por uma curva de probabilidade. Entre as distribuições de 89 probabilidade de variáveis contínuas, algumas são de essencial importância para a estatística: distribuição normal, distribuição de t e distribuição F de Snedecor. Conhecida a distribuição de probabilidade de um fenômeno aleatório considerado, é possível a resolução de dois problemas da inferência estatística: a estimação de parâmetros e os testes de hipóteses. 11.1. Distribuições discretas de probabilidade A distribuição de probabilidade de uma variável aleatória discreta (dados contáveis ou enumeráveis) é uma tabela, gráfico, fórmula ou outro dispositivo empregado para especificar todos os possíveis valores da variável junto com suas respectivas probabilidades. São exemplos de específicos modelos discretos de probabilidade as distribuições de probabilidade binomial de Poisson. Objetivos 1 Descrever as propriedades de uma distribuição binomial. 2 Calcular as propriedades usando a distribuição binomial. 3 Descrever o processo de Bernoulli. 4 Identificar os componentes da fórmula binomial. 5 Identificar os componentes da fórmula de Poisson. 11.2. Distribuição binomial A distribuição binomial é uma distribuição discreta de probabilidade em que a variável aleatória envolvida é enumerável ou contável. Estuda o comportamento amostrai de eventos dicotômicos (ex.: masculino/feminino, curado/não-curado, infectado/não- infectado). A distribuição binomial é aplicável sempre que o processo de amostragem é do tipo do de Bernoulli. 11.2.1. Hipóteses do modelo Binomial 1. O experimento é repetido n vezes nas mesmas condições. 2. Os resultados das repetições são independentes, ou seja, uma repetição não interfere nas subseqüentes. 90 3. Cada repetição admite apenas dois resultados: sucesso ou fracasso. 4. As probabilidades de sucesso “p” e de insucesso “q” (q=1-p) se mantêm constantes durante as repetições. Teorema: Se X é uma variável aleatória com um comportamento Binomial, então a probabilidade de X assumir um dos valores do conjunto X(S) é calculada por: ( ) k n x k n k n n! f (x) P(X k) .p .q .p .q k n k !.k! − − | | = = = = | − \ ¹ , para k = 0, 1, 2, ..., n. Para a melhor compreensão exemplifica-se que a probabilidade de nascer uma criança do sexo masculino é p = 1/2. Como o sexo é uma variável binária, considera-se que a probabilidade de nascer uma criança do sexo feminino é q = l - 1/2 = 1/2. Na distribuição binomial a média é igual ao número de eventos estudados vezes a probabilidade de ocorrência do evento. Ou seja: µ = np. O desvio padrão é igual a raiz quadrada do produto: n x p x g. Ou, expresso pela fórmula: ો ൌ ඥܖܘܙ. Pode-se empregar a distribuição binomial para determinar a probabilidade de se obter um dado número de sucessos (k) em um processo de Bernoulli. A fórmula empregada é ( ) k n k n! f (x) P(X k) .p .q n k !.k! − = = − n = é o número de tentativas ou repetições do experimento k = é o número/proporção/freqüência desejada de sucessos n-k = é o número/proporção/freqüência esperada de fracassos P = é a probabilidade/proporção/freqüência de sucessos q=l-p = é a probabilidade/proporção/freqüência de fracassos O símbolo ! indica o fatorial de um número inteiro, ou seja, o produto de todos os números naturais desde um até esse número; "fatorial de n" é definido como n! = n * (n-I) * (n-2) * ... * 1. Por definição. O! = I. Ex.: 4! = 4 * 3 * 2 * l = 24. A distribuição binomial dada pela fórmula acima, c determinada pelo número de tentativas, e a probabilidade p de sucesso numa tentativa isolada. Os símbolos n e p são denominados parâmetro da distribuição. 91 Exemplo 8.1 Admite-se que a probabilidade de nascimento de um menino, como também de uma menina, é igual 1/2. Quais são as probabilidades em uma família de seis filhos de ter O, I, 2, 3, 4, 5 e 6 crianças do sexo masculino? (M = masculino; F = feminino) 6! 0! ሺ6 െ0ሻ! ൬ 1 2 ൰ ଴ ൬ 1 2 ൰ ଺ି଴ ൌ 1 64 ൌ 0,0156 ሺou 1,56%ሻpara 6M e 0F 6! 1! ሺ6 െ1ሻ! ൬ 1 2 ൰ ଶ ൬ 1 2 ൰ ଺ିଵ ൌ 20 64 ൌ 0,0937 ሺou 9,37%ሻpara 5M e 1F 6! 2! ሺ6 െ2ሻ! ൬ 1 2 ൰ ଶ ൬ 1 2 ൰ ଺ିଶ ൌ 20 64 ൌ 0,2343 ሺou 23,43%ሻpara 4M e 2F 6! 3! ሺ6 െ3ሻ! ൬ 1 2 ൰ ଷ ൬ 1 2 ൰ ଺ିଷ ൌ 20 64 ൌ 0,3125 ሺou 31,25%ሻpara 3M e 3F 6! 4! ሺ6 െ4ሻ! ൬ 1 2 ൰ ସ ൬ 1 2 ൰ ଺ିସ ൌ 15 64 ൌ 0,2343 ሺou 23,43%ሻpara 2M e 4F 6! 5! ሺ6 െ5ሻ! ൬ 1 2 ൰ ହ ൬ 1 2 ൰ ଺ିହ ൌ 6 64 ൌ 0,0937 ሺou 9,37%ሻpara 0M e 5F 6! 6! ሺ6 െ6ሻ! ൬ 1 2 ൰ ଺ ൬ 1 2 ൰ ଺ି଺ ൌ 1 64 ൌ 0,0156 ሺou 1,56%ሻpara 0M e 6F A probabilidade de que numa família de 6 filhos, 5 ou mais sejam do sexo masculino,e a soma das probabilidades de 5 e 6 filhos do sexo masculino, isto é, 0,0937 + 0,0156 = 0,1093. Cerca de 10% das famílias de 6 filhos tem 5 ou mais meninos. Parâmetros binomial. A distribuição binomial tem dois parâmetros, e p. São parâmetros no sentido em que são suficientes para especificar uma distribuição binomial. Na realidade, a distribuição binomial é uma família de distribuições cada uma com valores específicos para n e p. A média e a variância da distribuição binomial são: µ = np e o2 = np(l -p), respectivamente Para a distribuição de freqüências de famílias de 6 filhos, do exemplo acima, com 6, 5, 4, 3, 2, l ou 0 filhos do sexo masculino, a média é,evidentemente, (6)(l/2) = 3. A variância é (6)( l/2)( 1/2) = 1,5 e o desvio padrão é ඥ1,5 ൌ 1.22 Exemplo 8.2 92 Considerando k como sendo a VAD igual a “número de vezes que ocorre face cara em 5 lançamentos de uma moeda equilibrada”, determinar a probabilidade de ocorrer: (a) Duas caras (b) Quatro caras (c) No máximo duas caras Solução: Neste caso, tem-se: n = 5 = número de lançamentos. k = número de caras nos 5 lançamentos ⇒ X(S) = { 0, 1, 2, 3, 4, 5 } p = P(Cara em 1 lançamento ) = 0,50, pois a moeda é equilibrada. Logo q = 1 - p = 0,50 Então: k k f(x) = P(X = x) = . , . , , para k = 0, 1, 2, 3, 4, 5 k − | | | \ ¹ 5 5 0 5 0 5 (a) P(X = 2) = . , . , = 10.0,25.0,125 = 31,25% − | | | \ ¹ 2 5 2 5 0 5 0 5 2 (a) P(X = 2) = . , . , = 10.0,25.0,125 = 31,25% − | | | \ ¹ 2 5 2 5 0 5 0 5 2 (c) P(X 2) = . , . , . , . , . , . , = 0,55 + 5.0,55 + 10.0,55 = 50% − − − | | | | | | ≤ + + | | | \ ¹ \ ¹ \ ¹ 0 5 0 1 5 1 2 5 2 5 5 5 0 5 0 5 0 5 0 5 0 5 0 5 0 1 2 11.2.2. Propriedades da distribuição binomial A vantagem de se ter um modelo conhecido é que podemos determinar suas características de um modo geral. Assim se X é uma VAD com uma distribuição Binomial tem-se: Média, expectância ou valor esperado x n k n µ = E(X) = x.f(x) = x p q np k − | | = | \ ¹ ∑ ∑ , isto é, a média de uma variável aleatória com distribuição binomial é igual ao produto dos parâmetros “n” e “p“. Variância 93 − | | = − = | \ ¹ 2 2 2 2 x n x n σ E(X) µ Ex p q npq, x isto é, a variância de uma variável aleatória com distribuição binomial é igual ao produto dos parâmetros “n” e “p” e multiplicados ainda por “q”. O desvio padrão = σ npq Exemplo 8.3 A probabilidade de um exemplar defeituoso com que opera certo processo produtivo é de 10%. Considerando k a variável “número de unidades defeituosas em uma amostra ocasional de 20 unidades, determinar: (a) O número médio de item defeituosos na amostra. (b) O desvio padrão do número de item defeituosos na amostra. Solução: (a) E(X) = np = 20.0,10 = 2 itens defeituosos (b) = = = 20 0 10 0 90 1 80 σ npq . , . , , = 1,34 itens defeituosos. Exemplo 8.4 Num determinado processo de fabricação 10% das peças são consideradas defeituosas. As peças são acondicionadas em caixas com 5 unidades cada uma. (a) Qual a probabilidade de haver exatamente 3 peças defeituosas numa caixa? (b) Qual a probabilidade de haver duas ou mais peças defeituosas numa caixa? (c) Se a empresa paga uma multa de R$ 10,00 por caixa em que houver alguma peça defeituosa, qual o valor esperado da multa num total de 1000 caixas? Solução: a) ( ) | | = = = | \ ¹ 3 2 5 3 0 10 0 90 3 P(X ) . , .( , ) 10.0,001.0,81 = 0,81% b) P(Duas ou mais defeituosas) = P(X = 2) + P(X = 3) + P(X = 4) + P(X = 5). Ao invés de calcular desta forma é mais conveniente utilizar o complementar. Assim: P(X ≥ 2) = 1 - P(X ≤ 1) = 1 - [P(X = 0) + P(X = 1)] = 1 - (0,5905 + 0,3280] = 8,15% (c) A probabilidade de uma caixa pagar multa é: 94 P(PM) = P(X ≥ 1) = 1 - P(X = 0) = 1 - 0,5905 = 40,95% Neste caso tem-se uma nova Binomial com n = 1000 e p = 40,95%. O número esperado de caixas que vão pagar multa, isto é, com uma ou mais peças defeituosas será: E(PM) = np = 1000.0,4095 = 409,5 caixas. Como cada uma paga R$ 10,00 de multa, o valor total da multa será: PM = R$ 10,00.409,5 = R$ 4 095,00 Aproximação da distribuição binomial à normal. A forma de distribuição binomial aproxima-se da forma da distribuição normal (v. adiante), quando p for pequeno e n for grande. Essa propriedade torna permissível o uso da distribuição normal para cálculos de freqüência relativas e testes de hipóteses, para amostras de populações binomiais. De fato, o cálculo de probabilidades com base na distribuição binomial pode tornar-se penoso para valores altos de n, sendo vantajoso então o emprego da distribuição normal. Não há maior inconveniente nessa substituição, quando p tiver valores entre 0.20 e 0,80, e np e (1-p) forem maiores do que 5. Esperança Matemática de Distribuição Binomial E(X)=n.p Variância de uma Distribuição Binomial V(X) n. p.q 11.3. Distribuição de Poisson Na distribuição binomial, a variável de interesse era o número de sucessos (ocorrências do evento A) em um intervalo discreto (n repetições do experimento E). Muitas vezes, entretanto, o interesse reside no número de sucessos em um intervalo contínuo, que pode ser de tempo, comprimento, superfície, etc. Para se caracterizar uma distribuição que leve em conta o número de sucessos (valores) em um intervalo contínuo, será suposto que: (i) Eventos definidos em intervalos não sobrepostos são independentes; (ii) Em intervalos de mesmo comprimento, são iguais as probabilidades de ocorrência de um mesmo número de sucessos; (iii) Em intervalos muito pequenos, a probabilidade de mais de um sucesso é desprezível; (iv) Em intervalos muito pequenos, a probabilidade de um sucesso é proporcional ao comprimento do intervalo. 95 Se os valores de uma variável satisfazem as hipóteses (i) a (iv) acima se dirá que ela segue um processo de Poisson. Hipóteses do modelo de Poisson 1. A probabilidade de observar apenas um sucesso no intervalo é estável. 2. A probabilidade de observar mais que um sucesso no intervalo é zero. 3. A ocorrência de um sucesso em qualquer intervalo é independente da ocorrência de sucesso em qualquer outro intervalo. A distribuição de Poisson é caracterizada apenas pelo parâmetro λ, que representa o valor esperado ou média, do número de sucessos por intervalo t. Em outras palavras, λ é a taxa de ocorrência dos eventos no intervalo de tempo. Então: λ k e .λ f (x) P(X k) k! − = = = , para k = 0, 1, 2, 3, ... , onde k é o número de eventos que ocorrem em um intervalo sobre o qual se espera uma média λ de ocorrências. Além disso, X pode ser definida como o número de eventos que ocorrem sobre um período de tempo t, substituindo λ na equação acima por λt. Desta forma a distribuição de Poisson pode ser escrita como: λt k e .(λt) f (x) P(X k) k! − = = = , para x = 0, 1, 2, 3, ... A distribuição de Poisson será representada por P(λ). Exemplo 8.5 Em um certo tipo de fabricação de fita magnética, ocorrem defeitos a uma taxa de 1 a cada 2000 metros. Qual a probabilidade de que um rolo com 2000 metros de fita magnética: (a) Não tenha defeitos? (b) Tenha no máximo dois defeitos? (c) Tenha pelo menos dois defeitos? Solução: Neste caso, tem-se: λ = Taxa de defeitos a cada 2000 metros. X = número de defeitos a cada dois mil metros. x = 0, 1, 2, 3, ... 96 Então: λ k e .λ f (x) P(X k) , para k = 0, 1, 2, 3, ... k! = = = a) − = = = = 1 0 1 0 0 367 0 e p(X ) , = 36,79% ! b) − − − ≤ = + + = = 1 0 1 1 1 2 1 1 1 2 0 9197 91 97 0 1 2 e . e . e . P(X ) , , % ! ! ! c) − − − | | ≥ = − ≤ = − + = | \ ¹ 1 0 1 1 1 1 1 2 1 1 1 0 1 e . e . P(X ) P(X ) 1 - 2e =0,2642= 26,42% ! ! Exemplo 8.6 Um dado é formado por chapas de plástico de 10x10 cm. Em média aparecem 50 defeitos por metro quadrado de plástico, segundo uma distribuição de Poisson. (a) Qual a probabilidade de uma determinada face apresentar exatamente 2 defeitos? (b) Qual a probabilidade de o dado apresentar no mínimo dois defeitos? (c) Qual a probabilidade de que pelo menos 5 faces sejam perfeitas? Solução: (a) Em média aparecem: d = 50 defeitos/m2 = 50/10 000 defeitos/cm 2 Como cada face tem a = 10cm x 10 cm = 100 cm2, tem-se então: λ = (50/10000) defeitos/cm2 x 100 cm2 = 0,5 defeitos por face. A probabilidade de uma face apresentar dois defeitos será: − = = = = 0 5 2 0 5 2 0 0758 7 58 2 , e .( , ) P(X ) , , % ! (b) No dado inteiro, a área total será a = 6x100 cm 2 = 600 cm 2 e o número médio de defeitos será então: = 2 2 50 10 000 λ defeitos /cm x 600 cm = 3 defeitos . A probabilidade de o dado apresentar no mínimo dois defeitos será: ≥ = 2 P(X ) P(X = 2) + P(X = 3) + ... = 1 - P(X ≤ 1) = 1 - [P(X = 0) + P(X =1)] = = − − ( | | | | − + = ( | | \ ¹ \ ¹ ¸ ¸ 3 0 3 1 3 3 1 0 1 e . e . 1 - [0,0498 + 0,1494] =0,8008= 80,08% ! ! (c) A probabilidade de pelo menos 5 faces perfeitas é: 97 P(Y ≥ 5) = P(Y = 5) + P(Y = 6). A probabilidade de uma face ser perfeita é a probabilidade de ela não apresentar defeitos, isto é: − = = = = 0 5 0 0 5 0 0 6065 0 , e .( , ) P(X ) , 60,65% ! Tem-se então uma binomial Y com n = 6 (número de faces do dado) e p = 60,65% = probabilidade de uma face ser perfeita. Então a probabilidade de pelo menos 5 perfeitas, será: P(Y ≥ 5) = P(Y = 5) + P(Y = 6) = = ( ) ( ) ( ) ( ) | | | | + + + = = | | \ ¹ \ ¹ 5 1 6 0 6 6 0 6065 0 6065 0 2436 5 6 . , 0 39350 . , 0 39350 , 24,36% 11.3.1. Propriedades da distribuição de poisson Se X for uma VAD com distribuição de Poisson, então: Média, expectância ou valor esperado λ k e .λ µ E(X ) kf (k) x λ k! − = = = = ∑ ∑ 2 Variância λ k e .λ σ E(X ) µ x λ k! − = − = = ∑ 2 2 2 2 O desvio padrão = σ λ 11.4. Relação entre as distribuições Binomial e Poisson Seja X uma variável aleatória discreta com distribuição Binomial de parâmetros “n” e “p”. Isto é: k n k n f (x) P(X k) .p .q k − | | = = = | \ ¹ 98 Admita-se que quando n → ∞ , tenha-se np = α = constante, ou de uma forma equivalente, quando n → ∞ , p → 0, de modo que np → α. Nestas condições tem-se então: λ k k n k n n n e .λ limP(X k) lim .p .q k k! − − →∞ →∞ | | = = = | \ ¹ O teorema diz essencialmente, que é possível obter uma aproximação das probabilidades binomiais com as probabilidades da distribuição de Poisson, toda vez que “n” seja grande e “p” seja pequeno. Exemplo 8.7 Uma amostra de 50 peças é retirada da produção de uma máquina que trabalha com um índice de defeitos de 2%. Determinar a probabilidade de se encontrarem duas peças defeituosas na amostra. Solução: (a) Pela Binomial, tem-se: ( ) P(X ) . , .( , ) , , % | | = = = = | \ ¹ 2 48 50 2 0 02 0 98 0 1857 18 57 2 (b) Usando uma aproximação pela distribuição de Poisson de média µ = np = 50.0,02 = 1,tem-se: e . P(X ) , 18, 39% ! − = = = = 1 2 1 2 0 1839 2 Vocabulário Distribuição binomial Distribuição de Poisson Processo de bernoulli Questões de revisão 1. Que é uma variável aleatória discreta? Dar três exemplos de interesses na área biomédica; 2. Descrever a distribuição binomial; 3. Que é um processo de Bernoilli?; 4. Dar um exemplo de uma variável aleatória que segue a distribuição binimial; 5. Dar um exemplo de uma variável aleatória que segue a distribuição de 99 Poisson. Esperança Matemática da Distribuição de Poisson E(x) = λ Variância da Distribuição de Poisson V(X) λ 100 Exercícios 8.1 Dentre 6.654 partos sucessivos que ocorreram em uma maternidade, e que resultaram em crianças vivas. 50 foram gêmeos e 2 foram de trigêmios. Quais as probabilidades (em percentagem) de nascimentos de gêmeos e de trigêmeos entre recém-nascidos vivos que podem ser estimados a partir desses dados? 8.2 Crianças com determinada doença genética são, quase sempre, filhos de casais assintomáticos que correm um risco de 25% de gerar outra criança com esse defeito. Entre tais casais com 5 filhos, qual o percentual esperado daqueles com a doença genética manifestada em: A. Um filho. B. Três filhos. C. Todos os filhos? 8.3. Um estudo mostrou que 26% da população adulta de determinada cidade é obesa. A partir de uma amostra de 20 adultos, encontrar a probabilidade que o número de obesos nessa amostra será: A. Exatamente três. B. T ré s ou m ais. C. Menor que três. D. Entre três e sete, inclusive. 8.4. Suponha que certa área de uma grande cidade apresente uma média de cinco ratos por quarteirão. Pressupondo que o número de ratos siga a distribuição de Poisson, encontrar a probabilidade que era um quarteirão selecionado ao acaso tenha: A. Exatamente cinco ratos. B. Mais que cinco ratos. C. Menos que cinco ratos. D. Entre cinco e sete ratos, inclusive. 8.5. Se o número médio de acidentes sérios por ano em uma grande (onde o número de empregados permanece constante) é cinco. Encontrar a probabilidade que nesse ano ocorrerá: A. Exatamente sete acidentes. 101 B. Dez ou mais acidentes. C. Nenhum acidente. D. Menos que cinco acidentes. 8.6. Em certa população uma média de 13 novos casos de câncer de esôfago são diagnosticados cada ano. Se a incidência anual segue a distribuição de Poisson, encontrar y probabilidade que em determinado ano o número de novos casos de câncer de esôfago sejam: A. Exatamente 10 B. Menos que 12 C. No mínimo 8 D. Entre 9 e15, inclusive 102 11.5. Distribuições contínuas de probabilidade Quando a variável aleatória for contínua (pode assumir qualquer valor fracionário dentro de um intervalo definido de valores). As probabilidades são determinadas por uma função matemática e descritas por uma função de densidade ou por uma curva de probabilidade. Entre as distribuições de probabilidade de variáveis continuas algumas são de essencial importância para a estatística. Distribuição normal, distribuição t, distribuição do quiquadrado e distribuição F de Snedecor. 11.5.1. Distribuição normal ou Gaussiana É um modelo de distribuição contínua de probabilidade, usada tanto para variáveis aleatórias discretas como contínuas. Uma variável aleatória X, que tome todos os valores reais -∞< x < +∞ tem distribuição normal quando sua função densidade de probabilidade (f.d.p.) for da forma: +∞ < < −∞ | ¹ | \ | − x , σ µ x e σ . π ) x ( f 2 2 1 2 1 Os parâmetros µ e σ seguem as seguintes condições: -∞ < µ < + ∞ e σ > 0 . 11.5.2 - Propriedades da Distribuição Normal a) O aspecto gráfico da função f tem semelhança de um sino, unimodal e simétrico em relação a média µ. b) A especificação da média µe do desvio padrão σ  é completamente evidenciado. c) A área total da curva equivale a 100%. 103 FIGURA 11.1 - Distribuição Normal em função da µ  e σ Esperança Matemática da Distribuição Normal E(X) = µ Variância da Distribuição Normal V(X) = σ² 11.5.3 - Distribuição Normal Padronizada Tem como objetivo solucionar a complexidade da f(x) através da mudança de variável. f(z). FIGURA 11.2 - Complemento da Distribuição Normal Padronizada Fazendo z= σ µ − −− − x e z ~ N(0,1) temos que 104 ∫ ∞ + ∞ − − = 2 2 2 1 z e π ) Z ( f com E(z) = 0 e VAR(z) = 1. onde: z = número de desvios padrões a contar da média x = valor arbitrário µ = média da distribuição normal σ = desvio padrão da distribuição normal Estas probabilidades estão tabeladas e este caso particular é chamado de Forma Padrão da Distribuição Normal. 105 12. DISTRIBUIÇÃO AMOSTRAL DAS MÉDIAS Objetivos 1. Distinguir entre a distribuição de uma população e a distribuição amostrai de médias (DAM). 2. Explicar a importância do teorema central do limite. 3. Identificar os principais pontos do teorema central do limite. 4. Calcular e interpretar o erro padrão da média. 5. Determinar quando usar uma distribuição t. Valores de medidas estatísticas, tais como, a média e o desvio padrão, não são necessariamente iguais aos de outras amostras obtidas de uma mesma população. Essa variação é atribuída a diferenças na composição das amostras aleatórias e é conhecida como variação amostral. A partir do estudo da variabilidade do resultado, de amostra para amostra, c possível construir distribuições de freqüências (distribuições amostrais) que é a base para a inferência estatística. Dada uma população de valores x com distribuição normal, com média µ . e desvio padrão a e dela extraindo-se um grande número de amostras casuais simples de mesmo tamanho n, o cálculo das médias ሺX ഥ ሻ dessas amostras levam a valores para X ഥ diferentes entre si. Essas séries de médias resultantes poderão ser classificadas numa tabela de freqüências e representadas por um histograma. Repetindo-se a amostragem indefinidamente, o histograma tenderá para uma curva que representa a distribuição estatística das médias amostrais, denominada distribuição amostral de médias (DAM) . Obtenção da média das medias Amostra Medias Amostra 1 X ഥ ଵ Amostra 2 X ഥ ଶ Amostra 3 X ഥ ଷ ........... ............ Amostra n X ഥ ୬ Média das médias X ഥ ଡ଼ ഥ ൌ ΣX ഥ /n As propriedades dessas distribuições teóricas conferem um papel importante no processo de inferências estatísticas. A partir dessa distribuição, é possível calcular a 106 média e o desvio padrão da DAM e verificar como estes valores se relacionam com os parâmetros da população. 12.1. Teorema central do limite Pelo Teorema Central do Limite, a distribuição amostrai das médias tende para uma distribuição normal com média (igual a média da população) e com desvio padrão σ/√n (desvio padrão da população dividida pela raiz quadrada do tamanho da amostra). A partir do Teorema Central do Limite obtêm-se: 1. A média da distribuição amostra! das médias (a "média das médias") é igual à média populacional. Ou seja: µ ୶ത ൌ µ 2. O desvio padrão da distribuição amostral das médias é igual ao desvio padrão da população dividida pela raiz quadrada do tamanho da amostra - isto é σ ଡ଼ ഥ ൌ σ √n ou seja. é √n vezes menor que a variação existente na população. 3. A distribuição amostral de médias aproxima-se de uma curva normal. Quando n for bastante grande, a forma de distribuição amostral de médias é, aproximadamente, uma curva normal, qualquer que seja a forma da distribuição populacional da quais as médias foram extraídas (normal ou não). 4. As áreas sob a curva de distribuição amostral de média, são as mesmas da curva normal. Ao redor de 68% das médias estão entre σ െ µ/√n e µ ൅σ/√n, enquanto 95% estão entre µ െ 2σ/√n e µ ൅2σ/√n. A maior parte das amostras tende a estimar os parâmetros populacionais com boa aproximação. Isto justifica a relativa confiança nas inferências baseadas nos dados de observações obtidas de uma amostra. A confiança a ser depositada numa amostra, naturalmente cresce com o aumento de tamanho dessa amostra. Outro aspecto a ser relacionado é, quanto menor a variabilidade mais consistente e reprodutível são os resultados obtidos e, portanto, mais correta a inferência. 107 12.2. Desvio padrão da média (erro padrão da média) É possível estimar o desvio padrão da distribuição amostral de médias a partir de dados fornecidos por uma única amostra. Essa estimativa é conhecida como erro padrão da media ou desvio padrão das médias. O desvio padrão da distribuição amostral de médias é σ ଡ଼ ഥ ൌ σ/√n é igual ao desvio padrão da população original. Na prática o raramente é conhecido, no entanto, pode ser estimado a partir do desvio padrão da amostra; conseqüentemente, a equação usada para calcular o desvio padrão da média é: s ଡ଼ ഥ ൌ s √n ൌ ඨ s ଶ n Exemplo 10.1 Para o exemplo 5.1 (Capítulo 5: Medidas de posição) onde os valores de glicose dados em mg/dL (90, 86, 78, 90, 98, 90, 82, 76, 84) apresentam média: 86: desvio padrão: 6,85; n = 9. A aplicação da equação para o cálculo do desvio padrão da média fornece: dL mg n s S x / 28 , 2 9 85 , 6 = = = 12.3. Distribuição t de “student” A distribuição T ou de "student" (pseudônimo de W. S. Gosset) é uma distribuição teórica de probabilidades, introduzida na metodologia estatística para trabalhar com pequenas amostras (n<30), aleatórias e independentes; a variável observacional precisa ter distribuição normal (na população) e o desconhecido. O valor de t é a medida do desvio entre a média X ഥ , estimada a partir de uma amostra aleatória de tamanho n, e a média µ da população, usando o des ( ) n s s x / = vio padrão da média como unidade de medida i : t ൌ X ഥ െ µ s/√n 108 A diferença fundamental entre as variáveis t e z, está nos respectivos denominadores. O desvio padrão da população o impõe restrições ao uso de z, pois se trata de um parâmetro geralmente desconhecido, ou que deve ser estimado de uma amostra relativamente grande. No denominador de t. entra o desvio padrão s, calculado a partir de amostra formada por um número relativamente pequeno de observações. 12.3.1. Propriedades da distribuição t de student 1. A média é igual a zero. 2. As curvas t são simétricas em torno da média, tem forma de sino e assemelham-se a curva normal, porém mais "achatadas". 3. O intervalo da variável t é: — ∞ a + ∞. 4. A distribuição de t não é descrita por uma distribuição única, como no caso da distribuição normal padronizada, mas por uma família de distribuições. Há uma curva t diferente para cada número de graus de liberdade da amostra (n- 1). 5. A variação de t é maior com amostras pequenas, do que com amostras grandes. Quando n tende para o ∞, o desvio padrão s tenderá para a; consequentemente, a distribuição t aproxima-se da distribuição normal padronizada. Para amostras com n ≥ 30, a distribuição de t é, praticamente, a distribuição normal padronizada. Por outro lado, a medida que os graus de liberdade diminuem, a distribuição t torna-se cada vez mais espalhada em comparação com a norma. Uma distribuição t é apropriada para inferências sobre a média sempre quando a for desconhecido e a população normalmente distribuída, qualquer que seja o tamanho da amostra. A distribuição de t tem como principais aplicações: 1. Estimação aos, intervalos de confiança para a média populacional, 2. Comparação de duas médias pelo teste t. A tabela do Anexo D apresenta os valores de t que delimitam as áreas nos dois extremos da curva de distribuição, para distintos valores de graus de liberdade. As duas áreas nos dois extremos são chamadas regiões críticas ou zonas de rejeição Vocabulário Distribuição amostral de médias Distribuição t de Student 109 Distribuição populacional Graus de liberdade Erro padrão da média Teorema central do limite 110 Exercícios Diversos 1. No lançamento simultâneo de 2 dados, considere as faces voltadas para cima e determine a) espaço amostral S. b) evento E1 : números cuja soma á igual a 5. c) evento E2: números iguais. d) evento E3: números cuja soma é um número par. e) evento E4: números ímpares nos 2 dados. f) evento E5: número 2 em pelo menos 1 dos dados. g) evento E6: números cuja soma é menor que 12. h) evento E7: números cuja soma é maior que 12. i) evento E8: números divisores de 7 nos 2 dados. 2. Um casal planeja ter 3 filhos. Determine os eventos: a) os 3 são do sexo feminino. b) pelo menos 1 é do sexo masculino. c) os 3 do mesmo sexo. 3. Uma urna contém 20 bolinhas numeradas de 1 a 20. Escolhe-se ao acaso uma bolinha e observa-se o seu número. Determine os seguintes eventos: a) o número escolhido é ímpar. b) o número escolhido é maior que 15. c) o número escolhido é múltiplo de 5. d) o número escolhido é múltiplo de 2 e de 3. e) o número escolhido é primo. f) o número escolhido é par e múltiplo de 3. g) o número escolhido é ímpar e múltiplo de 7. 4 Qual a probabilidade de ocorrer o número 5 no lançamento de um dado? 5 Qual a probabilidade de se obter um número par no lançamento de um dado? 6. Um disco tem uma face branca e a outra azul. Se o disco for lançado 3 vezes, qual a probabilidade de a face azul ser sorteda pelo menos uma vez? 7 Um casal planeja ter 3 filhos. Qual a probabilidade de os 3 serem do mesmo sexo? 8.João lança um dado sem que Antônio veja. João diz que o número mostrado pelo dado é par. Qual a probabilidade de Antônio descobrir esse número? 111 9.Um baralho de 12 cartas tem 4 ases. Retiram-se 2 cartas, uma após a outra. Determine a probabilidade de a segunda ser um ás, sabendo que a primeira é um ás. 10.Uma urna tem 10 bolas idênticas, numeradas de 1 a 10. Se retirarmos uma bola da urna, qual a probabilidade de não obtermos a bola número 7 ? 11. Uma urna contém 2 bolas brancas e 5 bolas vermelhas. Retirando-se 2 bolas ao acaso e sem reposição, calcule a probabilidade de: a) as bolas serem de cores diferentes. b) as bolas serem vermelhas. 12. Uma caixa contém 11 bolas numeradas de 1 a 11. Retirando-se uma delas ao acaso, observa-se que ela tem um número ímpar. Determine a probabilidade de esse número ser menor que 5. 13.Uma bola é retirada de um urna que contém bolas coloridas. Sabe-se que a probabilidade de ter sido retirada uma bola vermelha é 5/17. Calcule a probabilidade de ter sido retirada uma bola que não seja vermelha. 14.A probabilidade de que a população atual de um país seja de 110 milhões ou mais é de 95%. A probabilidade de ser 110 milhões ou menos é de 8%. Calcule a probabilidade de ser 110 milhões. 15. Uma urna contém 30 bolinhas numeradas de 1 a 30. Retirando-se ao acaso uma bolinha da urna, qual a probabilidade de essa bolinha ter um número múltiplo de 4 ou 3? 16. Jogando-se um dado, qual a probabilidade de se obter o número 3 ou um número ímpar? 17. Consultadas 500 pessoas sobre as emissoras de tevê que habitualmente assistem, obteve-se o seguinte resultado: 280 pessoas assistem ao canal A, 250 assistem ao canal B e 70 assistem a outros canais, distintos de A e B. Escolhida uma pessoa ao acaso, determine a probabilidade de que ela assista: a) ao canal A. b) ao canal B. c) ao canal A ou ao canal B. 18. Num grupo, 50 pessoas pertencem a um clube A, 70 pertencem a um clube B, 30 a um clube C, 20 pertencem aos clubes A e B, 22 aos clubes A e C, 18 aos clubes B e C e 10 pertencem aos 3 clubes. Escolhida ao acaso uma das pessoas presentes, a probabilidade de ela: a) pertencer aos 3 clubes é 3/5. 112 b) pertencer somente ao clube C é zero. c) pertencer a pelo menos dois clubes é de 60%. d) não pertencer ao clube B é 40%. 19. De uma reunião participam 200 profissionais, sendo 60 médicos, 50 dentistas, 32 enfermeiras e os demais nutricionistas. Escolhido ao acaso um elemento do grupo, qual é a probabilidade de ele ser médico ou dentista? 20. Escolhido ao acaso um elemento do conjunto dos divisores de 30, determinar a probabilidade de que ele seja primo? 21. Uma bola será retirada de uma sacola contendo 5 bolas verdes e 7 bolas amarelas. Qual a probabilidade desta bola ser verde? 22. Três moedas são lançadas ao mesmo tempo. Qual é a probabilidade de as três moedas caírem com a mesma face para cima? 23. Um casal pretende ter filhos. Sabe-se que a cada mês a probabilidade da mulher engravidar é de 20%. Qual é a probabilidade dela vir a engravidar somente no quarto mês de tentativas? 24. Um credor está à sua procura. A probabilidade dele encontrá-lo em casa é 0,4. Se ele fizer 5 tentativas, qual a probabilidade do credor lhe encontrar uma vez em casa? 25. Em uma caixa há 2 fichas amarelas, 5 fichas azuis e 7 fichas verdes. Se retirarmos uma única ficha, qual a probabilidade dela ser verde ou amarela? 26. Alguns amigos estão em uma lanchonete. Sobre a mesa há duas travessas. Em uma delas há 3 pastéis e 5 coxinhas. Na outra há 2 coxinhas e 4 pastéis. Se ao acaso alguém escolher uma destas travessas e também ao acaso pegar um dos salgados, qual a probabilidade de se ter pegado um pastel? 27. O jogo de dominó é composto de peças retangulares formadas pela junção de dois quadrados. Em cada quadrado há a indicação de um número, representado por uma certa quantidade de bolinhas, que variam de nenhuma a seis. O número total de combinações possíveis é de 28 peças. Se pegarmos uma peça qualquer, qual a probabilidade dela possuir ao menos um 3 ou 4 na sua face? 28. Em uma caixa há 4 bolas verdes, 4 azuis, 4 vermelhas e 4 brancas. Se tirarmos sem reposição 4 bolas desta caixa, uma a uma, qual a probabilidade de tirarmos nesta ordem bolas nas cores verde, azul, vermelha e branca? 113 29. Em uma escola de idiomas com 2000 alunos, 500 alunos fazem o curso de inglês, 300 fazem o curso de espanhol e 200 cursam ambos os cursos. Selecionando-se um estudante do curso de inglês, qual a probabilidade dele também estar cursando o curso de espanhol? 30. De uma sacola contendo 15 bolas numeradas de 1 a 15 retira-se uma bola. Qual é a probabilidade desta bola ser divisível por 3 ou divisível por 4? 31. a) a. Qual é a diferença entre as distribuições de Poisson e Binomial? b. Dê alguns exemplos de quando podemos aplicar a distribuição de Poisson. c. Dê a fórmula da distribuição de Poisson e o significado dos vários símbolos. d. Sob que condições pode a distribuição de Poisson ser usada como uma aproximação da distribuição Binomial? Por que isto pode ser útil? 32. Um departamento de polícia recebe em média 5 solicitações por hora. Qual a probabilidade de receber 2 solicitações numa hora selecionada aleatoriamente? 33. A experiência passada indica que um número médio de 6 clientes por hora param para colocar gasolina numa bomba. a. Qual é a probabilidade de 3 clientes pararem qualquer hora? b. Qual é a probabilidade de 3 clientes ou menos pararem em qualquer hora? c. Qual é o valor esperado, a média, e o desvio padrão para esta distribuição? 33. A experiência passada mostra que 1% das lâmpadas incandescentes produzidas numa fábrica são defeituosas. Encontre a probabilidade de mais que uma lâmpada numa amostra aleatória de 30 lâmpadas sejam defeituosas, usando: a. A distribuição Binomial e b. A distribuição de Poisson. 34. Qual a probabilidade de obter três números primos em cinco jogadas de um dado? 35. Jogando-se uma moeda honesta, qual a probabilidade de obter ao menos quatro caras em cinco jogadas? 36. Suponha que você compareça a um exame com 100 questões do tipo verdadeiro-falso; você nada sabe sobre o assunto do exame, e vai responder as questões por adivinhação. Qual é a chance de acertar ao menos 60 questões (use aproximação)? 114 37. Quantas vezes devemos jogar uma moeda para que a probabilidade de aparecerem ao menos duas caras seja superior a 1/2? 38. Suponha que 10% da população seja de canhotos. Escolhidas três pessoas aleatoriamente, qual é a probabilidade de ao menos uma ser canhota? 39. Qual é a probabilidade de dois dos próximos três presidentes do Brasil terem nascido em um domingo? 40. Suponha que 2/5 da população tenham sangue tipo 0+. Escolhidas aleatoriamente seis pessoas, qual a probabilidade de quatro delas terem sangue 0+? 41. Suponha que 45% dos Almeida no mundo sejam mulheres. De três Almeida escolhidos aleatoriamente, qual é a probabilidade de ao menos dois serem mulheres? 42. Seja X uma variável aleatória que representa o número de vezes que a palavra platypus é pronunciada em determinado dia. Supondo que X tenha distribuição de Poisson com parâmetro m= 1/2, quanto é Pr(X> 1)? 43. Se X é uma variável aleatória de Poisson com parâmetro m = 10, quanto é Pr(1 £ X £ 3)? 44. Seja X uma variável aleatória de Poisson com parâmetro m=3, representando o número de pessoas que usam um dicionário em uma biblioteca em dado dia. Qual o valor de P(X£4)? 45. Suponha que o índice pluviométrico em uma cidade tenha distribuição normal com média 40 e desvio-padrão 5. Qual é a probabilidade de a cidade ter menos de 33 polegadas de chuva no próximo ano? Qual é a probabilidade de a cidade ter mais de 38 polegadas de chuva? 46. Suponha que o escore de um estudante no vestibular seja uma variável aleatória selecionada de uma distribuição normal com média 550 e variância 900. Se a admissão em certa faculdade exige um escore de 575, qual é a probabilidade de ser admitido? E se o escore mínimo for 540? 47. Suponha que você está medindo a velocidade da luz. Os resultados de suas medidas são dados por uma variável aleatória normal cuja média é o verdadeiro valor e cujo desvio-padrão é 5 x 109 centímetros por segundo. Qual é a probabilidade de a sua medida estar a menos de 2 x 109 centímetros por segundo do verdadeiro valor? Nos Exercícios 17 a 21, seja X uma variável aleatória normal com parâmetros m e s2. Com auxílio da Tabela Normal, calcule: 115 48. Se m = 0 e s 2 = 100, quanto é P(5 <X< 10)? 49. Se m = -3 e s 2 = 9, e P(X < a) = 0,6, quanto é a? 50. Se m = 0 e P(X < 5) = 0,8, quanto é s2? 51. Se m = 73 e s 2 = 81, quanto é P(|X|> 100)? 52. Se m = 25 e s 2 = 100, quanto é P(X = 25)? 53. Considere um conjunto de n=4 bezerros prestes a nascer. Supondo que a probabilidade de nascer um bezerro macho seja p=1/2, calcule a probabilidade de se ter 0, 1, 2, 3, ou 4 bezerros machos 54. Vamos supor que a taxa normal de gli cose no sangue humano seja uma variável aleatóri a com distribuição normal de médi a x = 100 mg/dl de sangue e desvio padrão s = 6 mg/dl de sangue. Calcule a probabi l idade de um indi víduo com taxa normal de gl icose, apresentar: a) taxa superior a 110mg/dl de sangue; b) taxa inferior a 90 mg/dl de sangue; c) taxa entre 90 e 110 mg/dl de sangue. 55. Supondo que o peso médio de ovos de uma certa li nhagem de gal inhas seja uma variável de distribuição aproximadamente Normal com média de 59 gramas e desvi o padrão de 1 grama. Calcule a probabi l idade de encontrar, em determinado lote de produção, ovos com peso: a) inferior a 58 gramas; b) superior a 61 gramas; c) entre 58 e 60 gramas 56. Vamos supor que uma galinha da l inhagem Shaver 579 produza, em um período de 72 semanas, 300 ovos em média, com desvio padrão de 5 ovos, e que esta variável (produção de ovos) apresente distribuição aproximadamente Normal. Calcule a probabi li dade de uma gal inha dessa linhagem produzi r, em 72 semanas, um número: a) inferior a 290 ovos; b) superior a 310 ovos; c) entre 290 e 310 ovos. 57. Considere ninhadas de n = 3 filhotes de coelhos. Construir o espaço amostral considerando os nascimentos de fêmeas e machos, utilizando um diagrama de árvore e considerar os eventos nascer macho e nascer fêmea como equiprováveis. a) Sendo X a ocorrência de fêmeas, construa a distribuição de probabilidade de X; b) Calcule as probabilidades dos seguintes eventos por meio da distribuição de probabilidade construída: i) nascimento de exatamente duas fêmeas. ii) nascimento de pelo menos um macho. 116 iii) nascimento de pelo menos duas fêmeas. iv) nascimento de no máximo uma fêmea. c) Suponha que você faça uma amostragem de 500 ninhadas de 3 filhotes. Em quantos, em média, você espera encontrar com exatamente 1 fêmea? 58. Considere nascimentos de n = 4 filhotes de coelhos de um determinada raça. Nesta raça há um distúrbio genético e a probabilidade de nascer fêmea é 5=8. Sendo X a ocorrência de fêmeas e utilizando a distribuição binomial obter: a) a distribuição de probabilidade de X, ou seja, os valores e as probabilidades associadas aos respectivos valores x; b) a média e variância da variável aleatória X, com distribuição binomial; c) o número esperado (médio) de ninhadas em uma amostra de 1:000 ninhadas de tamanho n = 4 para cada valor da variável aleatória X. 59. Numa lâmina verificou-se que existiam em média 4 bactérias/cm2. A lâmina foi subdividida em 600 quadrados de 1 cm 2 . Qual é o modelo probabilístico adequado para modelar a ocorrência de bactérias por cm 2 , supondo que a distribuição espacial segue um padrão aleatório? Em quantos dos 600 quadrados, em média, você espera encontrar no máximo 1 bactéria? Qual é a probabilidade de se encontrar mais de 2 bactérias por centímetro quadrado? Qual é a probabilidade de não encontrar bactérias em um quadrado tomado aleatoriamente destes 600 quadrados? 60. Um pesquisador da área de zootecnia conseguiu uma série de dados dos últimos 120 anos com o registro do número de uma doença rara em equinos da localidade em que trabalhava. Os dados obtidos foram: Número de doenças (x) 0 1 2 3 4 5 Número de anos (Fi) 55 40 17 5 2 1 a) Estime o número médio de doenças /ano; b) Calcule para cada valor da variável aleatória X, as probabilidades associadas. Suponha que X possua distribuição de Poisson e que a média amostral é o estimador do parâmetro λ da distribuição Poisson; c) Calcule a frequência esperada (em anos) para cada valor da variável aleatória X; d) Compare os resultados esperados com os observados. Com base nesta comparação, você pode afirmar que a distribuição de Poisson é adequada para explicar a ocorrência desta doença na região de estudo? Justifique. 61. Uma plantação de tomate possui em média 2 galhas de M. incógnita por planta. Qual é a probabilidade de que uma planta amostrada desta população não possua galha? Suponha que o modelo Poisson é apropriado para modelar a ocorrência de galhas de nematóide. Qual é a probabilidade de que em uma amostra de tamanho n = 5 plantas, as 5 não apresentem galhas? 117 62. Suponha que o tempo necessário para atendimento de clientes em uma central de atendimento telefônico siga uma distribuição normal de média de 8 minutos e desvio padrão de 2 minutos. a)Qual é a probabilidade de que um atendimento dure menos de 5 minutos? b)E mais do que 9,5 minutos? c)E entre 7 e 10 minutos? d)75% das chamadas telefônicas requerem pelo menos quanto tempo de atendimento? 63. A distribuição dos pesos de coelhos criados numa granja pode muito bem ser representada por uma distribuição Normal, com média 5 kg e desvio padrão 0,9 kg. Um abatedouro comprará 5000 coelhos e pretende classificá-los de acordo com o peso do seguinte modo: 15% dos mais leves como pequenos, os 50% seguintes como médios, os 20% seguintes como grandes e os 15% mais pesados como extras. Quais os limites de peso para cada classificação? 64. Os resultados de um exame nacional para estudantes recém-formados apresentarem uma média m = 500 com o desvio padrão s = 100. Os resultados têm uma distribuição aproximadamente normal. Qual a probabilidade de que o grau de um indivíduo escolhido aleatoriamente esteja: a) entre 500 e 650? b) entre 450 e 600? c) inferior a 300? d) superior a 650? 65. O número de pessoas que almoçam num restaurante suburbano é aproximadamente normal com média de 250 e desvio padrão de 20 pessoas, por dia. Determine a probabilidade de que, em um dia qualquer, sejam atendidas: (a) menos de 200 pessoas (b) entre 225 e 275 pessoas 66. A vida média dos habitantes de um país é de 68 anos, com uma variância de 25 anos. Faz-se um estudo em uma pequena cidade de 10.000 habitantes: a)Quantas pessoas superam os 75 anos? b)Quantos viverão menos de 60 anos? 67. Os balancetes semanais realizados em uma empresa mostraram que o lucro realizado distribui-se normalmente com média US$ 48.000 e desvio padrão US$ 8.000. Qual a probabilidade de que na próxima semana o lucro esteja entre US$ 40.000 e US$ 45.000? 68. O Departamento de Marketing de uma empresa resolve premiar 4% dos seus vendedores mais eficientes. Um levantamento das vendas individuais por semana mostrou que elas se distribuíam normalmente com média R$240.000,00 e desvio 118 padrão R$30.000,00. Qual o volume mínimo de vendas que um vendedor deve realizar para ser premiado? 69. O consumo médio anual de cerveja dos habitantes de um país é de 59 litros, com uma variância de 36 litros. Supõe-se que se distribui segundo uma distribuição normal. a) Se você presume ser um bom bebedor, quantos litros de cerveja teria que beber ao ano para pertencer aos 5% da população que mais bebe? b) Se você bebe 45 litros de cerveja o que poderia argumentar em sua defesa para não ser considerado um beberrão? c) Quantos litros bebem os 15% da população que mais bebem? 70. Trace uma curva normal e sombreie a área desejada obtendo então a informação. a) Área à direita de Z = 1 b) Área à esquerda de Z = 1 c) Área entre Z = 0 e Z = 1,5 d) Área entre Z = -0,56 e Z = -0,2 e) Área entre Z = 0,5 e Z = 0,5 f) Área entre Z = 0 e Z = -2,5 119 13 ESTIMAÇÃO ESTATÍSTICA Objetivos 1. Computar um intervalo de confiança a partir de um conjunto de dados para (a) a média de uma população; (b) a diferença entre a média de duas populações. 2. Descrever três modos de estreitar o intervalo de confiança. 3. Listar os prós e os contras na realização de um experimento emparelhado. 4. Determinar o tamanho da amostra. O propósito da estatística inferência! é tirar conclusões a partir de dados de amostras baseadas na probabilidade de ocorrência de certo tipo de fenômeno. A partir dessas informações, é possível decidir se um fato observado é verdadeiro ou provocado pela variação ao acaso. Existem duas grandes áreas da inferência estatística: a estimação de parâmetros e o teste, de hipótese. O parâmetro desconhecido de uma população é, geralmente, estimado a partir de dados obtidos de amostras. Tanto na estimação de parâmetros como no teste de hipótese são avaliadas características de uma população ou de populações diferentes. As duas abordagens podem ser atingidas de diferentes modos: (1) pela estimação das diferenças nas médias entre um grupo experimental e um grupo controle e (2) pela estimação de diferenças nas médias de um grupo antes e depois de um tratamento. No primeiro caso são examinadas duas amostras aleatórias de duas diferentes populações; no segundo, com duas amostras obtidas do mesmo grupo antes e depois de um tratamento. Além disso, no primeiro caso, as observações são independentes; no segundo, as observações são dependentes pois foram obtidas a partir da mesma população mas em momentos diferentes. 13.1. Estimação de parametros populacionais Denomina-se estimação ao procedimento de obtenção de um valor amostral para substituir o respectivo parâmetro. O valor numérico obtido e uma estimativa do parâmetro. 120 A estimação de um parâmetro populacional (a média, a variância, o desvio padrão, etc) é realizada a partir de uma estatística (calculada com base em valores observados de amostras) de modo a indicar o valor mais próximo do valor verdadeiro. O valor numérico obtido de amostras é uma estimativa do valor numérico do parâmetro populacional. Existem dois tipos de estimação de parâmetros de emprego comum na estatística: 1. Estimação por ponto. É um valor numérico obtido de computações sobre os dados da amostra usado para estimar o parâmetro populacional correspondente. Por exemplo, a média da amostra xത é uma estimativa por ponto da média da população µ 2. Estimação por intervalo. É um intervalo de valores numéricos possíveis obtidos de computações sobre os dados da amostra que se espera contenha o valor do parâmetro populacional, no seu interior. Tais estimativas por intervalo são chamadas de intervalo de confiança. 13.2. Intervalo de confiança para a média populacional O objetivo dos intervalos de confiança é o de se fazer uma estimativa de um parâmetro populacional. A média xത calculada da amostra, é apenas uma estimativa da média "verdadeira" µ da população. A média verdadeira é um parâmetro que na grande maioria das vezes nunca é determinado com absoluta certeza. Entretanto, a partir do conhecimento da distribuição teórica de z e t pode-se estimar um intervalo ao redor de xത que deve conter a verdadeira média populacional µ. O intervalo de confiança é delimitado por dois limites numéricos (limites fiduciais), entre os quais se situa o verdadeiro valor do parâmetro, com um nível de confiança especificado, em geral, fixado em 95%. Denomina-se estimador uma grandeza, baseada em observações de uma amostra, utilizada como indicador do valor do parâmetro populacional desconhecido. 121 13.2.1. Intervalo de confiança para a média populacional (µ) com o desvio padrão (σ) conhecido O intervalo de confiança associado a um determinado nível de confiança (NC), para a media populacional, µ quando o desvio padrão, σ. é conhecido, é calculado pela fórmula: IC ୒େ para µ ൌ σ √n O intervalo de confiança de 95% para j i , é dado por: IC ଽହ% para µ ൌ X ഥ േ 1,96 σ √n Há 95% de chance de µ estar entre: X ഥ െ 1,96 σ/ √n. e . / 96 , 1 n x σ + O valor 1,96 foi obtido a partir da Tabela do Anexo C para 95% (47,5% de cada lado da curva, a partir do centro). No entanto, existe 5% de chance que o intervalo não contenha a média µ da população. Há 2.5% de chances que o µ verdadeiro situe-se acima de Z = 1,96 (ou abaixo de Z = -1,96). Para um intervalo de confiança de 99% emprega-se a fórmula: IC ଽଽ% para µ ൌ X ഥ േ 2,58 σ √n O valor 2,58 foi obtido a partir da Tabela do Anexo C para 99,% (49.5% de cada lado da curva, a partir do centro). 13.2.2. Intervalo de confiança para a média populacional (µ) com o desvio padrão (σ) desconhecido. As equações anteriores para o cálculo do intervalo de confiança são pouco usadas pois dependem do conhecimento do verdadeiro valor de σ, geralmente desconhecido. Já foi estabelecido que σ pode ser estimado a partir de s, o desvio padrão da amostra. É possível empregar um intervalo de confiança (1-α ) 100% para a média da população µ que é um intervalo construído a partir de dados amostrais onde existe a probabilidade 1 -α de conter a média da população. Para construir o intervalo, e utilizada a distribuição t (com n - 1, graus de liberdade) em lugar do valor Z. Desse modo, é possível obter o intervalo de confiança para pequenas amostras quando somente s (e não σ) é conhecido: Intervalo de confiança de (l - α) 100% para µ ൌ X ഥ േ t ୱ √୬ 122 onde t ൫s./√n൯é a margem de erro para o intervalo de confiança e é uma medida do erro da amostra. O valor crítico de t é dado na tabela do Anexo E. Em geral, é utilizado (1 - 0,05) 100% = 95%. Nesses casos, afirma-se. com uma confiança de 95%, que a média verdadeira está no intervalo: IC ଽହ% para µ ൌ X ഥ േt ଴଴,ହ ሺ୬ିଵሻ s √n Não se diz que µ tem uma probabilidade de 0,95 de encontrar-se entre os limites estimados. Sendo um valor fixo, µ não tem probabilidade; está ou não está no intervalo estimado. Para um nível de confiança de 99%, o intervalo será: IC ଽହ% para µ ൌ X ഥ േt ଴଴,ଵ ሺ୬ିଵሻ s √n Este intervalo é mais amplo, sendo a confiança de 99% d que a média verdadeira µ se encontra entre os limites calculados. Exemplo 11.1 Dada a amostra de observações da determinação de glicose X: 90, 86, 78, 90, 98, 90, 82, 76 e 84 mg/dL. Determinar o intervalo de confiança (IC) de 95% para a média populacional. Especificações n = 9 xത = 86 mg/dL s = 6.85 mg/dL Valor de t obtido para 8 graus de liberdade (n - 1 ) e nível de confiança de 95% e t. 0,05(8) = 2,306 Cálculos: IC ଽହ% para µ ൌ 86 േ2,306 6,85 √9 ൌ 86 േ5.26 ൌ ሺ80,7 a 91,26 mg/dLሻ 123 A média verdadeira está compreendida entre os limites 80,7 e 91,26, com uma confiança de 95%. Em outras palavras, há 95% de confiança de que o valor médio da população, da qual provém a amostra, está dentro desses limites. 13.3. Duas amostras independentes Em muitos estudos biomédicos, as unidades experimentais (pacientes, animais etc) que devem receber tratamentos são repartidos por sorteio em duas amostras independentes, denominadas grupo experimental e grupo controle. Muitas vezes, esses grupos são identificados como tratamento A para o grupo experimental e tratamento B para o grupo controle. Tratamento em estatística, representa qualquer procedimento aplicado em reagente, cujos resultados são medidos e comparados. Diferentes épocas de semeadura de feijão, diferentes dietas para pacientes obesos etc., constituem tratamentos. Dois métodos para a determinação de colesterol no sangue, são tratamentos diferentes. O chamado grupo controle, também é tratamento. Assim, pacientes com tratamento terapêutico (grupo experimental) comparados com pacientes sem tratamento (grupo controle), constituem dois tratamentos. A diferença observada no comportamento de duas unidades experimentais com tratamentos diferentes (grupo experimental e grupo controle), poderá ser atribuída tanto a uma diferença real devido aos efeitos dos tratamentos, como a uma variação intrínseca das unidades experimentais. Deve-se aceitar como norma o fato de duas unidades experimentais nunca serem exatamente iguais, independentes da aplicação dos tratamentos diferenciais. Duas parcelas de campo, mesmo próximas, variam em sua fertilidade; dois pacientes apresentam diferenças, tais como, fatores genéticos, sexo, idade, massa corpórea, hábitos alimentares, etc. As diferenças intrínsecas entre os grupos experimentais tendem a mascarar o efeito diferencial dos tratamentos. A verificação estatística da diferença real entre os tratamentos num experimento exige um número mínimo de repetições ou grupos experimentais por tratamento. A partir do teorema central do limite é possível demonstrar que X ഥ √ X ഥ ଶ e normalmente distribuído com média de µ1 - µ2 e uma variância igual a σ ଶ ଵ /n ଵ ൅σ ଶ ଶ /n ଶ A sua raiz quadrada é o erro padrão da diferença entre duas médias e é descrita como: 124 EPሺxത ଵ െ xത ଶ ሻ ൌ ඨ σ ଵ ଶ n ଵ ൅ σ ଶ ଶ n ଶ A equação denota que as médias são normalmente distribuídas com suas respectivas variância de Enquanto a variância da diferença é a soma das duas variâncias individuais. A equação para o cálculo do escore Z é z ൌ ሺX ഥ ଵ െ X ഥ ଶ ሻ െ ሺµ ଵ െ µ ଶ ሻ ඨ σ ଵ ଶ n ଵ ൅ σ ଶ ଶ n ଶ Em muitos casos, um dado fenômeno é comparado em grupo tratado e um não tratado. Como os experimentos e os controles são obtidos da mesma população, é lógico supor que σ ଵ ଶ = σ ଶ ଶ , e, assim, é possível simplificar a equação anterior z ൌ ሺX ഥ ଵ െ X ഥ ଶ ሻ െ ሺµ ଵ െ µ ଶ ሻ ඨ σ ଵ ଶ n ଵ ಚ ൅ σ ଶ ଶ n ଶ A σ 2 raramente é conhecida, mas pode ser estimada a partir da variância obtida dos dados de uma amostra. Esse procedimento desloca da distribuição normal para a distribuição t de student. Nesses casos, geralmente são obtidos duas estimações diferentes de σ 2 - ou seja, s ଵ ଶ e s ଶ ଶ Se for seguro pressupor que essas duas variâncias são uma estimativa da variância cm comum, σ 2 , pode-se obter uma estimativa combinada de σ 2 , s ଴ ଶ , a partir da media ponderada das variâncias amostrais: S ଴ ଶ ൌ S ଵ ଶ ሺn ଶ െ 1ሻ ൅ S ଶ ଶ ሺn ଶ െ 1ሻ n ଵ ൅ n ଶ െ2 Essa equação toma a soma dos quadrados de duas amostras diferentes e as divide pela soma dos graus de liberdade. Esse procedimento fornece uma estimativa não viciada de σ 2 . Após o cálculo de s ଴ ଶ , pode-se obter S0 (estimativa combinada do desvio padrão) pela extração da raiz quadrada. O valor de só é necessário para calcular o escore t: t ൌ ሺX ഥ ଵ െ X ഥ ଶ ሻ െ ሺµ ଵ െ µ ଶ ሻ ට 1 n ଵ ౏ బ ൅ 1 n ଶ 125 Graus de liberdade = soma dos graus de liberdade de cada amostra isolada [(n 1 - 1) + (n 2 - 1)]. 13.3.1. Intervalo de confiança para a diferença entre duas médias populacionais Após a estimação da diferença entre duas medias populacionais (µ 1 - µ 2 ). o passo lógico seguinte é o estabelecimento de um intervalo de confiança ao redor da diferença. Intervalo de confiança para a estimação da diferença entre duas médias com σ 1 e σ 2 conhecidos. A equação é a que segue: IC ଽହ% para µ ଵ െ µ ଶ ൌ X ഥ ଵ െ X ഥ ଶ േ1,96 ቌ ඨ σ ଵ ଶ n ଵ ൅ σ ଶ ଶ n ଶ ቍ Intervalo de confiança para a estimação da diferença entre duas médias com 2 1 σ σ desconhecidos Emprega a seguinte equação: IC de ሺ1െ ןሻ 100% para ሺµ ଵ െ µ ଶ ሻ ൌ X ഥ ଵ െ X ഥ ଶ േt ቌ ඨ 1 n ଵ ൅ 1 n ଶ ౏ బ ቍ Onde t é o valor correspondente a l - α, proporção da área central para n 1 + n 2 -2 graus de liberdades graus de liberdade. Essas fórmulas não fornecerão resultados corretos a menos que os dados tenham sido coletados de amostras aleatórias. Exemplo 11.2 A medida do colesterol em 54 vegetarianos e em 51 não-vegetarianos forneceram os seguintes resultados: Vegetarianos 115 125 125 130 130 130 130 135 135 140 140 140 140 145 145 150 150 150 155 160 160 160 160 160 165 165 165 165 165 165 165 170 170 170 170 170 170 170 175 175 175 180 180 180 180 185 185 185 185 200 215 215 225 230 126 Não - vegetarianos 105 110 115 125 125 130 135 145 245 150 150 160 165 165 165 170 170 170 170 170 175 175 175 180 180 180 180 185 185 190 190 190 190 195 200 200 200 200 200 205 210 210 210 210 215 220 230 230 240 240 245 Encontrar uma estimativa para µ 1 - µ 2 e calcular o intervalo de confiança de 99% para a diferença entre as médias populacionais. Especificações: X ഥ ଵ = 163,33 S 1 = 25.07 X ഥ ଶ = 179,90 S 2 = 33.87 Valor de t obtido para (54 - 1) + (51 - 1) = 103 graus de liberdade e nível de confiança de 0,99 a partir de dados bicaudais é t 0,005 (103) =2,63. Cálculos: a. Cálculo da estimativa combina do desvio padrão da população: S ଴ ൌ ඨ S ଵ ଶ ሺn ଵ െ 1ሻ ൅ S ଶ ଶ ሺn ଶ െ 1ሻ n ଵ ൅ n ଶ െ 2 ( )( ) ( ) ( ) 67 , 29 50 2 51 54 87 , 33 53 07 , 25 2 2 0 = − + + = S b. Cálculo do intervalo de confiança de 99% para as diferenças das médias populacionais: | | ¹ | \ | + ± − = − 2 1 0 005 , 0 2 1 2 1 1 1 ) ( % 99 n n s t x x para de IC µ µ 51 1 54 1 ) 67 , 29 ( 63 , 2 57 , 16 + ± = =16,57 + 15,24 =1,33 a 31,81 Desse modo, tem-se uma confiança de 99% que a diferença da média da população para o colesterol em vegetarianos versus não vegetarianos está situada entre 127 1,33 mg/dL e 31,81 mg/dL. Como os dois limites de confiança são positivos, o intervalo não inclui o valor zero. Os resultados significam que qualquer que seja a diferença verdadeira, os não vegetarianos quase certamente têm o colesterol mais elevado que os vegetarianos. Para a comprovação desse fenômeno é necessário empregar o teste t. Se mais amostras fossem obtidas a partir das mesmas populações do exemplo anterior, seriam encontradas diferentes médias, diferentes desvios padrão e, consequentemente, diferentes intervalos de confiança. Intervalos de confiança estreitos são de grande valor na realização de estimativas, pois permitem estimar um parâmetro desconhecido com erro menor. Como o observado para intervalo de confiança para uma média populacional, X ഥ േZ ൫σ/ √n൯, as quantidades que afetam os valores do intervalo são o tamanho da amostra, o valor Z e o desvio padrão. O intervalo de confiança pode ser estreitado por: 1. Aumento no tamanho da amostra. 2. Redução do nível de confiança (por exemplo, em lugar de usar Z = 2.58 para uma confiança de 99%, usar Z = 1,96 para 95% de confiança). 3. Melhorando a precisão pela redução dos erros nas mensurações (ou outros erros não-aleatórios) produzindo assim uma variância menor. 13.4. Teste t emparelhado Amostras emparelhadas (ou pareadas) são dados referentes a um mesmo conjunto de indivíduos, tomadas em duas situações diferentes. Em muitos estudos, o grupo tratado é usado como o seu próprio controle. Essa técnica gera comparações apropriadas pois eliminam-se eventuais fontes de variação de dados, já que os resultados do experimento provêm dos mesmos indivíduos. Com a redução da variabilidade, o valor do erro padrão será menor, produzindo um intervalo de confiança mais estreito. No entanto, existem alguns contras. Primeiro, é sacrificada a independência das amostras onde os mesmos itens são medidos. Segundo, fica-se com a metade dos graus de liberdade que se obteria usando duas amostras independentes. Com um número menor de graus de liberdade, o valor de t será maior e. consequentemente, o intervalo de confiança será mais amplo. A expressão para o cálculo do teste t emparelhado é IC ଽହ% para δ ൌ d ത േ t ୒େ,ୋ୐ S ୢ √n onde: 128 δ = diferença d = média das diferenças emparelhadas s d = desvio padrão das diferenças Exemplo 11.3 Para determinar o intervalo de confiança da diferença de resultados pareados da medida de glicose no plasma e no soro foi usada uma amostra de 10 indivíduos normais. Os resultados apresentados na tabela abaixo são em mg/dL. Qual o intervalo de confiança da diferença na avaliação de glicose no plasma e no soro para um nível de confiança de 95%'? n Plasma (x 1 ) Soro (x 2 ) ( d = x 1 – x 2 ) d 2 1 96 94 2 4 2 81 79 2 4 3 100 97 3 9 4 92 92 0 0 5 103 100 3 9 6 85 86 -1 1 7 94 93 1 1 8 97 93 4 16 9 104 103 1 1 10 90 88 2 4 Totais 17 49 Especificações: n = 10 (número de pares) GL = 9(10- 1, números de pares-1 ) Nível de confiança = 95% Valor critico de t para o teste bicaudal t 0 , 05(9) = ± 2, 262 d ത = 17/10 = 1,7 mg/dL (média das emparelhadas) é uma estimativa de δ (delta) – a média das diferenças populacionais. Σd i = 17 Σd i 2 = 49 Cálculos: a. Cálculo de Sd (desvio padrão das diferenças) que é uma estimativa de δ o desvio padrão das diferenças populacionais: 129 S ୢ ൌ ඨ 49 െ ሺ17ሻ ଶ 10 10 െ 1 ൌ 1,49 b. Cálculo do intervalo de confiança de 95% para δ: IC ଽହ% para δ ൌ d ത േ t ଴,଴ଶହ S ୢ √n ൌ 1,7 േ2,62 1,57 √25 ൌ 1,7 േ0,71 ൌ ሺ0,99 ܽ 2,41ሻ A estimativa amostral de δ é d ത = 1,7 mg/dL e indica a diferença entre a medida da glicose no plasma e no soro. Os resultados sugerem que essa diferença não é menor que 0,99 mg/dL nem maior que 2,41 mg/dL para um nível de confiança de 95%. 13.5. Determinação do tamanho da amostra A determinação do número de observações de uma amostra, isto é. O número de repetições a usar numa investigação, deve ser realizada antes do início da cólera de dados. Uma investigação com poucas observações pode falhar na descoberta de uma diferença importante, um experimento desnecessariamente grande representa um desperdício de tempo e de material. O valor n é obtido a partir da equação: n ൒ ൬ Zδ d ൰ ଶ Onde. Z = valor de Z (ex.: 1,96 para um nível de confiança de 95%). d = X ഥ - µ (diferença considerada significativa no estudo a ser realizado), σ 2 variância estimada A fórmula requer o conhecimento da variância a σ 2 no entanto esse valor, em geral, é desconhecido. Sendo assim, a σ 2 deve ser estimada. A estimação da σ 2 é pode ser realizada de dois modos diferentes: 1. A partir de uma amostra piloto ou preliminar obtida da população. A variância calculada a partir dessa amostra pode ser empregada como uma estimativa de σ 2 .. 2. Â estimativa da σ 2 pode estar disponível a partir de estudos prévios ou similares. Vocabulário 130 Duas amostras independentes Estimativa por intervalo Erro padrão da diferença Estimativa por ponto Erro padrão da média Intervalo de confiança Estimativa combinada da variância Teste t emparelhado Exercícios 11.1 A medida da hemoglobina em homens adultos normais é 15 g/dL com desvio padrão d = 2 g/dL. Para um grupo de 25 homens com certo tipo de ocupação foi encontrada hemoglobina de 16 g/dL. A. Obter um intervalo de confiança de 95% para µ e interpretar. B. Calcular intervalos de confiança para os seguintes tamanhos amostrais: 36, 49 e 64. C. Com o aumento do tamanho das amostras, os intervalos de confiança estreitam-se ou ampliam-se? 11.2. Calcular o intervalo de confiança de 99% para a u1 - µ2 entre homens e mulheres. Especificações: 38 Homens, X ഥ = 74.9 e S ଵ ଶ = 144, e 45 mulheres, X ഥ 2 : =71,8 e 55 = 121. 11.3, O teor de colesterol sérico de 25 homens com idades entre 65-74 c 236, com s 1 = 50. Para 25 mulheres da mesma idade, a média é 262, com s 2 = 49, A. Qual é o intervalo de confiança de 95% para a diferença nas médias do colesterol sérico entre homens c mulheres? B. Qual é o intervalo de confiança de 99%° 131 Exercicios diversos 1. O peso dos ovos de certa raça de galinha tem distribuição normal, com média de 65 gramas e desvio padrão de 5 gramas. Considere uma caixa desses ovos como uma AAS de tamanho 12 da população de todos os ovos. Qual a probabilidade de que o peso de uma embalagem caia entre 750 g e 825 g?. 2. Para avaliar a precisão de uma balança de laboratório, pesa-se repetidas vezes um objeto padrão de peso conhecido igual a 10 gramas. As leituras da balança têm distribuição normal com média desconhecida (essa média é 10 gramas, se a balança é 132 equilibrada). Sabe-se que o desvio padrão das leituras é 0,0002 grama. Pesa-se o objeto 5 vezes e o resultado médio é 10,0023 gramas. Estabeleça um intervalo de 95% de confiança para a média de repetidas pesagens do objeto. Quantas observações ou medidas devem entrar no cálculo da média, a fim de que se obtenha uma margem de ±0,0001 de erro com 95% de confiança? 3. Suponha que estejamos interessados em estimar a porcentagem de consumidores de certo produto. Se a amostra de tamanho 300 forneceu 100 indivíduos que consomem o dado produto, determine: a) o intervalo de confiança de p, a proporção de pessoas que consomem o produto, com coeficiente de 95% (interprete o resultado). b) o tamanho da amostra para que o erro da estimativa não exceda a 2% com probabilidade de 95% (interprete o resultado). 4. Numa pesquisa sobre a opinião dos moradores de duas cidades, A e B, com relação a um determinado projeto, obteve-se a tabela abaixo. Utilize o Int. confiança para avaliar a diferença entre os percentuais de favoráveis nas duas cidades. Cidade A B Num entrevistados 400 600 Num. favoráveis 180 350 5. Um estudo de saúde envolve 1000 mortes selecionadas aleatoriamente, dentre as quais 131 causadas por intoxicação alimentícia. a) com os dados amostrais, construa um int. de confiança de 99% para a proporção de mortes causadas por intoxicação. b) utilizando os dados amostrais como estudo piloto, determine o tamanho da amostra necessário para estimar a proporção de mortes por intoxicação em uma cidade. Admita um nível de confiança de 95%, em que o erro da estimativa não supere 0,01. c) Sabe-se que a cidade tem cerca de 250.000 habitantes. Você acha que esse dado poderia ser utilizado para melhorar a estimativa do tamanho da amostra? Como? 6. Uma pesquisa de opinião visa a calcular a proporção de eleitores que irão votar no candidato democrata em uma campanha presidencial americana. A pesquisa de votos almeja ter 90% de confiança de uma previsão correta, em uma margem de erro de ±0,04 da proporção da população. (a) Que tamanho de amostra é necessário? 133 (b) Se a pesquisa de opinião visa a ter 95% de confiança, que tamanho de amostra é necessário? Se ela almeja ter 95% de confiança e um erro de amostragem de ±0,03, que tamanho de amostra é necessário? 7. Um teste de auditoria, para estabelecer com que freqüência ocorrem falhas no processamento de determinado procedimento de controle interno, está para ser feito. O auditor decide que a taxa máxima de erro tolerável permitida é de 5%. (a) Que tamanho de amostra é necessário para atingir uma precisão de amostra de ±2%, com 99% de confiança? (qual seria sua resposta em (a) se a taxa máxima tolerável de erro fosse 10%? 8. Uma agência de propaganda, que atende a uma das principais estações de rádio, gostaria de calcular a quantidade média de tempo que a audiência gasta diariamente ouvindo radio. A partir de estudos do passado, o desvio padrão é calculado em 45 minutos. (a) Que tamanho de amostra é necessário se a agência quiser ter 90% de confiança de estar correta num intervalo de ±5 minutos? (b) Se for desejado um nível de 99% de confiança, que tamanho de amostra é necessário? 9. Dentre 100 peixes capturados num certo lago, 18 não estavam apropriados para consumo devido aos níveis de poluição do ambiente. Construa um intervalo de confiança de 99% para a correspondente verdadeira proporção. 10. Em um estudo da utilização da hipnose para aliviar a dor, obtiveram-se as taxas sensoriais para 16 indivíduos, com os resultados dados a seguir (com base em dados de “An Analysis of Factors That Contribute to the Efficacy of Hypnotic Analgesia”, por Price e Barber, Journai of Abnonnal Psvchologv, Vol. 96, No. 1). Com esses dados amostrais, construa o intervalo de confiança de 95% para a taxa sensorial média da população da qual se extraiu a amostra. 8,8 6,6 8,4 6,5 8,4 7,0 9,0 10,3 8,7 11,3 8,1 5,2 6,3 8,7 6,2 7,9 Nota: considere o desvio padrão 1,6. 134 11. Quantas residências com TV a Nielsen deve pesquisar para estimar a percentagem das que estão sintonizadas no programa Jô Soares Onze e Meia? Adote a margem de 95% de confiança em que sua percentagem amostral tenha uma margem de erro de dois pontos percentuais. Admita também que nada se sabe sobre a percentagem de residências sintonizadas para qualquer show de TV após 11 horas da noite. 12. De uma distribuição normal com variância 2,25, obteve-se a seguinte amostra: 27,5; 25,6; 28,2; 26,1 e 25,0 Determinar um intervalo de confiança para a média desta população com confianças de: (13.1) 95% (13.2) 99% 13. De uma população normalmente distribuída foi extraída uma aas de n = 10 que apresentou os valores abaixo: 4 8 12 5 7 9 10 11 6 8 (a) Determine uma estimativa da variância populacional. (b) Determine uma estimativa da média populacional e do correspondente erro amostral? (c) Determine um intervalo de confiança de 95% para a média desta população. 14. Um antropólogo considera que o índice cefálico de índios de certa tribo é uma variável aleatória normal com desvio-padrão de 3,4 cm. (a) Baseado em uma amostra de 8 observações: 85; 90; 89; 91; 87; 84; 92; 83, obtenha um intervalo de confiança ao nível de 96% de confiança para o índice cefálico médio. (b) Qual o tamanho da amostra necessário, para que ao estimarmos a média do índice cefálico, o erro cometido não seja superior a 0,1 cm com probabilidade de ao menos 95%? 15. A polícia rodoviária fez recentemente uma pesquisa sobre as velocidades desenvolvidas na rodovia no período de 2 a 4 horas da madrugada. No período das observações 120 carros passaram por um aparelho de radar a uma velocidade média de 70 km/h com desvio-padrão de 15 km/h. (a) Suponha que Velocidade é uma variável aleatória com distribuição normal e construa um intervalo de confiança em coeficiente de confiança de 98% para a velocidade média (b) Qual o erro máximo associado ao intervalo calculado na parte (a)? 135 (c) A suposição da normalidade na parte (a) é importante? Justifique. 14. TESTES DE HIPÓTESES Objetivos 136 1. 1 Descrever e explicar a execução de um teste de hipótese. 2. Explicar o significado da hipótese nula e hipótese alternativa 3. Definir significância e estatística. 4. Explicar o significado do nível de significância, ן 5. Distinguir entre um teste caudal e bicaudal 6. Distinguir entre “estatisticamente significante” e “cientificamente importante” 7. Explicar o significado e a relação dos dois tipos de erro no teste de hipótese. 8 Explicar o significado do valor P. 14.1. Hipótese estatística A situação em que normalmente se encontra o investigador, é a de caracterizar a população com base nas informações obtidas a partir da amostra dessa população. O raciocínio se faz do particular para o gerai, chamando-se esse processo de inferência estatística. Objetiva a estimação dos parâmetros da população, através de fatos observados em amostras apropriadas. Ainda que desconhecidas as características descritivas da população, é possível formular alguma hipótese sobre a mesma. Uma hipótese estatística é uma afirmação qualquer sobre os parâmetros (média, mediana, variância, desvio padrão ou coeficiente de variação), de uma distribuição de probabilidades. Para ter valor científico, as hipóteses estatísticas precisam ser postas à prova. O mecanismo de comprovação para verificar se um pressuposto é verdadeiro ou não, é chamado de teste de hipóteses. As hipóteses feitas pelos pesquisadores são transformadas, pelos estatísticos, em hipóteses estatísticas, para que possam ser submetidas aos testes. Nesse capítulo, as hipóteses se referem as médias das populações. Existem sempre duas hipóteses em testes: 1. Hipótese de nulidade ou nula, H 0 (agá-zero). As médias são iguais (H 0 : µ = µ 0 137 ou H 0 : µ - µ 0 = 0). Em outros termos, as duas médias são extraídas da mesma população; 2. Hipótese alternativa, H A (agá-a). As médias são diferentes (H A :µ ≠ µ 0 ou H A :µ - µ 0 ≠ 0).Em outras palavras, as duas médias não são extraídas da mesma população. 14.2. Regra de decisão As regras de decisão são critérios para a aceitação ou rejeição da hipótese de nulidade a partir do resultado de um teste estatístico. A hipótese representada por H 0 :µ = µ 0 (hipótese de nulidade) estipula que a média µ de uma população é igual a uma constante especificada µ 0 . Essa hipótese vai ser posta à prova por meio de um teste estatístico. Diante do resultado do teste, tira-se uma das duas conclusões: 1. Aceitar a hipótese de nulidade, H o . Quando não houver evidência suficiente para duvidar de sua validade e concluir que µ = µ o . Ou seja, qualquer diferença observada entre as médias é considerada como uma ocorrência casual e não representa uma real diferença entre as médias populacionais. 2. Rejeitar a hipótese de nulidade, H 0 Quando houver evidencia suficiente para duvidar de sua validade. Concluir que µ ≠ µ o ;. Nesse caso, µ pode ser maior ou maior ou menor do que µ o . A diferença obtida na comparação entre as médias é grande demais para ser explicada apenas pelo erro amostral. Quando se rejeita a hipótese h 0 , a diferença µ-µ o é atribuída a uma real diferença entre dois procedimentos em estudo. Quando a hipótese não é rejeitada, a diferença observada é geralmente atribuída a uma variação de amostragem (variação ao acaso). A demonstração de uma diferença real satisfaz normalmente ao objetivo visado num experimento. Uma diferença atribuída à variação de amostragem é considerada, em geral, inconclusiva. 14.3. Erros de decisão Uma vez formulada a hipótese e realizado o respectivo teste estatístico, a regra de decisão está sujeita a dois tipos de erro: 1. Rejeitar a hipótese H 0 , sendo ela verdadeira; comete-se um erro do tipo I, cuja probabilidade máxima de ocorrência permitida é representada por α . É 138 aceita como verdadeira uma diferença que não existe e que, na realidade, se deve à variabilidade das amostras. Os erros do tipo l ocorrem em função de pequenas amostras e muitas análises - muitas variáveis ou muitos subgrupos sendo comparados entre si. 2. Não rejeitar a hipótese H 0 , sendo ela falsa; comete-se um erro tipo II, cuja probabilidade máxima de ocorrência permitida é representada por β. Existe, de fato, uma diferença que não foi reconhecida. Ocorrem devido a pequenas amostras e de grande variabilidade das mesmas. A hipótese é meramente um postulado, certo ou falso. Se os fatos registrados na amostra estipularem a aceitação da hipótese, sendo ela verdadeira, a decisão será correta. Igualmente, será correta a decisão para rejeitar a hipótese, sendo ela falsa. Mas, a rejeição de uma hipótese verdadeira ou a aceitação de uma hipótese falsa constituem erro de decisão. 14.4. Probabilidade dos erros de decisão As conclusões baseadas em testes em amostras estão sempre acompanhadas de incerteza. Somente há certeza quanto à veracidade ou à falsidade, de uma hipótese, examinando-se toda a população. Na impossibilidade prática de estudar toda a população, a metodologia estatística oferece a alternativa de medir o erro provável de uma decisão a partir de dados obtidos em amostras. A especificação da probabilidade máxima de cometer erro tipo I (rejeitar a hipótese H 0 sendo ela verdadeira) é denominado nível de significando sendo designado por a. São frequentemente empregados 0,05 (5%) e 0,01 (1%) como valores para α Uma vez efetuado o teste estatístico, a diferença entre os grupos (µ e µ 0 ) pode ser: 1. Estatisticamente significante. É quando a hipótese de nulidade é, rejeitada pois o valor calculado do teste a partir da amostra não é compatível com o valor estabelecido. Nesses casos, a variação dos dados amostrais (ao acaso) não é a explicação provável para o desvio entre o valor amostral e o correspondente valor populacional estabelecido pela hipótese de nulidade. Assim, o desvio X ഥ െ µ ଴ , observado representa uma real diferença entre as populações e não apenas produto de erro amostral. 2. Não estatisticamente significante. A hipótese de nulidade não é rejeitada quando o desvio entre o resultado amostral e o correspondente valor populacional ocorre pela variação amostral. Isto indica que o desvio X ഥ െ µ ଴ , 139 pode ser explicado pelo acaso e não representa uma real diferença. Para decidir se uma diferença entre duas medias é significante ou não, é necessário um método que teste as hipóteses formuladas para um determinado nível de significância estabelecido, nível esse que representa a probabilidade com que a hipótese de nulidade pode ser rejeitada com confiança, ou a probabilidade com que a hipótese alternativa pode ser aceita com confiança. Por esses motivos, os testes de hipóteses são também chamados testes de significância. A tabela 12.1 resume a distinção entre os tipos de erro I e II e as conseqüências possíveis de decisões na realização do testes de hipótese. Tabela 12.1 Conseqüências de decisões em teste de hipóteses Decisão Realidade Hipótese nula verdadeira (1 –α) Hipótese nula falsa Aceitação da H 0 Decisão correta (1 - α) Erro do tipo II (erroβ) Rejeição da H 0 Erro do tipo I (erro α.) Decisão correia (l – β) Denomina-se poder do teste de hipótese o valor (1 - β), que é a probabilidade de rejeitar uma H o quando ela é falsa e a hipótese verdadeira é H A . Quando se aceita um erro beta de 0,1, está-se aceitando uma chance de 10% de deixar de reconhecer uma diferença que realmente existe. O poder detecta, assim, uma diferença real, ou seja, está associado à região de rejeição de H 0 ). De fato um estudo é "poderoso'" se ele tem grande probabilidade de detectar diferenças nos tratamentos que são realmente diferentes. Desse modo, quanto menor o α, menor o poder do teste de hipótese. No entanto, pode existir o interesse em correr o menor risco possível de cometer um erro tipo I garantindo ao mesmo tempo um poder razoável ao teste de hipótese. Para contornar essa dificuldade, o: é fixado e o poder da prova é tornado máximo pelo aumento do tamanho da amostra. 14.5. Valor P Após a realização de um experimento, a diferença entre os grupos é testada pêlos níveis de significância clássicos, como exposto acima. E possível também determinar a probabilidade de ocorrência do erro tipo I (a) após a aplicação do teste estatístico através do valor P (valor crítico amostral). O valor P - que varia de 0 a 1 - 140 representa o grau de compatibilidade existente entre os dados observados e a hipótese nula. Dessa forma, quando P ≤ α rejeita-se a hipótese de nulidade, convencionalmente P ≤ 0,05. Quando P > 0,05 aceita-se a hipótese de nulidade. Quando P > 0,05 (ou qualquer outro valor escolhido para α ) e H 0 não é rejeitada não prova que H 0 seja correta. Isto indica somente que a probabilidade não é suficientemente baixa para rejeitá- la. O valor P e a estão intimamente relacionados. O valor P é calculado a partir dos dados obtidos em um estudo, enquanto o valor a é escolhido previamente, baseado nas conseqüências dos erros do tipo I e tipo II. O α é o limiar do valor P, abaixo do qual a diferença encontrada é considerada estatisticamente significante, ou seja, com pouca chance de ser causada pela variabilidade das amostras. Assim, em um teste estetístico com um nível de significância α = 0,05, um valor P = 0,021 representa que tem-se uma probabilidade igual a 2,1% de que observações como as encontradas sejam devidas ao acaso (variabilidade das amostras) e, portanto, a diferença encontrada é significante, O valor P é o resultado observado após o término do estudo e é baseado nos resultados observados. É calculado empregando-se programas estatísticos para computador. Para alguns testes são apresentados os valores de P já calculados em tabelas. O resultado "não estatisticamente significante" (P ≥ α) não comprova a veracidade da hipótese de nulidade. Só permite afirmar que os resultados não forneceram evidências suficientes para pôr em dúvida a validade de H 0 isto é, os resultados são "inconclusivos" até que alguma outra evidência seja obtida. 14.6. Significância estatística versus importância científica A expressão "estatisticamente significante" não deve ser entendida como "cientificamente importante". Deve-se, isto sim, levar em consideração o tamanho da diferença que está sendo avaliada. Por exemplo: Suponha que o medicamento A foi testado em 100.000 indivíduos e comprovou-se que o mesmo reduz efetivamente a pressão arterial de qualquer hipertenso de forma estatisticamente significante (ou seja, diferente de zero) em 1,0 mm de Mg. Isto tem relevância clínica já que foi estatisticamente significante? A resposta e não, pois a redução de 1,0 mm de Hg não representa um efeito importante apesar de ser estatisticamente significante. Desse modo, 141 em grandes amostras, mesmo pequenas diferenças serão significativas estatisticamente, mesmo que não sejam cientificamente importantes. O termo significante não é sinônimo de importante, mas está associado à certeza da decisão estatística. Com amostras pequenas é comum que ocorra o oposto. Muitas vezes, mesmo existindo uma grande diferença entre os resultados de dois grupos, obtidos a partir de uma amostra muito pequena (n<10), o teste pode não rejeitar a hipótese de nulidade. Ou seja, os dados são tão imprecisos que é arriscado afirmar que a diferença se deva a alguma causa, pois o erro amostral é muito elevado. 14.7. Testes unicaudal e bicaudal Ao rejeitar a hipótese de nulidade conclui-se que a µ ≠ µ 0 e, portanto, µ pode ser maior ou menor do que o verdadeiro valor populacional µ 0 Nesse caso, os afastamentos em ambas as direções são considerados e o teste é bicaudal (ou bilateral). Em certas situações, porém, há interesse apenas no caso em que o efeito de um tratamento experimental seja maior (ou menor) que o efeito de outro tratamento. Por exemplo, uma nova droga interessaria apenas se sua ação for melhor que a do grupo controle. Nessa situação, é permissível formular uma hipótese alternativa H A : µ > µ 0 , Isto é, a ação µ da nova droga é maior que µ 0 da nova droga padrão. Esse é o teste unicaudal (ou unilateral).Para testar a hipótese trabalha-se apenas com um lado da curva da distribuição Teórica da estatística no leste . A zona de rejeição α é transferida para um lado só da curva. A escolha entre um teste unicaudal ou bicaudal deve ser realizada antes da obtenção dos dados amostrais, desse modo, a escolha não é influenciada pêlos dados coletados. O pesquisador deve definir se é importante considerar a probabilidade geral de µ ser diferente de µ 0 ou se deve considerar apenas a probabilidade de µ ser maior (ou menor) que µ 0 . Decisão Teste unicaudal Cauda esquerda Cauda direita bicaudal Não significante µ =µ 0 µ =µ 0 µ =µ 0 Significante µ <µ 0 µ >µ 0 µ ≠µ 0 Quando o teste de hipótese é unicaudal o valor P é obtido a partir de tabelas estatísticas bicaudais cujos valores são, então, divididos por 2. 14.8. Execução do teste de hipótese 142 O teste de hipótese (teste de significância) sempre se refere a uma hipótese de nulidade. Para decidir por uma das hipóteses - isto é, para decidir se as médias na população são, ou não são, estatisticamente significantes - o pesquisador submete os dados de sua amostra a um teste de hipóteses. A aplicação segue as seguintes etapas: 1. Formular a hipótese de nulidade e a hipótese alternativa. Dentre as duas hipóteses estatísticas envolvidas a hipótese nula é a hipótese testada. A hipótese deve ser formulada de modo a representar uma contradição ao efeito procurado. Normalmente a hipótese de nulidade satisfaz essa condição. Por exemplo, havendo interesse em demonstrar que µ 0 é maior ou menor que µ 0 (testes bicaudais), então H 0 : µ = µ 0 representa uma contradição. A rejeição da hipótese ensejará a decisão desejada, desde que X ഥ , a estimativa por ponto de µ, seja maior do que µ 0 . A hipótese alternativa, isto é, a que será adotada no caso de rejeição de H 0 será HA: µ ≠ µ 0 , podendo µ ser maior ou menor do que µ 0 . Para os testes unicaudais as hipóteses são: H 0 µ ≤ µ 0 e H A : µ > µ 0 ; ou H 0 : µ ≥ µ 0 e H A : µ < µ 0 . 2. Especificar o nível de significância de α . Isto é, o padrão estatístico especificado para rejeitar a hipótese nula. Para nível de significância de 5% (ou 1%), existe uma probabilidade de 0,05 (ou 0,01) de rejeitar a hipótese nula sendo a mesma verdadeira (erro tipo I). Essa especificação (a = 0,05 ou a = 0,01) deve ser parte integrante do planejamento do estudo. Em geral não se especifica (3, a probabilidade do erro de decisão do tipo II; se a hipótese formulada foi de nulidade ou de contradição, há sempre interesse em que a mesma seja rejeitada pelo teste. Nesse caso, o que mais deve preocupar é a rejeição de uma hipótese verdadeira, isto é, o erro de decisão do tipo I. Para os testes bicaudais o nível de significância é α/2 em cada cauda. 3. Escolher o teste. O teste deve ser adequado ao material sob investigação os tipos de variável e seus níveis de medida. Dependendo das pressuposições e da hipótese formulada, sempre na suposição de ser a hipótese verdadeira, o teste a escolher será um dos seguintes: teste z, teste t, teste F ou teste x 2 -. As estatísticas z, t. F ou x 2 , são calculadas dos dados de observações 143 colhidos no experimento. 4. Verificar a probabilidade. A probabilidade de ocorrência aleatória da estatística calculada, deve ser verificada na respectiva tabela de distribuição teórica. Quando o valor observado da estatística obtida pela aplicação do teste for igual ou menor do que o valor crítico da tabela para o nível de significância escolhido, a hipótese de nulidade é então, não rejeitada. Se os valores estiverem localizados na zona de rejeição, maiores do que os encontrados na tabela, a hipótese nula é rejeitada e a hipótese alternativa (H A ) aceita. 5. Concluir. Elaborar a decisão em termos de material estudado, evitando sempre que possível o emprego de terminologia estatística. Vocabulário Erro tipo I Erro tipo II Falso negativo falso positivo Hipótese alternativa hipótese nula Poder do teste Significância estatística Teste bicaudal valor P Exercícios 12.1. Para cada uma das questões abaixo, elaborar a hipótese nula (H 0 ) e a hipótese alternativa (H A ): A. A média de partículas suspensas no ar em determinada comunidade, ultrapassou 30 unidades por metro cúbico em outubro? B. A área média transversal do lúmem das artérias coronárias em homens entre 40-59 anos é menor que 31,5% da área total transversal? C. O nível médio de hemoglobina de um grupo de trabalhadores de altas altitudes é diferente de 16 g/dL? 144 15 TESTES PARA A COMPARAÇÃO ENTRE DUAS MÉDIAS Objetivos 1. Determinar quando usar o teste z e quando usar o teste t. 2. Determinar se a diferença entre duas médias é estatisticamente significante tanto para médias de amostras dependentes como independentes. 3. Listar os prós e os contras da realização de um “experimento antes e depois”. 4. Determinar o tamanho da amostra necessária para uma variável a um deter4minado nível de exatidão. 15.1. Fundamento dos testes de significância Em um teste de significância, inicia-se com um valor suposto (hipotético) de um parâmetro da população (por exemplo, a média, µ.). Depois de coletar uma amostra aleatória, compara-se a estatística da amostra, tal como a média amostral, com o parâmetro suposto (média populacional hipotética, µ). Então, aceita-se ou rejeita-se o valor hipotético como sendo correto. O valor hipotético é rejeitado somente se o resultado da amostra for claramente improvável de ocorrer quando a hipótese for verdadeira. A distribuição normal de probabilidades pode ser utilizada para testar um valor hipotético da média da população (a) quando n ≥ 30, devido ao teorema do limite central, ou (b) quando n < 30, no caso de a população ser normalmente distribuída e o ser conhecido. Em lugar de estabelecer valores críticos em termos da média da amostra como tal, os valores críticos nos testes de hipótese são tipicamente especificados em termos de valores Z. Por exemplo, para um nível de significância a = 0,05 (5%) os valores críticos de Z para um teste bicaudal são + 1,96. Quando o valor da média da amostra estiver determinado, ele será transformado para um valor de Z, de modo a poder ser comparado com os valores críticos de Z (v. adiante). Para variáveis com distribuição normal de probabilidades são considerados não- significantes os desvios representados por valores ao redor da média populacional (aceitação da hipótese de nulidade). Para um nível de significância de α = 0,05 o intervalo de desvios não-significantes corresponde a 95% das diferenças amostrais e. em conseqüência, 5% no máximo corresponde a região de significância (rejeição da hipótese 145 de nulidade). Essas áreas são definidas pelo valor de Z ± 1,96 unidades de desvios padrão contados a partir de zero. Para determinar a porcentagem da freqüência total associada aos 1,96 unidades de desvios padrão examina-se a tabela de distribuição normal padronizada (anexo C). Em testes bicaudais, o valor 1,96 unidades de desvios padrão em ambas as direções demarcam 2,5% das diferenças médias amostrais (50% - 47,5% = 2,5%). Ou seja, 95% das diferenças amostrais caem entre -1,96 e +1,96 unidades de desvios padrão contados a partir das média (zero); somente 5% situam-se além de 1.96 (região de rejeição) (1,96)(2,5% + 2,5% = 5%). Os níveis de significância podem ser estabelecidos para qualquer grau de probabilidade. Os valores críticos de zα α mais usados em testes de hipótese bicaudais são: Nível de significância Z (numero de unidade de desvios padrão a partir da média) 0,050 (5%) 1,96 0,025 (2,5%) 2,24 0,010 (1%) 2,58 0,005 (0,5%) 2,81 0,001 (0,1%) 3,29 Por exemplo, a adoção do nível de significância a = 0,05 implica em rejeitar a hipótese de nulidade somente no caso de haver 5 possibilidades em 100 de que a diferença amostral encontrada deve-se apenas à ação do acaso (erro de amostragem). Um desvio será significante se estiver a uma distância inferior ou superior ao número de desvios padrão em relação à média. 15.2. Teste do valor da média A partir da distribuição de probabilidade da variável na amostra l e da distribuição de probabilidade correspondente na amostra 2 é possível se calcular a distribuição de probabilidade da diferença entre médias das duas amostras. 146 Para séries de números extraídos de distribuições normais, a fórmula geral a para o teste estatístico é aplicável para testar a hipótese de que a média µ é igual a um valor particular µ 0 ( H 0 : µ = µ 0 ): Estatística do teste = Media amostral – média alegada Desvio padrão da média 15.3.Comparação entre a média de uma amostra e a média da população ( 2 σ conhecido) É possível solucionar problemas relativos à significância de uma diferença entre uma média amostral e uma média populacional. Se as médias x de amostras aleatórias de tamanho n são variáveis aleatórias com distribuição normal de média, µ , e desvio padrão, n / σ , é possível encontrar a área sob a curva da distribuição normal padronizada – após calcular o escore Z para as médias amostrais. A equação para Z é: n x Z / σ µ − = Onde x = média calculada a partir de uma amostra da população µ = média das médias ( que corresponde à verdadeira média populacional) n / σ = erro padrão da média (estimativa do desvio padrão da distribuição amostral de médias. 147 A partir dessa fórmula é possível transformar a média da amostra para um valor Z, de modo da poder ser comparado com os valores críticos de Z. Os valores críticos de Z são encontrados na tabela da distribuição normal padronizada (anexo C). Exercício 13.1 A idade média de uma população é µ = 53 anos com desvio padrão σ =5,5. Uma amostra aleatória de n = 100, apresentou média x =54,86 anos. As duas médias são iguais para um nível de significância α = 0,05? Especificações: H 0 µ =53 versus H A : 53 ≠ µ Nível de significância α = 0,05 Teste estatístico: Z ൌ X1 തതതത െ µ σ/√n ൌ 54,85 െ53 5,5/√100 ൌ 1,85 0,55 ൌ 3,36 15.4. Região crítica: A partir da distribuição Z (tabela do Anexo C) é encontrado para um teste bicaudal (α /2 = 0,025) o valor Z = ± 1,96: Como o valor calculado Z = 3,36 cai dentro da região crítica (além dos valores críticos + 1,96), rejeita-se a hipótese nula, ou seja, que a amostra é proveniente da população com média de 53 anos e, portanto, aceita-se a hipótese alternativa que a amostra é proveniente de uma população com média diferente de 53 anos. Esse resultado é considerado "significaste ao nível α = 0,05" pois a probabilidade de sua ocorrência ao acaso é menor que 0,05. A partir do resultado do teste estatístico pode-se afirmar que a probabilidade de obter uma média amostral de 54,85 ou maior em qualquer direção (acima ou abaixo de µ = 53) é menor que 0,002. Esse valor é designado P e é obtido pela soma da área além de Z = + 3,36 que é no máximo 2 (0,5 - 0,4990) = 2 (0,001) = 0,002. (como o valor 3,36 148 não aparece na tabela C, emprega-se a área 0,4990 correspondente a 3,09, o maior valor da tabela. O valor P de 0,002 indica que a probabilidade de selecionar ao acaso uma média > 3,36 erros padrão acima ou abaixo da média da população (µ. = 53) é muito pequena, isto e, menor que 0,002. No exemplo acima, nota-se que o teste está baseado no quanto a média da amostra se ajusta na estimação do parâmetro (µ Se H 0 , e verdadeira, pode-se esperar que a diferença X ഥ - µ seja pequena. Se a H A é verdadeira, espera-se que X ഥ - µ, seja grande. Pela comparação da diferença X ഥ - µ. relativa ao erro padrão - computado no teste estatístico - pode-se estimar a probabilidade que esse teste fornece evidências contra a suposição realizada pela H 0 . Pelo exame de onde o teste estatístico cai na distribuição amostral do Z ou t calculado, é possível obter a probabilidade do desfecho e confirmar H 0 , ou H A . Essa probabilidade é medida pelo valor P. Para P pequeno, as evidências são fortes que H 0 é falsa, enquanto P elevados a evidência ê vigorosa na falsidade de H A . Especificamente, decide-se que o resultado estatisticamente significante quando o valor P é menor que o valor do nível de significância o escolhido para definir a região critica. 15.5. Teste t O teste t é um teste de significância estatística empregado na análise para a comparação de duas médias amostrais (frequentemente grupos tratamento e controle) ou da diferença da média de uma amostra em relação a um parâmetro especificado, X ഥ - µ. É evidente que, quanto maior essa diferença, maior será o valor calculado de t. Esse (este permite estabelecer se a diferença entre as médias tem significância estatística). A equação já descrita no capítulo 10 é: t ൌ X ഥ െµ s/√n Quando um resultado do cálculo apresenta uma diferença com significância estatística conclui-se pela rejeição da média X ഥ (t cai na região de rejeição), por não pertencer à população de médias com parâmetro µ . Essa conclusão, em geral como qualquer conclusão estatística, está acompanhada de risco. A probabilidade do erro de decisão é da ordem de 0,05 ou 0,01. Deve ser lembrado que amostras invulgares, com desvios significantes, podem ocorrer por pura obra do acaso. 149 Os requisitos para o uso do teste t como teste de significância dados a seguir devem ser observados para evitar confusões e falsas conclusões: 1. Possibilita a comparação entre duas médias de amostras (aleatórias) independentes ou a comparação entre médias de dois conjuntos de dados relativos a mesma amostra, porém obtidos em momentos distintos. Ex.: drogas x placebos, casos x controles etc. 2. As variáveis devem pertencer ao nível de mensuração intervalar ou de razão. 3. Amostras devem ser aleatórias (casuais). 4. O emprego do teste t em amostras pequenas pressupõe que a variável observacional apresente distribuição normal na população. A tabela do Anexo D apresenta os valores de t que delimitam as áreas nos dois extremos da curva de distribuição, para distintos valores de graus de liberdade. As duas áreas nos dois extremos são chamadas regiões críticas ou regiões de rejeição A figura 13.1 ilustra a distribuição teórica de t para 9 graus de liberdade. Os valores de t, estão representados na abscissa. A área sombreada em ambos os lados da curva, correspondem a valores de t > 2,262. à direita, e valores de t < -2.262. à esquerda. Em ambos os casos a freqüência relativa é de 0,025 ou 2,5% da freqüência total. Quando se despreza o sinal (positivo ou negativo) de t e se considera o seu valor absoluto, diz-se que valores de t maiores que 2.262 estão na região de rejeição 0,05, dada pela soma das freqüências relativas (0,025 + 0,025) dos dois extremos da curva. Pelo mesmo critério, valores de - 2.262 ≤ t < 2,262, não estão situados na região de rejeição. Esses têm uma freqüência relativa de 0,95 ou 95%, enquanto que os situados na região de rejeição tem uma freqüência relativa de 0.05 ou 5%. Um valor calculado de t, quando se situa na região de rejeição 5%, é dito significante. Um t que não se situa numa região de rejeição é chamado não significante. O t teórico é representado simbolicamente por tα (GL) em que α , (alfa) é a freqüência relativa da região de rejeição delimitada pelo valor de t, e, GL os graus de liberdade da distribuição. 150 Figura 13.1. Curva de distribuição de t. 15.6. Comparação entre a média de uma amostra ea média da população Em certos trabalhos de pesquisa, a experiência adquirida com um material em um procedimento quaisquer, permite estabelecer um valor padrão para a média. Suponha-se agora uma amostra de observações obtida com o mesmo material, mas tratado com um procedimento novo. A média X ഥ das observações x i dessa amostra apresentará, por certo, um desvio em relação ao padrão pré-estabelecido. Nessas condições, há interesse em verificar se o desvio observado X ഥ - µ 0 representa uma diferença real, atribuível a modificação do procedimento, ou se nada mais é do que o resultado de uma variação de amostragem. No caso de diferença real o desvio X ഥ - µ o terá significando, estatística caso contrário, o desvio será atribuído à variação da amostragem. Quando se dispõe da média X ഥ , de n observações de uma amostra, e o valor padrão pré-estabelecido µ o o teste do desvio X ഥ - µ o , é dado por: t ൌ X ഥ െ µ ଴ s/√n A diferença entre o novo procedimento e o procedimento padrão terá significância estatística aos níveis de probabilidade 0.05 ou 0.01. quando t calculado for maior que os valores teóricos dados na tabela, para t0,005 (n-1) respectivamente. O erro de conclusão será de 0,05 (ou uma vez em 20 investigações similares) ou 0,01 (1/100). 151 Hipóteses bicaudais com referência à média. Empregam-se a hipótese nula e a hipótese alternativa para realizar a comparação entre a média da população (µ.) e um determinado valor específico (µ 0 ). H 0 : µ = µ 0 H 0 : µ ≠ µ 0 Para teste tem-se: se|t| ≥ t α GL , a H 0 é rejeitada. Exemplo 13.2 Dada a amostra de observação da determinação de glicose X: 90. 86, 78,90, 82 mg/dL. Determinar a probabilidade de essa amostra pertencer a uma população cuja média é 75 mg/dL para α = 0,05. Especificações: H 0 : µ 1 = 75 mg/dL H A : µ1 ≠ 75 mg/dL N = 9 Graus de liberdade (n - 1 = 9 - 1): 8 Valor crítico de t 0,05(8) . = ± 2,306 Cálculos: Média da amostra X ഥ ൌ 90 ൅86 ൅78 ൅90 ൅98 ൅90 ൅82 ൅76 ൅84 9 ൌ 86 mg/dL Desvio padrão da amostra (v. capítulo 6): S ൌ ඨ ∑X ଵ ଶ െ ሺ∑X ଵ ሻ ଶ n n െ1 ൌ ඨ 66940 െ ሺ774ሻ ଶ 9 9 െ1 ൌ ඨ 66940 െ66564 8 ൌ 6,85 Valor de t: 152 t ൌ X ഥ െ µ s/√n ൌ ሺ86 െ75ሻ 6,85/√9 ൌ 11 2,28 1,82 O valor calculado t = 4,82 é significante, por ser maior que o t crítico t 05 (8) = 2,306 dado na tabela do Anexo D. Portanto, o t calculado se encontra na região de rejeição da hipótese de nulidade. Desse modo, aceita-se a hipótese alternativa, qual seja, a de que a amostra analisada estima uma media diferente da especificada, ou seja, H A : µ 1 ≠ µ 0 para o nível de significância de 0,05 (5%). Conclusão: o resultado é estatisticamente significante. Os resultados amostrais não pertencem a população cuja média é 75 mg/dL. 15.7. Comparação entre duas variãncias testes de Fisher (F) Sabe-se que uma população com distribuição normal é definida pela média e pelo desvio padrão (ou variância). Duas amostras extraídas de uma mesma população apresentam as médias e as variâncias que não diferem significantemente entre si. Ou seja. para demonstrar que duas amostras são extraídas de uma mesma população deve- se provar que tanto as médias quanto as variâncias dessas amostras não diferem significantemente. O teste de comparação entre duas variâncias é utilizado para determinar se duas amostras (A e B) possuem variabilidades semelhantes ou variabilidades diferentes. Muitas vezes é necessário pôr à prova a hipótese de igualdade entre duas variâncias. Nesse caso em lugar de considerar a diferença entre as duas variâncias, fazse o quociente entre elas. Isto porque, se σ ଵ ଶ / σ ଶ ଶ = 1. As hipóteses propostas são: H 0 : σ ଵ ଶ / σ ଶ ଶ = 1 H A : σ ଵ ଶ / σ ଶ ଶ > 1 Sabe que a estimativa da variância e dada pela formula: S ଶ ൌ ∑ሺX ଵ െ X ഥ ሻ ଶ n െ1 ൌ ou S ଶ ൌ ∑X ଵ ଶ െ ሺ∑X ଵ ሻ ଶ n n െ1 Exemplo 13.3 Empregando uma amostra de soro analista A determinou 9 vezes a glicose. Um analista B determinou 6 vezes a glicose pelo mesmo método. Os resultados são 153 fornecidos a seguir em mg/dL. Existe variação entre os analistas para um nível de significância de 0,05? Analista A ܆ ۯ ૛ Analista B ܆ ۰ ૛ 86 7396 81 6561 88 7744 87 7569 85 7225 87 7569 83 6869 86 7396 88 7744 85 7225 87 7569 84 7056 86 7396 84 7056 87 7569 774 66.588 510 43.376 Hipóteses: H ଴ : S ୅ ଶ S ୆ ଶ ൌ 1 H ଴ : S ୅ ଶ S ୆ ଶ ൐ 1 Calculo das variâncias: S ୅ ଶ ൌ ∑܆ ૛ െ ሺ∑Xሻ ଶ n n െ1 ൌ 66588 െ ሺ774ሻ ଶ 9 9 െ1 ൌ 66588 െ66564 8 ൌ 3 S ୆ ଶ ൌ ∑܆ ૛ െ ሺ∑Xሻ ଶ n n െ1 ൌ 43376 െ ሺ510ሻ ଶ 6 6 െ1 ൌ 43376 െ43350 5 ൌ 5,2 F ൌ Variância maior Variância menor ܨ ൌ ହ,ଶ ଷ = 1,73 O valor de F dado na tabela (Anexo E) para 5 graus de liberdade (6 1-5) do numerador e 8 graus de liberdade (9-1=8) do denominador é 3.69, Portanto, o valor calculado de F = t1,73 é menor o F critico ao nível de significância de 0,05 encontrado na tabela. Conclusão: a hipótese H 0 não é rejeitada, pois, não existe evidencia de que as variâncias dos dois analistas sejam diferentes. 154 Sem essa hipótese auxiliar não é possível tirar conclusões sobre a prova realizada, pois se H0 for rejeitada fica-se na dúvida se o foi por diferença entre as médias, por diferença entre as variâncias. Ou simultaneamente pelas duas razões. Denomina-se hemocedásicas quando as variâncias de duas populações são iguais e heterocedásicas quando as variâncias são diferentes. 15.8. Comparação entre as medias de duas amostras independentes Aqui também são comparadas duas médias sendo que, nesse caso, tanto as médias como o desvio padrão da população são desconhecidos. Para a aplicação do teste t para amostras independentes, as variáveis x A e x B devem ter distribuição normal ou aproximadamente normal. É importante também que as variâncias populacionais sejam iguais, ou seja, quando comparado o tratamento A com o B, o efeito altera uniformemente os valores, de tal modo que a dispersão dos dados permanece inalterada. A comparação de duas séries de dados independentes que não tenham distribuição normal deve ser realizado pelo teste de Mann Whitney um teste não- paramétrico (ver capitulo 18). 15.9. Duas amostras de mesmo tamanho Quando os tamanhos das amostras são iguais, ou seja, n j = n 2 , = n, o valor de t com 2n-2 graus de liberdade é calculado pela fórmula: t ൌ X ഥ ୅ି ଡ଼ ഥ ా ට S ୅ ଶ ൅S ୆ ଶ n A diferença X ഥ ୅ X ഥ ୆ (média da primeira e da segunda amostra, respectivamente) terá significância estatística quando t calculado for maior do que t critico da tabela, para n A + n B -2 graus de liberdade, ou para 20 -2 graus de liberdade quando n A = n B = n para o α especificado (0,05 ou 0,01). Caso contrário, a diferença não é significante. Exemplo 13.4 De um lote de pintos machos de um dia foram formados, por sorteio, dois grupos de 11 pintos. O primeiro grupo foi tratado com o hormônio testosterona e o segundo grupo não recebeu tratamento. Os pintos foram identificados e mantidos juntos numa mesma criadeira. Após 15 dias determinou-se o peso da crista de cada pinto, segundo a tabela abaixo. Houve efeito do hormônio sobre o peso da crista para α = 0,01? 155 Com hormônios Sem hormônios X ୅ X ୅ ଶ X ୆ X ୆ ଶ 57 3.249 89 7.921 120 14.400 30 900 101 10.201 82 6.724 137 18.769 50 2.500 119 14.169 39 1.521 117 13.689 22 484 104 10.816 57 3.249 73 5.329 32 1.024 53 2.809 96 9.216 68 4.624 31 961 118 13.924 88 7.744 1.067 111.971 616 42.244 Especificações H 0 :µ 1 = µ 2 H 0 :µ 1 ≠ µ 2 α = 0,01 Graus de liberdade = 20 (soma dos graus de liberdade de cada amostra isolada) Valor crítico de t 0,01(20) = ± 2,845 n A = n B = n = 11 Cálculo da média de cada amostra: X ഥ ୅ = 1067/11 = 97 X ഥ ୆ = 616/11 =56 Cálculo da variância de cada amostra: S ୅ ଶ ൌ 111971 െ 1138489 11 11 െ1 ൌ 111971 െ103499 10 ൌ 847,2 S ୆ ଶ ൌ 42244 െ 379456 11 11 െ1 ൌ 42244 െ34496 10 ൌ 774,8 Cálculo do valor de t: t ൌ X ഥ ୅ െX ഥ ୆ ට S ୅ ଶ ൅ S ୆ ଶ n ൌ 97 െ56 ට 847,2 ൅774,8 11 ൌ 41 ඥ147,45 ൌ 41 12,14 ൌ 3,38 156 O t calculado (3,38) é maior do que o da tabela para a α = 0,01 e 20 graus de liberdade (2,845); portanto, a diferença é significante. Valor de P = 0,003. Conclusão: a administração de harmônio aumentou o peso da crista dos pintos, aos 15 dias de idade. 15.10. Duas amostras de tamanhos diferentes Prefere-se, em geral, empregar o mesmo número n de dados para a amostra. Não raro ocorre que amostras diferem quanto ao tamanho. Para que seja possível fazer comparações entre amostras de tamanhos diferentes, é necessário encontrar um modo de atribuir peso adequado à influência de cada amostra. Essa dificuldade é contornada mediante a designação de n 1 ao número de repetições da primeira amostra e por n 2 o número de repetições da segunda amostra e de cujos dados são calculadas as médias A x e B x , respectivamente. A significância estatística das diferenças X ഥ ୅ െ X ഥ ୆ é dada por: t ൌ X ഥ ୅ െ X ഥ ୆ ටs ଴ ଶ ቀ 1 n ୅ ൅ 1 n ୆ ቁ O denominador da fórmula acima é o erro padrão da diferença entre as médias das amostras e depende do conhecimento da variância da população. Quando as variâncias são desconhecidas é necessário fazer uma hipótese suplementar que elas são iguais a um valor comum σ ଶ ሺσ ଵ ଶ ൌ σ ଶ ଶ ൌ σ ଶ ሻ. A obtenção da estimativa combinada de σ 2 realizada pelo cálculo da mídia ponderada das variâncias das duas amostras estudadas, S ୅ ଶ e S ୆ ଶ , pelo emprego da fórmula: S ଴ ଶ ൌ ሺn ୅ െ 1ሻ S ୅ ଶ ൅ ሺn ୆ െ1ሻS ୆ ଶ n ୅ ൅ n ୆ െ 2 S ୅ ଶ = variância da primeira amostra S ୆ ଶ = variância da seguinte amostra n A = tamanho da primeira amostra n B = tamanho da segunda amostra Exemplo 13.5 157 Deseja-se saber se a resistência de cabos de aço é influenciada por dois diferentes processos de fabricação (α = 0,05). Cinco cabos foram manufaturados pelo processo l, e sete pelo processo 2. Postos a prova no laboratório, as cargas máximas registradas para os cabos foram as seguintes, em toneladas: X ୅ X ୅ ଶ 9 81 6 36 10 100 9 81 11 121 45 419 X ୆ X ୆ ଶ 14 196 10 100 9 81 13 169 12 144 13 169 8 64 79 923 Especificações: H 0 : 0 1 µ µ = H 1 : 0 1 µ µ ≠ n A = 5 n B = 7 α = 0,05 Graus de liberdade = 10 (soma dos graus de liberdade de cada amostra isolada). Valor crítico de t 0,05 (10) , = ± 2,228 Cálculo da média de cada amostra: X ഥ ୅ = 45/5 = 9 t X ഥ ୆ - 79/7 = 11,3 t Cálculo da variância de cada amostra: S ୅ ଶ ൌ 419 െ 2025 5 5 െ1 ൌ 419 െ405 4 ൌ 3,5 S ୆ ଶ ൌ 923 െ 6241 7 7 െ1 ൌ 923 െ291,5 6 ൌ 5,25 Cálculo da média ponderada das variâncias: S ଴ ଶ ൌ ሺn ୅ െ n ୆ ሻ S ୅ ଶ ൅ ሺn ୆ െ 1ሻS ୆ ଶ n ୅ ൅n ୆ 2 ൌ ሺ5 െ1ሻ3,5 ൅ሺ7 െ1ሻ5,25 5 ൅7 െ2 ൌ 4,45 158 t ൌ X ഥ ୅ െ X ഥ ୆ ටS ଴ ଶ ቀ 1 n ୅ ൅ 1 n ୆ ቁ ൌ 9,0 െ11,3 ට 4,55 ቀ 1 5 ൅ 1 7 ቁ ൌ െ1,85 O t calculado (1,85) c menor do que o t crítico da tabela para a = 0,05 e 10 graus de liberdade (2,228): portanto, a diferença não é significante. Valor de P = 0,097 Conclusão: os testes de laboratório não forneceram suficiente evidência para diferenciar os dois processos de fabricação de cabos de aço. 15.11. Comparação entre médias de duas amostras emparelhadas Os testes t descritos anteriormente não distinguem a variação entre indivíduos, da variação devida a diferenças entre grupos. Quando houver uma razão lógica para que dois tratamentos sejam aplicados cm pares homogêneos de unidades experimentais, os grupos devem ser pareados e tratados por teste t específico. Como os membros do par nunca são exatamente iguais por razões intrínsecas ou ambientais introduzidas no curso do experimento, deve-se usar vários pares. As repetições tendem a contrabalançar as diferenças individuais e evidenciar o efeito real dos tratamentos em estudo. Em cada par os dois tratamentos são sorteados sobre os mesmos membros do par. A análise emparelhada é apropriada para: • Quando a variável em cada indivíduo é medida antes e depois de uma intervenção (ex.: peso antes e depois de um regime). • Quando os indivíduos são recrutados como pares, emparelhados por variáveis como idade ou diagnóstico. Um dos pares recebe uma intervenção, enquanto o outro não (ou recebe um tratamento alternativo). • Quando medir uma variável em gêmeos ou pares criança/pais. • Experimentos laboratoriais repetidos. O teste t que compara dois grupos emparelhados, calcula a diferença entre cada conjunto de pares e analisa as diferenças portanto que observados os seguintes pressupostos: • Os pares devem ser selecionados ao acaso de uma grande população (ou no mínimo representativa de uma grande população). • As amostras devem ser emparelhadas. O emparelhamento entre os valores da coluna A e os da coluna B devem ser baseados no projeto experimental e decidido antes dos dados serem coletados. 159 • Cada par deve ser selecionado independentemente dos outros. • A distribuição das diferenças na população deve se aproximar de uma distribuição normal. Se a distribuição das diferenças na população não for normal, deve-se empregar o teste de Wilcoxon um teste não-paramétrico para dados emparelhados (ver capítulo 15). Na análise estatística de comparações emparelhadas, não são empregados os dados originais mas as diferenças (d 1 ) entre as observações numéricas x de cada par. Calcula-se a média das diferenças d ത ൌ Σd ୧ /n em que Σd i e a soma algébrica das diferenças e n é o número de pares ou repetições e não o número total de indivíduos ou observações. A diferença média é também dada por d ത ൌ X ഥ ଵ െ X ഥ ଶ a diferença das médias dos tratamentos l e 2 cm comparação. A hipótese nula (µd = 0) é testada por: t ൌ d ത s ୢ /√n onde s d / n é o erro padrão da diferença média: o cálculo de s d (desvio padrão das diferenças) é dado por: S ୢ ൌ ඨ ∑൫d ୧ െ d ത ൯ ଶ n െ1 ൌ ඨ ∑d ୧ ଶ െ ሺ∑d ୧ ሻ ଶ n n െ1 A diferença média d ത terá significância estatística quando o t calculado for maior do que o tα da tabela para um nível de significância estabelecido (a = 0,05 ou 0,01) e o n- 1 graus de liberdade. Conclui-se então que há uma real diferença entre os dois tratamentos. Caso contrário, a diferença não é significante. Apesar do reduzido número de graus de liberdade, a redução da variabilidade (sj) obtida pelo parcamente, geralmente resulta em grande melhora na eficiência estatística. O exemplo a seguir é de um teste t emparelhado bicaudal. Exemplo 13.6 Comparação da diferença de resultados pareados da determinação de glicose no plasma e no soro era uma amostra de 10 indivíduos normais. Os resultados apresentados na tabela abaixo são em mg/dL. Deseja-se saber: houve diferença na determinação de glicose no plasma e no soro para α = 0,05? 160 N Plasma (x i ) Soro (x 2 ) (d = x 1 – x 2 ) d 2 1 96 94 2 4 2 81 79 2 4 3 100 97 3 9 4 92 92 0 0 5 103 100 3 9 6 85 86 -1 1 7 94 93 1 1 8 97 93 4 16 9 104 103 1 1 10 90 88 2 4 Totais 17 49 Especificações; H 0 :µ d = 0 H A :µd ≠ 0 α = 0,05 n = 10 Graus de liberdade (número de pares - t) = 9 Valor critico de t 0,05 (9) = ± 2,262 Observações: d ത = 17/10 = 1,7 rag/dL (média das diferenças emparelhadas) Σd i = 17 ∑d ୧ ଶ = 49 S ୢ ൌ ඨ ∑d ୧ ଶ െ ሺ∑d ୧ ሻ n െ n െ1 ൌ ඨ 49 െ ሺ17ሻ ଶ 10 n െ1 ൌ 1,49 t ൌ d ത S ୢ √n ൌ 1,7 1,49 √10 ൌ 1,7 0,471 ൌ 3,597 161 Para 9 graus de liberdade e a = 0,05, o valor de t na tabela é 2,262. Como o t calculado (3,597) é maior do que o t critico da tabela, rejeita-se a hipótese H 0 . Valor P = 0,0058. Conclusão: existe diferença na determinação da glicose no plasma e no soro. 15.12. Resumo da aplicação de testes para comparar duas séries de dado Dados Teste Não emparelhados Não emparelhados Emparelhados Não emparelhados Emparelhados Distribuição normal, s iguais Distribuição normal, s diferente Distribuição normal das diferenças Distribui não gaussiana Distribuição não gausiana Teste t não emparelhado Teste t de Welch Teste t emparelhado Teste de Mann-Whitney Teste de Wilcoxon 15.13. Tamanho da amostra A determinação do número de observações de uma amostra, isto é. o número de repetições a usar numa investigação, é um problema que sempre se apresenta na fase do planejamento dos estudos. Uma investigação com poucas observações pode falhar na descoberta de uma diferença importante, um experimento desnecessariamente grande representa um desperdício de tempo e de material. Seja no caso da determinação do número n de observações necessárias, em cada um de dois grupos independentes, para assinalar uma diferença estatisticamente significante entre as médias de dois grupos. O objetivo é atingido quando. t ൌ X ഥ ଵ െX ഥ ଶ S ଡ଼ ഥ భ െ X ഥ ଶ ൌ X ഥ ଵ െ X ഥ ଶ ඥ2S ଶ /n For maior do que t α especificado. Quando se especifica a diferença entre as médias a ser testada e se conhece por experiência prévia (levantamento "piloto'") a variância s 2 , pode-se calcular n para um tα especificado: n ൌ 2൬ st ן X ഥ ଵ െ X ഥ ଶ ൰ ଶ 162 Substituindo s por (100) S/X ഥ = C, o coeficiente de variação em %, e X ഥ ଵ െ X ഥ ଶ , por (100)(X ഥ ଵ െ X ഥ ଶ )/ X ഥ = D , a diferença entre as médias em % da média geral obtém-se: n ൌ 2൬ Ct ן D ൰ ଶ Os valores de C e D, são conhecidos. O valor de t α varia em função de n. O valor final de n é determinado por tentativas, começando com um valor n qualquer e achando na tabela o valor t α para n- 1 graus de liberdade. Para fins práticos, t pode ser igualado a 2, quando α = 0.05. A equação simplifica-se para n = 8(C/D) 2 . A segurança dessa estimativa de n é de 50%; pode ser satisfatória ou não. Para maior segurança sugere-se a equação n = 10 (C/D) 2 . Exemplo 13.7 Qual o número de pintos a usar por grupo, na comparação de duas rações, o atributo a medir sendo o aumento de peso? O teste deverá acusar significância estatística quando a diferença entre as duas médias é D = 10%. Antecipa-se um coeficiente de variação para ganhos de peso C = 20%. Nessas condições: n = 10(20/10)- = (10) (4) = 40. Um mínimo de 40 pintos deverá ser usado em cada grupo. É interessante assinalar aqui o efeito da heterogeneidade do material experimental ou das unidades experimentais, sobre o número de repetições a usar numa investigação. A redução do coeficiente de variação à metade, reduz a 1/4 o número de repetições necessárias. O uso de pintos com um coeficiente de variação igual a 10%, isto é, mais uniformes no aumento de peso, diminuiria de 40 para 10 o número de pintos necessários por grupo. Vocabulário Desvio padrão da média Tamanho da amostra Estimação de parâmetros Teste emparelhado populacionais Estimação por intervalo Teste para amostras independentes 163 Estimação por ponto Teste T Exercícios 13.1. Amostras de sangue de dez pessoas foram enviadas a dois laboratórios para a determinação de colesterol. Os resultados foram: Colesterol sérico 9 (mg/dL) Individuo Lab 1 Lab2 1 296 318 2 268 287 3 244 260 4 272 279 5 240 245 6 244 249 7 282 294 8 254 271 9 244 264 10 262 285 Σx 2.606 2.750 ΣX 2 682.316 760.706 Existe uma diferença estatisticamente significante na determinação do colesterol entre o lab 1 e o lab 2 para a = 0,01. A. A Qual o teste a ser usado: teste t para duas amostras independentes ou teste t para amostras paredas? B. B Realizar o teste escolhido em A e responder a questão. C. Realizar o teste não escolhido em A e comparar o resultado com o obtido em B. O que foi observado? 13.2. Um estudo foi conduzido utilizando 139 acadêmicos, que voluntariamente participaram de uma pesquisa sobre o consumo diário máximo de álcool no mês anterior. 164 Baseado nos dados da tabela seguinte, existe diferenças entre homens e mulheres quanto a quantidade máxima de álcool ingerida diariamente no mês anterior? Quantidade máxima diária de álcool consumida no ultimo mês (Carey & Correia, 1997). Homens Mulheres Média = 8,2 Média = 5,6 S = 5,9 S = 5,7 N = 54 N = 85 A. Escrever a hipótese nula e a hipótese alternativa usando a notação estatística correta. B. Qual e o valor citicoן para = 0,05? C. Esses grupos são independentes ou dependentes? Explicar? D. Qual é o valor calculado de t? E. Quais as conclusões? F. Calcular o intervalo de confiança de 95%. 165 Exercícios diversos 1. Pretende-se lançar uma moeda 5 vezes e rejeitar a hipótese de que a moeda é não- tendenciosa, isto é, pretende-se rejeitar Ho: π = 0,50, se em 5 (cinco) jogadas ocorrerem 5 coroas ou 5 caras. Qual é a probabilidade de se cometer erro do tipo I? 2. Você suspeita que um dado é viciado, isto é, você suspeita que a probabilidade de obter face 6 é maior do que 1/6. Você decide testar a hipótese de que o dado é não- viciado, jogando-o cinco vezes e rejeitando essa hipótese se ocorrer a face 6 (seis), 4 ou 5 vezes. Qual o nível de significância do teste? 3. Uma urna contém 6 fichas, das quais θ são brancas e 6 - θ são pretas. Para testar a hipótese de nulidade de que θ = 3, contra a alternativa de que θ ≠ 3, são retiradas 2 (duas) fichas da urna ao acaso e sem reposição. Rejeita-se a hipótese nula se as duas fichas forem da mesma cor. (a) Determine P(Erro do Tipo I). (b) Determine o poder do teste para os diferentes valores de θ. (c) Considere, agora, que a segunda ficha é retirada após a reposição da primeira. Calcule, novamente, o nível de significância e os valores do poder do teste. (d). Compare os dois procedimentos (com e sem reposição da segunda ficha retirada). Qual a conclusão? 166 4. Para decidirmos se os habitantes de uma ilha são descendentes da civilização A ou B, iremos proceder da seguinte forma: (i) Selecionamos uma amostra aleatória de 100 moradores adultos da ilha e determinamos a altura média; (ii) Se a altura média for superior a 176 cm, diremos que os habitantes são descendentes de B, caso contrário, admitiremos que são descendentes de A. Os parâmetros das duas civilizações são: A: µ A = 175 cm e σ A = 10 cm e B: µ B = 177 cm e σ B = 10 cm. Define-se ainda: erro do tipo I como sendo “dizer que os habitantes são descendentes de B quando, na realidade, são de A” e erro do tipo II “dizer que os habitantes são de A quando, na realidade, são descendentes de B”. (a) Qual a probabilidade de erro do tipo I e do tipo II? (b) Se σ A = σ B = 5, como ficariam os valores dos erros do tipo I e II? (c) Qual deve ser a regra de decisão se quisermos fixar a a probabilidade de Erro I em 5%. Qual a probabilidade de erro II neste caso? (d) Quais as probabilidades de Erro II, se as médias forem: µ A = 178 e se µ B = 180? 5. Fazendo o teste H 0 : µ = 1150 (σ = 150) contra H 1 : µ = 1200 (σ = 200) e com n = 100, estabeleceuse a seguinte região crítica: RC = [1170, +∞). (a) Qual a probabilidade α de rejeitar H 0 quando verdadeira? (b) Qual a probabilidade β de Aceitar H 0 quando H 1 é verdadeira? 6. Numa linha de produção é importante que o tempo gasto numa determinada operação não varie muito de empregado para empregado. Em operários bem treinados a variabilidade fica em 100 u 2 . A empresa colocou 11 novos funcionários para trabalhar na linha de produção, supostamente bem treinados, e observou os seguintes valores, em segundos: 125 135 115 120 150 130 125 145 125 140 130 Testar se a tempo despendido por estes funcionários pode ser considerado mais variável do que os demais funcionários. Utilize 5% de significância. 7. Diversas políticas, em relação às filiais de uma rede de supermercados, estão associadas ao gasto médio dos clientes em cada compra. Deseja-se comparar estes parâmetros de duas novas filiais, através de duas amostras de 50 clientes,selecionados ao acaso, de cada uma das novas filiais. As médias obtidas foram 62 e 71 unidades 167 monetárias. Supondo que os desvios padrões sejam idênticos e iguais a 20 um, teste a hipótese de que o gasto médio dos clientes não é o mesmo nas duas filiais. Utilize uma significância de 2,5%? 8. Em dois anos consecutivos foi feito um levantamento de mercado sobre a preferência dos consumidores pelo por um determinado produto. No primeiro ano o produto era anunciado com freqüência semanal nos veículos de comunicação e no segundo ano com freqüência mensal. No levantamento foram utilizados duas amostras independentes de 400 consumidores cada. No primeiro ano o percentual de compradores ficou em 33% e no segundo ano em 29%. Considerando o nível de significância de 5%, teste a hipótese de que a freqüência do anúncio tem influência na manutenção da fatia de mercado. 9. Para verificar se uma moeda é honesta, com base em 20 lançamentos independentes, adotamos o seguinte critério: consideramos a moeda não honesta se o resultado for menor do que 7 ou maior do que 13. (a) Formule esse problema como um problema de teste de hipóteses. (b) Quais são os significados dos erros tipo I e II? (c) Qual é o nível de significância do teste? 10. No ano de 2003 foi feita uma pesquisa em uma estância turística e constatou-se que apenas 60% dos visitantes estavam satisfeitos com a infraestrutura oferecida. Com o intuito de aumentar essa proporção a prefeitura fez algumas melhorias na cidade e depois de um ano, resolveu verificar se as mesmas produziram o efeito desejado. Para isso entrevistou 50 turistas. (a) Formule esse problema como um problema de teste de hipóteses. (b) Quais são os significados dos erros tipo I e tipo II? (c) Qual é a região crítica associada a um nível de significância de 10%. (d) Se 37 dos 50 turistas entrevistados estavam satisfeitos com a infraestrutura oferecida, qual é asua conclusão? 11. A marca Z de um produto é responsável por 50% das vendas desse produto em um supermercado. Uma campanha promocional foi contratada e os promotores garantem que a marca Z passará a ser responsável por uma porcentagem maior das vendas. O dono do supermercado propõe entrevistar alguns clientes após o encerramento da campanha promocional e perguntar a cada um deles se ele usualmente compra a marca 168 Z do produto.Sendo p a porcentagem de vendas do produto Z após a campanha (a) Estabeleça as hipóteses apropriadas. (b) Quais são os significados dos erros tipo I e tipo II para o problema? (c) Se entre 18 clientes entrevistados, 12 responderam sim, qual é a sua conclusão com base no nível descritivo? (d) Se entre 324 clientes entrevistados, 178 responderam sim, qual é a sua conclusão com base no nível descritivo? 12. Com o objetivo de testar uma hipótese H0 contra a hipótese alternativa Ha, um pesquisador fixou as probabilidades de erros de 1ª e 2ª espécies, respectivamente, em 5% e 10%. Realizado o teste, imaginem-se 2 situações diferentes: Em A: O pesquisador rejeitou a hipótese de nulidade Em B: O pesquisador não rejeitou a hipótese de nulidade. Para cada situação (A e B) assinale a alternativa correta e justifique. a) O pesquisador certamente estará cometendo um erro cuja probabilidade de ocorrência é igual a 5%; b) O pesquisador certamente estará cometendo um erro cuja probabilidade de ocorrência é igual a 10%; c) Se o pesquisador estiver cometendo um erro, a probabilidade de ocorrência associada a este erro é de 15%; d) Se o pesquisador estiver cometendo um erro, a probabilidade de ocorrência associada a este erro é de 10%; e) Se o pesquisador estiver cometendo um erro, a probabilidade de ocorrência associada a este erro é de 5%. 12. A resistência ao resfriado comum em uma dada indústria, durante o inverno, é de p=0,60. Foi proposto um tratamento preventivo com a finalidade de aumentar a resistência ao resfriado para p=0,70. Então: a) formule as hipóteses. b) fixando a= 0,05 (ou valor mais próximo) e admitindo ter sido sorteada uma amostra de tamanho n=20, observou-se que 4 operários ficaram resfriados. Nestas condições, qual é a conclusão quanto à eficiência do medicamento? 169 13. Para se estimar a letalidade da doença B, acompanhou-se uma amostra de 30 doentes durante um ano. Após esse período, cinco deles haviam morrido. Testar a hipótese de que essa letalidade é igual a 20%. Fixe o erro de 1º espécie em um a=10%. 14. Certa comunidade apresentou em um período de vários anos coeficiente de incidência da doença X de 12 por 10.000 hab.. Em 1999, a incidência foi de 70 casos e a população estimada foi igual a 50.000 habitantes. Nestas condições, ao nível de significância de 1% (ou mais próximo) diga se concorda com as autoridades sanitárias que consideraram a situação dentro do esperado. 15. Desejando-se conhecer o coeficiente de prevalência de determinada doença na cidade A, selecionou-se uma amostra aleatória de 500 pessoas. Nesta amostra detectaram-se 20 doentes. Teste a hipótese de que a prevalência é semelhante à descrita na literatura de 10%. (Fixando a=5%) 16. Uma nova espécie de trigo desenvolvida em laboratórios será testada quanto a sua produtividade, em comparação com a espécie tradicional. Dados do governo revelam que a produtividade média de lavouras que se utilizam da espécie tradicional é de 25 ton/ha. A produtividade de uma fazenda é uma variável aleatória normalmente distribuída. Dezesseis fazendas foram preparadas para a avaliação da nova espécie. Qual seria o seu parecer sobre a nova espécie se, em seu experimento você observasse na amostra média de 28 ton/ha e variância de 12( ton / ha) 2 . 17. Um novo método de emagrecimento é anunciado como o fim das gordurinhas a mais que perseguem a parcela mais abonada da sociedade. Preocupado com a seriedade profissional dos responsáveis pelo uso do método, o conselho de medicina decide promover um experimento para avaliar a eficácia do tratamento. Trinta e dois voluntários são divididos em 2 grupos de igual tamanho, recebendo cada grupo um tratamento diferente. Um deles recebe o novo método e o outro o método tradicional. Anotou-se a variação de peso de cada indivíduo após o final do tratamento. Os resultados foram: ind. 1 2 3 4 5 6 7 8 9 10 11 1 2 13 14 15 16 170 Novo 5.3 - 3.4 - 8.1 - 9.0 1.3 - 3.4 - 8.0 2.3 - 3.1 - 13.4 - 8.9 3. 1 - 4.3 - 3.0 - 3.2 2.0 trad. 4.2 - 2.0 - 5.0 - 3.0 2.8 - 0.3 - 6.0 - 3.1 0.3 - 12.0 - 6.0 2. 0 - 2.1 - 1.0 - 2.0 - 1.0 Suponha que tanto a variação do peso com o tratamento novo, quanto a variação com o tratamento tradicional sejam variáveis aleatórias com distribuições normais. (a) Teste a hipótese de que não há diferença entre os dois métodos, a um nível de 0,01. Suponha que os dois grupos de voluntários sejam independentes (b) suponha agora que os indivíduos do primeiro grupo são irmãos gêmeos dos indivíduos do outro grupo(pares de gêmeos, é claro). Para cada par aplicou-se a um dos gêmeos o tratamento novo e ao outro o tradicional. Teste com base nessa informação adicional a mesma hipótese do item anterior, ao mesmo nível de significância. 18. Um novo método de aprendizagem foi testado através do seguinte experimento. Em uma turma de 30 alunos utilizou-se o método novo e em outra turma de 30 alunas de outra escola manteve-se o método tradicional. Ao final do curso aplicou-se um mesmo exame às duas turmas. Os resultados foram: Turma1-método novo: média=69 desvio padrão=10 Turma2-método antigo: média=60 desvio padrão=9. Com base nestas informações, teste se há diferença significativa entre os dois métodos, a um nível de 0,05. Suponha as notas individuais de cada aluno como v.a. normais de mesma variância e médias possivelmente diferentes. 19. Um novo tratamento anti-corrosivo para chapas de aço foi testado. O experimento realizado foi o seguinte: 9 chapas diferentes foram selecionadas sendo cada uma dividida em duas. A uma das metades aplicou-se o tratamento novo e a outra metade o tratamento antigo. Anotou-se, então, o tempo até o início da corrosão em cada metade.Os resultados obtidos foram: chapa 1 2 3 4 5 6 7 8 9 metade/novo 36.2 48.3 35.4 39.3 40.2 37.4 39.3 42.3 36.0 metade/antig o 31.4 39.2 35.0 33.4 41.3 36.8 38.1 43.0 35.0 Suponha que o tempo até a corrosão em cada metade é uma variável com distribuição normal, e que o tratamento não influencia na variância desta variável, mas apenas na sua média. Qual dos tratamentos voce recomendaria que fosse utilizado? 171 20. Um estudo é desenvolvido para investigar o efeito de um certo tratamento para controlar a temperatura do corpo de porcos criados em laboratório e que possuem uma deficiência genética que provoca redução na temperatura corpórea dos porcos. As temperaturas de interesse foram medidas um dia antes e um dia depois de submeterem os porcos ao tratamento. Os dados obtidos estão apresentados na tabela abaixo. animal 1 2 3 4 5 6 7 8 9 10 antes 38.1 38.4 38.3 38.2 38.2 37.9 38.7 38.6 38 38.2 depois 38.9 38.6 38.2 38.2 39.4 38.5 38.3 38.4 38.8 38.7 a) Há evidências de que o tratamento permite o controle da temperatura ? b) Calcule um intervalo de confiança para a temperatura após a aplicação do tratamento. 21. Um entomologista está investigando se um inseto é predador de uma variedade de uma espécie de plantas com folhas rugosas e uma outra com folhas lisas. Ele acompanha o crescimento de cinco plantas de cada variedade e conta o número de ovos do inseto em cada uma delas. Infelizmente ele perde uma observação referente a planta de folha lisa. Para as 9 plantas que sobraram , ele obtem uma quantidade média de 48,5 para lisa e 37,2 para rugosa. Fazendo os cálculos ele encontra um valor t=2,65 com 7 graus de liberdade. Após verificar melhor seus registros ele encontra a observação perdida, cujo valor é 110. a) qual é agora o número médio de ovos do inseto para a planta lisa? b) como você acha que ele determinou o valor de t? c) quando ele repete os cálculos fica surpreso de não encontrar diferença sigificativa entre o número médio de ovos para os dois tipos de folhas. O que pode ter acontecido? 172 16. CORRELAÇÃO E REGRESSÃO 16.1. Correlação 16.1.1. Introdução Ao se estudar uma variável o interesse eram as medidas de tendência central, dispersão, assimetria, etc. Com duas ou mais variáveis além destas medidas individuais também é de interesse conhecer se elas tem algum relacionamento entre si, isto é, se valores altos (baixos) de uma das variáveis implicam em valores altos (ou baixos) da outra variável. Por exemplo, pode-se verificar se existe associação entre a taxa de desemprego e a taxa de criminalidade em uma grande cidade, entre verba investida em propaganda e retorno nas vendas, etc. A associação entre duas variáveis poder ser de dois tipos: correlacional e experimental. Numa relação experimental os valores de uma das variáveis são controlados pela atribuição ao acaso do objeto sendo estudado e observando o que acontece com os valores da outra variável. Por exemplo, pode-se atribuir dosagens casuais de uma certa droga e observar a resposta do organismo; pode-se atribuir níveis de fertilizante ao acaso e observar as diferenças na produção de uma determinada cultura. No relacionamento correlacional, por outro lado, não se tem nenhum controle sobre as variáveis sendo estudadas. Elas são observadas como ocorrem no ambiente natural, sem nenhuma interferência, isto é, as duas variáveis são aleatórias. Assim a diferença entre as duas situações é que na experimental nós atribuímos valores ao acaso de uma forma não tendenciosa e na outra a atribuição é feita pela natureza. Freqüentemente é necessário estudar o relacionamento entre duas ou mais variáveis. Ao estudodo relacionamento entre duas ou mais variáveis denominamos de correlação e regressão. Se o estudo tratar apenas de duas variáveis tem-se a correlação e a regressão simples, se envolver mais do que duas variáveis, tem-se a correlação e a regressão múltiplas. A regressão e a correlação tratam apenas do relacionamento do tipo linear entre duas variáveis. A análise de correlação fornece um número que resume o grau de relacionamento linear entre as duas variáveis. Já a análise de regressão fornece uma equação que descreve o comportamento de uma das variáveis em função do comportamento da outra variável. 16.2. Padrões de associação 173 Independente do tipo (correlacional ou experimental) a relação entre as variáveis pode ser resumida através de uma equação indicando o padrão de associação entre as duas variáveis.. Quando não é possível perceber uma relação sistemática entre as variáveis é dito que as variáveis são não correlacionadas, são independentes ou ainda que são ortogonais. 16.3. Indicadores de associação Suponha-se que queiramos determinar se duas variáveis aleatórias estão de alguma forma correlacionadas. Por exemplo, suponha-se que se queira determinar se o desempenho dos empregados no trabalho está de alguma forma associado ao escore obtido num teste vocacional. Tabela de contingência 2x2. Uma vez que a correlação entre duas variáveis aleatórias reflete o quanto os altos escores de uma delas implicam em altos escores da outra e baixos escores de uma implicam em baixos escores da outra e vice-versa, no caso de uma relação negativa, pode-se começar a análise identificando, justamente quantos elementos de uma das variáveis são altos e quantos são baixos. Para determinar se um escore ou valor é alto ou baixo, pode-se convencionar que qualquer valor acima da mediana é alto e qualquer valor abaixo da mediana é baixo. Classificando desta forma pode-se ter então, para o exemplo, 4 possíveis resultados: • Tanto o desempenho no trabalho quanto no teste estão acima da mediana (+ +) • O desempenho no trabalho está acima mas o do teste está abaixo da mediana (+ −) • Tanto o desempenho no trabalho quanto o do teste estão abaixo da mediana (− −) • O desempenho no trabalho está abaixo da mediana mas o teste não (− +) Estas quatro possibilidades podem ser arranjadas em uma tabela de contingência 2x2, como a mostrada abaixo: Tabela 1.1 − Desempenho no trabalho e no teste Desempenho no trabalho Escore no teste vocacional Abaixo da mediana (-) Acima da mediana (+) Acima da mediana (+) (-, +) 10 empregados (+, +) 40 empregados Abaixo da mediana (-) (−, −) 40 empregados (+, −) 10 empregados Observe−se que se não existir relação entre as duas variáveis deve−se esperar número idêntico de empregados em cada uma das células da tabela, isto é, se a pessoa o escore 174 da pessoa no teste vocacional está acima ou abaixo da mediana não tem nada a ver com o seu escore no desempenho no trabalho estar acima ou abaixo da mediana. O que pode ser visto na tabela acima é que parece existir uma forte correlação entre as duas variáveis, pois ao invés de igual número em cada célula o que se tem é um número grande de ambas as variáveis acima da mediana e um número grande de escores de ambas as variáveis abaixo da mediana. Das 50 pessoas com escore acima da mediana no teste, 40 deles (80%) apresentaram escore acima da mediana no desempenho do trabalho. Da mesma forma dos 50 que tiverem classificações abaixo da mediana, 40 deles apresentaram escore abaixo da mediana no desempenho do trabalho. Se não houvesse correlação seria de se esperar que dos 50 que tiveram escores acima da mediana no teste 25 tivessem escores acima da mediana no desempenho do trabalho e 25 abaixo. A tabela 1.2 mostra outras possíveis saídas para este tipo de esquema de classificação cruzada. Novamente 100 elementos são classificados em 4 células de acordo com o critério anterior. A parte (a) da tabela mostra uma associação positiva, a parte (b) uma negativa e a parte (c) que não deve existir associação entre duas variáveis X e Y. Tabela 1.2 - Indicativos da presença de associação entre duas variáveis X e Y. (a) Relação positiva (b) Relação negativa (c) Sem relação Valor de Y Valor de Y Valor de Y Valor de X Abaixo da mediana Acima da mediana Valor de X Abaixo da mediana Acima da mediana Valor de X Abaixo da mediana Acima da mediana Acima da mediana 15 35 Acima da mediana 35 15 Acima da mediana 25 25 Abaixo da mediana 35 15 Abaixo da mediana 15 35 Abaixo da mediana 25 25 Diagramas de dispersão. As tabelas de contingência 2x2 fornecem somente a indicação grosseira da relação entre duas variáveis, a não ser o fato de que os valores estão situados acima e abaixo da mediana, qualquer outra informação é desperdiçada. Vamos considerar um exemplo, envolvendo duas variáveis contínuas. Um comerciante de temperos está curioso sobre a grande variação nas vendas de loja para loja e acha que as vendas estão associadas com o espaço nas prateleiras dedicados a sua linha de produto em cada ponto de venda. Dez lojas foram selecionadas 175 ao acaso através do país e as duas seguintes variáveis foram mensuradas: (1) total de espaço de frente (comprimento x altura em cm2) dedicados a sua linha de produtos e (2) total das vendas dos produtos, em reais, no último mês. Os dados são apresentados na tabela 1.3. Tabela 1.3 – Vendas x espaço dedicado aos produtos (em cm2). Local Espaço Vendas 1 340 71 2 230 65 3 405 83 4 325 74 5 280 67 6 195 56 7 265 57 8 300 78 9 350 84 10 310 65 Pela observação da tabela não é fácil perceber o tipo de relacionamento que possa existir entre as duas variáveis. Para ter uma idéia melhor, as variáveis são colocadas no que é denominado de diagrama de dispersão. Uma das variáveis (X) é representada no eixo horizontal e a outra variável (Y) no eixo vertical, conforme figura 1.2. 176 Uma olhada rápida no diagrama de dispersão mostra a existência de um relacionamento entre as variáveis, com altos valores de uma das variáveis associados a altos valores da outra variável. Se não houvesse relacionamento entre elas, os pontos estariam distribuídos ao acaso no gráfico sem mostrarem alguma tendência. 16.4. Coeficiente de correlação Apesar do diagrama de dispersão nos fornecer uma idéia do tipo e extensão do relacionamento entre duas variáveis X e Y, seria altamente desejável ter um número que medisse esta relação. Esta medida existe e é denominada de coeficiente de correlação. Quando se está trabalhando com amostras o coeficiente de correlação é indicado pela letra r que é, por sua vez, uma estimativa do coeficiente de correlação populacional: ρ (rho). O coeficiente de correlação pode variar de –1,00 a + 1,00, com um coeficiente de +1, indicando uma correlação linear positiva perfeita. Neste caso, as duas variáveis serão exatamente iguais em termos de escores padronizados z, isto é, um elemento apresentando um escore padronizado de 1,5 em uma das variáveis vai apresentar o mesmo escore padronizado na outra variável. Um coeficiente de correlação de –1, indica correlação linear perfeita negativa, com os escores padronizados exatamente iguais em valores absolutos, diferindo apenas no sinal. Uma correlação de +1 ou –1 é raramente observado. O mais comum é que o coeficiente fique situado no intervalo entre estes dois valores. Um coeficiente de correlação “0”, significa que não existe um relacionamento linear entre as duas variáveis. 0 10 20 30 40 50 60 70 80 90 0 100 200 300 400 500 Vendas x Áreas de prateleira 177 16.5. Hipóteses básicas A suposição básica sobre o coeficiente de correlação é que o relacionamento entre as duas variáveis seja linear. Isto é, o coeficiente de correlação é adequado para avaliar somente o relacionamento linear. As duas variáveis podem estar perfeitamente relacionadas, mas se não for de forma linear o valor do coeficiente pode ser zero ou próximo de zero. Uma segunda hipótese é que as variáveis envolvidas sejam aleatórias e que sejam medidas no mínimo em escala de intervalo. Ele não se aplica a variáveis em escala nominal ou ordinal ou quando uma das variáveis é manipulada experimentalmente, pois neste caso, a escolha dos valores experimentais vai influenciar o valor de r obtido. Uma terceira hipótese é que as duas variáveis tenham uma distribuição conjunta normal bivariada. Isto é equivalente a dizer que para cada x dado a variável y é normalmente distribuída. Suponha-se que existam apenas duas variáveis X e Y. Uma amostra da variável “X”, assumindo os valores particulares X1, X2, ..., Xn e uma amostra da variável “Y” assumindo os valores particulares Y1, Y2, ..., Yn são obtidas e suponha-se ainda que o objetivo é saber se existe algum tipo de relacionamento linear entre estas duas variáveis. Isto poderá ser medido pelo coeficiente de correlação que fornece o grau de relacionamento linear entre duas variáveis. 1.6. DEFINIÇÃO Na população o coeficiente de correlação é representado por ρ e na amostra por r. Assim dadas duas amostras, uma da variável X e outra da variável Y, o coeficiente de correlação amostral poderá ser calculado através da seguinte expressão: ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) i i i i i i i i i i i i nX .Y X . Y x X . y Y r x X . y Y n X X n Y Y − − − = = ( ( − − − − ( ( ¸ ¸ ¸ ¸ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ 2 2 2 2 2 2 Uma população que tenha duas variáveis não correlacionadas linearmente pode produzir uma amostra com coeficiente de correlação diferente de zero. Para testar se a amostra foi ou não retirada de uma população de coeficiente de correlação não nulo entre duas variáveis, precisamos saber qual é a distribuição amostral da estatística r. 16.7. Distribuição amostral de r (quando ρ = 0) A distribuição amostral de r depende somente do valor de ρ (coeficiente de correlação 178 populacional) e do tamanho da amostra. Se for admitido que ρ = 0, a distribuição amostral de r (coeficiente de correlação na amostra) será simétrica em torno de “0” com variabilidade dada por: r r σ n − = − 2 1 2 Neste caso, pode-se mostrar que o quociente: r r r σ r n = − − 2 1 2 tem uma distribuição t com n – 2 graus de liberdade. Isto é: r t r n = − − 2 1 2 Exemplo: Quer-se testar se existe ou não correlação linear entre X = toneladas de adubo orgânico por ha e Y = produção da cultura A por ha. Para tanto é realizado um experimento com duração de 5 anos que mostrou os resultados da tabela 1.4. Verificar se existe relacionamento linear entre as duas variáveis. Tabela 1.4 − Valores das variáveis X e Y Anos X Y 1989 2 48 1990 4 56 1991 5 64 1992 6 60 1993 8 72 Para saber se há ou não correlação linear entre estas duas variáveis na população de onde foi retirada esta amostra é necessário realizar um teste de hipóteses, ou seja, é preciso testar: H0: ρ = 0 (Não existe relacionamento linear na população) H1: ρ ≠ 0 (Existe relacionamento linear na população) A tabela 1.5 mostra os cálculos necessários para se obter o coeficiente de correlação para esta amostra das variáveis X e Y. 179 Tabela 1.5 − Valores das variáveis X e Y e cálculos para obter r Anos X Y XY X 2 Y 2 1989 2 48 96 4 2304 1990 4 56 224 16 3136 1991 5 64 320 25 4096 1992 6 60 360 36 3600 1993 8 72 576 64 5184 Total 25 300 1576 145 18320 O valor de r será dado então por: ( ) ( ) ( ) ( ) ( ) i i i i x X . y Y 5.(1576 )-25.300 r , x X . y Y .( ) ( ) .( . ) − − = = = ( ( − − − − ¸ ¸ ¸ ¸ ∑ ∑ ∑ 2 2 2 2 0 95 5 145 25 5 18 320 300 A estatística teste será: r t r n = − − 2 1 2 que neste caso, tem uma distribuição t com n - 2 = 3 graus de liberdade. O valor de t (calculado) é: r , t r ( , ) n = = − − − − 2 2 0 95 1 1 0 95 2 5 3 =5,270 O valor tabelado de t com 3 g.l. e a 5% de significância, considerando um teste bilateral é: 3,182. Com estes valores rejeita-se H0 e pode-se afirmar, com 5% de significância, que as duas variáveis possuem um relacionamento linear na população. Dado que há fortes evidências de que as duas variáveis possuem um relacionamento linear pode-se então ajustar uma linha de regressão entre elas. 16.8. Distribuição amostral de r (quando ρ ≠ 0) Para testar a existência de um certo grau de correlação entre duas variáveis X e Y, isto é, para testar 180 H 0 : ρ = ρ 0 contra H 1 : ρ ≠ ρ 0 ρ > ρ 0 ρ < ρ 0 é necessário determinar a distribuição de “r”, quando ρ é diferente de zero. A distribuição de “r” só é simétrica quando ρ é zero, se isto não ocorre a distribuição será assimétrica. Esta falta de normalidade impede que se use o teste tradicional, o teste t, neste caso. Contudo, mediante uma transformação apropriada, “r” pode ser alterado para uma estatística que é aproximadamente normal. Esta transformação é denominada de transformação Z de Fischer. A expressão para realizá-la é: r' = r ln r + | | | − \ ¹ 1 1 2 1 Esta quantidade tem distribuição aproximadamente normal com média r µ ln r + | | = | − \ ¹ 1 1 2 1 e variância ( ) σ n = − 2 1 3 3), quando “n” não for muito pequeno, ou seja, n ≥ 20 Exemplo: Suponha que de experiências anteriores pode ser suposto que a correlação entre a idade e a pressão sangüínea sistólica é ρ = 0.85. Para testar a hipótese nula, a 5% de significância, de que ρ é este valor contra a alternativa de que ele é diferente deste valor supõem-se que foi extraída uma amostra de tamanho n = 30 e que forneceu um r = 0,66. Então o teste pode ser realizada através dos seguintes cálculos: Solução: r' = r , ln ln 0,7928 r , + + | | | | = = | | − − \ ¹ \ ¹ 1 1 1 1 0 66 2 1 2 1 0 66 A distribuição de r' é dada por: ρ , µ ln ln 1,2561 ρ , | | + + | | = = = | | − − \ ¹ \ ¹ 1 1 1 1 0 85 2 1 2 1 0 85 0,7928 -1,2561 z -2,41 = = 1 30 3 181 Para um nível de significância de 5% o valor tabelado de z é -1,96. Rejeita-se, então a hipótese nula. Isto é, pode-se afirmar que o valor da correlação populacional é diferente de 0,85. 16.9. Propriedades de R As propriedades mais importantes do coeficiente de correlação são: 1. O intervalo de variação vai de -1 a +1. 2. O coeficiente de correlação é uma medida adimensional, isto é, ele é independente das unidades de medida das variáveis X e Y. 3. Quanto mais próximo de +1 for “r”, maior o grau de relacionamento linear positivo entre X e Y, ou seja, se X varia em uma direção Y variará na mesma direção. 4. Quanto mais próximo de -1 for “r”, maior o grau de relacionamento linear negativo entre X e Y, isto é, se X varia em um sentido Y variará no sentido inverso. 5. Quanto mais próximo de zero estiver “r” menor será o relacionamento linear entre X e Y. Um valor igual a zero, indicará ausência apenas de relacionamento linear. 16.20. Regressão Uma vez constatado que existe correlação linear entre duas variáveis, pode-se tentar prever o comportamento de uma delas em função da variação da outra. Para tanto será suposto que existem apenas duas variáveis. A variável X (denominada variável controlada, explicativa ou independente) com valores observados X1, X2, ..., Xn e a variável Y (denominada variável dependente ou explicada) com valores Y1, Y2, ..., Yn. Os valores de Y são aleatórios, pois eles dependem não apenas de X, mas também de outras variáveis que não estão sendo representadas no modelo. Estas variáveis são consideradas no modelo através de um termo aleatório denominado “erro”. A variável X pode ser aleatória ou então controlada. Desta forma pode-se considerar que o modelo para o relacionamento linear entre as variáveis X e Y seja representado por uma equação do tipo: Y = α + βX + U, onde “U” é o termo erro, isto é, “U” representa as outras influências na variável Y além da exercida pela variável “X”. Esta equação permite que Y seja maior ou menor do que α + βX, dependendo de “U” ser positivo ou negativo. De forma ideal o termo “U” deve ser pequeno e independente de X, 182 de modo que se possa modificar X, sem modificar “U”, e determinar o que ocorrerá, em média, a Y, isto é: E(Y/X) = α + βX Os dados {(Xi, Yi), i = 1, 2, ..., n} podem ser representados graficamente marcando-se cada par (Xi, Yi) como um ponto de um plano. Os termos Ui são iguais a distância vertical entre os pontos observados (Xi, Yi), e os pontos calculados (Xi, α + βXi). Isto está ilustrado na figura 2.1. Figura 2.1 − O modelo de regressão linear Y ● E(Y/X) = α + βX Erro ↑ U ˆ Y ↓ ● X Um modelo de regressão consiste em um conjunto de hipóteses sobre a distribuição dos termos “erro” e as relações entre as variáveis X e Y. Algumas destas hipóteses são: (i) E(U i ) = 0; (ii) Var(U i ) = σ 2 esperado igual a zero e na (ii) que a variância de cada Ui é a mesma e igual a σ2, para todos os valores de X. Supõem-se ainda que a variável independente X, permaneça fixa, em observações sucessivas e que a variável dependente Y seja função linear de X. Os valores de Y 183 devem ser independentes um do outro. Isto ocorre em geral, mas em alguns casos, como, por exemplo, observações diferentes são feitas no mesmo indivíduo em diferentes pontos no tempo está suposição poderá não ocorrer. Como o valor esperado de Ui é zero, o valor esperado da variável dependente Y, para um determinado valor de X, é dado pela função de regressão α + βX ou seja: E(Y/X) = E(α + βX + U) = α + βX + E(U) = α + βX [1] já que α + βX é constante para cada valor de X dado. O símbolo E(Y/X) é lido valor esperado de Y, dado X. A variância de Y, para determinado valor de X, é igual a: V(Y/X) = V(α + βX + U) = V(U) = σ2 [2] A hipótese de que V(Y/X) é a mesma para todos os valores de X, denominada de homocedasticidade, é útil pois permite que se utilize cada uma das observações sobre X e Y para estimar σ2. O termo “homo” significa “o mesmo” e “cedasticidade” significa “disperso”. De [1] e [2] decorre que, para um dado valor de X, a variável dependente Y tem função densidade de probabilidade (condicional) com média α + βX e variância σ2. A figura 2.2, ilustra a função densidade. Na parte superior da figura é ilustrado o caso heterocedástico e na parte inferior o caso homocedástico. A posição da função densidade f(Y/X) varia em função da variação do valor de X. Note-se que a média da função densidade se desloca ao longo da função de regressão α+ βX. Em resumo, o modelo de regressão proposto consiste nas seguintes hipóteses: 1. Y = α+ βX + U; 2. E(Y/X) = α+ βX; 3. V(Y/X) = σ 2 ; 4. Cov(U i , U j ) = 0, para i ≠j; 5. A variável X permanece fixa em observações sucessivas; 6. Os erros U são normalmente distribuídos. 16.21. Estimativa dos parâmetros de regressão Se fosse conhecido toda a população de valores (X i , Y i ) então seria possível determinar os valores exatos dos parâmetros α, β e σ 2 . Como, em geral, se trabalha com amostras se faz necessário, então, estimar estes parâmetros com base nos valores da amostra. 184 Existem alguns métodos para ajustar uma linha entre as variáveis X e Y o mais utilizado é o denominado método dos mínimos quadrados (MMQ). A reta obtida através deste método, não é necessariamente, o “melhor” ajustamento possível, mas possui muitas propriedades estatísticas que são desejáveis. Sejam a e b estimadores de α e β e E i = Y i - a - bXi o desvio observado em relação a reta ajustada, isto é, Ei é um estimador do termo Ui. O método dos mínimos quadrados exige que os estimadores a e b sejam escolhidos de tal forma que a soma dos quadrados dos desvios dos mesmos em relação à reta de regressão ajustada seja mínima, isto é: ф = ( ) n n i i i E Y a bX = mínimo = = = − − ∑ ∑ 2 2 1 1 1 parcialmente em relação aos valores a e b. Após algumas simplificações vai-se obter: ΣY i = na + bΣX i (i) ΣXiYi = a ΣXi + b_(Xi) 2 (ii) que são denominadas de equações normais da regressão, onde “n” é o número de pares de observações. Obs.: Para simplificar a notação foram desconsiderados os índices nos somatórios. Dividindo-se a equação (i) por “n” e isolando o valor de a vem: i i X y a b Y bX n n | | = − = − | | \ ¹ ∑ ∑ levando-se este resultado na equação (ii) tem-se: ( )( ) ( ) ( ) ( ) i i i i i i i i i i i i i i i X Y X Y X X Y Y n X Y X Y n b X n X X X X X n − − − − = = = − − − ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ 2 2 2 2 2 A reta estimada de regressão será então: ˆ Y a bX = + com os valores de “a” e “b” obtidos através das seguintes expressões: ( ) i i i i i i n X Y X Y b n X X − = − ∑ ∑ ∑ ∑ ∑ 2 2 e a Y bX = − 185 Utiliza-se o valor _Y , porque o valor de Y, obtido a partir da reta estimada de regressão, para um dado valor de X, é uma estimativa do valor E(Y/X), isto é, do valor esperado de Y dado X. Exemplo: São fornecidos 5 pares de valores, na tabela abaixo, correspondentes as variáveis X e Y. A estimativa da reta de regressão entre X e Y, é obtida utilizando as expressões de a e b acima e usando os resultados obtidos na tabela 2.1. X Y X2 XY 1 3 1 3 2 3 4 6 4 7 16 28 5 6 25 30 8 12 64 96 20 31 110 163 ( ) ( ) ( ) X Y , . . b , . a Y bX 6,20 - 1,30.(4) = 1 = = = = ( − ¸ ¸ = = − = − = 20 4 5 31 6 2 5 5 163 20 31 1 30 5 110 400 Então a linha estimada será: ˆ Y , X = + 1 30 1 Esta reta é o “melhor” ajustamento para estes dados e seria diferente para cada amostra das variáveis X e Y, retiradas desta mesma população. Esta reta pode ser considerada uma estimativa da verdadeira linha de regressão onde 1,3 seria uma estimativa do valor β (parâmetro angular) e 1 uma estimativa do valor α (parâmetro linear), que são os verdadeiros coeficientes de regressão. 16.22. Estimativa da variância do termo erro O termo erro, U, é uma variável aleatória, supostamente com média zero e variância constante. 186 Então, intuitivamente parece plausível usar os resíduos da reta de regressão pelos método dos mínimos quadrados para se estimar a variância σ 2 dos termos “erro”. A variância amostral desses resíduos é igual a: ( ) E E ˆ σ n − = ∑ 2 2 onde E E n = ∑ Observe-se entretanto que: ΣE = Σ(Y − a − bX) = Σ Y − na − bΣ X = 0, pela primeira equação normal (i). Portanto, ~ ˆ σ 2 pode ser escrito como: ~ E ˆ σ n = ∑ 2 2 Mas ˆ σ 2 , neste caso, é um estimador tendencioso. Pode-se obter um estimador não tendencioso, multiplicando ˆ σ 2 por n / (n - 2). O novo estimador, não tendencioso, será representado S 2 e sua raiz quadrada: ( ) ( ) ˆ Y Y E Y a bX S n n n − − − = = = − − − ∑ ∑ ∑ 2 2 2 2 2 2 é denominada de “erro-padrão da estimativa” ou “erro-padrão amostral da regressão”. Obs.: A utilização de “n - 2” é conseqüência do fato de que se deve estimar dois parâmetros, α e β, antes de obter os resíduos E. Como resultado, há somente “n - 2” graus de liberdade associados à quantidade ΣE 2 . A expressão acima, para o cálculo do erro amostral da regressão, apresenta o inconveniente de exigir o cálculo de cada valor previsto de Y, através da linha de regressão, tornando sua obtenção muito trabalhosa. Existe, entretanto, uma alternativa para se obter este valor (erro padrão da estimativa) sem a necessidade de calcular todos os valores previstos. Observe-se que: ( ) ( ) ( ) ( ) ( )( ) ( ) ˆ E Y Y Y a bX Y Y b X bX Y Y b X X Y Y b X X ( = − = − − = − + − = − − − − + − ¸ ¸ ∑ ∑ ∑ ∑ ∑ ∑ ∑ 2 2 2 2 2 2 2 2 Fazendo: ( ) ( ) X X X X Sxx n − = − = ∑ ∑ ∑ 2 2 2 ( ) ( ) Y Y Y Y Syy n − = − = ∑ ∑ ∑ 2 2 2 ( )( ) X Y X X Y Y XY Sxy n − − = − = ∑ ∑ ∑ ∑ 187 Lembrando que: ( ) ( ) i i i i i i i i i i i i X Y X Y n X Y X Y n b n X X X X n − − = = − − ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ 2 2 2 2 , segue que = SXY SXY SXY SXY b bb b SXX SXX SXX SXX e que SXY = bSXX Então vem: ( ) 2 2 2 YY XX XX YY XX E Y-a-bX =S - 2b S + b S = S - b S = ∑ ∑ 2 2 Assim: ( ) YY XX YY XY E Y a bX S b S S bS S n n n n − − − − = = = = − − − − ∑ ∑ 2 2 2 2 2 2 2 2 Pode-se verificar que S 2 definido desta maneira é um estimador não-tendencioso de σ 2 , isto é, E(S 2 ) = σ 2 . O erro padrão da regressão será dado, então, por: 2 YY XX YY XY S -b S S - bS s n n = = − − 2 2 Exemplo: Considerando as variáveis X e Y acima e a linha de regressão anterior determinar uma estimativa do erro padrão da regressão. Os cálculos necessários estão na tabela 2.2. Tabela 2.2 − Determinação do erro padrão da regressão X Y Y c E=Y-Y c E 2 1 3 2,3 0,7 0,49 2 3 3,6 -0,6 0,36 4 7 6,2 0,8 0,64 5 6 7,5 -1,5 2,25 8 12 11,4 0,6 0,36 20 31 31 0 4,1 O erro padrão da regressão será então: ( ) E Y a bX , s 1,17 n n − − = = = = − − − ∑ ∑ 2 2 4 10 2 2 5 3 Este mesmo cálculo poderá ser efetuado pela expressão definida acima, sem a necessidade de se obter os valores estimados. 188 Tabela 2.3 − Determinação do erro padrão da regressão X Y X2 Y2 XY 1 3 1 9 3 2 3 4 9 6 4 7 16 49 28 5 6 25 36 30 8 12 64 144 96 20 31 110 247 163 Neste caso, tem-se: ( ) ( ) ( ) ( )( ) XX YY XY X ( ) S X n Y S Y 54,80 n X Y S XY 39 n = − = − = = − = − = = − = − = ∑ ∑ ∑ ∑ ∑ ∑ ∑ 2 2 2 2 2 2 20 110 30 5 31 247 5 20 31 163 5 O valor de “b” será: b = SXY/SXX = 39/30 = 1,30 Portanto o erro padrão da regressão será: ( )( ) YY XX YY XY , , S b S S bS s 1,1690 = 1,17 n n − − − = = = = − − − 2 54 80 1 3 39 2 2 5 2 16.23. Distribuições das estimativas Observando-se as expressões dos estimadores “a” e “b” da reta estimada, pode-se notar que ambos dependem de Y que é uma variável aleatória com distribuição supostamente normal de média f(X) e desvio padrão σ2. Como os estimadores “a” e “b” são funções lineares de uma variável aleatória normal, também serão variáveis aleatórias com distribuição normal. O que precisa ser determinado, então, é a média e a variância de cada um deles. Antes disso vai-se determinar uma estimativa de σ 2 a variância da variável Y, que no modelo é suposta a mesma para cada valor de X (homocedasticidade). 189 16.23.1. Distribuição do estimador “b” Tem-se que: ( )( ) ( ) ( ) XY XX XX XX X X Y Y Y X X Y X X b = S / S S S = − − − = = ∑ ∑ ∑ Mas ( ) X X = = ∑ 0 logo, ( ) XX Y X X b S − = ∑ Mas Y α βX U = + = , então ( ) ( )( ) ( ) ( ) ( ) XX XX XX XX XX Y X X α βX U X X α X X β X X U X X b S S S S S − + + − − − − = = = = + ∑ ∑ ∑ ∑ XX S = (X-X) = (X - X)(X - X) = X(X - X) - X (X - X) = X(X - X) , pois (X - X) = ∑ ∑ ∑ ∑ ∑ 2 0 Vem ( ) XX U X X b β S − = + ∑ Logo a expectância de “b” será: ( ) ( ) XX XX U X X X X E(b) = E(β) + E E(β)+ E(U).Mas E(U) = 0, por hipótese S S − − = ∑ ∑ Então: E(b) = E(β) = β, uma vez que a média de uma constante é a própria constante. Isto, também, mostra que “b” é um estimador não-tendencioso de β. Para a variância, tem-se: ( ) ( ) ( ) ( ) XX XX XX U X X U X X X X V(b) V β V V(U) S S S | | | | − − − | | = + = = | | \ ¹ \ ¹ ∑ ∑ ∑ 2 2 2.3.2. DISTRIBUIÇÃO DO ESTIMADOR “A” Quanto à distribuição da variável aleatória “a”, tem-se: Y a = Y - b X . Mas Y = n ∑ , então: ( ) Y α βX U α X U U a bX bX β bX α βX bX n n n n n n − + = − = − = + + − = + + − ∑ ∑ ∑ ∑ ∑ ∑ Assim: 190 ( ) U E(U) E(a) = E(α) + E(β X ) +E E bX α βX βX, n n | | − = + + − | | \ ¹ ∑ ∑ pois E(b) = β Então E(a) = α, pois E(U) = 0. Vê-se que “a” é um estimador não-tendencioso de α. Quanto à variância, tem-se: ( ) ( ) XX XX XX E(U) σ V(a) V(α) V βX V V bX V(U) X V(b) σ X n S n n σ σ X X σ n S n S | | = + + + = + + + = + = | \ ¹ | | = + = + | \ ¹ ∑ ∑ 2 2 2 2 2 2 2 2 2 2 2 1 1 0 0 1 Portanto a distribuição de “a” é: N XX X α,σ n S | | | + | \ ¹ 2 1 16.24. Decomposição da soma dos quadrados Y Y Y − Y Y − ˆ Y Y ˆ Y Y − X X Figura 2.3 − Desvios na regressão 16.24.1. Decomposição dos desvios 191 Pelo figura 2.3, pode-se perceber que o desvio em relação a Y (desvio total), isto é, Y - Y pode ser decomposto em dois outros desvios: •O desvio explicado pela linha de regressão, isto é, ˆ Y Y − • O desvio não-explicado (resíduos) pela linha de regressão, isto é ˆ Y Y − É fácil perceber que a variação total, ( ) Y Y − ∑ , é a soma da variação explicada, ( ) ˆ Y Y − ∑ , e a não-explicada, ( ) Y Y − ∑ , pois: ˆ ˆ Y Y Y Y Y Y − = − + − , então: Aplicando somatório a ambos os membros vem: ( ) ( ) ( ) ˆ ˆ Y Y Y Y ` Y Y − = − + − ∑ ∑ ∑ Pode-se verificar também que a propriedade aditiva dos desvios é extensiva à soma dos quadrados desses desvios, ou seja: ( ) ( ) ( ) ˆ ˆ Y Y Y Y Y Y − = − + − ∑ ∑ ∑ 2 2 2 De fato: ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y ( − = − + − = − + − = − + − − − − ¸ ¸ ∑ ∑ ∑ ∑ ∑ 2 2 2 2 2 2 2 2 Mas ( )( ) ( )( ) ( ) ( ) ˆ ˆ ˆ ˆ ˆ Y Y Y^Y Y Y â bX a bX b X Y Y ^ bX X Y Y − = − + − − = − − − ∑ ∑ ∑ ∑ Pelas condições do método dos mínimos quadrados, tem-se: ( ) ˆ Y Y − = ∑ 0 e ( ) ˆ X Y Y − = ∑ 0 em consequência ( )( ) ˆ ˆ Y Y Y Y − − = ∑ 0 , logo, segue que: ( ) ( ) ( ) ˆ ˆ Y Y Y Y Y Y − = − + − ∑ ∑ ∑ 2 2 2 isto é, que a soma dos quadrados dos desvios calculados em torno da média de Y (variação total = VT) é igual à soma dos quadrados dos desvios em torno da linha de regressão (variação residual = VR) mais a soma dos quadrados dos desvios da linha de regressão em torno da média (variação explicada = VE). 16.24.2. Cálculo das variações (a) Variação Total: VT ou Y S 2 ( ) YY YY Y VT Y Y S ,onde S Y n = − = = − ∑ ∑ 2 2 2 192 (b) Variação Explicada: VE ou Y S 2 ( ) ( ) ( ) ( ) ( ) XX ˆ VE Y Y a bX Y Y bX bX Y b X X b X X b S ( = − = + − = − + − = − = − = ¸ ¸ ∑ ∑ ∑ ∑ 2 2 2 2 2 2 2 Logo, 2 XY XX XX XY XX S VE = b S ou VE S bS S | | = = | \ ¹ 2 (c) Variação Residual: VR ou Y/ X S 2 De acordo com a propriedade aditiva das variações, pode-se calcular VR por diferença. Assim: 2 YY XY VR = (Y - Y ) = VT - VE ou VR = S - bS 16.25. Intervalos de confiança Da mesma forma que foram obtidos intervalos de confiança para a média, variância e proporção de uma população, pode-se determinar os intervalos de confiança para os parâmetros da regressão. Ou seja, pode-se determinar um intervalo de confiança para o coeficiente linear (α), um intervalo de confiança para o parâmetro angular (β) e pode-se ainda determinar um intervalo de confiança para um valor previsto de Y, dado X. Este intervalo pode ser para o valor médio de Y paraum dado X, isto é, E(Y/X) ou, então, para um valor individual de Y, isto é, _Y . A estimativa pontual para os dois últimos casos é a mesma. O que vai mudar é o intervalo de confiança correspondente. Isto se deve ao fato de que o modelo desenvolvido é associado principalmente à média do grupo do que a uma informação individual. 16.25.1. Intervalo para o coeficiente linear (α) Considerando que a distribuição do coeficiente linear é dado por N XX X α,σ n S | | | + | \ ¹ 2 1 . Então, fixada uma confiança de 1 - α, o intervalo será: n n XX XX X X P a t .S α a t .S α n S n S − − | | | − + ≤ ≤ + + = − | \ ¹ 2 2 2 2 1 1 1 com t n-2 sendo um valor da distribuição “t” com “n - 2” graus de liberdade e S uma estimativa de σ. 16.25.2. Intervalo para o coeficiente angular (β) 193 Considerando que a distribuição do coeficiente angular é dado por N XX σ b, S | | | | \ ¹ . Então, fixada uma confiança de 1 - α, o intervalo será: n n n XX XX S S P b t . β b t .t . α S S − − − | | − ≤ ≤ + = − | | \ ¹ 2 2 2 1 com t n-2 sendo um valor da distribuição “t” com “n - 2” graus de liberdade e S uma estimativa de σ 16.25.3. Intervalo para previsões (a) Intervalo para o valor médio de ˆ Y Tem-se que ˆ Y = a + bX é um estimador de E(Y/X) ou f(X). Para construir um intervalo de confiança para este valor é necessário conhecer a sua distribuição. Isto é, deve-se conhecer a média e a variância de ˆ Y . ˆ E( Y ) = E(a + bX) = E(a) + E(bX) = α + βE(X) = α + βX = f(X) = E(Y/X), pois, neste caso, X é constante para cada valor de Y. Tem-se: _ ˆ Y = a + bX, mas a = Y-bY , então: ˆ Y = Y - b X + bX = Y + b(X - X ) . A variância de _Y , será: ( ) ( ) 2 2 XX XX XX Y ˆ V( Y ) = V[ Y - b(X - X )] = V( Y ) + V[b(X - X )]=V + (X - X ) V(b)= n X X σ σ σ = V(Y)(X - X ) X X σ S S n S n | | | | \ ¹ ( − ( = + − = + ( ¸ ¸ ∑ ∑ 2 2 2 2 2 2 2 1 1 2 Portanto: ˆ Ytem distribuição N ( ) XX X X α βX, σ n S | | − | + + | | \ ¹ 2 1 Conhecida a distribuição de ˆ Y, então o intervalo de confiança de “1 - α“ de probabilidade para f(X) ou E(Y/X) será: ( ) n n XX XX X X ˆ ˆ P Y t .S E Y / x Y t .S α n S n S − − | | | − + ≤ ≤ + + = − | \ ¹ 2 2 2 2 1 1 1 , onde t n-2 é o valor da distribuição t com “n - 2” graus de liberdade. 194 (b) Intervalo para um valor individual ( _Y ) Uma estimativa do valor individual de Y é dado pela reta de regressão _Y = a + bX, para um dado X e o desvio de previsão será dado por Y - ˆ Y, cujas propriedades são: Para a média: E(Y - ˆ Y ) = E(Y) - E( ˆ Y ) = f(X) - f(X) = 0 Para a variância, tem-se: ( ) ( ) 2 2 XX XX X X X X ˆ ˆ V(Y - Y ) = V(Y) + V( Y) = σ + σ σ n S n S ( ( − − ( ( + = + + ( ( ¸ ¸ ¸ ¸ 2 2 2 1 1 1 Então: Y - ˆ Y tem distribuição N ( ) XX X X , σ n S | | − | + + | | \ ¹ 2 1 0 1 Conhecida a distribuição de Y i - ˆ Y, então o intervalo de confiança de “1 - α“ de probabilidade para um valor individual de Y (Y i ) para um dado X, será: ( ) ( ) n n XX XX X X X X ˆ ˆ Y t .S ;Y t .S n S n S − − − − − + + + + + 2 2 2 2 1 1 1 1 , onde t n-2 é o valor da distribuição t com “n - 2” graus de liberdade 16.26. Testes de hipóteses Conhecidas as distribuições dos estimadores dos coeficientes angular e linear, pode-se realizar um teste de hipóteses. 16.26.1. Teste para a existência da regressão Testar a existência da regressão é testar se o parâmetro β é diferente de zero. Desta forma o que se quer testar é: H0: β = 0 contra as alternativas: H1: β ≠ 0; β > 0 ou β < 0 Fixado um nível de significância α a variável teste será a “t” de Student com “n - 2” graus de liberdade, pois sabe-se que: 195 b tem distribuição Normal com média β e desvio padrão XX σ S , ou seja, XX b β σ Z S − = tem distribuição normal padrão. Porém como σ não é conhecido é necessário estimá-lo através de S. Então: n XX b β S t S − − = 2 16.26.2. Teste para o coeficiente linear Testar o coeficiente linear da regressão “α“ é testar o valor inicial da regressão, isto é, é testar o valor de Y quando X = 0. As hipóteses são: H0: α = 0 contra as alternativas: H1: α ≠ 0; α > 0 ou α < 0 Fixado um nível de significância a variável teste será a “t” de Student com “n - 2” graus de liberdade, pois sabe-se que o estimador “a”, tem uma distribuição: XX X N σ n S | | | + | \ ¹ 2 2 1 . Então: XX a α Z X σ n S − = | | + | | \ ¹ 2 1 tem distribuição normal padrão. Porém como σ não é conhecido é necessário estimá-lo através de S. Então: n XX a α t X S n S − − = | | + | | \ ¹ 2 2 1 16.27. Coeficiente de determinação ou de explicação Além dos testes de hipóteses e dos intervalos de confiança, outro indicador que fornece elementos para a análise do modelo adotado é o coeficiente de determinação ou de explicação, definido por: XY YY bS VE R VT S = = 2 196 O coeficiente de determinação indica quantos por cento a variação explicada pela regressão representa sobre a variação total. Deve-se ter: 0 ≤ R 2 ≤ 1 Se R 2 for igual a 1, isto significa que todos os pontos observados se situam “exatamente” sobre a reta de regressão. Tendo-se, neste caso, um ajuste perfeito. As variações da variável Y são 100% explicadas pelas variações da variável X, não ocorrendo desvios em torno da função estimada. Por outro lado, se R 2 = 0, isto quer dizer que as variações de Y são exclusivamente aleatórias e explicadas pelas variações de outros fatores que não X. 197 Exercícios 1 Para cada uma das situações abaixo, diga o que é mais adequado: a análise de regressão ou a análise de correlação. Por quê? (a) Uma equipe de pesquisadores deseja determinar se o rendimento na Universidade sugere êxito na profissão escolhida. (b) Deseja-se estimar o número de quilômetros que um pneu radial pode rodar antes de ser substituído. (c) Deseja-se prever quanto tempo será necessário para executar uma determinada tarefa por uma pessoa, com base no tempo de treinamento. (d) Deseja-se verificar se o tempo de treinamento é importante para avaliar o desempenho na execução de uma dada tarefa. (e) Um gerente deseja estimar as vendas semanais com base nas vendas das segundas e terçasfeiras. 2. Suponha que uma cadeia de supermercados tenha financiado um estudos dos gastos com mercadorias para famílias de 4 pessoas. O estudo se limitou a famílias com renda líquida entre 8 e 20 salários mínimos. Obteve-se a seguinte equação: ΣY = -1,20 + 0,40X, onde ΣY = despesa mensal estimada com mercadorias e X = renda líquida mensal. (a) Estimar a despesa de uma família com renda mensal líquida de 15 s.m. (b) Um dois diretores da empresa ficou intrigado com o fato de que a equação sugerir que uma família com renda de 3 s.m. líquidos mensais não gaste nada em mercadorias. Qual a explicação? (c) Explique por que a equação acima não poderia ser utilizada para estimar (a) As despesas com mercadorias de famílias de 5 pessoas. (b) As despesas com mercadorias de famílias com renda de 20 a 40 s.m. líquidos mensais. 3. Utilize os valores abaixo para estimar as equações de regressão: (a) ΣX = 200, ΣY = 300, ΣXY = 6200, ΣX2 = 3600 e n = 20 (b) ΣX = 7,2, ΣY = 37, ΣXY = 3100, ΣX2 = 620 e n = 36 198 4. Para cada uma das situações abaixo, grafe os valores em um diagrama e se uma equação linear parecer apropriada para explicar os dados, determine os seus parâmetros. (a) Tamanho do pedido(X) 25 20 40 45 22 63 70 60 55 50 30 Custo Total (Y) 2000 3500 1000 800 3000 1300 1500 1100 950 900 1600 (b) Vendas em mil (X) 201 225 305 380 560 600 685 735 510 725 450 370 150 Lucro em mil (Y) 17 20 21 23 25 24 27 27 22 30 21 19 15 5. Suponha que uma população se constitua dos seis pontos seguintes: (1, 2), (4, 6), (2, 4), (2, 3), (3, 5) e (5, 10) (a) Grafe os pontos em um diagrama de dispersão. (b) Determine a equação de regressão: Y = α + βX + u. (c) Os termos-erro verificam a condição E(u) = 0? (d) Selecione uma amostra de tamanho n = 4, da população acima e estime a equação de regressão determinada no item 5.2. Grafe o resultado no mesmo diagrama construído em 5.1. 6. Verifique que a reta de regressão ΣY = a + bX, sempre passa pelo ponto ( X , Y ). 7. Os dados abaixo forma colhidos de cinco fábricas diferentes de uma determinada indústria: Custo total (Y) 80 44 51 70 61 Produção (X) 12 4 6 11 8 (a) Estime uma função linear da forma ˆ Y = a + bX para o custo total dessa indústria. (b) Qual o significado econômico das estimativas “a” e “b”? (c) Teste a hipótese de que o custo fixo da produção do artigo em questão seja igual a 5, contra a alternativa de diferente do que 5, utilizando uma significância de 5%. 199 8. Em uma amostra aleatória de 1990, 50 homens americanos entre 35 e 54 anos de idade acusaram a seguinte relação entre renda anual Y (em dólares) e a escolaridade X (em anos). ˆ Y = 1200 + 800X. A renda média foi de 10000 dólares e a escolaridade média foi de 11,0 anos. Sabendo, ainda, que ΣX 2 = 9000 e que o desvio padrão residual em relação à reta ajustada foi de 7300 dólares, determine: (a) A renda de uma pessoa que tenha completado 2 anos de educação secundária (x = 10 anos). (b) O intervalo de 95% de confiança para o coeficiente angular populacional.. (c) Se a renda para a escolaridade é estatisticamente discernível ao nível de 5%. (d) Se é válida a afirmação que cada ano de escolaridade custa 800 dólares? 9. Uma pesquisa foi realizada com o objetivo de determinar os efeitos da falta de sono sobre a capacidade de as pessoas resolverem problemas simples. Foram testadas 10 pessoas, mantendo-se cada grupo de 2 pessoas sem dormir por um determinado número de horas. Após cada um destes períodos, cada pessoa teve de resolver um teste com adições simples, anotando-se então os erros cometidos. Os dados resultantes estão na tabela abaixo: Número de erros (Y) 6, 8 6, 10 8, 14 12, 14 12, 16 Número de horas sem dormir (X) 8 12 16 20 24 (a) Determine a estimativa da linha de regressão do número de erros em função do número de horas sem dormir. (b) Determine a dispersão dos termos erro em torno da linha de regressão. 10. Determine um intervalo de 95% de confiança para o coeficiente angular da reta do exercício acima. Interprete o intervalo obtido. 11. Realizou-se uma pesquisa de mercado com o objetivo de estudar a relação entre o tempo necessário para um consumidor tomar uma decisão (sobre o que comprar) e o número de embalagens alternativas do mesmo produto apresentadas a esse consumidor. 200 Eliminaram-se as marcas das embalagens, a fim de reduzir o efeito da preferência por uma ou outra marca. Os consumidores fizeram suas escolhas somente com base na descrição do produto, anotada nas embalagens pelos fabricantes. O tempo necessário, Y, para que cada um tomasse sua decisão foi anotado para 15 participantes, resultando nos seguintes dados: Tempo para decisão, Y (em segundos) 5, 7, 8, 8, 9 7, 8, 9, 9, 10 9, 10, 10, 11, 12 Número de alternativas (X) 2 3 4 (a) Determine a reta dos mínimos quadrados de Y em função de X. (b) Determine o erro padrão da estimativa, ou seja, o desvio padrão amostral da regressão. (c) Há evidência suficiente nestes dados de que o tempo de decisão se relaciona linearmente ao número de alternativas oferecidas a esses consumidores? 12. Na fabricação de um antibiótico, a produção depende do tempo. Os dados indicados na tabela, mostram que um processo resultou na seguinte produção (em quilogramas) de antibióticos por período de tempo (dias) indicados Tempo (X = dias) 1 2 3 4 5 6 Produção (Y = em kg.) 23 31 40 46 52 63 (a) Por várias razões é conveniente esquematizar a produção em ciclos de 4 dias. Estime ovalor médio da produção final de antibiótico produzido em um período de 4 dias. Considere umintervalo de 95% de confiança. (b) Suponha que o processo de produção, no futuro, se desenvolverá em 4 dias. Determine umintervalo de previsão de 95% para a produção. Compare com o intervalo para a produção média de um período de 4 dias que foi obtido em (a). 13. Mediu-se a altura de uma amostra de 5 meninos (em polegadas) na idade de 4 anos e novamente na idade de 18 anos. Os resultados obtidos estão abaixo: Na idade de 4 anos 40 43 40 40 42 Na idade de 18 anos 68 74 70 68 70 (a) Determine o coeficiente de correlação entre as duas categorias de alturas. (b) Teste a hipótese de que existe uma relação linear entre a altura aos 4 anos de idade e a altura aos 18 anos de idade. 201 (c) Se fosse feito o gráfico de toda a população de alturas, calculando-se a correspondente reta dos mínimos quadrados, qual seria o seu coeficiente angular? Responda com um intervalo suficientemente amplo que permita uma aposta de 95%. (d) Repita o item 13.3 só que para o coeficiente linear. 14. A equação de regressão estimada abaixo resume um estudo da relação entre o uso do fumo e a incidência de câncer pulmonar, relacionando o número X de anos que uma pessoa fumou com a percentagem Y de incidência de câncer pulmonar em cada grupo. ˆ Y= -2 + 1,70.X e r = 0,60. (a) Explique o significado das estimativas “-2” e “ 1,70” na equação de regressão. (b) Qual a taxa de incidência de câncer pulmonar para as pessoas que fumam há 20 anos? (c) Se “r” fosse igual a “um” seria possível concluir que o fumo é a única causa de câncer- pulmonar? (d) Suponha-se que a equação estimada tenha sido obtida de uma amostra aleatória de 50 fumantes. Teste a hipótese de que o coeficiente de correlação seja igual a zero a uma significância de 1%. 15. Explique se concorda ou não com as seguintes afirmativas: (a) Um coeficiente de correlação de +1,0 entre duas variáveis X e Y indica que X causa Y, mas um coeficiente de correlação de -1,0 significa que X não causa Y. (b) Se o coeficiente de regressão é zero, o coeficiente de correlação é também zero. (c) Se o coeficiente angular é 1 (um), isto significa que existe perfeita correlação entre X e Y. (d) É possível que o coeficiente de correlação amostral seja positivo, quando não existe, de fato, nenhuma correlação entre as variáveis X e Y. (e) Não se pode utilizar a técnica da regressão pelo método dos mínimos quadrados quando a relação básica entre X e Y não for linear. 16 Um estudo de duas safras forneceu as seguintes informações: Safra A: ˆ Y = 200 + 0,8X, r = 0,70 e S = 30 Safra B: ˆ Y = 50 + 1,20X, r = 0,9 e S = 20, onde Y é a produção por alqueire e X é a quantidade de chuva (em polegadas) no período da safra. 202 (a) Se não houvesse chuva, estas duas equações poderiam ser usadas para predizer a quantidade produzida nas duas safras? Por quê? (b) Qual das duas safras tira mais proveito do aumento das chuvas? Por quê? (c) Para qual das duas safras é possível predizer a produção com melhor aproximação? Por quê? 17. Os dados abaixo foram obtidos de cinco fábricas diferentes de uma determinada indústria. Custo total (Y = em milhões) 80 44 51 70 61 Produção (X = toneladas) 12 4 6 11 8 (a) Determine um intervalo de confiança de 90% para o custo fixo dessa indústria. (b) Determine um intervalo de confiança de 95% para o custo marginal dessa indústria. (c) Faça uma previsão, através de um intervalo, para o custo total médio dessa indústria, para uma produção de 15t, utilizando uma confiança de 95%. (d) Faça uma previsão, através de um intervalo, para o custo total dessa indústria, para uma produção de 15t, utilizando uma confiança de 95%. (e) é possível afirmar, com uma significância de 1%, que o custo total dessa indústria está linearmente relacionado ao nível de produção? (f) Testar se o custo fixo pode ser considerado menor do que 30. (g) Testar se o custo marginal pode ser considerado menor do que 5. 18. Qual é o tamanho mínimo da amostra necessária para que se possa concluir que um coeficiente de correlação de 0,32 difere significativamente de zero ao nível de 0,05? 19. Um coeficiente de correlação, baseado em uma amostra de tamanho n = 18, foi calculado como sendo 0,32. Pode-se concluir aos níveis de significância (19.1) 0,05 e (19.2) 0,01, que o coeficiente de correlação, correspondente na população é diferente de zero? 20. Se o coeficiente de correlação entre X e Y é 0,80, que percentagem da variação total permanece não-explicada pela equação de regressão? 203 21. Examine os cinco pares de pontos dados na tabela X -2 -1 0 1 2 Y 4 1 0 1 4 (a) Qual é a relação matemática entre X e Y? (b) Determine o valor de r. (c) Mostre que calculando-se a linha de regressão de Y em relação a X tem-se b = 0. (d) Por que, aparentemente, não existe relação entre X e Y como estão indicando b e r? 22. Os dados abaixo representam o número de rendas pessoais tributáveis e o registro de automóveis de passageiros, em uma determinada região. X = número de rendas tributáveis (em milhares) 192 80 162 246 310 Y = Número de carros de passageiros (milhares) 23 11 13 31 91 (a) Verificar se existe correlação entre as duas variáveis. (b) Determine a equação de regressão de Y em função de X, caso o coeficiente de correlação seja significativamente diferente de zero. (c) Faça uma previsão do número de carros se o número de contribuintes tributáveis for de 500 mil. (d) Determine a equação de regressão de X em função de Y. 204 Tabela da Distribuição Normal Padrão P(Z<z) z 0,0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359 0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753 0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141 0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517 0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879 0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224 0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549 0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852 0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133 0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389 1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621 1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830 1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015 1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177 1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319 1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441 1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545 1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633 1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706 1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767 2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817 2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857 2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890 2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916 2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936 2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952 2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964 2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974 2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981 2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986 3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990 3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993 3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995 3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997 3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998 3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 3,6 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 3,7 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 3,8 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 3,9 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 205 P(Z<z) z 0,0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641 -0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247 -0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859 -0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483 -0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121 -0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776 -0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451 -0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148 -0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867 -0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611 -1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379 -1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170 -1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985 -1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823 -1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681 -1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559 -1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455 -1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367 -1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294 -1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233 -2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183 -2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143 -2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110 -2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084 -2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064 -2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048 -2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036 -2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026 -2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019 -2,9 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014 -3,0 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010 -3,1 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007 -3,2 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005 -3,3 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003 -3,4 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002 -3,5 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 -3,6 0,0002 0,0002 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 -3,7 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 -3,8 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 -3,9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 206 Distribuição t de Student g.l. 0,25 0,1 0,05 0,025 0,01 0,005 0,001 1 1,000 3,078 6,314 12,706 31,821 63,657 318,309 2 0,816 1,886 2,920 4,303 6,965 9,925 22,327 3 0,765 1,638 2,353 3,182 4,541 5,841 10,215 4 0,741 1,533 2,132 2,776 3,747 4,604 7,173 5 0,727 1,476 2,015 2,571 3,365 4,032 5,893 6 0,718 1,440 1,943 2,447 3,143 3,707 5,208 7 0,711 1,415 1,895 2,365 2,998 3,499 4,785 8 0,706 1,397 1,860 2,306 2,896 3,355 4,501 9 0,703 1,383 1,833 2,262 2,821 3,250 4,297 10 0,700 1,372 1,812 2,228 2,764 3,169 4,144 11 0,697 1,363 1,796 2,201 2,718 3,106 4,025 12 0,695 1,356 1,782 2,179 2,681 3,055 3,930 13 0,694 1,350 1,771 2,160 2,650 3,012 3,852 14 0,692 1,345 1,761 2,145 2,624 2,977 3,787 15 0,691 1,341 1,753 2,131 2,602 2,947 3,733 16 0,690 1,337 1,746 2,120 2,583 2,921 3,686 17 0,689 1,333 1,740 2,110 2,567 2,898 3,646 18 0,688 1,330 1,734 2,101 2,552 2,878 3,610 19 0,688 1,328 1,729 2,093 2,539 2,861 3,579 20 0,687 1,325 1,725 2,086 2,528 2,845 3,552 21 0,686 1,323 1,721 2,080 2,518 2,831 3,527 22 0,686 1,321 1,717 2,074 2,508 2,819 3,505 23 0,685 1,319 1,714 2,069 2,500 2,807 3,485 24 0,685 1,318 1,711 2,064 2,492 2,797 3,467 25 0,684 1,316 1,708 2,060 2,485 2,787 3,450 26 0,684 1,315 1,706 2,056 2,479 2,779 3,435 27 0,684 1,314 1,703 2,052 2,473 2,771 3,421 28 0,683 1,313 1,701 2,048 2,467 2,763 3,408 29 0,683 1,311 1,699 2,045 2,462 2,756 3,396 30 0,683 1,310 1,697 2,042 2,457 2,750 3,385 40 0,681 1,303 1,684 2,021 2,423 2,704 3,307 60 0,679 1,296 1,671 2,000 2,390 2,660 3,232 120 0,677 1,289 1,658 1,980 2,358 2,617 3,160 ∞ 0,674 1,282 1,645 1,96 2,326 2,576 3,09 207 ESTATÍSTICA BÁSICA 2 UNIVERSIDADE DE RIO VERDE PRÓ-REITORIA DE GRADUAÇÃO PLANO DE ENSINO 1. IDENTIFICAÇÃO Professor: Nagib Yassin Disciplina: Estatística Básica Ano: 2012 Carga horária: 72h Semestre letivo: 2012/1 Pré-requisitos: Cálculo Diferencial e Integral Oferecido para o curso: Biologia, Matemática, Medicina Veterinária 2. EMENTA Estatística Descritiva, Elementos de Probabilidade e de Inferência Estatística, Base conceitual, Métodos e Aplicações da Estatística em Ciência e Tecnologia. 3. OBJETIVOS 3.1. Objetivo geral Habilitar o estudante para a compreensão da base conceitual e metodológica da estatística requerida no planejamento, análise de dados e interpretação de resultados de pesquisa científica. 3.2. Objetivos específicos Fundamentação estatística para o estudo de disciplinas do ciclo profissional. 4. CONTEÚDO PROGRAMÁTICO I. Introdução • História, conceito, funções e aplicações da estatística; estatística na pesquisa científica; • Conceito de população e amostra; tipos de variáveis e escalas de mensuração; II. Estatística Descritiva • Organização e Apresentação de dados; 3 • Tabelas de freqüências; histograma e polígono de freqüências; resumo de cinco pontos; diagrama de ramo e folhas; gráfico de caixas (“Box-Plot”); • Síntese Numérica: Medidas de tendência central (médias aritmética, harmônica e geométrica, moda e mediana); Medidas separatrizes: quartis, decis e percentis; Medidas de Variabilidade (amplitude, amplitude interquartílica, variância, desvio-padrão e coeficiente de variação); III. Elementos de Probabilidade • Introdução aos principais conceitos de probabilidade: Experimento aleatório, espaço amostral e eventos. • Definição clássica e frequentista de probabilidade; • Probabilidade Condicional e Independência de eventos. • Variáveis aleatórias unidimensionais discretas e contínuas; Modelo Binomial, de Poisson. E modelos Normais; IV. Inferência Estatística • Introdução aos principais conceitos de Inferência Estatística; • Distribuição amostral da média e da proporção; teorema central do limite; • Estimação pontual e por intervalo da média e proporção populacional: conceitos; métodos de estimação; propriedades dos estimadores; • Teste de hipótese: conceitos; hipótese estatística; erros de decisão; nível de significância e potência do teste; • Teste de hipótese referente à média de uma população normal; teste de hipótese de igualdade de médias e teste de hipótese da igualdade de variâncias de duas populações normais; testes de hipóteses referentes às proporções. 5. METODOLOGIA A disciplina será conduzida através da exposição da matéria, discussão do conteúdo programático e de exemplos ilustrativos. Eventualmente, tópicos não expostos em classe serão assinalados para estudo extraclasse. Sempre que possível, as exposições serão auxiliadas com recursos visuais, especialmente providos Por projetores de transparências e de slides. Exercícios para desenvolvimento do tirocínio serão assinalados para resolução extraclasse. Alguns minutos de cada aula serão dedicados para o esclarecimento de dúvidas e dificuldades encontradas pelo estudante. Os estudantes também terão disponível, para esses esclarecimentos, atendimento extraclasse, provido pelo docente e monitor da disciplina, em horários 4 1987. BIBLIOGRAFIA RECOMENDADA BLACKWELL. Trabalhos Obs: As notas de NT e de MEP não darão direito ao aluno requerer 2a chamada A freqüência comporá o sistema de avaliação – (5% a menos para cada falta e/ou capítulo) 7.G. MEYER. P.A. Estatística Elementar.J.L. MACIEL. D. IEMMA. São Paulo: Atual Editora. Universidade Federal de Viçosa. São Paulo: Editora Atlas S.A. Piracicaba: Fi Sigma Rô Publicações. Viçosa: Imprensa Universitária.A.O.. MATERIAL DIDÁTICO Textos redigidos pelo corpo docente e bibliografia existente na biblioteca da Universidade de Rio Verde. W. 1980.D. ESTRATÉGIAS DE AVALIAÇÃO A média de aproveitamento (MA) será obtida. 1992. 182p. 8.M. Coleção de exercícios versando sobre o conteúdo programático. 211p. 5 . P. MORETTIN. 1981. Estatística Básica. A. Texto próprio elaborado pela equipe docente será colocado à disposição do estudante. Rio de Janeiro. 143p. 1976. previamente estabelecidos. São Paulo: Atual Editora Ltda. P. E. Estatística Descritiva. Ao Livro Técnico S. 6. 65p.A. Probabilidade.F. 1974. P. BUSSAB. MORETTIN. HOEL. A. Aplicações à Estatística. calculando: MA = Sendo: 3 (NP ) + 3 (NT ) + 4(MEP) (NP) Nota de uma única prova (NT) Nota referente a um trabalho mensal (MEP) Nota referente a 4 listas menais de exercícios. BOTELHO. São Paulo: McGraw-Hill do Brasil Ltda. 1992.apropriados. Introdução à Estatística para Ciências Exatas.. para auxílio ao estudo da disciplina. Estatística Básica. Estatística Descritiva (Um Curso Introdutório). B. Pelotas: Editora Universitária. PIMENTEL GOMES. RIVETT. 1975. 1974. Introdução à Estatística. P..C.. 1992. A.P.G. Universidade Federal de Pelotas. 173p. Polígono/ Editora da Universidade de São Paulo. J.R. SILVA. Estatística Básica. F. UFPEL. TRIOLA. 6 ed. MACHADO. São Paulo: McGraw-Hill do Brasil. Jr. vol. ZONTA.1. 9 ed. Pelotas: Editora Universitária. SILVEIRA. P.A.P. 350p. São Paulo: Ed. A.234p..A.P. Pelotas. 662p. J.PARADINE. E.B. São Paulo: LTC..H. Pelotas. 1992. São Paulo. SILVA. SILVA. 1989.2. M. Jr. F.S. Versão preliminar. vol. 6 . J..G. 2005. M. Curso de Estatística... E. Iniciação à Estatística.A. SILVEIRA. 1978. MACHADO.211p. B. Livraria Nobel S. C. Pelotas.. Instituto de Física e Matemática. UFPEL.S.. da.580p. SPIEGEL. Estatística. Métodos Estatísticos para Tecnologistas.135p. ZONTA. Curso de Estatística. Distribuições por ponto ou valores.3. Cronológicas.2.2.4. 2.2. Estatística Descritiva: 1.1.2. Amostra 2.2. Discretas 3.2.1. Amostragem sistemática 12 13 13 13 15 15 16 18 19 20 20 21 21 23 23 23 23 23 24 25 26 26 27 29 29 29 29 30 30 31 32 32 32 33 34 34 34 34 35 35 35 3. Classificação das variáveis 3. Estereograma 6.3.2.1.2. Tabelas 6. Séries Específicas ou Categóricas 6. SÉRIES E GRÁFICOS ESTATÍSTICOS 6. Territoriais ou de Localização 6. Gráfico em setores (pizza) 6. Estatística Indutiva ou Inferencial.1. Séries Geográficas.1. População ou universo 2.4.2. Outros tipos de gráficos 6.3.3. Nominais ou categóricas 3.3. DISTRIBUIÇÃO DE FREQÜÊNCIAS 7.1.3. Escalas de Mensuração 5.3.2. Gráficos Estatísticos 6. Ordinais 4. Análise Exploratória de Dados 5.1. Cartograma 6.4.2.3. Contínuas 3.1.3.1.3.4. Séries Históricas.2.1.2.1.1.2.5.1. Técnicas de Amostragem 2. 2. 2.2.4.1.5. INTRODUÇÃO 1.1.1.4.1.1.2.4. Gráfico de colunas e gráfico de barras 6.1. Séries Conjugadas e Tabela de Dupla Entrada 6. Introdução 7.1.1.Sumário 1. 2. Séries Estatísticas 6. POPULAÇÃO E AMOSTRA 2. Espaciais. Divisão da estatística 1.2. Introdução 6. 7 . Pictograma 7. Amostragem aleatória simples Amostragem estratificada Amostragem por conglomerados Amostragem de conveniência (não-probabilística) 2.1. Variável 3.1. Temporais ou Marchas 6. Gráficos de linha 6. Introdução 5.3. 4.4.1.1.2. Quartis 8. Amplitude amostral (AA) 7. Média aritmética 8.6. Desvio padrão nas séries de dados não agrupados 9. Distribuições por classes ou intervalos 7. Freqüência simples ou freqüência absoluta ou.1. Limites de classe 7.7. MEDIDAS DE POSIÇÃO 8.4.5.7.2. Mediana nas séries de dados com intervalos de classe 8. Gráfico stem-and-leaf (tronco e folhas) 8.4.5.5.2.4.4.3.7.1.4.6. Classes 7. Distribuição de freqüências por pontos ou valores.3.1. Mediana (Md) 8.2.4.5. Desvio padrão nas séries de dados agrupados sem intervalo de classe 9.1.2. Moda nas series de dados com intervalos de classe 8. Gráficos de distribuições de frequências 7.4. Freqüências simples ou absolutas (fi) 7.1.4. ou.2. Moda nas séries de dados agrupados sem intervalos de classes 8.4. Distribuição de freqüências por classes ou intervalos 7.1. Amplitude de um intervalo de classe. Medidas de ordenamento e posição 8. intervalo de classe 7. Média nas séries de dados agrupados com intervalos de classes 8.2.2. Tipos de frequências 7.2. MEDIDAS DE DISPERSÃO 9.5.3.1. freqüência de uma classe ou de um valor individual 7. Freqüência acumulada (Fi) 7.1.7. Polígono de frequência acumulada 7. Apresentação de uma distribuição de freqüências 7. Elementos de uma distribuição de frequências 7.7. Desvio padrão 9.7. Centil ou Percentil 8.1. simplesmente. simplesmente.1 Variância 9.7.1.4.2.3.5. Polígono de frequência 7. Medianas nas series de dados sem intervalos de classe 8.1.4. Histograma de frequências 7. Freqüências relativas (fri) 7.3.6.1.2. Freqüência acumulada relativa (Fri) de uma classe 7.1.3.2 Desvio padrão nas séries de dados agrupados com intervalos de classe 36 37 37 37 37 38 38 38 38 38 38 39 39 39 39 39 40 41 41 42 43 43 45 45 45 46 47 48 48 49 49 50 51 51 52 53 54 54 56 56 57 58 8 . Amplitude total da distribuição (AT) 7.4.2.2. 7. Ponto médio de uma classe (xi) 7.1.5.3.3.2. Média nas séries de dados agrupados sem intervalo de classe 8.6. Média nas séries de dados não agrupados 8. Que promédio usar? 9. 1. Coeficiente de variação 9.9.4 Eventos mutuamente exclusivos 10. Regras da adição 10.3 . Hipóteses do modelo Binomial 11. Regras da multiplicação 10. Combinações Exercícios 11.6.6.1.1.3. Teorema central do limite 12.2.2 . Distribuição amostral das médias 12. Propriedades da distribuição de Poisson 11. Cálculo de probabilidades 10. Relação entre as distribuições Binomial e Poisson Exercícios 11.5.2. Distribuição t de "Student" 12. Propriedades da distribuição t de "Student" Exercícios Diversos 13 ESTIMAÇÃO ESTATÍSTICA 13.Distribuição Normal Padronizada 12.1.5. Distribuições de probabilidade 11.2. Permutações 10. Desvio padrão da média 12.3.7. Eventos independentes 10.1.2.5.5.3.4. Distribuições contínuas de probabilidade 11.1.1.2.Propriedades da Distribuição Normal 11. Regras das probabililidades 10.1. Propriedades da distribuição binomial 11.1.5. Distribuição binomial 11. Estimação de parametros populacionais 13.2. Distribuições discretas de probabilidade 11. Probabilidade condicional 10. Distribuição normal ou Gaussiana 11. Entendendo a probabilidade 10.3. Amplitude entre quartis 9. Box-and-Whisker plots Exercícios Exercícios diversos 10.2. Intervalo de confiança para a média populacional 13. PROBABILIDADES 10.2.2. Distribuição de Poisson 11. Experimento aleatório 10.9.6.5. Intervalo de confiança para a média populacional ( ) com o desvio padrão (σ) conhecido 59 59 60 61 63 73 74 74 76 77 78 78 79 79 81 82 83 85 87 88 88 88 91 93 96 96 98 100 100 100 101 103 104 104 105 106 107 116 116 117 117 9 .8.3.3.1.6. 4.8. Probabilidade dos erros de decisão 14. Teste do valor da média 15.4. Tamanho da amostra Exercícios Exercícios diversos 16. Intervalo de confiança para a diferença entre duas médias populacionais 13.3.4.5. Hipóteses básicas 16.3. Execução do teste de hipótese Exercícios 15 TESTES PARA A COMPARAÇÃO ENTRE DUAS MÉDIAS 15. Comparação entre a média de uma amostra ea média da população 15.12. Testes unicaudal e bicaudal 14.1.1.7.5. Comparação entre médias de duas amostras emparelhadas 15.5. Indicadores de associação 16. Duas amostras de mesmo tamanho 15.7. Determinação do tamanho da amostra Exercícios Exercicios diversos 14. Região crítica: 15.2. Erros de decisão 14. Comparação entre as medias de duas amostras independentes 15. Valor P 14. Fundamento dos testes de significância 15. TESTES DE HIPÓTESES 14.6.3.2. Introdução 16. Duas amostras de tamanhos diferentes 15.1.5. Significância estatística versus importância científica 14.11.3. Teste t emparelhado 13.2.8.1. Distribuição amostral de r (quando ρ = 0) 118 119 121 124 125 126 128 132 132 133 134 134 136 136 137 138 139 140 140 141 142 143 144 145 147 149 149 151 153 156 156 158 160 167 167 167 167 168 171 171 172 10 .2. Intervalo de confiança para a média populacional ( ) com o desvio padrão (σ) desconhecido. Hipótese estatística 14. 13. Regra de decisão 14.13.3. Correlação 16. Comparação entre a média de uma amostra e a média da população ( conhecido) 15.1.9. Duas amostras independentes 13. Padrões de associação 16.10. Teste t 15. Comparação entre duas variãncias testes de Fisher (F) 15.1. Resumo da aplicação de testes para comparar duas séries de dado 15.4.6.2. CORRELAÇÃO E REGRESSÃO 16.7.13. Coeficiente de correlação 16. 16.8. Distribuição amostral de r (quando ρ ≠ 0) 16.9. Propriedades de R 16.20. Regressão 16.21. Estimativa dos parâmetros de regressão 16.22. Estimativa da variância do termo erro 16.23. Distribuições das estimativas 16.23.1. Distribuição do estimador “b” 16.24. Decomposição da soma dos quadrados 16.24.1. Decomposição dos desvios 16.24.2. Cálculo das variações 16.25. Intervalos de confiança 16.25.1. Intervalo para o coeficiente linear (α) 16.25.2. Intervalo para o coeficiente angular (β) 16.25.3. Intervalo para previsões 16.26. Testes de hipóteses 16.26.1. Teste para a existência da regressão 16.26.2. Teste para o coeficiente linear 16.27. Coeficiente de determinação ou de explicação Exercícios 174 175 175 178 179 182 182 184 184 185 185 185 185 186 187 188 188 189 190 11 1. INTRODUÇÃO Objetivos 1. Definir “estatística” 2. Listar algumas razões para o estudo da estatística 3. Definir variável 4. Distinguir entre: • • Estatística descritiva e inferencial Variável dependente e variável independente 5. Definir variáveis nominal, ordinal, intervalar e de razão. 6. Conceituar variável aleatória 7. Distinguir entre: • • Variáveis qualitativas s quantitativas Variáveis discretas e contínuas Por onde quer que se olhe ou escute uma coleção de números são normalmente enunciados como estatísticas. Estes números referem-se aos mais diversos campos de atividades: esportes, economia, finanças, etc. Assim tem-se, por exemplo: * O número de carros vendidos no país aumentou em 30%. * A taxa de desemprego atinge, hoje, 7,5%. * As ações da Telebrás subiram R$ 1,5, hoje. * Resultados do Carnaval no trânsito: 145 mortos, 2430 feridos. Um número é denominado uma estatística (singular). No fechamento da bolsa as ações da Vale foram cotadas a R$ 45.50. As vendas de uma empresa no mês constituem uma estatística. Já uma coleção de números ou fatos é denominado de estatísticas (plural). Por exemplo, As vendas da empresa Picuínhas totalizaram: 2,5 milhões em janeiro, 2,7 em fevereiro e 3.1 em março. No entanto o termo Estatística tem um sentido muito mais amplo, do que apenas números ou coleção de números. A Estatística pode ser definida como: A ciência de coletar, organizar, apresentar, analisar e interpretar dados numéricos com o objetivo de tomar melhores decisões. 12 Assim como advogados possuem “regras de evidência” e contabilistas possuem “práticas comumente aceitas”, pessoas que tratam com dados numéricos seguem alguns procedimentos padrões. Alguns destes métodos serão vistos nesta disciplina e outros em uma segunda disciplina. Não esquecendo que mesmo duas disciplinas de Estatística não esgotam o assunto, ou seja, elas dão apenas uma idéia dos procedimentos e técnicas existentes para se lidar com dados numéricos. 1.1. Divisão da estatística A estatística divide-se em três (quatro) grandes áreas de conhecimento: Teoria da Amostragem, Métodos Descritivos e Inferência Estatística – a quarta grande área é a Probabilidade, porém, segundo alguns autores, Probabilidade não é parte da Estatística, mas sim um ramo da Matemática. Toda a Estatística é baseada em eventos aleatórios e sua ocorrência é baseada em probabilidades. Deste modo é impossível estudar a Estatística sem possuir conhecimentos probabilísticos. 1.1.1. Estatística descritiva: Os procedimentos usados para organizar, resumir e apresentar dados numéricos. Conjuntos de dados desorganizados são de pouco ou nenhum valor. Para que os dados se transformem em informação é necessário organizá-los, resumi-los e apresentá-los. O resumo de conjuntos de dados é feito através das medidas e a organização e apresentação através das distribuições de freqüências e dos gráficos ou diagramas. 1.1.2. Estatística Indutiva ou Inferencial. Consiste em inferir (deduzir ou tirar conclusões a respeito das) propriedades de um universo a partir de uma amostra. O processo de generalização, que é característico do método indutivo, está associado a uma margem de incerteza. A medida da incerteza é tratada mediante técnicas e métodos que se fundamentam na Teoria das Probabilidades. Dessa forma, poderíamos resumir os passos necessários para se atingir bons resultados ao realizar um experimento: ● Planejar o processo amostral e experimental. ● Obter inferências sobre a população. 13 ● Estabelecer níveis de incerteza envolvidos nessas inferências Técnicas de Amostragem População características Amostra Análise Descritiva Inferência Estatística Conclusões sobre as características da população Informações contidas nos dados 14 Os valores descritivos e verdadeiros da população são chamados parâmetros. animais ou coisas) que apresentam uma ou mais características em comum susceptíveis de serem observadas e/ou determinadas. peso dos habitantes de uma cidade. Um levantamento efetuado sobre toda uma população é dito de levantamento censitário ou simplesmente censo. POPULAÇÃO E AMOSTRA Objetivos 1. Os valores dos parâmetros devem ser estimados a partir dos dados das amostras. O conjunto das alturas de todos os alunos da Universidade de Rio Verde. Por exemplo. 2. Explicar porque o método de seleção de uma amostra é importante 3. 2. Selecionar uma amostra empregando a tabela de números aleatórios Para a realização de inferência estatística e imprescindível o conhecimento de dois conceitos básicos: a população e a amostra. É a partir deles que são extraídos os dados que dão origem aos cálculos estatísticos e que permitem descrevê-las sob diferentes aspectos. O conjunto das rendas de todos os habitantes de Rio Verde-GO. Em estatística.1. São simbolizados por caracteres gregos: = media da população. σ = desvio padrão da população. 3. a população de pesquisa é um conjunto de indivíduos delimitados por características como: 1. Assim. a população se refere a um conjunto de seres ou a um conjunto de observações. Cada habitante tem um peso. Distinguir entre: • • População e amostra Parâmetro e estatística 2. População ou universo: Consiste em todo o conjunto de indivíduos (pessoas.2. etc. O conjunto de pesos de todos os seus habitantes constitui uma "população de pesos". O conjunto de todas as notas dos alunos de Estatística. Definir amostra aleatória 5. Explicar as razões para o uso de amostras 4. 15 . O principal é o custo. com base numa única amostra. 16 . a não ser que examine toda a população. diferentes amostras tiradas de uma mesma população diferem umas das outras. A estatística é uma estimativa do valor verdadeiro da população (parâmetro). Em virtude da variação dentro da população. Às vezes essa definição é relativamente fácil. A pesquisa biomédica é usualmente realizada em amostras. O processo pelo qual o parâmetro populacional é estimado pela estatística é chamado estimação. Por isso. são denominados estatísticas. a população de trabalhadores que exercem suas atividades em determinada fábrica. Os dados de observação registrados na amostra fornecem informações sobre a população. tendenciosidade) é um processo em qualquer sistematicamente dos valores verdadeiros. Vício (viés. Uma amostra pode ser caracterizada como: Uma porção ou parte de uma população de interesse. o investigador jamais os conhecerá exatamente os valores dos parâmetros. em geral. Isto se deve a vários fatores. Um censo custa muito caro e demanda um tempo considerável para ser realizado. é possível apenas estimar os atributos de populações. Os valores obtidos na amostra. estudos. sobre toda uma população (censo) é. As estatísticas são simbolizadas por caracteres latinos. uma estimativa da média verdadeira da população. O processo pelo qual se tira conclusões sobre a população. com base em resultados obtidos da amostra. Na estimação de parâmetros populacionais. muito difícil. Assim. por exemplo.Fazer levantamentos. Amostra: É um subconjunto selecionado da população na qual se pretende estudar suas características. normalmente. Uma estimação eficiente do parâmetro requer uma estatística não viciada. se trabalha com partes da população denominadas de amostras. Mais complexa é a situação para se estudar 2. é chamado inferência estatística. entre os muitos cuidados a serem observados. Definir a população a ser amostrada: A abrangência de uma população é determinada pelas características do fenômeno estudado. caso contrario a amostra poderá ser inadequada. Essa definição deve ser criteriosa. pesquisas. biased.2. 3. dois são de particular importância. Assim a média calculada da amostra e uma estatística e como tal. calculados ou estimados. . Nela os problemas de amostragem são mais simples de resolver. Os problemas de amostragem podem ser mais ou menos complexos. ● O IBGE faz levantamentos periódicos sobre emprego. No entanto. 4. Na indústria. eliminando a escolha intencional para a comprovação de certa hipótese. por obra do acaso e ao fato de apenas parte da população ser examinada. para tentar prever e estudar seus hábitos. ● Redes de rádio e Tv se utilizam constantemente dos índices de popularidade dos programas para fixar valores da propaganda ou então modificar ou eliminar programas com audiência insatisfatória. Marketing. peixes. Negócios. dependendo das populações e das variáveis que se deseja estudar. Governo. elimina-se a tendenciosidade (viés) pessoal na constituição das amostras. Procedendo-se dessa forma. O processo de escolha de uma amostra da população é denominado de amostragem. mesmo bem elaborado e executado. etc. etc. deve ser lembrado que o processo de amostragem. usam-se amostras aleatórias representativas da população (v adiante). Utilizar amostras representativas da população: As amostras devem possuir as mesmas características básicas da população. etc. Utilizar amostras para se ter conhecimento sobre populações é realizado intensamente na Agricultura. Para atender a esse requisito. Política. traz em si a possibilidade do erro amostral devido à variabilidade. ● Biólogos marcam pássaros. no que diz respeito ao fenômeno que se deseja estudar. Por outro 17 . ● Uma empresa metal-mecânica toma uma amostra do produto fabricado em intervalos de tempo especificados para verificar se o processo está sob controle e evitar a fabricação de itens defeituosos. desemprego.diabéticos que procuram postos de saúde para fazer controle. as amostras são freqüentemente retiradas dos produtos e materiais. inflação. para efeito de controle de qualidade. como se podem ver pêlos seguintes exemplos: ● Antes da eleição diversos órgãos de pesquisa e imprensa ouvem um conjunto selecionado de eleitores para ter uma idéia do desempenho dos vários candidatos nas futuras eleições. nas quais ele pode plantar trigo e observar a produção. Ele extrai uma amostra de homens com 20 anos de uma grande cidade para estudar. enquanto a população alvo consiste das produções de trigo em todas as fazendas do estado. é muitas vezes conveniente que o trabalho de elaboração do plano de amostragem seja baseado em informações de um especialista do assunto em questão. com muita cautela e certas reservas. deve-se ter extremo cuidado quanto à caracterização da população e ao processo usado para selecionar a amostra. Então. econômicas ou de opinião. Técnicas de Amostragem Existem dois tipos de amostragem: probabilística e não-probabilística. Cuidado especial deve ser tomado nas conclusões em situações em que a amostra coletada não seja extraída exatamente da população de interesse (população alvo) e sim de uma população mais acessível. a obtenção de soluções adequadas para o problema de amostragem exige. nesse caso chamada de população amostrada. ele pode fazer conclusões válidas apenas para os elementos da grande cidade (população amostrada). Neste caso. neste caso. Em tais casos. Veja os exemplos: 1) Suponha que um sociólogo deseja entender os hábitos religiosos dos homens com 20 anos de idade em certo país. consiste das produções de trigo nas cinco fazendas. em pesquisas sociais. 18 . muito bom senso e experiência. mas pode usar o seu julgamento pessoal para extrapolar os resultados obtidos para a população alvo. a complexidade dos problemas de amostragem é normalmente bastante grande. 2.3. 2) Um pesquisador agrícola está estudando a produção de certa variedade de trigo em determinado estado. a fim de evitar que os elementos constituam um conjunto com características fundamentalmente distintas das da população. e diferente de zero. Em resumo. Ele tem a sua disposição cinco fazendas espalhadas pelo estado. A população amostrada. tem-se: População alvo – homens com 20 anos do país. de pertencer à amostra. em geral. A amostragem será probabilística se todos os elementos da população tiverem probabilidade conhecida.lado. Além disso. População amostrada – homens com 20 anos da cidade grande amostrada. conveniente. a amostragem probabilística implica sorteio com regras bem determinadas. 19 . Sendo N o número de elementos da população e n o número de elementos da amostra. A utilização de uma amostragem probabilística é a melhor recomendação que se deve fazer no sentido de garantir a representatividade da amostra. Mas se por restrições orçamentárias ou de outra ordem não for possível obter uma amostra tão numerosa ou ela seja de difícil acesso. deve-se ter a consciência de que as conclusões apresentam alguma limitação. usuários de uma cidade. supomos. Nela. sendo a N amostragem feita sem reposição.. Segundo essa definição. também chamada simples ao acaso. pois o acaso é o único responsável por eventuais discrepâncias entre população e amostra. casual. podemos restringir nossa amostra a uma pequena região delimitada de fácil acesso e de custo reduzido. Isso caracteriza uma amostra probabilística. por exemplo. cuja realização só será possível se a população for finita e totalmente acessível. todas igualmente prováveis. assim o pesquisador faz uso de dados que estão mais a seu alcance. é equivalente a um sorteio lotérico. podemos realizar um estudo para avaliar a qualidade do serviço prestado por uma operadora de telefonia celular. podemos realizar um plano amostral bastante abrangente de toda a população de usuários do serviço. Por outro lado. apresentamos algumas das principais técnicas de amostragem probabilística.1. elementar. Essa é uma amostragem não-probabilística. cada elemento da população tem probabilidade n/N de pertencer à amostra. em geral. A essa relação n/N denomina-se fração de amostragem. que existem   possíveis n amostras.Caso contrário. Por exemplo. randômica etc. Uma amostragem nãoprobabilística é obtida quando o acesso a informações não é tão simples ou os recursos forem limitados. A seguir. Caso tenhamos recursos suficientes.3. é a chamada amostragem por conveniência. 2. No caso em que a única possibilidade é o uso de uma amostragem não-probabilística. todos os elementos da população têm igual probabilidade de pertencer à amostra e todas as possíveis amostras têm igual probabilidade de ocorrer. a amostragem será não-probabilística. Amostragem aleatória simples Esse tipo de amostragem. as unidades sorteadas poderão ser 8.3. se a ordem dos elementos na população não tiver qualquer relacionamento com a variável de interesse. repetindo-se o procedimento até o N-ésimo item. um número entre 1 e 10 é sorteado aleatoriamente e os demais subseqüentes são obtidos sistematicamente. podemos. de estrato para estrato.2. a cada dez itens produzidos. A principal vantagem da amostragem sistemática está na grande facilidade na determinação dos elementos da amostra. por meio de um dispositivo aleatório qualquer.Na prática. teremos uma produção total de N itens e extrairemos uma amostra de tamanho n. O perigo em adotá-la está na possibilidade da existência de ciclos de variação da variável de interesse. pode acontecer que os diversos estratos não sejam convenientemente representados na amostra. No exemplo. a amostragem simples ao acaso pode ser realizada numerando-se a população de 1 a N.3. Amostragem sistemática Quando os elementos da população se apresentam ordenados e a retirada dos elementos da amostra é feita periodicamente. 48. 18. tendo. sendo razoável supor que.Por exemplo. a variável de interesse apresente um comportamento substancialmente diverso. a tendência à ocorrência de 20 .3. sorteando-se. entretanto. e assim por diante. 2. Assim. 38. se o sorteio dos elementos da amostra for realizado sem se levar em consideração a existência dos estratos. a população se divide em subpopulações ou estratos. Assim. podendo ser utilizada sem restrições. Evidentemente. por exemplo. Por outro lado. então a amostragem sistemática tem efeitos equivalentes à amostragem casual simples. Amostragem estratificada Muitas vezes. 28. n números dessa seqüência. 2. k = 10. Em tais casos. especialmente se o período desses ciclos coincidir com o período de retirada dos elementos da amostra. Denomina-se k = N/n como a razão de amostragem. a seguir. os quais correspondem aos elementos sorteados para a amostra. comportamento razoavelmente homogêneo dentro de cada estrato. selecionando as unidades a cada dez itens. Para seleção do primeiro item. a qual seria mais influenciada pelas características da variável nos estratos mais favorecidos pelo sorteio. retirar um para pertencer a uma amostra da produção diária. portanto. temos uma amostragem sistemática. em uma linha de produção. a estratificação de uma população humana em homens e mulheres. Mais ainda. Esse tipo de amostragem induz indiretamente aleatoriedade na seleção das unidades que formam a amostra e tem a grande vantagem de facilitar a coleta de dados. Os dados podem ser tendenciosos. nesse exemplo. em vez da seleção de unidades da população. Por exemplo. em que se fazem pesquisas com pacientes de uma só clínica ou de um só hospital. podem ser selecionadas escolas e nelas investigar todos os alunos. para estimar a probabilidade de morte por desidratação não se deve recorrer aos dados de um hospital. Amostragem de conveniência (não-probabilística) A amostra de conveniência é formada por elementos que o pesquisador reuniu simplesmente porque dispunha deles. a estratificação de uma população de estudantes conforme suas especificações etc.3.tal fato será tanto maior quanto menor o tamanho da amostra. seria tendenciosa. 21 .5. 2. é possível que a mortalidade entre pacientes internados seja maior do que entre pacientes não-internados. as amostras de conveniência constituem. Essa é uma alternativa para quando não existe o cadastro das unidades amostrais. mas sim de escolas.4. as amostras de conveniência são comuns na área de saúde. De qualquer forma. 2. Os estatísticos têm muitas restrições ao uso de amostras de conveniência. são selecionados conglomerados dessas unidades. Mesmo assim. pode-se adotar uma amostragem estratificada. Como só são internados os casos graves. se o professor tomar os alunos de sua classe como amostra de toda a escola. Então. a única maneira de estudar determinado problema. a estratificação de uma cidade em bairros. for um aluno. o pesquisador que utiliza amostras de conveniência precisa de muito senso crítico. quando se deseja investigar alguma variável relacionada à renda familiar.3. Conseqüentemente. por exemplo. Constituem exemplos em que uma amostragem estratificada parece ser recomendável. a amostra de conveniência constituída. ou por faixas etárias. Amostragem por conglomerados Neste método. por pacientes internados no hospital. Se a unidade de interesse. muitas vezes. está usando uma amostra de conveniência. Para evitar isso. Portanto. pode ser que não exista um cadastro de alunos. Finalmente. uma amostra de n = 1 000 usuários. Seu proprietário pretende entrevistar uma amostra de 10 clientes para levantar possibilidades de melhora no atendimento. Admitamos que foi sorteado o número 3. Os clientes identificados pelos números selecionados compõem a amostra. Nesse caso. Na amostragem sistemática. 13 . a fração de amostragem é igual a n/N = 1 000/5 000 e assim podemos definir k = 5 (N/n = 5 000/1 000 = 5). 22 . sistematicamente. . 18. Então é muito importante caracterizar bem a amostra e estender os resultados obtidos na amostra apenas para a população da qual a amostra proveio. somente o ponto de partida é sorteado dentre as 5 primeiras fichas do arquivo. isto é. 4993. . Exemplo 2: Uma operadora de celular tem um arquivo com N = 5 000 fichas de usuários de um serviço e é selecionada. o pesquisador que trabalha com amostras sempre pretende fazer inferência. teremos 5 elementos na população para cada elemento selecionado na amostra. Primeiro passo – atribuir a cada cliente um número entre 1 e 100. . . 8. Segundo passo – recorrer a um gerador de números aleatórios de uma planilha eletrônica para selecionar aleatoriamente 10 números de 1 a 100. Exemplos de planos amostrais: Exemplo 1: Uma agência de seguros tem N = 100 clientes comerciantes. estender os resultados da amostra para toda a população. então a amostra será formada pelas fichas 3 . Escolha uma amostra aleatória simples de tamanho n = 10. ou seja. 4998. 1. etc. Ex. 3. Nominais ou categóricas: são aquelas que só podem assumir alguns estados ou categorias e geralmente não são numéricas: Os dados nominais surgem quando se definem categorias e se conta suas observações. l. Classificação das variáveis As variáveis são classificadas segundo suas características particulares em quatro categorias.).. resistência muscular localizada para exercícios abdominais em obesos etc. Tais classificações não são simplesmente didáticas.3.2. 3. mas assumem papel importante na estatística. Discretas: são aquelas que só podem assumir valores inteiros dentro de um intervalo de interesse. kg. Ex. Ex.1. número de filhos de um casal. Os dados advindos deste tipo de variável são ditos contínuos.: Sexo de uma 23 .4. estatura. Exemplo 2: (variável quantitativa discreta) População: hospitais de uma determinada cidade. 2.GO. altura dos alunos da FESURV.) Exemplo 1: (variável quantitativa contínua) População: moradores de uma determinada cidade. 3. Em geral estão associadas a medidas que tenham unidade (m.. Variável: número de leitos (0. Variável: estatura dos indivíduos.: peso. 3. quantidade de aves abatidas por um frigprífico. pois terão tratamentos diferentes como será visto adiante. Ex. Os dados discretos são resultados da contagem do número de itens referente à variável. distância percorrida em um teste de esforço etc.: Cor dos olhos dos moradores da cidade de Rio Verde ..: número de repetições executadas em uma tarefa. Contínuas: são aquelas que podem assumir qualquer valor dentro de um intervalo de interesse. m/s etc. VARIÁVEL É a característica que se deseja estudar de uma dada população.3. castanhos. o maior etc. verdes) etc. 24 . Ordinais: São aquelas que se relacionam a avaliações subjetivas segundo preferência ou desempenho. castanhos. Variável: grau de instrução (fundamental médio e superior). azuis e verdes). o melhor.: primeiro. quarto. terceiro.população (masculino e feminino) queixas de dor lombar (sim e não). Ex.5. Exemplo 3: (variável qualitativa nominal) População: moradores de uma cidade. cor dos olhos de uma população (azuis. Exemplo 4: (variável qualitativa ordinal) População: moradores de um condomínio. Os dados ordinais constituem valores relativos. segundo. atribuídos para denotar ordem. 3. Variável: cor dos olhos (pretos. pretos. nível de instrução. intervalar e razão. O zero absoluto aqui é entendido como ausência da característica e a comparação de valor tem sentido. 25 . Isto ocorre. Elas são conhecidas como nominal. ié. não somente ordenar objetos com respeito ao grau que eles possuem certa característica. ESCALAS DE MENSURAÇÃO Existem quatro formas de mensuração ou tipos ou níveis de medidas ou ainda. • Nível de razão: É o mais alto nível de medida. Escores padronizados são exemplos deste tipo de medida. tomando decisões sobre quais elementos são mais parecidos e quais são diferentes. Por exemplo: religião. Caracteriza-se por apresentar todas as características do nível intervalar mais um zero absoluto. escalas. mas também indicar a exata distância entre eles. ordinal. ao contrário da ordinal. A escala de medida intervalar é uma escala nominal em que a distância entre as categorias. A avaliação através de conceitos é feita por uma escala ordinal.4. 0 kg indica ausência de peso e 20 kg é duas vezes mais pesado que 10 kg. • Ordinal: O nível ordinal é o nível nominal onde se pode ordenar as características ou categorias. pois não existe zero absoluto. Não se pode afirmar que uma temperatura de 40º é 2 vezes mais quente que uma de 20º. 0º não indica ausência de calor e é apenas um ponto de referência. porém a diferença entre 20º e 40º é a mesma que entre 75º e 95º. • Nominal: Na classificação tenta-se separar conjuntos de elementos com respeito a certas categorias. sexo. Por exemplo: Peso. estado civil. • Intervalar: Pode ser utilizada para se referir as situações em que se pode. A única diferença entre os dois níveis é a relação de ordem que se pode estabelecer entre as categorias. é sempre a mesma. As escalas de medir temperatura como Celsius e Fahrenheit são exemplos de escalas de intervalo. Outros exemplos: classe social. que diversas razões levam. Geralmente. Mas essa conclusão. de forma fácil e rápida. A análise estatística deve ser extremamente cuidadosa ao escolher a forma adequada de resumir os dados. gráficos e resumos numéricos. concluiríamos que os resultados mais perfeitos seriam obtidos pelo exame completo de toda a população. quanto maior a amostra. mais precisas e confiáveis devem ser as induções realizadas sobre a população. ANÁLISE EXPLORATÓRIA DE DADOS 5.1. necessariamente finito. à necessidade de recorrer-se apenas aos elementos de uma amostra. devem ser aplicadas antes da formulação das hipóteses estatísticas para identificar padrões e características dos dados. O objetivo da Estatística Descritiva é resumir as principais características de um conjunto de dados por meio de tabelas. pois todos os seus elementos são examinados para efeito da realização do estudo estatístico desejado. especialmente se a população for muito grande. em realidade. 26 . Entre ela. Sabe-se que essas técnicas se comportam deficientemente à medida que este conjunto de pressupostos não é satisfeito. desde que se assuma um conjunto de pressupostos rígidos. Apresentamos na tabela a seguir um resumo dos procedimentos da Estatística Descritiva. podemos citar o custo do levantamento de dados e o tempo necessário para realizá-lo. ao qual costuma-se denominar Censoou Recenseamento. Introdução As técnicas estatísticas clássicas foram concebidas para serem as melhores possíveis.5. Uma amostra é um subconjunto de uma população. É intuitivo que. Levando esse raciocínio ao extremo. muitas vezes não se verifica. O emprego de amostras pode ser feito de tal modo que se obtenham resultados confiáveis. em geral. As técnicas de Análise Exploratória de Dados contribuem para aumentar a eficácia da análise estatística. na prática. Ocorre. agrupando informações em categorias. Devem ser feitas de algarismos arábicos escritos entre parênteses. simetria. ● Casas ou Células – espaço destinado a um só número. valores extremos. Tabelas Uma tabela resume os dados por meio do uso de linhas e colunas. os quais devem ser colocados no rodapé da tabela. diagrama de dispersão. no sentido horizontal. Uma tabela compõe-se de: ● Corpo – conjunto de linhas e colunas que contém informações sobre a variável em estudo. nas quais são inseridos os números. Alguns exemplos de gráficos são: diagrama de barras. ● Cabeçalho – parte superior da tabela que especifica o conteúdo das colunas. Existem ainda. As classes que compõem a tabela podem ser categorias pontuais ou por intervalos. e colocados à direita da coluna. As chamadas dão esclarecimentos sobre os dados. ● Coluna Indicadora – parte da tabela que especifica o conteúdo das linhas. Isso se consegue. variabilidade.2. apresentando esses valores em tabelas e gráficos. ramo-e-folhas.Tabela 1: Principais técnicas de estatística descritiva Tabelas de Freqüência Apropriada para resumir um grande conjunto de dados. ● Título – conjunto de informações (as mais completas possíveis) localizado no topo da tabela. de dados que se inscrevem nos seus cruzamentos com as colunas. que fornecem rápidas e seguras informações a respeito das variáveis. elementos complementares que são: a fonte. Gráficos Medidas Descritivas Um dos objetivos da Estatística é sintetizar os valores que uma ou mais variáveis podem assumir. tais como: a tendência central. para que tenhamos uma visão global da variação dessa ou dessas variáveis. 27 . as notas e as chamadas. valores discrepantes. histograma. Box-plot. etc. Por meio de medidas ou resumos numéricos podemos levantar importantes informações sobre o conjunto de dados. inicialmente. Possibilita uma visualização das principais características da amostra. As notas devem esclarecer aspectos relevantes do levantamento dos dados ou da apuração. 5. ● Linhas – retas imaginárias que facilitam a leitura. diagrama em setores. Ponto de interrogação ( ? ) quando temos dúvida quanto a exatidão de um valor. Estão computados.47 4.37 1 2 Exclusive as pessoas solteiras. vivendo em união consensual estável.06 2.. Casados2 Separados Viúvos Sem declaração 41 974 865 1 816 046 3 616 046 1 005 234 57. ) quando não temos dados. Zero ( 0 ) quando o valor é muito pequeno para ser expresso pela unidade utilizada.92 1. os desquitados e os Solteiros1 25 146 484 34.. Observação: Nas casas ou células devemos colocar: Um traço horizontal ( __ ) quando o valor é zero. segundo o estado conjugal.Exemplo: Tabela 2: População brasileira residente. com 15 anos e mais. como quanto ao resultado do inquérito. 28 . de acordo com o censo demográfico de 1980. Três pontos ( . Inclusive 4 939 528 pessoas vivendo em união consensual estável. como Estado conjugal Freqüência Percentual separados.18 divorciados. não só quanto a natureza das coisas. Séries Históricas.1. provenientes das técnicas de apresentação tablar. conjugadas e específicas.1. sem qualquer manipulação na sua forma de apresentação. é denominado de dados brutos. pode confundir ao invés de esclarecer.1. Nesta última classe. SÉRIES E GRÁFICOS ESTATÍSTICOS 6. 6. Temporais ou Marchas Descrevem os valores da variável. facilitando a identificação da essência dos dados.1. as séries numéricas podem ser classificadas em quatro grandes classes: históricas. a tentativa de análise e interpretação de uma característica. Séries Estatísticas Toda tabela que apresenta a distribuição de um conjunto de dados estatísticos em relação à época. obtidos na etapa de coleta de dados. Tanto os resumos visuais. quanto os resumos numéricos. O processamento dos dados torna-se necessário para reduzir a quantidade de detalhes. Nesta forma de apresentação. quando se considera nossa limitada capacidade de lidar com um grande conjunto de dados. Surge então a necessidade de organização e redução. Em função dos fatores apontados. é denominada de séries estatísticas. 29 . geográficas. ainda sem qualquer tipo de processamento. utilizados no que denominamos de apresentação gráfica. Cronológicas.1.6. O conjunto de números proveniente da coleta de dados. em determinado local.1. proporcionam facilidades na identificação das características mais importantes dos dados. local ou espécie. 6. além de extremamente árdua. discriminados segundo intervalos de tempo variáveis. podemos enquadrar um tipo especial de representação de dados estatísticos: a distribuição de frquencias. Introdução Foi estabelecido que a etapa final do método estatístico envolve a análise e interpretação de números. Este capítulo tem por objetivo apresentar os principais conceitos envolvidos na apresentação de dados nas formas tabular e gráfica. 000) 325 343 320 375 390 412 400 Fonte: Seplan-GO 6. em determinado instante. Em uma tabela desse tipo ficam criadas duas ordens de classificação: uma horizontal (linha) e uma vertical (coluna). fazer uma conjugação de duas ou mais séries.006 24.037 1.1.1.2 23. isto é.0 1.Exemplo Ano 2004 2005 2006 2007 2008 2009 2010 Efetivo de rebanhos bovinos (cabeças) Rio Verde-GO. Séries Geográficas.007 102. em uma única tabela.036 5. discriminados segundo regiões.300 9.9 100. a variação de valores de mais de uma variável.400 8.0 4. Safra 2010/2011 País Estados Unidos Brasil Argentina Índia China Paraguai Canadá Ucrânia Rússia Demais Países (33) Área Colhida Total Fonte: IBGE Área Colhida (mil hectares) 31.0 os valores da variável.8 1.1 8.3 2. Conjugando duas séries em uma única tabela.5 17.3.840 1. Séries Conjugadas e Tabela de Dupla Entrada Muitas vezes temos necessidade de apresentar. 6. 2004-2010 Cabeças (1.477 1. Territoriais ou de Localização Descrevem Exemplo Produção mundoal de soja.8 9.200 18.1.1. obtemos uma tabela de dupla entrada.520 2.4 1.2. Espaciais.823 Participação % 30. 30 . 467 1.869 31 .232 884.913.497.1.530 201.608.925 1993 403.1. discriminados segundo especificações ou categorias.634 1.Exemplo: Terminais telefônicos em serviço 1991-93 REGIÕES Norte Nordeste Sudeste Sul Centro-Oeste 1991 342.315 713.938 1.287.084 21.746.379.678 1.234.101 6.156.362 243.173 2. em determinado tempo e local.813 6.367 42.046.501 1.882 FONTE: Ministério das Comunicações 6.494 1486.727 2.737 428.357 1992 375.150 54.212 6.729.347.4. Séries Específicas ou Categóricas Descrevem os valores da variável.656 39.881 32. Exemplo: Efetivo da pecuária do Estado de Goiás Espécies Aves Codornas Galináceos Rebanho de Asininos Rebanho Bovino Rebanho de Bubalinos Rebanho de Caprinos Rebanho de Equinos Rebanho de Muares Rebanho de Ovinos Rebanho de Suínos Rebanho de Vacas Ordenhadas Fonte: SEPLAN-GO Cabeças 55.989 778.479.649 7231. Os mais usuais são: gráfico de segmentos. Em que cada categoria da variável em estudo é associada a uma barra e o comprimento da barra diz respeito ao resultado indicado para a categoria.2. É um grá fico de duas dimensões formado por dois eixos perpendiculares. gráfico de barras e gráfico de setores 6. Gráficos Estatísticos Os gráficos constituem uma forma clara e objetiva de apresentar dados estatísticos. Gráficos de linha – útil quando se deseja representar a evolução de diversas variáveis ao longo de vários momentos de tempo. De acordo com a característica da informação precisamos escolher o gráfico correto. Pode ser usada também em representações envolvendo diversas variáveis.2.1. Exemplo Uma locadora de filmes em DVD registrou o número de locações no 1º semestre do ano de 2008.2. Os dados foram expressos em um gráfico de segmentos 6. A intenção é a de proporcionar aos leitores em geral a compreensão e a veracidade dos fatos. Acompanhadas em diversos momentos de tempo Os exemplos a seguir mostram o consumo de energia elétrica no decorrer do ano de 2005 de uma família 32 .2. Em que o tempo é representado no eixo horizontal X e os resultados das variáveis no eixo vertical Y.6. Gráfico de colunas e gráfico de barras – apresentam os resultados por meio do desenho de diversas barras. Sugere-se que seja aplicado em variáveis com no máximo 8 categorias. Gráfico em setores (pizza) – composto de um círculo repartido em n fatias.3.2.6. Representando um certo instante no tempo. O gráfico a seguir mostrará a preferência dos clientes de uma locadora quanto ao gênero dos filmes locados durante a semana 33 . Com tamanhos proporcionais à ocorrência da variável nos resultados da pesquisa. 6.4.1.2.Guerra 14% Outros 5% Ficção 22% Terror 15% Aventura 19% Comédia 25% 6. tereograma: Pictograma: Utilizado para representar figuras : Pictograma 34 .2. Exemplos Cartograma Estereograma Cartograma: Utilizado para representar mapas.2.3.4.2.4.4. 6. Outros tipos de gráficos 6.2. Estereograma: Utilizado para representar volume. Em geral variáveis discretas são agrupadas em distribuições por ponto ou valores e variáveis contínuas em distribuições por classes ou intervalos. 7. A separação não é rígida e depende basicamente dos dados considerados. colocase o conjunto em uma tabela em que a coluna da esquerda é representada pelos diferentes números ordenados (os pontos ou valores) e a coluna da 35 . O agrupamento é feito em tabelas. Poderá ser necessário usar uma distribuição por classes ou intervalos mesmo quando a variável é discreta. Para se trabalhar com grandes conjuntos de dados é necessário inicialmente agrupar estes dados. Número de irmãos dos alunos da turma U . por exemplo. limites de classe freqüência simples. disciplina de Estatística. DISTRIBUIÇÃO DE FREQÜÊNCIAS 7. Para se construir uma distribuição de freqüências é comum fazer a distinção entre dois tipos de variáveis. A variável (ou conjunto) discreta (valores que são resultados de contagem) e a variável (ou conjunto) contínua (valores que são resultados de uma medida).1. Considere-se um conjunto de valores resultados de uma contagem. freqüência acumulada e freqüência acumulada relativa. freqüências relativa. o número de irmãos dos alunos da turma U. Distribuições por ponto ou valores.2. Construir uma tabela de freqüência que inclua classes.disciplina Estatística 0 4 3 4 1 1 5 1 1 0 1 1 2 1 2 6 1 1 0 1 3 1 1 2 1 1 0 1 1 2 3 2 1 4 3 1 2 5 3 0 1 4 5 2 1 0 1 6 2 0 Esta coleção de valores não constitui informação. Poderia ser. mas pode ser transformada em informação mediante sua representação em uma distribuição de freqüências por pontos ou valores. Introdução Objetivos 1. 2. Para tal. denominadas de distribuições de freqüências. Interpretar uma tabela de freqüências.7. Disciplina Estatística 230 334 287 240 252 234 268 344 320 298 276 288 300 308 315 245 336 244 299 255 345 299 303 312 274 240 236 248 324 264 270 239 251 289 263 310 355 265 320 230 368 330 246 264 303 369 247 266 275 281 Este conjunto de valores. Distribuições por classes ou intervalos Considere-se um conjunto de valores resultados de uma medida.Distribuição de freqüências por ponto ou valores do número de irmãos dos alunos da turma U. na tabela três. Evidentemente haverá perda de informação neste processo. Recomenda-se um número de classes entre 5 e 15.xmin. Neste caso é necessário construir uma tabela denominada de ”distribuição de freqüências por classes ou intervalos”. ● Decidir sobre o número de classes “i“ a ser utilizado. mas o ganho obtido pela facilidade compreensão dos dados compensa.direita pelo número de vezes que cada valor se repetiu (as freqüências simples ou absolutas). obviamente não pode ser apresentado da mesma forma que o anterior. tem-se: Tabela 03 . por exemplo. O procedimento para construir esta distribuição envolve os seguintes passos (algoritmo): ● Determinar a amplitude dos dados: h = xmax . Poderia ser. Idade (em meses) dos alunos da turma U . Disciplina Estatística. pois quase não há repetições.3. Para o exemplo. Para que a decisão não seja totalmente arbitrária pode-se usar 36 . a idade dos alunos da turma U da disciplina de Estatística. Número de irmãos 0 1 2 3 4 5 6 Σ Número de alunos 7 21 8 5 4 3 2 50 7. 4. Em geral.370 Total Número de alunos 12 9 8 7 6 5 3 50 7.1. limites de classe São os extremos de cada classe. Elementos de uma distribuição de freqüências 7. o limite superior da classe (Li). Classes São intervalos de variação da variável.290 290 |---.Idades dos alunos da turma U .) ou ainda fechado de ambos os lados (|---|).310 310 |---. h i ≅ h .i≅ + . Tabela 04 . O menor número é o limite inferior da classe (li) e o maior número.250 250 |---. sendo i = 1. Idades 230 |---.330 330 |---. As classes são representadas simbolicamente por i.. i ● Contar o número de valores pertencentes a cada classe.)..4.270 270 |---. . 37 . ou seja. arredondando para mais.2.4. 3.. Para tanto deve-se dividir a amplitude dos dados “h” pelo número de classes “i”. 7. ou i≅ n ● Determinar a amplitude de cada classe. utiliza-se a simbologia (|--. .350 350 |---. aberto de ambos os lados ( --. Sempre que possível manter todas as amplitudes iguais. Também poderia ser utilizado o intervalo aberto à esquerda e fechado à direita (---|).Disciplina Estatística. Um exemplo de uma distribuição por classes ou intervalos é apresentado na tabela 04. para indicar um intervalo fechado à esquerda e aberto à direita. k (onde k é o número total de classes da distribuição). 2. 7. Como vimos. 7. Amplitude amostral (AA) É a diferença entre o valor máximo e o valor mínimo da amostra: AA = x(máx) – x(mín) 7. Freqüência simples ou freqüência absoluta ou. A freqüência simples é simbolizada por f i (lemos: f índice i ou freqüência da classe i). Para obtermos o ponto médio de uma classe.5. calculamos a semi-soma dos limites de da classe (média aritmética): ( l + Li ) xi = i 7.3. Ponto médio de uma classe (x i ) É como o próprio nome indica.li 7. Amplitude total da distribuição (AT) É a diferença entre o limite superior da última classe (limite superior máximo) e o limite inferior da primeira classe (limite inferior mínimo): AT = L(máx) – l(mín) 7. ou.5. simplesmente.4. Freqüências simples ou absolutas (f i ) São os valores que realmente representam o número de dados de cada classe. o ponto que divide o intervalo de classe em duas partes iguais.4. Assim: hi = Li .5. Amplitude de um intervalo de classe.4.4.4. Ela é obtida pela diferença entre os limites superior e inferior dessa classe e indicada por hi. Tipos de Freqüências 7. freqüência de uma classe ou de um valor individual É o número de observações correspondentes a essa classe ou a esse valor. a soma das freqüências simples é igual ao número total dos dados: 38 .1.4. intervalo de classe É a medida do intervalo que define a classe. simplesmente.6.7. 06 0.1 0. a soma das freqüências simples é igual ao número total dos dados: fri = 7.0 100.0 39 .0 100.. 2.0 56.0 42.08 0.0 82. k) 7..0 72.Exemplos de freqüências Fi 7 28 36 41 45 48 50 fri 0.0 96. abaixo.9 0. estão ilustrados os cálculos das freqüências relativas percentuais.04 1.∑ fi = n 7. da freqüência acumulada simples e da freqüência acumulada percentual.00 Fri 0.14 0. + f k ou F k = ∑ f i (i = 1.0 8.42 0..16 0.72 0.5.5.14 0.4.56 0. Freqüência acumulada relativa (Fr i ) de uma classe É a freqüência acumulada da classe. Tabela 05 . .0 90..0 16.82 0.5.0 4.3.0 10. Freqüências relativas (fr i ) São os valores das razões entre as freqüências simples e a freqüência total: Como vimos.2..96 1 fri 14. dividida pela freqüência total da distribuição: Fri = Exemplo: Fi n Na tabela 05.0 6. Freqüência acumulada (F i ) fi n É o total das freqüências de todos os valores inferiores ao limite superior do intervalo de uma dada classe: F k = f 1 + f 2 + .0 Fri 14. Distribuição de freqüências por classes ou intervalos Uma distribuição de freqüências por classes ou intervalos é apresentada graficamente através de um diagrama denominado de histograma. Uma distribuição de freqüências por pontos ou valores é apresentada graficamente através de um diagrama de linhas ou colunas.6. Distribuição de freqüências por pontos ou valores. Desta forma a altura de cada retângulo será igual a: fi / hi ou então fri / hi. Um histograma é um gráfico de retângulos justapostos onde a base de cada retângulo é a amplitude de cada classe e a altura é proporcional a freqüência (simples ou relativa) de modo que a área de cada retângulo seja igual a freqüência considerada. 40 .6. Veja-se um exemplo de diagrama de colunas simples na figura 01.2. Apresentação de uma distribuição de freqüências 7.6. Veja-se o cálculo das alturas na tabela 06 e o exemplo na figura 02. Se os pontos médios de cada classe de um histograma forem unidos através de segmentos de retas teremos então um diagrama denominado de polígono de freqüências. Também pode ser construído um histograma utilizando-se as freqüências acumuladas.Diagrama de colunas simples da variável "número de irmãos dos alunos da turma U Disciplina de Estatística" 25 20 15 10 5 0 1 2 3 4 5 6 7 7.1. Figura 01 . onde a variável “xi” é representada no eixo das abcissas (horizontal) e as freqüências (que podem ser de qualquer tipo) no eixo das ordenadas (vertical).7. Neste caso o diagrama resultante é denominado de ogiva. As larguras dos retângulos são iguais às amplitudes dos intervalos de classe.6 – Notas dos alunos da Disciplina de Genética do Curso de Medicina – 1978 Notas f F i i 0├2 2├4 4├6 6├8 8 ├ 10 Fonte: dados fictícios 2 7 11 10 5 35 2 9 20 30 35 7. absoluta ou relativa. das classes. Empregando a tabela abaixo como exemplo serão confeccionados os gráficos correspondentes.7.1. não sendo necessário que a escala inicie de zero. Tabela 4.5 – Histograma 41 . cujas bases se localizam sobre o eixo horizontal (eixo x).6 de notas dos alunos do curso de Genética corresponde ao histograma da Figura 4. Figura 4.5. As freqüências são representadas no eixo vertical (eixo y) começando de zero. onde são representados os intervalos de classe numa escala contínua. Gráficos de distribuições de frequências As distribuições de freqüências de uma variável contínua são representadas graficamente por histogramas de freqüências. A distribuição da Tabela 4.7. As alturas dos retângulos devem ser proporcionais às freqüências. polígonos de freqüências e polígonos de freqüências acumuladas. Histograma de frequências O histograma é formado por um conjunto de retângulos justapostos.7. Para comparar duas distribuições. As freqüências são marcadas sobre perpendiculares ao eixo horizontal.2. ligando os extremos da linha obtida aos pontos médios da classe anterior à primeira e posterior à última.6) corresponde o polígono de freqüência a seguir: Figura 4. da distribuição.12 10 Frequência 8 6 4 2 0 2 Fonte: dados fictícios 4 61 8 10 Notas: 1. Ao empregar as freqüências relativas obtêm-se um gráfico de área unitária. levantadas pêlos pontos médios dos intervalos de classe. deve-se completar a figura. Polígono de frequência O polígono de freqüência é um gráfico em linha de uma distribuição de freqüências. 7. Para a distribuição da Tabela de notas dos alunos do curso de Genética (Tabela 4.Polígono de frequências12 42 . 3. 4. Nas distribuições contínuas com classes de intervalos diferentes é necessário o ajuste das freqüências para que a figura geométrica seja proporcional à freqüência de ocorrência da variável. O histograma goza de uma propriedade de considerável utilidade: a área de um histograma é proporcional à soma das freqüências.6 . Para realmente obter um polígono (linha fechada).7. o ideal é fazê-lo pelo histograma de freqüências percentuais. 2. 3.6 corresponde ao polígono de freqüência acumulada a seguir: Figura 4.9 – Polígono de freqüências acumuladas 40 35 30 Frequência 25 20 15 10 5 0 0---2 2---4 4---6 6---8 8---10 Fonte: dados fictícios 43 .7. Assim a distribuição da Tabela 4.12 10 Frequência 8 6 4 2 0 0---2 2---4 4---6 6---8 8---10 Fonte: dados fictícios 7. Polígono de frequência acumulada O polígono de freqüência acumulada é traçado marcando-se as freqüências acumuladas sobre perpendiculares ao eixo horizontal c levantadas nos pontos correspondentes aos limites superiores dos intervalos de classe. com maior quantidade de informações. Como exemplo empregam-se os dados da tabela a seguir: 17 17 19 22 23 25 28 29 30 34 34 34 37 38 38 39 41 42 43 45 47 47 48 49 49 50 51 51 51 53 56 56 57 58 59 59 59 63 64 65 67 67 68 68 68 69 74 75 76 79 79 79 82 83 85 85 86 86 87 89 Fonte: dados fictícios 44 . ordenadas c listadas a direita de seus respectivos troncos (stem). Decimais. Não são recomendáveis para um grande número de dados. os histogramas são mais apropriados. A vantagem do gráfico stem-and-leaf sobre o histograma é a preservação das informações contidas em cada dado.7. Essas informações são perdidas quando os dados são reunidos em um intervalo de classe. Um gráfico stem-and-leaf bem construído informa a amplitude da série de dados. mostra a localização da maior densidade de dados e revela a presença ou ausência de simetria. Para documentos de circulação externa. Os gráficos stem-and-leaf são mais efetivos com conjuntos de dados relativamente pequenos. O tronco é separado das suas folhas por uma linha vertical. 7. Gráfico stem-and-leaf (tronco e folhas) O gráfico stem-and-leaf (tronco e folhas) (Tukey 1977) é semelhante a um histograma deitado. São de grande valor para subsidiar investigadores nas tomadas de decisão sobre a natureza dos dados. Para construir um gráfico stem-and-leaf cada dado é dividido em duas partes. A primeira parte é denominada stem (tronco) e a segunda é chamada leaf (folha). O stem consiste de um ou mais dígitos iniciais do dado e a Jeaf é composta de um ou mais dos dígitos restantes. os troncos formam uma coluna ordenada com o menor valor no topo e o maior na base. são omitidos no gráfico stemand-leaf. quando presentes nos dados originais. Todos os números são dispostos em um único gráfico.A representação gráfica de uma distribuição de freqüências sem intervalos de classe será dada por um diagrama onde cada valor da variável será representada por um segmento da rela vertical e de comprimento proporcional à respectiva freqüência. As linhas do gráfico contêm as folhas.4. o primeiro será o tronco e o segundo a folha: Tronco (Stem) 1 2 3 4 5 6 7 8 Folha (Leaf) 779 23589 04447889 123477899 011136678999 344578889 456999 23556679 Fonte: dados fictícios 45 .Como todos os dados são constituidos de dois digitos. 90. x= 90 + 89 + 78 + 90 + 98 + 90 + 82 + 76 + 84 9 = 86mg / dL A média amostrai. também conhecidas como medidas de tendência central. a moda e a mediana são as três medidas de tendência central ou promédios mais utilizados para descrever o conjunto de valores representativos do fenômeno que se deseja estudar. A média aritmética. MEDIDAS DE POSIÇÃO As medidas de posição. µ (mu). 98. x2 o da seguinte. simbolizada pela letra grega.1. 82.8. ∑ xi. 76 e 84 Calcular a média. harmônica. 8. Outros promédios menos utilizados são a média geométrica. cúbica e biquadrática. 78. e assim por diante. dividida pelo número (n) de valores. a média é a soma dos valores de todas as observações da amostra. isto é.1. 46 .1. A média da amostra é uma estatística representada pelo símbolo X (x barra). O ∑ (letra grega sigma) significa "notação de somatório". até i = n. Média nas séries de dados não agrupados É a média aritmética dos dados de observações da amostra: X= ∑ xi n A variável è representada por xi. indicam os valores em torno do quais ocorre a maior concentração do fenômeno quantitativo em estudo. 8. Média aritmética A média aritmética é o mais simples dos valores descritivos de uma amostra. é a soma de todas as observações xi. µ é uma medida descritiva da população (parâmetro populacional). Essas últimas não serão descritas nesse trabalho. 90. X é uma medida descritiva de uma amostra e é uma estimativa da média da população. xn sendo n o número total de observações da amostra. 86.1 A determinação de glicose plasmática em 9 indivíduos forneceu os seguintes resultados (em mg/dL): 90. quadrática. Ou seja. sendo xi o valor numérico da primeira observação. Portanto. Exemplo 5. toma-se para variável o número de exames solicitados cm cada requisição (ver tabela abaixo).1.8. como as freqüências são números indicadores da intensidade de cada valor da variável. elas funcionam como fatores de ponderação.2. na tabela. exames 47 . Média nas séries de dados agrupados sem intervalo de classe Nesse caso. dada pela fórmula: X= ∑x f n i i Onde: xi= valor variável f i = Freqüência Exemplo 5. o que leva a calcular a média aritmética ponderada. uma coluna correspondente aos produtos xifi. Um modo prático de obtenção da media ponderada abrir.2 Considerando-se a distribuição relativa a 40 requisições médicas encaminhadas a um laboratório clínico. assim: xi 2 3 4 5 6 7 fi 8 23 9 6 3 1 ∑ =40 xifi 16 39 36 30 18 7 ∑ = 146 Cálculo: X= ∑ xi fi ∑ fi = = . 8. Moda (Mo) A moda (Mo) (ou norma) é o valor que ocorre com maior freqüência em um conjunto de valores.3. Determina-se a média aritmética por meio da fórmula: X= Onde: ∑ x i fi ∑ fi Σxifi = É o somatório dos produtos de cada ponto médio de classe (xi) pela respectiva freqüência (fi) Σfi = É o número total de observações Exemplo 5. 8. utiliza-se o ponto médio de cada classe como uma aproximação de todos os valores contidos na classe. Cap. Média nas séries de dados agrupados com intervalos de classes Nesse caso.3 Para o exemplo da determinação do colesterol em uma amostra controle (v. 3).fi: i 1 2 3 4 5 6 Concentração 154├ 158 158├ 162 162├ 166 166├ 170 170├ 174 174├ 178 4 12 14 10 7 3 Σ=50 xi 156 160 164 168 172 176 xifi 624 1920 2296 1680 1204 528 Σ = 8252 fi Cálculo: X= Nota: ∑ xi fi ∑ fi = = mg / dL A média aritmética de dados agrupados em classes não pode ser calculada quando a primeira e a última classe apresentam extremos indefinidos indefinidos. abre-se uma coluna para os produtos médios das classes c outra para os produtos xi. Não é afetada por valores 48 .2. É uma medida de dominância.1. h * ℓ * = é o limite inferior da classe que contém a moda ∆1 = diferença entre a freqüência da classe modal e a freqüência da classe imediatamente inferior.13. Essa é uma distribuição amodal. O processo mais comum para o cálculo da moda emprega a fórmula de Czuber: Mo = ℓ. A moda. Exemplo 5. 82.1. 78. 84. não existe moda.4 Assim para a distribuição: 49 .a moda é 3. Para o conjunto de dados do exemplo 5. 8. 7. Na serie: 2.10. 4.8. 98 a moda é 90. 4. 9. Moda nas séries de dados agrupados sem intervalos de classes Nesses casos a moda é o elemento que apresenta a maior freqüência: xi 2 8 3 13 4 9 5 6 6 3 7 1 fi No Exemplo supra-citado o elemento que apresenta a maior freqüência (13) é o 3.: a serie 3. * + ∆1 ∆1 + ∆ 2 . Ex. temos duas modas: 4 e 7 (distribuição bimodal).5. onde nenhum valor é repetido e. 6.12. 7. 90. Em outro casos.2. 8. Pode-se deparar com conjunto de dados. 90. 4. Moda nas series de dados com intervalos de classe A classe que apresenta a maior freqüência e chamada classe modal. Diz-se distribuição plurimodal. 86. e o valor dominante compreendido entre os limites da classe modal. ∆2 = diferença entre a freqüência da classe modal e freqüência da classe imediatamente posterior. 90. 8. 5. pode haver mais de um valor repetido. h* = é a amplitude da classe que contem a moda. nesse caso. 3. Portanto .extremos.2.1: 76.2. 7. portanto. 12 = 2 ∆2 = 14 .h * 162 8 6 162 1. 84. Exemplo 5. tem-se: 50 . ou seja.i Concentração fi 1 154├ 158 4 2 158├ 162 12 3 162├ 166 14 4 166├ 170 10 5 170├ 174 7 174├ 178 3 6 Identifica-se a classe modal. Mediana (Md) A mediana (Md) é o valor que ocupa a posição central quando todos os itens do grupo estão disposto.1. 78. em termos de valor. completando-a com a coluna correspondente à freqüência acumulada. * + Onde: ℓ* = 162 ∆1 = 14 .10 = 4 Portanto: 162 2 2 4 4 2X4 6 ∆1 ∆1 + ∆ 2 . Quando o numero de observação for par deve-se somar os dois números centrais e dividir por dois. No caso tratase da 3ª classe: 162├166.3. 8. 33 8. 86. 82. No exemplo do número de exames solicitados por requisição médica. 90. 90. A mediana será aquele valor da variável que corresponde a tal freqüência acumulada. Não é afetada por valores extremos e é indicada quando existem valores discrepantes. 98) a Md é 86. aquele que possuir maior freqüência. em ordem crescente ou decrescente de magnitude.33 163. Medianas nas series de dados sem intervalos de classe Nesse caso. 90. Para o exemplo 5. A seguir aplica-se a fórmula: Mo = ℓ. é o bastante independente identificar a freqüência acumulada que é imediatamente superior à metade da soma das freqüências.1 dos valores da determinação da glicose (76.3.5 Tome-se a distribuição relativa à tabela dos dados agrupados. classe mediana – e.2. Procedendo desse modo. empregar a fórmula: Σf 2 Na qual: Md ℓ F ant . 3 Marcar a classe correspondente à freqüência acumulada imediatamente superior a Σfi/2. Para o cálculo são realizados os seguintes passos: 1 Determinar as freqüências acumuladas. h f ℓ* = é o limite inferior da classe que contém a mediana F (ant) = é a freqüência acumulada da classe anterior a classe que contém a mediana. 51 . que os valores se distribuam uniformemente em todo o intervalo de classe..Números de exames 2 3 4 5 6 7 Sendo: fi 8 13 9 6 3 1 Σ = 40 40 2 Fi 8 21 30 36 39 40 Σ 2 20 A menor freqüência acumulada que supera esse valor é 21. um problema de interpolação resolve a questão. Tal classe evidentemente. aquela correspondente à freqüência acumulada imediatamente superior a Σfi/2.3. em seguida. Admitindo-se. Mediana nas séries de dados com intervalos de classe Inicialmente determina-se a classe em que está compreendida a mediana (classe mediana). 2 Calcular Σfi/2. sendo esse o valor mediano logo: Md = 3 exames 8. que corresponde ao valor 3 da variável. agora. f* = é a freqüência simples da classe que contém a mediana. 57 164. Com a mediana (Q2 = Md). Medidas de ordenamento e posição De um modo geral.6 Considerando a distribuição da tabela de concentração de colesterol em uma amostra controle. O Q2 é obtido: 2 4 1 2 1 52 . Para encontrar o Q1 emprega-se: 4 1 • Segundo quartil (Q2) é evidentemente.1.57 / dL 8. a classe mediana é a ordem 3. em quatro partes iguais. existem três grandes grupos de medidas de ordenamento: quartis. coincidente. Então: Σ ℓ* = 162: F (ant) = 16: f* = 14 e h* = 4 Substituindo esses valores na fórmula. • Primeiro quartil (Q1) e o primeiro da série tal quem um quarto dos dados está abaixo dele (25%) e as três quartas partes restantes (75%) estão acima dele. três quartis. obtém-se: Md = 162 + . 8. Exemplo: 5.h* = é a amplitude do intervalo da classe que contém a mediana. Há portanto. decis e percentís.Quartis Quartis são os valores que subdividem uma distribuição de medidas quanto dispostas em termos de valores em ordem crescente ou decrescente.4. acrescida das freqüências acumuladas: i 1 2 3 4 5 6 Concentração 154├ 158 158├ 162 162├ 166 166├ 170 170├ 174 174├ 178 fi 4 12 14 10 7 3 Σ = 50 F 4 16 30 40 47 50 ← classe mediana 50 25 2 2 Logo. 162 162 2.4. 4 12. F(ant) é a freqüência acumulada da classe anterior a classe do quartil a ser calculado.7 Nas duas equações acima. é o número da série tal que três quartos dos dados estão abaixo dele (75%) e uma quarta parte (25%). emprega-se a expressão: Q ℓ Σf 4 F ant . Calcula-se: 3 4 1 Para determinar o primeiro quartil de dados agrupados em classes.5 166 3 169 mg/ dL 2. Centil ou Percentil 53 .8 160.• Terceiro quartil (Q3). 166 3 X 50 4 8.4.5 158 37.8 mg/ dL 158 3Σ 4 Terceiro quartil (k = 3): Aplicando a fórmula: 166 .2. h f Exemplo 5. Concentração 154├ 158 158├ 162 162├ 166 166├ 170 170├ 174 174├ 178 Primeiro quartil (K = 1): fi 4 12 14 10 7 3 Σ = 50 50 4 . F 4 16 ← Q1 30 40 ← Q3 47 50 Σ Aplicando a fórmula: 158 . estão acima dele. P2.. P42. a mediana para os dados ordinais e a média para os dados intervalares ou de razão.. P25 = Q1 e P75 = Q3 O cálculo de um percentil segue a mesma técnica do cálculo da mediana. a fórmula obedece a ordem do percentil.8 Para a tabela anterior têm-se para o 12° percentil (k = 12): tem-se: P ℓ 12 ∑ f 100 f F ant .5. porém... são usadas a moda para os dados nominais... P99 É evidente que: P50 = Md. facilmente é determinada qual das medidas de tendência central deve ser para cada situação. Que promédio usar? Com um pouco de experiência. 54 .. h 6 Considerando a tabela acima tem-se para o décimo segundo percentil 12 ∑ 100 12 X 50 100 Logo: 8. Em geral.Os centis ou percentis são os noventa e nove valores que separam uma série de 100 partes iguais: P1. A média aritmética é de longe a mais usada. . Exemplo 5. 9. MEDIDAS DE DISPERSÃO Objetivos 1. Calcular as medidas de variância, desvio padrão, coeficiente de variação, amplitude e amplitude entre quartis de dados simples e agrupados. 2. Listar alguns usos das medianas de variação: variação, desvio padrão, amplitude e amplitude entre quartis. 3. Comparar diferentes dados de um paciente de variação. 4. Interpretar o gráfico Box-and-Whisker Plot. A dispersão ou variabilidade representa um dos mais importantes grupos de medidas da estatística. Para o conhecimento pleno e adequado de uma série ou uma distribuição de freqüências. É necessário determinar não apenas determinar não apenas a posição central dos valores, através das medidas de posição, mas também é preciso conhecer o real grau de dispersão dos valores em questão. As medidas de dispersão indicam o grau de afastamento de um conjunto de número em relação à sua média. 9.1 Variância As medidas de tendência central são insuficientes para descrever adequadamente uma amostra. É necessário também descrever em que medida os dados de observação estão ao redor da média. A variação media dispersão dos dados de observações de uma amostra em relação à respectiva média. A variância amostral, simbolizada por s2, é calculada pela fórmula: ∑ 1 Em que xi são as observações da amostra e n o número total de observações. Em termos,a variância é a soma dos quadrados dos desvios em relação à média, dividida pelo número das observações da amostra menos uma. 55 Exemplo 6.1 Empregando os dados do exemplo 5.1 cuja média ( ) = 86 mg/ dL x 90 86 78 90 98 90 82 76 84 Σ x90 – 86 =4 – 86 = 0 78 – 86 = -8 90 – 86 = 4 98 – 86 = 12 90 – 86 = 4 82 – 86 = -4 76 – 86 = -10 84 – 86 = -2 0 376 9 1 (x - )2 (4)2 = 16 (0)2 = 0 (-8)2 = 64 (4)2 = 16 (12)2 = 144 (-4)2 = 16 (-4)2 = 16 (-10)2 = 100 (-2)2 = 4 376 Aplicando-se a fórmula, a variância amostral é calculada: 47 A variância s2, como estatística calculada da amostra, é uma estimativa nãoviciada da variância populacional – um valor fixo representado por σ2 (sigma ao quadrado). O denominador n-1 é chamado graus de liberdade (GL). O uso de n em lugar de n – l como denominador no cálculo da variância amostral obter-se-ia um valor denominador da variância amostral obter-se-ia um valor menor do que o verdadeiro valor do parâmetro populacional (σ2). A situação é corrigida reduzindo o denominador pela subtração de uma unidade. A Variância amostral pode ∑ também ∑ ser calculada por uma fórmula particularmente bem adaptada para o emprego de calculadoras: 1 (Σxi) /n é de correção, FC. 2 O termo ∑ é a soma dos quadrados das observações individuais da amostra e 56 Exemplo 6.2 Aplicando esta equação ao exemplo anterior: x 90 86 78 90 98 90 82 76 84 774 x2 8100 7396 6084 8100 9604 8100 6724 5776 7056 66940 ∑ ∑ 1 66940 9 774 9 1 66940 8 66546 47 9.2. Desvio padrão O desvio padrão é a mais importante medida de dispersão dos valores individuais ao redor da média. Apresenta a vantagem sobre a variância de utilizará mesma unidade de medida de dados (kg, cm etc.) que as empregadas na tomada das observações. É representado por s. 9.2.1. Desvio padrão nas séries de dados não agrupados É cálculos pela fórmula: ∑ x x 1 ∑ x 1 O desvio padrão e, portanto, a raiz quadrada da variância. 57 Exemplo 6.3 √ = 6,85 mg/dL O desvio padrão da amostra é uma estimativa do valor paramétrico σ (sigma), o desvio padrão verdadeiro da população. Para os dados de medição, especialmente em grandes amostras. O desvio padrão indica os limites prováveis dentro do quais se situam certas proporções das observações. Assim verifica-se que cerca de 68% das observações da amostra estará entre os limites 2s; e 99% das obrigações entre 3s. 9.2.1.1. Desvio padrão nas séries de dados agrupados sem intervalo de classe Nesse caso emprega-se o ponto médio de cada classe para apresentar as medidas incluídas naquela classe. Deve-se levar em consideração, também, as freqüências de cada classe aplicando-se a fórmula: s= ∑ fi x 2i n ∑ f x  − i i   n    2 Exemplo 6.4 Considerando a tabela de distribuição de freqüência sem intervalos de classe do exemplo dos exames solicitados por requisição médica. O modo mais prático para a obtenção do desvio padrão é abrir, na tabela dada, uma coluna para os produtos f,x,, e outra para fix12 lembrando que para obter fiXi2 basta multiplicar cada fiXi2 pelo seu respectivo Xi. Assim: 58 9 27238.355 59 . emprega-se a mesma fórmula acima descrita. Assim: I 1 2 3 4 5 6 Concentração 154├158 158├162 162├166 166├170 170├174 174├178 fi 4 12 14 10 7 3 Σ = 50 xi 156 160 164 168 172 176 fixi 624 1920 2296 1680 1204 528 Σ = 8252 fixi 97344 3076544 376544 282240 207088 92928 Σ = 136344 2 Cálculo: 136344 50 8252 50 27266. abrir as colunas para xi (ponto médio).68 5.32 1.2 Desvio padrão nas séries de dados agrupados com intervalos de classe Para os dados grupados com intervalo de classe.2. Exemplo 6. para fi xi e para fixi2.68 1.2 28.29 9.xi 2 3 4 5 6 7 fi fixi fi 8 16 32 13 39 117 9 36 144 6 30 150 3 18 108 1 7 49 Σ = 40 Σ = 146 Σ = 600 Logo: 600 40 156 40 15 21316 1600 15 13.5 Utilizando como exemplo a distribuição da determinação da concentração de colesterol em uma amostra controle.1. 86. compreende os 50% dos dados centrais da série em distribuições simétricas. 76.9. a diferença entre o valor mais alto (H) e o valor mais baixo (L) de uma série. 82. Amplitude A amplitude é a mais simples e precária medida de variabilidade.5. A=H-L Para o exemplo 6.4. tais como. tornando-se uma medida de grande utilidade. É uma estatística usada quando se deseja comparar a variabilidade relativa em diferentes tipos de dados. Portanto. 84 com média de 86. a amplitude não é influenciada pela dispersão dos demais valores entre o escore máximo e o escore mínimo. Medidas de dispersão baseadas nos quartis são válidas para dados ordinais. É menos afetado pêlos valores extremos do que a amplitude. O coeficiente de variação independe da unidade de medição empregado. 9. AEQ = Q3 – Q1 60 . tem-se: CV 6. 78. Isto permite a comparação de vários tipos de dados.96% 9. pressão arterial com temperatura. inclusive dados medidos em diferentes unidades de medição. 90. não considerando os valores intermediários.85 x 100 86 7. 90. intervalares ou de razão.6 Para o exemplo da secções anteriores cujos dados são: 90..6 tem-se: 98 . CV s x 100 x Exemplo 6. isto é. 98. Coeficiente de variação O coeficiente de variação (CV) é a magnitude relativa do desvio padrão expresso em porcentagem da média.3. Amplitude entre quartis É a diferença entre o valor do terceiro quartil (Q3) e o valor do primeiro quartil (Q1).76 = 22 mg/dL O inconveniente da amplitude é depender dos valores extremos. Traçar uma linha horizontal (whisker) a partir do lado esquerdo da caixa ate o ponto que alinha com o menor valor contido na série de dados. 4. Desenhar uma caixa no espaço acima do eixo horizonlal. Ex. foi proposta uma razão interquartil com toda a série de dados analisada. enquanto valores reduzidos indicam pequena variabilidade entre as mesmas observações. Dividir a caixa em duas partes por um traço vertical que corresponde ao valor da mediana. A variável de interesse é representada no eixo horizontal. Traçar uma linha horizontal (whisker) a partir do lado direito da caixa até o ponto que alinha com o maior valor contido na série de dados. 3. A razão obtida por AEQ/A (amplitude entre quartis/amplitude) é multiplicada por 100. Para a construção devem ser observados os seguintes ifens: 1. 5.6. 2. 9. A construção do gráfico utiliza o primeiro quartil (Q1) e o terceiro quartil (Q3) obtidos a partir da série de dados. de tal modo que o lado esquerdo fique alinhado com o primeiro quartil (Q1) e o lado direito fique alinhado com o terceiro quartil (Q3). Como esses valores muitas vezes parecem vagos. Ou seja.Valores elevados de AEQ indicam grande variabilidade dos 50% dos dados relevantes.: um valor da razão de 34% indica que a AEQ corresponde a 34% da amplitude (de toda a série de dados). 100(AEQ/R) relata a percentagem da AEQ em relação a amplitude total. 61 . Box-and-Whisker plots Um dispositivo visual útil para a comunicação de características de uma série de dados é o gráfico tipo hox-and-whisker plot. 62 . 3. 3.2. 1. 1.7. 3. 6. 7. Variância. 2.7. 6. 3.0.1.7. Calcular a média. 6. E.3. Coeficiente de variação. D. 6. C.1. EXCETO A. B.Vocabulário Amplitude Amplitude entre quartis Coeficiente de variação Desvio padrão Graus de liberdade Box-and-whisker Plots Variância Exercícios 6.2. variância e desvio padrão para os seguintes dados: 9. mediana. Todas as seguintes medidas são de dispersão. 2. 3. Moda. Amplitude. Encontrar a média.9. 2. 4. 4.4. 4. 2. mediana e desvio padrão para os seguintes dados: 2.2.8. 3. Desvio padrão. Sem unidade E. (centímetros)2 D. Nenhuma das respostas 6. B. E. √ B. O cálculo da variância da altura em centímetros de estudantes de determinada escola é dado em: A.5 O seguinte polígono de freqüência acumulado foi obtido de batimentos cardíacos de 1.000 estudantes: Qual dos seguintes é falsa? A.6. C.4. Centímetros C. a amplitude da distribuição é 60 a 100 batimentos por minuto a moda da distribuição c 100 batimentos por minuto a mediana da distribuição é 77 batimentos por minuto 92% dos valores são menores que 90 batimentos por minuto 95% dos valores são maiores que 65 batimentos por minuto 63 . D. ). estado ou país.. Uma série estatística é denominada Temporal quando? a) O elemento variável é o tempo. 2. A parte da estatística que se preocupa somente com a descrição de determinadas características de um grupo. quando o valor de um dado é muito pequeno.000). e) Os dados são agrupados em subintervalos do intervalo observado. b) Um conjunto de elementos quaisquer c) Um conjunto de pessoas com uma característica comum. e) Um conjunto de indivíduo de um mesmo município. 4. b) O elemento variável é o local. d) Um conjunto de elementos com pelo menos uma característica em comum. DIVERSODS População ou universo é: a) Um conjunto de pessoas.600. 6. e) Um ponto de exclamação (!). 5. Uma parte da população retirada para analisá-la denomina-se: a) Universo. Que tipo de amostragem você sugeriria e por que? Amostragem A Sistemática De acordo com as normas para representação tabular de dados. 7. d) É o resultado da combinação de séries estatísticas de tipos diferentes. para ser expresso com o número de casa decimais utilizadas ou com a unidade de medida utilizada. Deseja-se obter uma amostra n = 1. c) Um traço horizontal (-) d) Um ponto de interrogação (?). b) Estatística de Amostra. b) Parte. deve-se colocar na célula correspondente. a) Zero (0). 64 .000 especialistas prescreveram certa droga no ano anterior (N = 15. c) Estatística Inferencial d) Estatística Descritiva. c) Pedaço. b) Três pontos (. Os elementos na população de interesse são todos os homens e mulheres do estado com idade acima de 21 anos. Amostragem Estratificada Um médico está interessado em obter informação sobre o número médio de vezes em que 15.. d) Dados Brutos. c) O elemento variável é a espécie. Suponha que uma pesquisa de opinião pública deve ser realizada em um estado que tem duas grandes cidades e uma zona rural. e) Amostra.EXERCÍCIOS 1. e) Estatística Grupal. Que tipo de amostragem você sugeriria?. sem tirar conclusões sobre um grupo maior denominase: a) Estatística de População. 3. b) Um gráfico de barras ou colunas é aquele em que os retângulos que o compõem estão dispostos verticalmente. d) Um gráfico de barras é aquele em que os retângulos que o compõem estão dispostos horizontalmente e um gráfico de colunas. p) q) r) s) t) A freqüência simples relativa do primeiro elemento: 10% 20% 1 10 20 e. horizontalmente. e) Todas as alternativa anteriores são falsas. c) Um gráfico de barras é aquele em que os retângulos que o compõem estão dispostos verticalmente e um gráfico de colunas. c.A amplitude Total (n) a) 5 b) 6 c) 7 d) 10 e) 50 b. f) g) h) i) j) A freqüência total 5 6 7 10 50 9. Um dado foi lançado 50 vezes e foram registrados os seguintes resultados 5 4 6 1 2 5 3 1 3 3 4 4 1 5 5 6 1 2 5 1 3 4 5 1 1 6 6 2 1 1 4 4 4 3 4 3 2 2 2 3 6 6 3 2 4 2 6 6 2 1 Construa uma distribuição de freqüência sem intervalo de classe e determine: a. A freqüência simples absoluta do primeiro elemento: k) 10% l) 20% m) 1 n) 10 o) 20 d. verticalmente.8. A freqüência acumulada do primeiro elemento: u) 10% 65 . Assinale a afirmativa verdadeira: a) Um gráfico de barras ou colunas é aquele em que os retângulos que o compõem estão dispostos horizontalmente. 66 . A freqüência simples absoluta do segundo elemento: ee) 19 ff) 9 gg) 2 hh) 38% ii) 18% h. A freqüência acumulada relativa do primeiro elemento: z) 10% aa) 20% bb) 1 cc)10 dd) 20 g. Dado o rol de medidas das alturas (dadas em cm) de uma amostra de 100 indivíduos de uma faculdade: 151 161 166 168 169 170 173 176 179 182 152 162 166 168 169 170 173 176 179 182 154 163 166 168 169 171 174 176 180 183 155 163 167 168 169 171 174 177 180 184 158 163 167 168 169 171 174 177 180 185 159 164 167 168 170 171 175 177 180 186 159 165 167 168 170 172 175 177 181 187 160 165 167 168 170 172 175 178 181 188 161 165 168 169 170 172 175 178 181 190 161 166 168 169 170 173 176 178 182 190 calcule: a) a amplitude amostral. A freqüência acumulada relativa do sexto elemento: oo) 50 pp) 8 qq) 6 rr) 100% ss)16% 10. b) o número de classes. c) a amplitude de classes. A freqüência simples relativa do quinto elemento: jj) 12% kk)84% ll) 5 mm) 6 nn) 42 i.v) 20% w) 1 x) 10 y) 20 f. f) as freqüências relativas. i) j) o histograma e o polígono de freqüência. h) as freqüências acumuladas. 12.00? 67 . o polígono de freqüência acumulada. h) Quantas lojas apresentaram um preço de até R$52. 11. Construir a tabela de freqüências absolutas simples.00 (inclusive)? i) Qual o percentual de lojas com preço maior de que R$51.00 e menor de que R$54. k) faça um breve comentário sobre os valores das alturas desta amostra através da distribuição de frequência.d) os limites de classes. g) Construa uma tabela de freqüências absolutas acumuladas. Determinar as freqüências absolutas acumuladas. Determinar as freqüências simples relativas. De lojas 2 5 6 6 1 20 e) Quantas lojas apresentaram um preço de R$52. g) os pontos médios da classes. Os dados seguintes representam 20 observações relativas ao índice pluviométrico em determinado município do Estado: Milímetros de chuva 144 160 154 142 141 152 151 145 146 150 159 157 151 142 143 160 146 150 141 158 a) b) c) d) Determinar o número de classes pela regra de Sturges. e) as freqüências absolutas da classes. Considere a seguinte distribuição de frequência correspondente aos diferentes preços de um determinado produto em vinte lojas pesquisadas. Preços 50 51 52 53 54 Total No.00? f) Construa uma tabela de freqüências simples relativas. Construa uma tabela para mostrar que.2 68 . Faça um gráfico de linhas para apresentar o crescimento em altura de crianças do sexo masculino.6 milhões de pessoas com renda familiar mensal acima de 1300 reais (classe média e ricos). Vinte alunos foram submetidos a um teste de aproveitamento cujos resultados fornam os que se seguem.7 124. Construa uma tabela para mostrar que.4 129. O quadro seguinte representa as alturas (em cm) de 40 alunos de uma classe. Idades 7 8 9 10 11 12 Altura Média (cm) 119. de acordo com a Pesquisa Nacional por Amostra de Domicílios. 16.3 134.13. 26 18 20 27 28 25 21 22 24 18 15 13 13 25 28 19 18 24 17 28 Pede-se agrupar tais resultados em uma distribuição de freqüências 15. 2ª e 3ª séries era. o número de alunos matriculados nas 1ª .2 143. 40. 14. 45 milhões de pessoas com renda familiar mensal de 330 reais até 1300 reais (emergentes) e 13. também. 36 e 32 em 1998. percentuais. qual a amplitude do intervalo de classe? Construir uma tabela de frequência das alturas dos alunos. 162 164 170 160 166 163 165 157 158 169 148 159 176 163 152 166 175 157 165 170 169 155 157 164 172 154 163 165 178 165 170 171 158 150 162 166 172 158 168 164 j) k) l) m) Calcular a amplitude total. PNAD. Os dados estão na tabela a seguir. Admitindo-se 6 classes. respectivamente. 17. Determinar os pontos médios das classes.1 milhões de pessoas com renda familiar mensal até 330 reais (pobres e miseráveis). Apresente. 35 e 29 em 1997 e 42. em determinado curso. em 1992 havia no Brasil 73.1 139. 2.15 Total 300 84 126 0. Fi fr 0.85 |.M.20 |.65 66.3.00 |.20 20 |.85 2.2. Considere a seguinte tabela: Classes 2.3.2.10 3.80 2.3.5 36 225 0.17 17 |.75 |.05 3. obteve-se os seguintes resultados: 5 7 10 12 14 5 8 10 12 14 5 8 10 12 14 6 8 10 12 14 6 8 10 12 14 6 8 11 12 14 7 8 11 12 15 7 8 11 12 16 7 9 11 13 19 7 9 12 14 22 a) Complete a tabela de distribuição de frequência: Classe 05 |.14 14 |.80 |.M.23 Total f P. Complete a tabela a seguir: Classes f 12 62 .05 |.08 08 |.2.3.3.00 3.15 |.15 3.06 P.11 11 |.95 |.95 2. Dado o rol do número de erros de impressão da primeira página de um jornal durante 50 dias.25 Total fi 2 3 10 11 24 14 9 8 6 3 90 69 .18.20 3.10 |.90 |.90 2.3.02 20. F fr Segundo nos mostra a tabela acima responda: i) Qual a amplitude total (r) ? ii) Qual o valor de k (número de classe) ? iii) Qual o intervalo de cada classe (h) ? 19. d) 82. 80 a mediana será: a) ( ) 30 b) ( ) 35 c) ( ) 40 d) ( ) 45 50% dos dados da distribuição situa-se: a) ( ) abaixo da média c) ( ) abaixo da moda b) ( ) acima da mediana d) ( ) acima da média 22.40 28 40 . 9. 7.72 8 72 . Calcule a moda g) 3. 10 h) i) Xi Fi 2. Mediana e Moda são medidas de : a) ( ) Dispersão b) ( ) posição c) ( ) assimetria d) ( ) curtose Na série 10.80 35 80 . 8.76 20 76 . Calcule para cada caso abaixo a respectiva média. 50. 12.84 40 23. 84. 93 e) Xi Fi 73 2 75 10 77 12 79 5 81 2 f) Classes Fi 1-3 3 3-5 5 5-7 8 7-9 6 9 . 14 b) c) Xi Fi 3 2 4 5 7 8 8 4 12 3 Classes Fi 68 .50 32 Classes Fi 70 . 70. 7. 4. 9.5 6. c) Limite inferior da sexta classe. e) Amplitude do intervalo de classe. 20. 40. Responda as questões abaixo: Média. 8. 7. Calcule o valor da mediana. 86.5 7 3.30 19 30 .Identificar os seguinte elementos da tabela: a) Freqüência simples absoluta da quinta classe.20 7 4. 88.11 11 . b) Freqüência total. 21. g) Ponto médio da terceira classe.5 17 10 . 91. a) 7.13 4 3 24. f) Amplitude total.5 10 5 20 . d) Limite superior da quarta classe. 60 60 . Para a distribuição abaixo calcular D2. P4 Q3 Classes 20 . O calculo da variância supõe o conhecimento da: a) ( ) Fac c) ( ) mediana b) ( ) média d) ( ) moda 31.13 13 |.50 50 .25. A variância é: a) ( ) 3 c) ( ) 81 b) ( ) 36 d) ( ) 18 29. Desvio Médio.40 40 .00 d) ( ) 0.28 b) ( ) 1.54 d) ( ) 20. O Desvio Padrão de um conjunto de dados é 9. A variância do conjunto de dados tabelados abaixo será: Classes 03 |.20 Fi 2 3 5 4 2 c) ( ) 1. Desvio Médio para o conjunto de dados abaixo será: xi 5 7 8 9 11 a) ( ) 1. Na distribuição de valores iguais. o Desvio padrão é: a) ( ) negativo c) ( ) zero b) ( ) a unidade d) ( ) positivo 30.70 Fi 3 8 18 22 24 26.36 b) ( ) 18.66 71 .35 Fi 5 15 20 10 c) ( ) 4. Variância e Coeficiente de variação são medidas de : a) ( ) Assimetria c) ( ) Posição b) ( ) Dispersão d) ( ) Curtose 27.23 a) ( ) 1.08 08 |.83 28.18 18 |.30 30 . Variância.18 30 14 |.) a) ( ) as mulheres c) ( ) homens e mulheres b) ( ) os homens d) ( ) nenhuma das anteriores 33.22 6 18 |. e o das mulheres é na média de R$3000. Analisando as curvas abaixo marque a resposta correta. H. 34. Para as distribuições abaixo foram calculados Distrib. EXCETO F. Todas as seguintes medidas são de dispersão.18 12 14 |.18 12 18 |. Amplitude. b) a distribuição II é assimétrica positiva. c) a distribuição III é assimétrica negativa moderada. (I) (II) (III) a) a curva I é simétrica .14 24 10 |.06 6 02 |.00 com desvio padrão de R$1200. B Distrib.10 12 06 |. C Classes Fi Classes Fi Classes Fi 02 |. 36. I.14 24 10 |.10 30 10 |.00 com um desvio padrão de R$1500.32.V.06 6 02 |. Qual dos sexos apresenta maior dispersão. b) a curva II é assimétrica positiva c) a curva I é simétrica.22 6 18 |.14 24 14 |. 35. Coeficiente de variação. J. G. d) a distribuição I é simétrica. A Distrib.00. Numa empresa o salário médio dos homens é de R$ 4000.00. Desvio padrão. O cálculo da variância da altura em centímetros de estudantes de determinada escola é dado em 72 .06 6 06 |. (Analise pelo C. Moda.22 6 Marque a alternativa correta: a) a distribuição I é assimétrica negativa. d) a curva III é simétrica positiva.10 12 06 |. O seguinte polígono de freqüência acumulado foi obtido de batimentos cardíacos de 1.a) √ b) Centímetros c) (centímetros)2 d) Sem unidade e) Nenhuma das respostas 37.000 estudantes: Qual dos seguintes é falsa? a) a amplitude da distribuição é 60 a 100 batimentos por minuto b) a moda da distribuição c 100 batimentos por minuto c) a mediana da distribuição é 77 batimentos por minuto d) 92% dos valores são menores que 90 batimentos por minuto e) 95% dos valores são maiores que 65 batimentos por minuto 73 . 10. e as correntes de ar no local também podem ser relevantes. Em outras palavras. Exemplo: Cartas de Baralho Os fatores subjacentes à probabilidade de uma dada carta surgir ao acaso num baralho constituem um mecanismo probabilístico relativamente complexo. 2. Probabilidade é um conceito filosófico e matemático que permite a quantificação da incerteza. Compreender as propriedades básicas da probabilidade. analisada e usada para a realização de previsões ou para. a quantidade total das mesmas. 5. É aquilo que torna possível se lidar de forma racional com problemas envolvendo o imprevisível. permitindo que ela seja aferida. envolvendo principalmente a disposição inicial das cartas. Selecionar e aplicar as regras apropriadas da probabilidade para uma dada aplicação. 74 . Distinguir entre eventos mutuamente exclusivos e eventos independentes. Selecionar e aplicar a regra de probabilidade apropriada para determinada situação. O conhecimento dos mecanismos probabilísticos permite não apenas o estabelecimento de expectativas quanto às probabilidades de um evento específico mas também a identificação de quais os fatores que influem em tais probabilidades e como eles atuam. seriam a causa do padrão de incerteza percebido num determinado instante. seu tamanho e formato. o método de embaralhamento e o procedimento de sorteio da carta. a temperatura e umidade do ambiente. PROBABILIDADES Objetivos 1. 3. Explicar o que é uma distribuição de probabilidades e seus principais usos. Os mecanismos probabilísticos são as estruturas e dinâmicas que se acredita estarem subjacentes às probabilidades observadas para um dado fenômeno qualquer. a orientação de intervenções. Distinguir ente permutações e combinações. 4. 6. Coisas como o material de que as cartas são feitas. Um ingrediente fundamental na teoria da probabilidade é a noção de um experimento que. assim como o lançamento de um dado ou o sorteio cego de uma bola a partir de uma urna com múltiplas bolas coloridas. Todas essas variáveis atuam conjuntamente para permitir a reprodução.pois isso dependerá sempre do acaso. 10. jamais será possível dizer o que vai ocorrer num experimento aleatório . o pH vaginal. ou para se determinar a eficácia de alguma coisa nunca tentada previamente. Com base na teoria das probabilidades. a quantidade e a força da ejaculação. pode ser repetido sob condições essencialmente idênticas. a data do coito anterior do homem e da mulher. de modo que elas também condicionam a sua probabilidade. porém conduzindo a resultados diferentes em tentativas 75 . a fase da espermatogênese masculina. no entanto. 10. ao menos hipoteticamente. A conduta de um tal teste constitui um experimento. Exemplo: Fecundação A fecundação humana apresenta um mecanismo probabilístico bastante complexo. para examinar a validade de uma hipótese. Entendendo a probabilidade A teoria das Probabilidades estuda os fenômenos aleatórios com vários resultados possíveis.1.2. a idade de ambos os envolvidos. a ausência de infecções e outros. Entende-se por "chance" a medida da ocorrência das circunstâncias favoráveis. a fase do ciclo menstrual feminino. Experimento aleatório Um experimento pode ser pensado como um teste para se demonstrar uma afirmativa. com a probabilidade de sucesso num determinado intercurso sexual dependendo de uma série de fatores que envolvem a contagem de espermatozóides no sêmen. quantificando as suas possibilidades de ocorrência. Um bom exemplo de experimento é o ato de jogar uma moeda sobre uma superfície plana e anotar o resultado (cara ou coroa).Dizer que todos os componentes acima constituem um mecanismo probabilístico significa que mudanças em qualquer um desses parâmetros tende a alterar as probabilidades associadas ao surgimento de cada carta ou tipo de carta. ela permite prever o que pode ocorrer e ainda dimensiona a chance de ocorrência de cada uma das possibilidades. 6}. 6}. Esta é uma forma de visualizar o conceito. Evento simples é aquele formado por um único do espaço amostral. Seja o evento A: sair um número par. Quando se diz ser possível repetir um experimento sob condições essencialmente idênticas. existem incertezas fundamentais no universo. De um lançamento para o outro. 4. No exemplo acima A é composto. A exata posição inicial dos objetos e personagens envolvidos. Exemplo 7. bem como a intensidade e direção precisas da força de lançamento. tais como a moeda. não serão rigorosamente as mesmas. tais como as que são evidenciadas no fenômeno quântico. trata-se de uma situação onde. A = {2.0.diferentes. Tome-se. Caso tudo fosse absolutamente controlado. então poder-se-ia supor que os resultados seriam os mesmos. . o indivíduo que faz o lançamento e a mesa.lançamento de uma moeda. 5. qualquer um deles é igual a 1 dividido pelo número total de resultados possíveis. Assim. ou talvez nem assim. 3. naturalmente está-se pensando no controle de um certo número de fatores. 76 . são justamente esses fatores não controlados (também chamados de variáveis de confusão. Em outras palavras. B. Sendo evento um subconjunto de S. A soma de todos os resultados em um espaço amostra tem uma probabilidade de 1. É claro que seria impossível controlar absolutamente todos os fatores em questão. C. Qualquer conjunto de resultados de um experimento denomina-se evento (e). Na realidade. mas muitos fatores simplesmente não serão controlados. por exemplo. contudo. para todos os fins práticos. As condições gerais. aparentemente. visto que. indica-se os eventos por letras maiúsculas: A. o caso do . 4. variáveis estranhas ou variáveis espúrias) que irão constituir a aleatoriedade do fenômeno. causas iguais geram (ou podem gerar) efeitos diferentes. O conjunto de todos os resultados possíveis em um experimento é denominado de espaço amostral (S). 2. Como todos os resultados tem a mesma probabilidade de ocorrência. podem ser idênticas.1 No experimento lançar um dado: Espaço amostral será o conjunto S = {1. não se pode garantir que as condições sejam exatamente as mesmas. ao passo que o evento composto c aquele que possui mais de um elemento.. Assim. é dada por: P ( A) = n N = [ número de eventos favoráveis ] [ número de eventos possíveis ] O método clássico é também chamado de a priori. mede-se o grau de confiança de um determinado resultado pelo cálculo de probabilidade. 10. As probabilidades são teóricas e determinadas independentemente da realização ou não do experimento. nota-se que S (espaço amostrai) e φ (conjunto vazio) também são eventos. Na impossibilidade de prever exatamente qual dos resultados ocorrerá numa repetição isolada de um fenômeno aleatório. A probabilidade de ocorrência do evento A. Quando se supõe que os eventos elementares têm certa chance de ocorrência.3. Assim. Enquanto que obter um sete no lançamento de um dado constitui um evento impossível. Cálculo das probabilidades Uma das características dos fenômenos aleatórios é a imprevisibilidade. P(A) denota a probabilidade de ocorrência do evento A em uma só observação ou experimento. a probabilidade de dar cara num lançamento de uma moeda é /para toda e qualquer moeda. Assim. das quais uma é cara. e são chamados respectivamente evento certo e evento impossível. Método clássico. pelo simples fato de que as moedas têm duas faces. O símbolo P é empregado para designar a probabilidade de um evento.Diante das explicações sobre o conceito de eventos. porque ele permite determinar as probabilidades antes da ocorrência dos eventos e até independentemente deles ocorrerem ou não. lançada ou não. As únicas observações feitas são: a moeda é honesta e ela nunca cai de pé.2 Qual a probabilidade de aparecer uma face par no lançamento de um dado? Solução: 77 . Exemplo 7. o evento obter um naipe na retirada de uma carta é um evento certo. A probabilidade de ocorrência de determinado evento pode ser estabelecido de duas formas diferentes: método clássico e método das freqüências relativas. substituindo-se o "lançamento de um dado" por um resultado 78 . pois o espaço amostral desse experimento é S = {1. Desse modo. só se aplicam a elas. Retomando o caso do lançamento da moeda. Método das freqüências relativas. podendo diferir significativamente dele. 4. 2. dada uma longa série de experimentos. do ponto de vista prático.Seja A o evento: (aparecer um número par). pode-se calcular a probabilidade de um evento ou então dada a probabilidade de um evento. se pode calcular o número de vezes que ele deve ocorrer numa longa série de tentativas. Em outras palavras. é importante porque permite estimar a probabilidade de um evento a partir de observações. Portanto: 3 1 P ( par ) = = 6 2 Logo. 6}. ou seja. Entretanto. 4. afirma que. O número de resultados possíveis. Esse conceito. A probabilidade de ocorrência de certo evento A é igual à freqüência relativa observada nas experimentações ou observações passadas e a rigor. aqui não há restrição alguma. Assim. de modo que. a freqüência relativa de um evento se aproxima cada vez mais da sua probabilidade. 3. Se tal não ocorrer. O método das freqüências pressupõe que os resultados do passado são representativos e que servem de estimativa para o que se espera do futuro. A Lei dos Grandes Números é válida para qualquer tipo de experimento aleatório. os resultados podem ser totalmente inválidos. deve-se ter sempre em mente que a "realidade" não tem memória nem compromisso com o passado. as expressões "Freqüência Relativa" e "Probabilidade" podem ser intercambiáveis com erro desprezível. a probabilidade de aparecer um número par no lançamento de um dado é 1/2. 0. n = 3 (número de resultados favoráveis). as probabilidades podem mudar com novos experimentos. Pode ser utilizado para a avaliação de eventos futuros que tenham razoável semelhança com os passados. quando se repete um experimento um número suficientemente grande de vezes é possível. na equação acima. Então A = {2. que não há mudança de resultados. O teorema de Bernoulli. a probabilidade de ocorrência do evento A é dada por: P ( A) = n N = [número de vezes que ocorreu ] [ número de vezes que a exp eriência foi realizada ] = A n Esse método e denominado a posteriori porque as probabilidades somente são determinadas após a ocorrência do evento ou experimento. ela tanto pode ser viciada como cair em pé. 5.5 ou 50% (a primeira maneira de expressar a resposta é a mais comum). N = 6. 6}. Assim. numa série imensa de experimentos. mais conhecido como a Lei dos Grandes Números. Assim. a probabilidade de que eles se realizem simultaneamente é igual ao produto das probabilidades de realização dos dois eventos. A probabilidade de obtermos 1 no primeiro dado é: p1 = 1/6 79 . Se dois eventos são mutuamente exclusivos . a probabilidade de que um ou outro se realize é igual à soma das probabilidades de que cada um deles se realize: P(A UB2) = P(A ou B) = P(A) + P(B) Exemplo: No lançamento de um dado qual a probabilidade de se tirar o nº 3 ou o nº 4 ? Os dois eventos são mutuamente exclusivos então: P = 1/6 + 1/6 = 2/6 = 1/3 10. numa série longa de registros.5. a probabilidade de que tais eventos se realizem simultaneamente é dada por: p = p1 x p2 Exemplo: Lançamos dois dados.observacional ou experimental qualquer. 10. de um determinado achado laboratorial ou de um certo desenvolvimento clínico. que o número de observações precisa ser grande o suficiente para que se possa ter uma precisão aceitável para a probabilidade estimada. Dois eventos A e B são ditos independentes se:: Por exemplo. a probabilidade de um diagnóstico específico. no lançamento de uma moeda. sendo p1 a probabilidade de realização do primeiro evento e p2 a probabilidade de realização do segundo evento. Eventos independentes Dizemos que dois eventos são independentes quando a realização ou a não-realização de um dos eventos não afeta a probabilidade da realização do outro e vice-versa. se pode ter. ao se realizar um deles. quando lançamos dois dados. E interessante notar.4. como sugere o nome da Lei. o que costuma implicar em números realmente "grandes". contudo. Eventos mutuamente exclusivos Dois ou mais eventos são mutuamente exclusivos quando a realização de um exclui a realização do(s) outro(s). já que. o outro não se realiza. o resultado obtido em um deles independe do resultado obtido no outro. Se dois eventos são independentes. o evento "tirar cara" e o evento "tirar coroa" são mutuamente exclusivos. Assim. a probabilidade de obtermos. uma vez que o resultado de um lançamento não tem efeito algum nas probabilidades de ocorrência no segundo lançamento. Para determinar a probabilidade de ocorrência de dois eventos independentes.A probabilidade de obtermos 5 no segundo dado é: p2 = 1/6 Logo. emprega-se a regra da multiplicação. Qual é a probabilidade que dois motoristas. Simbolicamente: P(A e B) = P(A) * P(B) Exemplo 7. 1 no primeiro e 5 no segundo é: p = 1/6 x 1/6 = 1/36 10. qual é a probabilidade de ocorrência de "cara" tanto na primeira moeda (C1) como na segunda moeda (C2)? P C eC P C P C 1 2 1 2 1 4 Exemplo 7. Essas são as regras da multiplicação e a regra da soma. 10.5 Supor que a probabilidade de um motorista ter um acidente em um ano é 1/10. Regras das probabililidades Duas importantes regras ajudam a responder as questões mais comuns com a relação a probabilidades de eventos compostos (aqueles compostos de dois ou mais eventos individuais). Os resultados de lançamentos sucessivos de uma moeda ilustra os eventos independentes.6.6. simultaneamente. terem um acidente por ano cada um? 80 . escolhidos aleatoriamente. A regra da multiplicação estabelece que a probabilidade de ocorrência de dois eventos independentes.1.4 No lançamento de duas moedas. A e B. é igual ao produto das probabilidades dos eventos individuais. Regras da multiplicação Dois eventos são independentes quando a ocorrência de um evento não tem efeito algum na probabilidade de ocorrência de outro evento. Esse raciocínio c mostrado no diagrama de Venn. Do mesmo modo. Ao obter um 3.6.7 Qual é a probabilidade de obter 3 ou 4 em um lançamento de um dado? Pela regra de edição tem-se: 3 4 3 4 3 4 1 6 1 6 0 1 3 1 1 1 3 − − = 2 2 4 4 Relembrando: quando os dois exemplos são mutuamente exclusivos a probabilidade dos dois eventos ocorrer é igual a zero . foi excluída a probabilidade de se obter 4. Regras de adição 1 10 1 100 Para determinar a probabilidade de ocorrer um evento ou outro (ou ambos) em uma só observação emprega-se a regra de adição.P(A e B) A razão da subtração de P(A e B) é que alguns elementos estão incluídos tanto em A como em B.2. Simbolicamente: P(A ou B) = P(A) + P(B) . Quando as áreas incluídas em A e em B são adicionadas em tais eventos não mutuamente exclusivos. é impossível obter simultaneamente uma “cara” e uma “coroa” em um lançamento de uma moeda. a área de superposição é contada em dobro.6 No lançamento de duas moedas.1 10 10. desse modo existe uma superposição desses dois conjuntos de eventos. A regra de adição estabelece que a probabilidade de ocorrência do evento A ou evento B (ou ambos) é a soma das probabilidades de cada evento individual menos a probabilidade da ocorrência de A c B simultaneamente.8 81 .a segunda (H2) ou em ambas (H1H2) é dada por: P(H1 ou H2) = Exemplo 7. a probabilidade de ocorrer "cara" na primeira moeda (H1). A regra torna-se: P( A ou B ou ambos ) = P(A) + P(B) Exemplo 7. Desse modo a regra de adição é simplificada quando os eventos são mutuamente excessivos. Exemplo 7. 267 = 0.933. P(Mm). Probabilidade condicional Quantifica a "chance" de dois eventos dependentes e não excludentes ocorrerem em certa ordem.533 + 0. P(H65) = 2/3. é calculada pela subtração da probabilidade de sobreviver aos 65 anos de 1 P M 1 P M 1 8 8 0. ou seja. acima) tem-se que a probabilidade de uma mulher morrer antes dos 65 anos. Qual é a probabilidade de uma mulher morrer antes dos 65 anos? Utilizando uma das propriedades dos eventos mutuamente exclusivos (v. dado que tenha ocorrido o evento B. isto é. A probabilidade de somente os homens sobreviverem até aos 65 anos: P P H eH P M 1 8 10 3.7.533 0. 8/10. 1 P H eM 1 1 2 X 3 10 0.2/3. A expressão algébrica para calcular a probabilidade condicional de A após ter ocorrido B 6: 82 .933 10. aproximadamente.133 + 0. A expressão P(A|B) indica a probabilidade de ocorrer o evento A. A probabilidade que um homem sobreviver até 65 anos de idade é. Essa resposta pode também ser obtida pelo cálculo da probabilidade do complemento de morte tanto de homens como mulheres. A probabilidade que ao menos um dos dois sobreviverá até aos 65 anos de idade: P= P(um ou ambos estarão vivos) P = P (M65 e H65) + P (H65 eMm) + P (H65 eMm) = 0. A probabilidade de tanto homens como mulheres sobreviverem até aos 65 anos: P P H P M 2 3 8 10 0.2 Continuando com o exemplo pode-se calcular outras probabilidades aplicando as regras da multiplicação e adição: 1. P(M65) = 8/10. aproximadamente. que é.13 2.Em determinada comunidade a probabilidade das mulheres sobreviverem até 65 anos é.267 4. A probabilidade de só a mulheres sobreviverem até aos 65 anos: P P H P H 8 1 10 2 3 0. 0525 A probabilidade condicional de parar de fumar durante a gravidez dado que a mãe tem terceiro grau é obtido pelo emprego da seguinte fórmula: 0. é a mesma obtida diretamente a partir das freqüências na tabela. 214 884 0.2169 é a probabilidade de selecionar uma mãe que tanto parou de fumar como tem terceiro grau é. A probabilidade de selecionar uma mãe com terceiro grau é P B 884 4075 0.242. têm-se: P A 768 4075 0. a probabilidade de ocorrência conjunta de A e B é a probabilidade de A multiplicada peia probabilidade condicional de B dado A.242  Notar que a probabilidade obtida peio emprego da fórmula. Nível de inscrição Segundo grau Terceiro grau 204 214 732 670 936 884 P A B desde que P (B) não seja igual a zero.0525 0.242 Para eventos dependentes. pode-se calcular várias probabilidades. P(A/B) = 0. P AAB 214 4075 0.188 é a probabilidade de selecionar uma mãe que parou de fumar.2 100 Por exemplo.9 A partir da tabela abaixo onde são descritos os dados referentes a mães que pararam de fumar durante a gravidez relacionada ao nível de instrução. Parou Não parou Total Primeiro grau 350 1905 2255 Total 768 3307 4075 % 18. Ou seja P( A e B) = P(A) P (BA) 83 .8 81. se A é o evento "parar de fumar durante a gravidez" e B é o evento "todas as mães pesquisadas". Exemplo 7.A linha vertical em P(AJB) é lida "dado".2169 0. 6 os eventos A e B não são independentes visto que P(AB) = 0. seria o mesmo que o respectivo valor da probabilidade não-condicional. Geralmente há interesse no número de permutações de algum subgrupo dos n objetos. arranjados é dado por n!.10 Para identificar os frascos de uma medicação emprega-se três diferentes símbolos. Para o exemplo 7. xzy. Ou seja. a ordem de arranjos de uma pessoa perder os dentes é importante. 0! = 1. O número de diferentes maneiras pêlos quais n objetos podem ser. y e z.8. Quantos são os modos diferentes dos frascos serem identificados? A resposta é 3! = 3 x 2 x 1 = 6 Os seis modos diferentes de identificação são xyz. x. é uma seleção de objetos de um grupo de n objetos. P(B). pois qualquer ordem resulta na mesma comissão. P(BA). levando em conta a ordem de seleção. que então corresponderia à fórmula P(A e B) = P(A) P (B) para eventos independentes.Essa Fórmula é frequentemente chamada de regra geral da multiplicação. Ou seja. Permutar é (re)ordenar os elementos de um conjunto numa seqüência previamente definida.1885. Por exemplo. começando em n e terminando em 1. zxy e zyx. o valor da probabilidade condicional. deve-se inicialmente conhecer se a ordem desses objetos segue alguma regra. há interesse no número de permutações de n objetos tomados r de cada vez. yzx. yxz. ! ! Exemplo 7.242 não é igual a P(A) = 0. Permutações Ao determinar o número de maneiras pelas quais um grupo de objetos podem ser arranjados. onde r é menor do que n: . Por definição. mas a ordem de seleção de um grupo de pessoas para constituir uma comissão não é. porque para eventos independentes.11 84 . Essas duas probabilidades não são as mesmas a menos que os dois eventos sejam independentes. 10. Exemplo 7. O símbolo n!: designa "fatorial de n": n! (fatorial do número n) é igual ao produto de todos os números naturais. Os três pacientes são: uma mulher grávida (M). MI.12 Três pacientes picados por serpente foram conduzidos a um pronto-socorro. onde a ordem não é importante.2 3! 2! 3 2 ! 3 2 1 2 1 3 As três escolhas são: MC. A equação para a obtenção do número de combinações para selecionar r objetos a partir n objetos é: . RQ e QR. Combinações Nas combinações interessa o número de arranjos de diferentes agrupamentos de objetos que podem ocorrer sem levar em consideração a ordem.2 3 3! 2 ! 3 2 1 1 6 ou CR. como a seleção de livros em uma estante.9. CQ. Exemplo 7. O plantonista descobre só possuir duas doses de anti-ofídico. M e IC são as mesmas das primeiras três pois a ordem não é importante.cirurgia (C). ! 3 ! 2 ! onde C denota o número total de combinações dos objetos. radioterapia (R) e quimioterapia (Q) . Antes de decidir qual dos dois tratar.Supor a existência de três maneiras efetivas de tratamento de um paciente com determinado tipo de câncer .quais os diferentes modos de tratar o paciente com dois diferentes tratamentos? 3. Uma combinação e uma seleção de um subgrupo de objetos distintos. RC. QC. 85 . ele examina as chances existentes: 3. Cl. uma criança (C) e um idoso (I). 10. Notar que CM. Determinar a probabilidade de observar: A. B.4 Uma bola é retirada aleatoriamente de uma caixa conferido 10 bolas vermelhas.2 Uma moeda não viciada é lançada três vezes e o número de "caras" é observada. Duas moedas são lançadas e os resultados observados.1. Calcular as probabilidades de observar zero "cara".3 Um casal planeja ter três filhos. B.Vocabulário Combinações Eventos mutuamente exclusivos Permutações Probabilidade Probabilidade condicional Regra da multiplicação Regra de adição Questões de revisão 1. Laranja ou vermelha Não azul Vermelha ou branca ou azul 86 . uma "cara" e duas "caras". Exatamente duas "caras" B. Dois do sexo masculino e um do sexo feminino Nenhum do sexo feminino Dois do sexo masculino seguidos por um do sexo feminino 7. Definir distribuição de probabilidade de uma variável aleatória discreta. Calcular as seguintes probabilidades: A. Encontrar as seguintes possibilidades: A. 7. C. Definir distribuição de probabilidade de uma variável aleatória continua. 30 bolas brancas. C. No máximo duas "caras" 7. 20 bolas azuis e 15 bolas laranjas. Exercícios 7. 2. Encontrar: A.5 Em um experimento envolvendo uma substância tóxica. a probabilidade que um rato branco permaneça vivo por 10 horas é 7/10. B= um fumante e C = uma "pressão sanguínea sistólica de 170 ou mais. O "status" de fumante e nível depressão sanguínea são independentes? Pressão sanguínea 90-109 110-129 130-149 150-169 170-189 190-209 Total Não fumantes Fumantes fi 10 24 18 9 2 0 63 fi 5 15 10 3 2 2 37 Total 15 39 28 12 4 2 100 87 . no final de 10 horas. A. P(B) C. Ambos estarão vivos Somente o rato preto estará vivo Ao menos um rato estará vivo 7.6 De quantas maneiras podem ser arranjados cinco cubos coloridos em uma linha? 7.8 Usando os dados da tabela abaixo com a relação da pressão sanguínea sistólica de fumantes e não-fumantes onde os eventos: A = um não-fumante. C.7. P(CA) E. e a probabilidade que um rato preto permaneça vivo por 10 horas é 9/10.7 De quantos modos diferentes pode ser escolhida uma comissão de cinco pessoas a partir de nove candidatos? 7. B. P(C) D. Comparar a D e E (comentar). P(CB) F. Encontrar a probabilidade que. P(A) B. Distribuições discretas de probabilidade. Distribuições de probabilidade Uma importante aplicação da estatística é a estimação das probabilidades de ocorrência de diferentes eventos.11. As probabilidades são determinadas por uma função matemática e descritas por uma função de densidade ou por uma curva de probabilidade. assim chamada pois seus valores são determinados por processos ao acaso que não estão sob o controle do observador. 2. São exemplos de específicos modelos discretos de probabilidade. As distribuições de probabilidade são modelos matemáticos para as distribuições reais de freqüências. as distribuições de probabilidade binomial e de Poisson. Conhecendo-se as várias probabilidades associadas com diferentes desfechos de um dado fenômeno. juntamente com a probabilidade de cada um. Por exemplo. Desse modo. Os desfechos de eventos podem ser descritos numericamente (ex. As variáveis aleatórias podem ser discretas ou contínuas. Assim é possível decidir se certos eventos são significantes. acerca de fenômenos aleatórios. A lista completa de todos os desfechos possíveis. Distribuições contínuas de probabilidade. comparações ou previsões. São modelos teóricos construídos na expectativa de explicar a realidade. 1. fórmula ou outro dispositivo empregado para especificar todos os possíveis valores da variável junto com suas respectivas probabilidades. pode-se desejar saber a probabilidade de ter uma família de três meninos e uma menina ou a probabilidade de sete entre dez pacientes serem curados com determinado medicamento. Quando a variável aleatória for contínua (pode assumir qualquer valor fracionário dentro de um intervalo definido de valores). Essas distribuições teóricas de probabilidade permitem solucionar a maioria dos problemas práticos de estatística. Ou seja. a partir dessas distribuições é possível fazer inferências sobre dados observados. constitui uma distribuição de probabilidade. gráfico. O símbolo X geralmente denota a variável de interesse. pode-se determinar quais os desfechos são comuns e quais não são. pode-se dizer que uma distribuição de probabilidade é uma lista de probabilidades associadas com os valores de uma variável aleatória obtidos em um experimento. permitindo generalizações.: número de três meninos em uma família). Entre as distribuições de 88 . A distribuição de probabilidade de uma variável aleatória discreta (dados contáveis ou enumeráveis) é uma tabela. Essa variável pode assumir qualquer valor numérico e é denominada variável aleatória. é possível a resolução de dois problemas da inferência estatística: a estimação de parâmetros e os testes de hipóteses. infectado/nãoinfectado). Conhecida a distribuição de probabilidade de um fenômeno aleatório considerado. curado/não-curado. 2. A distribuição binomial é aplicável sempre que o processo de amostragem é do tipo do de Bernoulli. Hipóteses do modelo Binomial 1. 11. Os resultados das repetições são independentes. 11. uma repetição não interfere nas subseqüentes.1. 11. São exemplos de específicos modelos discretos de probabilidade as distribuições de probabilidade binomial de Poisson. 5 Identificar os componentes da fórmula de Poisson. 89 .probabilidade de variáveis contínuas. 4 Identificar os componentes da fórmula binomial. gráfico. O experimento é repetido n vezes nas mesmas condições. fórmula ou outro dispositivo empregado para especificar todos os possíveis valores da variável junto com suas respectivas probabilidades. Objetivos 1 Descrever as propriedades de uma distribuição binomial. ou seja.1. 2 Calcular as propriedades usando a distribuição binomial. algumas são de essencial importância para a estatística: distribuição normal.: masculino/feminino.2. distribuição de t e distribuição F de Snedecor.2. Estuda o comportamento amostrai de eventos dicotômicos (ex. Distribuição binomial A distribuição binomial é uma distribuição discreta de probabilidade em que a variável aleatória envolvida é enumerável ou contável. Distribuições discretas de probabilidade A distribuição de probabilidade de uma variável aleatória discreta (dados contáveis ou enumeráveis) é uma tabela. 3 Descrever o processo de Bernoulli. . 2. Como o sexo é uma variável binária. As probabilidades de sucesso “p” e de insucesso “q” (q=1-p) se mantêm constantes durante as repetições. expresso pela fórmula: .1/2 = 1/2. O! = I. "fatorial de n" é definido como n! = n * (n-I) * (n-2) *.: 4! = 4 * 3 * 2 * l = 24.pk . então a probabilidade de X assumir um dos valores do conjunto X(S) é calculada por: n  n! f (x) = P(X = k) =   . Na distribuição binomial a média é igual ao número de eventos estudados vezes a probabilidade de ocorrência do evento. 90 .qn −x = . o produto de todos os números naturais desde um até esse número. Ou. Cada repetição admite apenas dois resultados: sucesso ou fracasso. considera-se que a probabilidade de nascer uma criança do sexo feminino é q = l . A distribuição binomial dada pela fórmula acima... Os símbolos n e p são denominados parâmetro da distribuição. A fórmula empregada é f (x) = P(X = k) n! . 4. para k = 0.. Ou seja: = np.qn −k .3.k ! n = é o número de tentativas ou repetições do experimento k = é o número/proporção/freqüência desejada de sucessos n-k = é o número/proporção/freqüência esperada de fracassos P = é a probabilidade/proporção/freqüência de sucessos q=l-p = é a probabilidade/proporção/freqüência de fracassos O símbolo ! indica o fatorial de um número inteiro. e a probabilidade p de sucesso numa tentativa isolada. Por definição. Pode-se empregar a distribuição binomial para determinar a probabilidade de se obter um dado número de sucessos (k) em um processo de Bernoulli. * 1.q n − k ( n − k ) !. .p k . n. c determinada pelo número de tentativas.k ! k  Para a melhor compreensão exemplifica-se que a probabilidade de nascer uma criança do sexo masculino é p = 1/2.. O desvio padrão é igual a raiz quadrada do produto: n x p x g.pk . Ex. 1. ( n − k ) !. ou seja. Teorema: Se X é uma variável aleatória com um comportamento Binomial. com 6. como também de uma menina.37% para 0M e 5F 6! 1 6! 6 6 ! 2 1 2 1 64 0. a distribuição binomial é uma família de distribuições cada uma com valores específicos para n e p. respectivamente Para a distribuição de freqüências de famílias de 6 filhos.37% para 5M e 1F 6! 1 2! 6 2 ! 2 1 6! 1! 6 1 ! 2 6! 1 4! 6 4 ! 2 6! 1 3! 6 3 ! 2 6! 1 5! 6 5 ! 2 1 2 1 2 1 2 1 2 20 64 20 64 20 64 15 64 6 64 0. I.Exemplo 8. Cerca de 10% das famílias de 6 filhos tem 5 ou mais meninos. l ou 0 filhos do sexo masculino. e p. 4. Parâmetros binomial.22 = np 91 .43% para 2M e 4F 0.evidentemente. 3. 2. A média e a variância da distribuição binomial são: e o2 = np(l -p). A variância é (6)( l/2)( 1/2) = 1.2 1. 3. A distribuição binomial tem dois parâmetros.0156 = 0.56% para 0M e 6F A probabilidade de que numa família de 6 filhos.43% para 4M e 2F 0.e a soma das probabilidades de 5 e 6 filhos do sexo masculino.3125 ou 31.5 1.0937 ou 9. 4. (6)(l/2) = 3.56% para 6M e 0F 0.25% para 3M e 3F 0.0937 + 0.2343 ou 23.2343 ou 23. 0. é igual 1/2. 5 ou mais sejam do sexo masculino. São parâmetros no sentido em que são suficientes para especificar uma distribuição binomial. do exemplo acima.1 Admite-se que a probabilidade de nascimento de um menino. Quais são as probabilidades em uma família de seis filhos de ter O.5 e o desvio padrão é Exemplo 8.0156 ou 1. 5.1093.0156 ou 1. 2. Na realidade. a média é. isto é. 5 e 6 crianças do sexo masculino? (M = masculino.0937 ou 9. F = feminino) 6! 1 0! 6 0 ! 2 1 2 1 2 1 64 0. . .f(x) = ∑ x   p x qn −k = np . . . . .25. Logo q = 1 .125 = 31.55 + 10.25%       (c) P(X ≤ 2) =   . Variância 92 . a média de uma variável aleatória com k  distribuição binomial é igual ao produto dos parâmetros “n” e “p“. .p = 0. 3.25.0. 5 } p = P(Cara em 1 lançamento ) = 0. .0. 1. k . − 11.50. 2. expectância ou valor esperado n  µ = E(X) = ∑ x. k = número de caras nos 5 lançamentos ⇒ X(S) = { 0. tem-se: n = 5 = número de lançamentos. .   .0. Assim se X é uma VAD com uma distribuição Binomial tem-se: Média.125 = 31. − +   . .Considerando k como sendo a VAD igual a “número de vezes que ocorre face cara em 5 lançamentos de uma moeda equilibrada”. pois a moeda é equilibrada.25%   ≤   φ ←≤φ ←≤≤ φ (a) P(X = 2) =   . 4. . − = 10. 1.2. . .     = 0. isto é.0. . .2. − = 10.0. Propriedades da distribuição binomial A vantagem de se ter um modelo conhecido é que podemos determinar suas características de um modo geral. .0. determinar a probabilidade de ocorrer: (a) Duas caras (b) Quatro caras (c) No máximo duas caras Solução: Neste caso. 5 k  ≤   φ ←≤φ ←≤≤ φ (a) P(X = 2) =   . 4.55 + 5. 3.55 = 50% −   +  .50 Então: ≤   ←≤ ←≤≤ f(x) = P(X = x) =   . para k = 0. 2. −k . .φ φ φ φ  n σ = E(X) − µ Ex   p x qn − x = npq.P(X ≤ 1) = 1 . (a) Qual a probabilidade de haver exatamente 3 peças defeituosas numa caixa? (b) Qual a probabilidade de haver duas ou mais peças defeituosas numa caixa? (c) Se a empresa paga uma multa de R$ 10. a variância de uma variável aleatória x com distribuição binomial é igual ao produto dos parâmetros “n” e “p” e multiplicados ainda por “q”.5905 + 0. As peças são acondicionadas em caixas com 5 unidades cada uma. qual o valor esperado da multa num total de 1000 caixas? Solução: ≤  φ   ←−← ← ← a) P(X = ) =    .81% .10 = 2 itens defeituosos (b) σ = npq = . = .0.4 Num determinado processo de fabricação 10% das peças são consideradas defeituosas. Assim: P(X ≥ 2) = 1 .81 = 0.3280] = 8.( . Considerando k a variável “número de unidades defeituosas em uma amostra ocasional de 20 unidades. O desvio padrão σ = npq Exemplo 8.(   b) P(Duas ou mais defeituosas) = P(X = 2) + P(X = 3) + P(X = 4) + P(X = 5).15% (c) A probabilidade de uma caixa pagar multa é: 93 .0.00 por caixa em que houver alguma peça defeituosa.34 itens defeituosos. . determinar: (a) O número médio de item defeituosos na amostra. Ao invés de calcular desta forma é mais conveniente utilizar o complementar.001. isto é. (b) O desvio padrão do número de item defeituosos na amostra. = 1. .3 A probabilidade de um exemplar defeituoso com que opera certo processo produtivo é de 10%. Exemplo 8.0.[P(X = 0) + P(X = 1)] = 1 . ) = 10.(0. ) . Solução: (a) E(X) = np = 20. 95% Neste caso tem-se uma nova Binomial com n = 1000 e p = 40. Não há maior inconveniente nessa substituição. Distribuição de Poisson Na distribuição binomial.5 = R$ 4 095.00.80. (ii) Em intervalos de mesmo comprimento. O número esperado de caixas que vão pagar multa. superfície.95%. a probabilidade de mais de um sucesso é desprezível.p Variância de uma Distribuição Binomial V(X) n. De fato. são iguais as probabilidades de ocorrência de um mesmo número de sucessos. será suposto que: (i) Eventos definidos em intervalos não sobrepostos são independentes. Essa propriedade torna permissível o uso da distribuição normal para cálculos de freqüência relativas e testes de hipóteses. Como cada uma paga R$ 10.4095 = 409. adiante).5 caixas.P(PM) = P(X ≥ 1) = 1 . 94 . a variável de interesse era o número de sucessos (ocorrências do evento A) em um intervalo discreto (n repetições do experimento E). o valor total da multa será: PM = R$ 10. quando p tiver valores entre 0. entretanto. Muitas vezes.P(X = 0) = 1 . com uma ou mais peças defeituosas será: E(PM) = np = 1000.5905 = 40. (iii) Em intervalos muito pequenos. isto é. quando p for pequeno e n for grande. p. A forma de distribuição binomial aproxima-se da forma da distribuição normal (v. (iv) Em intervalos muito pequenos. sendo vantajoso então o emprego da distribuição normal. o interesse reside no número de sucessos em um intervalo contínuo.20 e 0.q 11. a probabilidade de um sucesso é proporcional ao comprimento do intervalo.409. e np e (1-p) forem maiores do que 5. Para se caracterizar uma distribuição que leve em conta o número de sucessos (valores) em um intervalo contínuo.00 de multa.0.3. comprimento.0. o cálculo de probabilidades com base na distribuição binomial pode tornar-se penoso para valores altos de n. para amostras de populações binomiais.00 Aproximação da distribuição binomial à normal. que pode ser de tempo. etc. Esperança Matemática de Distribuição Binomial E(X)=n. para x = 0. substituindo λ na equação acima por λt. X = número de defeitos a cada dois mil metros. ocorrem defeitos a uma taxa de 1 a cada 2000 metros.. .. 3. 1. do número de sucessos por intervalo t. 2.(λt)k . A probabilidade de observar apenas um sucesso no intervalo é estável. para k = 0. Desta forma a distribuição de Poisson pode ser escrita como: e − λt . 3. x = 0.5 Em um certo tipo de fabricação de fita magnética. A ocorrência de um sucesso em qualquer intervalo é independente da ocorrência de sucesso em qualquer outro intervalo. A distribuição de Poisson é caracterizada apenas pelo parâmetro λ. 2. 3. Qual a probabilidade de que um rolo com 2000 metros de fita magnética: (a) Não tenha defeitos? (b) Tenha no máximo dois defeitos? (c) Tenha pelo menos dois defeitos? Solução: Neste caso. . Hipóteses do modelo de Poisson 1. tem-se: λ = Taxa de defeitos a cada 2000 metros. 3.Se os valores de uma variável satisfazem as hipóteses (i) a (iv) acima se dirá que ela segue um processo de Poisson.. .... Então: f (x) = P(X = k) = e− λ . 95 . 1. 2. 2. onde k é o número de eventos que k! ocorrem em um intervalo sobre o qual se espera uma média λ de ocorrências. . Em outras palavras. A probabilidade de observar mais que um sucesso no intervalo é zero. Além disso. f (x) = P(X = k) = Exemplo 8. k! A distribuição de Poisson será representada por P(λ). X pode ser definida como o número de eventos que ocorrem sobre um período de tempo t. λ é a taxa de ocorrência dos eventos no intervalo de tempo. que representa o valor esperado ou média.λk . 1.   ← + −   = 1 . 1.08% = −   !   !    (c) A probabilidade de pelo menos 5 faces perfeitas é: 96 . (a) Qual a probabilidade de uma determinada face apresentar exatamente 2 defeitos? (b) Qual a probabilidade de o dado apresentar no mínimo dois defeitos? (c) Qual a probabilidade de que pelo menos 5 faces sejam perfeitas? Solução: (a) Em média aparecem: d = 50 defeitos/m2 = 50/10 000 defeitos/cm2 Como cada face tem a = 10cm x 10 cm = 100 cm2. 2. b) P(X ≤ ) = + + = .( .5 defeitos por face. = 1 . segundo uma distribuição de Poisson. φ φ defeitos /cm x 600 cm = 3 defeitos A probabilidade de o dado apresentar no mínimo dois defeitos será: P(X ≥ ) = P(X = 2) + P(X = 3) + .2e − =0.8008= 80.[0.   e− .79% ! −− ← −− − −− φ e− . Em média aparecem 50 defeitos por metro quadrado de plástico.42%  Exemplo 8. ! −− − −  − = 1 .1494] =0..  ← e + c) P(X ≥ ) = − P(X ≤ ) = −   ! = . ! ! ! −− ← − φ − − − e− . .2642= 26. ) P(X = ) = = . A probabilidade de uma face apresentar dois defeitos será: ← ←≤ φ ≤ e− .. = .P(X ≤ 1) = 1 ..6 Um dado é formado por chapas de plástico de 10x10 cm. % ! (b) No dado inteiro.Então: f (x) = P(X = k) = e λ . % .[P(X = 0) + P(X =1)] =  ←  − −  e− . 3. para k = 0. a área total será a = 6x100 cm2 = 600 cm2 e o número médio de defeitos será então: λ= . e− . e− . = = 36.. . tem-se então: λ = (50/10000) defeitos/cm2 x 100 cm2 = 0.λk . k! −− ← ←e − ←≥ a) p(X = ) = = .0498 + 0. = 60.36% )   11.( .qn −k k  97 .65% = probabilidade de uma face ser perfeita. A probabilidade de uma face ser perfeita é a probabilidade de ela não apresentar defeitos. + ( 0 39350 ) +  )    ≥ ← ←φ ⇒ ≥ ≥ ≥   ≥ ←≥← ≤ .( .λk =λ k! O desvio padrão σ= λ 11. expectância ou valor esperado µ = E(X ) = ∑ kf (k) = ∑ x φ e − λ .3. será: P(Y ≥ 5) = P(Y = 5) + P(Y = 6) = ≥ − ≥ ≤   ≤ ←≥← ≤  =   .1.4. Relação entre as distribuições Binomial e Poisson Seja X uma variável aleatória discreta com distribuição Binomial de parâmetros “n” e “p”. = 24.P(Y ≥ 5) = P(Y = 5) + P(Y = 6).( .p k .65% ! Tem-se então uma binomial Y com n = 6 (número de faces do dado) e p = 60. então: Média.λk =λ k! Variância σ = E(X ) − µ = ∑ x φ φ φ φ e − λ . isto é: ← ←≤ ← ≤ ←e − . Então a probabilidade de pelo menos 5 perfeitas. Propriedades da distribuição de poisson Se X for uma VAD com distribuição de Poisson. + ( 0 39350 ) = . Isto é: n  f (x) = P(X = k) =   . ) ←≥← ≤ ≥ P(X = ) = = . . 7 Uma amostra de 50 peças é retirada da produção de uma máquina que trabalha com um índice de defeitos de 2%. Que é um processo de Bernoilli?.0. Dar um exemplo de uma variável aleatória que segue a distribuição de 98 . ⇒  = . Solução:  (a) Pela Binomial. 5. que é possível obter uma aproximação das probabilidades binomiais com as probabilidades da distribuição de Poisson. de modo que np → α. p → 0. Descrever a distribuição binomial.p k . 2. ←−  = 1. 3.q n −k = n →∞ n →∞ k k!   O teorema diz essencialmente.tem-se: P(X = ) = = . Nestas condições tem-se então: n  e − λ . Determinar a probabilidade de se encontrarem duas peças defeituosas na amostra.( .Admita-se que quando n → ∞ . ) ) = . % (b) Usando uma aproximação pela distribuição de Poisson de média µ = np = 50. 4.02 −− φ φ e− . Exemplo 8. toda vez que “n” seja grande e “p” seja pequeno. quando n → ∞ .  φ . ou de uma forma equivalente. 39% ! Vocabulário Distribuição binomial Distribuição de Poisson Processo de bernoulli Questões de revisão 1. Que é uma variável aleatória discreta? Dar três exemplos de interesses na área biomédica.( . Dar um exemplo de uma variável aleatória que segue a distribuição binimial. tem-se: P(X = ) =   ≤←   .λk lim P(X = k) = lim   . = 18. tenha-se np = α = constante. Esperança Matemática da Distribuição de Poisson E(x) = λ Variância da Distribuição de Poisson V(X) λ 99 .Poisson. Entre tais casais com 5 filhos. Um filho. D. Um estudo mostrou que 26% da população adulta de determinada cidade é obesa. Todos os filhos? 8. e que resultaram em crianças vivas. qual o percentual esperado daqueles com a doença genética manifestada em: A. B. Mais que cinco ratos. Entre três e sete. C. Suponha que certa área de uma grande cidade apresente uma média de cinco ratos por quarteirão. A partir de uma amostra de 20 adultos. 8. C.1 Dentre 6.2 Crianças com determinada doença genética são. inclusive. filhos de casais assintomáticos que correm um risco de 25% de gerar outra criança com esse defeito. 8. Exatamente três. Entre cinco e sete ratos. D. C.3. B. Se o número médio de acidentes sérios por ano em uma grande (onde o número de empregados permanece constante) é cinco. Três filhos. 50 foram gêmeos e 2 foram de trigêmios. inclusive. quase sempre. B. Exatamente cinco ratos. Pressupondo que o número de ratos siga a distribuição de Poisson. Menos que cinco ratos.Exercícios 8. T ré s ou m ais.4. encontrar a probabilidade que era um quarteirão selecionado ao acaso tenha: A.5. Exatamente sete acidentes. 100 . Menor que três. encontrar a probabilidade que o número de obesos nessa amostra será: A.654 partos sucessivos que ocorreram em uma maternidade. Encontrar a probabilidade que nesse ano ocorrerá: A. Quais as probabilidades (em percentagem) de nascimentos de gêmeos e de trigêmeos entre recém-nascidos vivos que podem ser estimados a partir desses dados? 8. No mínimo 8 D. Dez ou mais acidentes. Se a incidência anual segue a distribuição de Poisson. encontrar y probabilidade que em determinado ano o número de novos casos de câncer de esôfago sejam: A. Menos que cinco acidentes. inclusive 101 . C. Em certa população uma média de 13 novos casos de câncer de esôfago são diagnosticados cada ano.6. Menos que 12 C.B. Nenhum acidente. D. 8. Exatamente 10 B. Entre 9 e15. distribuição t. 11. 102 . c) A área total da curva equivale a 100%.Propriedades da Distribuição Normal a) O aspecto gráfico da função f tem semelhança de um sino.2 . distribuição do quiquadrado e distribuição F de Snedecor.5.−∞ < x < +∞ f ( x) Os parâmetros  e σ seguem as seguintes condições: -∞ < < + ∞ e σ > 0 .11.d. b) A especificação da média e do desvio padrão σ é completamente evidenciado.σ 2 1  x −µ    e 2  σ  . Distribuição normal ou Gaussiana É um modelo de distribuição contínua de probabilidade. que tome todos os valores reais -∞< x < +∞ tem distribuição normal quando sua função densidade de probabilidade (f. Distribuição normal.5. As probabilidades são determinadas por uma função matemática e descritas por uma função de densidade ou por uma curva de probabilidade.5. Distribuições contínuas de probabilidade Quando a variável aleatória for contínua (pode assumir qualquer valor fracionário dentro de um intervalo definido de valores). Uma variável aleatória X. unimodal e simétrico em relação a média .1.) for da forma: 1 2π. 11.p. usada tanto para variáveis aleatórias discretas como contínuas. Entre as distribuições de probabilidade de variáveis continuas algumas são de essencial importância para a estatística. Distribuição Normal Padronizada Tem como objetivo solucionar a complexidade da f(x) através da mudança de variável.FIGURA 11.3 .Complemento da Distribuição Normal Padronizada Fazendo z= x−µ e z ~ N(0. FIGURA 11.Distribuição Normal em função da e σ Esperança Matemática da Distribuição Normal E(X) = Variância da Distribuição Normal V(X) = σ² 11. f(z).1 .1) temos que σ 103 .2 .5. f ( Z) = −z2 2 1 +∞ e ∫ 2π − ∞ com E(z) = 0 e VAR(z) = 1. onde: z = número de desvios padrões a contar da média x = valor arbitrário = média da distribuição normal σ = desvio padrão da distribuição normal Estas probabilidades estão tabeladas e este caso particular é chamado de Forma Padrão da Distribuição Normal. 104 . não são necessariamente iguais aos de outras amostras obtidas de uma mesma população... 5. e desvio padrão a e dela extraindo-se um grande número de amostras casuais simples de diferentes entre si. Distinguir entre a distribuição de uma população e a distribuição amostrai de médias (DAM). A partir do estudo da variabilidade do resultado. denominada distribuição amostral de médias (DAM) .12. 2.. a média e o desvio padrão. c possível construir distribuições de freqüências (distribuições amostrais) que é a base para a inferência estatística. X X ΣX/n As propriedades dessas distribuições teóricas conferem um papel importante no processo de inferências estatísticas. Obtenção da média das medias mesmo tamanho n. Identificar os principais pontos do teorema central do limite... Explicar a importância do teorema central do limite. Valores de medidas estatísticas.. Essa variação é atribuída a diferenças na composição das amostras aleatórias e é conhecida como variação amostral. de amostra para amostra.. A partir dessa distribuição. tais como.. 4. com média µ .... Calcular e interpretar o erro padrão da média. é possível calcular a 105 ... Essas séries de médias resultantes poderão ser classificadas numa tabela de freqüências e representadas por um histograma.. DISTRIBUIÇÃO AMOSTRAL DAS MÉDIAS Objetivos 1. Dada uma população de valores x com distribuição normal.. Repetindo-se a amostragem indefinidamente.. Amostra n Média das médias Medias X X X . Determinar quando usar uma distribuição t.. o cálculo das médias X dessas amostras levam a valores para X Amostra Amostra 1 Amostra 2 Amostra 3 .. 3.. o histograma tenderá para uma curva que representa a distribuição estatística das médias amostrais... uma curva normal. Ou seja: µ 1. Ao redor de 68% das médias estão entre σ A maior parte das amostras tende a estimar os parâmetros populacionais com boa aproximação. naturalmente cresce com o aumento de tamanho dessa amostra. µ/√n e µ σ/√n. são as mesmas da enquanto 95% estão entre µ curva normal. A confiança a ser depositada numa amostra. A partir do Teorema Central do Limite obtêm-se: à média populacional. 4. O desvio padrão da distribuição amostral das médias é igual ao desvio padrão da população dividida pela raiz quadrada do tamanho da amostra isto é σ população. é √n vezes menor que a variação existente na 3. portanto. Quando n for bastante grande. Outro aspecto a ser relacionado é. µ σ √n ou seja. a forma de distribuição amostral de médias é. aproximadamente. 12. Isto justifica a relativa confiança nas inferências baseadas nos dados de observações obtidas de uma amostra. qualquer que seja a forma da distribuição populacional da quais as médias foram extraídas (normal ou não). A distribuição amostral de médias aproxima-se de uma curva normal.1. a distribuição amostrai das médias tende para uma distribuição normal com média (igual a média da população) e com desvio padrão σ/√n (desvio padrão da população dividida pela raiz quadrada do tamanho da amostra). mais correta a inferência. As áreas sob a curva de distribuição amostral de média. 2σ/√n e µ 2σ/√n.média e o desvio padrão da DAM e verificar como estes valores se relacionam com os parâmetros da população. Teorema central do limite Pelo Teorema Central do Limite. A média da distribuição amostra! das médias (a "média das médias") é igual 2. 106 . quanto menor a variabilidade mais consistente e reprodutível são os resultados obtidos e. 85 9 = 2. no entanto. 90. a variável observacional precisa ter distribuição normal (na população) e o desconhecido. 86. usando o des O valor de t é a medida do desvio entre a média X. e a média da população. 76.2. n = 9. aleatórias e independentes. 84) apresentam média: 86: desvio padrão: 6. S.28 mg / dL 12.85. pode ser estimado a partir do desvio padrão da amostra. amostra aleatória de tamanho n. conseqüentemente. Gosset) é uma distribuição teórica de probabilidades. 90.12.1 (Capítulo 5: Medidas de posição) onde os valores de glicose dados em mg/dL (90.3. estimada a partir de uma (s x = s / n vio padrão da média como unidade de medidai: t X s/√n µ ) 107 . a equação usada para calcular o desvio padrão da média é: σ/√n é igual ao desvio padrão da população original. introduzida na metodologia estatística para trabalhar com pequenas amostras (n<30). Distribuição t de “student” A distribuição T ou de "student" (pseudônimo de W. O desvio padrão da distribuição amostral de médias é σ raramente é conhecido. Desvio padrão da média (erro padrão da média) É possível estimar o desvio padrão da distribuição amostral de médias a partir de dados fornecidos por uma única amostra. Na prática o s s n s Exemplo 10. 98. 78.1 √n Para o exemplo 5. A aplicação da equação para o cálculo do desvio padrão da média fornece: Sx = s n = 6. Essa estimativa é conhecida como erro padrão da media ou desvio padrão das médias. 82. qualquer que seja o tamanho da amostra. 4.1. a medida que os graus de liberdade diminuem. para distintos valores de graus de liberdade. calculado a partir de amostra formada por um número relativamente pequeno de observações. tem forma de sino e 3. o desvio padrão s tenderá para a. mas por uma família de distribuições. 5. Comparação de duas médias pelo teste t. As curvas t são simétricas em torno da média. praticamente. como no caso da distribuição normal padronizada. porém mais "achatadas". As duas áreas nos dois extremos são chamadas regiões críticas ou zonas de rejeição Vocabulário Distribuição amostral de médias Distribuição t de Student 108 . consequentemente. está nos respectivos denominadores. No denominador de t.3. assemelham-se a curva normal. 2. a distribuição de t é. A variação de t é maior com amostras pequenas. intervalos de confiança para a média populacional. Estimação aos. 2. do que com amostras grandes. entra o desvio padrão s. Uma distribuição t é apropriada para inferências sobre a média sempre quando a for desconhecido e a população normalmente distribuída. pois se trata de um parâmetro geralmente desconhecido. a distribuição t torna-se cada vez mais espalhada em comparação com a norma. A distribuição de t não é descrita por uma distribuição única. Há uma curva t diferente para cada número de graus de liberdade da amostra (n1). Por outro lado. Para amostras com n ≥ 30.A diferença fundamental entre as variáveis t e z. A média é igual a zero. O desvio padrão da população o impõe restrições ao uso de z. O intervalo da variável t é: — ∞ a + ∞. a distribuição normal padronizada. ou que deve ser estimado de uma amostra relativamente grande. a distribuição t aproxima-se da distribuição normal padronizada. Quando n tende para o ∞. A tabela do Anexo D apresenta os valores de t que delimitam as áreas nos dois extremos da curva de distribuição. A distribuição de t tem como principais aplicações: 1. Propriedades da distribuição t de student 1. 12. Distribuição populacional Erro padrão da média Graus de liberdade Teorema central do limite 109 . Escolhe-se ao acaso uma bolinha e observa-se o seu número. Uma urna contém 20 bolinhas numeradas de 1 a 20. Um casal planeja ter 3 filhos. Determine os eventos: a) os 3 são do sexo feminino. Determine os seguintes eventos: a) o número escolhido é ímpar. 3. i) evento E8: números divisores de 7 nos 2 dados.Exercícios Diversos 1. d) o número escolhido é múltiplo de 2 e de 3. qual a probabilidade de a face azul ser sorteda pelo menos uma vez? 7 Um casal planeja ter 3 filhos. d) evento E3: números cuja soma é um número par. b) evento E1 : números cuja soma á igual a 5. Um disco tem uma face branca e a outra azul. b) pelo menos 1 é do sexo masculino. Qual a probabilidade de Antônio descobrir esse número? 110 . f) evento E5: número 2 em pelo menos 1 dos dados. c) o número escolhido é múltiplo de 5. g) o número escolhido é ímpar e múltiplo de 7. f) o número escolhido é par e múltiplo de 3. g) evento E6: números cuja soma é menor que 12. 4 Qual a probabilidade de ocorrer o número 5 no lançamento de um dado? 5 Qual a probabilidade de se obter um número par no lançamento de um dado? 6. e) evento E4: números ímpares nos 2 dados. Qual a probabilidade de os 3 serem do mesmo sexo? 8. considere as faces voltadas para cima e determine a) espaço amostral S. 2. Se o disco for lançado 3 vezes. b) o número escolhido é maior que 15.João lança um dado sem que Antônio veja. João diz que o número mostrado pelo dado é par. h) evento E7: números cuja soma é maior que 12. No lançamento simultâneo de 2 dados. c) evento E2: números iguais. c) os 3 do mesmo sexo. e) o número escolhido é primo. Retiram-se 2 cartas. Escolhida ao acaso uma das pessoas presentes. qual a probabilidade de essa bolinha ter um número múltiplo de 4 ou 3? 16.Uma bola é retirada de um urna que contém bolas coloridas. Determine a probabilidade de a segunda ser um ás. 250 assistem ao canal B e 70 assistem a outros canais. Determine a probabilidade de esse número ser menor que 5.Uma urna tem 10 bolas idênticas. obteve-se o seguinte resultado: 280 pessoas assistem ao canal A. Uma caixa contém 11 bolas numeradas de 1 a 11. Escolhida uma pessoa ao acaso.Um baralho de 12 cartas tem 4 ases. b) ao canal B.9. Calcule a probabilidade de ser 110 milhões. 22 aos clubes A e C. qual a probabilidade de não obtermos a bola número 7 ? 11. qual a probabilidade de se obter o número 3 ou um número ímpar? 17. Sabe-se que a probabilidade de ter sido retirada uma bola vermelha é 5/17. 12. 50 pessoas pertencem a um clube A. 18 aos clubes B e C e 10 pertencem aos 3 clubes. Consultadas 500 pessoas sobre as emissoras de tevê que habitualmente assistem. 14. 10. Retirando-se ao acaso uma bolinha da urna. c) ao canal A ou ao canal B. distintos de A e B. 18. calcule a probabilidade de: a) as bolas serem de cores diferentes. 20 pertencem aos clubes A e B. b) as bolas serem vermelhas.A probabilidade de que a população atual de um país seja de 110 milhões ou mais é de 95%. A probabilidade de ser 110 milhões ou menos é de 8%. sabendo que a primeira é um ás. Uma urna contém 30 bolinhas numeradas de 1 a 30. Calcule a probabilidade de ter sido retirada uma bola que não seja vermelha. Retirando-se uma delas ao acaso. uma após a outra. Retirando-se 2 bolas ao acaso e sem reposição. a probabilidade de ela: a) pertencer aos 3 clubes é 3/5. determine a probabilidade de que ela assista: a) ao canal A. numeradas de 1 a 10. 30 a um clube C. Num grupo. Jogando-se um dado. Uma urna contém 2 bolas brancas e 5 bolas vermelhas. 111 . observa-se que ela tem um número ímpar. Se retirarmos uma bola da urna. 70 pertencem a um clube B. 13. 15. qual é a probabilidade de ele ser médico ou dentista? 20.4. Se pegarmos uma peça qualquer. 4 azuis. Se tirarmos sem reposição 4 bolas desta caixa. Em cada quadrado há a indicação de um número. Sabe-se que a cada mês a probabilidade da mulher engravidar é de 20%. Três moedas são lançadas ao mesmo tempo. Se retirarmos uma única ficha. uma a uma. Qual é a probabilidade dela vir a engravidar somente no quarto mês de tentativas? 24. Se ao acaso alguém escolher uma destas travessas e também ao acaso pegar um dos salgados. 5 fichas azuis e 7 fichas verdes. determinar a probabilidade de que ele seja primo? 21. O jogo de dominó é composto de peças retangulares formadas pela junção de dois quadrados. Escolhido ao acaso um elemento do grupo. Em uma caixa há 2 fichas amarelas. Em uma delas há 3 pastéis e 5 coxinhas. Qual é a probabilidade de as três moedas caírem com a mesma face para cima? 23.b) pertencer somente ao clube C é zero. qual a probabilidade dela possuir ao menos um 3 ou 4 na sua face? 28. c) pertencer a pelo menos dois clubes é de 60%. que variam de nenhuma a seis. Se ele fizer 5 tentativas. 32 enfermeiras e os demais nutricionistas. qual a probabilidade do credor lhe encontrar uma vez em casa? 25. Um casal pretende ter filhos. Uma bola será retirada de uma sacola contendo 5 bolas verdes e 7 bolas amarelas. sendo 60 médicos. Qual a probabilidade desta bola ser verde? 22. 50 dentistas. representado por uma certa quantidade de bolinhas. qual a probabilidade dela ser verde ou amarela? 26. Sobre a mesa há duas travessas. Escolhido ao acaso um elemento do conjunto dos divisores de 30. qual a probabilidade de se ter pegado um pastel? 27. Em uma caixa há 4 bolas verdes. Alguns amigos estão em uma lanchonete. d) não pertencer ao clube B é 40%. De uma reunião participam 200 profissionais. Na outra há 2 coxinhas e 4 pastéis. qual a probabilidade de tirarmos nesta ordem bolas nas cores verde. Um credor está à sua procura. A probabilidade dele encontrá-lo em casa é 0. O número total de combinações possíveis é de 28 peças. 4 vermelhas e 4 brancas. 19. vermelha e branca? 112 . azul. Um departamento de polícia recebe em média 5 solicitações por hora. Qual a probabilidade de receber 2 solicitações numa hora selecionada aleatoriamente? 33. Jogando-se uma moeda honesta. A distribuição Binomial e b. 500 alunos fazem o curso de inglês. Qual é a chance de acertar ao menos 60 questões (use aproximação)? 113 . Qual a probabilidade de obter três números primos em cinco jogadas de um dado? 35. 34. Encontre a probabilidade de mais que uma lâmpada numa amostra aleatória de 30 lâmpadas sejam defeituosas. Qual é a probabilidade de 3 clientes pararem qualquer hora? b. Qual é a probabilidade de 3 clientes ou menos pararem em qualquer hora? c. A experiência passada mostra que 1% das lâmpadas incandescentes produzidas numa fábrica são defeituosas. De uma sacola contendo 15 bolas numeradas de 1 a 15 retira-se uma bola. Sob que condições pode a distribuição de Poisson ser usada como uma aproximação da distribuição Binomial? Por que isto pode ser útil? 32. a) a.29. Selecionando-se um estudante do curso de inglês. qual a probabilidade de obter ao menos quatro caras em cinco jogadas? 36. usando: a. e vai responder as questões por adivinhação. Suponha que você compareça a um exame com 100 questões do tipo verdadeiro-falso. você nada sabe sobre o assunto do exame. c. A distribuição de Poisson. Qual é a probabilidade desta bola ser divisível por 3 ou divisível por 4? 31. qual a probabilidade dele também estar cursando o curso de espanhol? 30. Qual é o valor esperado. A experiência passada indica que um número médio de 6 clientes por hora param para colocar gasolina numa bomba. Em uma escola de idiomas com 2000 alunos. d. e o desvio padrão para esta distribuição? 33. 300 fazem o curso de espanhol e 200 cursam ambos os cursos. a média. Dê a fórmula da distribuição de Poisson e o significado dos vários símbolos. Dê alguns exemplos de quando podemos aplicar a distribuição de Poisson. Qual é a diferença entre as distribuições de Poisson e Binomial? b. a. Escolhidas aleatoriamente seis pessoas. Qual o valor de P(X£4)? 45.37. De três Almeida escolhidos aleatoriamente. Suponha que 2/5 da população tenham sangue tipo 0+. Qual é a probabilidade de a sua medida estar a menos de 2 x 109 centímetros por segundo do verdadeiro valor? Nos Exercícios 17 a 21. Quantas vezes devemos jogar uma moeda para que a probabilidade de aparecerem ao menos duas caras seja superior a 1/2? 38. Seja X uma variável aleatória que representa o número de vezes que a palavra platypus é pronunciada em determinado dia. qual é a probabilidade de ao menos uma ser canhota? 39. Qual é a probabilidade de dois dos próximos três presidentes do Brasil terem nascido em um domingo? 40. Suponha que 10% da população seja de canhotos. Se X é uma variável aleatória de Poisson com parâmetro m = 10. Seja X uma variável aleatória de Poisson com parâmetro m=3. quanto é Pr(X> 1)? 43. qual é a probabilidade de ao menos dois serem mulheres? 42. Escolhidas três pessoas aleatoriamente. Suponha que você está medindo a velocidade da luz. Com auxílio da Tabela Normal. Suponha que 45% dos Almeida no mundo sejam mulheres. seja X uma variável aleatória normal com parâmetros m e s2. quanto é Pr(1 £ X £ 3)? 44. calcule: 114 . qual a probabilidade de quatro delas terem sangue 0+? 41. Suponha que o escore de um estudante no vestibular seja uma variável aleatória selecionada de uma distribuição normal com média 550 e variância 900. qual é a probabilidade de ser admitido? E se o escore mínimo for 540? 47. Se a admissão em certa faculdade exige um escore de 575. representando o número de pessoas que usam um dicionário em uma biblioteca em dado dia. Qual é a probabilidade de a cidade ter menos de 33 polegadas de chuva no próximo ano? Qual é a probabilidade de a cidade ter mais de 38 polegadas de chuva? 46. Os resultados de suas medidas são dados por uma variável aleatória normal cuja média é o verdadeiro valor e cujo desvio-padrão é 5 x 109 centímetros por segundo. Suponha que o índice pluviométrico em uma cidade tenha distribuição normal com média 40 e desvio-padrão 5. Supondo que X tenha distribuição de Poisson com parâmetro m= 1/2. apresentar: a) taxa superior a 110mg/dl de sangue. em 72 semanas.6. Considere um conjunto de n=4 bezerros prestes a nascer. 300 ovos em média. c) taxa entre 90 e 110 mg/dl de sangue. 49. c) entre 290 e 310 ovos. 3. utilizando um diagrama de árvore e considerar os eventos nascer macho e nascer fêmea como equiprováveis. b) Calcule as probabilidades dos seguintes eventos por meio da distribuição de probabilidade construída: i) nascimento de exatamente duas fêmeas. 2. ovos com peso: a) inferior a 58 gramas. com desvio padrão de 5 ovos. Calcule a probabilidade de encontrar. quanto é a? Se m = 0 e P(X < 5) = 0.48. b) superior a 310 ovos. ou 4 bezerros machos 54. 1. quanto é P(|X|> 100)? Se m = 25 e s2 = 100. Construir o espaço amostral considerando os nascimentos de fêmeas e machos. Calcule a probabilidade de uma galinha dessa linhagem produzir.8. quanto é s2? Se m = 73 e s2 = 81. a) Sendo X a ocorrência de fêmeas. quanto é P(5 <X< 10)? Se m = -3 e s2 = 9. e que esta variável (produção de ovos) apresente distribuição aproximadamente Normal. Vamos supor que a taxa normal de glicose no sangue humano seja uma variável aleatória com distribuição normal de média x = 100 mg/dl de sangue e desvio padrão s = 6 mg/dl de sangue. Supondo que o peso médio de ovos de uma certa linhagem de galinhas seja uma variável de distribuição aproximadamente Normal com média de 59 gramas e desvio padrão de 1 grama. e P(X < a) = 0. construa a distribuição de probabilidade de X. b) taxa inferior a 90 mg/dl de sangue. quanto é P(X = 25)? 53. Considere ninhadas de n = 3 filhotes de coelhos. 52. em um período de 72 semanas. Supondo que a probabilidade de nascer um bezerro macho seja p=1/2. 115 . um número: a) inferior a 290 ovos. c) entre 58 e 60 gramas 56. Calcule a probabilidade de um indivíduo com taxa normal de glicose. 55. b) superior a 61 gramas. 57. 50. ii) nascimento de pelo menos um macho. Vamos supor que uma galinha da linhagem Shaver 579 produza. Se m = 0 e s2 = 100. em determinado lote de produção. 51. calcule a probabilidade de se ter 0. Numa lâmina verificou-se que existiam em média 4 bactérias/cm2. incógnita por planta. Qual é a probabilidade de que em uma amostra de tamanho n = 5 plantas. c) Suponha que você faça uma amostragem de 500 ninhadas de 3 filhotes. as 5 não apresentem galhas? 116 . b) a média e variância da variável aleatória X. as probabilidades associadas. Uma plantação de tomate possui em média 2 galhas de M. d) Compare os resultados esperados com os observados. os valores e as probabilidades associadas aos respectivos valores x. iv) nascimento de no máximo uma fêmea. em média. Sendo X a ocorrência de fêmeas e utilizando a distribuição binomial obter: a) a distribuição de probabilidade de X. c) o número esperado (médio) de ninhadas em uma amostra de 1:000 ninhadas de tamanho n = 4 para cada valor da variável aleatória X. ou seja. b) Calcule para cada valor da variável aleatória X.iii) nascimento de pelo menos duas fêmeas. Qual é o modelo probabilístico adequado para modelar a ocorrência de bactérias por cm2. Com base nesta comparação. Qual é a probabilidade de que uma planta amostrada desta população não possua galha? Suponha que o modelo Poisson é apropriado para modelar a ocorrência de galhas de nematóide. supondo que a distribuição espacial segue um padrão aleatório? Em quantos dos 600 quadrados. A lâmina foi subdividida em 600 quadrados de 1 cm2. você espera encontrar com exatamente 1 fêmea? 58. Os dados obtidos foram: Número de doenças (x) Número de anos (Fi) 0 55 1 40 2 17 3 5 4 2 5 1 a) Estime o número médio de doenças /ano. 61. Considere nascimentos de n = 4 filhotes de coelhos de um determinada raça. Um pesquisador da área de zootecnia conseguiu uma série de dados dos últimos 120 anos com o registro do número de uma doença rara em equinos da localidade em que trabalhava. com distribuição binomial. Nesta raça há um distúrbio genético e a probabilidade de nascer fêmea é 5=8. c) Calcule a frequência esperada (em anos) para cada valor da variável aleatória X. em média. 59. Suponha que X possua distribuição de Poisson e que a média amostral é o estimador do parâmetro λ da distribuição Poisson. Em quantos. você pode afirmar que a distribuição de Poisson é adequada para explicar a ocorrência desta doença na região de estudo? Justifique. você espera encontrar no máximo 1 bactéria? Qual é a probabilidade de se encontrar mais de 2 bactérias por centímetro quadrado? Qual é a probabilidade de não encontrar bactérias em um quadrado tomado aleatoriamente destes 600 quadrados? 60. O Departamento de Marketing de uma empresa resolve premiar 4% dos seus vendedores mais eficientes. Faz-se um estudo em uma pequena cidade de 10. Um levantamento das vendas individuais por semana mostrou que elas se distribuíam normalmente com média R$240. a)Qual é a probabilidade de que um atendimento dure menos de 5 minutos? b)E mais do que 9.000 e desvio padrão US$ 8. com uma variância de 25 anos. por dia. Suponha que o tempo necessário para atendimento de clientes em uma central de atendimento telefônico siga uma distribuição normal de média de 8 minutos e desvio padrão de 2 minutos. Qual a probabilidade de que na próxima semana o lucro esteja entre US$ 40.000 e US$ 45. O número de pessoas que almoçam num restaurante suburbano é aproximadamente normal com média de 250 e desvio padrão de 20 pessoas.000. Os balancetes semanais realizados em uma empresa mostraram que o lucro realizado distribui-se normalmente com média US$ 48. Determine a probabilidade de que. Um abatedouro comprará 5000 coelhos e pretende classificá-los de acordo com o peso do seguinte modo: 15% dos mais leves como pequenos. os 50% seguintes como médios. Qual a probabilidade de que o grau de um indivíduo escolhido aleatoriamente esteja: a) entre 500 e 650? b) entre 450 e 600? c) inferior a 300? d) superior a 650? 65. A vida média dos habitantes de um país é de 68 anos. Os resultados têm uma distribuição aproximadamente normal.5 minutos? c)E entre 7 e 10 minutos? d)75% das chamadas telefônicas requerem pelo menos quanto tempo de atendimento? 63. em um dia qualquer.9 kg.00 e desvio 117 .000. os 20% seguintes como grandes e os 15% mais pesados como extras.62. sejam atendidas: (a) menos de 200 pessoas (b) entre 225 e 275 pessoas 66.000 habitantes: a)Quantas pessoas superam os 75 anos? b)Quantos viverão menos de 60 anos? 67. Quais os limites de peso para cada classificação? 64. Os resultados de um exame nacional para estudantes recém-formados apresentarem uma média m = 500 com o desvio padrão s = 100.000? 68. A distribuição dos pesos de coelhos criados numa granja pode muito bem ser representada por uma distribuição Normal. com média 5 kg e desvio padrão 0. 00. quantos litros de cerveja teria que beber ao ano para pertencer aos 5% da população que mais bebe? b) Se você bebe 45 litros de cerveja o que poderia argumentar em sua defesa para não ser considerado um beberrão? c) Quantos litros bebem os 15% da população que mais bebem? 70.5 118 .5 f) Área entre Z = 0 e Z = -2.56 e Z = -0.padrão R$30. a) Se você presume ser um bom bebedor. O consumo médio anual de cerveja dos habitantes de um país é de 59 litros. Trace uma curva normal e sombreie a área desejada obtendo então a informação.5 e Z = 0. Qual o volume mínimo de vendas que um vendedor deve realizar para ser premiado? 69. a) Área à direita de Z = 1 b) Área à esquerda de Z = 1 c) Área entre Z = 0 e Z = 1.5 d) Área entre Z = -0. com uma variância de 36 litros.000. Supõe-se que se distribui segundo uma distribuição normal.2 e) Área entre Z = 0. 2. Tanto na estimação de parâmetros como no teste de hipótese são avaliadas características de uma população ou de populações diferentes. O parâmetro desconhecido de uma população é. No primeiro caso são examinadas duas amostras aleatórias de duas diferentes populações. Listar os prós e os contras na realização de um experimento emparelhado. no segundo. (b) a diferença entre a média de duas populações. com duas amostras obtidas do mesmo grupo antes e depois de um tratamento. Além disso. 119 . A partir dessas informações.1. de hipótese. Computar um intervalo de confiança a partir de um conjunto de dados para (a) a média de uma população. as observações são dependentes pois foram obtidas a partir da mesma população mas em momentos diferentes. é possível decidir se um fato observado é verdadeiro ou provocado pela variação ao acaso. Existem duas grandes áreas da inferência estatística: a estimação de parâmetros e o teste. geralmente. Determinar o tamanho da amostra. As duas abordagens podem ser atingidas de diferentes modos: (1) pela estimação das diferenças nas médias entre um grupo experimental e um grupo controle e (2) pela estimação de diferenças nas médias de um grupo antes e depois de um tratamento. estimado a partir de dados obtidos de amostras. no primeiro caso. O propósito da estatística inferência! é tirar conclusões a partir de dados de amostras baseadas na probabilidade de ocorrência de certo tipo de fenômeno. O valor numérico obtido e uma estimativa do parâmetro. 4. Descrever três modos de estreitar o intervalo de confiança. 13.13 ESTIMAÇÃO ESTATÍSTICA Objetivos 1. 3. no segundo. as observações são independentes. Estimação de parametros populacionais Denomina-se estimação ao procedimento de obtenção de um valor amostral para substituir o respectivo parâmetro. É um valor numérico obtido de computações sobre os dados correspondente. o desvio padrão. Estimação por intervalo. a variância. entre os quais se situa o verdadeiro valor do parâmetro. a média da amostra x é uma estimativa por da amostra usado para estimar o parâmetro populacional ponto da média da população 2. O valor numérico obtido de amostras é uma estimativa do valor numérico do parâmetro populacional. baseada em observações de uma amostra. 13. 120 .2. Por exemplo. no seu interior. em geral.A estimação de um parâmetro populacional (a média. utilizada como indicador do valor do parâmetro populacional desconhecido. Tais estimativas por intervalo são chamadas de intervalo de confiança. é apenas uma estimativa da média "verdadeira" conhecimento da distribuição teórica de z e t pode-se estimar um intervalo ao redor de x da população. Existem dois tipos de estimação de parâmetros de emprego comum na estatística: 1. etc) é realizada a partir de uma estatística (calculada com base em valores observados de amostras) de modo a indicar o valor mais próximo do valor verdadeiro. Estimação por ponto. com um nível de confiança especificado. É um intervalo de valores numéricos possíveis obtidos de computações sobre os dados da amostra que se espera contenha o valor do parâmetro populacional. Entretanto. a partir do que deve conter a verdadeira média populacional . Intervalo de confiança para a média populacional O objetivo dos intervalos de confiança é o de se fazer uma estimativa de um parâmetro populacional. A média x calculada da amostra. Denomina-se estimador uma grandeza. fixado em 95%. A média verdadeira é um parâmetro que na grande maioria das vezes nunca é determinado com absoluta certeza. O intervalo de confiança é delimitado por dois limites numéricos (limites fiduciais). 1. Intervalo de confiança para a média populacional ( ) com o desvio padrão (σ) desconhecido.96). a partir do centro). é possível obter o intervalo de confiança para pequenas amostras quando somente s (e não σ) é conhecido: Intervalo de confiança de (l . Para um intervalo de confiança de 99% emprega-se a fórmula: σ IC % para µ X 2.96σ / n. σ. É possível empregar um intervalo de confiança (1.α de conter a média da população. Para construir o intervalo.2.96 (ou abaixo de Z = -1. e x + 1. geralmente desconhecido.58 foi obtido a partir da Tabela do Anexo C para 99. Desse modo. e utilizada a distribuição t (com n . é dado por: σ IC % para µ X 1.5% de chances que o verdadeiro situe-se acima de Z = 1. é conhecido. No entanto.96 σ/ √n. As equações anteriores para o cálculo do intervalo de confiança são pouco usadas pois dependem do conhecimento do verdadeiro valor de σ. O valor 2. Já foi estabelecido que σ pode ser estimado a partir de s.96 √n Há 95% de chance de estar entre: X IC para µ √n σ O valor 1.% (49.58 √n lado da curva. a partir do centro). é calculado pela O intervalo de confiança de 95% para ji.5% de cada 13.α) 100% para µ X t √ 121 .2. para a media populacional. 1. fórmula: quando o desvio padrão.5% de cada lado da curva. Intervalo de confiança para a média populacional ( ) com o desvio padrão (σ) conhecido O intervalo de confiança associado a um determinado nível de confiança (NC). Há 2. existe 5% de chance que o intervalo não contenha a média da população.13. graus de liberdade) em lugar do valor Z. o desvio padrão da amostra.1.α ) 100% para a média da população que é um intervalo construído a partir de dados amostrais onde existe a probabilidade 1 .2.96 foi obtido a partir da Tabela do Anexo C para 95% (47. do erro da amostra.26 mg/dL % 122 . 76 e 84 mg/dL. Sendo um valor fixo. O valor crítico de t é dado na tabela do Anexo E. com uma tem uma probabilidade de 0.306 x = 86 mg/dL Cálculos: IC para µ 86 2. é utilizado (1 . √n verdadeira se encontra entre os limites calculados. Determinar o intervalo de confiança (IC) de 95% para a média populacional.0. sendo a confiança de 99% d que a média Exemplo 11.05) 100% = 95%.85 √9 86 5.85 mg/dL Valor de t obtido para 8 graus de liberdade (n .26 80. Para um nível de confiança de 99%. estimado. afirma-se.05(8)= 2.7 a 91.1 Dada a amostra de observações da determinação de glicose X: 90. 82. 78. onde t s. que a média verdadeira está no intervalo: s IC % para µ X t ./√n é a margem de erro para o intervalo de confiança e é uma medida Em geral. 98.1 ) e nível de confiança de 95% e t. está ou não está no intervalo Este intervalo é mais amplo.95 de encontrar-se entre os limites não tem probabilidade. √n Não se diz que estimados. 90. confiança de 95%. 86. 90. Nesses casos. o intervalo será: s IC % para µ X t . Especificações n=9 s = 6.306 6.0. constituem dois tratamentos. Deve-se aceitar como norma o fato de duas unidades experimentais nunca serem exatamente iguais. animais etc) que devem receber tratamentos são repartidos por sorteio em duas amostras independentes. massa corpórea. como a uma variação intrínseca das unidades experimentais. Em outras palavras. Duas parcelas de campo. da qual provém a amostra. sexo. com uma confiança de 95%.7 e 91. está dentro desses limites.3. poderá ser atribuída tanto a uma diferença real devido aos efeitos dos tratamentos. 13. Tratamento em estatística. A diferença observada no comportamento de duas unidades experimentais com tratamentos diferentes (grupo experimental e grupo controle). representa qualquer procedimento aplicado em reagente. As diferenças intrínsecas entre os grupos experimentais tendem a mascarar o efeito diferencial dos tratamentos. pacientes com tratamento terapêutico (grupo experimental) comparados com pacientes sem tratamento (grupo controle).2 e uma variância igual a σ /n sua raiz quadrada é o erro padrão da diferença entre duas médias e é descrita como: σ /n A 123 . Assim. A verificação estatística da diferença real entre os tratamentos num experimento exige um número mínimo de repetições ou grupos experimentais por tratamento. variam em sua fertilidade. Muitas vezes.26. há 95% de confiança de que o valor médio da população. mesmo próximas. cujos resultados são medidos e comparados. fatores genéticos. O chamado grupo controle. Dois métodos para a determinação de colesterol no sangue.A média verdadeira está compreendida entre os limites 80. também é tratamento. A partir do teorema central do limite é possível demonstrar que X √ X e normalmente distribuído com média de 1 . hábitos alimentares. esses grupos são identificados como tratamento A para o grupo experimental e tratamento B para o grupo controle. etc. as unidades experimentais (pacientes. Diferentes épocas de semeadura de feijão.. dois pacientes apresentam diferenças. Duas amostras independentes Em muitos estudos biomédicos. idade. constituem tratamentos. denominadas grupo experimental e grupo controle. independentes da aplicação dos tratamentos diferenciais. diferentes dietas para pacientes obesos etc. são tratamentos diferentes. tais como. EP x x A equação denota que as médias são normalmente distribuídas com suas respectivas variância de Enquanto a variância da diferença é a soma das duas variâncias individuais. a partir da media ponderada das variâncias amostrais: Essa equação toma a soma dos quadrados de duas amostras diferentes e as divide pela soma dos graus de liberdade. e. Nesses casos. assim. Após o cálculo de s . s . Esse procedimento fornece uma estimativa não viciada de σ2. mas pode ser estimada a partir da variância obtida dos dados de uma amostra. σ2. s e s Se for seguro pressupor que essas duas variâncias são σ n µ σ n µ σ2. é possível simplificar a equação anterior σ n σ n µ µ z X X A σ2 raramente é conhecida. A equação para o cálculo do escore Z é σ n σ n z X X Em muitos casos. um dado fenômeno é comparado em grupo tratado e um não tratado. geralmente são obtidos duas estimações uma estimativa da variância cm comum. pode-se obter uma estimativa combinada de diferentes de σ2 . O valor de só é necessário para calcular o escore t: t X X 1 n µ 1 n µ 124 . Esse procedimento desloca da distribuição normal para a distribuição t de student. pode-se obter S0 (estimativa combinada do desvio S S n n 1 S n n 2 1 padrão) pela extração da raiz quadrada. é lógico supor que σ = σ . Como os experimentos e os controles são obtidos da mesma população.ou seja. Intervalo de confiança para a estimação da diferença entre duas médias com σ1 e σ2 conhecidos. A equação é a que segue: 1 - 2).96 Intervalo de confiança para a estimação da diferença entre duas médias com σ n σ n σ 1σ 2 desconhecidos Emprega a seguinte equação: IC de 1 100% para µ µ X X t Onde t é o valor correspondente a l .1)]. Intervalo de confiança para a diferença entre duas médias populacionais Após a estimação da diferença entre duas medias populacionais ( diferença. o passo lógico seguinte é o estabelecimento de um intervalo de confiança ao redor da IC % para µ µ X X 1. 13. 1 n 1 n Exemplo 11. Essas fórmulas não fornecerão resultados corretos a menos que os dados tenham sido coletados de amostras aleatórias.1) + (n2 .3.2 A medida do colesterol em 54 vegetarianos e em 51 não-vegetarianos forneceram os seguintes resultados: Vegetarianos 115 125 140 140 160 160 165 170 175 180 215 215 125 140 160 170 180 225 130 145 160 170 180 230 130 145 165 170 180 130 150 165 170 185 130 150 165 170 185 135 150 165 170 185 135 155 165 175 185 140 160 165 175 200 125 .α.1.Graus de liberdade = soma dos graus de liberdade de cada amostra isolada [(n1 . proporção da área central para n1 + n2 -2 graus de liberdades graus de liberdade. 33 Valor de t obtido para (54 .24 =1.33 a 31.07 S2 = 33.87 ) (50) = 29.90 S1 = 25.99 a partir de dados bicaudais é t 0.63(29.005 (103) =2. Especificações: X = 163.1) = 103 graus de liberdade e nível de confiança de 0. Cálculo da estimativa combina do desvio padrão da população: X = 179.57 ± 2.57 + 15.63.67) =16.Não .67 2 2 n 1 n S n 2 1 54 + 51 − 2 b.81 1 1 + 54 51 Desse modo.vegetarianos 105 110 150 160 175 175 190 190 210 210 245 115 165 175 190 210 125 165 180 195 210 125 165 180 200 215 130 170 180 200 220 135 170 180 200 230 145 170 185 200 230 245 170 185 200 240 150 170 190 205 240 Encontrar uma estimativa para 1 - 2 e calcular o intervalo de confiança de 99% para a diferença entre as médias populacionais. Cálculo do intervalo de confiança de 99% para as diferenças das médias populacionais:  1 1  IC de 99% para ( µ1 − µ 2 ) = x1 − x 2 ± t 0.1) + (51 .87 S S n S0 = (25. tem-se uma confiança de 99% que a diferença da média da população para o colesterol em vegetarianos versus não vegetarianos está situada entre 126 .07 )(53) + (33. Cálculos: a. 005  s0 +   n1 n2    = 16. O intervalo de confiança pode ser estreitado por: 1. os não vegetarianos quase certamente têm o colesterol mais elevado que os vegetarianos. em lugar de usar Z = 2. diferentes intervalos de confiança. Primeiro.4. o grupo tratado é usado como o seu próprio controle. Com um número menor de graus de liberdade. No entanto. o valor de t será maior e. produzindo um intervalo de confiança mais estreito. consequentemente. Segundo. Melhorando a precisão pela redução dos erros nas mensurações (ou outros erros não-aleatórios) produzindo assim uma variância menor.33 mg/dL e 31. 2. existem alguns contras. √n S 127 . usar Z = 1. as 13. seriam encontradas diferentes médias. X desvio padrão. o valor Z e o Z σ/ √n . Teste t emparelhado Amostras emparelhadas (ou pareadas) são dados referentes a um mesmo conjunto de indivíduos. Os resultados significam que qualquer que seja a diferença verdadeira. diferentes desvios padrão e. quantidades que afetam os valores do intervalo são o tamanho da amostra.81 mg/dL. tomadas em duas situações diferentes. A expressão para o cálculo do teste t emparelhado é onde: IC % para δ d t . Redução do nível de confiança (por exemplo. Se mais amostras fossem obtidas a partir das mesmas populações do exemplo anterior.1. Essa técnica gera comparações apropriadas pois eliminam-se eventuais fontes de variação de dados. pois permitem estimar um parâmetro desconhecido com erro menor. o intervalo não inclui o valor zero. Em muitos estudos. Aumento no tamanho da amostra. é sacrificada a independência das amostras onde os mesmos itens são medidos. fica-se com a metade dos graus de liberdade que se obteria usando duas amostras independentes. o valor do erro padrão será menor. o intervalo de confiança será mais amplo.96 para 95% de confiança). Com a redução da variabilidade. 3. já que os resultados do experimento provêm dos mesmos indivíduos. Intervalos de confiança estreitos são de grande valor na realização de estimativas. Como o observado para intervalo de confiança para uma média populacional. consequentemente.58 para uma confiança de 99%. Como os dois limites de confiança são positivos. Para a comprovação desse fenômeno é necessário empregar o teste t. Cálculo de Sd (desvio padrão das diferenças) que é uma estimativa de δ o desvio 128 .d = média das diferenças emparelhadas sd = desvio padrão das diferenças δ = diferença Exemplo 11. números de pares-1 ) Nível de confiança = 95% Valor critico de t para o teste bicaudal t0.7 mg/dL (média das emparelhadas) é uma estimativa de δ (delta) – padrão das diferenças populacionais: a.3 Para determinar o intervalo de confiança da diferença de resultados pareados da medida de glicose no plasma e no soro foi usada uma amostra de 10 indivíduos normais.05(9) = ± 2. Qual o intervalo de confiança da diferença na avaliação de glicose no plasma e no soro para um nível de confiança de 95%'? n 1 2 3 4 5 6 7 8 9 10 Plasma (x1) 96 81 100 92 103 85 94 97 104 90 Totais Soro (x2) 94 79 97 92 100 86 93 93 103 88 ( d = x1 – x2) 2 2 3 0 3 -1 1 4 1 2 17 d 4 4 9 0 9 1 1 16 1 4 49 2 Especificações: n = 10 (número de pares) GL = 9(10. Os resultados apresentados na tabela abaixo são em mg/dL.1. Σdi = 17 Σdi2 = 49 Cálculos: d = 17/10 = 1. 262 a média das diferenças populacionais. a σ2 deve ser estimada.57 √25 para δ 1. O valor n é obtido a partir da equação: n Onde.5. isto é. da glicose no plasma e no soro. Vocabulário 129 . Sendo assim.b. A partir de uma amostra piloto ou preliminar obtida da população.96 para um nível de confiança de 95%). Determinação do tamanho da amostra A determinação do número de observações de uma amostra.7 0. em geral. σ variância estimada A fórmula requer o conhecimento da variância a σ2 no entanto esse valor.62 IC % 1.99 mg/dL nem maior que 2. 2. Zδ d Z = valor de Z (ex. Cálculo do intervalo de confiança de 95% para δ: S 49 17 10 10 1 d 1. Â estimativa da σ2 pode estar disponível a partir de estudos prévios ou similares. A estimativa amostral de δ é d = 1.7 mg/dL e indica a diferença entre a medida 1.41 mg/dL para um nível de confiança de 95%. deve ser realizada antes do início da cólera de dados. A variância calculada a partir dessa amostra pode ser empregada como uma estimativa de σ2. O número de repetições a usar numa investigação. Os resultados sugerem que essa diferença não é menor que 0..49 .7 2. d=X2 (diferença considerada significativa no estudo a ser realizado). um experimento desnecessariamente grande representa um desperdício de tempo e de material.: 1.41 13.71 t 0. Uma investigação com poucas observações pode falhar na descoberta de uma diferença importante. é desconhecido.99 √n S 2. A estimação da σ2 é pode ser realizada de dois modos diferentes: 1. 8 e 55 = 121. os intervalos de confiança estreitam-se ou ampliam-se? 11. Calcular intervalos de confiança para os seguintes tamanhos amostrais: 36. com s1 = 50. Qual é o intervalo de confiança de 95% para a diferença nas médias do colesterol sérico entre homens c mulheres? B. X2 : =71. B. e 45 mulheres. 11. O teor de colesterol sérico de 25 homens com idades entre 65-74 c 236. Obter um intervalo de confiança de 95% para 49 e 64. Calcular o intervalo de confiança de 99% para a u1 .9 e S = 144. Para 25 mulheres da mesma idade. X = 74.1 A medida da hemoglobina em homens adultos normais é 15 g/dL com desvio padrão d = 2 g/dL.2 entre homens e mulheres. Qual é o intervalo de confiança de 99%° 130 . a média é 262. A. Com o aumento do tamanho das amostras. e interpretar. Especificações: 38 Homens. com s2 = 49. C. A.3. Para um grupo de 25 homens com certo tipo de ocupação foi encontrada hemoglobina de 16 g/dL.2.Duas amostras independentes Erro padrão da diferença Erro padrão da média Estimativa combinada da variância Estimativa por intervalo Estimativa por ponto Intervalo de confiança Teste t emparelhado Exercícios 11. Para avaliar a precisão de uma balança de laboratório. O peso dos ovos de certa raça de galinha tem distribuição normal. se a balança é 131 . Considere uma caixa desses ovos como uma AAS de tamanho 12 da população de todos os ovos.Exercicios diversos 1. pesa-se repetidas vezes um objeto padrão de peso conhecido igual a 10 gramas. As leituras da balança têm distribuição normal com média desconhecida (essa média é 10 gramas. com média de 65 gramas e desvio padrão de 5 gramas. Qual a probabilidade de que o peso de uma embalagem caia entre 750 g e 825 g?. 2. 0023 gramas. A e B. Cidade Num entrevistados Num. com relação a um determinado projeto. construa um int. obteve-se a tabela abaixo.04 da proporção da população. dentre as quais 131 causadas por intoxicação alimentícia. 4. (a) Que tamanho de amostra é necessário? 132 . em uma margem de erro de ±0. Utilize o Int.01. a) com os dados amostrais.000 habitantes. com coeficiente de 95% (interprete o resultado). Quantas observações ou medidas devem entrar no cálculo da média. Se a amostra de tamanho 300 forneceu 100 indivíduos que consomem o dado produto.0002 grama. em que o erro da estimativa não supere 0. Numa pesquisa sobre a opinião dos moradores de duas cidades. Admita um nível de confiança de 95%. determine: a) o intervalo de confiança de p. Você acha que esse dado poderia ser utilizado para melhorar a estimativa do tamanho da amostra? Como? 6. a proporção de pessoas que consomem o produto. Suponha que estejamos interessados em estimar a porcentagem de consumidores de certo produto. A pesquisa de votos almeja ter 90% de confiança de uma previsão correta. favoráveis A 400 180 B 600 350 5. Sabe-se que o desvio padrão das leituras é 0. confiança para avaliar a diferença entre os percentuais de favoráveis nas duas cidades. determine o tamanho da amostra necessário para estimar a proporção de mortes por intoxicação em uma cidade. Um estudo de saúde envolve 1000 mortes selecionadas aleatoriamente.0001 de erro com 95% de confiança? 3. a fim de que se obtenha uma margem de ±0. de confiança de 99% para a proporção de mortes causadas por intoxicação. c) Sabe-se que a cidade tem cerca de 250. Estabeleça um intervalo de 95% de confiança para a média de repetidas pesagens do objeto. Uma pesquisa de opinião visa a calcular a proporção de eleitores que irão votar no candidato democrata em uma campanha presidencial americana. b) o tamanho da amostra para que o erro da estimativa não exceda a 2% com probabilidade de 95% (interprete o resultado). b) utilizando os dados amostrais como estudo piloto. Pesa-se o objeto 5 vezes e o resultado médio é 10.equilibrada). Em um estudo da utilização da hipnose para aliviar a dor. 96. construa o intervalo de confiança de 95% para a taxa sensorial média da população da qual se extraiu a amostra. (a) Que tamanho de amostra é necessário se a agência quiser ter 90% de confiança de estar correta num intervalo de ±5 minutos? (b) Se for desejado um nível de 99% de confiança. Vol.0 10.3 8.4 7.4 6. Journai of Abnonnal Psvchologv. O auditor decide que a taxa máxima de erro tolerável permitida é de 5%. No. que atende a uma das principais estações de rádio. que tamanho de amostra é necessário? 9.6 8. 8. (a) Que tamanho de amostra é necessário para atingir uma precisão de amostra de ±2%.7 11. 133 .(b) Se a pesquisa de opinião visa a ter 95% de confiança. Uma agência de propaganda.7 6.6.2 7. 18 não estavam apropriados para consumo devido aos níveis de poluição do ambiente. por Price e Barber.8 6. 10. o desvio padrão é calculado em 45 minutos. gostaria de calcular a quantidade média de tempo que a audiência gasta diariamente ouvindo radio.5 8.3 8.9 Nota: considere o desvio padrão 1.03. que tamanho de amostra é necessário? 7. Um teste de auditoria. Com esses dados amostrais.2 6.1 5. A partir de estudos do passado. obtiveram-se as taxas sensoriais para 16 indivíduos.3 8. está para ser feito. que tamanho de amostra é necessário? Se ela almeja ter 95% de confiança e um erro de amostragem de ±0. Dentre 100 peixes capturados num certo lago. Construa um intervalo de confiança de 99% para a correspondente verdadeira proporção.0 9. para estabelecer com que freqüência ocorrem falhas no processamento de determinado procedimento de controle interno. com os resultados dados a seguir (com base em dados de “An Analysis of Factors That Contribute to the Efficacy of Hypnotic Analgesia”. com 99% de confiança? (qual seria sua resposta em (a) se a taxa máxima tolerável de erro fosse 10%? 8. 1). 1 cm com probabilidade de ao menos 95%? 15. 26.0 Determinar um intervalo de confiança para a média desta população com confianças de: (13. 89. Admita também que nada se sabe sobre a percentagem de residências sintonizadas para qualquer show de TV após 11 horas da noite.2. 25. para que ao estimarmos a média do índice cefálico.6. Um antropólogo considera que o índice cefálico de índios de certa tribo é uma variável aleatória normal com desvio-padrão de 3. A polícia rodoviária fez recentemente uma pesquisa sobre as velocidades desenvolvidas na rodovia no período de 2 a 4 horas da madrugada. 87. 28. obteve-se a seguinte amostra: 27. 84. 83.11.25. 14. (a) Suponha que Velocidade é uma variável aleatória com distribuição normal e construa um intervalo de confiança em coeficiente de confiança de 98% para a velocidade média (b) Qual o erro máximo associado ao intervalo calculado na parte (a)? 134 .5. De uma distribuição normal com variância 2.1) 95% (13. 92. No período das observações 120 carros passaram por um aparelho de radar a uma velocidade média de 70 km/h com desvio-padrão de 15 km/h. 90. (b) Determine uma estimativa da média populacional e do correspondente erro amostral? (c) Determine um intervalo de confiança de 95% para a média desta população.2) 99% 13. 12.4 cm. De uma população normalmente distribuída foi extraída uma aas de n = 10 que apresentou os valores abaixo: 4 8 12 5 7 9 10 11 6 8 (a) Determine uma estimativa da variância populacional. Quantas residências com TV a Nielsen deve pesquisar para estimar a percentagem das que estão sintonizadas no programa Jô Soares Onze e Meia? Adote a margem de 95% de confiança em que sua percentagem amostral tenha uma margem de erro de dois pontos percentuais. (b) Qual o tamanho da amostra necessário.1 e 25. 91. (a) Baseado em uma amostra de 8 observações: 85. obtenha um intervalo de confiança ao nível de 96% de confiança para o índice cefálico médio. o erro cometido não seja superior a 0. TESTES DE HIPÓTESES Objetivos 135 .(c) A suposição da normalidade na parte (a) é importante? Justifique. 14. Hipótese de nulidade ou nula. Explicar o significado do nível de significância. é possível formular alguma hipótese sobre a mesma. Explicar o significado da hipótese nula e hipótese alternativa 3. 14. pelos estatísticos. As hipóteses feitas pelos pesquisadores são transformadas. Ainda que desconhecidas as características descritivas da população. 5. chamando-se esse processo de inferência estatística. 4. Uma hipótese estatística é uma afirmação qualquer sobre os parâmetros (média. As médias são iguais (H0: = 0 136 . variância.1. 2. desvio padrão ou coeficiente de variação). para que possam ser submetidas aos testes. 8 Explicar o significado do valor P. Explicar o significado e a relação dos dois tipos de erro no teste de hipótese. 1 Descrever e explicar a execução de um teste de hipótese. Objetiva a estimação dos parâmetros da população. é chamado de teste de hipóteses. mediana. O raciocínio se faz do particular para o gerai. Distinguir entre “estatisticamente significante” e “cientificamente importante” 7. é a de caracterizar a população com base nas informações obtidas a partir da amostra dessa população. Nesse capítulo. as hipóteses se referem as médias das populações. através de fatos observados em amostras apropriadas. H0 (agá-zero). Para ter valor científico. de uma distribuição de probabilidades. as hipóteses estatísticas precisam ser postas à prova. Definir significância e estatística. Existem sempre duas hipóteses em testes: 1.1. em hipóteses estatísticas. Distinguir entre um teste caudal e bicaudal 6. O mecanismo de comprovação para verificar se um pressuposto é verdadeiro ou não. Hipótese estatística A situação em que normalmente se encontra o investigador. pode ser maior A diferença obtida na comparação entre as médias é grande demais para ser explicada apenas pelo erro amostral. HA (agá-a). as duas médias são extraídas da ou HA: mesma população. a regra de decisão está sujeita a dois tipos de erro: 1. Quando se rejeita a hipótese h0. A hipótese representada por H0: = 0 (hipótese de nulidade) estipula que a média 0. a diferença observada é geralmente atribuída a uma variação de amostragem (variação ao acaso). É 137 . inconclusiva. ≠ o. 14. Ho. Aceitar a hipótese de nulidade. em geral. As médias são diferentes (HA: ≠ 0 0 ≠ 0). Rejeitar a hipótese H0. Uma diferença atribuída à variação de amostragem é considerada. Concluir que ou maior ou menor do que o.ou H0: - 0 = 0). tira-se uma das duas conclusões: 1. cuja probabilidade máxima de ocorrência permitida é representada por α . qualquer diferença observada entre as médias é considerada como uma ocorrência casual e não representa uma real diferença entre as médias populacionais. Erros de decisão Uma vez formulada a hipótese e realizado o respectivo teste estatístico.2.. Em outros termos. 2. Nesse caso. Ou seja. H0 Quando houver evidencia suficiente para duvidar de sua validade. 2. comete-se um erro do tipo I.Em outras palavras. Rejeitar a hipótese de nulidade. sendo ela verdadeira. Quando não houver evidência suficiente para duvidar de sua validade e concluir que = o. Hipótese alternativa. A demonstração de uma diferença real satisfaz normalmente ao objetivo visado num experimento. 14. de uma população é igual a uma constante especificada Essa hipótese vai ser posta à prova por meio de um teste estatístico.3. as duas médias não são extraídas da mesma população. Quando a hipótese não é rejeitada. a diferença é atribuída a uma real diferença o entre dois procedimentos em estudo. Regra de decisão As regras de decisão são critérios para a aceitação ou rejeição da hipótese de nulidade a partir do resultado de um teste estatístico. Diante do resultado do teste. Somente há certeza quanto à veracidade ou à falsidade. Não rejeitar a hipótese H0. 2. sendo ela falsa. Existe. sendo ela verdadeira. Se os fatos registrados na amostra estipularem a aceitação da hipótese. populações e não apenas produto de erro amostral. A especificação da probabilidade máxima de cometer erro tipo I (rejeitar a hipótese H0 sendo ela verdadeira) é denominado nível de significando sendo designado por a. µ .aceita como verdadeira uma diferença que não existe e que. Não estatisticamente significante. certo ou falso.05 (5%) e 0. uma diferença que não foi reconhecida. rejeitada pois o valor calculado do teste a partir da amostra não é compatível com o valor estabelecido. na realidade. A hipótese é meramente um postulado. observado representa uma real diferença entre as 2. a metodologia estatística oferece a alternativa de medir o erro provável de uma decisão a partir de dados obtidos em amostras. Isto indica que o desvio X µ . cuja probabilidade máxima de ocorrência permitida é representada por β. Nesses casos.muitas variáveis ou muitos subgrupos sendo comparados entre si. Igualmente. 138 . de uma hipótese. se deve à variabilidade das amostras. Estatisticamente significante. Probabilidade dos erros de decisão As conclusões baseadas em testes em amostras estão sempre acompanhadas de incerteza. 14. Os erros do tipo l ocorrem em função de pequenas amostras e muitas análises . Na impossibilidade prática de estudar toda a população. Mas. a rejeição de uma hipótese verdadeira ou a aceitação de uma hipótese falsa constituem erro de decisão. a diferença entre os grupos ( e 0) pode ser: 1. A hipótese de nulidade não é rejeitada quando o desvio entre o resultado amostral e o correspondente valor populacional ocorre pela variação amostral. sendo ela falsa. será correta a decisão para rejeitar a hipótese. de fato.01 (1%) como valores para α Uma vez efetuado o teste estatístico. Ocorrem devido a pequenas amostras e de grande variabilidade das mesmas. comete-se um erro tipo II.4. a variação dos dados amostrais (ao acaso) não é a explicação provável para o desvio entre o valor amostral e o Assim. a decisão será correta. É quando a hipótese de nulidade é. o desvio X correspondente valor populacional estabelecido pela hipótese de nulidade. examinando-se toda a população. São frequentemente empregados 0. 1. ou a probabilidade com que a hipótese alternativa pode ser aceita com confiança. menor o poder do teste de hipótese. Tabela 12. A tabela 12. Para decidir se uma diferença entre duas medias é significante ou não. o: é fixado e o poder da prova é tornado máximo pelo aumento do tamanho da amostra. Para contornar essa dificuldade.β). O valor P . é necessário um método que teste as hipóteses formuladas para um determinado nível de significância estabelecido. a diferença entre os grupos é testada pêlos níveis de significância clássicos. No entanto. que é a probabilidade de rejeitar uma Ho quando ela é falsa e a hipótese verdadeira é HA. está-se aceitando uma chance de 10% de deixar de reconhecer uma diferença que realmente existe.1 Conseqüências de decisões em teste de hipóteses Decisão Aceitação da H0 Rejeição da H0 Realidade Hipótese nula verdadeira (1 –α) Decisão correta (1 .) Hipótese nula falsa Erro do tipo II (erroβ) Decisão correia (l – β) Denomina-se poder do teste de hipótese o valor (1 . quanto menor o α. O poder detecta. De fato um estudo é "poderoso'" se ele tem grande probabilidade de detectar diferenças nos tratamentos que são realmente diferentes. está associado à região de rejeição de H0).pode ser explicado pelo acaso e não representa uma real diferença.5.que varia de 0 a 1 - 139 . os testes de hipóteses são também chamados testes de significância. pode existir o interesse em correr o menor risco possível de cometer um erro tipo I garantindo ao mesmo tempo um poder razoável ao teste de hipótese. ou seja. 14.α) Erro do tipo I (erro α. uma diferença real. assim. Quando se aceita um erro beta de 0. E possível também determinar a probabilidade de ocorrência do erro tipo I (a) após a aplicação do teste estatístico através do valor P (valor crítico amostral). Por esses motivos. como exposto acima. Valor P Após a realização de um experimento. nível esse que representa a probabilidade com que a hipótese de nulidade pode ser rejeitada com confiança.1 resume a distinção entre os tipos de erro I e II e as conseqüências possíveis de decisões na realização do testes de hipótese. Desse modo. baseado nas conseqüências dos erros do tipo I e tipo II. enquanto o valor a é escolhido previamente. ou seja. O valor P é calculado a partir dos dados obtidos em um estudo. Por exemplo: Suponha que o medicamento A foi testado em 100. abaixo do qual a diferença encontrada é considerada estatisticamente significante. com pouca chance de ser causada pela variabilidade das amostras. quando P ≤ α rejeita-se a hipótese de nulidade. O resultado "não estatisticamente significante" (P ≥ α) não comprova a veracidade da hipótese de nulidade. 140 . a diferença encontrada é significante. portanto.0 mm de Mg. um valor P = 0.6. diferente de zero) em 1. Isto tem relevância clínica já que foi estatisticamente significante? A resposta e não. O valor P e a estão intimamente relacionados. O α é o limiar do valor P. convencionalmente P ≤ 0. Quando P > 0. Assim. O valor P é o resultado observado após o término do estudo e é baseado nos resultados observados. Deve-se. Dessa forma.05 aceita-se a hipótese de nulidade. pois a redução de 1. Significância estatística versus importância científica A expressão "estatisticamente significante" não deve ser entendida como "cientificamente importante".05 (ou qualquer outro valor escolhido para α ) e H0 não é rejeitada não prova que H0 seja correta. Isto indica somente que a probabilidade não é suficientemente baixa para rejeitála.000 indivíduos e comprovou-se que o mesmo reduz efetivamente a pressão arterial de qualquer hipertenso de forma estatisticamente significante (ou seja. os resultados são "inconclusivos" até que alguma outra evidência seja obtida. Quando P > 0.representa o grau de compatibilidade existente entre os dados observados e a hipótese nula.05. isto sim. levar em consideração o tamanho da diferença que está sendo avaliada.0 mm de Hg não representa um efeito importante apesar de ser estatisticamente significante. Desse modo. em um teste estetístico com um nível de significância α = 0. Só permite afirmar que os resultados não forneceram evidências suficientes para pôr em dúvida a validade de H0 isto é.021 representa que tem-se uma probabilidade igual a 2. 14. Para alguns testes são apresentados os valores de P já calculados em tabelas.05. É calculado empregando-se programas estatísticos para computador.1% de que observações como as encontradas sejam devidas ao acaso (variabilidade das amostras) e. uma nova droga interessaria apenas se sua ação for melhor que a do grupo controle. A escolha entre um teste unicaudal ou bicaudal deve ser realizada antes da obtenção dos dados amostrais. Nessa situação. há interesse apenas no caso em que o efeito de um tratamento experimental seja maior (ou menor) que o efeito de outro tratamento. Por exemplo. portanto. a escolha não é influenciada pêlos dados coletados. porém. mesmo pequenas diferenças serão significativas estatisticamente. é permissível formular uma hipótese alternativa HA: nova droga é maior que 0 > 0. os dados são tão imprecisos que é arriscado afirmar que a diferença se deva a alguma causa. o teste pode não rejeitar a hipótese de nulidade. pois o erro amostral é muito elevado. 14. obtidos a partir de uma amostra muito pequena (n<10). mesmo que não sejam cientificamente importantes.7. Com amostras pequenas é comum que ocorra o oposto.Para testar a hipótese trabalha-se apenas com um lado da curva da distribuição Teórica da estatística no leste . então. 0 ou se deve considerar apenas a probabilidade de ser maior (ou Cauda esquerda = 0 < 0 Teste unicaudal Cauda direita = 0 > 0 bicaudal = 0 ≠ 0 Quando o teste de hipótese é unicaudal o valor P é obtido a partir de tabelas estatísticas bicaudais cujos valores são. 14. Isto é.8. A zona de rejeição α é transferida para um lado só da curva. a ação da da nova droga padrão. desse modo. Ou seja. Esse é o teste unicaudal (ou unilateral). mesmo existindo uma grande diferença entre os resultados de dois grupos. Em certas situações. mas está associado à certeza da decisão estatística.em grandes amostras. Muitas vezes. O termo significante não é sinônimo de importante. pode ser Nesse caso. Testes unicaudal e bicaudal Ao rejeitar a hipótese de nulidade conclui-se que a maior ou menor do que o verdadeiro valor populacional 0 ≠ 0 e. Execução do teste de hipótese 141 . os afastamentos em ambas as direções são considerados e o teste é bicaudal (ou bilateral). O pesquisador deve definir se é importante considerar a probabilidade geral de ser diferente de menor) que Decisão Não significante Significante 0. divididos por 2. F ou x2. a estimativa por ponto de . teste t. existe uma probabilidade de 0. teste F ou teste x2-. então H0: = 0. 0 representa uma contradição.isto é. Para os testes unicaudais as hipóteses são: H0 ≤ 0 e HA: > 0. Isto é. o padrão estatístico especificado para rejeitar a hipótese nula. se a hipótese formulada foi de nulidade ou de contradição. há sempre interesse em que a mesma seja rejeitada pelo teste. o erro de decisão do tipo I.01) deve ser parte integrante do planejamento do estudo.o pesquisador submete os dados de sua amostra a um teste de hipóteses. Normalmente a hipótese de nulidade satisfaz essa condição. Especificar o nível de significância de α . são calculadas dos dados de observações 142 . isto é. Para os testes bicaudais o nível de significância é α/2 em cada cauda. Por exemplo. sempre na suposição de ser a hipótese verdadeira. Em geral não se especifica (3. Escolher o teste. estatisticamente significantes . A aplicação segue as seguintes etapas: 1. A hipótese deve ser formulada de modo a representar uma contradição ao efeito procurado. Essa especificação (a = 0. X. ≠ ≥ 0. a probabilidade do erro de decisão do tipo II.O teste de hipótese (teste de significância) sempre se refere a uma hipótese de nulidade. seja maior do que ser maior ou menor do que 0. O teste deve ser adequado ao material sob investigação os tipos de variável e seus níveis de medida. t.01) de rejeitar a hipótese nula sendo a mesma verdadeira (erro tipo I). A rejeição da hipótese ensejará a decisão desejada. Para decidir por uma das hipóteses . Nesse caso. ou H0: 0 2. ou não são. Para nível de significância de 5% (ou 1%). a que será adotada no caso de rejeição de H0 será HA: podendo e HA: < 0.05 (ou 0. Dependendo das pressuposições e da hipótese formulada. A hipótese alternativa. Dentre as duas hipóteses estatísticas envolvidas a hipótese nula é a hipótese testada. para decidir se as médias na população são. desde que isto é.05 ou a = 0. 3. o que mais deve preocupar é a rejeição de uma hipótese verdadeira. Formular a hipótese de nulidade e a hipótese alternativa. o teste a escolher será um dos seguintes: teste z. As estatísticas z. havendo interesse em demonstrar que menor que 0 0 é maior ou (testes bicaudais). 5. Se os valores estiverem localizados na zona de rejeição. deve ser verificada na respectiva tabela de distribuição teórica.colhidos no experimento. A média de partículas suspensas no ar em determinada comunidade. Verificar a probabilidade. a hipótese de nulidade é então. a hipótese nula é rejeitada e a hipótese alternativa (HA) aceita. evitando sempre que possível o emprego de terminologia estatística. ultrapassou 30 unidades por metro cúbico em outubro? B. elaborar a hipótese nula (H0) e a hipótese alternativa (HA): A. Elaborar a decisão em termos de material estudado.1. A área média transversal do lúmem das artérias coronárias em homens entre 40-59 anos é menor que 31. Quando o valor observado da estatística obtida pela aplicação do teste for igual ou menor do que o valor crítico da tabela para o nível de significância escolhido. A probabilidade de ocorrência aleatória da estatística calculada.5% da área total transversal? C. não rejeitada. Para cada uma das questões abaixo. Concluir. O nível médio de hemoglobina de um grupo de trabalhadores de altas altitudes é diferente de 16 g/dL? 143 . maiores do que os encontrados na tabela. 4. Vocabulário Erro tipo I Falso negativo Hipótese alternativa Poder do teste Teste bicaudal Erro tipo II falso positivo hipótese nula Significância estatística valor P Exercícios 12. 1. Quando o valor da média da amostra estiver determinado. Fundamento dos testes de significância Em um teste de significância.15 TESTES PARA A COMPARAÇÃO ENTRE DUAS MÉDIAS Objetivos 1. O valor hipotético é rejeitado somente se o resultado da amostra for claramente improvável de ocorrer quando a hipótese for verdadeira. 2. Listar os prós e os contras da realização de um “experimento antes e depois”. parâmetro suposto (média populacional hipotética. no caso de a população ser normalmente distribuída e o ser conhecido. 4.05 (5%) os valores críticos de Z para um teste bicaudal são + 1. 3. Para um nível de significância de α = 0. inicia-se com um valor suposto (hipotético) de um parâmetro da população (por exemplo. 15. aceita-se ou rejeita-se o aleatória. A distribuição normal de probabilidades pode ser utilizada para testar um valor hipotético da média da população (a) quando n ≥ 30. 5% no máximo corresponde a região de significância (rejeição da hipótese 144 . compara-se a estatística da amostra.96. Depois de coletar uma amostra ).). Então. Em lugar de estabelecer valores críticos em termos da média da amostra como tal. ou (b) quando n < 30. de modo a poder ser comparado com os valores críticos de Z (v. devido ao teorema do limite central.05 o intervalo de desvios não-significantes corresponde a 95% das diferenças amostrais e. Para variáveis com distribuição normal de probabilidades são considerados nãosignificantes os desvios representados por valores ao redor da média populacional (aceitação da hipótese de nulidade). ele será transformado para um valor de Z. em conseqüência. Determinar quando usar o teste z e quando usar o teste t. para um nível de significância a = 0. a média. com o valor hipotético como sendo correto. Por exemplo. os valores críticos nos testes de hipótese são tipicamente especificados em termos de valores Z. adiante). Determinar o tamanho da amostra necessária para uma variável a um deter4minado nível de exatidão. tal como a média amostral. Determinar se a diferença entre duas médias é estatisticamente significante tanto para médias de amostras dependentes como independentes. . 96)(2.001 (0. Um desvio será significante se estiver a uma distância inferior ou superior ao número de desvios padrão em relação à média. Em testes bicaudais.050 (5%) 0.5%).de nulidade). Essas áreas são definidas pelo valor de Z ± 1. 145 .5% das diferenças médias amostrais (50% 47.05 implica em rejeitar a hipótese de nulidade somente no caso de haver 5 possibilidades em 100 de que a diferença amostral encontrada deve-se apenas à ação do acaso (erro de amostragem).1%) Z (numero de unidade de desvios padrão a partir da média) 1.2.96 2.96 unidades de desvios padrão em ambas as direções demarcam 2.5% = 2. 15. Teste do valor da média A partir da distribuição de probabilidade da variável na amostra l e da distribuição de probabilidade correspondente na amostra 2 é possível se calcular a distribuição de probabilidade da diferença entre médias das duas amostras. o valor 1.96 (região de rejeição) (1.24 2.005 (0.81 3. Os níveis de significância podem ser estabelecidos para qualquer grau de probabilidade.29 Por exemplo.5%) 0. somente 5% situam-se além de 1.96 unidades de desvios padrão contados a partir das média (zero).96 e +1.5% + 2.5% = 5%).58 2. Os valores críticos de z α α mais usados em testes de hipótese bicaudais são: Nível de significância 0. Ou seja. a adoção do nível de significância a = 0.025 (2.010 (1%) 0. Para determinar a porcentagem da freqüência total associada aos 1.5%) 0.96 unidades de desvios padrão contados a partir de zero. 95% das diferenças amostrais caem entre -1.96 unidades de desvios padrão examina-se a tabela de distribuição normal padronizada (anexo C). a fórmula geral a para o teste estatístico é aplicável para testar a hipótese de que a média valor particular 0 é igual a um ( H0 : = 0): Estatística do teste = Media amostral – média alegada Desvio padrão da média 15. 146 . é possível encontrar a área sob a curva da distribuição normal padronizada – após calcular o escore Z para as médias amostrais.3. A equação para Z é: Z= Onde x−µ σ/ n x = média calculada a partir de uma amostra da população µ = média das médias ( que corresponde à verdadeira média populacional) σ / n = erro padrão da média (estimativa do desvio padrão da distribuição amostral de médias. µ . σ / n . e desvio padrão. Se as médias x de amostras aleatórias de tamanho n são variáveis aleatórias com distribuição normal de média.Para séries de números extraídos de distribuições normais.Comparação entre a média de uma amostra e a média da população ( σ 2 conhecido) É possível solucionar problemas relativos à significância de uma diferença entre uma média amostral e uma média populacional. 36 que é no máximo 2 (0. Uma amostra aleatória de n = 100. A partir do resultado do teste estatístico pode-se afirmar que a probabilidade de obter uma média amostral de 54.5 . de modo da poder ser comparado com os valores críticos de Z.55 3. Região crítica: A partir da distribuição Z (tabela do Anexo C) é encontrado para um teste bicaudal ( α /2 = 0. ou seja. (como o valor 3. As duas médias são iguais para um nível de significância α = 0.002.0.05" pois a probabilidade de sua ocorrência ao acaso é menor que 0.96).A partir dessa fórmula é possível transformar a média da amostra para um valor Z.96: Como o valor calculado Z = 3. rejeita-se a hipótese nula. Os valores críticos de Z são encontrados na tabela da distribuição normal padronizada (anexo C).36 147 .85 ou maior em qualquer direção (acima ou abaixo de = 53) é menor que 0.4990) = 2 (0. Exercício 13. portanto.001) = 0. que a amostra é proveniente da população com média de 53 anos e.05.5. aceita-se a hipótese alternativa que a amostra é proveniente de uma população com média diferente de 53 anos. apresentou média x =54.002.86 anos.1 A idade média de uma população é µ = 53 anos com desvio padrão σ =5. Esse valor é designado P e é obtido pela soma da área além de Z = + 3.36 15.4.05? Especificações: H0 µ =53 versus HA: µ ≠ 53 Nível de significância α = 0.85 5.36 cai dentro da região crítica (além dos valores críticos + 1.05 Teste estatístico: Z X1 σ/√n µ 54.025) o valor Z = ± 1.85 0. Esse resultado é considerado "significaste ao nível α = 0.5/√100 53 1. No exemplo acima. ou HA. = 53) é muito pequena. nota-se que o teste está baseado no quanto a média da amostra se ajusta na estimação do parâmetro ( Se H0. maior será o valor calculado de t. Esse (este equação já descrita no capítulo 10 é: permite estabelecer se a diferença entre as médias tem significância estatística). É evidente que. o maior valor da tabela.não aparece na tabela C.4990 correspondente a 3. isto e.09. que a diferença X seja pequena. emprega-se a área 0. enquanto P elevados a evidência ê vigorosa na falsidade de HA. por não Quando um resultado do cálculo apresenta uma diferença com significância s/√n µ pertencer à população de médias com parâmetro µ . e verdadeira.. seja estatístico . Essa probabilidade é medida pelo valor P. Teste t O teste t é um teste de significância estatística empregado na análise para a comparação de duas médias amostrais (frequentemente grupos tratamento e controle) ou da diferença da média de uma amostra em relação a um parâmetro especificado.pode-se estimar a probabilidade que esse teste fornece evidências contra a 15. pode-se esperar grande. está acompanhada de risco. decide-se que o resultado estatisticamente significante quando o valor P é menor que o valor do nível de significância o escolhido para definir a região critica.002 indica que a probabilidade de selecionar ao acaso uma média > 3.computado no teste suposição realizada pela H0.05 ou 0. espera-se que X . Pela comparação da diferença X . Especificamente.002. em geral como qualquer conclusão estatística. quanto maior essa diferença. Pelo exame de onde o teste estatístico cai na distribuição amostral do Z ou t calculado.. Deve ser lembrado que amostras invulgares. O valor P de 0. Para P pequeno. relativa ao erro padrão . com desvios significantes. as evidências são fortes que H0 é falsa.5. 148 . X . A probabilidade do erro de decisão é da ordem de 0. Se a HA é verdadeira.01. menor que 0. Essa conclusão. A t X estatística conclui-se pela rejeição da média X (t cai na região de rejeição). é possível obter a probabilidade do desfecho e confirmar H0.36 erros padrão acima ou abaixo da média da população ( . podem ocorrer por pura obra do acaso. As duas áreas nos dois extremos são chamadas regiões críticas ou regiões de rejeição A figura 13. porém obtidos em momentos distintos.025) dos dois extremos da curva.2. é dito significante. 3. à direita.262.: drogas x placebos. não estão situados na região de rejeição. Os valores de t. para distintos valores de graus de liberdade.05. 4. O emprego do teste t em amostras pequenas pressupõe que a variável observacional apresente distribuição normal na população. valores de . correspondem a valores de t > 2.025 ou 2.262 ≤ t < 2.1 ilustra a distribuição teórica de t para 9 graus de liberdade. (alfa) é a freqüência relativa da região de rejeição delimitada pelo valor de t. A área sombreada em ambos os lados da curva. casos x controles etc. O t teórico é representado simbolicamente por t α (GL) em que α . Amostras devem ser aleatórias (casuais).262. e valores de t < -2. à esquerda.262 estão na região de rejeição 0.95 ou 95%. 2.262.05 ou 5%. quando se situa na região de rejeição 5%. Um valor calculado de t. GL os graus de liberdade da distribuição. As variáveis devem pertencer ao nível de mensuração intervalar ou de razão.Os requisitos para o uso do teste t como teste de significância dados a seguir devem ser observados para evitar confusões e falsas conclusões: 1. diz-se que valores de t maiores que 2. 149 . estão representados na abscissa.5% da freqüência total. Esses têm uma freqüência relativa de 0. dada pela soma das freqüências relativas (0. e. Em ambos os casos a freqüência relativa é de 0. Um t que não se situa numa região de rejeição é chamado não significante. enquanto que os situados na região de rejeição tem uma freqüência relativa de 0. A tabela do Anexo D apresenta os valores de t que delimitam as áreas nos dois extremos da curva de distribuição. Possibilita a comparação entre duas médias de amostras (aleatórias) independentes ou a comparação entre médias de dois conjuntos de dados relativos a mesma amostra.025 + 0. Quando se despreza o sinal (positivo ou negativo) de t e se considera o seu valor absoluto. Pelo mesmo critério. Ex. por certo. e o valor o padrão pré-estabelecido o teste do desvio X - t X A diferença entre o novo procedimento e o procedimento padrão terá significância estatística aos níveis de probabilidade 0. estatística caso contrário.005 (n-1) respectivamente. atribuível a modificação do procedimento.Figura 13. a experiência adquirida com um material em um procedimento quaisquer. quando t calculado for maior que os valores teóricos dados na tabela. permite estabelecer um valor padrão para a média. para t0.6. Curva de distribuição de t. mas apresentará. ou se nada mais é do que o resultado de uma variação de amostragem. Nessas condições. Comparação entre a média de uma amostra ea média da população Em certos trabalhos de pesquisa. No caso de diferença real o desvio X o significando.01 (1/100). o desvio será atribuído à variação da amostragem. Quando se dispõe da média X.05 ou 0. 15.05 (ou uma vez em 20 investigações similares) ou 0. de n observações de uma amostra. é dado por: 150 .01. A média X das observações xi dessa amostra representa uma terá diferença real. um desvio em relação ao padrão pré-estabelecido. há interesse em verificar se o desvio observado X 0 tratado com um procedimento novo. O erro de conclusão será de 0. s/√n µ o. Suponha-se agora uma amostra de observações obtida com o mesmo material.1. capítulo 6): S ∑X ∑X n n 1 66940 9 774 9 1 66940 8 66564 6.90.) e um determinado valor específico ( 0).306 Cálculos: Média da amostra X 90 86 78 90 98 9 90 82 76 84 86 mg/dL Desvio padrão da amostra (v. 86.1 = 9 . Exemplo 13.Hipóteses bicaudais com referência à média.1): 8 Valor crítico de t0.2 Dada a amostra de observação da determinação de glicose X: 90. H0 : H0 : = ≠ 0 0 GL.05. 82 mg/dL. 78.85 Valor de t: 151 . = ± 2. Especificações: H0: 1 = 75 mg/dL HA: 1 ≠ 75 mg/dL N=9 Graus de liberdade (n .05(8). Para teste tem-se: set ≥ t α a H0 é rejeitada. Determinar a probabilidade de essa amostra pertencer a uma população cuja média é 75 mg/dL para α = 0. Empregam-se a hipótese nula e a hipótese alternativa para realizar a comparação entre a média da população ( . o t calculado se encontra na região de rejeição da hipótese de nulidade. Um analista B determinou 6 vezes a glicose pelo mesmo método. para demonstrar que duas amostras são extraídas de uma mesma população devese provar que tanto as médias quanto as variâncias dessas amostras não diferem significantemente. Isto porque.7. HA : o nível de significância de 0. Desse modo. ou seja.82 é significante. Os resultados são 152 .t X s/√n µ 6. Os resultados amostrais não pertencem a população cuja média é 75 mg/dL.28 O valor calculado t = 4. a de que a amostra analisada estima uma media diferente da especificada. Nesse caso em lugar de considerar a diferença entre as duas variâncias. 1 ≠ 0 para Conclusão: o resultado é estatisticamente significante. por ser maior que o t crítico t05 (8)= 2.05 (5%). O teste de comparação entre duas variâncias é utilizado para determinar se duas amostras (A e B) possuem variabilidades semelhantes ou variabilidades diferentes. aceita-se a hipótese alternativa. se σ / σ = 1.85/√9 86 75 11 1.3 ∑ X n X 1 ou S ∑X n ∑X n 1 Empregando uma amostra de soro analista A determinou 9 vezes a glicose. qual seja. Portanto. As hipóteses propostas são: HA: σ / σ > 1 H0: σ / σ = 1 Sabe que a estimativa da variância e dada pela formula: S Exemplo 13. Ou seja. Duas amostras extraídas de uma mesma população apresentam as médias e as variâncias que não diferem significantemente entre si.306 dado na tabela do Anexo D. fazse o quociente entre elas. Comparação entre duas variãncias testes de Fisher (F) Sabe-se que uma população com distribuição normal é definida pela média e pelo desvio padrão (ou variância). Muitas vezes é necessário pôr à prova a hipótese de igualdade entre duas variâncias.82 2. 15. 588 6561 7569 7569 7396 7225 7056 510 43.69. 9 774 9 1 66588 8 66564 3 5. não existe evidencia de que as variâncias dos dois analistas sejam diferentes.73 é menor o F critico ao nível de significância de 0.05? Analista A 86 88 85 83 88 87 86 84 87 774 Analista B 81 87 87 86 85 84 7396 7744 7225 6869 7744 7569 7396 7056 7569 66. 153 .376 Hipóteses: H : H : Calculo das variâncias: S S S S 1 1 S S ∑ ∑ n n ∑X n 1 ∑X n 1 F 66588 43376 510 43376 43350 6 6 1 5 Variância maior Variância menor .2 = 1. pois. Existe variação entre os analistas para um nível de significância de 0. o valor calculado de F = t1.73 O valor de F dado na tabela (Anexo E) para 5 graus de liberdade (6 1-5) do numerador e 8 graus de liberdade (9-1=8) do denominador é 3.fornecidos a seguir em mg/dL. Conclusão: a hipótese H0 não é rejeitada. Portanto.05 encontrado na tabela. Ou simultaneamente pelas duas razões.9. Comparação entre as medias de duas amostras independentes Aqui também são comparadas duas médias sendo que. Houve efeito do hormônio sobre o peso da crista para α = 0. Denomina-se hemocedásicas quando as variâncias de duas populações são iguais e heterocedásicas quando as variâncias são diferentes. o valor de t com 2n-2 graus de liberdade é calculado pela fórmula: t X terá significância estatística quando t calculado for maior do que t critico da tabela. de tal modo que a dispersão dos dados permanece inalterada. nj = n2. dois grupos de 11 pintos. 15. ou seja. quando comparado o tratamento A com o B. segundo a tabela abaixo. A comparação de duas séries de dados independentes que não tenham distribuição normal deve ser realizado pelo teste de Mann Whitney um teste nãoparamétrico (ver capitulo 18).4 De um lote de pintos machos de um dia foram formados. para nA + nB -2 graus de liberdade. as variáveis xA e xB devem ter distribuição normal ou aproximadamente normal. o efeito altera uniformemente os valores. Após 15 dias determinou-se o peso da crista de cada pinto. pois se H0 for rejeitada fica-se na dúvida se o foi por diferença entre as médias. por diferença entre as variâncias. respectivamente) S n S Exemplo 13. = n. 15. nesse caso. Os pintos foram identificados e mantidos juntos numa mesma criadeira.8. tanto as médias como o desvio padrão da população são desconhecidos. O primeiro grupo foi tratado com o hormônio testosterona e o segundo grupo não recebeu tratamento. Caso contrário. por sorteio. Duas amostras de mesmo tamanho Quando os tamanhos das amostras são iguais. ou seja.05 ou 0.Sem essa hipótese auxiliar não é possível tirar conclusões sobre a prova realizada.01? 154 .01). ou para 20 -2 graus de liberdade quando nA = nB = n para o α especificado (0. a diferença não é significante. A diferença X X (média da primeira e da segunda amostra. Para a aplicação do teste t para amostras independentes. É importante também que as variâncias populacionais sejam iguais. 067 111.01 Graus de liberdade = 20 (soma dos graus de liberdade de cada amostra isolada) Valor crítico de t0.45 41 41 12.329 53 2.400 101 10.845 nA = nB = n = 11 Cálculo da média de cada amostra: X = 1067/11 = 97 X = 616/11 =56 Cálculo da variância de cada amostra: S 111971 S 1138489 11 11 1 379456 42244 11 11 1 111971 42244 10 10 34496 103499 774.689 104 10.924 1.2 97 11 56 774.38 155 .169 117 13.249 120 14.624 118 13.809 68 4.8 847.024 96 9.249 32 1.8 147.244 Especificações H0: H0: 1 1 = ≠ 2 2 α = 0.921 30 900 82 6.971 Sem hormônios X X 89 7.769 119 14.500 39 1.01(20) = ± 2.2 Cálculo do valor de t: t X S n X S 847.201 137 18.521 22 484 57 3.816 73 5.14 3.724 50 2.744 616 42.216 31 961 88 7.Com hormônios X X 57 3. A significância estatística das diferenças X t O denominador da fórmula acima é o erro padrão da diferença entre as médias das amostras e depende do conhecimento da variância da população. Não raro ocorre que amostras diferem quanto ao tamanho. aos 15 dias de idade. é necessário encontrar um modo de atribuir peso adequado à influência de cada amostra.38) é maior do que o da tabela para a α = 0. Essa dificuldade é contornada mediante a designação de n1 ao número de repetições da primeira amostra e por n2 o número de repetições da segunda amostra e de cujos dados são calculadas as médias x A e x B . pelo emprego da fórmula: σ σ .003. Conclusão: a administração de harmônio aumentou o peso da crista dos pintos.O t calculado (3.01 e 20 graus de liberdade (2. Duas amostras de tamanhos diferentes Prefere-se. a diferença é significante. empregar o mesmo número n de dados para a amostra. S e S . suplementar que elas são iguais a um valor comum σ σ 2 s X 1 n X 1 n X é dada por: Quando as variâncias são desconhecidas é necessário fazer uma hipótese estimativa combinada de σ realizada pelo cálculo da mídia ponderada das variâncias das duas amostras estudadas. respectivamente. portanto.5 156 . Valor de P = 0.10.845). Para que seja possível fazer comparações entre amostras de tamanhos diferentes. 15. em geral. A obtenção da S = variância da primeira amostra nA = tamanho da primeira amostra S n S = variância da seguinte amostra nB = tamanho da segunda amostra 1 S n n n 2 1 S Exemplo 13. 45 157 .05).Deseja-se saber se a resistência de cabos de aço é influenciada por dois diferentes processos de fabricação (α = 0.05 Graus de liberdade = 10 (soma dos graus de liberdade de cada amostra isolada).5 7 7 1 6 419 n n 2 1 S 5 3. as cargas máximas registradas para os cabos foram as seguintes.228 Cálculo da média de cada amostra: X = 45/5 = 9 t X .5 7 1 5. Postos a prova no laboratório.5 5.79/7 = 11.25 Cálculo da média ponderada das variâncias: S n S 1 3. Valor crítico de t0. Cinco cabos foram manufaturados pelo processo l.25 5 7 2 4.3 t Cálculo da variância de cada amostra: S n n S 2025 419 405 5 5 1 4 6241 923 923 291. e sete pelo processo 2.05 (10). = ± 2. em toneladas: X 9 6 10 9 11 45 X 81 36 100 81 121 419 X 14 10 9 13 12 13 8 79 X 196 100 81 169 144 169 64 923 Especificações: H0: µ1 = µ 0 H1: µ1 ≠ µ 0 nA = 5 nB = 7 α = 0. 85 O t calculado (1. Experimentos laboratoriais repetidos. calcula a diferença entre cada conjunto de pares e analisa as diferenças portanto que observados os seguintes pressupostos: • • Os pares devem ser selecionados ao acaso de uma grande população (ou no mínimo representativa de uma grande população). O teste t que compara dois grupos emparelhados. O emparelhamento entre os valores da coluna A e os da coluna B devem ser baseados no projeto experimental e decidido antes dos dados serem coletados. Quando os indivíduos são recrutados como pares. deve-se usar vários pares.t S X 1 n X 1 n 1 4. Em cada par os dois tratamentos são sorteados sobre os mesmos membros do par. enquanto o outro não (ou recebe um tratamento alternativo). Valor de P = 0.05 e 10 graus de liberdade (2. 158 . da variação devida a diferenças entre grupos. 15. Quando houver uma razão lógica para que dois tratamentos sejam aplicados cm pares homogêneos de unidades experimentais.55 5 9. a diferença não é significante. • • Quando medir uma variável em gêmeos ou pares criança/pais.0 11.097 Conclusão: os testes de laboratório não forneceram suficiente evidência para diferenciar os dois processos de fabricação de cabos de aço.228): portanto. Comparação entre médias de duas amostras emparelhadas Os testes t descritos anteriormente não distinguem a variação entre indivíduos. A análise emparelhada é apropriada para: • • Quando a variável em cada indivíduo é medida antes e depois de uma intervenção (ex. As amostras devem ser emparelhadas.85) c menor do que o t crítico da tabela para a = 0. Um dos pares recebe uma intervenção.: peso antes e depois de um regime). os grupos devem ser pareados e tratados por teste t específico. As repetições tendem a contrabalançar as diferenças individuais e evidenciar o efeito real dos tratamentos em estudo. emparelhados por variáveis como idade ou diagnóstico. Como os membros do par nunca são exatamente iguais por razões intrínsecas ou ambientais introduzidas no curso do experimento.11.3 1 7 1. deve-se empregar o teste de Wilcoxon um teste não-paramétrico para dados emparelhados (ver capítulo 15). Σd /n em que Σdi e a soma algébrica das diferenças e n é o número de pares ou repetições e não o número total de indivíduos ou observações. geralmente resulta em grande melhora na eficiência estatística. a diferença não é significante. O exemplo a seguir é de um teste t emparelhado bicaudal. Os resultados apresentados na tabela abaixo são em mg/dL. não são empregados os Calcula-se a média das diferenças d dados originais mas as diferenças (d1) entre as observações numéricas x de cada par. Caso contrário. A diferença média é também dada por d dos tratamentos l e 2 cm comparação.• • Cada par deve ser selecionado independentemente dos outros.01) e o ntratamentos. A distribuição das diferenças na população deve se aproximar de uma distribuição normal. Deseja-se saber: houve diferença na determinação de glicose no plasma e no soro para α = 0. Se a distribuição das diferenças na população não for normal. Conclui-se então que há uma real diferença entre os dois (sj) obtida pelo parcamente. A hipótese nula ( d = 0) é testada por: t das diferenças) é dado por: onde sd/ n é o erro padrão da diferença média: o cálculo de sd (desvio padrão s /√n d X X a diferença das médias do que o tα da tabela para um nível de significância estabelecido (a = 0. a redução da variabilidade A diferença média d terá significância estatística quando o t calculado for maior S ∑ d n d 1 ∑d n ∑d n 1 1 graus de liberdade. Na análise estatística de comparações emparelhadas. Apesar do reduzido número de graus de liberdade.05 ou 0. Exemplo 13.6 Comparação da diferença de resultados pareados da determinação de glicose no plasma e no soro era uma amostra de 10 indivíduos normais.05? 159 . 49 160 .N 1 2 3 4 5 6 7 8 9 10 Plasma (xi) 96 81 100 92 103 85 94 97 104 90 Totais Soro (x2) 94 79 97 92 100 86 93 93 103 88 (d = x1 – x2) 2 2 3 0 3 -1 1 4 1 2 17 d2 4 4 9 0 9 1 1 16 1 4 49 Especificações.49 √10 1.05 n = 10 Graus de liberdade (número de pares .471 n 17 10 1 3.t) = 9 Valor critico de t0.05 (9) = ± 2. H0 : d =0 HA : d ≠ 0 α = 0.7 rag/dL (média das diferenças emparelhadas) ∑ d = 49 Σdi = 17 S t ∑d d S √n n ∑d n 1 49 1.7 1.7 0.262 Observações: d = 17/10 = 1.597 1. rejeita-se a hipótese H0. um experimento desnecessariamente grande representa um desperdício de tempo e de material. s diferente Distribuição normal das diferenças Distribui não gaussiana Distribuição não gausiana Teste Teste t não emparelhado Teste t de Welch Teste t emparelhado Teste de Mann-Whitney Teste de Wilcoxon 15. O objetivo é atingido quando.0058. Resumo da aplicação de testes para comparar duas séries de dado Dados Não emparelhados Não emparelhados Emparelhados Não emparelhados Emparelhados Distribuição normal. Tamanho da amostra A determinação do número de observações de uma amostra.Para 9 graus de liberdade e a = 0. para assinalar uma diferença estatisticamente significante entre as médias de dois grupos. isto é. o número de repetições a usar numa investigação.597) é maior do que o t critico da tabela. t For maior do que t α especificado.262. Uma investigação com poucas observações pode falhar na descoberta de uma diferença importante.05. Seja no caso da determinação do número n de observações necessárias. pode-se calcular n para um tα especificado: n 2 X st X 161 . s iguais Distribuição normal.13. o valor de t na tabela é 2. 15. Como o t calculado (3. em cada um de dois grupos independentes. é um problema que sempre se apresenta na fase do planejamento dos estudos. Conclusão: existe diferença na determinação da glicose no plasma e no soro. X S X X X 2S /n X Quando se especifica a diferença entre as médias a ser testada e se conhece por experiência prévia (levantamento "piloto'") a variância s2 .12. Valor P = 0. mais uniformes no aumento de peso.(100)(X Substituindo s por (100) S/X = C. isto é. por Os valores de C e D. É interessante assinalar aqui o efeito da heterogeneidade do material experimental ou das unidades experimentais. começando com um valor n qualquer e achando na tabela o valor t α para n-1 graus de liberdade. o coeficiente de variação em %. reduz a 1/4 o número de repetições necessárias. e X X )/ X = D . O valor final de n é determinado por tentativas.7 Qual o número de pintos a usar por grupo. A equação simplifica-se para n = 8(C/D)2. Nessas condições: n = 10(20/10). O valor de t α varia em função de n. A redução do coeficiente de variação à metade. são conhecidos. Para fins práticos.05. Vocabulário Desvio padrão da média Estimação de parâmetros populacionais Estimação por intervalo Teste para amostras independentes Tamanho da amostra Teste emparelhado 162 . Para maior segurança sugere-se a equação n = 10 (C/D)2. O uso de pintos com um coeficiente de variação igual a 10%. a diferença entre as médias em % da média geral obtém-se: n 2 Ct D X . diminuiria de 40 para 10 o número de pintos necessários por grupo. quando α = 0. t pode ser igualado a 2.= (10) (4) = 40. na comparação de duas rações. Exemplo 13. Antecipa-se um coeficiente de variação para ganhos de peso C = 20%. A segurança dessa estimativa de n é de 50%. o atributo a medir sendo o aumento de peso? O teste deverá acusar significância estatística quando a diferença entre as duas médias é D = 10%. sobre o número de repetições a usar numa investigação. Um mínimo de 40 pintos deverá ser usado em cada grupo. pode ser satisfatória ou não. 706 Existe uma diferença estatisticamente significante na determinação do colesterol entre o lab 1 e o lab 2 para a = 0.606 682. Amostras de sangue de dez pessoas foram enviadas a dois laboratórios para a determinação de colesterol. Realizar o teste não escolhido em A e comparar o resultado com o obtido em B.316 Lab2 318 287 260 279 245 249 294 271 264 285 2.2. A. C. que voluntariamente participaram de uma pesquisa sobre o consumo diário máximo de álcool no mês anterior. 163 . O que foi observado? 13. Os resultados foram: Colesterol sérico 9 (mg/dL) Individuo 1 2 3 4 5 6 7 8 9 10 Σx 2 ΣX Lab 1 296 268 244 272 240 244 282 254 244 262 2.Estimação por ponto Teste T Exercícios 13. Um estudo foi conduzido utilizando 139 acadêmicos.1. B Realizar o teste escolhido em A e responder a questão. A Qual o teste a ser usado: teste t para duas amostras independentes ou teste t para amostras paredas? B.01.750 760. existe diferenças entre homens e mulheres quanto a quantidade máxima de álcool ingerida diariamente no mês anterior? Quantidade máxima diária de álcool consumida no ultimo mês (Carey & Correia. Qual é o valor calculado de t? E.9 N = 54 Mulheres Média = 5. 164 . Qual e o valor citico para = 0.6 S = 5.Baseado nos dados da tabela seguinte. 1997). Calcular o intervalo de confiança de 95%.2 S = 5.05? C. Quais as conclusões? F.7 N = 85 A. Escrever a hipótese nula e a hipótese alternativa usando a notação estatística correta. Esses grupos são independentes ou dependentes? Explicar? D. B. Homens Média = 8. Exercícios diversos 1. Pretende-se lançar uma moeda 5 vezes e rejeitar a hipótese de que a moeda é nãotendenciosa, isto é, pretende-se rejeitar Ho: π = 0,50, se em 5 (cinco) jogadas ocorrerem 5 coroas ou 5 caras. Qual é a probabilidade de se cometer erro do tipo I? 2. Você suspeita que um dado é viciado, isto é, você suspeita que a probabilidade de obter face 6 é maior do que 1/6. Você decide testar a hipótese de que o dado é nãoviciado, jogando-o cinco vezes e rejeitando essa hipótese se ocorrer a face 6 (seis), 4 ou 5 vezes. Qual o nível de significância do teste? 3. Uma urna contém 6 fichas, das quais θ são brancas e 6 - θ são pretas. Para testar a hipótese de nulidade de que θ = 3, contra a alternativa de que θ ≠ 3, são retiradas 2 (duas) fichas da urna ao acaso e sem reposição. Rejeita-se a hipótese nula se as duas fichas forem da mesma cor. (a) Determine P(Erro do Tipo I). (b) Determine o poder do teste para os diferentes valores de θ. (c) Considere, agora, que a segunda ficha é retirada após a reposição da primeira. Calcule, novamente, o nível de significância e os valores do poder do teste. (d). Compare os dois procedimentos (com e sem reposição da segunda ficha retirada). Qual a conclusão? 165 4. Para decidirmos se os habitantes de uma ilha são descendentes da civilização A ou B, iremos proceder da seguinte forma: (i) Selecionamos uma amostra aleatória de 100 moradores adultos da ilha e determinamos a altura média; (ii) Se a altura média for superior a 176 cm, diremos que os habitantes são descendentes de B, caso contrário, admitiremos que são descendentes de A. Os parâmetros das duas civilizações são: A: µA = 175 cm e σA = 10 cm e B: µB = 177 cm e σB = 10 cm. Define-se ainda: erro do tipo I como sendo “dizer que os habitantes são descendentes de B quando, na realidade, são de A” e erro do tipo II “dizer que os habitantes são de A quando, na realidade, são descendentes de B”. (a) Qual a probabilidade de erro do tipo I e do tipo II? (b) Se σA = σB = 5, como ficariam os valores dos erros do tipo I e II? (c) Qual deve ser a regra de decisão se quisermos fixar a a probabilidade de Erro I em 5%. Qual a probabilidade de erro II neste caso? (d) Quais as probabilidades de Erro II, se as médias forem: µA = 178 e se µB = 180? 5. Fazendo o teste H0: µ = 1150 (σ = 150) contra H1: µ = 1200 (σ = 200) e com n = 100, estabeleceuse a seguinte região crítica: RC = [1170, +∞). (a) Qual a probabilidade α de rejeitar H0 quando verdadeira? (b) Qual a probabilidade β de Aceitar H0 quando H1 é verdadeira? 6. Numa linha de produção é importante que o tempo gasto numa determinada operação não varie muito de empregado para empregado. Em operários bem treinados a variabilidade fica em 100 u2. A empresa colocou 11 novos funcionários para trabalhar na linha de produção, supostamente bem treinados, e observou os seguintes valores, em segundos: 125 135 115 120 150 130 125 145 125 140 130 Testar se a tempo despendido por estes funcionários pode ser considerado mais variável do que os demais funcionários. Utilize 5% de significância. 7. Diversas políticas, em relação às filiais de uma rede de supermercados, estão associadas ao gasto médio dos clientes em cada compra. Deseja-se comparar estes parâmetros de duas novas filiais, através de duas amostras de 50 clientes,selecionados ao acaso, de cada uma das novas filiais. As médias obtidas foram 62 e 71 unidades 166 monetárias. Supondo que os desvios padrões sejam idênticos e iguais a 20 um, teste a hipótese de que o gasto médio dos clientes não é o mesmo nas duas filiais. Utilize uma significância de 2,5%? 8. Em dois anos consecutivos foi feito um levantamento de mercado sobre a preferência dos consumidores pelo por um determinado produto. No primeiro ano o produto era anunciado com freqüência semanal nos veículos de comunicação e no segundo ano com freqüência mensal. No levantamento foram utilizados duas amostras independentes de 400 consumidores cada. No primeiro ano o percentual de compradores ficou em 33% e no segundo ano em 29%. Considerando o nível de significância de 5%, teste a hipótese de que a freqüência do anúncio tem influência na manutenção da fatia de mercado. 9. Para verificar se uma moeda é honesta, com base em 20 lançamentos independentes, adotamos o seguinte critério: consideramos a moeda não honesta se o resultado for menor do que 7 ou maior do que 13. (a) Formule esse problema como um problema de teste de hipóteses. (b) Quais são os significados dos erros tipo I e II? (c) Qual é o nível de significância do teste? 10. No ano de 2003 foi feita uma pesquisa em uma estância turística e constatou-se que apenas 60% dos visitantes estavam satisfeitos com a infraestrutura oferecida. Com o intuito de aumentar essa proporção a prefeitura fez algumas melhorias na cidade e depois de um ano, resolveu verificar se as mesmas produziram o efeito desejado. Para isso entrevistou 50 turistas. (a) Formule esse problema como um problema de teste de hipóteses. (b) Quais são os significados dos erros tipo I e tipo II? (c) Qual é a região crítica associada a um nível de significância de 10%. (d) Se 37 dos 50 turistas entrevistados estavam satisfeitos com a infraestrutura oferecida, qual é asua conclusão? 11. A marca Z de um produto é responsável por 50% das vendas desse produto em um supermercado. Uma campanha promocional foi contratada e os promotores garantem que a marca Z passará a ser responsável por uma porcentagem maior das vendas. O dono do supermercado propõe entrevistar alguns clientes após o encerramento da campanha promocional e perguntar a cada um deles se ele usualmente compra a marca 167 Z do produto.Sendo p a porcentagem de vendas do produto Z após a campanha (a) Estabeleça as hipóteses apropriadas. (b) Quais são os significados dos erros tipo I e tipo II para o problema? (c) Se entre 18 clientes entrevistados, 12 responderam sim, qual é a sua conclusão com base no nível descritivo? (d) Se entre 324 clientes entrevistados, 178 responderam sim, qual é a sua conclusão com base no nível descritivo? 12. Com o objetivo de testar uma hipótese H0 contra a hipótese alternativa Ha, um pesquisador fixou as probabilidades de erros de 1ª e 2ª espécies, respectivamente, em 5% e 10%. Realizado o teste, imaginem-se 2 situações diferentes: Em A: O pesquisador rejeitou a hipótese de nulidade Em B: O pesquisador não rejeitou a hipótese de nulidade. Para cada situação (A e B) assinale a alternativa correta e justifique. a) O pesquisador certamente estará cometendo um erro cuja probabilidade de ocorrência é igual a 5%; b) O pesquisador certamente estará cometendo um erro cuja probabilidade de ocorrência é igual a 10%; c) Se o pesquisador estiver cometendo um erro, a probabilidade de ocorrência associada a este erro é de 15%; d) Se o pesquisador estiver cometendo um erro, a probabilidade de ocorrência associada a este erro é de 10%; e) Se o pesquisador estiver cometendo um erro, a probabilidade de ocorrência associada a este erro é de 5%. 12. A resistência ao resfriado comum em uma dada indústria, durante o inverno, é de p=0,60. Foi proposto um tratamento preventivo com a finalidade de aumentar a resistência ao resfriado para p=0,70. Então: a) formule as hipóteses. b) fixando a= 0,05 (ou valor mais próximo) e admitindo ter sido sorteada uma amostra de tamanho n=20, observou-se que 4 operários ficaram resfriados. Nestas condições, qual é a conclusão quanto à eficiência do medicamento? 168 acompanhou-se uma amostra de 30 doentes durante um ano.13. ao nível de significância de 1% (ou mais próximo) diga se concorda com as autoridades sanitárias que consideraram a situação dentro do esperado. Certa comunidade apresentou em um período de vários anos coeficiente de incidência da doença X de 12 por 10. o conselho de medicina decide promover um experimento para avaliar a eficácia do tratamento. a incidência foi de 70 casos e a população estimada foi igual a 50. cinco deles haviam morrido. 1 2 3 4 5 6 7 8 9 10 11 1 2 13 14 15 16 169 . em seu experimento você observasse na amostra média de 28 ton/ha e variância de 12 ( ton / ha ) 2 . Teste a hipótese de que a prevalência é semelhante à descrita na literatura de 10%.. A produtividade de uma fazenda é uma variável aleatória normalmente distribuída. em comparação com a espécie tradicional. Uma nova espécie de trigo desenvolvida em laboratórios será testada quanto a sua produtividade. Fixe o erro de 1º espécie em um a=10%. Os resultados foram: ind.000 habitantes. Qual seria o seu parecer sobre a nova espécie se. Nesta amostra detectaram-se 20 doentes. Nestas condições. Para se estimar a letalidade da doença B. Testar a hipótese de que essa letalidade é igual a 20%. selecionou-se uma amostra aleatória de 500 pessoas. 17. Desejando-se conhecer o coeficiente de prevalência de determinada doença na cidade A. Um deles recebe o novo método e o outro o método tradicional. Dados do governo revelam que a produtividade média de lavouras que se utilizam da espécie tradicional é de 25 ton/ha.000 hab. 14. Anotou-se a variação de peso de cada indivíduo após o final do tratamento. Trinta e dois voluntários são divididos em 2 grupos de igual tamanho. recebendo cada grupo um tratamento diferente. Em 1999. Um novo método de emagrecimento é anunciado como o fim das gordurinhas a mais que perseguem a parcela mais abonada da sociedade. Dezesseis fazendas foram preparadas para a avaliação da nova espécie. Preocupado com a seriedade profissional dos responsáveis pelo uso do método. 15. Após esse período. (Fixando a=5%) 16. é claro).0 8. Qual dos tratamentos voce recomendaria que fosse utilizado? 170 .2 3. mas apenas na sua média.3 39. quanto a variação com o tratamento tradicional sejam variáveis aleatórias com distribuições normais. Um novo método de aprendizagem foi testado através do seguinte experimento.2 3 35. então.a. Anotou-se.0 4 39. Os resultados foram: Turma1-método novo: média=69 desvio padrão=10 Turma2-método antigo: média=60 desvio padrão=9.4 2.3 38.0 9.0 2.0 3. ao mesmo nível de significância.1 3.3 2. 19. 1 2.0 8.0 Suponha que tanto a variação do peso com o tratamento novo.2 41. teste se há diferença significativa entre os dois métodos.1 5. Para cada par aplicou-se a um dos gêmeos o tratamento novo e ao outro o tradicional.4 0.0 Suponha que o tempo até a corrosão em cada metade é uma variável com distribuição normal.2 2. o tempo até o início da corrosão em cada metade.1 3.0 1.Novo trad. Com base nestas informações.0 35. Ao final do curso aplicou-se um mesmo exame às duas turmas.4 5 40.3 33. Suponha as notas individuais de cada aluno como v.4 35.2 31.Os resultados obtidos foram: chapa metade/novo metade/antig o 1 36.0 6.4 2 48. 0 4.0 9 36.05.3 4. normais de mesma variância e médias possivelmente diferentes.8 3.3 2. Um novo tratamento anti-corrosivo para chapas de aço foi testado.9 6. O experimento realizado foi o seguinte: 9 chapas diferentes foram selecionadas sendo cada uma dividida em duas. Em uma turma de 30 alunos utilizou-se o método novo e em outra turma de 30 alunas de outra escola manteve-se o método tradicional.3 3. a um nível de 0.4 12.1 8 42.1 0. (a) Teste a hipótese de que não há diferença entre os dois métodos.0 3.0 3. Teste com base nessa informação adicional a mesma hipótese do item anterior. e que o tratamento não influencia na variância desta variável. Suponha que os dois grupos de voluntários sejam independentes (b) suponha agora que os indivíduos do primeiro grupo são irmãos gêmeos dos indivíduos do outro grupo(pares de gêmeos. 18.01.0 1. A uma das metades aplicou-se o tratamento novo e a outra metade o tratamento antigo.0 2.8 7 39. 5.4 36.3 8.0 1.3 43.3 6 37.3 13. a um nível de 0. O que pode ter acontecido? 171 .4 6 37.2 39. 21. ele obtem uma quantidade média de 48.20. Ele acompanha o crescimento de cinco plantas de cada variedade e conta o número de ovos do inseto em cada uma delas.2 38.7 38.2 5 38.5 7 38. Após verificar melhor seus registros ele encontra a observação perdida.3 38. Para as 9 plantas que sobraram .8 10 38.2 4 38. Infelizmente ele perde uma observação referente a planta de folha lisa. a) qual é agora o número médio de ovos do inseto para a planta lisa? b) como você acha que ele determinou o valor de t? c) quando ele repete os cálculos fica surpreso de não encontrar diferença sigificativa entre o número médio de ovos para os dois tipos de folhas.4 9 38 38.7 a) Há evidências de que o tratamento permite o controle da temperatura ? b) Calcule um intervalo de confiança para a temperatura após a aplicação do tratamento.2 para rugosa.6 3 38. cujo valor é 110.6 38.9 2 38. animal antes depois 1 38.65 com 7 graus de liberdade.5 para lisa e 37. Os dados obtidos estão apresentados na tabela abaixo.9 38.2 38. Um entomologista está investigando se um inseto é predador de uma variedade de uma espécie de plantas com folhas rugosas e uma outra com folhas lisas.3 8 38.1 38. Fazendo os cálculos ele encontra um valor t=2. Um estudo é desenvolvido para investigar o efeito de um certo tratamento para controlar a temperatura do corpo de porcos criados em laboratório e que possuem uma deficiência genética que provoca redução na temperatura corpórea dos porcos. As temperaturas de interesse foram medidas um dia antes e um dia depois de submeterem os porcos ao tratamento.4 38. pode-se atribuir níveis de fertilizante ao acaso e observar as diferenças na produção de uma determinada cultura. Já a análise de regressão fornece uma equação que descreve o comportamento de uma das variáveis em função do comportamento da outra variável. 16. A regressão e a correlação tratam apenas do relacionamento do tipo linear entre duas variáveis. se envolver mais do que duas variáveis.1.2. Ao estudodo relacionamento entre duas ou mais variáveis denominamos de correlação e regressão. Padrões de associação 172 . Assim a diferença entre as duas situações é que na experimental nós atribuímos valores ao acaso de uma forma não tendenciosa e na outra a atribuição é feita pela natureza.1. pode-se verificar se existe associação entre a taxa de desemprego e a taxa de criminalidade em uma grande cidade. se valores altos (baixos) de uma das variáveis implicam em valores altos (ou baixos) da outra variável. Numa relação experimental os valores de uma das variáveis são controlados pela atribuição ao acaso do objeto sendo estudado e observando o que acontece com os valores da outra variável. CORRELAÇÃO E REGRESSÃO 16. No relacionamento correlacional. sem nenhuma interferência. Introdução Ao se estudar uma variável o interesse eram as medidas de tendência central. pode-se atribuir dosagens casuais de uma certa droga e observar a resposta do organismo. tem-se a correlação e a regressão múltiplas. isto é. Por exemplo. as duas variáveis são aleatórias. por outro lado. Por exemplo. Elas são observadas como ocorrem no ambiente natural. Correlação 16. dispersão.16. assimetria. isto é. Com duas ou mais variáveis além destas medidas individuais também é de interesse conhecer se elas tem algum relacionamento entre si. A associação entre duas variáveis poder ser de dois tipos: correlacional e experimental. etc. entre verba investida em propaganda e retorno nas vendas. A análise de correlação fornece um número que resume o grau de relacionamento linear entre as duas variáveis.1. Freqüentemente é necessário estudar o relacionamento entre duas ou mais variáveis. não se tem nenhum controle sobre as variáveis sendo estudadas. etc. Se o estudo tratar apenas de duas variáveis tem-se a correlação e a regressão simples. no caso de uma relação negativa. pode-se começar a análise identificando. 16. +) 40 empregados (+. +) 10 empregados (−. como a mostrada abaixo: Tabela 1. Quando não é possível perceber uma relação sistemática entre as variáveis é dito que as variáveis são não correlacionadas. 4 possíveis resultados: • Tanto o desempenho no trabalho quanto no teste estão acima da mediana (+ +) • O desempenho no trabalho está acima mas o do teste está abaixo da mediana (+ −) • Tanto o desempenho no trabalho quanto o do teste estão abaixo da mediana (− −) • O desempenho no trabalho está abaixo da mediana mas o teste não (− +) Estas quatro possibilidades podem ser arranjadas em uma tabela de contingência 2x2.Independente do tipo (correlacional ou experimental) a relação entre as variáveis pode ser resumida através de uma equação indicando o padrão de associação entre as duas variáveis.. Indicadores de associação Suponha-se que queiramos determinar se duas variáveis aleatórias estão de alguma forma correlacionadas. Por exemplo. justamente quantos elementos de uma das variáveis são altos e quantos são baixos. suponha-se que se queira determinar se o desempenho dos empregados no trabalho está de alguma forma associado ao escore obtido num teste vocacional. Tabela de contingência 2x2. Para determinar se um escore ou valor é alto ou baixo. se a pessoa o escore 173 . são independentes ou ainda que são ortogonais. para o exemplo. −) 40 empregados Acima da mediana (+) (+.1 − Desempenho no trabalho e no teste Desempenho no trabalho Escore no teste vocacional Abaixo da mediana (-) Acima da mediana (+) Abaixo da mediana (-) (-. −) 10 empregados Observe−se que se não existir relação entre as duas variáveis deve−se esperar número idêntico de empregados em cada uma das células da tabela.3. Classificando desta forma pode-se ter então. pode-se convencionar que qualquer valor acima da mediana é alto e qualquer valor abaixo da mediana é baixo. isto é. Uma vez que a correlação entre duas variáveis aleatórias reflete o quanto os altos escores de uma delas implicam em altos escores da outra e baixos escores de uma implicam em baixos escores da outra e vice-versa. qualquer outra informação é desperdiçada. Da mesma forma dos 50 que tiverem classificações abaixo da mediana. 40 deles (80%) apresentaram escore acima da mediana no desempenho do trabalho. Um comerciante de temperos está curioso sobre a grande variação nas vendas de loja para loja e acha que as vendas estão associadas com o espaço nas prateleiras dedicados a sua linha de produto em cada ponto de venda. O que pode ser visto na tabela acima é que parece existir uma forte correlação entre as duas variáveis. Tabela 1. envolvendo duas variáveis contínuas. (a) Relação positiva Valor de Y Valor de X Acima da mediana Abaixo da mediana Abaixo da mediana 15 35 Acima da mediana 35 15 Valor de X Acima da mediana Abaixo da mediana (b) Relação negativa Valor de Y Abaixo da mediana 35 15 Acima da mediana 15 35 (c) Sem relação Valor de Y Valor de X Acima da mediana Abaixo da mediana Abaixo da mediana 25 25 Acima da mediana 25 25 Diagramas de dispersão. 40 deles apresentaram escore abaixo da mediana no desempenho do trabalho. pois ao invés de igual número em cada célula o que se tem é um número grande de ambas as variáveis acima da mediana e um número grande de escores de ambas as variáveis abaixo da mediana. Dez lojas foram selecionadas 174 . Das 50 pessoas com escore acima da mediana no teste. A parte (a) da tabela mostra uma associação positiva.da pessoa no teste vocacional está acima ou abaixo da mediana não tem nada a ver com o seu escore no desempenho no trabalho estar acima ou abaixo da mediana. A tabela 1. Se não houvesse correlação seria de se esperar que dos 50 que tiveram escores acima da mediana no teste 25 tivessem escores acima da mediana no desempenho do trabalho e 25 abaixo.Indicativos da presença de associação entre duas variáveis X e Y. a parte (b) uma negativa e a parte (c) que não deve existir associação entre duas variáveis X e Y.2 . Vamos considerar um exemplo.2 mostra outras possíveis saídas para este tipo de esquema de classificação cruzada. a não ser o fato de que os valores estão situados acima e abaixo da mediana. Novamente 100 elementos são classificados em 4 células de acordo com o critério anterior. As tabelas de contingência 2x2 fornecem somente a indicação grosseira da relação entre duas variáveis. Tabela 1. conforme figura 1.ao acaso através do país e as duas seguintes variáveis foram mensuradas: (1) total de espaço de frente (comprimento x altura em cm2) dedicados a sua linha de produtos e (2) total das vendas dos produtos. Local 1 2 3 4 5 6 7 8 9 10 Espaço 340 230 405 325 280 195 265 300 350 310 Vendas 71 65 83 74 67 56 57 78 84 65 Pela observação da tabela não é fácil perceber o tipo de relacionamento que possa existir entre as duas variáveis.3.3 – Vendas x espaço dedicado aos produtos (em cm2). as variáveis são colocadas no que é denominado de diagrama de dispersão. Os dados são apresentados na tabela 1. em reais.2. 175 . no último mês. Para ter uma idéia melhor. Uma das variáveis (X) é representada no eixo horizontal e a outra variável (Y) no eixo vertical. Um coeficiente de correlação “0”. Se não houvesse relacionamento entre elas. com os escores padronizados exatamente iguais em valores absolutos. Neste caso. indica correlação linear perfeita negativa. Coeficiente de correlação Apesar do diagrama de dispersão nos fornecer uma idéia do tipo e extensão do relacionamento entre duas variáveis X e Y. as duas variáveis serão exatamente iguais em termos de escores padronizados z. isto é. O mais comum é que o coeficiente fique situado no intervalo entre estes dois valores. significa que não existe um relacionamento linear entre as duas variáveis. os pontos estariam distribuídos ao acaso no gráfico sem mostrarem alguma tendência. um elemento apresentando um escore padronizado de 1.4.Vendas x Áreas de prateleira 90 80 70 60 50 40 30 20 10 0 0 100 200 300 400 500 Uma olhada rápida no diagrama de dispersão mostra a existência de um relacionamento entre as variáveis.00.00 a + 1. Quando se está trabalhando com amostras o coeficiente de correlação é indicado pela letra r que é. Um coeficiente de correlação de –1. 16. seria altamente desejável ter um número que medisse esta relação. com altos valores de uma das variáveis associados a altos valores da outra variável. indicando uma correlação linear positiva perfeita. Uma correlação de +1 ou –1 é raramente observado. uma estimativa do coeficiente de correlação populacional: ρ (rho). diferindo apenas no sinal. por sua vez. O coeficiente de correlação pode variar de –1. 176 . com um coeficiente de +1.5 em uma das variáveis vai apresentar o mesmo escore padronizado na outra variável. Esta medida existe e é denominada de coeficiente de correlação. . Distribuição amostral de r (quando ρ = 0) A distribuição amostral de r depende somente do valor de ρ (coeficiente de correlação 177 . As duas variáveis podem estar perfeitamente relacionadas. mas se não for de forma linear o valor do coeficiente pode ser zero ou próximo de zero. (φ − Y ) =φ φ φ φ φ n X − ( X )   n Y − ( Y )  ∑ ( x − X ) .. Xn e uma amostra da variável “Y” assumindo os valores particulares Y1. Para testar se a amostra foi ou não retirada de uma população de coeficiente de correlação não nulo entre duas variáveis.16. Uma terceira hipótese é que as duas variáveis tenham uma distribuição conjunta normal bivariada..Y − ( ∑ X ) .. Yn são obtidas e suponha-se ainda que o objetivo é saber se existe algum tipo de relacionamento linear entre estas duas variáveis. Y2. o coeficiente de correlação amostral poderá ser calculado através da seguinte expressão: r= y nX . Ele não se aplica a variáveis em escala nominal ou ordinal ou quando uma das variáveis é manipulada experimentalmente.7. Hipóteses básicas A suposição básica sobre o coeficiente de correlação é que o relacionamento entre as duas variáveis seja linear. ( ∑ Y ) ∑ ( x − X ) . 1. pois neste caso. assumindo os valores particulares X1. o coeficiente de correlação é adequado para avaliar somente o relacionamento linear. Uma segunda hipótese é que as variáveis envolvidas sejam aleatórias e que sejam medidas no mínimo em escala de intervalo. a escolha dos valores experimentais vai influenciar o valor de r obtido. precisamos saber qual é a distribuição amostral da estatística r. Isto é. DEFINIÇÃO Na população o coeficiente de correlação é representado por ρ e na amostra por r.5. 16. Uma amostra da variável “X”. . Isto é equivalente a dizer que para cada x dado a variável y é normalmente distribuída.. X2.6..∑ ( y − Y ) ∑  ∑ ∑   ∑    i i i i i i i i i i i i Uma população que tenha duas variáveis não correlacionadas linearmente pode produzir uma amostra com coeficiente de correlação diferente de zero. Assim dadas duas amostras. Suponha-se que existam apenas duas variáveis X e Y. Isto poderá ser medido pelo coeficiente de correlação que fornece o grau de relacionamento linear entre duas variáveis.. uma da variável X e outra da variável Y. ou seja.4 − Valores das variáveis X e Y Anos 1989 1990 1991 1992 1993 X 2 4 5 6 8 Y 48 56 64 60 72 Para saber se há ou não correlação linear entre estas duas variáveis na população de onde foi retirada esta amostra é necessário realizar um teste de hipóteses.5 mostra os cálculos necessários para se obter o coeficiente de correlação para esta amostra das variáveis X e Y. pode-se mostrar que o quociente: r = σr r −r n− tem uma distribuição t com n – 2 graus de liberdade. 178 . Para tanto é realizado um experimento com duração de 5 anos que mostrou os resultados da tabela 1. é preciso testar: H0: ρ = 0 (Não existe relacionamento linear na população) H1: ρ ≠ 0 (Existe relacionamento linear na população) A tabela 1.populacional) e do tamanho da amostra. Se for admitido que ρ = 0. Verificar se existe relacionamento linear entre as duas variáveis. Isto é: t = r −r n− Exemplo: Quer-se testar se existe ou não correlação linear entre X = toneladas de adubo orgânico por ha e Y = produção da cultura A por ha. Tabela 1.4. a distribuição amostral de r (coeficiente de correlação na amostra) será simétrica em torno de “0” com variabilidade dada por: σr = −r n− Neste caso. ∑ ( y − Y )  i i i i 5. tem uma distribuição t com n .( )−( )   .(  φ .270 O valor tabelado de t com 3 g.2 = 3 graus de liberdade.300 .Tabela 1.l.182. A estatística teste será: t= r −r n− que neste caso. Distribuição amostral de r (quando ρ ≠ 0) Para testar a existência de um certo grau de correlação entre duas variáveis X e Y. 16. considerando um teste bilateral é: 3. −( .(1576 )-25. Com estes valores rejeita-se H0 e pode-se afirmar. )−( )   = φ .8. para testar 179 . Dado que há fortes evidências de que as duas variáveis possuem um relacionamento linear pode-se então ajustar uma linha de regressão entre elas. com 5% de significância. que as duas variáveis possuem um relacionamento linear na população. O valor de t (calculado) é: t= r −r n− = . isto é. − ) =5. (φ − Y ) =φ  ∑ ( x − X ) . e a 5% de significância.5 − Valores das variáveis X e Y e cálculos para obter r Anos 1989 1990 1991 1992 1993 Total X 2 4 5 6 8 25 Y 48 56 64 60 72 300 XY 96 224 320 360 576 1576 X 2 Y 2 4 16 25 36 64 145 2304 3136 4096 3600 5184 18320 O valor de r será dado então por: r= y ∑ ( x − X ) . H0: ρ = ρ0 contra H1: ρ ≠ ρ0 ρ > ρ0 ρ < ρ0 é necessário determinar a distribuição de “r”. quando “n” não for muito pequeno. A distribuição de “r” só é simétrica quando ρ é zero.66.41 180 . n ≥ Exemplo: Suponha que de experiências anteriores pode ser suposto que a correlação entre a idade e a pressão sangüínea sistólica é ρ = 0. a 5% de significância. de que ρ é este valor contra a alternativa de que ele é diferente deste valor supõem-se que foi extraída uma amostra de tamanho n = 30 e que forneceu um r = 0.  +r  A expressão para realizá-la é: r' = ln    −r  Esta quantidade tem distribuição aproximadamente normal com média µ= 20  +r ln   e variância σ = n − (  −r  ) 3).2561 − ←  = -2. Esta falta de normalidade impede que se use o teste tradicional. Então o teste pode ser realizada através dos seguintes cálculos: Solução: − − r  +−  φ r' = ln  =  −r  − − ←≥≥  +− . neste caso.85.   −ρ z= 0.  A distribuição de r' é dada por: − − − − ← ≤  +−  ρ  +− . “r” pode ser alterado para uma estatística que é aproximadamente normal. mediante uma transformação apropriada.7928  − . Esta transformação é denominada de transformação Z de Fischer. ←≤ φ φ µ = ln   = ln   = 1.7928 -1. ou seja. quando ρ é diferente de zero. Contudo. Para testar a hipótese nula. se isto não ocorre a distribuição será assimétrica. ←≥≥  φ ln   = 0. o teste t.2561  − . Um valor igual a zero. se X varia em uma direção Y variará na mesma direção.85. “U” representa as outras influências na variável Y além da exercida pela variável “X”.20. 4. 2. . isto é. onde “U” é o termo erro.96. O intervalo de variação vai de -1 a +1. 181 . pode-se tentar prever o comportamento de uma delas em função da variação da outra. pode-se afirmar que o valor da correlação populacional é diferente de 0. explicativa ou independente) com valores observados X1. Quanto mais próximo de -1 for “r”.. 3. Para tanto será suposto que existem apenas duas variáveis.. ou seja. X2.9. A variável X pode ser aleatória ou então controlada. Desta forma pode-se considerar que o modelo para o relacionamento linear entre as variáveis X e Y seja representado por uma equação do tipo: Y = α + βX + U. Y2. Esta equação permite que Y seja maior ou menor do que α + βX. se X varia em um sentido Y variará no sentido inverso. A variável X (denominada variável controlada. Quanto mais próximo de +1 for “r”. 16. isto é. 5. Isto é. maior o grau de relacionamento linear positivo entre X e Y. maior o grau de relacionamento linear negativo entre X e Y. Os valores de Y são aleatórios. isto é. pois eles dependem não apenas de X. Propriedades de R As propriedades mais importantes do coeficiente de correlação são: 1. então a hipótese nula.. Estas variáveis são consideradas no modelo através de um termo aleatório denominado “erro”. 16. Yn. Quanto mais próximo de zero estiver “r” menor será o relacionamento linear entre X e Y. Rejeita-se. indicará ausência apenas de relacionamento linear. mas também de outras variáveis que não estão sendo representadas no modelo.. .Para um nível de significância de 5% o valor tabelado de z é -1. O coeficiente de correlação é uma medida adimensional... dependendo de “U” ser positivo ou negativo. Xn e a variável Y (denominada variável dependente ou explicada) com valores Y1. ele é independente das unidades de medida das variáveis X e Y. De forma ideal o termo “U” deve ser pequeno e independente de X. Regressão Uma vez constatado que existe correlação linear entre duas variáveis. Yi). a Y.. e os pontos calculados (Xi. (ii) Var(Ui) = σ2 esperado igual a zero e na (ii) que a variância de cada Ui é a mesma e igual a σ2. e determinar o que ocorrerá.1 − O modelo de regressão linear Y Erro ↑ U ˆ Y ↓ ● E(Y/X) = α + βX ● X Um modelo de regressão consiste em um conjunto de hipóteses sobre a distribuição dos termos “erro” e as relações entre as variáveis X e Y.. . Isto está ilustrado na figura 2. sem modificar “U”. Os termos Ui são iguais a distância vertical entre os pontos observados (Xi. em média. para todos os valores de X. Algumas destas hipóteses são: (i) E(Ui) = 0. em observações sucessivas e que a variável dependente Y seja função linear de X. Supõem-se ainda que a variável independente X. Os valores de Y 182 . i = 1. Figura 2. Yi) como um ponto de um plano.de modo que se possa modificar X. Yi). isto é: E(Y/X) = α + βX Os dados {(Xi. n} podem ser representados graficamente marcando-se cada par (Xi.1. permaneça fixa. 2. α + βXi).. Y = α+ βX + U.2. A variância de Y. ilustra a função densidade. E(Y/X) = α+ βX. 183 . observações diferentes são feitas no mesmo indivíduo em diferentes pontos no tempo está suposição poderá não ocorrer. V(Y/X) = σ2. A variável X permanece fixa em observações sucessivas. 4. Na parte superior da figura é ilustrado o caso heterocedástico e na parte inferior o caso homocedástico. denominada de homocedasticidade. para um determinado valor de X. para i ≠j. é dado pela função de regressão α + βX ou seja: E(Y/X) = E(α + βX + U) = α + βX + E(U) = α + βX [1] já que α + βX é constante para cada valor de X dado. estimar estes parâmetros com base nos valores da amostra. 3. De [1] e [2] decorre que. por exemplo. mas em alguns casos. Isto ocorre em geral. Note-se que a média da função densidade se desloca ao longo da função de regressão α+ βX. é igual a: V(Y/X) = V(α + βX + U) = V(U) = σ2 [2] A hipótese de que V(Y/X) é a mesma para todos os valores de X.devem ser independentes um do outro. Como o valor esperado de Ui é zero. para um dado valor de X. Em resumo. Yi) então seria possível determinar os valores exatos dos parâmetros α. Estimativa dos parâmetros de regressão Se fosse conhecido toda a população de valores (Xi. dado X. a variável dependente Y tem função densidade de probabilidade (condicional) com média α + βX e variância σ2. o valor esperado da variável dependente Y. como.21. O termo “homo” significa “o mesmo” e “cedasticidade” significa “disperso”. Cov(Ui. 6. então. em geral. 5. A posição da função densidade f(Y/X) varia em função da variação do valor de X. Os erros U são normalmente distribuídos. o modelo de regressão proposto consiste nas seguintes hipóteses: 1. A figura 2. 16. Como. é útil pois permite que se utilize cada uma das observações sobre X e Y para estimar σ2. β e σ2. O símbolo E(Y/X) é lido valor esperado de Y. 2. para determinado valor de X. Uj) = 0. se trabalha com amostras se faz necessário. isto é: ф= ∑ E−=− ( Y − a − bXi ) = mínimo ∑ − n n i= i= φ φ parcialmente em relação aos valores a e b. o “melhor” ajustamento possível.: Para simplificar a notação foram desconsiderados os índices nos somatórios.bXi o desvio observado em relação a reta ajustada. Sejam a e b estimadores de α e β e Ei = Yi .Existem alguns métodos para ajustar uma linha entre as variáveis X e Y o mais utilizado é o denominado método dos mínimos quadrados (MMQ). O método dos mínimos quadrados exige que os estimadores a e b sejam escolhidos de tal forma que a soma dos quadrados dos desvios dos mesmos em relação à reta de regressão ajustada seja mínima. Dividindo-se a equação (i) por “n” e isolando o valor de a vem: a=∑  ∑ Xi yi − b  n n    = Y − bX   levando-se este resultado na equação (ii) tem-se: b= ∑ ( Xi − X )( Yi − Y ) i X Y ∑ X Y − ∑ n∑ φ n∑ X Y − ∑ X ∑ Y φ φ= φ ( X ) = n ∑ X −φ ( X ) X − X) ∑ ∑( ∑X − ∑ i i i i i i i i i i i i n A reta estimada de regressão será então: ˆ Y = a + bX com os valores de “a” e “b” obtidos através das seguintes expressões: n ∑ Xi Yi − ∑ X i ∑ Yi n∑ Xi − ∑ ( Xi ) b= φ φe a = Y − bX 184 . não é necessariamente. mas possui muitas propriedades estatísticas que são desejáveis.a . onde “n” é o número de pares de observações. Obs. Após algumas simplificações vai-se obter: ΣYi = na + bΣXi (i) ΣXiYi = a ΣXi + b_(Xi)2 (ii) que são denominadas de equações normais da regressão. isto é. A reta obtida através deste método. Ei é um estimador do termo Ui. na tabela abaixo. a = Y − bX = 6. retiradas desta mesma população. obtido a partir da reta estimada de regressão. X 1 2 4 5 8 20 Y 3 3 7 6 12 31 X2 1 4 16 25 64 110 XY 3 6 28 30 96 163 X= Y= = = . supostamente com média zero e variância constante. b=  ( .20 .3 seria uma estimativa do valor β (parâmetro angular) e 1 uma estimativa do valor α (parâmetro linear). isto é.1. 16. Exemplo: São fornecidos 5 pares de valores. que são os verdadeiros coeficientes de regressão. ( .Utiliza-se o valor _Y . do valor esperado de Y dado X.1. Esta reta pode ser considerada uma estimativa da verdadeira linha de regressão onde 1.30. é uma variável aleatória.22. é obtida utilizando as expressões de a e b acima e usando os resultados obtidos na tabela 2. X+ Esta reta é o “melhor” ajustamento para estes dados e seria diferente para cada amostra das variáveis X e Y. A estimativa da reta de regressão entre X e Y. )−( )− . U. 185 . Estimativa da variância do termo erro O termo erro. )  = .(4) = 1 ˆ Então a linha estimada será: Y = . é uma estimativa do valor E(Y/X). porque o valor de Y. correspondentes as variáveis X e Y. para um dado valor de X. Então, intuitivamente parece plausível usar os resíduos da reta de regressão pelos método dos mínimos quadrados para se estimar a variância σ2 dos termos “erro”. A variância amostral desses resíduos é igual a: ˆ σ = ∑ (E − E) n onde E = ∑ E Observe-se entretanto que: n ΣE = Σ(Y − a − bX) = Σ Y − na − bΣ X = 0, pela primeira equação normal (i). ∑E ˆ ˆ Portanto, σ ~ pode ser escrito como: σ ~ = n ˆ Mas σ , neste caso, é um estimador tendencioso. Pode-se obter um estimador não ˆ tendencioso, multiplicando σ por n / (n - 2). O novo estimador, não tendencioso, será representado S2 e sua raiz quadrada: S= ∑E n− = ∑( ˆ Y−Y ) φ n− = ∑ ( Y − a − bX ) n− é denominada de “erro-padrão da estimativa” ou “erro-padrão amostral da regressão”. Obs.: A utilização de “n - 2” é conseqüência do fato de que se deve estimar dois parâmetros, α e β, antes de obter os resíduos E. Como resultado, há somente “n - 2” graus de liberdade associados à quantidade ΣE2 . A expressão acima, para o cálculo do erro amostral da regressão, apresenta o inconveniente de exigir o cálculo de cada valor previsto de Y, através da linha de regressão, tornando sua obtenção muito trabalhosa. Existe, entretanto, uma alternativa para se obter este valor (erro padrão da estimativa) sem a necessidade de calcular todos os valores previstos. Observe-se que: φ φ ˆ ∑ E = ∑ ( Y − Y ) = ∑ ( Y − a − bX ) = ∑ Y − Y + b ( X − bX ) = ∑ ( Y − Y )   − b ∑ ( X − X )( Y − Y ) + ∑ b ( X − X ) Fazendo: φ φ∑ X ) ( X − X) = ∑ X − ∑( n φ = Sxx φ φ∑ Y ) ( ∑(Y − Y) = ∑ Y − n ∑ ( X − X )( Y − Y ) = ∑ XY − φ = Syy ∑ X∑ Y = Sxy n 186 Lembrando que: b= n ∑ X i Yi − ∑ X i ∑ Yi n∑ Xi i X Y ∑ X Y − ∑ n∑ φ φ φ , segue que = φ∑ X ) − ∑(X ) ( ∑X − n i i i i i i = e que SXY = bSXX Então vem: ∑ E = ∑ ( Y-a-bX ) =S YY - 2b 2S XX + b 2S XX = S YY - b 2S XX Assim: S φ φ φ φ E φ ( Y − a − bX ) S ∑ =∑ = = n− n− YY − b S XX S YY − bS XY = n− n− φ Pode-se verificar que S2 definido desta maneira é um estimador não-tendencioso de σ2, isto é, E(S2) = σ2. O erro padrão da regressão será dado, então, por: s= S YY -b 2 S XX φ = S YY - bS XY φ n− n− Exemplo: Considerando as variáveis X e Y acima e a linha de regressão anterior determinar uma estimativa do erro padrão da regressão. Os cálculos necessários estão na tabela 2.2. Tabela 2.2 − Determinação do erro padrão da regressão X 1 2 4 5 8 20 Y 3 3 7 6 12 31 Yc E=Y-Yc 0,7 -0,6 0,8 -1,5 0,6 0 E 2 2,3 3,6 6,2 7,5 11,4 31 0,49 0,36 0,64 2,25 0,36 4,1 O erro padrão da regressão será então: s= ∑E n− φ φ ( Y − a − bX ) φ∑ φ = = n− , ≤  = 1,17 − ⇒← − Este mesmo cálculo poderá ser efetuado pela expressão definida acima, sem a necessidade de se obter os valores estimados. 187 Tabela 2.3 − Determinação do erro padrão da regressão X 1 2 4 5 8 20 Y 3 3 7 6 12 31 X2 1 4 16 25 64 110 Y2 9 9 49 36 144 247 XY 3 6 28 30 96 163 Neste caso, tem-se: S XX S YY S XY φ ← −−← )φ←  ( ≤ = ∑X = − = n φ φ φ (Y)  − φ⇒ ) ( ≤ 54,80 ∑ = ∑Y − = − = n − φ← ( ∑ X∑ Y = −≥ )( ) = 39 = ∑ XY − − n φ (X) ∑ − φ O valor de “b” será: b = SXY/SXX = 39/30 = 1,30 Portanto o erro padrão da regressão será: ≤⇒ ← −   φ , − ( , )( ) S YY − b S XX S YY − bS XY φ = φ = ≤ φ s= = 1,1690 = 1,17 n− n− − 16.23. Distribuições das estimativas Observando-se as expressões dos estimadores “a” e “b” da reta estimada, pode-se notar que ambos dependem de Y que é uma variável aleatória com distribuição supostamente normal de média f(X) e desvio padrão σ2. Como os estimadores “a” e “b” são funções lineares de uma variável aleatória normal, também serão variáveis aleatórias com distribuição normal. O que precisa ser determinado, então, é a média e a variância de cada um deles. Antes disso vai-se determinar uma estimativa de σ2 a variância da variável Y, que no modelo é suposta a mesma para cada valor de X (homocedasticidade). 188 16.23.1. Distribuição do estimador “b” Tem-se que: b = S XY / S XX = ∑ ( X = X )( Y − Y ) = ∑ Y ( X − X ) ∑ Y ( X − X ) S XX S XX Mas ∑ ( X = X) = logo, b= ∑ Y (X − X) S XX Mas Y = α + βX = U , então b= ∑ Y ( X − X ) = ∑ ( α + βX + U ) ( X − X ) = α ∑ ( X − X ) = β∑ ( X − X ) + U ( X − X ) S XX S XX S XX S XX S XX S XX = (X-X) = ∑ (X - X)(X - X) = ∑ X(X - X) - X∑ (X - X) = ∑ X(X - X) , pois ∑ (X - X) = Vem b = β + ∑ U ( X − X) S XX Logo a expectância de “b” será: E(b) = E(β) + E ∑ U ( X − X ) = E(β)+ ∑ ( X − X ) E(U).Mas E(U) = 0, por hipótese S XX S XX Então: E(b) = E(β) = β, uma vez que a média de uma constante é a própria constante. Isto, também, mostra que “b” é um estimador não-tendencioso de β. Para a variância, tem-se:  ∑ U ( X − X)  = V  ∑ U ( X − X)  = ∑ ( X − X) φ V(b) = V  β +    V(U)     S XX S XX ( S XX )     2.3.2. DISTRIBUIÇÃO DO ESTIMADOR “A” Quanto à distribuição da variável aleatória “a”, tem-se: a = Y - b X . Mas Y = φ ∑ Y , então: n a= ∑ Y − bX = ∑ ( α − βX + U ) − bX = ∑ α + β ∑ X + ∑ U − bX = α + βX + ∑ U − bX n n n n n n Assim: 189  ∑U  ∑ E(U) − βX.3 − Desvios na regressão 16. Decomposição dos desvios 190 . tem-se: φ ←←  E(U)  φ V(a) = V(α) + V ( βX ) + V   + V ( bX ) = + + n ∑ V(U) + X V(b) = n  n  = σ + =σ  +  n S XX  n S XX  − φ φφ φ − φ  σ X X  − φ φ φ σ φ ∑σ + X S = XX  X Portanto a distribuição de “a” é: N  α. E(a) = E(α) + E(β X ) +E  − E ( bX ) = α + βX +  n   pois E(b) = β n   Então E(a) = α.σ +  n S XX      16.1. pois E(U) = 0. Vê-se que “a” é um estimador não-tendencioso de α. Decomposição da soma dos quadrados Y−Y Y Y−Y ˆ Y Y ˆ Y−Y X X Figura 2. Quanto à variância.24.24. ∑ ( Y − Y ) . pois: ˆ ˆ Y − Y = Y − Y + Y − Y . isto é. isto é Y − Y É fácil perceber que a variação total. e a não-explicada. ∑ ( Y − Y ) .onde S YY = ∑ Y − ∑Y n 191 . ˆ ∑ ( Y − Y ) .2. isto é. Y . Cálculo das variações (a) Variação Total: VT ou S Y VT = ( Y − Y ) = S YY . Y − Y ˆ • O desvio não-explicado (resíduos) pela linha de regressão.3. segue que: ˆ ˆ ∑(Y − Y) = ∑(Y − Y) + ∑(Y − Y) isto é. que a soma dos quadrados dos desvios calculados em torno da média de Y (variação total = VT) é igual à soma dos quadrados dos desvios em torno da linha de regressão (variação residual = VR) mais a soma dos quadrados dos desvios da linha de regressão em torno da média (variação explicada = VE). pode-se perceber que o desvio em relação a Y (desvio total). logo.24. 16. então: Aplicando somatório a ambos os membros vem: ˆ ˆ ( Y − Y ) = Y − Y `+ Y − Y ∑ ∑( ) ∑( ) Pode-se verificar também que a propriedade aditiva dos desvios é extensiva à soma dos quadrados desses desvios.Pelo figura 2. ou seja: ˆ ˆ ∑( Y − Y) = ∑( Y − Y) + ∑( Y − Y) De fato: ˆ ˆ ∑(Y − Y) = ∑ Y − Y + Y − Y ( ) ˆ ˆ ˆ = ∑ Y − Y + Y − Y  = ∑ Y − Y   ( ) ( ) φ ( ) ( ˆ + Y−Y φ ˆ ˆ ) ∑(Y − Y) (Y − Y) − Mas ˆ ˆ ˆ ˆ ˆ ∑ ( Y − Y )( Y ^ Y ) = ∑ ( Y − Y ) ( â + bX − a − bX ) = b∑ X ( Y − Y ) ^ −bX∑ X ( Y − Y ) Pelas condições do método dos mínimos quadrados. tem-se: ˆ ˆ Y−Y = e X Y − Y = em consequência ) ) ∑( ∑ ( ˆ ˆ ∑ ( Y − Y )( Y − Y ) = .Y pode ser decomposto em dois outros desvios: ˆ •O desvio explicado pela linha de regressão. é a soma da variação explicada. α. pode-se determinar os intervalos de confiança para os parâmetros da regressão. O que vai mudar é o intervalo de confiança correspondente.25. um intervalo de confiança para o parâmetro angular (β) e pode-se ainda determinar um intervalo de confiança para um valor previsto de Y. variância e proporção de uma população.25.Y )2 = VT . Este intervalo pode ser para o valor médio de Y paraum dado X. Intervalos de confiança Da mesma forma que foram obtidos intervalos de confiança para a média. Ou seja.25. 16. Intervalo para o coeficiente linear (α)  X  Considerando que a distribuição do coeficiente linear é dado por N  α. Isto se deve ao fato de que o modelo desenvolvido é associado principalmente à média do grupo do que a uma informação individual. isto é. VE = b 2S XX φ  S XY  ou VE   = S XX = bS XY  S XX  (c) Variação Residual: VR ou S Y / X De acordo com a propriedade aditiva das variações.2” graus de liberdade e S uma estimativa de σ. 16. então. isto é.(b) Variação Explicada: VE ou S Y VE = ∑ ( ˆ Y−Y φ φ φ φ φ φ φ b ( X − X )  = b ∑ ( X − X ) = b S ) = ∑ ( a + bX − Y ) = ∑ ( Y − bX + bX − Y ) =   XX Logo. pode-se calcular VR por diferença. para um valor individual de Y. dado X. pode-se determinar um intervalo de confiança para o coeficiente linear (α).σ + .   n S XX   Então. Intervalo para o coeficiente angular (β) 192 . o intervalo será: φ φ − − −  X X  φ + φ + P  a − t n − .bS XY 16. E(Y/X) ou.VE ou VR = S YY .2.S ≤ α ≤ a + t n − .1.S  = −α   n S XX n S XX   com tn-2 sendo um valor da distribuição “t” com “n . _Y . fixada uma confiança de 1 . A estimativa pontual para os dois últimos casos é a mesma. Assim: VR = (Y . neste caso.b X + bX = Y + b(X . A variância de _Y . mas a = Y-bY . φ n  S XX S XX  −   = −α   com tn-2 sendo um valor da distribuição “t” com “n .2” graus de liberdade. σ Considerando que a distribuição do coeficiente angular é dado por N  b.α.25.tφ− .3.X )] = V( Y ) + V[b(X . então o intervalo de confiança de “1 . então: ˆ Y = Y .X )2 = + ( X − X) =σ  + n S XX S XX n S XX    Portanto:  ( X − X) ˆ Y tem distribuição N  α + βX.  S XX    . φ −   = − α . ˆ E( Y ) = E(a + bX) = E(a) + E(bX) = α + βE(X) = α + βX = f(X) = E(Y/X). onde tn-2 é o valor da   193 . Isto é.   fixada uma confiança de 1 .σ +  n S XX        ˆ Conhecida a distribuição de Y .b(X . Intervalo para previsões ˆ (a) Intervalo para o valor médio de Y ˆ Tem-se que Y = a + bX é um estimador de E(Y/X) ou f(X).S n−  n S XX n S XX  distribuição t com “n .S φ + X ˆ ˆ P  Y − t n − . X é constante para cada valor de Y. pois. deve-se ˆ conhecer a média e a variância de Y . φ ≤ β ≤ b + t n − . o intervalo será:  S S P  b − t n− .X )2 V(b)=  n     φ φ φ φ φ − − φ ( X − X)  σ σ φ σ φ  = ∑ V(Y)(X .X )]=V  + (X .2” graus de liberdade e S uma estimativa de σ 16. ˆ Tem-se: _ Y = a + bX.α“ de probabilidade para f(X) ou E(Y/X) será: φ − −  φ + X ≤ E ( Y / x ) ≤ Y + t . Para construir um intervalo de confiança para este valor é necessário conhecer a sua distribuição. será:  ∑Y  ˆ V( Y ) = V[ Y .X ) . Então. Y .S + + ( X − X) ˆ . para ˆ um dado X e o desvio de previsão será dado por Y .f(X) = 0 Para a variância.E( Y ) = f(X) . Testes de hipóteses ˆ Y − t n − .26. tem-se:  ( X − X) ˆ ˆ V(Y .Y ) = E(Y) .Y ) = V(Y) + V( Y) = σ 2 + σ 2  + n S XX  Então:  ˆ tem distribuição N  .Y + t n − .S + n + ( X − X) S XX . então o intervalo de confiança de “1 .Y .α“ de probabilidade para um valor individual de Y (Yi) para um dado X.Y    +   =σ         ( X − X)  + +  n S XX      n ( X − X) + S XX ˆ Conhecida a distribuição de Yi . 16. β > 0 ou β<0 Fixado um nível de significância α a variável teste será a “t” de Student com “n .(b) Intervalo para um valor individual ( _Y ) Uma estimativa do valor individual de Y é dado pela reta de regressão _Y = a + bX. será: n S XX com “n .2” graus de liberdade.σ Y. pode-se realizar um teste de hipóteses.1. onde tn-2 é o valor da distribuição t Conhecidas as distribuições dos estimadores dos coeficientes angular e linear. pois sabe-se que: 194 . cujas propriedades são: Para a média: ˆ ˆ E(Y .26.2” graus de liberdade 16. Teste para a existência da regressão Testar a existência da regressão é testar se o parâmetro β é diferente de zero. Desta forma o que se quer testar é: H0: β = 0 contra as alternativas: H1: β ≠ 0. Porém como σ não é conhecido é necessário S XX b−β φ = S S XX estimá-lo através de S. definido por: R = VT S YY 195 . é testar o valor de Y quando X = 0. Porém como σ não é conhecido é necessário estimá-lo através de S.2” graus de  liberdade. b−β Z = σ tem distribuição normal padrão. pois sabe-se que o estimador “a”. As hipóteses são: H0: α = 0 contra as alternativas: H1: α ≠ 0. Coeficiente de determinação ou de explicação Além dos testes de hipóteses e dos intervalos de confiança. isto é. ou seja. α > 0 ou α<0 Fixado um nível de significância a variável teste será a “t” de Student com “n . Então: t n− = a−α  X S +  n S XX      16.26.2.27. Teste para o coeficiente linear Testar o coeficiente linear da regressão “α“ é testar o valor inicial da regressão. Então: t n − 16. outro indicador que fornece elementos para a análise do modelo adotado é o coeficiente de determinação ou de φ VE bS = XY explicação. tem uma distribuição: N  σ   + X S XX  .b tem distribuição Normal com média β e desvio padrão σ S XX .   n Então: Z = a−α  X σ +  n S XX      tem distribuição normal padrão. Por outro lado. As variações da variável Y são 100% explicadas pelas variações da variável X.O coeficiente de determinação indica quantos por cento a variação explicada pela regressão representa sobre a variação total. neste caso. se R = 0. isto significa que todos os pontos observados se situam “exatamente” sobre a reta de regressão. Deve-se ter: 0≤R ≤1 Se R for igual a 1. isto quer dizer que as variações de Y são exclusivamente aleatórias e explicadas pelas variações de outros fatores que não X. 2 2 2 196 . não ocorrendo desvios em torno da função estimada. Tendo-se. um ajuste perfeito. (b) Um dois diretores da empresa ficou intrigado com o fato de que a equação sugerir que uma família com renda de 3 s.Exercícios 1 Para cada uma das situações abaixo. diga o que é mais adequado: a análise de regressão ou a análise de correlação. ΣXY = 3100.2. líquidos mensais não gaste nada em mercadorias. 2. Obteve-se a seguinte equação: ΣY = -1. (e) Um gerente deseja estimar as vendas semanais com base nas vendas das segundas e terçasfeiras. (c) Deseja-se prever quanto tempo será necessário para executar uma determinada tarefa por uma pessoa. Por quê? (a) Uma equipe de pesquisadores deseja determinar se o rendimento na Universidade sugere êxito na profissão escolhida. Suponha que uma cadeia de supermercados tenha financiado um estudos dos gastos com mercadorias para famílias de 4 pessoas. com base no tempo de treinamento.40X. ΣY = 37.m.m. Qual a explicação? (c) Explique por que a equação acima não poderia ser utilizada para estimar (a) As despesas com mercadorias de famílias de 5 pessoas. (b) As despesas com mercadorias de famílias com renda de 20 a 40 s. ΣX2 = 620 e n = 36 197 . O estudo se limitou a famílias com renda líquida entre 8 e 20 salários mínimos. Utilize os valores abaixo para estimar as equações de regressão: (a) ΣX = 200. ΣY = 300. (b) Deseja-se estimar o número de quilômetros que um pneu radial pode rodar antes de ser substituído. líquidos mensais.20 + 0. onde ΣY = despesa mensal estimada com mercadorias e X = renda líquida mensal.m. ΣXY = 6200. (a) Estimar a despesa de uma família com renda mensal líquida de 15 s. ΣX2 = 3600 e n = 20 (b) ΣX = 7. 3. (d) Deseja-se verificar se o tempo de treinamento é importante para avaliar o desempenho na execução de uma dada tarefa. Y ). Grafe o resultado no mesmo diagrama construído em 5. 2). 6. (2. 7. grafe os valores em um diagrama e se uma equação linear parecer apropriada para explicar os dados. 10) (a) Grafe os pontos em um diagrama de dispersão. contra a alternativa de diferente do que 5. 4).2. Para cada uma das situações abaixo. (a) Tamanho do pedido(X) Custo Total (Y) 25 2000 20 3500 40 1000 45 800 22 3000 63 1300 70 1500 60 1100 55 950 50 900 30 1600 (b) Vendas em mil (X) Lucro em mil (Y) 201 17 225 20 305 21 380 23 560 25 600 24 685 27 735 27 510 22 725 30 450 21 370 19 150 15 5. (c) Os termos-erro verificam a condição E(u) = 0? (d) Selecione uma amostra de tamanho n = 4. Suponha que uma população se constitua dos seis pontos seguintes: (1. 6). da população acima e estime a equação de regressão determinada no item 5. utilizando uma significância de 5%.1. 5) e (5. (2. 198 . Os dados abaixo forma colhidos de cinco fábricas diferentes de uma determinada indústria: Custo total (Y) Produção (X) 80 12 44 4 51 6 70 11 61 8 ˆ (a) Estime uma função linear da forma Y = a + bX para o custo total dessa indústria. 3).4. (b) Determine a equação de regressão: Y = α + βX + u. Verifique que a reta de regressão ΣY = a + bX. determine os seus parâmetros. (3. (b) Qual o significado econômico das estimativas “a” e “b”? (c) Teste a hipótese de que o custo fixo da produção do artigo em questão seja igual a 5. sempre passa pelo ponto ( X . (4. (d) Se é válida a afirmação que cada ano de escolaridade custa 800 dólares? 9. mantendo-se cada grupo de 2 pessoas sem dormir por um determinado número de horas.. (b) Determine a dispersão dos termos erro em torno da linha de regressão. que ΣX determine: 2 = 9000 e que o desvio padrão residual em relação à reta ajustada foi de 7300 dólares. anotando-se então os erros cometidos.0 anos. Interprete o intervalo obtido. (c) Se a renda para a escolaridade é estatisticamente discernível ao nível de 5%. Uma pesquisa foi realizada com o objetivo de determinar os efeitos da falta de sono sobre a capacidade de as pessoas resolverem problemas simples. Y = 1200 + 800X. 50 homens americanos entre 35 e 54 anos de idade acusaram a seguinte relação entre renda anual Y (em dólares) e a escolaridade X ˆ (em anos). Após cada um destes períodos. 16 24 (a) Determine a estimativa da linha de regressão do número de erros em função do número de horas sem dormir. 10. 199 . cada pessoa teve de resolver um teste com adições simples. Determine um intervalo de 95% de confiança para o coeficiente angular da reta do exercício acima. A renda média foi de 10000 dólares e a escolaridade média foi de 11. 14 16 12. 10 12 8. (a) A renda de uma pessoa que tenha completado 2 anos de educação secundária (x = 10 anos). Sabendo. Realizou-se uma pesquisa de mercado com o objetivo de estudar a relação entre o tempo necessário para um consumidor tomar uma decisão (sobre o que comprar) e o número de embalagens alternativas do mesmo produto apresentadas a esse consumidor. Em uma amostra aleatória de 1990. ainda. (b) O intervalo de 95% de confiança para o coeficiente angular populacional. Os dados resultantes estão na tabela abaixo: Número de erros (Y) Número de horas sem dormir (X) 6. 8 8 6.8. 14 20 12. Foram testadas 10 pessoas. 11. 7. 8. o desvio padrão amostral da regressão. (c) Há evidência suficiente nestes dados de que o tempo de decisão se relaciona linearmente ao número de alternativas oferecidas a esses consumidores? 12. a produção depende do tempo. (b) Teste a hipótese de que existe uma relação linear entre a altura aos 4 anos de idade e a altura aos 18 anos de idade. O tempo necessário. Compare com o intervalo para a produção média de um período de 4 dias que foi obtido em (a).Eliminaram-se as marcas das embalagens. Os dados indicados na tabela. 8. resultando nos seguintes dados: Tempo para decisão. (b) Determine o erro padrão da estimativa. (b) Suponha que o processo de produção. 10. a fim de reduzir o efeito da preferência por uma ou outra marca. Os consumidores fizeram suas escolhas somente com base na descrição do produto. 13. se desenvolverá em 4 dias. 8. anotada nas embalagens pelos fabricantes. 200 . no futuro. Estime ovalor médio da produção final de antibiótico produzido em um período de 4 dias. 9. Considere umintervalo de 95% de confiança. Determine umintervalo de previsão de 95% para a produção. 11. 12 4 (a) Determine a reta dos mínimos quadrados de Y em função de X. Y (em segundos) Número de alternativas (X) 5. Os resultados obtidos estão abaixo: Na idade de 4 anos Na idade de 18 anos 40 68 43 74 40 70 40 68 42 70 (a) Determine o coeficiente de correlação entre as duas categorias de alturas. para que cada um tomasse sua decisão foi anotado para 15 participantes. Y. 10. 9.) 1 23 2 31 3 40 4 46 5 52 6 63 (a) Por várias razões é conveniente esquematizar a produção em ciclos de 4 dias. Na fabricação de um antibiótico. 9 2 7. ou seja. Mediu-se a altura de uma amostra de 5 meninos (em polegadas) na idade de 4 anos e novamente na idade de 18 anos. 10 3 9. mostram que um processo resultou na seguinte produção (em quilogramas) de antibióticos por período de tempo (dias) indicados Tempo (X = dias) Produção (Y = em kg. onde Y é a produção por alqueire e X é a quantidade de chuva (em polegadas) no período da safra. ˆ Y = -2 + 1.X e r = 0. (d) Repita o item 13.8X. (d) É possível que o coeficiente de correlação amostral seja positivo. r = 0. relacionando o número X de anos que uma pessoa fumou com a percentagem Y de incidência de câncer pulmonar em cada grupo.70 e S = 30 Safra B: Y = 50 + 1.3 só que para o coeficiente linear. 201 . Explique se concorda ou não com as seguintes afirmativas: (a) Um coeficiente de correlação de +1. (c) Se o coeficiente angular é 1 (um). de fato.0 significa que X não causa Y.70. (b) Qual a taxa de incidência de câncer pulmonar para as pessoas que fumam há 20 anos? (c) Se “r” fosse igual a “um” seria possível concluir que o fumo é a única causa de câncerpulmonar? (d) Suponha-se que a equação estimada tenha sido obtida de uma amostra aleatória de 50 fumantes.9 e S = 20.60. Teste a hipótese de que o coeficiente de correlação seja igual a zero a uma significância de 1%. qual seria o seu coeficiente angular? Responda com um intervalo suficientemente amplo que permita uma aposta de 95%.0 entre duas variáveis X e Y indica que X causa Y. (b) Se o coeficiente de regressão é zero. A equação de regressão estimada abaixo resume um estudo da relação entre o uso do fumo e a incidência de câncer pulmonar. (e) Não se pode utilizar a técnica da regressão pelo método dos mínimos quadrados quando a relação básica entre X e Y não for linear. o coeficiente de correlação é também zero. r = 0. 16 Um estudo de duas safras forneceu as seguintes informações: ˆ ˆ Safra A: Y = 200 + 0.20X. nenhuma correlação entre as variáveis X e Y.70” na equação de regressão. 14. isto significa que existe perfeita correlação entre X e Y.(c) Se fosse feito o gráfico de toda a população de alturas. mas um coeficiente de correlação de -1. calculando-se a correspondente reta dos mínimos quadrados. (a) Explique o significado das estimativas “-2” e “ 1. quando não existe. 15. que percentagem da variação total permanece não-explicada pela equação de regressão? 202 . para o custo total médio dessa indústria.(a) Se não houvesse chuva.80.32. (d) Faça uma previsão.2) 0. Custo total (Y = em milhões) Produção (X = toneladas) 80 12 44 4 51 6 70 11 61 8 (a) Determine um intervalo de confiança de 90% para o custo fixo dessa indústria. (g) Testar se o custo marginal pode ser considerado menor do que 5. utilizando uma confiança de 95%. (e) é possível afirmar.32 difere significativamente de zero ao nível de 0. Qual é o tamanho mínimo da amostra necessária para que se possa concluir que um coeficiente de correlação de 0. que o custo total dessa indústria está linearmente relacionado ao nível de produção? (f) Testar se o custo fixo pode ser considerado menor do que 30. para uma produção de 15t. Os dados abaixo foram obtidos de cinco fábricas diferentes de uma determinada indústria. que o coeficiente de correlação. 18.1) 0. (b) Determine um intervalo de confiança de 95% para o custo marginal dessa indústria. para uma produção de 15t. Pode-se concluir aos níveis de significância (19. foi calculado como sendo 0.05 e (19. utilizando uma confiança de 95%. (c) Faça uma previsão. através de um intervalo.05? 19. Um coeficiente de correlação. para o custo total dessa indústria. baseado em uma amostra de tamanho n = 18. com uma significância de 1%. estas duas equações poderiam ser usadas para predizer a quantidade produzida nas duas safras? Por quê? (b) Qual das duas safras tira mais proveito do aumento das chuvas? Por quê? (c) Para qual das duas safras é possível predizer a produção com melhor aproximação? Por quê? 17. Se o coeficiente de correlação entre X e Y é 0. correspondente na população é diferente de zero? 20. através de um intervalo.01. (c) Faça uma previsão do número de carros se o número de contribuintes tributáveis for de 500 mil. Examine os cinco pares de pontos dados na tabela X Y -2 4 -1 1 0 0 1 1 2 4 (a) Qual é a relação matemática entre X e Y? (b) Determine o valor de r. (d) Por que. X = número de rendas tributáveis (em milhares) Y = Número de carros de passageiros (milhares) 192 23 80 11 162 13 246 31 310 91 (a) Verificar se existe correlação entre as duas variáveis.21. não existe relação entre X e Y como estão indicando b e r? 22. (c) Mostre que calculando-se a linha de regressão de Y em relação a X tem-se b = 0. Os dados abaixo representam o número de rendas pessoais tributáveis e o registro de automóveis de passageiros. em uma determinada região. aparentemente. (d) Determine a equação de regressão de X em função de Y. (b) Determine a equação de regressão de Y em função de X. 203 . caso o coeficiente de correlação seja significativamente diferente de zero. 9986 0.7422 0.9936 0.9999 1.9994 0.9953 0.5 3.9222 0.9998 0.0 0.9998 0.5557 0.9993 0.8708 0.9999 1.6772 0.9878 0.8461 0.06 0.5 1.7324 0.9999 0.3 2.9582 0.9977 0.07 0.9999 1.9988 0.0000 0.9744 0.8599 0.5398 0.9846 0.9812 0.9 3.9990 0.9975 0.02 0.9719 0.9983 0.9948 0.9998 0.9808 0.9292 0.9015 0.8212 0.9997 0.9991 0.9732 0.0000 204 .8729 0.9099 0.9949 0.9750 0.9985 0.01 0.2 2.9990 0.5948 0.9973 0.6026 0.9115 0.9861 0.9738 0.6554 0.5478 0.9854 0.9484 0.5279 0.9599 0.9922 0.9979 0.7580 0.8810 0.9699 0.9999 1.7 3.7517 0.9641 0.9999 0.7642 0.9066 0.9938 0.9678 0.5871 0.9904 0.9082 0.9985 0.9345 0.9999 0.6217 0.6 0.8869 0.9971 0.8 1.9974 0.9633 0.0 3.9726 0.5160 0.0000 0.5040 0.9966 0.9999 1.9998 0.9998 0.9251 0.9761 0.0 2.9767 0.9979 0.9306 0.9997 0.7704 0.9913 0.8159 0.9995 0.4 2.9940 0.9778 0.9992 0.7088 0.9429 0.05 0.6 3.7 0.5 0.9564 0.6141 0.9995 0.9995 0.9998 0.6628 0.7157 0.5753 0.03 0.5793 0.8643 0.9803 0.9996 0.9713 0.9887 0.9871 0.8665 0.9999 0.7357 0.6591 0.9864 0.9793 0.6103 0.9265 0.9671 0.5239 0.8264 0.9452 0.5636 0.9996 0.1 0.4 3.9918 0.9999 0.7734 0.9131 0.9505 0.9934 0.8051 0.04 0.9999 0.9608 0.9959 0.9992 0.9977 0.8340 0.8023 0.6985 0.9890 0.9996 0.9991 0.9896 0.9370 0.9901 0.5438 0.9207 0.9980 0.2 0.7823 0.6443 0.6293 0.9999 0.6700 0.5 2.9997 0.8 3.9991 0.9976 0.9996 0.9998 0.9995 0.6 2.9842 0.9 0.9625 0.9929 0.9857 0.9999 0.5000 0.9911 0.8621 0.8106 0.9993 0.5199 0.08 0.9999 0.7486 0.9964 0.9931 0.9998 0.7673 0.6368 0.0000 0.9984 0.9961 0.9821 0.9868 0.6255 0.9817 0.5596 0.8485 0.9996 0.8238 0.9382 0.9997 0.9960 0.9441 0.9406 0.9943 0.3 1.9997 0.9906 0.5910 0.9319 0.9357 0.9850 0.6950 0.9987 0.8944 0.7257 0.8389 0.5319 0.6064 0.9962 0.9830 0.4 1.9946 0.9994 0.8997 0.9998 0.7967 0.9515 0.3 0.6808 0.6844 0.5359 0.9798 0.9049 0.9898 0.9664 0.8577 0.8962 0.8770 0.9920 0.9162 0.9999 0.9987 0.9463 0.9 1.0 1.6664 0.8830 0.9706 0.9989 0.9965 0.9927 0.6517 0.2 1.8508 0.7881 0.9177 0.8980 0.9999 0.8315 0.9997 0.9989 0.6179 0.7054 0.9916 0.8554 0.9999 0.9957 0.9997 0.0000 0.5987 0.9838 0.9972 0.5517 0.9941 0.7794 0.9932 0.7123 0.9881 0.8888 0.9999 1.9893 0.9999 0.1 2.1 3.9693 0.9 2.9997 0.9545 0.0000 0.7 1.9909 0.1 1.0 0.8365 0.9951 0.8186 0.9884 0.4 0.9968 0.9147 0.9955 0.6331 0.9994 0.7764 0.9999 0.7019 0.7389 0.9994 0.7995 0.8133 0.6915 0.5832 0.7454 0.9686 0.9969 0.9756 0.7224 0.9616 0.9982 0.8849 0.9332 0.7291 0.8 0.9554 0.8438 0.9970 0.9999 0.5675 0.9656 0.9834 0.9999 1.9279 0.9998 0.8686 0.9998 0.9999 0.9925 0.9956 0.9988 0.9989 0.9963 0.9945 0.0000 0.7190 0.6406 0.9995 0.9982 0.0000 0.Tabela da Distribuição Normal Padrão P(Z<z) z 0.9418 0.5080 0.8907 0.7611 0.09 0.9993 0.9998 0.9826 0.9535 0.7852 0.5714 0.9999 1.9999 0.7910 0.9394 0.6736 0.9875 0.9967 0.9649 0.8790 0.7 2.9474 0.9990 0.9995 0.8289 0.9999 1.9981 0.9772 0.9999 0.9783 0.9032 0.9999 1.8925 0.9986 0.3 3.8531 0.0000 0.9996 0.9525 0.2 3.9992 0.9978 0.6879 0.9997 0.9236 0.7549 0.6 1.9994 0.9952 0.9981 0.9992 0.9984 0.9974 0.6480 0.9591 0.9573 0.9788 0.0000 0.8078 0.8 2.9993 0.9987 0.9495 0.8413 0.7939 0.9998 0.5120 0.9192 0.9997 0.8749 0. 0548 0.0001 0.0183 0.0002 0.1131 0.01 0.3936 0.2843 0.0002 0.0146 0.4052 0.0516 0.0003 0.02 0.2 -0.0102 0.1611 0.1314 0.2451 0.0002 0.0000 205 .0032 0.3974 0.2177 0.4404 0.0001 0.0934 0.0003 0.09 0.4207 0.0113 0.4641 0.7 -3.0122 0.1151 0.0001 0.0004 0.1190 0.0002 0.0060 0.0838 0.3859 0.0034 0.1003 0.0375 0.0001 0.0002 0.0268 0.1539 0.0119 0.0000 0.2090 0.0001 0.0048 0.8 -2.0002 0.3783 0.1660 0.0001 0.0021 0.9 -3.0028 0.7 -0.0024 0.0005 0.0099 0.0764 0.0021 0.4960 0.4920 0.0004 0.0526 0.0001 0.8 -1.2327 0.3821 0.0250 0.0307 0.0985 0.1230 0.0007 0.3336 0.7 -1.0055 0.3483 0.0823 0.0096 0.0001 0.0170 0.4325 0.1894 0.0301 0.0 -1.0010 0.0005 0.0000 0.1251 0.0179 0.1867 0.1271 0.04 0.0 -0.1949 0.0485 0.0446 0.0008 0.0000 0.3015 0.1170 0.0132 0.0708 0.1 -0.4443 0.0038 0.0035 0.0064 0.4286 0.0192 0.0062 0.0003 0.1841 0.0003 0.0075 0.3 -3.0281 0.0007 0.9 -1.0002 0.0594 0.2912 0.0001 0.1093 0.0002 0.0013 0.0014 0.0000 0.0002 0.1515 0.0011 0.3557 0.0217 0.2061 0.1922 0.3050 0.0037 0.1357 0.0793 0.0000 0.0001 0.0006 0.0869 0.0006 0.9 0.0043 0.0023 0.0003 0.0475 0.2810 0.1 -3.3707 0.0031 0.0001 0.0006 0.1056 0.0029 0.4013 0.3228 0.0009 0.6 -2.0 0.0005 0.0150 0.0367 0.0294 0.0582 0.0003 0.0082 0.1562 0.2296 0.1446 0.0274 0.0007 0.0154 0.2206 0.0036 0.0039 0.0197 0.2676 0.0643 0.0015 0.0359 0.4168 0.0009 0.0158 0.4364 0.0465 0.07 0.5000 0.5 -1.0069 0.3192 0.08 0.0239 0.1379 0.0139 0.0001 0.0749 0.0233 0.0030 0.0401 0.2119 0.0571 0.0901 0.2611 0.0351 0.0853 0.4 -2.0073 0.4801 0.6 -0.3085 0.6 -3.0001 0.0084 0.0 -2.0104 0.3745 0.0008 0.0001 0.0003 0.0455 0.0116 0.0005 0.0025 0.0001 0.0001 0.0012 0.2 -2.0006 0.0019 0.0011 0.0336 0.3632 0.0212 0.3446 0.1401 0.0005 0.0427 0.0012 0.0001 0.03 0.0010 0.2546 0.0001 0.0136 0.0606 0.0107 0.0091 0.3409 0.0344 0.4721 0.0071 0.1075 0.5 -2.1335 0.0002 0.0033 0.1469 0.0019 0.0885 0.3897 0.3156 0.2389 0.2 -1.0008 0.0001 0.0436 0.1492 0.0005 0.0045 0.2 -3.1210 0.2743 0.0129 0.05 0.2483 0.0047 0.4761 0.0721 0.0951 0.06 0.1587 0.0016 0.0003 0.8 -0.3520 0.0174 0.2981 0.1112 0.2033 0.1 -1.0004 0.3121 0.0125 0.0052 0.0020 0.3372 0.1685 0.0003 0.4880 0.0110 0.0 -3.2877 0.0087 0.0001 0.0162 0.0166 0.0778 0.0143 0.2514 0.0044 0.0001 0.0681 0.5 -3.0329 0.0006 0.0262 0.0668 0.0808 0.1977 0.0057 0.0256 0.0000 0.0384 0.4602 0.0068 0.3 -2.1423 0.2578 0.0001 0.4522 0.0287 0.0014 0.0002 0.0066 0.1788 0.0010 0.0017 0.1814 0.0004 0.0735 0.3669 0.1711 0.0054 0.0051 0.0694 0.0015 0.1038 0.0018 0.0000 0.0026 0.3264 0.4840 0.3 -1.0003 0.0409 0.0322 0.2148 0.0004 0.4 -3.0001 0.4 -0.0008 0.2266 0.0202 0.0041 0.0392 0.2420 0.1292 0.0001 0.2005 0.0188 0.4090 0.0027 0.4483 0.0002 0.1762 0.7 -2.9 -2.P(Z<z) z 0.3 -0.0040 0.4247 0.0001 0.0009 0.0618 0.0968 0.0001 0.1635 0.4129 0.0059 0.0016 0.0559 0.2643 0.3300 0.0630 0.0013 0.0004 0.5 -0.0207 0.2236 0.0002 0.0655 0.0000 0.0505 0.0314 0.0022 0.2946 0.4562 0.4681 0.0011 0.6 -1.2776 0.1020 0.1 -2.0089 0.0244 0.0228 0.0537 0.2358 0.0080 0.0222 0.1736 0.0418 0.3594 0.0078 0.4 -1.0013 0.0049 0.0026 0.0094 0.0001 0.0018 0.0007 0.8 -3.0000 0.0918 0.0023 0.2709 0.0001 0.0495 0. 467 2.694 0.753 1.683 0.787 3.980 1.541 3.756 2.527 3.683 0.729 1.552 3.684 1.132 2.440 1.106 3.228 2.718 2.05 6.701 1.356 1.686 3.771 2.898 2.355 3.309 22.042 2.479 2.110 2.671 1.821 2.326 0.683 0.101 2.714 1.617 2.878 2.330 1.646 3.450 3.747 3.733 3.282 0.920 2.005 63.Distribuição t de Student g.707 3.341 1.l.485 3.96 0.074 2.690 0.893 5.645 0.689 0.896 2.250 3.313 1.684 0.160 2.328 1.015 1.350 1.812 1.311 1.303 3.025 12.638 1.319 1.819 2.173 5.383 1.725 1.947 2.435 3.160 3.232 3.930 3.579 3.657 9.925 5.143 2.485 2.727 0.684 0.711 1.895 1.761 1.501 4.796 1.492 2.321 1.297 4.476 1.750 2.325 1.686 0.921 2.688 0.385 3.977 2.764 2.684 0.314 1.740 1.012 2.943 1.001 318.721 1.055 3.208 4.746 1.779 2.315 1.741 0.423 2.861 2.660 2.316 1.816 0.776 2.318 1.144 4.624 2.447 2.687 0.821 6.457 2. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 0.831 2.508 2.965 4.069 2.048 2.787 2.860 1.323 1.674 0.700 0.685 0.650 2.718 0.120 2.518 2.056 2.681 0.467 3.215 7.691 0.353 2.499 3.765 0.093 2.080 2.307 3.807 2.692 0.1 3.505 3.688 0.658 1.169 3.333 1.289 1.327 10.25 1.025 3.201 2.262 2.390 2.704 2.677 0.000 1.078 1.296 1.397 1.697 0.145 2.604 4.703 1.314 2.473 2.539 2.717 1.706 0.602 2.552 2.408 3.421 3.306 2.052 2.064 2.415 1.345 1.681 2.845 2.365 2.363 1.396 3.697 1.01 31.841 4.372 1.182 2.500 2.771 1.998 2.528 2.797 2.734 1.699 1.685 0.610 3.131 2.337 1.462 2.695 0.533 1.179 2.852 3.686 0.763 2.708 1.785 4.021 2.060 2.032 3.086 2.886 1.567 2.706 1.711 0.576 0.000 0.045 2.303 1.358 2.571 2.706 4.09 ∞ 206 .782 1.679 0.583 2.703 0.365 3.833 1.310 1. 207 .

Comments

Description