Universidade Estadual de LondrinaCentro de Ciências Exatas Departamento de Estatística Estatística Aplicada à Veterinária Prof. Silvano Cesar da Costa L O N D R I N A Estado do Paraná - Brasil Sumário Página Lista de Tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lista de Figuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Introdução 2 Aplicações da Estatística 1.2 Planejamento de uma pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Vantagens da amostragem sobre o censo . . . . . . . . . . . . . . . . . . . . 5 Amostragem 9 2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Técnicas de Amostragem 2.3 x 1 1.1 1.2.1 vi 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2.1 Amostragem simples ao acaso ou amostragem aleatória simples . . . . . . . . 10 2.2.2 Amostragem sistemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.2.3 Amostragem estraticada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Etapas de uma pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3 Conceitos elementares 20 3.1 Divisão da estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.2 Tipos de variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.3 Dimensionamento da amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.3.1 Determinação do tamanho amostral para variáveis qualitativas . . . . . . . . 24 3.3.2 Determinação do tamanho amostral para variáveis quantitativas . . . . . . . 25 4 Estatística Descritiva 4.1 4.2 4.3 30 Organização e apresentação de dados . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.1.1 Elementos essenciais de uma tabela . . . . . . . . . . . . . . . . . . . . . . . 30 4.1.2 Elementos complementares de uma tabela . . . . . . . . . . . . . . . . . . . 32 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.2.1 Construção de uma distribuição de frequência de variáveis discretas . . . . . . 33 4.2.2 Construção de uma distribuição de frequência para variáveis contínuas . . . . 35 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Distribuição de frequências Tabelas de dupla entrada 5 Grácos 5.1 5.2 5.3 42 Apresentação gráca de variáveis qualitativas . . . . . . . . . . . . . . . . . . . . . . 43 5.1.1 Gráco em colunas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 5.1.2 Gráco em barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 5.1.3 Gráco em colunas justapostas . . . . . . . . . . . . . . . . . . . . . . . . . 47 5.1.4 Gráco em colunas compostas . . . . . . . . . . . . . . . . . . . . . . . . . 48 5.1.5 Gráco em setores circulares . . . . . . . . . . . . . . . . . . . . . . . . . . 50 5.1.6 Gráco em setores retangulares . . . . . . . . . . . . . . . . . . . . . . . . . 52 Apresentação gráca de variáveis discretas . . . . . . . . . . . . . . . . . . . . . . . 53 5.2.1 Gráco em bastão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 Apresentação gráca de variáveis contínuas . . . . . . . . . . . . . . . . . . . . . . . 54 5.3.1 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 5.3.2 Polígono de frequências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 5.3.3 Gráco de ramo-e-folhas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Construção de um gráco ramo-e-folhas . . . . . . . . . . . . . . . 56 5.3.3.1 5.4 5.3.4 Gráco de Caixas (ou Box Plot ) . . . . . . . . . . . . . . . . . . . . . . . . 57 5.3.5 Gráco de dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 5.3.6 Gráco de Setores Proporcionais . . . . . . . . . . . . . . . . . . . . . . . . 59 5.3.7 Gráco de Linhas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Ilusão dos Grácos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 6 Medidas de Posição 64 6.1 Média Aritmética Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 6.2 Média Aritmética Ponderada 65 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3 Média Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 6.4 Mediana 70 6.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4.1 Determinação da mediana de valores não tabulados . . . . . . . . . . . . . . 70 6.4.2 Mediana de dados agrupados em classes . . . . . . . . . . . . . . . . . . . . 72 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 6.5.1 . . . . . . . . . . . . . . . . . . . . 73 . . . . . . . . . . . . . . . . . . . . . . 77 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 6.7.1 Separatrizes de dados não agrupados . . . . . . . . . . . . . . . . . . . . . . 77 6.7.2 Separatrizes de dados agrupados . . . . . . . . . . . . . . . . . . . . . . . . 79 6.7.3 Gráco de caixa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 Moda para dados agrupados em classes 6.6 Utilização das medidas de tendência central 6.7 Medidas Separatrizes 6.8 Assimetria e Curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 6.8.1 Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 6.8.2 Curtose 86 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Medidas de dispersão ou variabilidade 92 7.1 Amplitude Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 7.2 Desvio Absoluto Médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 7.3 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 7.3.1 Variância de Dados Brutos Populacionais . . . . . . . . . . . . . . . . . . . . 95 7.3.2 Variância de Dados Brutos Amostrais . . . . . . . . . . . . . . . . . . . . . . 95 7.3.3 Variância de Dados Agrupados . . . . . . . . . . . . . . . . . . . . . . . . . 97 7.3.4 Propriedades da variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 7.4 Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 7.5 Coeciente de Variação 100 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Análise Combinatória 107 8.1 Fatoriais 8.2 Princípio Fundamental da Contagem . . . . . . . . . . . . . . . . . . . . . . . . . . 108 8.3 Permutações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 8.3.1 . . . . . . . . . . . . . . . . . . . . . . . . . . 111 Arranjos e Combinações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 8.4.1 114 8.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Quantidade de Permutações Combinações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 . .2 Espaço Amostral . . . . . . . . . . . 127 9. . . . . . . .4. . . . . . . . . . .5 Quantidade de Arranjos . . . . . . .5. . . . . . . . . . . . . . . . . . . . . . .1 Experimento Aleatório . . . . . . . . . . . . . . . . . . . . . . . 123 .2 Interseção de Eventos: . . . . 138 9.2 Variável Aleatória Discreta 146 . . . . . . . . . . . . .2 Conceitos Básicos em Probabilidade . . . . . .4 Eventos Disjuntos: . . . . . . . . . 127 9. . . . . 128 Probabilidade Condicional . . 117 8. . . . . . . . . . . 128 Conceito Clássico ou a priori 9. . . . . . . . . . . . . . . . .4. . . . . 126 9. . . . . . . . . . . . . . . . . . . . . .4. 122 9. . . .4. . . 10. . . . . . . . . . . . . . . . . . . . 136 9. .2 Aplicação da Probabilidade Condicional . . . . . 122 Conceito de Probabilidade . . . . . . . . . . . . . . . . . . . .4. . . . . .4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1. . . . . . . . . . . . . . . . . . . . . . .2. . . . . . . . . . . . . . . . 141 10 Variáveis aleatórias discretas 10. . . . . . . . . . 127 9. . . . . . . . . . .6 Quantidade de Combinações 118 . . . . . . . . . . . . . . .5. . . .1. . . . . . . . . . . . . . . . . . .4 Probabilidade da Intersecção de Dois Eventos 9. . . . . . . . . 148 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7 Teorema de Bayes . . . . . 115 8. . . . . . .1 União de Eventos: . . . . . . . . . . . . . . . . . 148 10. . . . . . . 137 Amostragem Sem Reposição . . . . . . . . . . . . . . .1. . . .2. . . . . . . . . . . . . . . . . . . . . . . . .1 Distribuição de uma Variável Aleatória .5. .4. . . . . . . . . .2 Arranjos . . . . 126 9. 133 9. . . . . . . . . . . . . . . . . . . . . . 121 9. . . . . . . . . . . . . . . . . . .5. . . . . . . . . . . . . . . . . . . .1 Conceitos Iniciais 146 . . . . . . . .5. . . . .5. . . . . . . . . . 121 9. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Noções sobre a teoria das probabilidades 9. . . . . . . . . . . . . .2 9. . .1. . . . . . . . . . . .6 Amostragem com Reposição . . . . . .1.1 9. . . . . .5 Complemento: .1 9. . . . 126 . . . 132 9. . . . . . . . . . . . . . . .1. . . . . . .5 . .4 Diagramas de Venn 9. . . . . . . . . .3 Evento . . . . . . . . . . . .3 Propriedades da Probabilidade 9. . . . . . . .5. . . . . . . . . . . . . . . . . . . . . . . . . . . .5 121 Regras de Cálculo de Probabilidades . . . . . . . . . . . . . . . . . . . .1. . . . . . 139 9. .3 Sub-Conjuntos: . . . . . . . .1 . . . . .4. . . . . . . . . . . . . . . . . 126 Operações com Eventos . . . . . . . . . . . . . . . . 131 9. . . . . . .3 Valor das Predições . . . . . .8. . . . .1 Probabilidade Condicional no Diagrama de Venn . . .1. 123 9. . . . . . . .1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4 Variância de Y . . . .2. . . . . .2 Distribuição Binomial 10. . . 154 . . . . . . . . . . . . . . . . . . . . . . 176 11.3 Uso da Tabela da Distribuição Normal Padrão . . . . . 152 . . . . . . . . . . . . . . . . . . . . . .1 Distribuição de Bernoulli 10. . . . . . . . . . . . . . . . . . . . . . . . .1. . . . . . .1 Distribuição Amostral da Média . . . . . . . .3. . 175 11. . . . 180 12 Introdução à inferência estatística 191 12. . . . . .2 198 Distribuição Amostral da Proporção . . . . . .2 Propriedades da Distribuição Normal . . . . . . . . . . . . . . . . . . . .3 Principais Distribuições de Probabilidades 10. . . . . 154 . . . . . . . . . . . . . . 160 10. .10. . . . . . . . . . . . . . .3 Distribuição de Poisson .3 Valor médio ou Esperança Matemática de Y . . . . . . . . . . . . . . .2. . . . . . . . . 156 10. . . . . . . . . . . .3. . . . . . . . . . . . . . .3. . . . . . . . . . 150 10.4 Aproximação da Distribuição Binomial pela Distribuição de Poisson . . . 164 10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5 Distribuição acumulada de uma variável aleatória . . . .1 Distribuição Normal . . . . . . . . . . . . . 151 10.2 Distribuição Normal Padrão . . . . 175 11. . . . . . . .3. . . .2. . . . . . . . . . .1 Introdução . .5 Distribuição Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 11 Variáveis aleatórias contínuas 172 11. . . . . . . . . .3. . . . . .2 Função de Probabilidade . . . . . . . 192 12. .2. . . . . . . . . . 149 10. . . . . . . . . . . . . . . . . . . . . . . . . . . 178 11. . . . . . . . . de Londrina. 16 ano do curso de Medicina Veterinária. . . 36 de 30 cães das raças Fila Brasileiro e Pastor Alemão. . . . . . . . Tabela 4. . . . . . Tabela 4. .1 - Animais atendidos no Hospital Veterinário (HV) da Universidade Estadual de Londrina (UEL). . segundo a classicação de Gaines (1994). . . . . . . . . . . . 34 Frequências dos intervalos entre cios observados em um rebanho leiteiro da raça Holandês. . . . . . . . . . 2002. . . . . . . . . . . Tabela 2. . . . . . . . .5 - 27 Espécies de animais atendidos no Hospital Veterinário da Universidade Estadual Veterinário da UEL em 2005. . . Londrina . . coletados no Hospital Veterinário da UEL. . . . . . . Tabela 1. . . .3 - 21 Dados parciais coletados no Hospital Veterinária da Universidade Estadual de Londrina. Tabela 4. . . . . . . . .3 - Tamanho amostral e erro de precisão.2 - . . .Lista de Tabelas Página mg/100 ml. . . . . . . . . . . . . ano 2013. . . . . Tabela 2. . . . . . . . 11 . . do ano de 2005. . .4 - .1 - Ácido arcórbico. da Universidade Estadual de Londrina. em 2003.2 - 7 Distribuição de frequência dos pesos (kg) . . . . . em . . . . . . . Tabela 4. Tabela 4. . . . . . . . . coletados por alunos do curso de Medicina Veterinária da Universidade Estadual de Londrina. . . . . . . . . . . . . . . . . Tabela 3. . . . . . . . . . . 38 . . . . 28 31 32 Número de lhotes de cadelas submetidas a inseminação articial no Hospital . . . . . Tabela 3. . . . . .1 - Dados sobre tilápias do Nilo. . . . . .1 - Dados dos alunos do 1o . . . . . . . . . . . . . . no ano de 2005. no ano de 2005. . .Paraná. . . . . . . . . . . . . . . . . . . . . . .2 - Diagnósticos de radiograas de tórax Tabela 3. . . . . . . . . . . . . . . . .1 . Tabela 7.2 - Desvios e desvios absolutos para pesos dos animais da raça Alaska. . . Tabela 7. . .2 . . . 96 Tabela 7. . . . . . . . . . . . . . segundo a causa atribuída. . . . . . . . . . . . . . . . . . 132 134 Resultados da tomograa computadorizada em 67 pacientes com metástase e 83 sem metástase do carcinoma hepático. . . . . . . . . . 89 . Tabela 6.Distribuição da variável aleatória Y. . . .6 - Peso médio em ratos por idade. .4 - Peso médio (kg) das leitegadas da raça Landrace. 92 . . . . . . . . . .1 - Distribuição dos animais quanto ao Porte e Sexo. . . . . . . . . . .3 - Tabela 9. . . . . .4 - horas) . . . . . . . . . . . . . Tabela 9. .1 - Número de atendimentos no Hospital Veterinário. . . . . . . . . . . . . Tabela 6. . . . . . . . . . . . . . . de Bernoulli. Tabela 9. . .2 - . . . . . . . . . . . . . . . . . Tabela 9. . . . . . Tabela 6. . . . . . . . . . . . . . . . . 73 80 . . . . . . . . Tabela 4. . . . . 105 . . .3 - 67 . . . 135 Probabilidades necessárias para o cálculo dos índices VPP e VPN. Tabela 10. em 43 crianças. . . . . . .5 - Suicídios ocorridos no Brasil em 1986. . Tabela 6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 .2 - Esquema padrão de síntese dos dados para vericação da qualidade de um teste clínico. . coletados no Hospital Veterinário da Universidade Estadual de Londrina.7 - Número de cabeças da produção pecuária dos estados do Sul do Brasil em 2012. . .6 - Pesos dos frangos de uma granja. . . . .4 - Pesos das carcaças de bovinos. .1 - Distribuição de frequência dos pesos (kg) . . . . . . . . . . . . Tabela 7. . . . . . . . . . . . . . . . de 30 40 62 cães das raças Fila Brasileiro e Pastor Alemão. . Tabela 6. . . . . . . . 94 Tabela 7. . . Efeito da temperatura de armazenamento e tempo após a ordenha sobre o crescimento bacteriano. . . . . . . 68 Tempo (em semanas) de sobrevida de ratos com câncer induzido experimentalmente. . . . . ao nascer. . . . . . .3 - Desvios e quadrado dos desvios para pesos dos animais da raça Alaska . . .Distribuição da variável aleatória Y . . . . .6 - Acasalamentos fecundos e infecundos por raça. . . . . . . Tabela 7. 90 .1 - Pesos de cinco coelhos de quatro raças distintas. . . . . . . . . . em 2003. . . . . . . . 103 . . . . . . . . . . . . . . .Tabela 4. . . . . . . . . 136 Tabela 10. . . . . . . . . 98 Tabela 7. . . . . .7 - Distribuição de frequência da dosagem de ácido úrico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .8 - Número de acidentes na rodovia X. . . . . . . . . . 41 Tabela 5. Tabela 6. . 148 155 . . . .5 - Teor de gordura (g/24 Tabela 7. . . . . . . . . . . 104 . . . . no primeiro semestre de 2003. . . . . . . da Universidade Estadual de Londrina. . . . . . . . . . . 194 . . . . .Distribuição das Médias . . . . Tabela 12. . .1 . . . 163 . . . .3 . . . . .Tabela 10. . . . . . . . . . . . . .Número de consultas realizadas pelos liados ao plano de saúde. . . . Figura 5. . nos últimos 50 dias. . . . . . . . . . da Universidade Estadual de Londrina. . Percentual de raças caninas atendidas no Hospital Veterinário da Universidade Estadual de Londrina em 2003. . . . . . . . . . . . . . . . . . . nos últimos 50 dias. . .11 .12 . . . . . . . . . . . . . . . 51 52 Figura 5. . . . . . . .Lista de Figuras Página Figura 5. . . . . . . . . . . .3 - . . Figura 5. . . . . . . . . . . . Figura 5. . . . Relação entre tolerância ao cigarro e gênero dos estudantes.4 - 43 . . . . . . . . . . . . . .Número médio de atendimentos diários. . 49 Figura 5.8 - 50 Categoria dos animais atendidos no Hospital Veterinário da Universidade Estadual de Londrina. . . . . do Hospital Veterinário. . . . . . . . . no ano de 2005. . . . . . . . . . . . . . . .5 - Produção pecuária dos estados do sul do Brasil no ano de 2012.2 - . . . . . . . . . . . . . . . 54 Figura 5. . . . da Universidade Estadual de Londrina. . . .1 - Raças caninas atendidas no Hospital Veterinário da Universidade Estadual de Londrina em 2003. . . . . . . . . . . . . . . . no ano de 2005. 55 . . . . . . . . . . . . . . . . . 46 Figura 5. . . .10 . 45 Raças caninas atendidas no Hospital Veterinário da Universidade Estadual de Londrina em 2003. .Número de atendimentos diários. 47 Figura 5. . . do Hospital Veterinário. . . . . . . Figura 5. . . . .Número de lhotes de cadelas submetidas a inseminação articial no Hospital Veterinário da UEL em 2003. . . .7 - Categoria dos animais atendidos no Hospital Veterinário da Universidade Estadual de Londrina. . . . . . 44 Cor dos Olhos dos alunos do 1º ano do curso de Medicina Veterinária da Universidade Estadual de Londrina em 2011. . . . 53 Figura 5. . . . . . . . . . . . . . Figura 5. . . . . . . . . . . . . .9 - . . . . . . . . . . .6 - Produção pecuária dos estados do sul do Brasil no ano de 2008. . . . . . . . . .Gráco da Distribuição Normal. . . . . 161 1 3 y . . . . .Relação entre peso e comprimento de tilápias do Nilo. em 2003. . .15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4 .16 . . . . . . . . . . . . . . . 58 Figura 5. . . . . 176 Figura 11. . . . . . . . 177 Figura 11. . . . .4 - ±1 desvio da média. . . . . . . . . 2003. 4 . . . 2003. . . . . . . . .1 . . . . . . . . . . . . .Peso médio de 10 tilápias. . . . . . para sucesso p = 0. do tanque de piscicultura da Universidade Estadual de Londrina. Figura 10. 83 Frequências respiratórias dos animais atendidos no Hospital Veterinário. . . 177 Figura 11. . . . . . . . . . . . . . . . 74 . . . . . . . . do tanque de piscicultura da Universidade Estadual de Londrina. . . . . . . . . . . . . . . . . . 2005. . . . . . . . . . . . . .3 .14 .Gráco Correto. . . . . . . . . . . . . . 60 Figura 5. . . . . . 176 Figura 11. . . . . . . . . . . . . .8 . 177 Figura 11. . da Universidade Estadual de Londrina. . . . . . . . . . . .7 .4 - . Figura 10. 177 178 . em 2003. . . . . . . . . . .2 - Esboço do gráco de caixas. . . . da Universidade Estadual de Londrina. . . Figura 6. . .Figura 5. . . . . . .0. . . . 173 Figura 11. . .17 . . . 62 Figura 5. . . . . . . .2 . . . .3 . .6 - ±3 desvios da média. . . . 30. . . . . Figura 6. . . . . .18 . . Figura 6. . . . . .1 .Relação entre peso e comprimento de tilápias do Nilo. . . . . 62 Figura 5. . . . . . .13 .Gráco da distribuição Binomial. . . . . . . . . . . . .2 . . . . . . .Distribuição acumulada da prenhez dos animais. . . . . . . .Áreas sob a curva normal. . . . . 157 Figura 10. . . .Probabilidade entre as áreas a e b. . . . . . . . . . . . . . . . . . controladas para a variável tempo de recuperação da anestesia. . . . . . . 61 . . . . . . . . . . . . acompanhadas durante 8 semanas. . . . . . . . . . . . . . . . . . . . 153 ensaios com probabilidade de . . . . . . .Relação entre médias e desvios da distribuição normal. . . . . . . . . . . . .Gráco das probabilidades de prenhez dos animais. . . . . . . . . . . . . . 59 Figura 5.Gráco da distribuição de Poisson. . . . . . .3 - Frequência cardíaca dos animais atendidos no Hospital Veterinário. . . . . . . . . . . . . . . . . . . . . . . . . . . . . do número de atendimentos do Hospital Veterinário da UEL. . . . . . . . . . . . . . . . . . . . . .Gráco da função f (y) = Figura 11. 148 . . . . . . . . . . . . . . Figura 10. . . . . . n = 10 87 .5 - ±2 desvios da média. Figura 11. . . . . . . . . . . 83 Figura 6. . . . . . . . . . . . cuja média (λ) é 4. .1 - Esquema para obtenção da moda pelo método de Czuber. . do tanque de piscicultura da UEL.Gráco distorcido.Comparação de pesos (g) de tilápias para quatro equipes de alunos do curso de Medicina Veterinária da Universidade Estadual de Londrina em 2003. . . . .Figura 11. . . 179 . . . . . . . . . . . . . . . . .9 . .Áreas sob a curva normal padrão. . O pensamento estatístico será um dia tão necessário para o cidadão quanto a habilidade de ler e escrever. que estão em toda parte. G. sejam de contagens ou mensurações. trata da organização.Capítulo 1 Introdução A estatística. (Bartholomew. interpretação e apresentação de dados. estabelecendo faixas de conança para a ecácia dos tratamentos e vericando a inuência de fatores de risco no aparecimento de doenças. A palavra estatística está associada à idéia de coleção de dados (números). Mesmo sem serem estudiosos da área. entre elas: Estatística é a arte e ciência de coletar. as pessoas convivem com informações estatísticas praticamente todos os dias. H. (Wells. 1993) A estatística preocupa-se com a compreensão do mundo real através da informação que nós extraímos da classicação e mensuração. analisar e interpretar dados. Várias denições são dadas à estatística. A Bioestatística fornece métodos para se tomar decisões ótimas na presença de incerteza. televisão. 1 . Sua característica distintiva é lidar com a variabilidade e a incerteza. Estatística é a ciência de fazer uso efetivo dos dados numéricos relativos aos grupos de indivíduos ou de experimentos. seja através de rádio. 1995) Ao conjunto de métodos estatísticos usados no tratamento da variabilidade nas ciências médicas e biológicas. A estatística é uma ciência da tomada de decisão diante de incertezas. jornais ou relatórios técnicos das mais diversas áreas.. convencionou-se chamar de Bioestatística. de uma forma geral. Concórdia. SC . Choleraesuis e Anatum. Devido a complexa ecologia da Salmonela. ambiência e condições higiênico-sanitárias do rebanho. foi submetida a contagem de coliformes e pesquisa de Salmonela pela técnica bacteriológica e por PCR. O estudo conduzido foi observacional transversal em 33 granjas de ciclo completo e 32 unidades de terminação de leitões nos estados do RS e SC. utilizando o sistema de identicação e registro de dados eletronicamente. A ração. Introdução 1. cuja eliminação reduzirá o número de suínos portadores de salmonela ao abate.2 Capítulo 1. Em cada granja foi aplicado um questionário que contemplava informações sobre manejo. Exemplo 2: Fatores de Risco Associados com a Prevalência Sorológica de Salmonela em Granjas Comerciais de Suínos do Sul do Brasil2 . Uma amostra foi considerada a partir do erro admissível. Os 50 leitões foram identicados ao nascer e as variáveis peso e conversão alimentar serviram de base para comparação entre os dois sistemas. Alguns exemplos da aplicabilidade da estatística na Medicina Veterinária são: Exemplo 1: Comparação do uso de rastreabilidade para suínos em grupo e individual1 Com o acréscimo da demanda do mercado consumidor nacional e internacional por dutos rastreados. estudos epidemiológicos têm sido realizados para identicar os fatores de risco para a infecção. Foi coletado sangue de aproximadamente 40 animais uma semana antes do abate. Durante a visita foram também coletadas amostras de água e ração. avaliadas quanto à presença de coliformes pela técnica de fermentação em tubos múltiplos. praticamente todo campo de estudo se benecia da utilização de métodos estatísticos. estabelecido pelo produtor. Este trabalho teve como objetivo comparar dois tipos de rastreabilidade em suínos: individual e de grupo. pro- urge o desenvolvimento de conhecimento sobre processos de identicação e ras- treamento de informações na produção animal. hoje.Embrapa Suínos . alimentação. O soro foi submetido ao teste de Elisa polivalente para Salmonela dos sorovares Typhimurium. Os resultados destes exames e as respostas do questionário foram usadas na análise de fatores de risco como variáveis explicativas (180 variáveis) e os resultados da prevalência Brazilian Journal of Veterinary Research and Animal Science (2004) 41:327-331 Comunicado Técnico 309 .1 Aplicações da Estatística As aplicações da estatística se desenvolveram de tal forma que. O presente trabalho objetivou identicar esses fatores associados com infecção por Salmonela em granjas de suínos comerciais dos estados do Rio Grande do Sul e Santa Catarina. além da avaliação da granulometria. A identicação da infecção foi realizada através da reação sorológica de suínos na terminação. envolvendo um total de 251 leitões das raças Landrace.Embrapa Suínos . nas primeiras horas da manhã do primeiro dia de vida dos leitões. O planejamento possibilita ao pesquisador seguir uma disciplina de trabalho não só referente aos procedimentos lógicos.2 Planejamento de uma pesquisa O planejamento de uma pesquisa é essencial para o desenvolvimento de trabalhos acadêmicos e cientícos. logo após o corte o restante da cauda foi mergulhada em uma solução de iodo. Quanto à presença ou ausência de diarréia adotou-se os seguintes critérios: ausência de diarréia (fezes consistentes ou pastosas). Exemplo 3: Corte da cauda em leitões: estudo comparativo de dois métodos3 . Inicialmente. os instrumentos de avaliação e a metodologia a ser usada. SC .Concórdia. de diarréia. Alguns pontos importantes para o planejamento de uma pesquisa são: 1.Planejamento de uma pesquisa 3 sorológica constituíram a variável resposta. Large White e Mestiços destas raças. no TA. O corte foi realizado com o auxílio de uma tesoura e o esmagamento com uma tesoura sem o com os referidos bordos arredondados. O objetivo deste trabalho foi de avaliar a inuência do corte e do esmagamento da cauda. Todos os leitões foram pesados no dia do nascimento e aos 21 dias de idade. foram submetidas a análise de correspondência múltipla. como também em termos de organização de tempo e cumprimento de prazos. através de teste de χ2 . O corte ou o esmagamento da cauda foi sempre realizado ao nível do último terço da cauda. denindo as etapas a serem realizadas. foi estudada a associação entre variáveis resposta e explicativas como análise preliminar. distribuídos nos seguintes tratamentos: Tratamento A (TA) corte do último terço da cauda. Planejamento do problema: ! Comunicado Técnico 173 . 1. As variáveis explicativas associadas com a variável resposta (p ≤ 20). e o ganho de peso dos leitões até os 21 dias de idade. Ele servirá como um roteiro para orientar o trabalho de pesquisa. O experimento foi conduzido no sistema de produção de suínos da EMBRAPACNPSA. Os leitões foram examinados de hora em hora durante as primeiras 10 horas após o corte ou esmagamento da cauda com o objetivo de vericar a ocorrência de hemorragia ou diarréia para os dois tratamento. presença de diarréia (fezes líquidas com ou sem desidratação dos leitões). Os animais do TB foram examinados duas vezes ao dia com o objetivo de determinar o dia da queda da cauda. Tratamento B (TB) esmagamento do último terço da cauda. a nível do último terço da cauda dos leitões sobre a ocorrência de hemorragia. e. em Concórdia/SC. b) determinação do objetivo e nalidade do estudo. p . Avaliação da informação existente: revisão bibliográca. Formulação de hipóteses. σ2 (proporção populacional). pessoas. a partir dela. c) determinação das variáveis que serão observadas (ou coletadas) e a forma como as mesmas serão obtidas (mensuração. apêndices. faz-se inferência sobre as características da população.4 Capítulo 1. bibliograa. Uma amostra tem que ser representativa da população. a formulação de uma hipótese estatística é necessária para sua comprovação ou rejeição. Estatística . s (desvio padrão amostral). Parte nal: conclusão ou discussão. Introdução a) denição da importância do problema que se pretende estudar. etc. etc. análise estatística e apresentação dos resultados. b) Amostra π (média populacional). Vericação da hipótese: consiste da coleta de dados. geralmente desconhecidos e usualmente representados por caracteres gregos. 3. Parâmetro . (variância populacional). 4. São valores xos. questionário.dene-se como população ao conjunto de todos os elementos (animais.). (tamanho da amostra). exceto naquelas meramente descritivas ou exploratórias. Representada por caracteres latinos. a qual se deseja estudar. n (variância amostral). tais como: a) População . s2 (proporção amostral). etc. N σ (desvio-padrão po- (tamanho populacional). plantas. Exemplos: y¯ (média amostral). contagem.é uma medida numérica que descreve uma característica de uma população. etc) que possuam pelo menos uma característica comum. 2.a amostra pode ser denida como um subconjunto da população e. 5. Alguns termos técnicos são bastante comuns na estatística. Exemplos: µ pulacional). . Em toda pesquisa. anexos.é uma medida numérica que descreve uma característica de uma amostra. b) tempo: quando se utiliza a amostragem ao invés do censo. considere uma pesquisa realizada com 30 alunos do primeiro ano. tais como: a) custo reduzido: devido ao número de dados coletados ser menor do que o censo. da UEL. Por outro lado. observado ou medido em cada elemento da população recebe o nome de variável. idade. o custo da pesquisa ca reduzido. uma pesquisa amostral com exames clínicos e laboratoriais pode ser mais informativa do que realizar o censo usando como instrumento de coleta de informação um questionário. e a estatura média foi de µ = 1. 1. do curso de Medicina Veterinária.2. no ano de 2013. gasta-se menos tempo para conclusão do estudo. quando o produto é perecível. trata-se de uma estatística. c) aprofundamento: a pesquisa amostral pode ser mais detalhada. pois trabalha-se com menos elementos. 75 m. no ano de 2013. do curso de Me- dicina Veterinária. O aspecto a ser estudado.Planejamento de uma pesquisa 5 Como exemplo. Neste caso. Algumas técnicas amostrais podem ser utilizadas para a obtenção da amostra. Como essa estatura se baseia em uma amostra. Portanto. a amostragem é a única solução. número de animais eutanasiados. da Universidade Estadual de Londrina. em que a estatura média foi de y ¯ = 1. São exemplos de variáveis: estatura. da Universidade Estadual de Londrina. 74 m. gênero. .1 Vantagens da amostragem sobre o censo Um levantamento por amostragem apresenta algumas vantagens sobre o censo. grau de instrução. etc. Não havendo condições de se trabalhar com todos os elementos da população ( retira-se uma amostra representativa ( censo). número de animais capturados. pois baseia-se em toda a população de alunos do primeiro ano do curso de Medicina Veterinária. renda. ano de 2013. amostragem) da população para o estudo. µ é um parâmetro. peso. visto que são examinados me- nos elementos. Realizou-se a mesma pesquisa com todos os alunos do primeiro ano. k yi . 0 − 8.6 Capítulo 1. i=1 i) Soma dos desvios em relação à média: n ∑ (yi − y¯). yi = {17. com 7 observações: yi = {y1 − y2 − y3 − y4 − y5 − y6 − y7 } . desenvolva algebricamente o seguinte quadrado: n ∑ (yi − y¯)2 . Introdução Exercícios 1) Seja Y a variável tempo. 9} . Calcular (passo-a-passo): a) Soma de todos os tempos: 7 ∑ yi . ( d) Quadrado da soma: i=1 e) Soma de Quadrados: 7 ∑ 7 ∑ )2 yi . 7 − 20. 5 − 8. k) Soma de quadrado dos desvios: n ∑ (yi − y¯)2 . i=1 n ∑ f ) A média aritmética simples dos tempos: g) Suponha a constante k = 15 e calcule y¯ = 7 ∑ yi i=1 n . O que você observa de diferente em relação i=1 ao item anterior? j) Demonstre algebricamente o resultado encontrado no item anterior. c) i=1 b) Soma dos 5 primeiros tempos: 6 ∑ yi . i=1 . 1 − 43. i=1 yi2 . i=1 h) Soma dos desvios em relação a k: n ∑ (yi − k). 9 − 26. em segundos. i=1 l) Considerando-se y¯ como uma constante. de recuperação da anestesia de tilápias. 9 − 28. i=2 5 ∑ yi . 2. . c) i=1 b) k ∑ e) )2 xi fi i=1 xi fi . em Ácido ascórbico (em mg/100ml) Frequências (fi ) Ponto Médio 0. 6. 6 ⊢ 0.1 0.3 0. 2 2 1. 7 tempo (s) de indução da anestesia. Tabela 1. i = 1. 2 ⊢ 0.7 0.1 80 80 Total (xi ) Determine: a) k ∑ fi . 2.9 1. em miligramas por n ∑ yi . 6. . respecti- vamente: xi = {165 − 183 − 161 − 147 − 146 − 152 − 174} Calcule: a) n ∑ xi yi . . b) i=1 n ∑ xi i=1 3) As quantidades de ácido ascórbico. estão indicadas na Tabela 1. 8 35 0. . exames . i=1 100 mililitros. i=1 k ∑ ( k ∑ d) k ∑ x2i fi .1: mg/100 ml. . 0 ⊢ 0. para as mesmas 7 tilápias. . Que medida você encontrou? .Planejamento de uma pesquisa 2) Considere a variável X. 4 6 0. . . . .1 Ácido arcórbico. . 2 3 0. 4 ⊢ 0. presentes em 80 químicos de plasma humano. 6. i = 1. . . 8 ⊢ 1. . 0 16 0. 0 ⊢ 1. 2. . . 6 18 0. i = 1. fi i = 1.5 0. 6. i=1 xi fi i=1 k ∑ i=1 . 2. i = 1. 2. mas podemos construir nossa juventude para o futuro. Introdução f) k 1 ∑ 2 xi fi − V = n−1 i=1 ( k ∑ )2 xi fi i=1 k ∑ fi . .8 Capítulo 1. 6. . i=1 “Nem sempre podemos construir o futuro para nossa juventude. . .” . as conclusões de uma amostra bem selecionada. conforme discutido em Bolfarine & Bussab. a partir de uma amostra. Não é tarefa simples denir uma amostra representativa da população e. de alguma forma. uma forma de se conseguir essa representatividade é fazer com que o processo de escolha da amostra seja. a raça dos felinos. 2005. Para que se possa fazer inferências válidas sobre a população. isto é. aleatório. selecionase uma amostra (ou parte) da população em estudo e. introduzindo desta maneira o conceito de amostra probabilística. por isso. em geral. A partir dos resultados obtidos na amostra. Os erros de coleta e manuseio de um grande número de dados.1 Introdução Usualmente trabalha-se com apenas uma amostra da população. estabelecendo inclusive as margens de erro e acerto nas previsões. Esta característica pode ser o peso de cães. o proce- dimento que será adotado para escolher os elementos que irão compor a amostra. tabula-se a característica (ou variável) que está sendo avaliada. se o animal é vacinado ou não. é necessário que esta seja representativa da população. o pesquisador deverá estendê-los para toda a população. A realização do censo não garante que a pesquisa esteja livre de erros. gastos com medicamentos ou quaisquer outras características. é preciso estabelecer a técnica de amostragem. 9 . a partir dela. Denida a população.Capítulo 2 Amostragem 2. via inferência. Em geral. são maiores do que as imprecisões a que se está sujeito quando generaliza-se. Proceder a um sorteio. então. a esmo ou de voluntários. amostras intencionais. tamanho N.2. Utilização: Exemplo 1: Este tipo de amostragem é utilizado quando a população for considerada homogênea. simplesmente. Sorteia-se. 5. Este sorteio pode ser feito com o auxílio de uma tabela de números aleatórios. Amostragem 2. basta utilizar o comando: sala = 1:45 sample(sala. como por exemplo. o que permite compensar erros amostrais. replace=F) # ou. Solução: Para selecionar a amostra usando o R. Processo de coleta: n Todos os N elementos da população devem ser enumerados. replace=F) .1 Amostragem simples ao acaso ou amostragem aleatória simples É um método de selecionar. sendo cuidadosamente planejada para se evitar qualquer tendenciosidade. A amostragem é não probabilística quando alguns elementos da população não tem chance de pertencer a amostra. Os elementos correspondentes aos números escolhidos irão compor a amostra. em que todo elemento da população tem igual probabilidade de ser escolhido para a amostra.10 Capítulo 2. sem reposição. elementos para compor a amostra. para compor uma amostra de tamanho 5. 2. 5.2 Técnicas de Amostragem Os tipos de amostragem que serão apresentados são probabilísticos sendo que sua principal característica é poder ser submetido a tratamento estatístico. em sala de aula. n elementos de uma população de conhecido e nito. com 45 alunos. sample(45. com a utilização de algum programa computacional ou utilizando-se uma urna que recebe os números de 1 a N. . dec=`. .7 8. ou seja. a amostragem que está sendo realizada é com reposição.'. . em duas situações em que a amostragem simples ao acaso é utilizada. .8 8.br/pessoal/silvano/Dados/Tilapia. .8 17. Recup (altura) e Comp_cabeça Peso é dada em gramas. . . neste caso. . (true ): Caso se proceda a uma amostragem replace=T.1 . No primeiro caso.6 29.7 4 2000 2021 108 431. Já as variáveis Comp (comprimento da cabeça) são dadas em centímetros.3 8. coletados por alunos do curso de Medicina Veterinária da Universidade Estadual de Londrina.0 29. 15.5 9. tem-se dados = read. Tabela 2. .table(`http://www. .7 As variáveis Alt . head=T) attach(dados) names(dados) (amostra = sample(Comp. .4 25.uel.br/pessoal/silvano/Dados/Veter/Tilapia. . como apresentado na Tabela 2. .5 Indução (tempo para anestesiar a tilápia) e Recup (tempo para se recuperar da anestesia) são dadas em segundos. com apenas 40 indivíduos.txt'. .Técnicas de Amostragem Obs.5 29. . Considere um conjunto de dados com muitas variáveis e muitos indivíduos e se queira 1 retirar uma amostra desse conjunto para um estudo.3 7. . a progra- ca exatamente como no Exemplo 1. .1 7. Tilápia Turma Equipe Indução Peso Comp Alt Comp_cabeça 1 2000 2021 165 408. 500 2000 2021 147 309. . .2 29. 20.6 115. I. basta trocar o Exemplo 2: F (false ) por T sem reposição. .0 28.0 2 2000 2021 183 400. .txt. .1 Dados sobre tilápias do Nilo.3 8. .0 .1 6. para se retirar uma amostra aleatória de tamanho 15 para a variável comprimento (cm).5 9. A variável (comprimento). .9 3 2000 2021 161 397. no ano de 2005.0 7. . . replace=F)) Disponível em: http://www. em que uma amostra será retirada para uma mação no R variável especíca. ou seja.0 7.uel. Pode-se pensar.: a opção 11 replace=F quer dizer que um aluno sorteado não poderá ser sorteado novamente. Esta amostragem é utilizada quando a população está naturalmente ordenada. então calcula-se x entre 1 e k. . o professor chamaria para compor sua amostra.12 Capítulo 2. como chas em um chário. 30. Processo de coleta: seja o intervalo de amostragem N o tamanho da população e N k= . x + 2k. ou seja. quando os elementos da população são prédios de uma rua.. No segundo caso. o objetivo é retirar uma amostra de indivíduos. 40 e assim por diante. de todos os alunos. Suponha que a administração da UEL quisesse fazer uma pesquisa com seus 13. sendo que cada indivíduo manterá os valores observados de cada variável. etc.2. por exemplo. x + k. Assim. no ano de 2014. todos os alunos com números terminados em zero. é necessário carregar o pacote car. Este tipo de amostragem é utilizado quando a população está naturalmente ordenada. Neste caso. utilizando-se de sua lista de chamada.000 alunos. Os comandos são: require(car) (saida = some(dados. formando a amostra dos x. O Colegiado do Curso decide realizar uma pesquisa para saber o grau de conhecimento dos alunos quanto à prossão escolhida. . replace=FALSE)) 2. Neste caso.2 Amostragem sistemática Os elementos são escolhidos utilizando-se algum tipo de sistema. n=15. poderia-se obter uma relação completa dos mesmos e selecionar um a cada 50 para compor a amostra. Dispõe-se de uma lista. n Sorteia-se um número elementos correspondentes aos números: Utilização: Exemplo: n o tamanho da amostra. . os números 10. em ordem alfabética. Uma amostra de 50 estudantes será selecionada. Um professor. 20. poderia compor uma amostra chamando todos os alunos cujo número na pauta terminasse em um determinado digito. . listas telefônicas. Considere a população formada pelos 400 alunos do curso de Medicina Veterinária da Universidade Estadual de Londrina. Proceda à escolha desta amostra. Amostragem II. Esse método é simples e utilizado com frequência. . N. n2 . N2 . N .Técnicas de Amostragem 13 Solução: Para selecionar a amostra usando o R. . .2. 1)) (amostras = seq(amostra. . . . amostras de tamanhos o tamanho da amostra seja N1 . nj . deve-se utilizar a amostragem estraticada. . . que seria representativa dos alunos da UEL. estratos de modo que n = n1 + n2 + . . basta utilizar o comando: n = 50 . k)) 2. ao acaso. Processo de coleta: deve-se dividir as N unidades da população em disjuntos e homogêneos e selecionar. Procedimento: 1) calcular a fração de amostragem dada por: f= n . . que consiste em selecionar os elementos de uma amostra entre os vários estratos em número proporcional ao tamanho de cada um dos estratos. N = 400 . mas é possível distinguir sub-populações mais ou menos homogêneas. seria razoável obter uma amostra dentro de cada curso e depois reunir as informações numa única amostra.3 Amostragem estraticada Se uma população é considerada heterogênea em relação ao atributo que se quer pesquisar. Para obter uma amostra dos alunos da UEL. Por exemplo. pode-se considerar cada curso como um estrato. + nj . O tipo de amostragem estraticada mais comum é a proporcional. se os alunos dos vários cursos da UEL são diferentes em relação ao atributo a ser pesquisado. k = N/n (amostra = sample(k. Nj n1 . 2021. Os comandos são . e o objetivo é retirar uma amostra de tamanho 5 para cada extrato da variável comprimento (Comp). N3 = 200 e Se a alocação deve ser proporcional. que tem 4 estratos (Equipes: 1011. n2 = N2 f . . n3. n2. n4. replace=F)) (amostra. N2 = 1. . N3 = 200 . . f = n / N n1 = f*N1 . N2 = 1200 . n1. N4 = 100 N = N1 + N2 + N3 + N4 .. 1012.1 = sample(N1.200. Nj n (número de elementos do estrato j ). n2 = f*N2 .000. n3 = f*N3 . 2022). replace=F)) (amostra.4 = sample(N4. qual o tamanho da amostra a ser extraída de cada um dos quatro estratos? Solução: Os comandos do R são: n = 80 .2 = sample(N2. n2.14 Capítulo 2. replace=F)) (amostra. Amostragem 2) calcular o número de elementos a ser sorteado em cada estrato: n1 = N 1 f . replace=F)) Exemplo 2: Considere o conjunto de dados tilápia. que consiste de 4 estratos de tamanhos n = 80 de uma população de tamanho N1 = 500. Exemplo 1: Deve-se extrair uma amostra de tamanho N = 2. n3.3 = sample(N3. nj = Nj f sendo: N (número de elementos da população). N4 = 100. n4)) (amostra. N1 = 500 . (tamanho da amostra a ser selecionada). n4 = f*N4 (amostras = cbind(n1. simples = strata(dados.table(`http://www. c(``Equipe").est.Técnicas de Amostragem 15 dados = read. head=T) attach(dados) names(dados) (Amostras = tapply(Comp. 7.sist = getdata(dados.sist = strata(dados. ainda. Exemplo: escolha aleatoriamente 50 chas de cães da raça Poodle atendidos no Hospital Veterinário da UEL e verique o peso médio (kg ) desses animais. Não importa quão bem se planeje e execute o processo de coleta de amostras. 4). amost. no arquivo de saída do R.simples)) Observe a coluna Stratum. size=5)) Caso o número de amostras dentro de cada estrato seja diferente. 3. Erro amostral: é a diferença entre um resultado amostral e o verdadeiro resultado populacional.br/pessoal/silvano/Veter/Dados/Tilapia.estrat.est.uel. size = c(5. a amostragem por conglomerado e a amostragem por conveniência. é . size = c(5. method = ``srswor") (amostras. sample. amostragem sistemática amost. pik=Equipe) (amostras. Equipe. Tais erros resultam de utuações amostrais aleatórias.estrat.sist)) Pode-se citar.estrat. dec=`. há sempre a possibilidade de um erro nos resultados. em que é possível determinar se as amostras retiradas dentro de cada estrato serão do tipo: amostragem aleatória simples require(sampling) amost.estrat.'.simples = getdata(dados. 7. 3. amost. 4). Retirada uma outra amostra de 50 animais. method = ``systematic". c(``Equipe"). pode-se utilizar o pacote sampling.txt'. As radiograas de tamanho-padrão foram lidas separadamente por cada radiologista e os resultados se encontram na Tabela 2. as mesmas 1. cita-se o caso de cinco radiologistas que examinaram. seu estado físico e/ou condições ambientais. Tabela 2.200 radiograas de tórax. erros cometidos por quem procedeu à leitura do material radiográco. em diferentes épocas. deve-se levar em consideração algumas etapas para que a validação da hipótese possa ser aceita. Muitos desses erros são provenientes do próprio observador. a utilização de um instrumento de mensuração defeituoso. Amostragem provável que se obtenha um peso médio (kg ) diferente. Ocorre um erro não amostral quando os dados amostrais são coletados. uma questão formulada de modo tendencioso. Como exemplo. a escolha de uma amostra não aleatória e tendenciosa. o excesso de trabalho. como por exemplo.a população a ser trabalhada deve ser bem denida. como a unidade de medida. Essas etapas são relativas aos dados propriamente.2. um grande número de recusas de resposta ou a cópia incorreta dos dados amostrais. identicando-se corretamente . Radiologista Número de radiograas consideradas positivas 1a Leitura 2a Leitura A 118 139 B 69 78 C 83 88 D 96 89 E 106 92 Deve-se concluir que tais discordâncias não reetem uma variação real e sim. registrados ou analisados incorretamente.2 Diagnósticos de radiograas de tórax.3 Etapas de uma pesquisa Considerando-se que as fases do planejamento foram seguidas. com a nalidade de diagnosticar a existência de tuberculose pulmonar. separadas por um período de dois meses. devido ao grau de treinamento (experiência). 2. Essas etapas são: a) população . Tais problemas resultam em um erro que não seja uma simples utuação amostral aleatória. a unidade amostral.16 Capítulo 2. dentre outras. Deve-se decidir preliminarmente se os dados serão coletados por chas. deve-se escolher a melhor técnica para selecionar a amostra: amostragem simples ao acaso. por declaração de entrevistados. como por exemplo. amostragem estraticada. d) unidade de amostragem .a vericação preliminar não pode faltar em qualquer pesquisa. enm deve-se vericar a eciência da metodologia a ser empregada.apurados os resultados. há necessidade de um perfeito treinamento em toda a equipe de trabalho. cópia do questionário. por telefone. a m de que haja um critério único de registro. etc. se a forma escolhida de registro das informações não deve ser alterada. Podem ser calculadas algumas medidas. Após a análise cuidadosa. etc. deve-se elaborar um relatório completo contendo os objetivos da pesquisa.Etapas de uma pesquisa 17 os seus elementos para que a amostra coletada represente os dados da população. um animal.. Os dados podem ser apresentados em forma de tabelas ou grácos. .. c) métodos de medidas . se os coletores estão bem treinados.se a pesquisa for realizada através de levantamento por amostragem. os mesmos devem ser analisados estatisticamente. a bibliograa e. um quarteirão. uma planta.antes de se coletar os dados é necessário e importante que a metodologia de sua coleta seja estruturada. e se nenhum dado essencial está sendo omitido. uma família. b) dados a serem coletados . Em qualquer das alternativas.ao se efetuar a coleta dos dados é importante vericar se todos esses dados serão importantes para os propósitos da pesquisa. a análise de todos os resultados. Deve-se testar em uma pequena parte da população as seguintes características: se a técnica a ser utilizada para a coleta é a melhor possível. se necessário os anexos. e) escolha do tipo de amostragem . uma empresa. a metodologia utilizada. deve-se denir qual é a unidade de amostragem. alguns testes estatísticos e realizadas algumas inferências.de acordo com o objetivo da pesquisa e do tipo de popula- ção. por respostas a um questionário. suas conclusões. f) vericação preliminar . g) análise dos dados . etc. que pode ser: uma pessoa. br/pessoal/silvano/Veter/Dados/HV. Para isso.18 Capítulo 2.. com a relação dos animais atendidos no Hospital Veterinário da Universidade Estadual de Londrina.200.. sucessivamente. . Use a tabela de números aleatórios ou calculadora para escolher que espécimes de sangue serão selecionados? Explique como escolheu os números da tabela aleatória. Sendo assim. Uma pesquisa de satisfação com os proprietários cujos animais foram atendidos em 2013 será realizada. que tipo de amostragem ele deve utilizar? (c) Considerando o item 1b. ele cria uma estrutura amostral numerando como 001.txt. Relacione as amostras retiradas.000. Quantos são da espécie canina e felina? (b) É importante para o pesquisador coletar amostras de cada espécie. (a) Retire uma amostra aleatória de 25 animais. assim.. foram 3. 854.uel. uma amostra de 300 proprietários será estudada. ele dispõe de uma lista de dados. Amostragem Exercícios 1) Um pesquisador está interessado em avaliar o Peso (kg ) de animais domésticos das espécies caninas e felinas. disponível em http://www. Para isto. retire uma amostra de tamanho 20 para a espécie canina e de tamanho 5 para a espécie felina. No ano de 2013. não importando a raça. que consiste de 3 estratos de tamanhos n = 60 de uma população de tamanho N1 = 2.000. Para isto. Assim. qual deve ser o tamanho da amostra a ser retirada de cada estrato? . o prontuário do primeiro animal atendido no ano de 2014 recebeu o número 1 e. N2 = 1. durante um certo período. 4) Deve-se retirar uma amostra estraticada de tamanho 4.756 novos prontuários. Qual o peso médio dos dados? E para cada um dos estratos? 2) A enumeração dos prontuários de animais atendidos pelo Hospital Veterinário da Universidade Estadual de Londrina é reiniciada sempre no primeiro dia útil de cada ano. N3 = 800. Que tipo de amostragem você usaria e porquê? Enumere a amostra coletada. Explique o processo de seleção. Para que a alocação seja proporcional. 002. 3) Um hematologista deseja fazer uma nova vericação de uma amostra de tamanho 10 dos 854 espécimes de sangue analisados por um laboratório em determinado mês. ” (George Gallup). e nem tudo que conta pode ser contado. quanto à posse e cuidado com os animais domésticos. elabore 10 questões relativas ao assunto que será pesquisado. Explique de que forma você planejaria esta pesquisa. “Nem tudo o que pode ser contado conta.Etapas de uma pesquisa 19 5) Deseja-se realizar um estudo. Também. . junto à comunidade universitária da Universidade Estadual de Londrina. etc.2. observação. e tem como objetivo tirar conclusões sobre populações com base nos resultados observados em amostras extraídas dessas populações. Os elementos básicos para essa análise são: tabelas. 20 . Os tipos de variáveis encontradas dependerão.Capítulo 3 Conceitos elementares 3. obviamente. entrevista. do tipo de estudo realizado. formulário. experimento. A classicação dos tipos de variáveis passíveis de serem encontradas são descritos na seção 3. grácos e medidas numéricas como a média. eles podem ser obtidos através de: coleta documental. sejam populacionais ou amostrais.preocupa-se com a análise e interpretação dos da- dos experimentais. A questão então é: como obter os dados estatísticos? Que tipo de variáveis são obtidas? Em relação a primeira questão. de caráter mais genérico. moda e mediana. É importante que a obtenção dos dados seja realizada utilizando-se da metodologia apresentada no Capítulo 2.descreve e analisa determinada população (ou amostra). Tanto a estatística descritiva quanto a indutiva são realizadas em função da coleta de dados. questionário. sem pretender tirar conclusões.1 Divisão da estatística A estatística é uma ciência dividida basicamente em duas partes: estatística descritiva . estatística indutiva ou inferência estatística . tipo sanguíneo. . Elas se dividem em: a) variáveis categóricas nominais . Aluno Gênero Procedência Número de Estatura irmãos (m) Grau de instrução dos pais 1 Masculino Londrina 1 1. Variáveis categóricas (ou qualitativas) . Exemplo: Foi elaborado um questionário com 34 questões para se traçar o perl dos alunos do 1o ano do curso de Medicina Veterinária.apresentam como possíveis realizações uma qualidade (ou atributo) do indivíduo pesquisado.76 Primeiro grau 29 Feminino Arapongas 2 1. . da Universidade Estadual de Londrina.É caracterizado por dados que consistem apenas em nomes. .Tipos de variáveis 21 3.58 Superior completo Algumas respostas são numéricas e outras em forma de atributo ou qualidade. cor dos cabelos. do ano de 2005. . são apresentadas na Tabela 3. . .68 Primeiro grau 28 Masculino Londrina 2 1. O número de categorias pode depender do interesse do estudo. . . no ano de 2005. 27 Feminino São Paulo 1 1. .73 Superior incompleto 2 Masculino Londrina 0 1. que constituem a matéria-prima das pesquisas estatísticas. . respostas do tipo sim. etc. usando-se as expressões variáveis qualitativas e variáveis quantitativas para distingui-los. . não existindo nenhuma ordenação nos possíveis resultados. estado civil. . Assim. entre outras. pode-se classicar as variáveis como: 1. raça. costuma-se representá-los através de variáveis. Para simplicar seu manuseio. Exemplo: Gênero dos estudantes.1 Dados dos alunos do 1o ano do curso de Medicina Veterinária. As variáveis analisadas. da Universidade Estadual de Londrina.2 Tipos de variáveis Em estatística é usual a manipulação de grandes conjuntos de dados. .65 Superior completo .1. . rótulos ou categorias. não. . Tabela 3.71 Segundo grau 3 Feminino Campinas 3 1. . . . cor dos olhos. normalmente resultam de uma mensuração e apresentam unidade de medida. temperatura. Variáveis numéricas (ou quantitativas) . frequentemente resultam de uma contagem e não possuem unidade de medida. b) variáveis numéricas contínuas . alta). etc.22 Capítulo 3. normal. Exemplo: Número de lhotes. Exemplo: Estatura.os dados possuem uma ordenação natural. idade. número de animais eutanasiados. números resultantes de uma contagem ou mensuração (medida). número de consultas médicas em um determinado período. taxa de colesterol. Esquematicamente. número de animais hidratados. qualquer valor em certo intervalo da reta real. etc. número de bactérias em uma lâmina. classe social (alta. número de erros em um livro.apresentam como possíveis realizações. número de pulgões em plantas. etc. número de acidentes. pressão sanguínea (baixa. pressão sanguínea. Elas se dividem em: a) variáveis numéricas discretas . A importância dessa classicação justica-se porque cada tipo de variável resposta exige um método de análise estatística especíco. teoricamente. Ensino Superior). salário. Ensino Médio. Conceitos elementares b) variáveis categóricas ordinais . 2. baixa). tem-se: 3 ❤❤❤❤ Nominal ❤❤❤❤ ❤ ❤ ❤ ❤❤ ❤❤❤❤ ❤❤❤❤ Qualitativas ❱ ❱❱❱❱ q8 ❱❱❱❱ q q q ❱❱❱❱ q q ❱❱❱❱ qq ❱❱❱+ q q q q q Ordinal qq qqq q q qqq qqq ▼▼▼ ▼▼▼ ▼▼▼ ▼▼▼ ▼▼▼ ▼▼▼ ▼▼▼ ▼▼▼ ▼▼& Variáveis 3 ❤❤❤❤ Discreta ❤❤❤❤ ❤ ❤ ❤ ❤❤ ❤❤❤❤ ❤❤❤❤ Quantitativas ❱❱❱❱ ❱❱❱❱ ❱❱❱❱ ❱❱❱❱ ❱❱❱+ Contínua .os possíveis resultados podem assumir. Exemplo: Grau de instrução (Ensino Fundamental. peso.são aquelas que assumem valores em pontos da reta real. média. toda pesquisa a realizar. A determinação do tamanho da amostra depende de alguns fatores: a) Tamanho da população-alvo . laboratório ou um simples levantamento.quanto ao número de elementos que a compõe. pois depende da aproximação (precisão) utilizada. Esta diferença arbitrada é considerada tendo em conta um nível de acerto que normalmente consideramos de 95% ou 99% de conança. ao se apresentar um valor percentual. que é. uma diferença. ou seja. esse valor tem. observa-se a porcentagem de certas características em um conjunto. resultados que se pode utilizar para a determinação . este valor é substituído na fórmula (3. Na obtenção do tamanho amostral será importante esta informação. b) Variância ou percentual . 96 quando o nível de conança corresponde a d) 95% 95% Informação de literatura e por 2.Dimensionamento da amostra 23 De acordo com Ogliari e Andrade (2005).em alguns estudos são empregadas características que apresentam determinada variabilidade. é uma variável aleatória contínua. Simbolizado Z. o nível de conança de que a diferença arbitrada realmente ocorra até o limite de diferença proposto. em muitos casos ela é medida em anos completos (discretização da variável). arbitrada pelo pesquisador. usa-se a variância ou a porcentagem. 3. . portanto. o que a torna uma variável discreta. pode-se classicar em nitas e innitas.deve-se imaginar que. Dependendo do tipo de pesquisa. referente à taxa de prevalência do fenômeno estudado na amostra observada. Os níveis de conança propostos rotineiramente são de pela letra e 99% de conança. c) Nível de conança . em que o objetivo é a taxa de prevalência de certo fenômeno.1) por uma constante 1. Por exemplo. em relação ao valor percentual da população. a priori. porém.3 Dimensionamento da amostra É muito comum ao pesquisador indagar sobre o número de elementos para uma amostra quando pretende realizar uma pesquisa de campo. A distinção entre variáveis contínuas e discretas é muitas vezes articial. por denição. Em outros casos. 58 quando o nível de conança é de 99%. idade é uma variável de medida de tempo. apresenta. Portanto. poderá ocorrer situações em que uma variável contínua será tratada como uma variável discreta. na literatura. 24 Capítulo 3.2).3. → z: nível de conança. → ϵ = π − p: é o erro de precisão arbitrado pelo pesquisador. Chama-se 1−π ao valor complementar de para 100%. 1 − π = 50%. → N: tamanho da população. Quando na literatura de referência não se encontra o valor de consequentemente e) π π.1) e (3.1) e n= n0 n0 1+ N (3. a qual. utiliza-se as seguintes fórmulas: n0 = z 2 π(1 − π) (π − p)2 (3. → π: valor obtido de trabalhos anteriores (literatura).1) deve ser utilizada.1 Determinação do tamanho amostral para variáveis qualitativas Quando se dispõe de variáveis nominais ou ordinais. considera-se este igual a 50%. Normalmente é esperada uma diferença em relação à taxa de prevalência da população-alvo. Para populações . é arbitrada pelo pesquisador. 3. Erro de amostragem ou precisão .ao proceder-se às técnicas de amostragem para determinação do tamanho amostral (n). apenas a fórmula (3. Em populações nitas são utilizadas as fórmulas (3. A esta diferença chama-se erro de amostragem ou precisão. n em relação ao valor de π. Conceitos elementares do valor de ou seja. geralmente. π + (1 − π) = 100%. entende-se que a amostra obtida representará um determinado valor para a taxa de prevalência de certo evento. innitas.2) em que: → n0 : amostra inicial. Solução: 3.3) e n= n0 n0 1+ N (3. causada. e um erro de precisão de Para este caso. . 96 1 em uma população de certa N = 40. determine o tamanho da amostra.Dimensionamento da amostra Exemplo: 25 Com o objetivo de se vericar a incidência de listeriose região. Doença rara. considerando-se uma prevalência (π) de 2%.2 Determinação do tamanho amostral para variáveis quantitativas Para variáveis quantitativas.3. pelo consumo de alimentos contaminados com a bactéria Listeria monocytogenes. considere 4%.4) sendo: → σ2 a variância obtida de trabalhos anteriores. mas muito grave. tem-se: n0 = z2 σ2 ϵ2 (3. → ϵ=µ−x ¯: é o erro de precisão arbitrado pelo pesquisador.000. usualmente. z = 1. 0. seleciona-se uma amostra de 30 animais e determina-se o valor do teor de hemoglobina de cada animal e. Para populações nitas. 15 g/dl. considerando-se z = 1. 72 (g/dl)2 . é de precisão de Solução: 1.3) e (3. apenas a fórmula (3.: Capítulo 3. cujo valor. utilizam-se as fórmulas (3. calcula-se a variância (capítulo 7). realiza-se uma pré-amostragem. com idade acima de 12 meses. 96 e uma .4) e. por exemplo. Determine o tamanho da amostra. Conceitos elementares Caso não se disponha de σ 2 (variância populacional). a seguir. por exemplo.3) é utilizada.26 Obs. Exemplo: Numa pesquisa para se determinar a taxa média do teor de hemoglobina em fêmeas bovinas da raça Aquitânica. 30 observações da população e calcula-se o desvio padrão da característica a estudar. depara-se com o problema de denir-se o tamanho da amostra. para populações innitas. Sem informações a priori. retirando- se. Tabela 3. FC .frequência cardíaca (bpm).5 Londrina 2 Magro 38.2 Dados parciais coletados no Hospital Veterinária da Universidade Estadual de Londrina.2 em qualitativa (nominal ou ordinal) ou quantitativa (discreta ou contínua).estado nutricional.4 208 64 F Não Felina 3.5 Londrina 8 Normal 38.2 148 60 M Não Felina 3.5 100 32 F Não Canina 10.0 Londrina 2 M Não Canina 20. EN . ano 2013.1 160 46 F Não Felina 2.0 96 36 F Sim Felina 2. Sexo Castrado Espécie Peso (kg ) M Não Canina 20. 72 F Não Felina 3.8 168 32 M Não Felina 5.7 Londrina 2 Magro 39.5 172 88 F Não Felina .2 Londrina 3 Normal 38.5 Londrina 3 Magro 35. .0 220 48 F Sim Felina 2.4 208 .6 96 32 F Não Canina 10.5 Londrina 2 Normal 39.2 Londrina 2 Normal 39.1 Cambé 3 Obeso 39.6 220 0 M Não Felina 6.1 132 .7 156 36 M Não Felina 3.0 Londrina M Não Canina 13. 38.2 126 28 M Não Felina 6.9 144 120 Não Canina 11.0 Londrina 3 Normal 38.2 Londrina 2 Caquético 39.4 Londrina 2 Magro 38. Normal 36.7 200 40 F Não Felina 3.5 100 80 2.2 Londrina 3 Magro 38.9 Rolândia .0 Cambé 2 Obeso 39. Londrina 4 Normal 37.Dimensionamento da amostra 27 Exercícios 1) Classique cada uma das variáveis apresentadas na Tabela 3.3 Cambé 4 Normal 39.5 Londrina 8 Magro 38.5 120 56 Considere: TR . F Não Canina 10. Canina 11.6 .3 Londrina 3 Normal 39.2 176 68 M Não Felina 4. FR .3 124 .0 F Não Canina F Não F TR FC FR Magro 38. Londrina 3 Normal 39.0 Cambé 2 Magro 39.temperatura retal ( Cidade Irmãos EN ◦ C ).frequência respi- ratória (mpm). 28 .0 Londrina 3 Normal 39. 4 Normal .9 184 60 M Sim Felina 5.3 Londrina 8 .2 100 40 F Não Canina 10. 96. Sabe-se.0 1. coletar 100 amostras. 6) Um pesquisador está interessado em avaliar a temperatura retal (TR. 96. e z = 1.0 2.1 0. O pesquisador só poderá. que o tamanho amostral para população innita pode ser expresso pela seguinte equação: n= em que 3) Fixe ε N .5 1.3 Tamanho amostral e erro de precisão. Complete a Tabela 3.br/pessoal/silvano/Veter/Dados/HV. 5) Refaça o item anterior. ε=µ−x ¯ n0 3. considerando-se uma população de tamanho N = 1. s2 = 4 e considere a população innita.0 0. durante um certo período.3 do tamanho amostral (n0 ) em função do erro de precisão (ε). disponível em http://www. mostre passo-a-passo.28 Capítulo 3. Tabela 3. z = 1.txt. em grau Celsius) de animais domésticos das espécies caninas e felinas. de estudos anteriores. não importando a raça. 3 nanceiros. por problemas Qual o erro de precisão desse experimento? Demonstre os cálculos passo-a-passo. .01 O que você pode observar da relação acima? 4) Considere os seguintes valores: π = 0. Conceitos elementares 2) Considerando-se as equações n0 = z2 σ2 ϵ2 e n= n0 n0 1+ N para determinação do tamanho amostral para variáveis quantitativas. Para isso.uel.5 0. N ( ε )2 1+ 2 σ z representa o erro de precisão. que a variância da temperatura retal nestas duas espécies é de aproximadamente 1. 1513 o C 2 . ele dispõe de uma lista com a relação dos animais atendidos no Hos- pital Veterinária da Universidade Estadual de Londrina.000. 3 o C .000. que consiste de 3 estratos de tamanhos n = 60 de uma população de tamanho N1 = 2. Explique como escolheu os números da tabela aleatória. . Qual é a maneira de selecionar 2 ratos de cada gaiola.200. . N2 = 1. N3 = 800. .Dimensionamento da amostra a) Considerando-se z = 1. Use a tabela de números aleatórios para escolher os números das etiquetas. 6 ratos. cada uma. “Quando todos pensam igual. estabeleça três formas distintas de se obter uma amostra elementos. 10) Deve-se retirar uma amostra estraticada de tamanho 4.000. que tipo de amostragem ele deve utilizar? c) Relacione as amostras retiradas. 10 dos 854 Para isto. . Para que a alocação seja proporcional. selecionadas aleatoriamente. . qual deve ser o tamanho da amostra a ser retirada de cada estrato? 11) Os empregados de um hospital têm etiquetas de identicação numeradas consecutivamente de a 563. 002. 9) Um hematologista deseja fazer uma nova vericação de uma amostra de tamanho espécimes de sangue analisados por um laboratório médico em determinado mês. Deve-se escolher um comitê de 10 101 pessoas. ele cria uma estrutura amostral numerando como 001. Sendo assim. Use a tabela de números aleatórios ou a calculadora para escolher que espécimes de sangue serão selecionados? Explique como selecionou a amostra. é porque ninguém está pensando. Qual a temperatura retal média dos dados? E para cada um dos estratos? 7) Suponha que um pesquisador tenha diversas gaiolas que contenham. 854.” (Walt Lippman). 96 29 0. para uma amostra? 8) Dada uma população de sistemática de 4 8 elementos. e um erro de precisão de quantas amostras são necessárias para a realização do estudo? b) É importante para o pesquisador coletar amostras de cada espécie. 1 Elementos essenciais de uma tabela O objetivo de se construir tabelas é obter uma visão geral do que ocorre com os dados observados.1 Organização e apresentação de dados A apresentação de dados na forma de tabela é um dos métodos estatísticos mais simples e utilizado.Capítulo 4 Estatística Descritiva 4. distribuídos de forma ordenada.1. em que se tem uma visão mais clara e fácil dos resultados obtidos. segundo regras estabelecidas. informações sobre o fenômeno estudado. contendo sempre um número ou um sinal convencional: i) (traço). tem-se as tabelas estatísticas. respectivamente. o local e a época em que ocorreu. sinteticamente. Ao dispor os dados em linhas e colunas. Chama-se casa (ou casela) ao cruzamento de uma coluna com uma linha. As casas nunca deverão car em branco. Uma tabela estatística consegue expor os resultados de determinada pesquisa ou parte dela. 30 . quando o dado não existe. tem por nalidade especicar o conteúdo das colunas. Os elementos essenciais de uma tabela são: a) Título: é uma indicação que precede a tabela estatística e que contém a designação do fenômeno observado. b) Cabeçalho: colocado na parte superior da tabela. condensando as informações. 4. c) Corpo: corresponde ao conjunto de colunas e de linhas que contêm. em ordem vertical e horizontal. 0 31 (três pontos).Organização e apresentação de dados ii) iii) . de modo crescente. o título é: Animais atendidos no Hospital Veterinário da Universidade Estadual de Londrina.650 Fonte: HV da UEL. Toda tabela deverá ter identicação feita com algarismos arábicos. quando o dado for omitido a m de evitar a individualização das informações..700 38.1.300 Pequeno porte Total 5.. Categoria dos animais Frequências Pequeno porte 20. relativos à uma pesquisa ou experimento. d) Coluna indicadora: é a parte da tabela que tem por nalidade especicar o que contêm as linhas. iv) X (letra x). no ano de 2005. nos casos onde existe apenas um ou dois informantes. (zero). quando o valor numérico for menor que a metade da unidade de medida adotada para expressar os dados. A Tabela 4. Tabela 4. no ano de 2005. O cabeçalho é constituído por: Categorias dos animais A coluna indicadora contêm as especicações: Pequeno porte Médio porte Grande porte Frequências . podendo ser subordinada ou não a capítulos ou seções de um docu- mento.1 Animais atendidos no Hospital Veterinário (HV) da Universidade Estadual de Londrina (UEL). Na Tabela 4.650 Médio porte 12.1 é um exemplo sobre a maneira de se resumir e apresentar dados coletados. quando a informação existe mas não está disponível. precedidos da palavra Tabela. Londrina .32 Capítulo 4.2 Elementos complementares de uma tabela Os elementos complementares de uma tabela estatística são os seguintes: fonte. relativos à uma pesquisa ou experimento.2 é um exemplo sobre a maneira de se resumir e apresentar dados coletados.Paraná.650 12.1. Nota: Utilizou-se uma amostragem sistemática para selecionar as chas dos animais.71 Lagarto 0. A Tabela 4. em pesquisa realizada em 2002. b) Notas: são informações destinadas a esclarecer ou conceituar o conteúdo das tabelas. Devem ser colocadas embaixo da indicação da fonte.07 Equina 2.2 Espécies de animais atendidos no Hospital Veterinário da Universidade Estadual de Londrina. e colocados à direita da coluna. que de preferência são colocados no rodapé.300 5.50 Bovina 0. Devem ser feitas através de algarismos arábicos escritos entre parênteses. . Espécies Percentual (%) Canina 85.00 Felina 11.700 4.36 Fonte: Hospital Veterinário da Universidade Estadual de Londrina. É colocada no rodapé da tabela. 2002. alunos do 1o Os dados foram coletados no Hospital Veterinário por ano do curso de Medicina Veterinária da Universidade Estadual de Londrina. Tabela 4. Estatística Descritiva O corpo da tabela é formado por: 20.36 Roedor 0. c) Chamadas: são informações de natureza especíca referindo-se a um item especíco da tabela. a) Fonte: é a indicação do órgão ou entidade responsável pelo fornecimento dos dados ou pela sua elaboração. colocada após a nota. ou indicar a metodologia adotada na coleta ou preparo dos dados. notas e chamadas. no Hospital Veterinário da UEL. Exemplo 1 - Os dados a seguir referem-se ao número de lhotes de cadelas submetidas à insemi- nação articial. 4. não será delimitada na parte inferior e o cabeçalho será repetido na página seguinte.2. 4. Devem ser identicadas na parte superior iniciada com a palavra Tabela e seu número de ordem. basta escrever em uma coluna os valores da variável discreta estudada em ordem crescente (ou decrescente) e assinalar. que consiste na construção de uma tabela a partir dos dados brutos em que se considera a frequência com que cada observação ocorre.Distribuição de frequências 33 Observações: As tabelas são constituídas por três traços horizontais paralelos. a expressão continua ou conclusão. para se apresentar os dados em forma de tabela.2 Distribuição de frequências Uma maneira de sintetizar os dados é através de distribuição de frequências. No caso da tabela ter de ocupar mais de uma página. isto é. separando o título. um para separar o topo. As tabelas devem ser numeradas consecutivamente ou identicadas com números relacionados ao capítulo ou seção nas quais estão inseridas e seu número de ordem. em algarismos arábicos seguidos de hífen. Quando não for possível dispor a tabela na posição normal de leitura. Exemplo: vide Tabela 4. ela deverá ser apresentada de forma que a rotação se efetue no sentido horário. em 2005. usa-se no cabeçalho. Os seguintes números de lhotes foram .1 Construção de uma distribuição de frequência de variáveis discretas Quando a variável resposta é do tipo quantitativa discreta. conforme o caso. a frequência absoluta de cada valor. A tabela assim obtida é denominada tabela de distribuição de frequências. Nesse caso. o número de vezes que cada um desses valores foi observado. ou na coluna indicadora. A interpretação dos resultados obtidos em tabelas de frequências pode ser auxiliada pela análise gráca.2. outro para separar o cabeçalho e o terceiro para o rodapé. Não são usados traços verticais para separar os dados. em outra coluna paralela. Uma terceira coluna será destinada a indicar a frequência relativa com que cada um desses valores ocorreram na amostra. recebem o nome de dados brutos. dos Ls = 5. obtemos o rol: Rol: 0 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 5 5 Pode-se obter como informações pelo rol: Li : limite inferior do rol. dados.3 Número de lhotes de cadelas submetidas a inseminação articial no Hospital Veterinário da UEL em 2005.33 1 4 13. em ordem crescente ou decrescente de grandeza. tem-se: Tabela 4. divide-se cada frequência absoluta pelo tamanho da amostra: fr = fi . n Essas frequências relativas costumam ser expressas em porcentagens: fr % = fi × 100.00 3 10 33. que é a diferença entre o maior e o menor valor do rol A = Ls − Li = 5 − 0 = 5. tanto a partir dos dados brutos como do rol. Uma tabela de distribuição de frequência pode ser construída. Ls : limite superior do rol. n . Estatística Descritiva observados: Dados Brutos: 5 4 3 4 3 1 4 4 5 3 0 1 3 2 2 3 2 3 4 2 3 3 1 1 3 3 4 2 4 2 Quando os dados estão dispostos sem qualquer ordem lógica.33 5 2 6.33 2 6 20. Para o exemplo em questão.34 4 7 23. A: amplitude total Li = 0. fr . Número de Filhotes Frequência Absoluta (fi ) Frequência relativa (fr %) 0 1 3. Para obter-se as frequências relativas.67 Fonte: Hospital Veterinário da UEL. Ao organizarmos os dados brutos.34 Capítulo 4. 0 27.0 40. Considere os seguintes dados.0 30.3. as variáveis contínuas assumem.8 13.filhotes 4.0 40.0 28.6 12.5 18.0 27.3.1.0 40.2 17.0 19.3.4. coletados no Hospital Veterinário da UEL em 2003.3.2 21.0 19.5 19.0 39. este problema usa-se descrever as variáveis numéricas contínuas através de Para contornar tabelas de classes de frequências ou tabelas de intervalo.4.0 39.2 21.Distribuição de frequências 35 Evidentemente a soma das frequências absolutas é igual ao número total das cadelas que foram submetidas à inseminação articial. poderia ser a obtenção do rol: Rol 5.0 30.8 40.2. em geral.6 13.0 27.5 12.0 40.3. dig=2)) (tabela.0 27.0 30.2. Dados Brutos 5.filhotes) = c(`Freq.3.5 O que se pode dizer sobre os cães com base nestes dados? É possível ter uma ideia clara.0 27. `Percentual') tabela.0 27.table(filhotes.0 28.2 Construção de uma distribuição de frequência para variáveis contínuas Ao contrário das variáveis discretas.4. percentual.2 14.5 17.2.4.1.3.caes). os comandos são: Filhotes = c(5.5 .0 21. usando o R.0 33.6 12.2) (filhotes.2 17.3 40.0 40.2.caes)) colnames(tabela.2.0 27.1.0 30.0 33.caes.0 19.4.0 30.5.3. como no caso das variáveis discretas teríamos uma tabela com muitas linhas.caes = round(100*prop.2 14.0 28.4.3 40. referentes aos pesos (kg) de cães das raças Fila brasileiro e Pastor Alemão. apenas observando os números? O passo seguinte.2 28. Absoluta'.0 30.2 28. Isto quer dizer que se usássemos as tabelas de frequências.0 19. Para se construir a Tabela 4.caes = table(Filhotes)) (percentual.filhotes = cbind(filhotes.3.0 21.1.3.0 27. optativo.5 12.0.5 17.0 19.4.2.0 28.5 18. tornando-a pouco operacional. muitos valores.3.6 14.5 14. 86-107.D. aumenta. . Intervalos entre cios (dias) Percentual (%) 0⊢ 3 0.0 Caso não haja.6 25 ⊢ 35 5. Amer. Proceedings for annual meeting. Dentre as várias regras existentes. Um exemplo disso é a Tabela 4. .36 Capítulo 4. Sturges. 21.8 36 ⊢ 48 16.4 que mostra os 1 cios observados. pode-se optar pela utilização de uma das regras para se construir os intervalos de classes. The choice of a class-interval. sendo que a i-ésima divisão é dada pelo coeciente binomial Quando k (k−1) i .3 18 ⊢ 24 44. segundo a classicação de Gaines . Analysis of repro- . Estatística Descritiva Qual o número de classes a ser usado? O número ideal de classes a ser utilizado em uma tabela. este histograma se aproxima da forma de uma densidade normal. H. um motivo para o uso de intervalos de classes diferentes. 1. por parte do pesquisador. . Association. de acordo com seus interesses e necessidades. Tabela 4. duas tem sido adotadas: a) Critério de Sturges . ductive eciency of dairy herds : p. Kansas City: Society for Theriogenology. 1926. pode depender mais do bom senso do pesquisador. . k − 1. i = 0. Stat.Herbert Sturges2 considera um histograma de frequências idealizado com k divisões. do que de regras pré-estabelecidas. J. segundo a classicação de Gaines (1994).3 > 48 27.1 4 ⊢ 17 6.4 Frequências dos intervalos entre cios observados em um rebanho leiteiro da raça Holandês. O tamanho amostral total é dado por: n= ) k−1 ( ∑ k−1 i=0 i = (1 + 1)k−1 = 2k−1 Gaines. J. 6566. 1994. 5 = 5. serão utilizadas. 3 × log 30 = 1 + 3. Outras regras para escolha do número de classes de um histograma são sugeridas na literatura. . 3 × 1. 8745 Logo. o número de classes recomendado será dado por: k = 1 + 3. l ⊢ (l + a).Distribuição de frequências 37 Aplicando-se logaritmos em ambos os membros. tem-se: log2 n = log2 2k−1 log2 n = k − 1 k = 1 + log2 n e. 4771 ou k= √ 30 = 5. os dados poderão ser resumidos em 6 classes de amplitude a = 6 kg como amplitude das classes. 301029 k = 1 + 3. = 5. Também estamos indicando que o intervalo é aberto à direita e portanto não pertencem à classe valores iguais ao extremo superior. chega-se a: k = 1+ log10 n log10 n =1+ log10 2 0. A amplitude de cada intervalo será: a = amplitude total número de classes = 40. A primeira classe de frequências é um intervalo do tipo (l + 2a) e assim sucessivamente. k=6 classes ou intervalos para representar a distribuição dos dados. por este critério. 5 − 5. aproximadamente. fazendo-se transformação da base logarítmica. Para o exemplo em questão. 8745 Assim. 3 × log n que é o número de classes sugeridas. 9579. 4772. b) √ Critério da Raiz Quadrada . 5.tem-se k = n. a segunda (l + a) ⊢ Com este tipo de notação estamos indicando que o intervalo é fechado à esquerda e portanto pertencem à classe valores iguais ao extremo inferior dessa classe. 40. e assim por diante. Assim.0. basta utilizar o comando: caes = c(5.41).17.0.5. 0 kg .17.2.0.0.0.2.0.27.0. Estatística Descritiva Assim. acrescente os seguintes comandos: .0. right=F) Caso queira construir a tabela da forma exata como apresentado na Tabela 4.0.0.28.8.21.19.21. Para estruturar a tabela de frequências usando o R. como um valor representativo.18. 0 e 17.33 11 ⊢ 17 14 5 16. 0 e 11. 0 kg .5.33. como não se conhece os dados originais.0.14.5. cinco valores estão entre 11.38 Capítulo 4. por cinco valores iguais a 14. tem-se: Tabela 4.17. entre 17 e 29 quilos. havendo poucos animais nas classes extremas.0. Com uma rápida olhada na tabela já se nota que a maioria dos cães concentram-se nas classes centrais. em 2003. por exemplo.2. deve-se utilizar o ponto médio da classe.35. coletados no Hospital Veterinário da UEL.13.30. 27. com apenas seis classes (linhas) conseguiu-se condensar os 30 dados.0. 12. No entanto isto tem um preço. Dessa forma.0. como acontece muitas vezes em certas publicações cientícas.67 17 ⊢ 23 20 8 26.6. tudo se passa como se os dados originais fossem constituídos por um valor igual a 20.40.30.30.5 Distribuição de frequência dos pesos (kg) de 30 cães das raças Fila Brasileiro e Pastor Alemão.0. 8 kg .5 simplicou muito a interpretação dos dados. ou seja.67 23 ⊢ 29 26 7 23. Pesos (kg ) Frequências absolutas (fi ) Ponto médio Frequências relativas (fr %) 5 ⊢ 11 8 1 3. breaks=c(5.23.6.0.3.5. Mas não se sabe quais são esses valores.14.28.2.40.19.0.11. 0 kg .19.28.67 Fonte: Hospital Veterinário da UEL A construção da Tabela 4.5.27. plot=F.39.5) hist(caes.27.40.29. por oito valores iguais a etc.33 29 ⊢ 35 32 4 13. 0 kg .12. tudo que se sabe agora é que apenas um valor está entre 5.33 35 ⊢ 41 38 5 16. prop) colnames(tab.71 2.caes) = c('5|-11'.'23|-29'.table(histo.37 0.caes = cbind(c(histo$counts)) (prop = 100*round(prop.16 4.'11|-17'. right=F) histo. Solução: ii) Encontre a amplitude total dos dados.'35|-41') tab.06 1.41).41 1.48 1.94 2.93 3.57 2.16 3.'17|-23'.63 3. 'Percentual') rownames(tab.77 1.34 2.22 2.09 2.56 3. plot=F.caes = cbind(histo.caes Exemplo: Dados brutos de ração (kg) utilizada em 40 dias em uma granja.'29|-35'.42 2.11.77 2.75 2.20 1.06 3.57 3.04 2.75 i) Encontre o número de classes para a construção de uma tabela para estes dados.23. breaks=c(5.caes.caes).78 3.05 1.67 2.18 3.67 5.80 2.35.17.53 2.55 3.48 3.63 1.32 3.39 2.Distribuição de frequências 39 histo = hist(caes.94 3. Dados Brutos (kg ) 0.26 3. Solução: iii) Encontre a amplitude das classes.29. 4)) tab.06 3.caes) = c('fi'.69 2. Solução: . Os dados apresentados na Tabela 4. Exemplos são apresentados nas Tabelas 4.40 Capítulo 4. Tabela 4.php?sigla=rs&tema=pecuaria2012.ibge.7.6 Acasalamentos fecundos e infecundos por raça. Solução: 4.gov.IBGE. em que os elementos da amostra ou da população são classicados de acordo com dois fatores.3 Tabelas de dupla entrada Um tipo de tabela muito importante e bastante utilizada é a tabela de dupla entrada. acessada em 05 de fevereiro de 2014.br/estadosat/temas. Acasalamentos Raças Fecundos Infecundos Charolesa 606 394 Indubrasil 508 632 Nelore 394 406 Fonte: Fictícia . http://www.7 foram obtidos na página do Instituto Brasileiro de Geograa e Estatística . Estatística Descritiva iv) Dena os limites inferior e superior de cada classe: Solução: v) Construa a tabela com as frequências simples e acumuladas. sendo cada entrada relativa a um dos fatores.6 e 4. -3]) pec_sc = read.985 1. 'Rio Grande do Sul') require(xtable) xtable(pecuaria) .837 122.frame(PR=pr. head=F) sc = data.139.098 12.937 4.518.382 16.507 Asininos Totais Fonte: IBGE .627.213.923 307. head=F) pr = data.888 43. 2].'.7. SC=sc[ .691 917.Tabelas de dupla entrada 41 Tabela 4.927 7.132 1.648 5.654 27.965 2.gov. -3]) pec_rs = read.390 25. utilizando os dados diretamente do site do IBGE. 'Paraná'.br/estadosat/download/sc_pecuaria2012.502 13.frame(pec_sc[1:8.br/estadosat/download/pr_pecuaria2012.csv2('http://www.183 6. bastam os seguintes comandos do R: pec_pr = read. Estados Pecuária Totais Paraná Santa Catarina Rio Grande do Sul Bovinos 9.042.ibge.'.ibge.565 468. 2]) pecuaria = data.019 53. head=F) rs = data.csv'.csv2('http://www.gov.br/estadosat/download/rs_pecuaria2012.095.gov.480.frame(rebanhos[with(rebanhos.'.212.frame(pec_rs[1:8. sep='.csv2('http://www.898 74.098.057. RS=rs[ . ]) names(pecuaria) = c('Pecuária'.283 333.294.426 Ovinos 638.192 Muares 39. sep='. Para construir a Tabela 4. order(-RS)). sep='.792 113.243 100.ibge.747 4.960 14.frame(pec_pr[1:8.140.072.7 Número de cabeças da produção pecuária dos estados do Sul do Brasil em 2012.130 57.551 Suínos 5.csv'.2012.656 Bubalinos 24.222 Equinos 325.413.093 Caprinos 176.csv'.316 19.710 925 1. -3]) rebanhos = data. 'Santa Catarina'.651 4. Em cima da escala da ordenada deve constar a característica correspondente. d) as escalas devem crescer da esquerda para a direita e de baixo para cima. b) a numeração dos grácos é feita utilizando-se algarismos arábicos. Existem algumas regras para a confecção de grácos. c) a primeira série de variáveis deverá car no eixo das abscissas (X ). Existem inúmeras formas grácas interessantes. rápida e objetiva os dados coletados na primeira fase do trabalho estatístico. Ele tanto serve para simplicar como pode facilmente enganar. escala e fonte dos dados. Consequentemente. de forma a se poder tirar conclusões claras de tabelas complicadas. e) as legendas explicativas devem ser colocadas. g) ao lado da escala da abscissa deve ser escrita a característica relativa à mesma. à direita do gráco. dadas a seguir: a) toda representação gráca deve ter título. 42 .Capítulo 5 Grácos O objetivo da representação gráca é apresentar de maneira clara. Um gráco tem a função de transmitir uma idéia visual do comportamento de um conjunto de valores. de preferência. f ) as distâncias que indicam as unidades de escala devem ser rigorosamente uniformes. A razão da altura para a largura pode variar de 60% a 80% para que a gura tenha boas proporções (simetria e equilíbrio). de forma a dispensar qualquer esclarecimento adicional. serão apresentados apenas alguns tipos de grácos. a segunda no eixo das ordenadas (Y ). 120). porém Essas colunas são dispostas paralelamente umas às outras. horizontal ou verticalmente.. ylim=c(0. O programa R para construir o gráco de colunas dos dados absolutos é dado por: caes = c(37.axis=1. 19."SRD". 20. ylab="Frequências". sendo a outra arbitrária.1: 120 100 Frequências 80 60 40 20 0 Pinscher Pastor Alemão Poodle Rottweiller SRD Outros Raças dos Cães Figura 5. lwd=1) . b) a distância entre as barras deve ser constante e de preferência menor que a largura das barras."Pastor \n Alemão". cex.6.1.2)) barplot(caes.1 Gráco em colunas O gráco em colunas e em barras consistem em construir retângulos. cex..1.1 Apresentação gráca de variáveis qualitativas 5. cex.names=1.1 Raças caninas atendidas no Hospital Veterinário da Universidade Estadual de Londrina em 2003. Além do título e fonte de referências devemos observar o seguinte: a) as barras devem ter todas a mesma largura. 103) names(caes) = c("Pinscher". Considere o gráco em colunas apresentado na Figura 5."Outros") par(mai=c(1. col="LightYellow".lab=1) abline(h=0. 75.2."Rottweiller". 16. (ni ou fi ). space=0."Poodle". las=1.Apresentação gráca de variáveis qualitativas 43 5. em que uma das dimensões é proporcional à magnitude a ser representada igual para todas as colunas ou barras. xlab="Raças dos Cães". .lab=1) abline(h=0. Caso o gráco fosse construído a partir de um banco de dados. seria necessário tabular os valores de cada categoria primeiro. col="LightYellow". 16. cex. 40 Percentuais (%) 30 20 10 0 Pinscher Pastor Alemão Poodle Rottweiller SRD Outros Raças dos Cães Figura 5.1. em porcentagem.2 apresenta os mesmos dados utilizados na Figura 5. são fornecidos os totais observados para cada categoria. . Na Figura 5. 40). ylim=c(0.prop.44 Capítulo 5.prop = round(100*prop.1. É de uso mais frequente apresentá-la utilizando-se a porcentagem.names=1. só que transformando os valores absolutos em porcentagem. lwd=1) Observe que neste caso.2 Percentual de raças caninas atendidas no Hospital Veterinário da Universidade Estadual de Londrina em 2003."Pastor \n Alemão". 20. space=0."SRD".. xlab="Raças dos Cães". ylab="Percentuais (%)". cex. 103) names(caes) = c("Pinscher"."Poodle".2)) barplot(caes. 75."Outros") caes.6. cex.table(caes). 19.3 são apresentados os resultados para a cor dos olhos. 2) par(mai=c(1. A Figura 5. Considere os dados dos pers dos alunos do curso de Medicina Veterinária do ano de 2011. Observe o cálculo das porcentagens nos comandos do R: caes = c(37. Grácos Nem sempre é interessante utilizar os dados absolutos no eixo das ordenadas."Rottweiller".2. las=1.axis=1. col="LightYellow".uel.'Pretos'. ylab="Frequências". las=1) abline(h=0. attach(perfil) (tab.rec') names(perfil) . xlab="Cor dos olhos".br/pessoal/silvano/Veter/Dados/Perfil2011.ord. 'Verdes') barplot(tab.ord = sort(tab.olhos.epiinfo('http://www.Apresentação gráca de variáveis qualitativas 45 80 Percentual (%) 60 40 20 0 Castanhos Verdes Azuis Pretos Cor dos olhos Figura 5.olhos. O programa R para construir o gráco de colunas percentual a partir de um banco de dados é dado por: rm(list=ls()) require(foreign) perfil = read.'Castanhos'. xlab="Cor dos olhos".olhos) = c('Azuis'.olhos = table(Q6)) names(tab. lwd=1) #---------------------------# Utilizando os percentuais #---------------------------- . las=1) abline(h=0.olhos. ylab="Frequências".olhos.3 Cor dos Olhos dos alunos do 1º ano do curso de Medicina Veterinária da Universidade Estadual de Londrina em 2011. lwd=1) #------------------------------------# Ordenando por valores decrescentes #------------------------------------(tab. decreasing = T)) barplot(tab. col="LightYellow". ord). space=0. Outros SRD Raças dos Cães Pinscher Pastor Alemão Poodle Rottweiller 0 20 40 60 80 100 120 Frequências Figura 5.. las=1. 5. ylab="Percentual (%)".2)) barplot(100*prop. lwd=1) Quando os rótulos dos eixos (atributo) da variável são longos. Observar que.7) abline(h=0. xlab="Cor dos olhos".46 Capítulo 5. utilizados na construção do gráco de colunas.4.15. em termos de programação gráco de barras é o comando horiz=T R.1.olhos. col="LightYellow". o que diferencia o gráco de colunas do e a denição dos limites para o eixo X..2 Gráco em barras Considerando o mesmo conjunto de dados dos cães.1. ylim=c(0. pode-se optar pelo gráco de barras. Grácos par(mai=c(1. pode-se construir o gráco em barras que é apresentado na Figura 5.80). .table(tab.4 Raças caninas atendidas no Hospital Veterinário da Universidade Estadual de Londrina em 2003. 103) names(caes) = c("Pinscher". line=2) abline(v=0) 5.5. 19.7. 1500 Bovinos Suínos Número de cabeças (x 10.names=1) mtext("Frequências". side=1. "Rottweiller".3 Gráco em colunas justapostas Quando uma das variáveis qualitativas tem mais de um nível.120). cex. 6. 1). las=1. cex. uma forma de apresentação comumente usada é através do gráco de colunas justapostas.Apresentação gráca de variáveis qualitativas 47 caes = c(37. .axis=1.1.5. que são os bovinos e suínos.'Poodle'. space=. Considere os dados apresentados na Tabela 4. 75. . 16. "Outros") (caess = sort(caes. "Poodle". 'Pinscher'. bty='l'. levando em consideração apenas as duas maiores produções. Vamos comparar o número de cabeças da produção pecuária dos estados do sul do Brasil.'Outros') par(mar=c(4.7. xlim=c(0. col="LightYellow".'Pastor \n Alemão'. A comparação é apresentada na Figura 5.5 Produção pecuária dos estados do sul do Brasil no ano de 2012. 1.'SRD'.5. horiz=T. "Pastor \n Alemão". "SRD". 20. ylab="Raças dos Cães". 0)) barplot(caess. xlab="".000) 1000 500 0 Rio Grande do Sul Paraná Santa Catarina Estados Figura 5.5. decreasing=F)) names(caess) = c('Rottweiller'. mgp=c(5. que consiste em colocar lado-a-lado os níveis da variáveis.7. line=4) abline(h=0) 5. 24502. 1. las=1) legend(7. angle=c(90. 0). fill=c('lightgreen'. 13898. Considere os dados apresentados na Tabela 4. legend=rownames(parte). 1747. 74792. "lightblue"). 4095648.'Ovinos'. ylim=ylim. 1710.000)'.1. .'Suínos'. 7480183. beside=T. 325837. xlab="Estados". 638923. 2888.4 Gráco em colunas compostas Pode-se comparar os níveis de uma variável dentro de cada categoria em uma única coluna. 39132. 1400. 100283.'Paraná'. que são os bovinos e suínos.7.0). ylab=''. 176130.'Asininos') colnames(dados) = c('Rio Grande do Sul'. Esta forma de apresentação é através do gráco de colunas compostas apresentado na Figura 5.2. Vamos comparar o número de cabeças da produção pecuária dos estados do sul do Brasil. . 4072960.48 Capítulo 5.'lightblue'). 925)/10000 (dados = matrix(cabecas. 6213316. 1965.'Santa Catarina') dados #----------------------------# Apenas Bovinos e Suínos #----------------------------(parte = dados[1:2. 468691. .'Caprinos'. 9413937.2. cex=1) mtext('Número de cabeças \n (x 10. by=300) barplot(parte. bty='n'.'Equinos'. 122565. 1:3]) par(mai=c(1. 'Bubalinos'. 307651.'Muares'. levando em consideração apenas as duas maiores produções. A comparação é apresentada na Figura 5. 57243. 5518927. 1600.6. col = c("lightgreen".2)) ylim = range(0. angle=c(90. side=2. Grácos Os comandos do R para construção do gráco de colunas justapostas são dados por: rm(list=ls()) cabecas=c(14140654. byrow=T)) rownames(dados) = c('Bovinos'.6. nrow=8. 'Ovinos'.20). 1600. 579764. beside=F. las=1.8.'Santa Catarina') (parte = dados[1:2..'Paraná'. 256965. 7846398. cex=1) abline(h=0) . 'Equinos'. 70868.000)") legend(2.0). 2000.. "blue").'blue'). 4009938. 708)/10000 (dados = matrix(cabecas. 94545. angle=c(90.15). 'Suínos'.Apresentação gráca de variáveis qualitativas 49 2000 Bovinos Suínos Número de cabeças (x 10. 3864724. byrow=T)) rownames(dados) = c('Bovinos'. 101943. legend=rownames(parte). 1988. 579764.2. col=c("green". 'Caprinos'. 44684. 2000. 27918. 55995. 4631600. 5320252.1:3]) par(mai=c(1.2)) ylim = range(0. 9585600. 3867.000) 1500 1000 500 0 Rio Grande do Sul Paraná Santa Catarina Estados Figura 5. nrow=8. bty='n'. 'Bubalinos'.1. 'Muares'. 23295.0). 454938. ylim=ylim. 393544. density=c(15. 167382.6 Produção pecuária dos estados do sul do Brasil no ano de 2008. density=c(20. xlab="Estados". 4009938. Os comandos do R para construção do gráco de colunas compostas são dados por: cabecas=c(14115643. fill=c('green'. angle=c(90. by=200) barplot(parte. ylab="Número de cabeças \n (x 10. 'Asininos') colnames(dados) = c('Rio Grande do Sul'. 2182. Assim. desse modo. permitindo comparações entre as categorias.650 38.700 = 53. tem-se v = 3. 230. o número total de observações. cada qual com área proporcional à frequência do i-ésimo valor assumido pela variável. 360o Assim. no ano de 2005. 70) names(anim) = paste(c("Pequeno Porte".1. Grácos 5. corresponde ao total dos graus. O programa R para construção do gráco de setores é dado por: anim = c(650.50 Capítulo 5.650 θ3o = 360 × 5. 09o 38.650. "Médio Porte".300 = 114.650 Figura 5. "Grande Porte"). Constitui-se num círculo no qual são destacados. n ??. n = 38. n f i Tomando-se os dados da Tabela − 360o =⇒ − θio fi 360 fi .650 = 192. 34o θ2o = × 12. e a frequência θio = corresponde ao ângulo θio .7 Categoria dos animais atendidos no Hospital Veterinário da Universidade Estadual de Londrina. 57o 38. o círculo será dividido em três setores circulares.5 Gráco em setores circulares É uma forma adequada de se visualizar a proporção que cada categoria representa em relação ao total dos dados. tem-se: θ1o = 360 360 × 20. v setores circulares. . 8. "Médio Porte \n (24.9) text(0.3. col= "black". "white". cex=. -."white". radius=1) text(0.5. cex=.4%) Grande Porte (7.7.4%)".4%)". . col=c("LightYellow". col= "black".4%) Médio Porte (24. 1.9) text(0.Apresentação gráca de variáveis qualitativas 51 round(100*anim/sum(anim). cex=. "Pequeno Porte \n (68.2%)".2%) Figura 5. dig=1). clockwise=F) Caso se queira incluir os nomes das categorias dentro do gráco. . -. cex=1. "green"). no ano de 2005. 1. bastam os seguintes comandos: #--------------------------------------# Incluindo os nomes dentro do gráfico #--------------------------------------par(mar=c(1. Pequeno Porte (68.5.8 Categoria dos animais atendidos no Hospital Veterinário da Universidade Estadual de Londrina. labels=`'. "%") pie(anim. col= "black". border="red". col=c("LightYellow". "Grande Porte \n (7. 1)) pie(anim.2.9) O resultado é apresentado na Figura 5.15. "green"). 9 Relação entre tolerância ao cigarro e gênero dos estudantes. sep="") attach(pedroso) Sexo = factor(Sexo.'%'. . Os dados são apresentados no livro de Magalhães & Pedroso e integram as informações de um questionário estudantil.table(table(Toler. "Incomoda muito".".65. A Figura 5.p. col= "red". cex=1.p[1. . O programa R para construção do gráco de setores é dado por: pedroso = read.1].p[1. sep=' '). main=''.'%'.9 mostra o sentimento das pessoas em relação à tolerância ao cigarro. Grácos 5. label=c("Feminino". cex. ylab='Gênero'. label=c("Indiferente". cex=1. paste(dupla.ent. paste(dupla. col.1) text(.ent.65. cex=1.25. Sexo)).lab=1.table("http://www.12.ent.p[3.'%'. 1).p = round(100*prop. 2) par(mar=c(3. 1.1. sep=' '). cex.49.ent. col= "red".2. sep=' ').ent.52 Capítulo 5. col= "blue". xlab="Tolerância ao Cigarro".25.1) text(. "Incomoda pouco")) dupla.2].ent. "Masculino")) Toler = factor(Toler.1.7.6 Gráco em setores retangulares Uma forma interessante de apresentação gráca do relacionamento entre duas variáveis qualitativas é utilizando o gráco de setores retangulares.1) text(.1) text(. las=1. paste(dupla.txt". col= "red".'%'. sep=' ').uel.br/pessoal/silvano/Veter/Dados/questionario.lab='black') plot(dupla. .axis=1. 2. Indiferente 14 % Incomoda muito Incomoda pouco 32 % 28 % Gênero Feminino Masculino 6 % 14 % 6 % Tolerância ao Cigarro Figura 5. col="LightYellow". dec=".82.1].1) .1]. paste(dupla. cex=1.65. . head=T.p[2. 3.49.mgp=c(3. 4. 0. 3. 5.p[2.3.. 3.cad = table(Filhotes)) par(mai=c(1. 3. 2.p[3.ent. col= "blue". 4. 4. cex=1.ent. 3. 10 8 Freqüências 6 4 2 0 0 1 2 3 4 5 Número de Filhotes Figura 5. 3.Apresentação gráca de variáveis discretas 53 text(. 1. Na Figura 5.2. .2 Apresentação gráca de variáveis discretas Para variáveis quantitativas discretas. . 2.2]. 3. 3. paste(dupla.2. 4. sep=' ').'%'. sep=' '). O programa R para construção do gráco de bastão é dado por: Filhotes = c(5. 2. 5.. 3.83. 2. 3. 4. 2) sort(Filhotes) (tab. 1.05. 1.1) 5. paste(dupla. 2. 4. 4.10 Número de lhotes de cadelas submetidas a inseminação articial no Hospital Veterinário da UEL em 2003. col= "blue".12. 1.2].'%'.1 Gráco em bastão Este gráco é constituído de linhas verticais ou horizontais traçadas num eixo de coordenadas cartesianas.10 é apresentado o gráco de bastão relativo aos dados da Tabela 4. cex=1.1.1) text(. 0)) .3). 1. a representação gráca pode ser feita utilizando-se o gráco de bastão. do Hospital Veterinário.3. 5. nos últimos 50 dias. do Hospital Veterinário.3 Apresentação gráca de variáveis contínuas A representação gráca de dados relativos a uma variável contínua. las=1) abline(h=0) 5. nos últimos 50 dias. type="h". que o número de atendimentos diários mais comum está entre 30 e 36 .axis=1. pode ser feita através de um histograma ou polígono de frequências. da Universidade Estadual de Londrina. A Figura 5. da Universidade Estadual de Londrina. Grácos plot(tab. cex. 20 Frequências 15 10 5 0 12 18 24 30 36 42 48 54 Número de atendimentos Figura 5. lwd=2.1 Histograma É uma sequência de retângulos justapostos. ainda.3. Pode-se notar que a distribuição dos dados é aproximadamente simétrica e não apresenta grande variabilidade e. col="red".11 Número de atendimentos diários.54 Capítulo 5. em que cada retângulo tem como base a amplitude do intervalo e como altura as respectivas frequências (absoluta ou relativa). bty="l". ylab="Frequências".11 mostra a distribuição do número de atendimentos diários. xlab="Número de Filhotes". dispostos em uma tabela de classes de frequências.cad. 18.30. Para se traçar o polígono de frequências.16.43.24.22.42.36) par(mai=c(1. col="red".26.18.35.26.23. da Universidade Estadual de Londrina.39.32. line=-1) Obs. xlab=''.32.3. breaks=c(12.Apresentação gráca de variáveis contínuas 55 atendimentos/dia.27. . 33. 5.32.27. Depois para fechar o polígono unimos os extremos da gura com o eixo das abscissas.30. ylab='Frequências'.30.28.29.12. nos pontos em que estariam os pontos médios de uma classe imediatamente inferior à primeira e de uma classe imediatamente superior à última. une-se os pontos cujas abscissas são os pontos médios das classes e as ordenadas são as respectivas frequências.15.54). freq=T. abline(h=0) axis(1.32. 1.27.23.18.36. basta acrescentar o comando labels=T.48.33. side=1.24.30. las=1. do Hospital Veterinário. main="".33.2 Polígono de frequências Pode ser usado como alternativa para o histograma.35.33.24.28.2)) hist(atend.33. density=10) mtext('Número de atendimentos'.31.48.19.20).30.25.42. right=F. nos últimos 50 dias. xaxt="n".45.2.29. ylim=c(0.39.37.41.42. .31.28.54). O programa R para construção do gráco de bastão é dado por: atend=c(49.36. border="blue".36. line=2) .38. 20 Frequências 15 10 5 0 9 15 21 27 33 39 45 51 57 Pontos Médios Figura 5.34. at = c(12. Os comandos do R para construção do polígono de frequências são dados por: .: Caso queira acrescentar os valores observados no gráco.12 Número médio de atendimentos diários.20.31. medios = c(9.15.3. como resultado. 0)) par(mai=c(1.29.32. xlab=''. col="LightYellow".18. bty="l".12. da Universidade Estadual de Londrina. at=c(pontos.31.56 Capítulo 5.medios)) abline(h=0) 5.medios. enquanto que no histograma elas são perdidas. considerando-se que os dados pertencentes ao intervalo 0 a 4.29. Grácos atend=c(49. Para o conjunto de dados do número de atendimentos no Hospital Veterinário.las=1. xaxt="n") axis(1.27.20). nos últimos 50 dias.1.31. Considere os dados relativos ao número de atendimentos diários.30. main="".45.23.33.38. freq=T. cam em um ramo e de 5 a 9 em outro: 12 ⇒ ramo = 1 e folha = 2 15 ⇒ ramo = 1 e folha = 5 16 ⇒ ramo = 1 e folha = 6 18 ⇒ ramo = 1 e folha = 8 19 ⇒ ramo = 1 e folha = 9 45 ⇒ ramo = 4 e folha = 5 49 ⇒ ramo = 4 e folha = 9 .42.35.41.27.54). breaks=c(12.19.20.3.18.20).2)) plot(pontos.31.3. ylab="Frequências"..39. type="l". col="red". las=1. 57)) (fr = c(0. algum detalhe é perdido.23.43.30.16.32.25.22.1 Construção de um gráco ramo-e-folhas a) Denir a unidade de medida que dividirá cada valor em duas partes: ramo e folha. ylab="Frequências".24.26. do Hospital Veterinário.30. fr.39.28. right=F. main="".28.24..32.35. ylim=c(0.33.36. Uma vantagem do ramo-e-folhas é que as observações individuais são preservadas.42.33.2.27.36) (histo = hist(atend. 33. plot=F)) (pontos.26. 12 15 16 18 19 20 22 23 23 24 25 26 26 27 27 27 28 28 28 29 29 30 30 30 31 31 31 32 32 32 32 33 33 33 33 33 34 35 35 36 36 37 38 39 39 41 42 43 45 49 5.30.36.32.34. ylim=c(0.28. xlab="Pontos Médios".37. lwd=2.48.33. a divisão foi separar a dezena da unidade. histo$mids.3 Gráco de ramo-e-folhas Agrupar os dados em classes condensa os dados originais e. histo$counts. 35.37.28. Os comprimentos das caudas são dados pelas linhas que vão do retângulo aos valores remotos e pelos pontos atípicos (Bussab & Morettin.Apresentação gráca de variáveis contínuas 57 b) Escrever os ramos em ordem crescente verticalmente e passar uma linha vertical à direta deles.20.28.39. Assim.32. As posições relativas de q1 . box-whisker plot ).33.36) stem(atend) Obs.42. o gráco de ramos-e-folhas para os dados do número de atendimentos é: 1 | 2 1 | 5689 2 | 02334 2 | 56677788899 3 | 0001112222333334 3 | 55667899 4 | 123 4 | 59 Os comandos do R para construção do polígono de frequências são dados por: atend=c(49.12.27. A Figura 5.29.38.32.15.31. dispersão.28. caudas e dados discrepantes.34. A posição central é dada pela mediana e a dispersão por dq .31. dos pesos (g) de tilápias do nilo. 33. no ano de 2003.23.16.27. Box Plot ) O chamado gráco de caixa (ou box plot.3.26. em cada ramo.32. através do gráco de caixas.: note que o resultado é mostrado no 5.24.45.27.39.35. .36. coletados por quatro equipes de alunos do curso de Medicina Veterinária.32.33. 2003).26.31.23.13 mostra a comparação.41.22.30. as folhas em ordem crescente da esquerda para a direita.33. tem por nalidade a detecção de observações discrepantes e o estudo da simetria da distribuição. q3 dão uma noção da assimetria da distribuição. O gráco de caixas dá uma idéia da posição.33. no tanque de piscicultura da Universidade Estadual de Londrina.19. c) Associar cada folha ao respectivo ramo.30.29.30. d) Ordenar. assimetria.18.4 Gráco de Caixas (ou console do R e não em uma janela gráca.43.25. q2 . . . col="LightYellow".txt".5. mean)) par(mai=c(1. dec='. bty='l'. O objetivo deste tipo de diagrama é vericar se existe algum tipo de associação entre as variáveis observadas.br/pessoal/silvano/Veter/Dados/Tilapia.table("http://www. xlab='Equipes'. Y ) do sistema de coordenadas cartesianas.1.2.13 Comparação de pesos (g) de tilápias para quatro equipes de alunos do curso de Medicina Veterinária da Universidade Estadual de Londrina em 2003. las=1.uel.. outline=F) points(medias. Os comandos do R para construção do gráco de caixas são dados por: tilapia = read. A determinação dos quartis e demais valores para a construção do gráco de caixas será visto no Capítulo 6. pch=19. cex=1. Grácos 500 Pesos (g) 450 400 + + + + 1012 2021 2022 350 300 250 1011 Equipes Figura 5. ylab='Pesos (g)'. factor(Equipe).58 Capítulo 5.3.') attach(tilapia) names(tilapia) (medias = tapply(Peso.2)) boxplot(Peso~factor(Equipe). pch="+". head=T. col="blue") 5.5 Gráco de dispersão É aquele em que cada dado é representado por um ponto (X. Apresentação gráca de variáveis contínuas 59 500 450 Peso (g) 400 350 300 250 200 22 24 26 28 30 Comprimento (cm) Figura 5.6 Gráco de Setores Proporcionais Uma forma interessante de apresentar a relação entre três variáveis é através do gráco de setores proporcionais. Os comandos do R para construção do gráco de dispersão são dados por: tilapia = read. Da Figura 5.2)) plot(Peso ~ Comp. col="blue". 1.14 Relação entre peso e comprimento de tilápias do Nilo. bty="l") detach(tilapia) 5. pch=19.br/pessoal/silvano/Veter/Dados/Tilapia.table("http://www.2. sendo que a magnitude do círculo indica a contribuição de uma terceira variável. uma vez que as variáveis correlacionadas não necessariamente estão sujeitas a uma relação de causa e efeito.uel. las=1. dec=". Deve-se tomar cuidado na análise deste tipo de gráco. cex=1. .txt".3. do tanque de piscicultura da Universidade Estadual de Londrina. Ele é uma variação do gráco de dispersão. 2003.14 nota-se uma relação linear crescente entre as variáveis Peso e Comprimento. . xlab="Comprimento (cm)". ylab="Peso (g)".") attach(tilapia) names(tilapia) par(mai=c(1. header=TRUE. No Capítulo ?? será estudado como ajustar uma equação linear a um conjunto de dados. .2. maior o tempo que o animal levou para se recuperar da anestesia.') attach(tilapias) names(tilapias) symbols(Peso~Comp.uel. inches=F.txt'.15 mostra que há tilápias que demoraram mais tempo a se recuperar da anestesia. Grácos A Figura 5.15 Relação entre peso e comprimento de tilápias do Nilo. de recuperação da anestesia. Quanto maior o raio. dec='. ylab="Pesos (g)". A Figura 5. do tanque de piscicultura da Universidade Estadual de Londrina.table('http://www. xlab="Comprimento (cm)". bg="LightGreen". 500 Pesos (g) 400 300 200 22 24 26 28 30 32 Comprimento (cm) Figura 5. A variável Tempo de Recuperação é indicada pelo raio de cada circunferência. las=1) . head=T. circles = Recup/500. bty="l". Os comandos do R para construção do gráco de setores proporcionais são dados por: tilapias = read.br/pessoal/silvano/Veter/Dados/Tilapia. controladas para a variável tempo de recuperação da anestesia. fg="blue".60 Capítulo 5.15 mostra a relação entre o peso controladas pelo tempo (s) (g) e comprimento (cm) das tilápias do Nilo. 2003. 2.table("http://www.1. É usual unir os pontos através de segmentos de reta.5. taxa ou medida tomada). etc) e no eixo vertical a variável a ser estudada (frequência.uel.8)) detach(prod) Um cuidado a se ter com grácos.. 420 Pesos (g) 400 380 360 340 320 1 2 3 4 5 6 7 8 Semanas Figura 5. do tanque de piscicultura da UEL. mês. at=c(0.7 Gráco de Linhas Quando as observações são feitas ao longo do tempo. bty="l". xlab="Semanas".4]). col="blue". dec=".16 Peso médio de 10 tilápias. type="b".3.2. ylab="Pesos (g)". . daí o nome recebido. Prod. Muitas vezes uma mudança de escala pode dar uma impressão errônea sobre a realidade dos acontecimentos.4. dia.txt". acompanhadas durante 8 semanas.3. las=1.5.br/pessoal/silvano/Veter/Dados/Tilapia.1.frame(Prod=sort(prod[1:8. Os comandos do R para construção do gráco de linhas são dados por: prod = read. os dados são denominados temporais ou longitudinais e uma representação adequada para este tipo de dados é o gráco de linhas. lwd=2. Consiste em colocar no eixo horizontal do gráco a escala temporal (ano. head=T.") (dados=data. é com as escalas adotadas..2)) plot(Semanas.Apresentação gráca de variáveis contínuas 61 5. xaxt='n') axis(1. Semanas=1:8)) attach(dados) par(mai=c(1.7.6. de forma errônea. Grácos 5. da Universidade Estadual de Londrina. Junho Janeiro Fevereiro Março Abril Maio Junho Meses Figura 5. 450 450 400 350 Número de atendimentos Número de atendimentos 440 430 420 300 250 200 150 100 410 50 400 0 Janeiro Fevereiro Março Abril Maio Meses Figura 5. da Universidade Estadual de Londrina.18 Gráco Correto.17 Gráco distorcido.1. Observe que na Figura 5. para representar os dados da Tabela 5. são dados pelas Figuras 5. muitas vezes eles são utilizados. com escalas diferentes.62 Capítulo 5.17 e 5.18. no primeiro semestre de 2003. considere os dados (ctícios) apresentados na Tabela 5. para dar uma impressão que não condiz com a realidade.1. Para o propósito de mostrar uma aplicação gráca ilusória.17 tem-se a impressão de que houve um número muito grande de .4 Ilusão dos Grácos Embora os grácos sejam utilizados para que se tenha uma visualização mais rápida. clara e objetiva do comportamento dos dados. Tabela 5. referentes ao número de atendimentos realizados pelo Hospital Veterinário. no primeiro semestre de 2003.1 Número de atendimentos no Hospital Veterinário. Meses Número de atendimentos Janeiro 410 Fevereiro 430 Março 450 Abril 408 Maio 408 Junho 405 Fonte: Fictícia Os grácos. 6. lwd=1) Uma grande variedade de modelos grácos. lwd=1) barplot(atend.408. by=50).ac. at=seq(0. density=10) axis(2. density=10) axis(2.430. by=10). Perceba que a escala do gráco começa em 400 atendimentos. las=1. las=1) abline(h=0.50. cuidado ao analisar grácos.450. 'Abril'.18 a escala começa no zero e percebe-se que no mês de março houve. aplicados às mais diversas áreas. 'Fevereiro'.jp/RGM2/index. yaxt='n'. . Já na Figura 5. col='red'. 'Maio'.450. xlab='Meses'. space=0.genes. at=seq(0. space=0. 'Junho') barplot(atend-400. pode ser encontrada na seguinte página: http://bm2. Logo.408. las=1) abline(h=0. by=10).nig. mas que a quantidade de atendimentos a mais não é tão signicativa quanto àquela apresentada na Figura 5.17. xlab='Meses'. yaxt='n'. lab=seq(400. col='black'. ylab='Número de atendimentos'. 'Março'.php?clear=all. Os comandos do R para construção desses grácos são dados por: atend = c(410.Ilusão dos Grácos 63 atendimentos comparado aos outros meses. um número maior de atendimentos. las=1.450. seja crítico. col='red'.405) names(atend) = c('Janeiro'. col='black'. ylab='Número de atendimentos'.6. realmente. 8. 2 4. tabelados ou não. deseja-se resumir ainda mais esses dados. 0. 7 + 3.0) mean(pesos) 64 . 3. em um único número.8. Logo. 0 4. é a média aritmética simples. a média será: y¯ = 3. 4.0. 7 3. 1 4. ou simplesmente média e representa-se por y¯. 3. 4. Muitas vezes.1. apresentando um ou alguns valores que sejam representativos do conjunto em estudo.Capítulo 6 Medidas de Posição Viu-se que o resumo de dados através de grácos e tabelas de frequências fornece muitas informações sobre o comportamento de uma variável. 4. 8 4. 5 5. mediana ou moda. o conjunto de dados observados da variável em estudo. Usualmente emprega-se uma das seguintes medidas de posição (ou localização) central: média. 6. 5. 8 + 4.7. de 10 coelhos da raça Nova Zelândia Branco foram anotados. 1 + 3. 2 + 4.1. 8 + 5. 4. em kg .5.2. 4. 9 4. obtendo-se os seguintes valores: 3.1 Média Aritmética Simples A medida de tendência central mais comumente usada para descrever resumidamente um conjunto de dados.9. 31 kg. 8 5. 1 3. 10 Os comandos do 4 para o cálculo da média são dados por: pesos = c(3. 5 + 5. 5. As medidas de posição são utilizadas para sintetizar. É denida como a soma das observações dividida pelo número delas. 0 = 4. 9 + 4. 0 + 4. Exemplo: Os pesos. 1 + 4. Este é o critério denido para o cálculo da média nal para a disciplina de Estatística do curso de Medicina Veterinária. 6. obtidos pelo pesquisador. Quando dados de uma amostra de determinada população são utilizados. . yn os n valores da variável Y. . .2 Média Aritmética Ponderada A média aritmética é considerada ponderada se os valores observados tiverem pesos diferentes.1) o total de observações.Média Aritmética Ponderada Genericamente. seja 65 y1 . i=1 De forma genérica. A média aritmética pode ser escrita como: 1∑ yi n i=1 n y¯ = sendo yi o valor observado do i-ésimo indivíduo e n (6. para calcular a média nal tem-se a y¯ = e P4 são as notas obtidas nas provas e os respectivos pesos. P3 Portanto. pois emprega-se apenas uma fração do conjunto total. P2 . a média aritmética calculada será uma estimativa. média ponderada. cujos pesos são: em que T é a nota obtida na listas. dada por: P1 + P2 + 2 × P3 + 2 × P4 + T 5 ∑ pi i=1 em que o valor 5 ∑ pi refere-se à soma dos pesos. tem-se: n ∑ y¯ = yi × pi i=1 n ∑ i=1 pi . . Prova Peso (pi ) P1 1 P2 1 P3 2 P4 2 T 1 P 1 . y2 . o cálculo da média para dados agrupados.5.5.7. 9. 7. . k o número de classes e fi as frequências observadas. Exemplo: Considere a distribuição de frequências dos pesos de cães das raças Fila Brasileira e Pastor Alemão. nada mais é que o cálculo de uma média ponderada em que os pesos são dados pelas frequências observadas. fi i=1 sendo yi o valor observado (ou ponto médio da classe).66 sendo Capítulo 6. 7. Solução: Os comandos do R para o cálculo da média ponderada são: Provas = c(8.0. 10. 2. 2.0) pesos = c(1. 1) (MF = weighted.5 10. obtidas na disciplina de Estatística. pesos)) Caso as observações estejam agrupadas em distribuições de frequências.5 6.0 7.5.5 7. Medidas de Posição yi o valor que a variável recebe e Exemplo: pi seu respectivo peso.mean(Provas.1.7 9.0 Pesos 1 1 2 2 3 1 Calcule a média nal. o cálculo da média passa a ser: k ∑ y¯ = y i × fi i=1 k ∑ . Considere que as notas de um determinado aluno. 1. atendidos no Hospital Veterinário da UEL em 2003 e apresentado na Tabela 6. 6. foram: P1 P2 P3 P4 P5 T Notas 8. 3. Portanto. Sendo assim. Acum.CBT relaciona-se principalmente com práticas de higiene durante a ordenha e limpeza do equipamento de ordenhar.5. .: A média sofre muita inuência de valores atípicos. fi)) Obs.5) (media = weighted. que é calculada por: √ y¯g = n y1 × y2 × .mean(yi.8.4. . Por outro lado. é ótima se a distribuição dos dados for aproximadamente normal. 6. Neste caso. yn ou y¯g = n n ∏ yi (6. considere os dados apresentados na Tabela 6.1 Distribuição de frequência dos pesos (kg) de 30 cães das raças Fila Brasileiro e Pastor Alemão.Média Geométrica 67 Tabela 6. Pesos 5 11 17 23 29 35 (kg) Freq.3 Média Geométrica Quando os valores observados crescem de forma exponencial. coletados no Hospital Veterinário da Universidade Estadual de Londrina.2) i=1 A Contagem Bacteriana Total .26.14. Solução: Os comandos do R para o cálculo da média para dados agrupados são: yi = c(8. (Fac ) Ponto médio (yi ) yi fi 1 5 8 7 4 5 Total 30 Fonte: Hospital Veterinário da UEL Calcule a média de pesos dos animais.7.20. a média aritmética pode não representar bem o conjunto de dados.38) fi = c(1. deve-se utilizar a média geométrica dos dados. absolutas (fi ) ⊢ 11 ⊢ 17 ⊢ 23 ⊢ 29 ⊢ 35 ⊢ 41 Freq. em 2003.2 .32. 000 5.000 4 Fonte: Obs.asp?cod=62 O leite deve atingir a temperatura de 4 oC em no máximo 2 horas após a ordenha. Determine a média geométrica do número de bactérias encontrada nos três tempos apresentados na Tabela 6.000 1.mean(cbt_9) .000 35 30. são: require(psych) cbt_3 = c(9000.net/inf_tecnicas. Solução: Os comandos do R para o cálculo da média geométrica. 30000) cbt_9 = c(9000.000.2 Efeito da temperatura de armazenamento e tempo após a ordenha sobre o crescimento bacteriano. Tabela 6.000 25 18. 18000.000.laticinio. Temperatura de armazenamento (o C) 3 horas 9 horas 24 horas 9. 1000000.000.000. Medidas de Posição referentes a CBT encontrada no leite. considerando-se a temperatura de armazenamento e o tempo após a ordenha.000 15 10. 5000000. 57000000.000. 46000.000 10. 10000. entre outros.000 46.000 800.: Tempo de armazenamento http://www. 800000000) geometric.2.mean(cbt_3) geometric.68 Capítulo 6.35000000) cbt_24 = c(10000.000 9.000 35.000 57. 18000. 10000. No caso de se utilizar o pacote asbio. 30000) G.mean(cbt_3) Pode ser necessário o uso de logaritmos para o cálculo da média geométrica. aplica-se o logaritmo ao segundo termo da Equação (6.2). Nesta situação. . ynfn .Média Geométrica 69 geometric. os comandos seriam: require(asbio) cbt_3 = c(9000.mean(cbt_24) Observe que é necessário instalar o pacote psych. . a média geométrica ponderada passa a ser: √ y¯g = n y1f1 × y2f2 × . obtendo-se: log y¯g y¯g = = 1 (log10 y1 + log10 y2 + · · · + log10 yn ) n 10 log10 y1 + log10 y2 + · · · + log10 yn n Caso as observações estejam agrupadas em distribuições de frequências. denotada por M d. Para calcular a mediana deve-se. também procura caracteri- zar o centro da distribuição de frequências quando os valores são dispostos em ordem crescente ou decrescente de magnitude. Medidas de Posição Exemplo: Determine a média geométrica para os dados da Tabela (6. nos últimos 11 dias foi: 10 12 Determine a mediana.1 Determinação da mediana de valores não tabulados Para determinar a mediana é preciso ordenar os dados.4 Mediana A mediana. 6. em seguida aplique um dos processos a seguir: a) A variável em estudo é discreta e n é ímpar. O número que indica a ordem ou posição em que se encontra o valor correspondente à mediana é denominado elemento mediano (EM d ). ou seja. é uma quantidade que. É o valor que divide o conjunto ordenado de valores em duas partes com igual número de elementos. 11 17 21 18 16 17 20 15 27 . Neste caso a mediana será o valor da variável que ocupa a posição: EM d = Exemplo: n+1 .70 Capítulo 6. 50% das observações cam acima da mediana e 50% cam abaixo. como a média.4. em primeiro lugar. Solução: 6. ordenar os dados para que se possa localizar a posição da mediana e assim encontrar seu valor.1). 2 O número de pacientes atendidos no Hospital Veterinário da UEL. por convenção. será a média aritmética dos valores que ocupam as posições: ( EM d = Exemplo: n 2 e n+2 2 ) . 15. têm-se: 10 11 12 15 16 17 17 18 20 21 27. Md = 12 =6 2 e ) 12 + 2 =7 . 18. a mediana será a média aritmética dos valores cujos elementos são: ( EM d = Logo. 17. Portanto. 5. a mediana neste caso será: 17 pacientes. 15. 12.Mediana 71 Ordenados os valores. 17. 16. a mediana se encontra na sexta posição da lista ordenada de valores. 2 16 + 17 = 16. Acrescentando-se mais um dia aos dados do número de paciente atendidos pelo Hospital Vete- rinário da UEL. 17. 21. Neste caso a mediana. 12. 27) median(pac) .: Caso queira ordenar os elementos. 11. 2 A mediana é uma medida resistente a valores atípicos (muito grandes ou muito pequenos). 17. 20. 27) median(pacientes) Obs. 16. Os comandos do 4 para cálculo da mediana são: pac = c(10. tem-se: 10 11 12 14 15 16 17 17 18 20 21 27. 11. o comando é: sort(pacientes) b) A variável em estudo é discreta e n é par. 2 ou seja. 21. 18. Portanto. 20. Os comandos do 4 para cálculo da mediana são: pacientes = c(10. 14. Logo. o elemento mediano será: EM d = 11 + 1 = 6. A moda pode ser obtida mesmo que a variável seja qualitativa. fM d M d = Li + (6. representada por Mo. . e o conjunto se denomina bimodal. A mediana será. admite-se que os valores da variável na distribuição de frequências distribuam-se continuamente.72 Capítulo 6. Todos os termos utilizados na Equação (6. o valor da variável.3. Para determinação da mediana aplica-se a seguinte fórmula: (EM d − Fac−1 ) × a. determinar a classe mediana encontrando-se o elemento mediano. Logo. cada um deles será a moda. 2 2 uma vez que. até 29. = amplitude do intervalo de classe mediana. denida como a realização mais frequente do conjunto de valores observados. cada um deles é uma moda. n 30 = = 15. primeiramente. dado por: EM d = Portanto. tem-se 21 observações. a classe mediana é: 23 ⊢ 29.3) sendo: → Li → a = limite inferior da classe mediana. neste caso.5 Moda Outra medida que pode ser utilizada é a moda. Se dois valores ocorrem com a mesma frequência máxima. Medidas de Posição 6. para o qual 50% da frequência total (n/2) ca situada abaixo e outra metade acima. logo. e até 23 apenas 14. o conjunto não tem moda (amodal). 86 kg. substituindo-se os termos na expressão 6. deve-se.2 Mediana de dados agrupados em classes Quando os valores da variável estiverem agrupados em classes. = 23 + 6. → fM d = frequência simples (absoluta) da classe mediana. Quando nenhum valor é repetido.4.1. Se mais de dois valores ocorrem com a mesma frequência máxima.3) são referentes à classe mediana. → Fac−1 Exemplo: = frequência acumulada anterior à classe mediana. e o conjunto é multimodal. tem-se: Md Md (15 − 14) ×6 7 = 23. Determinar a mediana dos dados da Tabela 6. O elemento mediano para dados agrupados em classes será n/2 (não importa se é par ou ímpar). 3. 161. Sobrevida (semanas) 2 5 6 7 8 9 30 Número de ratos 2 4 10 5 4 1 1 Neste caso. Tabela 6.Moda 73 Exemplo 1: Considere a estatura (em cm) dos alunos do curso de Medicina Veterinária: 155 161 163 163 168 168 168 169 172 175.5. pode-se utilizar um dos seguintes métodos: a) Moda bruta . 4 para o cálculo da moda são dados por: estat = c(155. 4 e 5 não tem moda (Amodal). Logo.1 Moda para dados agrupados em classes Para dados agrupados em uma tabela de distribuição de frequências para tivas discretas.est)[tab.3 Tempo (em semanas) de sobrevida de ratos com câncer induzido experimentalmente. bastando. a moda é 6 semanas. pois este valor se repetiu em maior número de vezes. 172. 2. com valores agrupados em classes.mo = names(tab. 163. variáveis quantita- a determinação da moda é imediata. 168. consultar na tabela.mo Exemplo 2: O conjunto de números 1. 4. a altura modal entre esses alunos é Os comandos do M o = 168 cm. 2 e 4. 163. pois é o valor que ocorre com maior frequência. o valor que apresenta maior frequência. Para dados agrupados em uma tabela de distribuição de frequências para variáveis quantita- tivas contínuas. sendo este a moda. . Consiste em tomar o ponto médio da classe modal (aquela que apresenta maior frequência). 175) tab. determine a moda. 169. Exemplo 3: O conjunto de números 1. Então a moda dessa amostra é sangue tipo O. 3. 2. 168. Considerando-se os dados da Tabela 6. 4 e 5 tem duas modas (bimodal). 168.é o método mais rudimentar para o cálculo da moda em tabelas de frequências.est == max(tab. 6. 2. Exemplo 4: Considere os seguintes dados: Tipo Sanguíneo Frequência O 277 A 141 B 102 37 AB O sangue tipo O ocorreu com maior frequência. 3.est = table(estat) estat.est)] estat. para isso. .1 Esquema para obtenção da moda pelo método de Czuber. da Figura 6. O ponto Mo onais a ∆1 anterior e Por E e ∆2 valor da moda.4) Emanuel Czuber: nasceu em 19/01/1851 em Praga. C e D. o limite superior da classe modal e Mo = Li + x. No ponto de intersecção dessas retas (E). traça-se uma perpendicular ao eixo das ordenadas.1 que: o limite inferior e Ls ABE e e EG.O processo para cálculo da moda para dados agrupados é o geométrico. os segmentos que representam as alturas dos triângulos Sendo Li (Mo ). Este método é baseado na inuência que as classes adjacentes exercem sobre a moda. Traça-se retas AC e BD.74 b) Capítulo 6. B. Figura 6. na classe modal. do número de atendimentos do Hospital Veterinário da UEL. cujos comprimentos são proporci- a diferença entre a frequência da classe modal e da classe imediatamente a diferença entre as frequências da classe modal e da imediatamente posterior. CDE . traça-se a reta FG paralela ao eixo das abscissas.1. EF x a distância entre Li e a moda (6. marca-se. Processo: Na Figura 6. verica-se. localizando o ponto Mo . a partir do histograma de frequências. República Tcheca e morreu em 22/08/1925 em Gnigl. divide a intervalo da classe modal ∆2 . Considere a Figura 6. deslocando-a no sentido da classe de maior frequência. sendo ∆1 (a) em duas partes. assim. obtendo-se. os vértices A. Austria.1. 2005. Medidas de Posição Método de Czuber . 5) em (6. Fórmula de Pearson . ∆1 + ∆2 (6.7) .5) Substituindo-se (6. tem-se que: EF EG = AB CD x a−x = ∆1 ∆2 x∆2 x = a∆1 − x∆1 = ∆1 a ∆1 + ∆2 (6. ∆1 = diferença entre a frequência da classe modal e a imediatamente anterior.6) em que: Li a c) = limite inferior da classe modal. tem-se: M o = Li + ∆1 × a.Moda 75 Sendo os triângulos ABE e CDE semelhantes (pois possuem dois ângulos iguais). = amplitude do intervalo da classe modal.em distribuições moderadamente assimétricas pode ser usada a fórmula de Pearson. (6.4). = a média amostral. ∆2 = diferença entre a frequência da classe modal e a imediatamente posterior. dada por: Mo ∼ x = 3M d − 2¯ em que: Md x ¯ = o valor da mediana. a mediana como o ponto médio e a moda como o ponto de máxima frequência. Medidas de Posição Exemplo: Determinar a moda pelos métodos: moda bruta. é apresentado formas de se calcular a assimetria e a curtose de uma conjunto de dados.8. mas ajudam igualmente a representar um conjunto de dados. 42. . Observações: a) média. c) se a distribuição dos dados é absolutamente simétrica em torno de um valor central. mas podem ter moda.76 Capítulo 6. A média pode ser vista como ponto de equilíbrio das observações. tem-se: Mo ∼ x = 3M d − 2¯ Mo ∼ = 3 ∗ 35 − 2 ∗ 35. então a média. tem-se: Mo = Li + ∆1 a. Na seção 6. tem-se assimetria positiva. tem-se que a moda é 35. ∆1 + ∆2 Mo = 30 + 5 10 = 35. Czuber e Pearson da seguinte distribuição: Classes fi Fi 10 ⊢ 20 10 10 20 ⊢ 30 15 25 30 ⊢ 40 20 45 40 ⊢ 50 15 60 50 ⊢ 60 8 68 60 ⊢ 70 2 70 Total a) A classe modal é 30 ⊢ 40. d) se a média for maior do que a moda. a distribuição de frequência tem e) se a média for menor que a moda. 70 logo. b) Pelo método de Czuber. a mediana e a moda coincidem. pelo método da moda bruta. assimetria negativa da distribuição de frequência. página 84. 5+5 c) Pelo método de Pearson. 29 = 34. mediana e moda têm interpretações diferentes. b) dados categóricos (ou qualitativos) não tem média nem mediana. respectivamente. como por exemplo a variância. Para entender bem uma distribuição. os decis e os percentis. são chamados quartis (inferior.7. P50 = Q2 e P75 = Q3 . 100 p. mediano e superior). o desvio padrão. é o termo da série que a divide em duas partes quaisquer.1 Separatrizes de dados não agrupados O percentil de ordem tal que 100 p de um conjunto de valores dispostos em ordem crescente é um valor (100 p)% das observações estão nele ou abaixo dele e 100(1−p)% estão nele ou acima dele (0 < p < 1). ii) quando deseja-se conhecer o ponto central da distribuição. iii) quando a distribuição dos dados é muito assimétrica. os quartis. ii) quando for necessário obter posteriormente outros parâmetros que podem depender da média. o percentil generaliza qualquer tipo de medida separatriz.6 Utilização das medidas de tendência central a) Escolha da média: i) quando a distribuição dos dados é pelo menos aproximadamente simétrica. 50 e 75. 6. Logo. Separatriz de uma série de n termos colocados em ordem crescente de valor. As principais separatrizes são a mediana. ii) quando precisa-se apenas de uma rápida idéia sobre a tendência central dos dados.7 Medidas Separatrizes Dados simétricos são adequadamente descritos pela média e pelo desvio-padrão. Há vários métodos para o cálculo do percentil de ordem apresentados 9 métodos diferentes.Utilização das medidas de tendência central 77 6. ou seja P100 p . No 4 são . c) Escolha da moda i) quando a medida de interesse é o ponto mais típico ou popular dos dados. Quando os dados são assimétricos. representados por P25 = Q1 . pode-se conhecer valores acima ou abaixo dos quais se encontra uma determinada porcentagem dos dados através da medidas separatrizes. etc. a mediana identica mais adequadamente o centro de um conjunto de dados. b) Escolha da mediana i) quando há valores extremos. tem-se: i) o percentil de ordem 50 (P50 ) é a mediana. ii) os percentis de ordens 25. Assim. 6. Considere os seguintes comprimentos (cm) de tilápias do nilo: 29. 6 − 30. 0 − 29. tal que y1 é o menor valor e yn percentil é o valor tal que a área a esquerda dele é y 1 . 8 − 29. 0 − 29. no Exemplo: R. Medidas de Posição Seja n o número de valores não nulos para uma variável e seja valores ordenados. 5 Determinar os percentis: 0. 5 − 29. yn o maior. 3 − 25. basta optar pelo type = 2. 0 − 28. 20 − 0. 45. 3 − 27. 34 − 0. . o p-ésimo O p-ésimo percentil é calculado como: y +y (i+1) (i) . y2 . 8 − 24. basta escolher a opção type = 3. damento. Para obter as medidas separatrizes por este método no Aplicam-se aqui os critérios de arrendon- R. Para um dado valor de p. em que i é a parte inteira e f é a parte fracionária de np = i + f . se f = 0 2 yp = y se f > 0 (i+1) . Neste caso. Um outro critério. que pode ser adotado. é considerar a estatística de ordem par mais próxima. p representando os entre 0 e 1.78 Capítulo 6. · · · . .0. type=2) quantile(tilap. probs=c(0.6. (6.5.8.0.34. o segundo quartil é a mediana e o terceiro quartil separa os 75% inferiores dos 25% superiores dos dados. fQi (6.7. utiliza-se uma fórmula semelhante à da mediana.25.29.20. denotados por D 1 .8) em que: Li a = limite inferior da classe quartílica.45).29. Q2 Q3 .29. = amplitude do intervalo da classe quartílica. os três quartis. Fac−1 = frequência acumulada anterior à classe quartílica.0. .9) que dividem os dados em 10 .0.2 Separatrizes de dados agrupados Assim como a mediana divide os dados em duas partes iguais.45).30. denotados por Q1 .20. probs=c(0. D3 . A fórmula é dada por: ( in Di = Li + 10 − Fac−1 fDi ) × a.34.0. e dividem as observações ordenadas em quatro partes iguais.5) quantile(tilap. Para o cálculo dos quartis. .24. type=3) 6.0.29. Analogamente.3. D 9 grupos com cerca de 10% deles em cada grupo.28. . O primeiro quartil separa os 25% inferiores dos 75% superiores dos valores ordenados. há nove decis.27.3.Medidas Separatrizes 79 Solução: Os comandos do 4 são: tilap = c(29. D 2 . fQi = frequência simples (absoluta) da classe quartílica.8. dada por: ( in 4 Qi = Li + − Fac−1 ) × a.0. que dividem os dados em 100 grupos com cerca de 1% em cada grupo. 5 17 14. Medidas de Posição em que: Li a = limite inferior da classe decil. fPi (6. Considere a distribuição de frequências dos pesos médios (kg) das leitegadas da raça Landrace. Tabela 6.80 Capítulo 6. 5 12 13. Pesos médios (kg) Frequências 12. 0 ⊢ 14. = amplitude do intervalo da classe percentil. 0 ⊢ 15. 0 10 13. 5 ⊢ 13. 5 8 15.4. 5 ⊢ 16.4 Peso médio (kg) das leitegadas da raça Landrace. Há nalmente. 0 23 14. apresentada na Tabela 6. ao nascer. Fac−1 Exemplo: = frequência acumulada anterior à classe percentil. A fórmula é dada por: ( in ) − Fac−1 Pi = Li + 100 × a. ao nascer. 5 ⊢ 14.10) em que: Li a = limite inferior da classe percentil. 5 ⊢ 15. 99 percentis. fPi = frequência simples (absoluta) da classe percentil. 0 3 Determine: Conjunto dos leitões. Fac−1 = frequência acumulada anterior à classe decil. = amplitude do intervalo da classe decil. que nasceram de um parto . 0 10 15. fDi = frequência simples (absoluta) da classe decil. 0 ⊢ 13. 5 8 12. 0 ⊢ 12. Q2 . a mediana e a moda. D5 . que tipo de assimetria? Solução: c) Determine: Solução: Q1 . P95 . Solução: b) a distribuição é simétrica? Se não. 81 . D6 . Q3 .Medidas Separatrizes a) a média. 4) vericar se há observações discrepantes. e procede-se traçando-se a linha até o valor do limite superior. Na Figura 6. As observações que estiverem acima do limite superior ou abaixo do limite inferior serão consideradas discrepantes do restante dos dados. LI = Q1 − 1.2 são apresentados os quartis.82 Capítulo 6.7. representadas por um asterisco (*) ou (•). Tem-se que o limite inferior é dado por LS = Q3 + 1. que tem por nalidade a detecção de observações discrepantes e o estudo da simetria da distribuição. . 6. bem como os limites inferior e superior. dada por 3) calcular os limite inferior e superior. 5dq . Medidas de Posição Uma forma direta de se determinar os valores das medidas separatrizes é utilizando o gráco de frequências acumuladas percentuais (conhecida como Ogiva de Galton). na página 57. em geral. além da média e de outliers. Q1 e o limite superior até o limite inferior. São. Para a construção de um gráco de caixa é necessário: 1) calcular o primeiro quartil (Q1 ). d q = Q3 − Q1 . box-whisker plot).3 Gráco de caixa Uma aplicação interessante para os quartis é a construção do chamado gráco de caixa (ou box plot. 5dq Traça-se uma linha a partir do centro de da mesma forma com o valor de Q3 . a mediana (Md) e o terceiro quartil (Q3 ). Tal gráco foi apresentado no Capítulo 5. 2) calcular a amplitude interquartílica (ou distância interquartílica). Freqüência Cardíaca 200 150 100 50 Fêmeas Machos Sexo dos Animais Figura 6. Exemplo: Na Figura 6.3 Frequência cardíaca dos animais atendidos no Hospital Veterinário.2 Esboço do gráco de caixas. em 2003. em 2003.3 é apresentado as frequências cardíacas dos animais atendidos no Hospital Veterinário. da Universidade Estadual de Londrina. observa-se que as fêmeas têm batimentos cardíacos mais homogêneos que os ma- .Medidas Separatrizes 83 Figura 6. Pelo gráco. da Universidade Estadual de Londrina. por sexo. c) Assimétrica à esquerda ou negativa.txt". Quando a cauda da curva da distribuição declina para direita.table("http://www2. média e mediana. os comandos do 4 são: dados = read. a assimetria é o quanto sua curva de frequência se desvia ou se afasta da posição simétrica. na. . Medidas de Posição chos. pch="+".uel. quando a cauda da curva da distribuição declina para esquerda.1 Assimetria Numa distribuição estatística. y¯ = M d = M o. a média e a mediana.") attach(dados) names(dados) medias = by(FC.8.5. ou seja. b) Assimétrica à direita ou positiva. Em termos médios. embora haja alguns animais com batimentos discrepantes em relação ao seu grupo. dec=". header=T. possibilitando analisar uma distribuição de acordo com as relações entre suas medidas de moda. "Machos"). mean. Sexo. tem-se uma distribuição com curva assimétrica negativa: y¯ < M d < M o. Uma distribuição é dita simétrica quando apresenta o mesmo valor para a moda.8 Assimetria e Curtose 6. col="red") detach(dados) 6. tem-se uma distribuição com curva assi- métrica positiva: y¯ > M d > M o.rm=TRUE) boxplot(FC~Sexo. names=c("Fêmeas". Pode-se caracterizar a distribuição de frequência em: a) Assimetria nula ou simétrica. Analogamente.84 Capítulo 6. las=1) # Opções: border="red") points(medias. cex=1. sep="\t". Para construção do gráco.br/pessoal/silvano/Dados/Dados_HV. ylab="Frequência Cardíaca". col="LightYellow". xlab="Sexo dos Animais". percebe-se que a média de batimentos cardíacos para machos e fêmeas é aproximadamente igual. em seu cálculo. denido por: m3 Asm = (√ )3 m2 em que: n ∑ (yi − y¯)3 fi m3 = Obs. As > 0 a distribuição é assimétrica positiva. A interpretação do coeciente de assimetria.: i=1 e n A assimetria calculada usando o n ∑ (yi − y¯)2 fi R m2 = i=1 n é baseada no coecente momento de assimetria. recorre apenas aos quartis. que é dado por: As = y¯ − M o s para dados amostrais. Trata-se de uma medida muito útil quando não for possível empregar o desvio-padrão como medida de dispersão. que é traçado sobre o valor da média da distribuição.Assimetria e Curtose 85 Gracamente. Ou seja. b) o 2o coeciente de assimetria de Pearson. que é considerado como uma assimetria da distribuição. em qualquer dos casos é: é simétrica. pode-se calcular o grau de assimetria substituindo-se a moda pela mediana. assimetria é o grau de afastamento que uma distribuição apresenta do seu eixo de simetria. Existem diversos métodos para o cálculo da medida de assimetria e. As = 0. então a distribuição . entre eles: a) o 1o coeciente de assimetria de Pearson. calculado com base nos momentos centrados da segunda e terceira ordem. Sempre que a curva da distribuição se afastar do referido eixo. É denido por: Asq = d) o Q3 − 2 × M d + Q1 Q3 − Q1 coeciente momento de assimetria. As < 0 a distribuição é assimetrica negativa. Outra medida utilizada para avaliar a assimetria de uma distribuição de frequências é o coeciente momento de assimetria. segundo a relação empírica proposta por Pearson: As = c) o 3(¯ y − M d) s coeciente quartil de assimetria que. tem-se um eixo de referência ou eixo de simetria. será considerada como tendo um certo grau de afastamento. Quando a distribuição for quase simétrica ou moderadamente assimétrica. 263.2 Curtose A curtose é uma medida de dispersão que indica até que ponto a curva de frequências de uma distribuição se apresenta mais alada ou mais achatada do que uma curva-padrão. Para avaliar o grau de curtose de uma curva ou distribuição de frequências. É a medida mais elementar usada para avaliar o grau de curtose de uma distribuição ou curva de frequências. a curva ou distribuição é mesocúrtica. 263. Medidas de Posição 6. 263. ou que a distribuição tem caudas pesadas (o signicado é que é relativamente fácil obter valores que se afastam da média a vários múltiplos do desvio padrão). Se o valor é km < 3 então a função de distribuição é mais achatada que a distribuição normal. D9 dq 2 × (D9 − D1 ) é o nono decil e se k = 0. pode-se adotar dois tipos de medidas: a) coeciente percentílico de curtose. . Chama-se a estas funções de mesocúrticas . se k > 0. caracterizando uma curva meso- cúrtica. D1 No caso da distribuição normal padrão. Neste caso. 263. dq é a distância interquartílica. Obs. ainda. se k < 0. a curva ou distribuição é leptocúrtica. b) coeciente momento de curtose. Se o valor é km > 3 então a distribuição em questão é mais alta (afunilada) e concentrada que a distribuição normal. É denido por: kp = em que. a curva ou distribuição é platicúrtica. tem-se que: k = 0. então tem o mesmo achatamento que a distribuição normal. A interpretação da curtose é: Se o valor da curtose for km = 3. s2 km = m4 (s2 )2 é a variância.: A curtose calculada usando o R é baseada no coecente momento de curtose. denominada curva normal.86 Capítulo 6. o valor da curtose é é o primeiro decil. Diz-se desta função probabilidade que é leptocúrtica. Chama-se-lhe platicúrtica.8. Utiliza-se do quociente entre o momento centrado de quarta ordem e o quadrado do momento centrado de segunda ordem. dado por: km = em que m4 m4 m22 é o quarto momento central e ou. 200).010 0. names(dados) (media = mean(FR. sep="\t". 20. col="red".4 Frequências respiratórias dos animais atendidos no Hospital Veterinário. kurtosis(FR.table("http://www2. em 2003. xlab=`'.. breaks=c(0. line=4) abline(h=0) . 180. dec=". (maximo = max(FR.005 0. caracterizando uma distribuição assimétrica positiva. col=`red'. freq=F. col=`LightYellow'. 140.015 0. Para construção do histograma e das medidas de assimetria e curtose. na. skewness(FR. 100.2. right=F. 160.rm=T)) tab.2) y = seq(minimo-10. media. line=-1. 120. 0.02). Pelo gráco. na.01) lines(y..5) mtext(`Densidade de Probabilidade'.est = table(FR) .br/pessoal/silvano/Dados/Dados_HV. border="blue". (desvio = sd(FR. at = c(0. lwd=2. 120.est)[tab. ylab=`'.Assimetria e Curtose Exemplo: 87 Na Figura 6.est)]) par(mai=c(1.1.80. labels=F) mtext(`Frequência Respiratória'.000 0 20 40 60 80 100 120 140 160 180 200 Frequência Respiratória Figura 6. maximo. 40. (moda = names(tab.rm=T) . header=T. 180.txt". 8).uel. (minimo = min(FR.est == max(tab. lwd=1. dnorm(y.. 140. observa-se que a moda (M o = 32) é menor que a média (¯ y = 53. main=`'.4 são apresentadas as frequências respiratórias dos animais atendidos no Hospital Veterinário.rm=T)) . lty=2) axis(1. desvio). em 2003. ylim=c(0.") attach(dados) .rm=T)) . 40. 160. da Universidade Estadual de Londrina. 100. da Universidade Estadual de Londrina.rm=T) . na.2)) hist(FR. 60. 0. side=1. las=1. 20.5) require(moments) . na. line=1. 60.020 Densidade de Probabilidade 0. os comandos do 4 são: rm(list=ls()) dados = read.80. side=2. na.rm=T)) . 200). abline(v=media. xaxt="n". na. 88 Capítulo 6. Medidas de Posição Exercícios - Medidas de Posição 1) Em uma pesquisa sobre diabetes mellitus, foram coletados os seguintes valores de glicemia em jejum: 80 85 86 90 95 96 99 100 101 103 103 103 104 105 108 108 109 110 110 110 a) Agrupar os dados em classes e calcular a média aritmética, a moda (bruta e Czuber) e a mediana; b) Determine, sem agrupar os dados em classes (dados brutos): a média aritmética, a moda e a mediana. Utilize-se do 4 e de calculadora. 2) Em um estudo sobre instituições de atendimento médico, foram obtidos dados da disponibilidade de leitos de 50 dessas instituições: 48 53 58 62 64 66 69 71 77 81 49 54 58 62 64 67 69 72 77 82 50 55 59 63 65 67 70 73 78 83 52 56 60 64 65 67 70 74 78 86 52 57 61 64 66 68 71 76 80 90 a) Determine a média e a mediana dos dados e, também, determine o terceiro quartil e interprete-o; b) Construa o histograma; c) Construa o gráco de caixas (box plot ). d) Agora, utilizando o 4, refaça os cálculos anteriores. e) Agrupar os dados em classes (Sturges) e calcular a média, a moda (bruta e Czuber) e a mediana. Compare os resultados obtidos e discuta-os. 3) Os dados abaixo representam a largura máxima de amostras de crânios de animais machos. média, a mediana e a moda. Conrme os resultados utilizando-se do 131 119 138 125 129 126 131 132 Calcule a 4. 126 128 128 131 4) A amplitude total de um conjunto de números é 500. Se a distribuição de frequências apresenta 20 classes, qual deverá ser o limite inferior e o ponto médio da 35? 5a classe, se o limite superior da 1a classe é igual a Assimetria e Curtose 89 5) Os níveis de ácido úrico, em (mg/100 ml), encontrados nos exames bioquímicos de sangue de 10 pacientes de um laboratório, são os seguintes: 5, 1 4, 0 6, 4 5, 0 5, 5 9, 0 5, 5 5, 5 6, 0 8, 0 Com base nessas informações, calcular: a) a média aritmética simples; d) a mediana; b) a média geométrica; e) a moda. c) a média harmônica; Conrme os cálculos utilizando-se do 4 ou da sua calculadora. 6) Com base nos dados apresentados na Tabela 1.1, página 7, calcular a média aritmética simples, a média geométrica, a média harmônica, a mediana e moda de ácido ascórbico no plasma. 7) Qual o tipo mais comum de suicídio apresentado na Tabela 6.5? A esse tipo de medida estatística, qual o nome que se dá? Tabela 6.5 Suicídios ocorridos no Brasil em 1986, segundo a causa atribuída. Causa atribuída Frequências Alcoolismo 263 Diculdade nanceira 198 Doenca mental 700 Outro tipo de doença 189 Desilusão amorosa 416 Outras 217 Total 1983 Fonte: IBGE (1988) Qual a probabilidade de um indivíduo que se suicidou, tê-lo feito por desilusão amorosa? 8) Consideremos 12 observações (ordenadas) do tempo de internação (dias) de animais de pequeno porte do Hospital Veterinário da UEL: 1 4 7 9 10 13 15 17 17 18 19 Obtenha os quartis e interprete estes valores. Construa o gráco de caixas usando o 21 4. 90 Capítulo 6. Medidas de Posição 9) Com base nos dados da Tabela 6.6, calcule o peso médio dos ratos em cada idade. Usando o 4, construa o gráco de caixas para a variável peso, considerando-se cada rato (apenas um gráco com todos os ratos). Compare os resultados e comente. Tabela 6.6 Peso médio em ratos por idade. Número do rato Idades 30 34 38 42 46 1 76,2 95,5 99, 2 122,7 134,6 2 81,5 90,0 101,2 125,9 136,2 3 50,0 60,0 4 47,5 50,0 63,5 79,2 6 65,1 75,7 7 63,2 74,8 8 64,5 74,1 72, 2 72, 3 94, 7 88, 5 88, 1 96, 0 85, 3 84, 0 5 62, 3 57, 5 82, 1 79, 3 79, 0 92, 6 110,0 98, 7 100,0 98, 3 10) Trinta pessoas foram consultadas sobre sua cor favorita. Suas respostas foram: Vermelho Azul Azul Roxo Preto Preto Azul Marrom Vermelho Azul Amarelo Azul Verde Amarelo Preto Amarelo Azul Verde Azul Verde Azul Preto Preto Azul Azul Azul Laranja Vermelho Verde Vermelho Construa uma tabela de frequências para os dados. Qual a escolha modal e a frequência relativa (ou porcentagem) desta cor? 11) Calcule para a tabela de frequências abaixo sua respectiva média e mediana. Xi Fi 2 3 4 5 6 3 9 19 25 28 12) Determinar o quarto decil, o primeiro quartil e o septuagésimo segundo percentil da seguinte distribuição: Classes 4⊢ 9 9 ⊢ 14 14 ⊢ 19 19 ⊢ 24 fi 8 12 17 3 Fi Assimetria e Curtose 91 “Se você seguir apenas por caminhos traçados, chegará onde todos poderiam chegar”. Alexandre Graham Bell 9 4.1. o peso varia de 3.0 a 5.0 4. Beliê.0 5.1.8 4.0 5. para a Chinchila. Considere os dados referentes aos pesos de cinco animais. de 3. para a raça Beliê.0 Beliê 4. ou seja. denotada 92 . Assim. para a Califórnia.0 4.0 Califórnia 3. 7.2 3. verica-se que a média de pesos para as quatro raças é a mesma.0 quilos.2 quilos.0 4.8 a 4.Capítulo 7 Medidas de dispersão ou variabilidade As medidas de dispersão servem para indicar o quanto os dados se apresentam dispersos em relação ao seu valor médio.1 Pesos de cinco coelhos de quatro raças distintas. a variável peso tem um comportamento diferente dentro de cada raça.0 3.0 4. Pesos (em kg) Raças dos coelhos Médias Animal 1 Animal 2 Animal 3 Animal 4 Animal 5 Alaska 3. apresentados na Tabela 7. para a raça Alaska. Tabela 7.0 a 5.0 5. Califórnia e Chinchila.0 4.1 Amplitude Total A maneira mais simples de se medir a variabilidade de uma variável é através da distância entre o maior e o menor valor observado em um conjunto de dados. de quatro raças de coelhos: Alaska.0 quilos. Em geral.0 3.0 4. Embora o valor médio seja o mesmo. quatro quilos. um alto grau de uniformidade ou pequena dispersão é desejável.5 4.5 4. a variação é de 3. Essa diferença é a amplitude total.0 Chinchila 4.0 4.0 4. não há variação.0 4.1 3.0 Analisando-se os resultados da Tabela 7. 'Califórnia'. Claro que poderia-se pensar em calcular os desvios em relação a.3. 0 = 2.2.1.8. diff(alaska) belie = range(coelhos[2.1.3.4. 4. a amplitude total será: Raça dos coelhos Amplitude total Alaska At = 5.]) . Assim. dá-se o nome de desvio. 0 − 3.0.5.5. 0 = 0.3.4. Embora fácil de calcular e de interpretar. 4 kg Califórnia At = 5. À distância entre os valores observados e a média ou mediana.]) .9. diff(belie) california = range(coelhos[3.0.'Animal2'.4.]) diff(chinchila) .4.0.'Animal4'. 3. Uma forma de se calcular as amplitudes usando os comandos do 4 é: coelhosd = c(3.0. 0 − 3. é o fato dela levar em consideração em seu cálculo. 2 − 3. 0 kg Beliê At = 4. 0 kg O problema em se considerar a amplitude total como medida de dispersão dos dados. mesmo que tenham dispersão muito diferente.5.'Animal5') rownames(coelhos) = c('Alaska'. apenas os valores extremos e não todos os valores.5. 7. não deve ser usada normalmente como medida de dispersão.0.0.0.4.3.'Animal3'. dois conjuntos de dados podem apresentar a mesma amplitude total.0) coelhos = matrix(coelhosd. 0 = 2. a média. byrow=T) colnames(coelhos) = c('Animal1'.0.4.4.]) . por exemplo.0. logo Desvio = yi − y¯ ou Desvio = yi − M d . 0 − 4.Desvio Absoluto Médio por 93 At .4.'Chinchila') coelhos alaska = range(coelhos[1. 0 kg Chinchila At = 4.4.4.5. mediana.0.0. 8 = 0.2 Desvio Absoluto Médio Outra forma de se medir a variabilidade de uma variável é quanticando a dispersão das observações em relação a um ponto especíco na distribuição. diff(california) chinchila = range(coelhos[4.0.4.0. 'Beliê'. em geral. Para os dados apresentados na Tabela 7.5. 5 − 4. 0 = 0.]))))) n2 = length(coelhos[2.]))))) n4 = length(coelhos[4. 0 − 4. tem-se: .94 Capítulo 7. 0 |3. (dm1 = (1/n1)*(sum(abs(coelhos[1. 0 = 1.1 e calcule os desvios em torno da média.mean(coelhos[2. Medidas de dispersão ou variabilidade Considere os pesos dos animais da raça Alaska.]) . o cálculo do desvio médio será calculado por: No 1∑ dy = |yi − y¯|fi n i=1 n 4 o cálculo dos desvios absolutos médios. Esses cálculos são apresentados na Tabela 7.2 Desvios e desvios absolutos para pesos dos animais da raça Alaska. 5 Caso os dados estejam agrupados em uma tabela de distribuição de frequências.mean(coelhos[1. 5 4 4. dm2. Animais Desvios: (yi − y¯) Desvios absolutos: |yi − y¯| 1 3.]) . dm4) . o desvio absoluto médio é: dy = 3. (dm3 = (1/n3)*(sum(abs(coelhos[3. 0 − 4. 5 |3. 5 − 4. 0 2 3. dm3. 0 = 0. é: n1 = length(coelhos[1. apresentados na Tabela 7. ela não é informativa a respeito da variabilidade dos dados. A soma dos valores absolutos será tanto maior quanto maior o número de observações (n). 0 |4.] .]) . independentemente de raça. 5 − 4. (dm4 = (1/n4)*(sum(abs(coelhos[4. por raça. portanto. que será sempre positiva.]))))) desvios_medios = cbind(dm1. 0 = −1.]))))) n3 = length(coelhos[3. 0| = 0. 0 = 0.]) . 0| = 1. O desvio absoluto médio pode ser calculado como: 1∑ |yi − y¯| n i=1 n dy = Para a raça Alaska. 0 = −0. logo. 0 − 4. 6 kg .] . é melhor utilizar a soma dos valores absolutos dos desvios.mean(coelhos[3.] . 0 − 4. 0| = 1. 0| = 0.2. 5 3 4. Tabela 7.] . 0 Soma n ∑ n ∑ (yi − y¯) = 0 i=1 |yi − y¯| = 3. (dm2 = (1/n2)*(sum(abs(coelhos[2. 0 − 4. 0| = 0.mean(coelhos[4. 5 |4. 0 − 4. 5 − 4. 0 5 5. 0 i=1 Observe que a soma dos desvios em relação à média é sempre zero. 0 |5. desvios_medios Para o cálculo do desvio absoluto médio dos dados. então a variância é calculada da seguinte maneira: n ∑ (yi − y¯)2 s2 = i=1 n−1 . divididos pelo total de observações menos um.2 Variância de Dados Brutos Amostrais Se as informações coletadas são provenientes de uma amostra da população.1 e calcule a variância para os pesos dos animais da raça Alaska.2) Considere os dados da Tabela 7. Na Tabela 7.3 Variância A medida de variabilidade mais utilizada é a variância.3.3. o cálculo da variância se dá da seguinte forma: n ∑ (yi − µ)2 σ2 = i=1 N .1) 7.1 Variância de Dados Brutos Populacionais Quando se coleta dados de toda população-alvo ou simplesmente população. 7.Variância 95 n = length(coelhosd) desvio_medio = (1/n)*(sum(abs(coelhosd .3 são apresentados os desvios calculados. . Pode-se calcular a variância para dados provenientes de uma população ou amostra e de dados brutos ou agrupados em classes.mean(coelhosd)))) 7. (7. (7. que é simplesmente a soma dos quadrados dos desvios. 2. Animais Desvios: (yi − y¯) Quadrado dos desvios: (yi − y¯)2 1 3. para o cálculo da variância. tem-se: n ∑ 1 s2 = y2 − n − 1 i=1 i ( n ∑ )2 yi i=1 n . 0)2 = 0. 0 − 4. 0 − 4. 0 − 4. 0)2 = 0. 0 = 0. 00 5 5. 0 − 4. 25 3 4. 5 − 4. 25 4 4. 0 n ∑ (yi − y¯) = 0 (5. 0 − 4.4) 4 é dado por: . 0 = 0. 0 = −0. 5−1 Uma forma computacionalmente mais eciente. 0 − 4. (7.3 Desvios e quadrado dos desvios para pesos dos animais da raça Alaska. 625 kg 2 . 5 (3. 5 Soma i=1 i=1 Logo. 0)2 = 1. 5 − 4. 00 n ∑ (yi − y¯)2 = 2. 0 (4. 0)2 = 0. 5 = 0. 0 = 1. 00 2 3. 0 = −1. da seguinte maneira: n ∑ (yi − y¯)2 = i=1 n ∑ (yi2 − 2yi y¯ + y¯2 ) i=1 = n ∑ y yi2 − 2¯ i=1 = n ∑ i=1 = n ∑ n ∑ yi + n¯ y2 i=1 yi2 n ∑ 2 yi n n i=1 2∑ ∑ − yi yi + n n n i=1 i=1 n (∑ )2 yi yi2 − i=1 i=1 n . é obtida quando se desenvolve a soma de quadrados dos desvios. 5 (4.96 Capítulo 7. Medidas de dispersão ou variabilidade Tabela 7. 5 − 4. usando o (7. 5 − 4.3) Substituindo-se 7. 0)2 = 1.3 em 7. 0 (3. O cálculo da variância dos pesos para cada raça. a variância será: n ∑ (yi − y¯)2 s2 = i=1 = n−1 2. mean(coelhos[4. var2.mean(coelhos[1. Logo.] .2 por fi e obtém-se: n ∑ (yi − y¯)2 fi s2 = i=1 n−1 . simplesmente var(coelhosd) 7. Determine a variância.3. media n = length(coelhosd) . é: media = mean(coelhosd) .4.] .]))^2)) var3 = (1/(n3-1))*(sum((coelhos[3.mean(coelhos[3.]))^2)) cbind(var1.] . (7.5) . chega-se a: n ∑ 1 s2 = y 2 fi − n − 1 i=1 i Exemplo: n (∑ )2 yi fi i=1 n .] .3 Variância de Dados Agrupados Quando os dados estão dispostos em uma tabela de fequências.Variância 97 var1 = (1/(n1-1))*(sum((coelhos[1. Desenvolvendo-se o quadrado dos desvios.]))^2)) var4 = (1/(n4-1))*(sum((coelhos[4.]))^2)) var2 = (1/(n2-1))*(sum((coelhos[2.mean(coelhos[2. var3. Considere a distribuição de fequência da Tabela 7. n variancia = (1/(n-1))*sum((coelhosd . multiplica-se o numerador da equação 7. para se calcular a variância basta levar-se em consideração as frequências de cada classe. var4) Para o cálculo da variância dos pesos de todos os coelhos. sem levar em consideração a raça.media)^2) variancia ou. 12.340 2 86 s2 = 1.xifi^2/nc) É claro que.289.150. nc xifi = sum(xi*fi) xi2fi = sum(xi^2*fi) var_carcaça = 1/(nc-1) * (xi2fi . 411765 kg2 =⇒ fi = c(8. com a facilidade computacional e a disponibilidade de programas estatísticos gratuitos como o 4. é recomendável que as estatísticas sejam baseadas neles. tem-se: 1 s = 3.190.11.9) xi = c(130. Pesos (kg) Frequências (fi ) Ponto médio (yi ) 120 ⊢ 140 140 ⊢ 160 160 ⊢ 180 180 ⊢ 200 200 ⊢ 220 220 ⊢ 240 240 ⊢ 260 8 130 12 150 15 170 17 190 14 210 11 230 9 250 Usando-se a fórmula (7. Medidas de dispersão ou variabilidade Tabela 7.5). a variância ca multiplicada (ou dividida) pelo quadrado da constante.98 Capítulo 7.4 Pesos das carcaças de bovinos.230.250) nc = sum(fi) .15.14.214.200 − 86 − 1 )2 ( 16. se o pesquisador dispõe dos dados brutos. As distribuições de frequências servem. b) multiplicar (ou dividir) por um valor constante e arbitrário c cada elemento de um conjunto de números. 7. . apenas para apresentar as informações de forma resumida.170.210.17.3.4 Propriedades da variância As propriedades da variâncias são: a) somar (ou subtrair) um valor constante e arbitrário c a cada elemento de um conjunto de números não altera a variância. neste caso. Solução: f ) O que se observou dos resultados obtidos? Y: . 8. Solução: d) Multiplique cada valor de Y pela constante e calcule a variância. Solução: c) Subtraia a constante de cada valor de Y e determine a variância. 12} a) Calcule a variância dos dados. 4. 5. Solução: e) Divida cada valor de Y pela constante e calcule a variância. 10.Variância Exemplo: 99 Considere uma constante c=4 e os seguintes valores observados para a variável Y = {2. Solução: b) Acrescente a constante a cada valor de Y e calcule a variância. Medidas de dispersão ou variabilidade Solução: 7. extrair a raiz quadrada da variância. um desvio padrão de 10 pode ser insignicante se os valores típicos observados forem em torno de 10. mas pode ser muito signicativo para um conjunto de dados cuja observação típica seja 100. 625 kg 2 = s = 0. Uma forma de se obter uma medida de dispersão com a mesma unidade de medida dos dados observados é. sd2. Ele é representado por s. Assim. sd4) ou. Assim. 790569415 kg. 625 kg 2 . se de forma direta: sd(coelhosd) 7. gerando escalas sem sentido prático. o desvio padrão é dado por: s √ s2 √ 0. sd1 = sqrt(var1) . devido ao fato de se elevar os desvios ao quadrado. s No = 4.100 Capítulo 7. a unidade de medida da variância será m2 . Logo. sd2 = sqrt(var2) sd3 = sqrt(var3) .4 Desvio Padrão Observe que. obtendo-se o desvio padrão. a variância calculada foi s2 = 0. Para os dados dos coelhos da raça Alaska. sd3. a unidade de medida também ca elevada ao quadrado.5 Coeciente de Variação A interpretação do desvio padrão depende da ordem de grandeza da variável em estudo. Portanto.000. . simplesmente. sd4 = sqrt(var4) cbind(sd1. caso a unidade de mensuração seja metros (m). s= √ s2 . basta extrair a raiz quadrada das variâncias de cada raça calculadas anteriormente. pode ser conveniente expressar a variabilidade dos dados de uma variável de modo inde- pendente da sua unidade de medida utilizada. Em geral. Esta medida pode ser bastante útil na comparação de duas variáveis ou dois grupos que. para que o coeciente de variação seja dado em porcentagem. não são comparáveis. a princípio. Tal medida é denominada coeciente de variação. menor que 10%. tirando a inuência da ordem de grandeza da variável. . O coeciente de variação de Pearson é a razão entre o desvio padrão e a média. mais homogêneo é o conjunto de dados. ou seja. É dado por: CV = s × 100 y¯ Sua utilidade está em fornecer uma medida para a homogeneidade de um conjunto de dados.Coeciente de Variação 101 Logo. o resultado é multiplicado por 100. espera-se que o coeciente de variação seja baixo. Quanto menor o coeciente de variação. considera-se: a) Baixa dispersão: b) Média dispersão: c) Alta dispersão: CV < 15%. Em geral. 15% < CV < 30% CV > 30% Em experimentos realizados em laboratório. em que todas as condições podem ser controladas. 7 − 19. 0 − 52. 9 − 26. 3 Qual variável apresenta maior variabilidade? Solução: . Peso (kg ) e Idade (anos) de dez alunos aleatoriamente selecionados: Estatura (cm) = 177 − 162 − 188 − 157 − 166 − 153 − 158 − 176 − 168 − 163 Peso (kg) = 68. 0 − 99. 0 Idade (anos) = 18. 0 − 66. 9 − 20. 9 − 51. o desvio padrão e o coeciente de variação para as variáveis Estatura (cm). 7 − 19. 0 − 52. 2 − 18. 0 − 20. 0 − 72. 1 − 20. 5 − 80.102 Capítulo 7. 0 − 83. a variância. 5 − 17. 1 − 20. Medidas de dispersão ou variabilidade Exemplo: Calcular a média. 0 − 48. Para preencher esta lacuna.0 1.5 expressos em g/24 horas.3 2.0 2.6 2. b) determine o teor médio de gordura.8 1. Se outras amostras fossem retiradas da população.1 3. cujo cálculo é expresso pela fórmula: s sx¯ = √ n 1) Embora os gastroenterologistas infantis reconhecessem a utilidade diagnóstica do teor de gordura fecal. d) determine o desvio padrão e interprete-o.2 1.Coeciente de Variação 103 Exercícios . até 1984 não existia um padrão de referência desta medida para crianças brasileiras. apresentada na Tabela 7.2 2.1 2.0 1.6 2.7 2.0 1. apresentariam médias aritméticas que teriam outros afastamentos em relação à média populacional.7 3.1 1.8 1.5 4.3 3. e) determine o erro-padrão.4 2.3 2.4 2.0 2. 3.3 1.1 1.8 1.5 1.3 2. um afastamento.9 3.9 Baseando-se nos dados brutos. examinou 43 crianças sadias que produziram os valores da Tabela 7.6. Francisco Penna.Medidas de Dispersão Quando procedemos a uma investigação cientíca em que utilizamos dados de uma fração representativa de uma população (amostra).5 Teor de gordura (g/24 horas) em 43 crianças. pede-se: a) faça o histograma. titular da Pediatria da UFMG. 2) Em uma granja foi observada a distribuição dos frangos em relação ao peso.8 3.4 0.9 1. o gráco de caixas e discuta-os. em relação à média populacional. a média aritmética determinada apresentará. Tabela 7. c) determine a variância dos dados.5 3. o Prof.7 2.8 1.1 2. Para se determinar a média destes afastamentos utilizamos o erro-padrão da média. .9 1.9 3.6 2.0 3.9 2.0 2.7 1. 5 ⊢ 5. 5 ⊢ 6. 5 ⊢ 8. 5 ⊢ 4. A Tabela 7. 0 3 Total Pede-se: Frequência absoluta 267 . 5 15 7. é a hiperuricemia (excesso de ácido úrico no sangue). Ácido úrico (mg/dL) 3. 0 16 7. 0 3 8. 5 1 8. 5 ⊢ 9. 0 ⊢ 5. 5 ⊢ 7. 5 2 3. Peso (gramas) Frequência absoluta 960 ⊢ 980 60 980 ⊢ 1000 160 1000 ⊢ 1020 280 1020 ⊢ 1040 260 1040 ⊢ 1060 160 1060 ⊢ 1080 80 a) Qual a média da distribuição? b) Determine o desvio padrão dos dados. 5 38 6.6 Pesos dos frangos de uma granja.104 Capítulo 7. 0 ⊢ 6. há muito tempo tem-se reconhecido que o componente hereditário da doença está ligado a uma tendência para hiperuricemia. 0 15 4. d) Qual o inconveniente de se usar a variância como medida de variabilidade? 3) Uma das características da gota. 0 ⊢ 7. Tabela 7. 5 33 4. Medidas de dispersão ou variabilidade Tabela 7. 0 ⊢ 8.7 Distribuição de frequência da dosagem de ácido úrico. distúrbio hereditário que ocorre especialmente em homens.7 apresenta a distribuição de frequências das dosagens de ácido úrico sérico em 267 homens sadios. 0 40 5. c) Determine o erro-padrão dos dados. 0 47 6. 0 ⊢ 3. 0 ⊢ 4. Embora nem todos os indivíduos com hiperuricemia desenvolvam manifestações clínicas de gota. 5 54 5. Tabela 7.Coeciente de Variação 105 a) calcule a média. Discuta os resultados observados.5 12 9. Determinar o CV e opinar sobre o seu valor. 45 mg .uel. c) Calcule a média. 7 mg . cujos resultados estão disponível na página: http://www2.8 Número de acidentes na rodovia X. b) Faça o gráco de caixas considerando apenas um grupo. Determinar a média aritmética e o desvio padrão. O mesmo trabalho realizado um valor médio de hematócrito no Jockey Club de Porto Alegre apresentou valor médio de hematócrito igual a 38% e variância de 25%. Opinar sobre os Coecientes de Variação (CV). 4) Em trabalho laboratorial realizado no Jockey Club Brasileiro. Interprete. Número de acidentes Número de dias 8) O efeito da castração sobre a espessura (em 0 1 2 3 4 5 21 16 12 9 8 4 mm) de toucinho de leitões foi avaliado em um experimento.txt. Usando o R: a) Construa o histograma.br/pessoal/silvano/Dados/Toucinho. Refaça o gráco para comparar a espessura entre tipos. . na rodovia X. observou-se em relação ao teor de hemoglobina um valor médio igual a 13. c) determine o desvio padrão e interprete-o. Hematócrito (ou Ht ou Htc) é a percentagem ocupada pelos glóbulos vermelhos ou hemácias no volume total de sangue. durante setenta dias.5 12 16 14. 5) Calcular a média aritmética e desvio padrão dos seguintes dados relativos à dosagem de hemoglobina vericada em 12 animais bovinos(mg ): 15 14 13 11 13 14 13. 7) Na Tabela 7.8 apresenta-se a distribuição de frequências quanto ao número de acidentes por dia. vericou-se que os animais apresentaram em torno de 42% e desvio padrão de 5%. b) determine a variância dos dados. O erro padrão da média foi igual a 0. 6) Em 25 pessoas adultas do sexo masculino. o desvio-padrão e o coeciente de variação das espessuras para cada tipo. c) Repita os cálculo efetuados no item (9b) para todos os 48 pacientes. separadamente para machos (M) e fêmeas (F): Machos Fêmeas 2 2 3 4 4 4 4 7 7 7 8 9 9 10 12 15 15 15 16 18 18 22 22 24 2 2 3 3 4 4 5 5 6 6 7 7 7 7 8 8 8 8 10 10 11 11 12 18 a) Faça o gráco de caixas para comparar o tempo entre machos e fêmeas. Compare os resultados. é que as primeiras nunca desistem. b) Calcule a média.106 Capítulo 7. Medidas de dispersão ou variabilidade d) Repita os cálculo efetuados no item (8c) para todos os animais e compare os resultados. . “A diferença entre as pessoas que têm sucesso e as que fracassam. Interprete. Os dados ordenados são apresentados a seguir. o desvio-padrão e o coeciente de variação para cada gênero. ! Recidiva (popularmente conhecido como recaída) é o retorno da atividade de uma doença. 9) O tempo (em meses) entre a remissão ! de 48 pacientes de uma determinada de uma doença e a recidiva clínica foi registrado.” Remissão completa é o termo utilizado em Medicina para designar a fase da doença aonde não há sinais de atividade da mesma mas não é possível concluir como cura. dene-se: n! = n × (n − 1) × (n − 2) · · · × 3 × 2 × 1 e os seguintes casos particulares: 1! = 1 e 107 0! = 1 . sendo n > 1. de agrupamentos que se pode formar: um em que se leva em conta a agrupamento e outro em que a São basicamente dois tipos ordem dos elementos dentro do ordem dos elementos é irrelevante. 5! = 120.Capítulo 8 Análise Combinatória A Análise Combinatória é a parte da Matemática em que se estuda as técnicas de contagem de agrupamentos que podem ser feitos com elementos de um dado conjunto. Tem-se também: 4! = 4 × 3 × 2 × 1 = 24 7! = 7 × 6 × 5 × 4 × 3 × 2 × 1 = 5. Um requisito básico à simplicação das fórmulas da Análise Combinatória é o fatorial.040 Dado um número natural qualquer n.1 Fatoriais Indica-se por 5! (leia-se: cinco fatorial) o produto dos cinco primeiros naturais positivos: 5! = 5 × 4 × 3 × 2 × 1 portanto. 8. que será explicado a seguir. 108 Capítulo 8. Análise Combinatória Note que: 0! = 1 1! = 1 2! = 2×1=2 3! = 3×2×1=6 4! = 4 × 3 × 2 × 1 = 24 5! = 5 × 4 × 3 × 2 × 1 = 5 × 4! = 120 6! = 6 × 5 × 4 × 3 × 2 × 1 = 6 × 5! = 720 e assim por diante. Ao desenvolver um fatorial, colocando-se os fatores em ordem decrescente, pode-se parar onde for conveniente, indicando os últimos fatores também na notação fatorial. Calcule: a) 9! b) 10! c) 11! d) e) f) g) h) i) 5!15! 13!7! j) 6! k) 10! 9! 10! 12! 6! 8! 10! 4!6! 12! 10!2! l) m) n) o) + 5! 4 × 5! − 6 × 3! 30 + 0! − 3 × 1! 13! 5! + 13 × 3!10! 3!2! n! (n − 1)! 5× (n + 1)! n! p) Calcule Para o cálculo de fatoriais, no R, n na equação n! = 12 × (n − 2)! basta factorial(9) factorial(10)/factorial(9) 8.2 Princípio Fundamental da Contagem Imagine que há apenas dois residentes (R1 e chegam, simultaneamente, 3 animais (A1 , A2 e A3 ) R2 ) no Hospital Veterinário da UEL de plantão e para serem atendidos. Princípio Fundamental da Contagem 109 Pode-se pensar nas seguintes possibilidades de atendimento: R1 A1 R2 R1 A2 R2 R1 A3 R2 Assim, cada animal poderia ser atendido por um dos dois residentes, gerando as seguintes possibilidades: A1 R1 , A1 R2 , A2 R1 , A2 R2 , A3 R1 , A3 R2 . Portanto, há seis maneiras diferentes dos animais serem atendidos. Princípio Fundamental da Contagem: Se uma ação é composta de duas etapas sucessivas, sendo que a primeira pode ser realizada de e, para cada uma destas, a segunda pode ser realizada de se realizar a ação é n m maneiras maneiras, então, o número de maneiras de m × n. Exercícios: 1) Com os algarismos 1, 2, 3, 4 e 5 quantos números naturais de três algarismos podem ser escritos? Destes números, quantos são formados por algarismos diferentes? 2) Quantas placas de licença de automóveis podem ser formadas por 3 letras e 4 algarismos sendo as letras apenas vogais e sendo os algarismos distintos? 3) Uma sorveteria oferece uma taça de sorvete que pode vir coberto com calda de chocolate ou de morango ou de caramelo. Se o sorvete pode ser escolhido entre 10 sabores diferentes, quantas são as opções para um cliente escolher a taça com a cobertura? 4) Uma moeda será lançada 6 vezes e a cada vez será anotado o resultado obtido, cara ou coroa, formando assim uma sequência de 6 resultados. Quantas sequências diferentes podem ser formadas? 110 Capítulo 8. Análise Combinatória 5) Dez alunos da UEL cadastraram-se para adotar animais do Hospital Veterinário. Sabe se que há duas espécies de animais para serem adotadas: Canina e Felina. Da espécie Felina há 3 raças e da canina 5 raças. De quantas maneiras os animais poderão ser adotados? 8.3 Permutações Com os seguintes símbolos (⋆ ⋆, , Denomina-se ), ( ⋆ ), ( ), (⋆ Cada uma dessas sucessões é chamada de pode-se formar as seguintes sucessões: ⋆), ( ⋆), ( ⋆ ). permutação dos três símbolos. permutação de n elementos dados a toda sucessão de n termos formada com os n elementos dados. Duas permutações dos mesmos objetos são diferentes se a ordem dos objetos numa delas é diferente da ordem em que os objetos estão colocados na outra. Exemplos: 1) Formar os anagramas da palavra UEL. Solução: No R, tem-se require(combinat) U = c(`U',`E',`L') permn(U) 2) Formar os anagramas da palavra LILI. Solução: No R, tem-se require(combinat) L = c(`L',`I',`L',`I') permn(L) Permutações 111 3) Forme todos os anagramas da palavra RIMA que começam com consoante. Solução: No R, tem-se require(combinat) R = c(`I',`M',`A') permn(R) M = c('R','I','A') permn(M) Exercícios: 1) Forme todas as permutações dos algarismos 1, 2 e 3. 2) Forme todas as permutações das letras a, b, c e d. 3) Forme todos os anagramas da palavra AZUL que começam pela letra Z. 4) Forme todos os anagramas da palavra PAPAI que começam e terminam por vogal. 8.3.1 Quantidade de Permutações Geralmente se está interessado no número de permutações que podem ser feitas com deter- minados elementos. Para determinar esse número, tem-se que considerar duas situações possíveis: permutações com elementos distintos; permutações com elementos repetidos. Permutações de elementos distintos Quantas permutações podem ser formadas com as letras A, B, C, D e E? (⃝, ⃝, ⃝, ⃝, ⃝) 1a etapa: escolher a 1a letra da permutação. possibilidades para esta etapa. Ela pode ser A ou B ou C ou D ou E. Há, portanto, 5 112 Capítulo 8. Análise Combinatória 2a etapa: escolher a 2a letra da permutação. Tem-se 4 possibilidades para esta etapa, uma vez que uma das letras já terá sido eliminada. 3a etapa: escolher a 3a letra da permutação. Tem-se 3 possibilidades para esta etapa. 4a etapa: escolher a 4a letra da permutação. Tem-se 2 possibilidades para esta etapa. 5a etapa: escolher a 5a letra da permutação. Tem-se 1 possibilidade para esta etapa. Pelo princípio fundamental da contagem, conclui-se que é possível formar 5! = 120 5×4×3×2×1 = permutações diferentes. Indica-se o número de permutações de cinco elementos diferentes por P5 . Assim, tem-se: P5 = 5! = 120. Assim, racionando da mesma forma, conclui-se que o número de permutações de n elementos distintos é dado por: Pn = n! A solução no R, para o número de permutações possíveis, é dada por: require(combinat) nsamp(n=5, k=5, replace=FALSE, ordered=TRUE) Exemplos: 1) Quantos são os anagramas da palavra BRASIL? Solução: Os comandos a seguir, no R, calculam o número de permutações e quais são elas. require(combinat) nsamp(n=6, k=6, replace=FALSE, ordered=TRUE) DD = c('B','R','A','S','I','L') Perm = unlist(permn(DD)) t(array(Perm, dim = c(6, gamma(7)))) A2 ) e (B. A) então as permutações seriam: (A1 . A. 3. a quantidade de números pares que se pode formar é: 2 × P5 = 2 × 5! = 2 × 120 = 240. A2 ). B). quantos números pares de seis algarismos distintos podem ser escritos? Solução: Para formar um número par deve-se primeiro escolher o algarismo da casa das unidades. dos quais n1 3! 6 = = 3. 6.Permutações 113 2) Com os algarismos 1. 2! 2 são repetidos de um tipo. sendo 3 E.n2 . 1 R. que pode ser o 4 ou 6. (A1 . B). A. n2 são repetidos de outro tipo. 4. com as letras A. e (B. e B. B). Como são algarismos distintos. B. A) Se as letras A e A fossem distintas (por exemplo A1 e A2 . A1 . O número de anagramas é: P63 = 6! 6 × 5 × 4 × 3! = = 120 3! 3! n3 são .n3 .··· . Tem-se: P32 = Quando se tem n elementos. repetidos de outro tipo e assim por diante. A2 . Permutações com elementos repetidos Quantas permutações podem ser formadas com elementos não distintos? Por exemplo. 1 G. 1 L. A1 ) Sabe-se que o número de permutações de 3 elementos distintos é P3 = 3! = 6. n1 !n2 !n3 ! · · · nk ! (n1 + n2 + n3 + · · · + nk = n) Exemplos: 1) Quantos são os anagramas da palavra ELEGER? Solução: ELEGER → 6 letras. A. B. este número ca dividido por 2! Vê-se que se entre os 3 (que é o número de permutações dos 2 elementos se eles forem considerados distintos). A1 . há apenas 3 permutações: (A. B. Indica-se o número de permutações de 3 elementos sendo 2 repetidos por P32 . 7 e 9. (A2 . elementos tiver 2 elementos repetidos. (B. o número de permutações que se pode formar é dado por: Pnn1 .nk = n! . (A2 . A2 . A1 ). (A. 2. 1 T.4 Arranjos e Combinações 8. 2. em linha reta. 2.2. será realizado um sorteio. Andressa. Não ocorrendo nenhum empate. 2 amarelas e uma verde. Análise Combinatória 2) Quantos são os anagramas da palavra ESTATÍSTICA? Solução: ESTATÍSTICA → 11 letras. 2 S. 3.4. 3 sinais - e 2 sinais × podem ser colocados em sequência? 5) Numa mesa de bilhar há 4 bolas vermelhas. quantas são as classicações possíveis nesta prova? 4) De quantas formas 5 sinais +.800 2!2!2!2! Exercícios: 1) Quantos números pares são obtidos permutando-se os algarismos 1.2 P11 = 11! = 831. 1 N.2.494. sendo 1 V.2.600 3!2!2!2! 3) Quantos são os anagramas da palavra VETERINÁRIA? Solução: VETERINÁRIA → 11 letras. 3 T.2 P11 = 11! = 2. 2 I. De quantas maneiras pode-se dispor estas bolas obtendo coloridos diferentes? 8. Herick e Igor. Os alunos sorteados poderão ser: Andressa e Fernanda ou Andressa e Herick ou Andressa e Igor Fernanda e Herick ou Fernanda e Igor ou Herick e Igor . 3 e 4? 2) Determine o número de permutações que podem ser feitas com as letras de cada palavra: a) ORDEM c) AMAZONAS b) DOMINAR d) MANADA 3) Sete atletas participam de uma prova de atletismo. O número de anagramas é: 3. 2 A. sendo 1 E.1 Combinações Há no Hospital Veterinário da UEL dois animais para serem adotados. Como há quatro pessoas interessadas. Fernanda. 2 E. 3. 2 A. encostadas umas nas outras. O número de anagramas é: 2. 1 C.114 Capítulo 8. 2 R. 2 I. 3 bolas brancas. Assim. ordem do agrupamento não importa. No exemplo citado. estes são As combinações são conjuntos cujos elementos são escolhidos entre os elementos dados. Fernanda. Herick e Igor as combinações destes 4 elementos tomados 2 a 2 são: {Andressa e Fernanda} {Andressa e Herick} {Andressa e Igor} {Fernanda e Herick} {Fernanda e Igor} {Herick e Igor} Observe que duas combinações são diferentes apenas quando têm elementos diferentes. neste caso. agrupamentos.Arranjos e Combinações 115 Cada uma dessas possibilidades é um agrupamento das 4 pessoas tomadas 2 a 2. Fernanda caria com o cão e Andressa com o gato. a ordem citada dos elementos não importa. que sortear Andressa e Fernanda ou Fernanda e Andressa é exatamente a mesma coisa. Denominam-se combinações de n elementos distintos tomados elementos distintos escolhidos entre os n k a k aos conjuntos formados de k elementos dados. Mas. Neste caso. Quando se agrupam elementos de modo que em cada agrupamento elementos. por exemplo. Quando se agrupam elementos em que a chamados de combinações. Andressa caria com o cão e a Fernanda com o gato. Denominam-se importa a ordem No exemplo citado. estes agrupamentos são chamados arranjos dos arranjos. a 1a pessoa sorteada adotará o cão e a 2a pessoa sorteada adotará o gato. uma situação em que os agrupamentos: Andressa e Fernanda Fernanda e Andressa são considerados agrupamentos diferentes. Em cada um destes Note.2 Arranjos Suponha que os animais a serem adotados são de espécies diferentes: um canino e um felino. nesta ordem. se as pessoas sorteadas fossem Andressa e Fernanda.4. Tem. considerando-se os elementos k a k às sucessões formadas de k termos . considerando-se os elementos Andressa. se os sorteados fossem Fernanda e Andressa. 8. de n elementos distintos tomados distintos escolhidos entre os n elementos dados. nesta ordem. Solução: As combinações são os conjuntos de dois algarismos escolhidos entre os algarismos dados: {1. 7}. 7. (7. 5) (3. {1. 3. Herick) Observe que dois arranjos são diferentes se tiverem elementos diferentes. (7. c e d tomadas duas a duas. 1. 5). Herick e Igor os arranjos destes 4 elementos tomados 2 a 2 são: (Andressa. b) Cada uma destas possibilidades corresponde a um arranjo ou a uma combinação das equipes tomadas três a três? . 9}. (7. Análise Combinatória Andressa. Igor) (Herick. 3. 1). (3. Igor) (Igor. {1. Solução: Os arranjos são as sucessões de três algarismos distintos escolhidos entre os algarismos dados: (1. {1. C e D. (1. 5. {3. (1. 5. {5. {3. (1. Andressa) (Igor. Herick) (Andressa. (1. 7}. 5. 7 e 9 tomados 2 a 2. Fernanda) (Herick. {3. 5 e 7 tomados 3 a 3. (3. 5. (7. Fernanda) (Andressa. c e d tomadas duas a duas. {7. 3. 7). 5. 7). 5}. 5}. 1). ou se tiverem os mesmo elementos porém em ordens diferentes. 5). 7). Fernanda. 3). b. Andressa) (Herick. 5) (7. 3) Quatro equipes. 3. Fernanda) (Igor. B. a) Escreva todas as possibilidades para as três primeiras colocações no campeonato. 3) Exercícios: 1) Forme as combinações das letras a. 5). 5. 7). 7. 3). (3. 7. 2) Forme os arranjos das letras a. 1. (3. 3). 9} 2) Formar os arranjos dos algarismos 1. (3. Exemplos: 1) Formar as combinações dos algarismos 1. (7. (1. 1. Herick) (Fernanda. 9}. 9}. Igor) (Fernanda. {5. 3. 1. 3}. b. estão classicadas para o quadrangular nal de um campeonato em que as três primeiras colocadas serão premiadas (com prêmios diferentes). 5. 7}. 7. A. 1). 3.116 Capítulo 8. Andressa) (Fernanda. 5). 1). 5 Quantidade de Arranjos O número de arranjos de n k elementos tomados a k será denotado por An. ( Arranjo possibilidades 1o ..k = n! (n − k)! Exemplos: 1) Quantos são os arranjos de 6 elementos. portanto.k (ou pelo símbolo Akn ). a) Escreva todas as possibilidades de escolha dos dois que farão a apresentação do trabalho. Para cada uma destas possibilidades.. . termo poderá ser qualquer um dos possibilidades para o 3o (n − 2) termo. Nara e Sabrina entregaram o trabalho relativo à pesquisa feita no Hospital Veterinário da UEL e dois deles serão escolhidos para uma apresentação perante a classe. Diego. 3o . . 3o Para cada par de elementos já escolhidos. . pode ser qualquer um dos n ko . 2o 3o . E assim por diante. Há. portanto. o elementos restantes. Maisa. . . há. (n − 2) possibilidades para o 2o termo.Quantidade de Arranjos 117 4) Cesar. n possibilidades para ele. deve-se formar uma sucessão de entre os n k termos escolhidos elementos dados: ( O 1o termo 1o 2o . o 2o termo do arranjo poderá ser qualquer um dos (n − 1) (n − 1) elementos restantes. conclui-se que a quantidade de arranjos que podem ser formados é: An. . ko ) ↓ ↓ ↓ ↓ n (n − 1) (n − 2) n − (k − 1) Pelo princípio fundamental da contagem. ) elementos dados. b) Cada uma destas possibilidades corresponde a um arranjo ou a uma combinação dos 5 alunos tomados dois a dois? 8. Há. . portanto. excluído aquele já escolhido. tomados 3 a 3? . Para determinar esta quantidade de arranjos. Dez alunos estão interessados. a3 . a2 . n elementos tomados k a k será denotado por Para determinar esta quantidade de combinações deve-se lembrar que com a1 .3 = 120 2) Vinte equipes cursos disputam o campeonato interno da UEL de futebol de salão.5 d) A12.k = n! (n − k)! ⇒ 6! (6 − 3)! A6. Uma será o representante principal e a outra será suplente. 4) Serão eleitas duas pessoas para representarem os alunos do curso Medicina Veterinária.2 = 20! (20 − 2)! ⇒ A20.k (ou pelo elementos distintos: . · · · . Análise Combinatória Solução: An.2 = 380 Exercícios: 1) Calcule os números a) A5. 8. ak k Cn.6 Quantidade de Combinações O número de combinações de símbolo Cnk .3 = ⇒ A6.3 2) Numa corrida de fórmula 1 há 24 pilotos participando e apenas os dez primeiros colocados ganham pontos. Quantas são as possibilidades de classicação nos 10 primeiros lugares? 3) Com as letras da palavra FLAMENGO.k = n! (n − k)! ⇒ A20. quantas palavras distintas formadas de 5 letras distintas podem ser escritas? (As palavras não precisam ter sentido na linguagem comum). Quantos são os possíveis resultados da eleição.2 c) A10. Quantas são as possibilidades de classicação nos dois primeiros lugares (campeão e vice-campeão)? Solução: An.118 Capítulo 8.4 b) A8. De quantos modos diferentes o experimento pode ser realizado? Solução: Como são 15 camundongos e apenas 5 serão utilizados no experimento. a3 . · · · . (a2 . a1 .k = n! k!(n − k)! Exemplos: 1) Quantas são as combinações de 6 elementos tomados 2 a 2? Solução: Cn. a2 . a1 .k k! Logo Cn. ak ). (a3 . Cn. a3 .5 = 3.k = n! k!(n − k)! Exercícios: 1) Calcule os números: ⇒ C15. etc Isto signica que a partir de uma combinação pode-se obter k! arranjos dos Então.Quantidade de Combinações podem ser obtidas k! 119 permutações: (a1 .5 = 15! 5!(15 − 5)! ⇒ C15. ak ). a2 . basta calcular o número de combinações possíveis. o número de combinações é igual ao número de arranjos dividido por Cn. · · · . · · · . k!: An.k = n! k!(n − k)! ⇒ C6.003 . ⇒ C6.k = n elementos tomados k a k. ak ).2 = 6! 2!(6 − 2)! 2) Em um experimento com camundongos serão utilizados 5 deles.2 = 15 No laboratório há 15 camundongos em condições homogêneas e que podem ser utilizados no experimento. Análise Combinatória a) C8.6 c) C7. Se cada uma delas cumprimentou todas as outras ao chegar. 6 com números positivos e 6 com números negativos. quantos cumprimentos foram realizados? 4) Numa urna há 12 etiquetas numeradas.2 2) Calcule o valor de n na equação Cn.4 b) C12. 3) Numa festa compareceram 36 pessoas. De quantos modos pode-se escolher 4 etiquetas diferentes tal que o produto dos números nelas marcados seja positivo? .120 Capítulo 8.3 d) C100.2 = n + 2. 1 Conceitos Básicos em Probabilidade 9. muito interessante. serão diferentes mesmo que as condições iniciais sejam sempre as mesmas. eles são chamados de determinísticos. 121 . b) lançar três moedas justas e observar as faces voltadas para cima. c) lançar um dado e observar a face voltada para cima. d) anotar o resultado de um exame de gravidez. para cálculo de probabilidades.1 Experimento Aleatório É um processo de coleta de dados relativo a um fenômeno que acusa variabilidade em seus resultados. levem sempre ao mesmo resultado.1. Exemplos: a) o lançamento de uma moeda. para tanto carregue o pacote: > require(prob) 9. repetidos sob as mesmas condições iniciais. o número de sementes germinadas. Tal pacote será utilizado neste capítulo. O R tem um pacote chamado prob. após um certo período de tempo. isto é. Caso os fenômenos estudados. situações em que os resultados possíveis são conhecidos. Os resultados não serão previsíveis.Capítulo 9 Noções sobre a teoria das probabilidades Conceitos probabilísticos são necessários para se estudar fenômenos aleatórios. mas não se pode saber a priori qual deles ocorrerá. e) colocar 20 sementes em um germinador e observar. replace=T. ordered=TRUE) c) lançar um dado e observar a face voltada para cima. . 6}. size=1. Exemplos: a) o lançamento de uma moeda: Ω = {C. KKC.`K'). o número de sementes germinadas: Ω = {0. deve-se incluir o próprio espaço amostral (evento certo) e o conjunto vazio (evento impossível). 2. no entanto. após um certo período de tempo. . . 2. . size=3. 5. > urnsamples(1:2. x = c(0:20).`Negativo').`K'). N egativo}. CCK. x = c(`C'. > urnsamples(1:2. Noções sobre a teoria das probabilidades Quando se tem um experimento aleatório. replace=TRUE. Pode-se. size=1. > urnsamples(1:2. x = c(`C'. CKC. KKK}. replace=TRUE. não se pode prever com certeza o resultado. . 20} > urnsamples(1:20. . descrever todos os possíveis resultados deste experimento. B. 3. Vamos representá-lo por Ω. Ω = {1. KCK.3 Evento É qualquer subconjunto do espaço amostral. replace=TRUE. CKK.1. 1.1. 9. 4. K}. Dentre os eventos a considerar. x = c(`Positivo'. > tosscoin(1). > rolldie(1) d) anotar o resultado de um exame de gravidez.2 Espaço Amostral O conjunto de todos os resultados possíveis de um experimento aleatório é chamado de espaço amostral. size=1. ordered=TRUE) e) colocar 20 sementes em um germinador e observar. ordered=TRUE) b) lançar três moedas justas e observar as faces voltadas para cima: Ω = {CCC. Os eventos são geralmente representados por letras maiúsculas. KCC. Ω = {P ositivo. ordered=TRUE) 9. como A. > tosscoin(3). em que: C = cara e K = coroa..122 Capítulo 9. . . C. 2 Conceito de Probabilidade 9. Para tanto. ordered=TRUE)) Considere os seguintes eventos: A = {Obter duas curas} B = {Obter quatro curas} A = {CCC. CCC. 9. qual é a probabilidade de o resultado ser um número: a) Ímpar? b) Menor que 3? c) Primo? Assim. três doentes foram tratados com a referida droga.2. C C C} em que: C = cura e C = não cura.1 Conceito Clássico ou a priori Pelo conceito clássico. O espaço amostral.'NC'). CCC.3. x = c('C'. CCC} B=ϕ >A O evento = Tr[c(2. tem-se que: a) a probabilidade é denida com base em dados do experimento aleatório. CCC. daí. b) a probabilidade é obtida antes de o experimento ser realizado e. replace=T. o nome a priori.] B é denominado evento impossível. tem-se: . CCC. será dado por: (Tr = urnsamples(1:2. size=3. O conceito clássico surgiu no século XVII a partir dos jogos de azar e dene a probabilidade de o evento A ocorrer como sendo: P (A) = Exemplo: Número de resultados favoráveis a A Número de resultados possíveis No lançamento de um dado honesto. O espaço amostral Ω é dado por: Ω = {CCC.Conceito de Probabilidade Exemplo: 123 Um experimento foi conduzido com a nalidade de se conhecer a eciência de um tratamento na cura de certa doença. CCC. CC C. para o cálculo de probabilidades de modelo igualmente prováveis usando o R.5). construindo no > R. C CC. e) A produção média de uma oresta superar Exemplo: 1 ha Planejamento Familiar Um casal planeja ter lhos até terem uma menina e no máximo quatro lhos. b) Ocorrer uma geada no próximo inverno. M > P = sum(S. 400 m3 /ha.dado[c(1. Se os resultados não têm a mesma chance.`4'.1/6.1/6. ntrials = 1. makespace=TRUE).dado[c(1. Mas como podemos calcular as probabilidades a priori nas seguintes situações: a) Uma pessoa que fuma um pacote de cigarros por dia desenvolver câncer.`2'.`6'). É importante notar que a denição clássica exige que os resultados tenham todos a mesma chance. I > M = sum(S.dado = round(rolldie(1.1/6.`5'. d) Encontrar uma árvore de mogno num parcela de numa oresta nativa. Noções sobre a teoria das probabilidades (S.3.dado[c(2.`3'. meninos (M): 1 2 7 0 3 7 1 4 5 6 3 5 0 6 2 7 2 1 5 9 M F M F M M M F M F M M F F F M F M M M 3) Agrupe os números de acordo com planejamento do casal para simular as diferentes possibilidades de lhos.5). c) Haver uma explosão na população de desfolhadores presentes numa oresta de eucalipto.3. P Observe que as três primeiras linhas são formas diferentes de se obter as probabilidades dos valores observados do lançamento de um dado.5). 4)) probspace(1:6) iidspace(c(`1'.2]) .1/6)) > I = sum(S.2]) . Numere cada simulação como uma família: 1 2 7 0 3 7 1 4 5 6 3 5 0 6 2 7 2 1 5 9 M F M F M M M F M F M M F F F M F M M M Observe que 8 famílias foram geradas por simulação. probs = c(1/6.124 Capítulo 9. .2).2]) . Qual a probabilidade de este casal ter uma lha? Esta questão pode ser respondida com o uso de simulação: 1) Utilize a tabela de números aleatórios e selecione 20 números: 1 2 7 0 3 7 1 4 5 6 3 5 0 6 2 7 2 1 5 9 2) Os números pares representam meninas (F) e os ímpares. deve-se apelar para a estimativa pela frequência relativa.1/6. 5 × 0. 5 × 0.Conceito de Probabilidade 125 4) Calcule a probabilidade de ocorrência do evento P (A) A= {o casal ter uma lha}: Número de ocorrências de A = =⇒ Número de repetições P (A) = 8 = 1.5 0. 100 foram de gêmeos. 5 = M F M M F M M M 0. 5 × 0.878 partos sucessivos que ocorreram em uma maternidade de São Paulo. tem-se: Grupo No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 de Famílias No de Famílias com Filhas O cálculo da probabilidade. Exemplo: 1) Dentre 10. 5 = 0. e que resultaram em crianças vivas. 8 a) Será que a probabilidade é de 100%? b) Será que se for selecionado um outro conjunto de 20 números aleatórios obter-se-á a mesma probabilidade? Para responder às questões anteriores. é: P (A) = Total de famílias com lhas Número total de famílias =⇒ = P (A) = .125 0. Qual a probabilidade (em porcentagem) de nascimento de um par de gêmeos entre os recém-nascidos vivos que podem ser estimados a partir desses dados? Considere o evento A como sendo nascimento de um par de gêmeos. Assim. 5 × 0.0625 0. 5 = F 0. 9375 Que é uma aplicação do modelo geométrico. 5 × 0. 20 . repete-se a simulação com vários grupos. O cálculo da probabilidade pode ser efetuado da seguinte forma: Número de tentativas 1 2 3 Probabilidades 4 F 0. 5 × 0. 5 = 0.25 0. por simulação. 126 Capítulo 9. Noções sobre a teoria das probabilidades 9. Diz-se ocorre A Notação: > A ∪ B union(A. formando uniões. B) ou B .4 Diagramas de Venn 9.: Se A¯ for o evento complementar de A.1. 9. . então ¯ = 1 − P (A).4.3 Propriedades da Probabilidade As probabilidades sempre se referem a ocorrência de eventos e. que auxiliam na visualização entre os eventos. independentemente do conceito utilizado.1 União de Eventos: O evento união de A e B equivale à ocorrência de A.4. ou de B. Contém os elementos do espaço amostral que estão em pelo menos um dos dois conjuntos. P (A) 9. Os espaços amostrais e os eventos. o modelo de probabilidade em Bioestatística terá sempre uma coerência interna que resulta dos axiomas de probabilidade: 0 ≤ P (A) ≤ 1 P (Ω) = 1 P (ϕ) = 0 Obs. especialmente as relações diagramas de Venn.1 Operações com Eventos Em muitos problemas de probabilidade interessam-nos eventos que podem ser expressos em termos de dois ou mais eventos. interseções e complementos. clássico ou frequentista. ou ambos. costumam ser ilustrados por dos conceitos básicos de probabilidade. 4. dizem-se disjuntos ou mutuamente exclusivos.1. é o evento que consiste de todos os elementos contidos Contém todos os pontos comuns a A e B.2 Interseção de Eventos: A interseção de dois eventos simultaneamente em Notação: > A ∩ A e em B. quando a ocorrência de um deles impossibilita a ocorrência do outro.Diagramas de Venn 127 9. B ∪A = A B⊂A⇒ B ∩A = B Notação: S B A 9.1.4. A e B.1.4 Eventos Disjuntos: Dois eventos A e B.3 Sub-Conjuntos: Diz-se: B é sub-conjunto de A ou B implica em A. . B) 9. B intersect(A. Os dois eventos não têm elementos em comum.4. Regra 1: Probabilidade da união de eventos P (A ∪ B) = P (A) + P (B) − P (A ∩ B) Se A e B forem mutuamente exclusivos. e o teorema ca sendo: P (A ∪ B) = P (A) + P (B) . têm-se P (A ∩ B) = 0.128 Capítulo 9.4. é a negação de A. B) 9.5 Complemento: É o evento que consiste de todos os elementos do espaço amostral que não estão contidos em A. Ac ∪ A = S c A ⇒ Ac ∩ A = ϕ Sc A > setdi(A.4. Noções sobre a teoria das probabilidades S B A Notação: A ∩ B=ϕ 9. Notação: Ac .2 Regras de Cálculo de Probabilidades Utilizando os diagramas de Venn torna-se mais fácil compreender algumas regras que surgem naturalmente no cálculo de probabilidades.1. ou seja. Assim. prob(C) > union(A. Determinar: P (A).5))) > prob(A) . X1 == "3")) > (B = subset(S. B) . prob(B) . C) . se considerarmos três eventos.C)) > setdiff(S. Solução: Obs. prob(union(A. P (A ∪ C) e P (Ac ). A)) . prob(setdiff(S. X1 %in% c(1. b) B = sair número par. e c) C = sair número ímpar. usando a teoria de conjuntos. P (C).: Pode-se determinar a probabilidade da união de três ou mais eventos. A) . P (A ∪ B).B)) > union(A.3.6))) > (C = subset(S. makespace=TRUE)) > (A = subset(S.4. prob(union(A. a probabilidade da união dos três eventos é dada por: P [(A ∪ B) ∪ C] = P (A ∪ B) + P (C) − P [(A ∪ B) ∩ C] = P (A) + P (B) − P (A ∩ B) + P (C) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C) P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C) > (S = rolldie(1. B e C. X1 %in% c(2. P (A ∪ B ∪ C) = A.Diagramas de Venn Exemplo: 129 Considere o experimento lançamento de um dado e os seguintes eventos: a) A = sair o número 3. P (B). A3 . . então: P (∞ ∪ ) Ai = i=1 Exemplo: ∞ ∑ P (Ai ). . toss1=="H") .B)) Regra 3: Probabilidade do complemento Do diagrama de Venn. . A2)) > (B = subset(L. A ∪ Ac = S ⇒ P (A ∪ Ac ) = P (S).130 Capítulo 9. Portanto. Mas. i=1 No lançamento de duas moedas temos: A = pelo menos uma cara. sabe-se que: . logo: P (A ∪ Ac ) = P (S) P (A) + P (Ac ) = 1 P (Ac ) = 1 − P (A). e que A ∪ Ac = ϕ sendo P (ϕ) = 0. toss2=="H") > (A = union(A1. . formam uma sequência de eventos disjuntos. Noções sobre a teoria das probabilidades Regra 1B: Probabilidade da união de eventos disjuntos Se A e B são disjuntos ⇒ A∩B =ϕ ⇒ P (A ∩ B) = 0. toss1=='T' & toss2=='T')) > prob(union(A. makespace=TRUE)) > A1 = subset(L. A2 = subset(L. a probabilidade da união de eventos disjuntos ca: P (A ∪ B) = P (A) + P (B) Regra 2: Probabilidade da união de uma sequência de eventos disjuntos Se A1 . Qual a probabilidade de duas coroas ou pelo menos uma cara? Solução: > (L = tosscoin(2. B = duas coroas. A2 . têm-se que P (S) = 1. de ter sobrevivido no presente período. ainda. A probabilidade do evento condicional de A dado B.5 Probabilidade Condicional Algumas vezes a chance de um particular evento acontecer depende do resultado de algum outro evento. como se mostra a seguir: P (A|B) = P (A ∩ B) . P (B) se P (B) > 0 P (B|A) = P (A ∩ B) . given=A) Na probabilidade condicional. conforme apresentado na Tabela 9. o Porte do animal e o Sexo do mesmo. é chamada probabilidade Pode ser determinada dividindo-se a probabilidade de pela probabilidade do evento B. foram coletadas diversas informações e. a chance de um paciente com alguma doença sobreviver o próximo ano depende. Exemplo: Em uma pesquisa realizada no Hospital Veterinário da Universidade Estadual de Londrina. > prob(B. Por exemplo. given=B) ou. denota-se por ocorrência de ambos os eventos > A.1. ocorreu. . quando se sabe que o evento B A e B P (A|B).Probabilidade Condicional Exemplo: 131 Um dado é lançado 10 vezes. entre elas. no ano de 2010. P (A) se P (A) > 0 prob(A. a ocorrência de um evento altera a probabilidade de ocorrência de outro evento. naturalmente. qual a probabilidade de A = pelo menos um 6? Solução: 9. Exemplo: P (A ∩ B) P (B|A) = P (A). ou seja. . através do diagrama de Venn. ao evento que já ocorreu.132 Capítulo 9. 2. Noções sobre a teoria das probabilidades Tabela 9. o resultado está em A. que a probabilidade condicional é apenas uma redução do espaço amostral.5. P (A ∩ B) P (B).144 68 142 1.354 Total Considerando-se que o animal escolhido é de médio porte. qual a probabilidade de ser de grande porte? Solução: 9. qual a probabilidade de ser fêmea? Dado que o animal é macho. Porte Sexo Pequeno Total Médio Grande Fêmea 649 41 77 767 Macho 495 27 65 587 1. o resultado está em Se o evento B ocorreu. . .1 Distribuição dos animais quanto ao Porte e Sexo. ou seja. . 15. .1 Probabilidade Condicional no Diagrama de Venn Nota-se. Se o número sorteado for ímpar. Um número é sorteado ao acaso entre os inteiros qual a probabilidade de que seja o número 9? Solução: P (A|B) = 1. Se o evento A ocorreu. B. given=A) 9. arma que as aparências para a mente são de quatro tipos: X as coisas são o que parecem ser. pode-se pensar na relação entre uma doença e o teste para detectá-la.C. makespace = TRUE)) > (A = subset(S.13. X1 %in% c(9))) > prob(B.15))) > (B = subset(S.11.2 Aplicação da Probabilidade Condicional Epictetus .Probabilidade Condicional 133 Para resolver o problema com a utilização do R. mas parecem ser.com.5.5. nem parecem ser. .7.. basta simular o lançamento de um dado com 15 faces. X ou não são. no século II D.9. Pode-se resumir esta relação da seguinte forma: http://epiclcn. X ou não são.3. de forma que pode-se resumir essa relação entre Mente Parecer + - parecer e ser em uma tabela da seguinte forma: + Ser - As coisas são o que parecem ser Não são mas parecem ser São mas não parecem ser Não são e nem parecem ser Da mesma forma. X ou são e não parecem ser. X1 %in% c(1.br/ em 14/06/2012. da seguinte forma: > (S = rolldie(1. nsides = 15.blogspot. Noções sobre a teoria das probabilidades Relação Teste Doença + + - Verdadeiro positivo Falso positivo Falso negativo Verdadeiro negativo - Portanto. o bom uso de um teste diagnóstico requer. Teste Doença Total Positivo Negativo Presente a b a+b Ausente c d c+d Total a+c b+d n Para denir os índices que descrevem o grau de conabilidade de um teste. Na análise da qualidade de testes diagnósticos. recebem nomes especiais: sensibilidade e especicidade.2. a sensibilidade mede a capacidade de reação do teste em um paciente doente A especicidade. interessa conhecer duas probabilidades condi- cionais que. é denida como: e = P (T− |D− ). denotada por s. a especicidade mede a capacidade de não reação do teste em pacientes não portadores da doença. denotada por e. a especicidade e os parâmetros que reetem a sua capacidade de produzir decisões clínicas corretas: valor da predição positiva (VPP) e o valor da predição negativa (VPN). Tabela 9. Na etapa de pesquisa para a determinação do grau de conabilidade de um teste diagnóstico. ou seja. Logo. precisamos trabalhar com os seguintes eventos: . o pesquisador utiliza-o primeiramente em dois grupos muito especícos de pessoas: um de portadores da doença e outro de pacientes sem a doença em questão.2 Esquema padrão de síntese dos dados para vericação da qualidade de um teste clínico. o conhecimento de medidas que caracterizam a sua qualidade: a sensibilidade. ou seja. pela sua importância. Os resultados desta etapa da pesquisa podem ser resumidos na forma da Tabela 9. a probabilidade de o teste ser positivo sabendo-se que o paciente que está sendo examinado é doente. Portanto. além de considerações clínicas. é denida como: s = P (T+ |D+ ). A sensibilidade.134 Capítulo 9. a probabilidade de o teste ser negativo sabendo-se que o paciente examinado não é portador da doença. Probabilidade Condicional 135 T+ corresponde a teste positivo. p.2 e a denição de probabilidade condicional. 74) > require(epibasix) > dados = cbind(c(52. 776 67 e= 74 = 0. > require(DiagnosisMed) > diagnosis(52. 15.74)) > sensSpec(dados) Diagnosing liver metastases: a Bayesian analysis. v. Entre eles pode-se citar: DiagnosisMed e epibasix. cujas aplicações encontram-se a seguir. têm que a sensibili- dade e a especicidade são dadas.379-88. Tabela 9. 892 83 Existem alguns pacotes no R que calculam a sensibilidade e especicidade do teste.3. Journal of Clinical Oncology.3. e os resultados resumidos na Tabela 9. respectivamente.15). por: Sensibilidade s= Exemplo: Especicidade a a+b e= d c+d estudaram a qualidade da tomograa computadorizada para o diagnóstico de Linder & Singer metástase de carcinoma de fígado. T− corresponde a teste negativo.3 Resultados da tomograa computadorizada em 67 pacientes com metástase e 83 sem metástase do carcinoma hepático. D+ corresponde a indivíduo portador da doença. 1986 . Metástase de Tomograa computadorizada Total carcinoma hepático Positiva (T+ ) Negativa (T− ) Presente (D+ ) 52 15 67 Ausente (D− ) 9 74 83 61 89 150 Total A sensibilidade e a especicidade da tomograa computadorizada são estimadas por: Sensibilidade Especidade s= a a+b e= d c+d s= 52 = 0. 9. D− corresponde a indivíduo não portador da doença. c(9. Usando a notação da Tabela 9. interessa mais conhecer os seguintes índices denominados valor da predição positiva (VPP) e valor da predição negativa (VPN). em função da sensibilidade e prevalência da doença. População Proporção com resultado Proporção Positivo Negativo Doente p ps p(1-s) Sadia 1 . a proporção de pessoas doentes. 1966 É a contagem do número de casos que existe em uma população de pacientes em um momento especíco no tempo. embora sendo índices ilustrativos e bons sintetizadores das qualidades gerais de um teste. tal que o evento condicionante é o resultado do teste. pois estes índices são provenientes de uma situação em que há certeza total sobre o diagnóstico.1171-3. Noções sobre a teoria das probabilidades 9.p) (1 .274.s) + (1 p)e Assim. têm uma limitação séria: não ajudam a decisão da equipe médica que. . o que não acontece no consultório médico. é através da Tabela 9. recebendo um paciente com resultado positivo do teste. Daí a necessidade destes dois outros índices que reetem melhor a realidade prática.4 Probabilidades necessárias para o cálculo dos índices VPP e VPN.e) (1 . The New England Journal of Medicine. Uma forma de se calcular o VPP e VPN. precisa avaliar se o paciente está ou não doente.p (1 . p. Neste momento. Seja p a prevalência da doença na população de interesse.136 Capítulo 9.p)(1 . o valor da predição positiva é: Predictive value of a single diagnostic test in unselected populations.4. V P N = P (D− |T− ) = d b+d Estes valores são probabilidade condicionantes. v. aquele que na prática acontece primeiro. isto é. denidos respectivamente por: Valor da predição positiva (VPP) é a probabilidade do paciente estar realmente doente quando o resultado do teste é positivo. Não se pode depender apenas da sensibilidade e a especicidade. sugerida por Vecchio .5.p)e Total 1 ps + (1 .e) p (1 . Tabela 9. V P P = P (D+ |T+ ) = a a+c Valor da predição negativa (VPN) é a probabilidade do paciente não estar doente quando o resultado do teste é negativo.3 Valor das Predições A sensibilidade e a especicidade. ainda. 776 + (1 − 0. P (A|B) = > P (A ∩ B) P (B) ⇒ P (A ∩ B) = P (B) P (A|B) P (A ∩ B) P (A) ⇒ P (A ∩ B) = P (A) P (B|A) prob(B)*prob(A. given=A) . Se o resultado da tomograa computadorizada é negativo. ps + (1 − p)(1 − e) O valor da predição negativa é dado por: V P N = P (D− |T− ) = (1 − p)e . os valores de predição da tomograa computadorizada são: V PP V PP 0.4 Probabilidade da Intersecção de Dois Eventos A probabilidade condicional permite-nos calcular diretamente a probabilidade da intersecção de dois eventos. 1275. 02)(1 − 0. 02 × 0. 8916) = 0. 02 × (1 − 0. considere que a prevalência de metástase de carcinoma de fígado é de 2%. 9949.5%. o valor de predição positiva é baixo enquanto que o valor de predição negativa é bastante alto.3. a chance de não haver metástase é de 99.5. given=B) ou. Assim. = Portanto. 02 × 0. O cálculo de VPP e VPN no V PP R usando o pacote DiagnosisMed é dado por: = a a+c e V PN = d b+d 9. = e V PN V PN (1 − p)e (1 − 0. p(1 − s) + (1 − p)e Para o exemplo da Tabela 9. P (B|A) = > prob(A)*prob(B. 892 = p(1 − s) + (1 − p)e 0. 02) × 0. 776) + (1 − 0. 776 ps = ps + (1 − p)(1 − e) 0.Probabilidade Condicional 137 V P P = P (D+ |T+ ) = ps . 02) × 0. 8916) = 0. Os eventos B1 e B2 são independentes? Os eventos P1 e P2 são independentes? Pede-se: a) Calcular a probabilidade de sair branca na 1a extração e preta na 2a extração. Calcular as probabilidades: . b) Construir o espaço amostral e indicar as probabilidades associadas a cada um dos pontos amostrais. Solução: > require(MASS) > CC = cards(makespace=TRUE) > (A = subset(CC.138 Capítulo 9. P1: sair bola preta na primeira extração. Considere os seguintes eventos: B1: sair bola branca na primeira extração.5 Amostragem Sem Reposição Considere uma urna contendo 3 bolas brancas e duas bolas pretas de onde são feitas duas extrações de 1 bola ao acaso e sem reposição. suit == "Heart")) > (B = subset(CC. Determine a probabilidade desses eventos ocorrerem simultaneamente.5. rank == "A")) > (B = subset(CC. P2: sair bola preta na segunda extração. given=A) > fractions(prob(A)*prob(B. rank %in% "A")) > prob(A)*prob(B. B2: sair bola branca na segunda extração. given=A)) 9. Noções sobre a teoria das probabilidades Exemplo: Considere os seguintes eventos: A = retirar uma carta de copas do baralho e B = retirar um às do baralho. 9. d) P (B2 |P1 ).6 Amostragem com Reposição Considere o mesmo caso anterior. b) P (P2 ).5. d) de ter saído bola preta na primeira extração sabendo-se que (dado que) saiu bola preta na segunda extração. Dois pacientes de um médico estão tomando a droga. antes da extração bola. o teorema do produto para dois eventos independentes é dado por: P (A ∩ B) = P (A) · P (B) Exemplo 1: Efeitos colaterais com o uso de certa droga ocorrem em 10% de todos os pacientes que a tomam. Logo. isto é. c) de ter saído bola preta na primeira extração sabendo-se que (dado que) saiu bola branca na segunda extração. extração. c) P (B2 |B1 ). Independência de Eventos Dois eventos são considerados independentes quando a ocorrência de um deles não depende da ocorrência do outro.Probabilidade Condicional a) de sair bola branca na b) de sair bola preta na 2a 2a 139 extração. e) P (P2 |B1 ). mas da 2a com reposição da 1a bola extraída. Os eventos B1 e B2 são independentes? Os eventos P1 e P2 são independentes? Construir o espaço amostral e indicar as probabilidades associadas a cada um dos pontos amostrais. . Calcular as probabilidades: a) P (B2 ). P (A|B) = P (A) e P (B|A) = P (B). f) P (P2 |P1 ). Nestas condições. qual a probabilidade de uma pessoa tomada ao acaso da população ser: a) O e Rh+ ? Solução: b) AB e Rh− ? Solução: . Suponha ainda que a probabilidade de Rh+ é de 90% e que o fator independe do tipo sanguíneo. Noções sobre a teoria das probabilidades a) Qual é a probabilidade de que ambos os pacientes apresentem os efeitos colaterais? Solução: b) Qual é a probabilidade de que pelo menos um apresente os efeitos colaterais ? Solução: Exemplo 2: Suponha que a probabilidade de uma pessoa ser do tipo sanguíneo O é 40%. ser A é 30% e ser B é 20%.140 Capítulo 9. ainda. Qual a probabilidade desse animal ser de outra cidade? Solução: . 8% para a região leste. tem-se o seguinte teorema: P (Ai ) P (B|Ai ) k ∑ Ω.7 Teorema de Bayes Uma das relações mais importantes envolvendo probabilidades condicionais e dada pelo de Bayes. se P (Ai |B) = B e é um evento qualquer. A3 . Ak Teorema eventos mutuamente excludentes cuja união é o espaço amostral que suas probabilidades sejam conhecidas. k.Probabilidade Condicional 141 9. 15% da região oeste da cidade de Londrina e os 10% restantes são provenientes de outras cidades. 20% da região leste. P (Ai )P (B|Ai ) i=1 Exemplo: Sabe-se que dos animais atendidos pelo Hospital Veterinário da Universidade Estadual de Londrina. · · · . 40% são provenientes da região norte. 15% da região sul. Assim. A2 .5. enquanto que para as outras regiões os percentuais foram: 3% para a região sul. i = 1. 4% para a região oeste e 15% para outras cidades. que 5% dos animais da região norte foram submetidos a algum procedimento cirúrgico. Sejam A1 . Observou-se. Uma cha escolhida aleatoriamente acusou que o animal foi submetido a um procedimento cirúrgico. · · · . Três bolas são selecionadas ao acaso com reposição e as cores anotadas. A ∩ B e Ac e suas probabilidades. dois números são escolhidos ao acaso e multiplicados. ela é devolvida à urna e retira-se outra. Qual a probabilidade de que o produto seja positivo? 6) Um casal pretende ter lhos. famílias com 3 crianças são selecionadas ao acaso. sem reposição.142 Capítulo 9. Considere os eventos: A = soma dos números obtidos igual a 9. Enumere os resultados possíveis desse experimento. Se for branca.Probabilidades 1) Para cada um dos casos abaixo. Dê o espaço amostral para o experimento. e B = número do primeiro dado maior ou igual a 4. 12 estão com parasitose intestinal. qual a probabilidade de que venha a ter três lhos do mesmo sexo? 7) Num grupo de 30 animais. Noções sobre a teoria das probabilidades Exercícios . qual a probabilidade da mesma ser do tipo sangüíneo AB? 3) Uma urna contém duas bolas brancas (B ) e três bolas vermelhas (V ). se for vermelha. c) Uma urna contém 10 bolas azuis e 10 vermelhas com dimensões rigorosamente iguais. Obtenha A ∪ B. escreva o espaço amostral correspondente e conte seus elementos. anotando-se o gênero de cada uma. d) Em uma cidade. 2) Em 750 pessoas utilizadas para pesquisa de tipo sanguíneo. lança-se uma moeda. Qual é a probabilidade de pelo menos 2 deles não estarem infectados? 8) Considere o lançamento de dois dados. 4) Lance um dado até que a face 5 apareça pela primeira vez. um após o outro. vericou-se: Tipos Pessoas A 85 B 193 O 252 Sorteando-se uma pessoa ao acaso. a) Uma moeda é lançada duas vezes e observam-se as faces obtidas. Enumere os elementos de A ou B. . Três animais são escolhidos ao acaso. Retira-se uma bola ao acaso da urna. Admitindo probabilidades iguais para ambos os sexos. b) Um dado é lançado duas vezes e a ocorrência de face par ou ímpar é observada. 5) Dentre seis números positivos e oito negativos. seis Gir e dois Guzerá. c) não ser da biologia. essa porcentagem é de 50%. Em agosto O Londrina Esporte Clube ganhou uma partida em agosto. Numa ninhada de seis pintos. b) do gênero feminino ou nunca tenha visto o mar. 0. 60% são castrados. Temos ainda que 500 alunos são do curso de biologia diurno. temos a probabilidade de 1/4 para obter um lho de pescoço coberto. e) não ser esportista nem aluno da biologia. b) ser esportista e aluno da biologia noturno. Se não for castrado. ao passo que. qual a probabilidade de um exame ter as duas falhas? 13) Uma fazenda é composta de 70% de animais machos e 30% de fêmeas. 20% nunca viram o mar. Sabe-se que 40% dos machos e 60% das fêmeas são da raça Nelore. cinco Gir e seis Guzerá. Um aluno é escolhido ao acaso e pergunta-se a probabilidade de: a) ser esportista. 7 se chove e com 0. a probabilidade de ter tido um distúrbio hormonal é de 10%. 8 se não chove. 700 da biologia noturno. entre as meninas. 100 são esportistas e da biologia diurno e 200 são esportistas e da biologia noturno. qual a probabilidade de ter chovido nesse dia? 16) Dos animais de uma fazenda.5% pelo menos uma das duas falhas. 15) O Londrina Esporte Clube ganha com probabilidade a probabilidade de chuva é de 0. Qual a probabilidade de que ambos sejam da mesma raça? 11) Num cruzamento de galos de pescoço pelado com galinhas do mesmo tipo. 3. ele seja macho? 14) Uma escola do ensino médio do interior de São Paulo tem 40% de estudantes do gênero masculino. d) ser esportista ou aluno da biologia. Qual a probabilidade de que escolhido um animal da raça Nelore. Pergunta-se: . 10) Uma fazenda contém quatro bezerros Nelore. Entre estes. Sorteia-se um bezerro de cada fazenda. 1% falha técnica e 2. Qual a probabilidade de que um aluno selecionado ao acaso seja: a) do gênero masculino e nunca tenha visto o mar. Outra fazenda contém cinco bezerros Nelore. enquanto que para os demais essa probabilidade aumenta para 30%.Probabilidade Condicional 143 9) Uma universidade tem 10 mil alunos dos quais 4 mil são considerados esportistas. qual a probabilidade de que nenhum tenha pescoço coberto? 12) Sabendo-se que 2% dos exames clínicos feitos por um laboratório apresentam falha humana. todas de mesmo raio. . b) o número ser divisível por 5. Noções sobre a teoria das probabilidades a) qual a probabilidade do animal escolhido ao acaso ter tido um distúrbio hormonal? b) Se o animal sorteado tiver distúrbio hormonal. 21) Um número inteiro é escolhido ao acaso dentre os números 1. 3. d) verde. b) ocorrer soma 11. 4 pretas e cinco brancas. b) não-branca ou vermelha. c) vermelha ou preta. 20) Uma carta é retirada de um baralho comum de 52 cartas. vermelha ou amarela. 18) Uma urna contém 15 cartões enumerados de 1 a 15. c) sair um rei ou uma carta de copas. . b) sair uma carta de copas. Qual a probabilidade de: a) sair uma carta vermelha. Qual a probabilidade de: a) o número ser divisível por 3. qual a probabilidade de não ser castrado? 17) Uma urna contém 10 bolas verdes. Qual a probabilidade de a bola escolhida ser: a) não verde. 30. d) o número não ser divisível nem por 3 e nem por cinco. 2. Se esta moeda é lançada duas vezes. Qual a probabilidade de o número no cartão ser múltiplo de 3? 19) Joga-se um dado branco e um dado preto. . 22) Uma moeda é viciada. c) o número ser divisível por 5 ou por 3. c) ocorrer soma 2. d) não ocorrer nem soma 2 e nem 8. 4 amarelas. Uma bola é retirada ao acaso. Qual a probabilidade de ocorrer cara apenas uma vez? . Calcule a probabilidade de: a) Ocorrer soma 6. Um cartão é retirado aleatoriamente. de maneira que as caras são 3 vezes mais prováveis de aparecer do que as coroas.144 Capítulo 9. 8 vermelhas. . Qual a probabilidade de que um aluno. uma perfeita (probabilidade de cara igual 1/2). 145 Se duas delas são escolhidas aleatoriamente. b) só estudar português. 120 acertaram os dois e 54 acertaram apenas um problema. encontre a probabilidade dele: a) estudar matemática ou português. e outra com duas caras. 26) Um professor de probabilidade propôs a seus alunos o seguinte problema: São dadas duas moedas. 3 têm olhos azuis. 70 estudam matemática. qual é a probabilidade de: a) ambas terem olhos azuis. e) não estudar nem português e nem estudar mate- c) só estudar matemática. Se um estudante é escolhido aleatoriamente. c) pelo menos uma ter olhos azuis? 24) De 120 estudantes. 25) Em uma prova caíram dois problemas. b) tenha acertado apenas o segundo problema. Sabe-se que 132 alunos acertaram o primeiro problema.Probabilidade Condicional 23) Das 8 alunas de uma classe. d) não estudar matemática. escolhido ao acaso: a) não tenha acertado nenhum problema. c) tenha acertado a pelo menos um problema. Uma moeda é escolhida ao acaso e lançada três vezes. b) nenhuma ter olhos azuis. 80 estudam português e 40. Qual a probabilidade que seja obtida 3 caras? . 86 erraram o segundo. mática. matemática e português. 146 . segundo ele. b) Calcular as probabilidades associadas a cada um dos elementos do espaço amostral. c) Considerar Y o número de animais prenhes e associar um valor y a cada um dos elementos do espaço amostral. Seja E o evento o animal emprenhar e ¯ E aplicar a nova técnica de inseminação e observar o o evento o animal não emprenhar.1 Conceitos Iniciais Exemplo: Um pesquisador desenvolveu uma nova técnica de inseminação articial que.Capítulo 10 Variáveis aleatórias discretas 10. o experimento: resultado. a) Construir o espaço amostral associado a esse experimento. Um fazendeiro resolveu aplicar esta nova técnica em seus animais. O diagrama da árvore facilita a visualização do espaço amostral. garante 60% de sucesso. quando o tamanho da amostra a ser coletada não é grande. Para isso ele selecionou 3 animais de seu rebanho. Considere inicialmente. 096 ¯ ¯ ¯ P (E E E) = 0.144 2 ¯ E ¯ EE 0. 144 ¯ ¯ P (EE E) = 0. 144 ¯ ¯ P (E E E) = 0. ¯ EEE. ¯ EE ¯ E. 096 ¯ P (E EE) = 0.064 0 Logo.096 1 ¯E ¯E ¯ E 0. ¯ E ¯ EE. 064 . 144 P (EE E) ¯ P (EEE) = 0. o espaço amostral é dado por: { } ¯ E EE.096 1 ¯ EEE 0. 096 ¯ EE) ¯ P (E = 0.216 3 ¯ EE E 0.144 2 ¯E ¯ EE 0.096 1 ¯ EE ¯ E 0. EE e as probabilidades associadas a cada ponto do espaço amostral são dadas por: P (EEE) = 0.144 2 ¯ E EE 0.Conceitos Iniciais 147 Resultados Possíveis / <E ②② ② ②② ②② E ☛E ❊❊❊❊ ☛ ❊❊ ☛☛ ❊" ☛ ☛ ¯ E ☛ ☛ ☛ ☛ ☛☛ E J ✸✸ ✖✖✖ ✸✸ ✸✸ ✖ ✸✸ ✖✖✖ ✸✸ ✖✖ ✸✸ ✖✖✖ ¯ E ✖✖ ✖✖ ✖✖✖ ✖✖ ✖✖✖ •✭ ✭✭ ✭✭ ✭✭ ✭✭ ✭✭ ✭✭ E ✭✭ ☛E ☛ ✭✭ ☛ ✭✭ ☛☛ ☛ ☛ ✭✭ ☛ ✭✭ ☛☛ ☛ ☛ ¯ E ✸✸ ✸✸ ✸✸ ✸✸ ✸✸ ✸✸ ¯ E / / <E ②② ② ②② ②② ❊❊ ❊❊ ❊❊ ❊" ¯ E / / <E ②② ② ②② ②② ❊❊ ❊❊ ❊❊ ❊" ¯ E <E ②② ② ②② ②② ❊❊ ❊❊ ❊❊ ❊" ¯ E / / / Probabilidades y EEE 0. ¯ ¯ E. EE E. 216 ¯ = 0. ¯ E ¯E ¯E ¯ Ω = EEE. Variáveis aleatórias discretas 10. i=1 Costuma-se adotar. .25 0. cuja representação gráca é apresentada na Figura 10.432 3 0. .40 0. i = 1. 10. 0. também.2 Variável Aleatória Discreta Uma função denida sobre o espaço amostral de pontos do conjunto real é dita uma S e assumindo valores num conjunto enumerável variável aleatória discreta.20 0.1 Gráco das probabilidades de prenhez dos animais.2. .1 Distribuição da variável aleatória 0.148 Capítulo 10.1 Distribuição de uma Variável Aleatória O conjunto dos valores da variável e as respectivas probabilidades.1.064 1 0. para designar a probabilidade de a variável aleatória Tabela 10.35 0.05 0 e Y. ou seja. n é chamado distribuição n ∑ Observação: P (yi ) = 1.15 0.288 2 0.30 Probabilidades P (yi ). . a distribuição da variável aleatória yi 1 2 3 Número de Sucessos Figura 10.10 0.216 Y. Y . a notação assumir o valor da variável aleatória P (Y = yi ) Y = {número de animais prenhe} é dada por: yi P (Y = yi ) 0 0. yi . Portanto. vacas) axis(2. através da função de probabilidades e . size=3. Exemplo: A função de probabilidades da variável Y ={número ( ) 3 P (Y = y) = 0.Variável Aleatória Discreta 149 Qual é a porcentagem esperada de : a) três animais emprenharem? b) nenhum animal emprenhar? c) pelo menos um animal emprenhar? Para elaborar a Tabela 10. dbinom(vacas. pch=16. cex=2. bastam os comandos: vacas = 0:3 prob_suc = 0. type="h".45. 3! . . las=1) abline(h=0. y!(3 − y)! Calcular P (Y = 0). . xlab="Número de Sucessos".2 Função de Probabilidade A função que fornece as probabilidades de ocorrências dos valores que a variável aleatória pode assumir é chamada função de probabilidades. Solução: de animais prenhe} é dada por: e P (Y = 3).1 e construir o gráco usando o R.frame(Pr = dbinom(vacas. . lwd=2) box(bty=`l') 10. 6)3−y . . P (Y = 1). prob_suc)) rownames(prenhez) = 0:3 prenhez plot(vacas. dbinom(vacas. seq(0. 6y (1 − 0. 0. prob=prob_suc). P (Y = 2) interpretar o resultado. col="gray".05).2. 3. col=`blue') axis(1. . col=`blue') points(vacas.6 prenhez = data. . axes=F. 3. prob=prob_suc). ylab="Probabilidades". size=3. y em que (3) y Exercícios: = y = 0.5. main=`'. 2.000 E(Y ) = Interpretação: Y como: yi × P (Y = yi ) animais emprenhados. calcula-se a esperança de yi P (Y = yi ) 0 0. . P (y2 ). pode-se denir as seguintes propriedades . Para os dados da Tabela 10. Espera-se obter um número médio de animais emprenhados.1.216 Total 1. . Variáveis aleatórias discretas 10. chamamos valor médio ou µY = E(Y ) = n ∑ esperança matemática de Y ao valor: (10.150 Capítulo 10. . yn com as respectivas probabilidades P (y1 ). Propriedades da Esperança Matemática Supondo k uma constante e da esperança matemática: a) E(k) = k X e Y variáveis aleatórias. y2 .3 Valor médio ou Esperança Matemática de Y Para responder sobre qual o número médio esperado de animais emprenhados? é necessário calcular o valor médio denido por: Dada a variável aleatória Y .064 1 0. P (yn ). assumindo os valores y1 . . .288 2 0. . . .432 3 0.1) yi P (yi ) i=1 Exemplo: Portanto. µY . respectivamente. y P (Y = y) [yi − E(Y )]2 [yi − E(Y )]2 P (Y = y) 0 0.288 0.01728 3 0.2.20736 1 0.432 0. σY × 100 = 47.2) i=1 Logo. então: E(XY ) = E(X)E(Y ). ao valor: (10.64 0.44 0.4 Variância de Y Dada a variável aleatória Y.064 3. yi2 P (Y = yi ).24 0. para o exemplo dado: Portanto.216 1.72000 Assim.31104 Total 1.18432 2 0. Y. 14%.Variável Aleatória Discreta b) E(kX) = kE(X) c) E(X ± Y ) = E(X) ± E(Y ) d) E(X ± k) = E(X) ± k e) Se X e Y 151 são variáveis aleatórias independentes. o desvio padrão e o coeciente de variação são dados. 10. 72.000 V (Y ) = 0. por: √ V (Y ) = 0.04 0. σY = 0. σY2 = V (Y ) = chamamos de variância de n [ ∑ ]2 yi − E(Y ) P (yi ). 8485281 CV = e Uma maneira mais prática para o cálculo da variância de Y é: 2 σY2 = V (Y ) = E(Y 2 ) − [E(Y )] em que E(Y 2 ) = n ∑ i=1 Logo. 5 Distribuição acumulada de uma variável aleatória O conjunto dos valores da variável e as probabilidades acumuladas até os respectivos valores.288 0. são variáveis aleatórias independentes. 2. ou distribuição . 10. . então: COV (X. pode-se denir as seguintes propriedades para a variância: a) V (k) = 0 b) V (kX) = k 2 V (X) c) V (X ± Y ) = V (X) ± V (Y ) + 2 COV (X.216 0.8 y P (Y = y) 0 0. yi e F (yi ) = P (Y ≤ yi ) i = 1. n é chamada distribuição acumulada da variável aleatória Obter a tabela de distribuição acumulada de probabilidades da variável aleatória acumulada de Y relativos à inseminação articial dos apresentados na Tabela 10.064 1 y × P (Y = y) 3. .864 4 1. Propriedades da Variância Supondo k uma constante e X e Y variáveis aleatórias.152 Capítulo 10.960 Assim.000 0 0. Variáveis aleatórias discretas yi2 yi2 × P (Y = y) 0. Y ) d) V (X ± Y ) = V (X) ± V (Y ). . .432 0. Y Y. 8 V (Y ) = V (Y ) = V (Y ) = 0.648 9 1.728 3 0. e) V (X ± k) = V (X) f ) Se X Obs.1. Y ) = 0 não implica que X e Y COV (XY ) = E(XY ) − E(X) E(Y ) = 0. [ ]2 E(Y 2 ) − E(Y ) ( )2 3. sejam independentes.944 Total 1.2.288 1 0. 72. ou seja.000 1.000 0.: O fato de e Y se X e Y são independentes.288 2 0. 96 − 1. 0 0. pch=19.6 0.Variável Aleatória Discreta 153 yi P (Y = yi ) 0 0. size=3.288 2 0.8 0. através de sorteio e raça Gir.6)).6)).2 Distribuição acumulada da prenhez dos animais. cumsum(dbinom(0:3. Interpretar o valor F (2). ylab="Probabilidades". Serão retirados do pasto 3 animais.frame(Acum) rownames(Prenhez) = 0:3 Prenhez plot(0:3.5 3.0 Número de Sucessos Figura 10. (Acum = cumsum(dbinom(0:3.064 1 0. xlab=`Número de Sucessos'. bty=`l')#. prob=0.5 1. prob=0. prob=0. cumsum(dbinom(0:3. Pede-se: sem reposição. size=3. Dena a variável Y como sendo o número de animais da .216 F(Y) = P (Y ≤ yi ) cujo gráco é apresentado na Figura 10.0 Probabilidades 0.0 1. col=`blue') Exercícios: 1) Considere um pasto com 3 vacas da raça Holandesa e 5 vacas da raça Gir. size=3. type=`s'.0 2. xaxt=`n') points(0:3.6))) Prenhez = data.5 2. main="".432 3 0.2 1.4 0.2 0. col=`blue'. las=1. 1 0. Variáveis aleatórias discretas a) obter uma tabela contendo todos os possíveis resultados desse experimento e as probabilidades associadas a cada um deles.2 0.1 Pede-se: a) obter a função de distribuição acumulada F (y) para a variável aleatória Y e um gráco que a represente. c) a esperança e a variância de Y. 90% dos ovos eclodem. b) Inseminar Pode sair cara ou coroa. Sabendo-se que teoricamente.154 Capítulo 10. a variável aleatória discreta número de óbitos observados mensalmente no Hospital Veterinário. b) obter a distribuição da variável aleatória 2) Seja Y Y e um gráco que a represente. b) calcular o número médio de ovos.3 Principais Distribuições de Probabilidades 10. d) Plantar uma semente. Pode germinar ou não. um animal. Pode enraizar ou não.2 0. 3) Em um experimento com chocadeira automática são colocados 5 ovos e observado o número de ovos eclodidos. V ar(Y + 1).3. b) a probabilidade de pelo menos 3 ovos eclodirem. 10. Jacques ou James Bernoulli. obter: a) a distribuição de probabilidades da variável aleatória Y = {número de ovos eclodidos} e um gráco que a represente. Exemplos: a) Lançar uma moeda. Pode emprenhar ou não. c) calcular: d) calcular E(4Y ). Suíça e falecido em 16/08/1705). E(Y 2 ) V ar(2Y ) e e a variância de Y. .3 0. também conhecido como Jacob.1 Distribuição de Bernoulli o espaço amostral é composto por apenas dois resultados pos- Nos experimentos de Bernoulli síveis: sucesso (resultado de interesse) ou fracasso (resultado pelo qual não estamos interessados). cuja distribuição de probabilidades é dada por: y 0 1 2 3 4 5 P (y) 0. E(Y + 1).1 0. Jakob Bernoulli (Nascido em 27/12/1654 em Basel. c) Colocar uma estaca em um vaso com terra. pode-se calcular a variância que é: V (Y ) = n [ ]2 ∑ yi − E(Y ) P (Y = yi ) V (Y ) = E(Y 2 ) − [E(Y )]2 i=1 V (Y ) = (0 − p)2 (1 − p) + (1 − p)2 p ou [ ] V (Y ) = 02 × (1 − p) + 12 × p − [p]2 V (Y ) = p2 (1 − p) + p(1 − p)2 V (Y ) = p − p2 V (Y ) = p(1 − p) V (Y ) = p × (1 − p) Portanto.Principais Distribuições de Probabilidades Seja < ①① ①① ① ①① • ❋❋ ❋❋ ❋❋ ❋" Y 155 a variável aleatória número de sucessos e p a probabilidade de ocorrer sucesso. com parâmetro p é dada por: Tabela 10.3). V (Y ) = p(1 − p) E(Y ) = p e Notação: Y ∼ Be(p).2 Distribuição da variável aleatória y P (Y = y) 0 1−p 1 p Total 1 Y de Bernoulli.2.4). Assim. Pode-se calcular a média desta distribuição utilizando-se a Equação (10. Resultados Possíveis Probabilidades y S (Sucesso) p 1 1−p Y com F (F racasso) A distribuição de probabilidade de 0 distribuição de Bernoulli. Função de Probabilidades: A função de probabilidades de uma distribuição de Bernoulli é dada por: .2. Assim: µY = E(Y ) = n ∑ yi P (Y = yi ) i=1 µY = E(Y ) = 0 × (1 − p) + 1 × p µY = E(Y ) = p Da Equação (10. Variáveis aleatórias discretas P (Y = y) = py (1 − p)1−y . . Tem esse nome devido ao cálculo das probabilidades ser feito usando termos da expansão do binômio de Newton. y y = 0. + x y 0 1 2 n ( ) ( ) n n−2 2 n n−3 3 n n−1 1 = x + nx y + x y + x y + .. Notação: Y ∼ Bin(n. .3. b) a probabilidade de sucesso em cada realização é sempre constante e igual a p.156 Capítulo 10.2 Distribuição Binomial É a mais importante das distribuições de probabilidades discretas. 10. . 1. . Então diz-se que a variável aleatória Y = {número de sucessos} nos com parâmetros n e n ensaios tem distribuição binomial p. n. . p). + yn 2 3 = (x + y) em que n ( ) n n! = . c) o número de sucessos observado é um número inteiro entre 0 e n. . p) A função de probabilidades de uma variável é dada por: ( ) n y P (Y = y) = p (1 − p)n−y . k k!(n − k)! Casos particulares do Binômio de Newton são: 1 (x + y) = x + y 2 (x + y) = x2 + 2xy + y 2 3 (x + y) = x3 + 3x2 y + 3xy 2 + y 3 4 (x + y) = x4 + 4x3 y + 6x2 y 2 + 4xy 3 + y 4 Para que a variável aleatória de um experimento tenha distribuição binomial é necessário atender as seguintes condições: a) supor uma série de n realizações independentes (o resultado de um experimento não é afetado pelo resultado dos outros) de Bernoulli. O teorema do binômio de Newton é dado por: (x + y) n = n ( ) ∑ n k=0 k xn−k y k ( ) ( ) ( ) ( ) n n−0 0 n n−1 1 n n−2 2 n n−n n x y + x y + x y + .. Função de Probabilidades: Bin(n. Y com distribuição binomial . y = 0. 1. 3)) A esperança e a variância de uma variável aleatória dadas.05).05 0. pch=16. col=`blue') axis(1.3 Gráco da distribuição Binomial.45.3.5.15 0. cex=1. Considere uma variável aleatória com distribuição binomial uma variável. Para gerar o gráco da distribuição no 4 bastam os seguintes comandos: par(mai=c(. para n = 10 ensaios com probabilidade de sucesso p = 0. . size=10. o estudo de realizações e a probabilidade de sucesso é igual a 30%. lwd=1) box(bty=`l') Se o interesse for apenas nos valores das probabilidades. O gráco desta situação é apresentado na Figura 10. 3).20 0.10 0. Bin(10. prob=0.8.25 Probabilidades 0. db) axis(2. axes=F) points(db. p) são . col="gray".3) ~ db. size=10. dbinom(db. os mesmos podem ser obtidos com: data.2)) plot(dbinom(db.00 0 1 2 3 4 5 6 7 8 9 10 Número de Sucessos Figura 10. type="h". ylab="Probabilidades".2. prob=0. las=1) abline(h=0. 0. cujo número de ensaios será igual a 10 ou seja. 0. 0. .8. main=`'. .3). 30. . bty=`l'. por: Y com distribuição binomial Bin(n. size=10.Principais Distribuições de Probabilidades em que ( ) n n! . respectivamente. seq(0. prob=0.frame(Pr=dbinom(0:10. xlab="Número de Sucessos". p = y y!(n − y)! 157 é a probabilidade de sucesso e (1 − p) é a probabilidade de fracasso. col=`blue'. . Solução: dbinom(2. size=10. type="h". col=`blue'. col=`gray') axis(1. Qual a probabilidade de obter num lote de 10 animais. prob=0. ylab="Probabilidades". at=c(0:10)) Exemplo 2: Uma infecção experimental em camundongos determina morte de 30% dos animais a ela subme- tidos. var(Y) . sd(Y) plot(proba ~ moeda. size=10. prob=0.5) ) require(distrEx) Y = DiscreteDistribution(supp=moeda. las=1.158 Capítulo 10. no máximo 20%? Solução: .5) moeda = 0:10 (proba = dbinom(moeda. xlab="Número de Sucessos". main=`') abline(h=0. Variáveis aleatórias discretas V (Y ) = n p (1 − p) E(Y ) = n p e Exemplo 1: Uma moeda é lançada dez vezes. uma mortalidade de. prob=proba) E(Y) . Qual a probabilidade de se obter duas caras? Determine a esperança e a variância. Principais Distribuições de Probabilidades 159 dbinom(0:10. prob=0.3) Exemplo 3: Você leva sua cadela ao veterinário e descobre através de um exame de ultrasonograa que ela está grávida de 8 lhotes.5) c) Qual é a probabilidade de que existam mais machos do fêmeas? Solução: . . a) Qual é a probabilidade de que exatamente 3 dos lhotes sejam fêmeas? Solução: dbinom(3. size=8. prob=0.5) b) Qual é a probabilidade de que existam um número igual de machos e fêmeas? Solução: dbinom(4. prob=0.3) pbinom(2. 10. size=10. size=8. com distribuição Poisson P oi(λ) é dada por: P (Y = y) = em que λ e−λ λy . . y! y = 0. Siméon-Denis Poisson. para apresentado na Figura 10. Note que os possíveis valores que as variáveis descritas podem assumir são: 0. comprimento.3 Distribuição de Poisson é largamente empregada quando se deseja contar o número de ocor- A distribuição de Poisson rências (sucessos) de um evento de interesse. distância ou área. É também chamada de distribuição dos eventos raros. por ha. de urina. Notação: Y ∼ P oi(λ). 1. Exemplos: a) Número de insetos de uma espécie coletados por armadilha por dia. b) Número de furos em pneus por c) Número de bactérias por ml km rodado. área ou volume. por unidade de tempo. . 1.160 Capítulo 10. é igual ao número médio de ocorrências do evento de interesse por unidade de tempo.5) 10. O gráco gerado pela função de probabilidades de uma distribuição de Poisson.. matemático Francês. Variáveis aleatórias discretas pbinom(3.4. . . 17811840. λ = 4. . e) Número de árvores de uma certa espécie.3. size=8. . d) Número de pacientes que chegam a um pronto atendimento de uma pequena cidade durante a madrugada. é . . O comportamento dessas variáveis pode ser descrito pela chamada Função de Probabilidades: A função de probabilidades de uma variável Y distribuição de Poisson. prob=0. a) Construa o gráco da distribuição. respectivamente. col="black") .8 e a variância foi 3.20 Probabilidades 0. O número médio de ovos por ninho foi 3. line=-1. seq(0.: Para valores de Y maiores que 12.1.15) axis(2. a informação sobre o número de ocorrências em um intervalo nada revela sobre o número de ocorrências em outro intervalo. las=1) abline(h=0. λ = 4. axes=F) points(0:12. A esperança e a variância de uma variável aleatória Y com distribuição Poisson P oi(λ) são dadas. lambda=3. 0. com λ = 4. col=`red') axis(1. Na primavera. pch=19. isto é.8. ele acha que pode ser razoável descrever o número de ovos por ninho como tendo uma distribuição Poisson com média 3. dpois(0:12. bty=`l'.25. cuja média é Obs.00 0 1 2 3 4 5 6 7 8 9 10 11 12 x Figura 10.15 0. type=`h'. as probabilidades tendem a zero. at=c(0:12). plot(0:12. ele procura e encontra 80 ninhos.4 Gráco da distribuição de Poisson. xlab=`Número de Ovos'.8). por: E(Y ) = λ V (Y ) = λ e Exemplo 1: Um pesquisador está interessado no número de ovos depositados por uma espécie de pássaro.8). 0. ylab="Probabilidades".05). las=1. Porque a variância é aproximadamente igual á média.10 0. lambda=3. 2) intervalos de tempo disjuntos são independentes. isto é. dpois(0:12. Os pressupostos básicos para a utilização do modelo são: 1) as condições permanecem estáveis no decorrer do tempo. 0.05 0.Principais Distribuições de Probabilidades 161 0. a taxa média de ocorrências (λ) é constante ao longo do tempo. ppois(5. Variáveis aleatórias discretas b) Se esta realmente representa a distribuição populacional.162 Capítulo 10. 001 de não imunizar um animal.8) sum(dpois(3:6. 3. qual seria a probabilidade de não encontrar ovo num ninho? Solução: dpois(0.8) d) Qual a probabilidade de encontrar de 3 a 6 ovos? Solução: dpois(3:6. qual a probabilidade de não carem imunes: a) três animais. lambda=3. 3. Se forem vacinados cinco mil animais.8) c) Qual seria a probabilidade de encontrar um ninho com mais do que 5 ovos? Solução: 1 . lambda=3. .8)) Exemplo 2: Uma vacina contra a febre aftosa tem probabilidade igual a 0. }.274 6 126 2 1.3. 2.542 7 39 3 1.Principais Distribuições de Probabilidades 163 Solução: dpois(3. . que simplica a especicação de sua distribuição. lambda=5) b) dois animais ou mais. naturalmente.144 8 10 4 663 9 3 Pede-se: a) Especique o modelo de Poisson para esses dados. Solução: Número de consultas . Solução: 1 . .098 consultas. foram realizadas 13. é supor que pode tomar qualquer valor do conjunto {0. de acordo com os dados apresentados na Tabela 10.694 liados. um número nito. Em um plano de saúde com 5. Uma aproximação. Tabela 10. 1.3 Número de consultas realizadas pelos liados ao plano de saúde. . Número de consultas Frequências Frequências 0 589 5 304 1 1. ao m de um ano.ppois(1. lambda=5) Exemplo 3: O número de consultas médicas anuais de um associado de um plano de saúde é. a variável aleatória efeito colateral a um medicamento. Esp)) 10. 4.164 Capítulo 10. O plantel da fazenda é de 10. 1274. lambda=media). 5. 8. 2. 126.000 animais. 3.frame(ncons. 10. 6.3. 1542. n P ois(λ). De acordo com o fabricante do medicamento. 9) Obs = c(589. Solução: (Esp = round(5694*dpois(0:9. 663. a probabilidade de um animal sofrer efeito colateral devido ao medicamento é de 0. lambda=media) 1 .mean(ncons. attach(saude) (media = weighted. 304.ppois(6. Obs)) dpois(0:9. Variáveis aleatórias discretas b) Qual a probabilidade de se ter 7 consultas ou mais? Solução: ncons = c(0. 1. com λ = np é uma boa aproximação à distribuição binomial for bastante grande e de tal forma que np ≤ 7. 39. lambda=media) c) Compare os valores observados com o esperado pelo modelo.0005. p) quando Exemplo: Seja Y p for pequeno.4 Aproximação da Distribuição Binomial pela Distribuição de Poisson A distribuição de Poisson. Obs. 3) (saude = data. bin(n. 1144.frame(ncons. Obs)) . 0)) (compara = data. Calcule: . 7. F S.5 Distribuição Geométrica Destinada ao cálculo de probabilidades de situações em que são feitas sucessivas tentativas independentes de um mesmo experimento aleatório até que apareça o como sucesso e F como fracasso. . . . . inclusive. lambda) c) a probabilidade do número de animais com efeitos colaterais estar entre 3 e 5 animais.Principais Distribuições de Probabilidades 165 a) a probabilidade de nenhum animal sofrer efeito colateral. F F F · · · S. o espaço amostral deste experimento será o conjunto: Ω = {S. se designarmos S n ensaios até que ocorra o primeiro sucesso. Assim.ppois(2. Solução: n = 10000 p = 0. e realizarmos 1º sucesso. . F F S. lambda) . Solução: 1 . . Solução: ppois(5.} . .0005 lambda = n*p dpois(0. lambda) b) a probabilidade de pelo menos um animal sofrer efeito colateral.3. lambda) 10.dpois(0. Variáveis aleatórias discretas Logo. que tem interpretações distintas. com probabilidade de sucesso p. pois pode-se ter sucesso já no primeiro ensaio de Bernoulli. É esta parametrização que é usada como padrão pelo R. . um elemento típico desse espaço amostral é uma sequência de comprimento primeiras n−1 posições temos F. 1. .166 Capítulo 10. A função de probabilidade é dada por: P (X = x) = p × (1 − p)x−1 x = 1.20) . com probabilidade de sucesso p. A probabilidade de se encontrar aberto o sinal de trânsito numa esquina é 0. A distribuição geométrica apresenta duas parametrizações importantes. Uma das parametrizações da função geométrica conta o número de ensaios de Bernoulli necessário para se obter um sucesso. Assim neste tipo de parametrização não é possível se ter o zero. Note que neste tipo de parametrização pode-se incluir o zero como sendo um possível resultado. As principais características são: a) X é o número de ensaios necessários para obter o primeiro sucesso. Qual a probabilidade de que seja necessário passar pelo local 5 vezes para encontrar o sinal aberto pela primeira vez? Solução: dgeom(4. portanto nesta parametrização da geométrica o domínio será o conjunto dos números naturais sem o zero. 20. . . b) as tentativas são sucessivas e independentes. 2. Y ∼ G(p). . A função de probabilidade é dada por: P (Y = y) = p × (1 − p)y Notação: Exemplo: y = 0. A segunda parametrização da geométrica conta o número de falhas até que ocorra o primeiro sucesso. ocorrência de fracassos e na n-ésima n em que nas ocorre o sucesso S. ou seja. . prob=0. b) as tentativas são sucessivas e independentes. a) As principais características são: Y é o número de falhas até obter o primeiro sucesso. 2. 40. A eciência da referida técnica é de o casal obtenha êxito na terceira tentativa? Solução: dgeom(2.Principais Distribuições de Probabilidades Exemplo: 167 Um casal com problemas para engravidar. Qual a probabilidade de que .40) 0. prob=0. recorreu a uma técnica de inseminação articial no intuito de conseguir o primeiro lho. b) qual é o número médio esperado de animais sobreviventes. em 6) Uma urna contém 1 1.000. 00. Seja Y o número de divisores do número sorteado. sem repor a primeira. 10.2 .600. e se esta segunda for a bola 6. 8) Sabe-se que 20% dos animais submetidos a um certo tratamento não sobrevivem.000. Resp: 0. 1 a 6 recebe R$ 1. Resp: 16. 4 0. inteiros positivos. 0. caso −R$ = 230. . 00 1) Uma seguradora paga em caso de acidente de carro e cobra uma taxa de Sabe-se que a probabilidade de que um carro sofra acidente é de por carro segurado? Resp: 3%. 00. Se sair face 1 em um dos dados apenas. Se retirar a bola faça e se sair 1 nos três dados. 0. 00. 4 ou 5 nada recebe. Calcular quanto a pessoa que está jogando espera lucrar. Qual a probabilidade de saírem 8 caras? Calcule a esperança e variância. 6 A A E(Y ) = −R$ 9. A paga para os valores de n a B Se sair face 1 em dois dados apenas. Qual o número médio de pessoas por carro? Se chegam 10 horas de contagem? Resp: R$ 600. Quanto espera a seguradora ganhar E(Y ) = R$100. Resp: e se retirar a bola R$3. 7) Uma moeda é lançada 20 vezes. = 5. 50. em uma jogada. bolas numeradas de bola. 00. c) Calcule a variância e o desvio padrão de X. 30.000 E(Y ) = 3.788854.Variáveis Aleatórias Discretas Procure fazer os cálculos utilizando uma calculadora e depois utilize o R para comprovar os resultados manuais. 00. 2. R$ 30. Calcular o lucro líquido médio de 4. Resp: 3) Seja Y uma variável com distribuição binomial com parâmetros os grácos da distribuição de Y. 10. ganha R$ 80. 7. 10.000 R. 00. 20). 00 e retira aleatoriamente uma pessoas. recebe contrário. 20. Faça o gráco da distribuição usando o R. 21. 00 5) As probabilidades de que haja Y ∼ Bin(n. 00. 3. 1. pessoas em cada carro que vá ao litoral num sábado são. 2) Suponha que um número seja sorteado de 1 a 10. e lança 3 dados. 05. 5. E(Y ) = 2. 0. 3. Resp: carros por hora. 15.168 Capítulo 10. 25 126. nada recebe. O que você nota à medida ganha respectivamente: R$ 1. 20. Variáveis aleatórias discretas Exercícios . irá escolher outra bola. 0. 0. qual o número esperado de pessoas. Uma pessoa paga se retirar as bolas 2. 6. 40. 15 e ou e 5 A A ganha R$ 50.12013. 00. no litoral Utilizando o n? R$ 20. R$ 20. em que se aumenta o valor de 4) Num jogo de dados.500. Resp: 3. Se esse tratamento foi aplicado em 20 animais e se X é o número de não sobreviventes: a) faça o gráco da distribuição. Calcular o número médio de divisores do número sorteado. 6667 e V(X) = 2. 10) Seja X ∼ Bin(10. encontre: a) a probabilidade de que exatamente dois sejam canhotos. 16% dos membros são canhotos.20012 b) ela contenha mais que 4 pessoas imunes? Resp: 0. E(X) = 6. 60% foi do sexo feminino. 2/3). Em uma amostra aleatória de tamanho 10. Resp: 0. Resp: 0. Faça o gráco.2222. Resp: 0. qual a probabilidade de: a) todas as vacinas estarem com validade vencida? Resp: b) no máximo três com validade vencida? Resp: c) existir vacina com validade vencida? Resp: d) uma vacina com validade vencida? Resp: 1. Resp: 0. 11) Sabe-se que 10% das vacinas de um determinado laboratório tem validade vencida. 2. 0 × 10−10 0.98034 d) P (3 < X < 5). Resp: 0.01626 b) P (X ≤ 2). Resp: 0. e) Calcular a P (X ≥ 2). c) Construa a distribuição de probabilidade e faça o gráco. 3874 Qual o número médio de vacinas vencidas? Resp: E(X) = 1 12) Suponha que é sabido que 30% de uma certa população são imunes a alguma doença. casualmente.50805 d) P (1 ≤ X ≤ 4).9308.28555 b) P (X ≥ 2). Resp: 18. 169 Resp: 0. 10 vacinas de uma partida. 9) Em 30 bezerros nascidos.15027. qual é a probabilidade de que: a) ela contenha exatamente 4 pessoas imunes? Resp: 0. Resp: 0.003404 c) P (X ≥ 4). Resp: 0. Calcular: a) P(X=3). 9298 0.49195 c) P (X < 2). Resp: 0. 13) Em uma grande população.4236.Principais Distribuições de Probabilidades d) Calcular a P (2 < X ≤ 4). Se uma amostra aleatória de tamanho 10 é selecionada desta população. Retiram-se. Calcular o valor esperado (esperança) e o desvio padrão esperado.683282.81209 .05690235 e) E(X) e V(X). 6513 0. em média. Variáveis aleatórias discretas 14) Suponha que a probabilidade de recuperação para uma certa doença seja conhecida e igual a 0. encontre a probabilidade que: a) a próxima amostra coletada conterá um ou mais organismos.909498 c) cinco ou mais? Resp: 0.2240 b) nenhuma admissão ao setor de emergências ocorrerá em um dado dia. chegou a conclusão que elas são distribuídas de acordo com a distribuição de Poisson.170 Capítulo 10.782722 d) menos que 3? Resp: 0. um grande número de amostras foram coletados de um tanque. O número médio de organismos por amostra foi encontrado como sendo dois. Resp: 0.01077922 16) Um administrador de hospital. Assumindo o número de organismos tendo uma distribuição de Poisson.4.8647 b) a próxima amostra coletada conterá exatamente três organismos. e o número de organismos em cada amostra foi contado.972886 b) quatro ou mais? Resp: 0. Resp: 0. Resp: 0. qual é a probabilidade que: a) três ou mais se recuperem? Resp: 0.0498 c) ocorram três ou quatro admissões ao setor de emergências em um dado dia.9596 . qual a probabilidade de que uma família de 6 lhos seja constituída por seis crianças do sexo feminino? Resp: 0. que tem estudado as admissões ao setor de emergências diariamente. por um período de alguns anos. Resp: 0.1804 c) Faça o gráco da distribuição. Os registros do hospital revelam que as admissões ao setor de emergências são. 5 bactérias por cm3 de um líquido. Dado que o administrador está correto em assumir uma distribuição de Poisson.3920 17) Em um estudo sobre um certo organismo aquático. durante este período.027114 15) Considerando que a probabilidade de nascer uma criança do sexo feminino é de 47%. Resp: 0. três por dia. em média. Se 15 contraem a doença (assuma como sendo uma amostra aleatória). encontra a probabilidade que: a) exatamente duas admissões ao setor de emergências ocorrerão em um dado dia. Admitindo-se que esta variável tenha distribuição de Poisson: a) qual é o desvio padrão do número de bactérias por cm3 ? Resp: 5 3 b) Encontre a probabilidade de que pelo menos duas bactérias ocorram num volume de líquido de 1cm . 18) Um contador eletrônico de bactérias registra. Resp: 0. 69768 b) a probabilidade de aparecer ao menos uma planta com mutação em 900 plantas irradiadas. usando a distribuição de Poisson como uma aproximação à binomial: a) a probabilidade de não aparecer nenhuma planta com mutação em 900 plantas irradiadas. Resp: 0. ao se observar 1 hectare dessa oresta. entre 2. Qual a probabilidade de que uma página contenha pelo menos 3 erros? Resp: 0.0011 b) mais de dois sofrerem a reação. e p = 0. Resp: 0.Principais Distribuições de Probabilidades 171 19) Se a probabilidade de um indivíduo sofrer uma reação nociva.0012 20) Num livro de 800 páginas há 800 erros de impressão. Suponha que X tem distribuição de Poisson (essa espécie distribui-se aleatoriamente pela região) com média 3 plantas por hectare. Resp: 0. Pede-se: a) Calcular a probabilidade de se encontrar no máximo uma árvore dessa espécie.57681 A esperança é a última que morre.30232 22) Seja X o número de árvores de castanha-jarana (Lecythis lurida) por hectare numa oresta tropical.000 indivíduos: a) exatamente três sofrerem a reação. .080301 21) Seja X a variável aleatória número de plantas com mutação. Resp: 0. mas a primeira a ser calculada". em um total de n plantas irradiadas. Determinar a probabilidade de.0001. Calcular.19915 b) Calcular a probabilidade de se encontrarem 3 ou mais árvores dessa espécie ao se observar 1 hectare dessa oresta. resultante da infecção de um determinado soro é 0. 0004 a probabilidade de uma planta irradiada apresentar mutação. Resp: 0. Resp: 0. ou seja.Capítulo 11 Variáveis aleatórias contínuas Uma variável aleatória contínua pode tomar um número innito de valores. chamada de função densidade de probabilidade. se y>2 172 a e b na . +∞ f (y) dy = 1. tal que: f (y) ≥ 0. eixo Y e pelas retas Y =a e Y = b. Observa-se que: [ ] ∫ P a≤Y ≤b = b f (y)dy. ∀ y ∈ ℜ. (11. 0.). se y ≤ 0. b) a área entre o gráco da função f (y) e o eixo ∫ y é igual a 1. será admitido que [ ] [ ] [ ] [ ] P a<Y <b =P a≤Y <b =P a<Y ≤b =P a≤Y ≤b . Assim. f (y) = ay 3 .1) não afetará os resultados. Da relação entre a probabilidade e a área sob a função.p. a inclusão ou não dos extremos equação (11.1) a corresponde à área limitada pela função f (y). −∞ A função f (y) é chamada função densidade de probabilidade (f.d. Exemplo: Seja uma função f (y) dada por: 0. se 0 < y ≤ 2. se existir uma função f (y). Denição: a) Uma variável aleatória contínua Y é contínua em ℜ. e esse valores podem ser associados a mensurações em uma escala contínua e as probabilidades necessárias ao seu estudo são calculadas como a área abaixo da curva da distribuição. 1 Gráco da função f (y) = 1 3 y . Y = 0.5 1.0 0.5 1. Y.0 X Figura 11. 4 A esperança matemática (ou valor médio) e a variância de uma variável aleatória contínua são dadas.5 0. ∞ 2 E(Y ) = −∞ y 2 f (y)dy . Solução: Se Y = 2. será igual a 1.0 0. por: ∫ µY = E(Y ) = ∞ y f (y)dy −∞ ( ) 2 σY2 = V (Y ) = E Y 2 − [E(Y )] ∫ em que. Obter variável aleatória contínua a de modo que f (y) seja uma função densidade de probabilidade de uma Y. o eixo Y f (y) e a é uma função densidade de probabilidade.0 0. .173 a em que é uma constante. 2.1. mostrada na Figura 11. a área compreendida pelas retas f (y). respectivamente.0 f(x) 1.0 2. se 0 ≤ y ≤ 1. se y > 1. Solução: c) Calcular P (0 < Y < 0. Solução: b) Vericar se f (y) é uma função densidade de probabilidade. 5). Variáveis aleatórias contínuas Seja Y uma variável aleatória contínua com função de probabilidade dada por: 0 f (y) = a) Fazer o gráco de 2y 0 se y < 0.174 Exercício: Capítulo 11. Solução: . Solução: d) Calcular a média e o desvio padrão de Y. f (y). que a desenvolveu no início do século XIX. brilhante matemático e físico alemão. tem-se que: P (a < Y < b) = F (b) − F (a). a redescobriu na mesma época que Gauss.Distribuição Normal Se Y 175 é uma variável aleatória contínua com função densidade de probabilidade sua função de distribuição acumulada F (y) F (y) = P (Y ≤ y) = a e b dene-se a como: ∫ Se f (y) y f (t)dt. 3) Muitos testes e modelos estatísticos têm como pressuposição a normalidade dos dados. isto é. 11. sejam discretas ou contínuas. Entretanto. a mais estudada e mais utilizada é a distribuição normal. A distribuição Normal é também conhecida como distribuição Gaussiana em homenagem a Karl F. As principais razões que fazem a distribuição Normal o modelo mais importante na estatística são: 1) Muitas variáveis biométricas tendem a ter distribuição Normal. que os dados possuem distribuição Normal. A função densidade de probabilidade de uma variável aleatória contínua buição normal. ∞ forem dois números reais quaisquer.1 Introdução Dentre todas as distribuições de probabilidades. mesmo que a variável em si não tenha distribuição Normal. Gauss (1777-1855).1 Distribuição Normal 11. Para evitar uma questão internacional de originalidade o famoso estatístico inglês Karl Pearson passou a chamá-la de distribuição Normal em 1920. é dada por: Y.1. famoso matemático e físico francês. Isto ocorre principalmente quando a variável é inuenciada por um grande número de fatores que atuam de modo independente e aditivo. seguindo uma distri- . 2) A distribuição das médias amostrais de uma variável qualquer tendem a ter distribuição Normal. Abraham de Moivre (1667-1754) foi o primeiro a anunciar a equação da distribuição em 1733 e Pierre-Simon Marquis de Laplace (1749-1827). 1 0.3 f(x) f(x) cujo gráco. Figura 11.0 a 60 80 100 120 b 140 X X Figura 11.3. σ 2 > 0. Variáveis aleatórias contínuas 1 − e 2 1 f (y) = √ 2πσ 2 ( y−µ σ )2 .2 0.4 0.2) em que: µ ∈ R.2.176 Capítulo 11.1.1 0.2 0. que assumem valores em algum subconjunto dos números reais. b] Neste caso.3 Probabilidade entre as áreas a e b.3 0. Para se calcular a probabilidade da variável aleatória Y assumir valores entre a área compreendida entre estes intervalos usando a Equação 11. (11. assume. Assim: ∫ P (a ≤ Y ≤ b) = a b 1 √ 2πσ 2 1 − e 2 ( y−µ σ )2 dy como pode ser observado na Figura 11. supondo-se Y 0. só faz sentido falar na probabilidade da variável que é dada pela área sob a curva e dentro deste intervalo. sendo unimodal e simétrica. é apresentado na Figura 11. Esta distribuição é apropriada para modelar variáveis aleatórias contínuas.2 Propriedades da Distribuição Normal As principais características dessa função são: 1) A função gera um gráco em forma de sino. são os valores que a variável aleatória em estudo µ = 100 e σ 2 = 100.2.0 0.4 0. y é a dispersão da distribuição (variância). 11. pertencer a um certo intervalo [a. a e b basta calcular . para − ∞ < Y < ∞.2 Gráco da Distribuição Normal. é a posição central da distribuição (média). 0. 3% µ+σ µ − 2σ X µ Figura 11.Distribuição Normal 177 2) é denida por dois parâmetros: a média (µ) e o desvio padrão (σ ).6 Figura 11. que a função densidade da normal depende de dois parâmetros. sendo que a média controla a localização do centro da distribuição (é o ponto de simetria). 4) Não possui limite inferior ou superior. elas foram tabeladas. de modo que se as probabilidades fossem tabeladas diretamente a partir dessa função. ± . µ−σ µ 99. isto é. 26 e 42. σ 2 ). 3) O ponto de máximo de f (y) é o ponto Y = µ.4 ±1 µ + 2σ µ − 3σ X µ desvio da média. Então neste exemplo. já o desvio padrão controla a dispersão da curva ao redor da média.7% 95. se a variável aleatória Y representa o peso dos cães e se um cão for selecionado ao acaso então P (µ − 2σ < Y < µ + 2σ) = P (26 < Y < 42) = 0. a dispersão dos dados é controlada pelas unidades de desvio padrão. Neste caso. entretanto.Figura 11. Suponha que os pesos de animais adultos da raça pastor alemão possam ser descritos por uma distribuição normal.5 ±2 µ + 3σ X desvios da média. dada a forma da função densidade. Em termos probabilísticos.7 Áreas sob a curva normal. permitindo-nos obter diretamente o valor da probabilidade desejada. seriam necessárias tabelas de dupla entrada.7. 34 kg e desvio padrão 4 kg . como mostrado na Figura 11. a proporção dos cães têm pesos entre por exemplo. complicando consideravelmente as coisas. Por isso. com média 26 kg e 42 kg . não é um processo muito elementar. 6) Notação: Exemplo: Y ∼ N (µ.4% 68. é a proporção da área sob a curva normal entre cerca de 95% dos cães tem pesos entre 26 e 42 kg . Note-se. Figura 11. 9545 O cálculo direto de probabilidades envolvendo a distribuição normal exige recursos do cálculo avançado e. µ e σ. mesmo assim. 5) Unidades padrões: o desvio padrão dene unidades padrões na distribuição a partir da média. Quanto maior for a média mais deslocada à direita estará a curva. Essa nova variável chama-se variável normal padronizada. xado o desbuição. Os problemas da vida real. com média µY e desvio-padrão antes de passarmos à sua resolução. Devido as diculdades de cálculo e em se construir tabelas da função dependendo de dois parâmetros. ao contrário. a distribuição normal de média zero e variância 1. vio padrão.1 0. recorre-se a uma mudança de variável.0 −5 0 −2 5 0 2 4 6 8 10 x y (a) Relação entre os desvios xada a média da distri. utilizando-se a ideia de espalhamento como interpretação.8(b) ilustra o fato. Se xado o desvio padrão para a distribuição e variando-se as médias.0 0. tem-se um deslocamento da média ao longo do eixo Y.2 Distribuição Normal Padrão Denomina-se distribuição normal padrão.8 0. Variáveis aleatórias contínuas O desvio padrão representa o espalhamento na distribuição. é de se esperar que uma distribuição normal com desvio padrão 2 seja mais espalhada que uma distribuição normal com um desvio padrão 1.2 0. padronizar ou reduzir a variável aleatória normal Y. 11.4 0. 0. entretanto.2 0. são formulados em termos da variável normal original Y.6 Média = 1 Média = 6 0. Figura 11. As probabilidades associadas a distribuição normal reduzida são facilmente obtidas em tabelas.8(a) mostra as curvas com mesma média e desvios variando de 1 2 a 3. A Figura 11. transformando-a na . A Figura 11. é preciso então.8 Relação entre médias e desvios da distribuição normal. ou reduzida. transformando a variável aleatória Y na variável aleatória Z. Assim. não se apresentam já na forma reduzida.(b) Relação entre as médias da distribuição.4 sigma=1/2 sigma=1 sigma=2 sigma=3 0.3 f(x) f(y) 0. σY .178 Capítulo 11. substituindo-se esses valores na equação (11. . σ em que: Z = número de desvios padrões a contar da média. O resultado da padronização é a obtenção de uma escala de distribuição denominada escala reduzida. 68. E(Z) = 0 e variância Esses valores foram obtidos através da aplicação das propriedades do valor esperado e variância.2).9. Z −3 0 3 Z (c) ±3 desvio da média. −2 0 2 (b) ±2 desvio da média. a média da distribuição assume valor V (Z) = 1.7% 95. Z= y−µ . Assim.Distribuição Normal Padrão variável aleatória 179 Z. 2π para − ∞ < Z < ∞. escala Z ou escore Z. que mede o afastamento das variáveis em relação à média em número de desvios-padrão. cujos grácos são apresentados na Figura 11. tem-se a função densidade padrão da distribuição normal: 1 − z2 1 f (z) = √ e 2 .3% −1 0 99. Figura 11.4% 1 Z (a) ±1 desvio da média. µ = média da população. Quando a padronização é utilizada. Logo.9 Áreas sob a curva normal padrão. y = o valor que a variável aleatória assume. σ = desvio padrão populacional. para o item (a).23) e) P(-1. mean = 0.23 < Z < 1.25 < Z < 2. o cálculo ca: pnorm(1.180 Capítulo 11.89 < Z < 0) i) P(0. Usando a tabela da distribuição normal padrão. a variável Normal Padronizada Z pode ser transformada em qualquer variável Normal: Z ≈ N (0.57) g) P(-2.23) d) P(-0. σ 2 ): [ ] Y −µ = E σ 1 × E(Y − µ) = σ 1 = × (µ − µ) σ E(Z) [ V (Z) = = = V Y −µ σ ⇒ E(Z) = 0. R.27) f ) P(-0. 1).92) l) P( Z < 2. obter z tal que: .08) h) P(-1.85 < Z < 1. 1) e usando a tabela da distribuição normal padrão.3 Uso da Tabela da Distribuição Normal Padrão Exemplo 1: Seja Z ∼ N (0. σ 2 ).80) c) P(-1. 11. Assim.58 < Z < 0) j) P(1.93 < Z < -0. De modo inverso. não é necessário especicá-los na função. ] 1 × V (Y − µ) σ2 1 × σ2 σ2 ⇒ V (Z) = 1.57) .05) k) P(Z > -1. 1) ⇒ Y = σZ + µ ⇒ Y ≈ N (µ. cuja sintaxe é Sendo a média igual a 0 e o desvio igual a 1. Variáveis aleatórias contínuas considerando que Y ∼ N (µ. por exemplo. calcular: a) P(0 < Z < 1.22 < Z < -1.52 < Z < 1. basta usar a função acumulada do pnorm(q. 1).23) Para encontrar as probabilidades dos itens do exemplo 1.35) b) P(0 < Z < 1.pnorm(0) Exemplo 2: Sabendo-se que Z ∼ N (0. sd = 1). Notação: Z ∼ N (0. para os itens (a) e (b). não é necessário especicá-los na função. c) P (2 < Y < 5). b) P (4 < Y < 5).43699) qnorm(0. basta usar a função é qnorm(p.97 l) P(Z < z) = 0.Uso da Tabela da Distribuição Normal Padrão 181 a) P(0 < Z < z) = 0. basta usar a função pnorm do R.5 .35314) Exemplo 3: Seja Y ∼ N (4.5 Para encontrar as probabilidades dos itens do exemplo 2. Y tem média igual a µ=3 e variância σ 2 = 16. e) P (Y ≤ 1). 1). por exemplo. cuja sintaxe Sendo a média igual a 0 e o Assim.p = FALSE). o cálculo ca: qnorm(0.07493 e) P(-z < Z < z) = 0.35314 i) P(Z > z) = 0. a variável gráco da distribuição e determine Solução: P (3 < Y < 8). para os itens (a) e (c).82121 b) P(0 < Z < z) = 0. lower. por exemplo. ou seja. 16). Para encontrar as probabilidades dos itens do exemplo 3. 4. 4.30234 c) P(-z < Z < 0) = 0. Determine: a) P (Y ≤ 4). d) P (5 < Y < 7).0. 1) Exemplo 4: Seja Y ∼ N (3.95 k) P(Z < z) = 0.49492 j) P(Z > z) = 0.36693 f ) P(-z < Z < z) = 0. Faça o .475 h) P(Z < z) = 0. Como a média é igual a 4 e o desvio-padrão igual a 1.95254 d) P(-z < Z < 0) = 0. sd = 1. f) P (0 ≤ Y ≤ 2). o cálculo ca: pnorm(4. 4.43699 g) P(Z < z) = 0.pnorm(4. Assim. log.tail = TRUE. mean = 0. desvio igual a 1. 1) pnorm(5. 1) . é necessário especicá-los na função.5 + 0. qnorm do R. Vagas: Aplicação da Distribuição Normal a dados do Vestibular. 75m e desvio padrão σ = 0.6 7.4 Língua Estrangeira 4 0.2 69.509 Língua Port./Literatura 14 2.2 . Assumindo-se que a variável estatura (Y) seja normalmente distribuída.502 4.5 40 80 52.2 Especíca A 16 2. Variáveis aleatórias contínuas Exemplo 5: A estatura média dos alunos da UEL é de µ = 1. 70m e 1.5 40 Especíca B 16 2.814 676.909 55.3 32.397 13.029 611.667 65. 60 Total de Pontos Obtidos: PROVAS 1 3 Classicação: 77 - A/N F PTS TPTS µ σ NP 39 1.2 Conhecimentos Gerais Redação 2 1880.712 592.8 3.6 34. calcule a probabilidade de um aluno aleatoriamente selecionado ter estatura entre 1.013 52. 80m.318 13.319 15. 15m. Solução: Exemplo 6: .013 65.182 Capítulo 11. 3 .2 1.Uso da Tabela da Distribuição Normal Padrão 183 Desempenho do Primeiro e do Último Classicado no Curso Classicação 1 60 Pontuação 2.150.899. 184 Capítulo 11. Variáveis aleatórias contínuas Distribuição Normal p 0 zt Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,00000 0,00399 0,00798 0,01197 0,01595 0,01994 0,02392 0,02790 0,03188 0,03586 0,1 0,03983 0,04380 0,04776 0,05172 0,05567 0,05962 0,06356 0,06749 0,07142 0,07535 0,2 0,07926 0,08317 0,08706 0,09095 0,09483 0,09871 0,10257 0,10642 0,11026 0,11409 0,3 0,11791 0,12172 0,12552 0,12930 0,13307 0,13683 0,14058 0,14431 0,14803 0,15173 0,4 0,15542 0,15910 0,16276 0,16640 0,17003 0,17364 0,17724 0,18082 0,18439 0,18793 0,5 0,19146 0,19497 0,19847 0,20194 0,20540 0,20884 0,21226 0,21566 0,21904 0,22240 0,6 0,22575 0,22907 0,23237 0,23565 0,23891 0,24215 0,24537 0,24857 0,25175 0,25490 0,7 0,25804 0,26115 0,26424 0,26730 0,27035 0,27337 0,27637 0,27935 0,28230 0,28524 0,8 0,28814 0,29103 0,29389 0,29673 0,29955 0,30234 0,30511 0,30785 0,31057 0,31327 0,9 0,31594 0,31859 0,32121 0,32381 0,32639 0,32894 0,33147 0,33398 0,33646 0,33891 1,0 0,34134 0,34375 0,34614 0,34849 0,35083 0,35314 0,35543 0,35769 0,35993 0,36214 1,1 0,36433 0,36650 0,36864 0,37076 0,37286 0,37493 0,37698 0,37900 0,38100 0,38298 1,2 0,38493 0,38686 0,38877 0,39065 0,39251 0,39435 0,39617 0,39796 0,39973 0,40147 1,3 0,40320 0,40490 0,40658 0,40824 0,40988 0,41149 0,41309 0,41466 0,41621 0,41774 1,4 0,41924 0,42073 0,42220 0,42364 0,42507 0,42647 0,42785 0,42922 0,43056 0,43189 1,5 0,43319 0,43448 0,43574 0,43699 0,43822 0,43943 0,44062 0,44179 0,44295 0,44408 1,6 0,44520 0,44630 0,44738 0,44845 0,44950 0,45053 0,45154 0,45254 0,45352 0,45449 1,7 0,45543 0,45637 0,45728 0,45818 0,45907 0,45994 0,46080 0,46164 0,46246 0,46327 1,8 0,46407 0,46485 0,46562 0,46638 0,46712 0,46784 0,46856 0,46926 0,46995 0,47062 1,9 0,47128 0,47193 0,47257 0,47320 0,47381 0,47441 0,47500 0,47558 0,47615 0,47670 2,0 0,47725 0,47778 0,47831 0,47882 0,47932 0,47982 0,48030 0,48077 0,48124 0,48169 2,1 0,48214 0,48257 0,48300 0,48341 0,48382 0,48422 0,48461 0,48500 0,48537 0,48574 2,2 0,48610 0,48645 0,48679 0,48713 0,48745 0,48778 0,48809 0,48840 0,48870 0,48899 2,3 0,48928 0,48956 0,48983 0,49010 0,49036 0,49061 0,49086 0,49111 0,49134 0,49158 2,4 0,49180 0,49202 0,49224 0,49245 0,49266 0,49286 0,49305 0,49324 0,49343 0,49361 2,5 0,49379 0,49396 0,49413 0,49430 0,49446 0,49461 0,49477 0,49492 0,49506 0,49520 2,6 0,49534 0,49547 0,49560 0,49573 0,49585 0,49598 0,49609 0,49621 0,49632 0,49643 2,7 0,49653 0,49664 0,49674 0,49683 0,49693 0,49702 0,49711 0,49720 0,49728 0,49736 2,8 0,49744 0,49752 0,49760 0,49767 0,49774 0,49781 0,49788 0,49795 0,49801 0,49807 2,9 0,49813 0,49819 0,49825 0,49831 0,49836 0,49841 0,49846 0,49851 0,49856 0,49861 3,0 0,49865 0,49869 0,49874 0,49878 0,49882 0,49886 0,49889 0,49893 0,49896 0,49900 3,1 0,49903 0,49906 0,49910 0,49913 0,49916 0,49918 0,49921 0,49924 0,49926 0,49929 3,2 0,49931 0,49934 0,49936 0,49938 0,49940 0,49942 0,49944 0,49946 0,49948 0,49950 3,3 0,49952 0,49953 0,49955 0,49957 0,49958 0,49960 0,49961 0,49962 0,49964 0,49965 3,4 0,49966 0,49968 0,49969 0,49970 0,49971 0,49972 0,49973 0,49974 0,49975 0,49976 3,5 0,49977 0,49978 0,49978 0,49979 0,49980 0,49981 0,49981 0,49982 0,49983 0,49983 3,6 0,49984 0,49985 0,49985 0,49986 0,49986 0,49987 0,49987 0,49988 0,49988 0,49989 3,7 0,49989 0,49990 0,49990 0,49990 0,49991 0,49991 0,49992 0,49992 0,49992 0,49992 3,8 0,49993 0,49993 0,49993 0,49994 0,49994 0,49994 0,49994 0,49995 0,49995 0,49995 3,9 0,49995 0,49995 0,49996 0,49996 0,49996 0,49996 0,49996 0,49996 0,49997 0,49997 Uso da Tabela da Distribuição Normal Padrão 185 Exercícios 1) Suponha que µ = 8; σ 2 = 4, a) Construa o gráco de ou seja, Y ∼ N (8; 4). Y; x <- seq(1.419, 14.581, length.out=100) plot(x, dnorm(x, mean=8, sd=2), xlab=expression(x), ylab=expression(f(x)), type="l", las=1, bty='l') abline(h=0, col="gray") b) Construa o gráco da função acumulada; plot(x, pnorm(x, mean=8, sd=2), xlab=expression(x), ylab=expression(F(x)), type="l", las=1, bty='l') abline(h=0, col="gray") remove(.x) c) Calcule: i) P (Y ≥ 9, 5); Esta probabilidade pode ser calculada usando o R, através do seguindo comando: pnorm(c(9.5), mean=8, sd=2, lower.tail=FALSE); ii) P (6 ≤ Y ≤ 10). Esta probabilidade pode ser calculada usando o R, através do seguindo comando: pnorm(c(10), mean=8, sd=2, lower.tail=TRUE) pnorm(c(6), mean=8, sd=2, lower.tail=TRUE) 2) Em uma população de indivíduos adultos de sexo masculino, a estatura média é de 1, 70 m e desvio padrão 0, 08 m. a) Qual é o intervalo de alturas em que 95% da população está compreendida? qnorm(c(0.025, 0.975), mean=1.7, sd=0.08) b) Na mesma população, qual a probabilidade de um indivíduo ter estatura entre pnorm(c(1.82), mean=1.7, sd=0.08, lower.tail=TRUE) pnorm(c(1.6), mean=1.7, sd=0.08, lower.tail=T) 1, 60 e 1, 82 m? 186 Capítulo 11. Variáveis aleatórias contínuas c) Qual a probabilidade de se encontrar um indivíduo com estatura menor que 1, 58? pnorm(c(1.58), mean=1.7, sd=0.08) 3) Na curva gaussiana padrão obtenha o valor de z0 tal que a área entre a média da curva e z0 seja 0, 40. qnorm(c(.1, .9)) 4) Um teste de aptidão para o exercício de certa prossão exige uma sequência de operações a serem executadas rapidamente uma após outra. Para passar no teste, o candidato deve completá-lo em 80 minutos no máximo. Admita que o tempo para completar o teste seja uma variável aleatória N(90, 400). a) Qual a porcentagem dos candidatos com chances de serem aprovados? pnorm(80, mean=90, sd=20) b) Os melhores 5% receberão um certicado especial. Qual o tempo máximo para fazer jus a tal certicado? qnorm(0.05, mean=90, sd=20) 5) É sabido que, para adultos do sexo masculino, gozando de boa saúde, em uma certa população, a temperatura corporal segue distribuição gaussiana com média de 36,8 graus e desvio-padrão de 0,15 graus. a) Se considerarmos 1.000 dessas pessoas, quantas se esperariam com temperatura entre 36,8 e 37,2 graus? (prob = pnorm(c(37.2), mean=36.8, sd=.15) - pnorm(c(36.8), mean=36.8, sd=.15)) (Esp = 1000*prob) b) Em qual intervalo de temperaturas estão 98% dos adultos masculinos sadios desta população? qnorm(c(0.01, 0.99), mean=36.8, sd=0.15) 6) Um pesquisador deseja criar um padrão para identicar presença de infecção bacteriana (Pseudomonas sp) no trato respiratório através de cultura de escarro. Para isto, coletaram-se dados de pessoas sabidamente sadias e determinou-se o número de colônias encontradas em cada cultura. Foram encontrados os seguintes resultados: 17 22 23 23 23 23 24 24 24 24 24 24 25 25 25 25 25 25 25 26 28 28 29 30 30 31 31 35 35 35 36 40 41 41 41 42 51 54 56 56 56 58 60 68 79 Uso da Tabela da Distribuição Normal Padrão 187 Determine uma faixa de normalidade de 95% para o número de colônias de bactérias no trato respiratório de pessoas sadias, usando o método da curva de Gauss. escarro = c(17, 22, 23, 23, 23, 23, 24, 24, 24, 24, 24, 24, 25, 25, 25, 25, 25, 25, 25, 26, 28, 28, 29, 30, 30, 31, 31, 35, 35, 35, 36, 40, 41, 41, 41, 42, 51, 54, 56, 56, 56, 58, 60, 68, 79) (n = length(escarro)) (média = mean(escarro)) (var.amostra = var(escarro)) (var.pop = ((n-1)/n) * variância) # ou, (var.pop = sum((escarro - mean(escarro))^2) / n) qnorm(c(.025, .975), mean=média, sd=sqrt(var.pop)) 7) As alturas de 10.000 alunos de um colégio têm distribuição aproximadamente normal, com média e desvio-padrão 170 cm 5 cm. a) Qual o número esperado de alunos com altura superior a 165 cm? (prob = pnorm(165, mean=170, sd=5, lower.tail=F)) (Esp = 10000*prob) b) Qual o intervalo simétrico em torno da média que conterá 75% das alturas dos alunos? qnorm(c(0.125, 0.875), mean=170, sd=5) 8) O peso da carcaça de um animal segue uma distribuição N (50kg ; 4kg 2 ). é inferior a um desvio-padrão abaixo da média, ela é vendida a R$ 60, 00, Se o peso de uma carcaça caso contrário, por R$ 80, 00. Qual o preço médio de venda de uma carcaça? (inf = pnorm(48, mean=50, sd=2)) (sup = pnorm(48, mean=50, sd=2, lower.tail=FALSE)) (Esp = inf*60 + sup*80) 9) Mensurações de pesos foram realizadas in vivo em 142 fêmeas de bovinos da raça Nelore. desvio padrão obtidos foram: µ = 390, 19 kg distribuição normal: a) Esquematizar o gráco da distribuição; e σ = 45, 23 kg . A média e Assumindo-se que os pesos seguem uma e = pnorm(390.e = 142*prob.19.23)) (Esp.b = 142*prob. sd=45.05. type="l". col="red". mean=390. mean=390.tail=FALSE)) (Esp.23.c) d) Calcular a proporção esperada animais com pesos acima de 385. ylab="Probabilidade") b) Calcular a proporção esperada de animais com pesos acima de 395 kg . sd=45. sd=12)) (Esp = 120*prob) .c = pnorm(380. mean=390. lwd=2.d = pnorm(385.19.188 Capítulo 11.23)) (Esp.19.d) e) Calcular a proporção esperada de animais com pesos entre 385 e 390 kg . sd=12) .b) c) Calcular a proporção esperada de animais com pesos abaixo de 380. sd=45. lower.19. length = 142) y = dnorm(x.23. mean=390. mean=390. sd=45. (prob.b = pnorm(395. mean=80.23) pnorm(385. mean=80. mean=390. (prob. mean=390. com seis meses de idade.19.23) plot(x.d = 142*prob. bty='l'.17. xlab='Pesos (kg)'. 17 kg .19.tail=FALSE)) (Esp. 500. 0 kg . (prob.19. y.19. lower. Variáveis aleatórias contínuas x = seq(280. mean=390.c = 142*prob. sd=45. lower.e) f ) Se 25% dos animais com menor peso forem abatidos. qual o peso mínimo dos animais remanescentes? qnorm(. apresenta quanto ao peso (em kg): µ = 80kg a) Quantos suínos têm peso entre e σ = 12kg. sd=45.25. µ ± σ? (prob = pnorm(92. sd=45.tail=FALSE) 10) Uma amostra de 120 suínos mestiços. sd=45.23) g) Qual o peso mínimo para um animal estar entre os 5% com maior peso? qnorm(. (prob.23.pnorm(68. V(X) = 256/15 13) Suponha que o peso de animais recém-nascidos (em kg) pode ser considerado uma variável aleatória com a seguinte densidade: 1 1 x+ 10 10 9 −3 f (x) = x+ 40 20 0. . caso contrário. 50kg .6)) (Extras = qnorm(. escolhendo ao acaso um animal.6. da seguinte forma: 20% dos mais leves como pequenos.2. sd=12)) 11) A distribuição dos pesos de coelhos criados numa granja pode muito bem ser representado por uma N (3. . mean=3. E(X) = 32/3 . .2. Quais os limites de peso para cada classicação? (Leves = qnorm(.Uso da Tabela da Distribuição Normal Padrão 189 b) Qual a probabilidade de um suíno escolhido ao acaso pesar entre 72 e 82 kg ? (prob = pnorm(82. mean=80. kx2 f (x) = 0 se 0 ≤ x ≤ 2. sd=0.6)) (Médios = qnorm(c(. mean=80.5. sd=12) .1.5.6). se x<0 ou x > 2. 0. vericar para que valor de probabilidade. os 30% seguintes como grandes e os 10% restantes como extras. mean=3. mean=80. sd=0.6. Calcular a E(X) e K pode ser considerada uma função densidade de V (X). 36kg 2 . se 2 < x ≤ 6. k = 8/3 . sd=12)) c) Qual a probabilidade de um suíno pesar entre 92 e 104 kg ? (prob = pnorm(104.9). mean=3. se 0 ≤ x ≤ 2. os 40% seguintes como médios.pnorm(72. lower.tail=FALSE)) 12) Dada a função abaixo.000 coelhos dessa granja e os classicará de acordo com o peso.pnorm(92. Qual a probabilidade de. sd=0. sd=12) . mean=80. Um abatedouro comprará 10. ele ter peso: a) inferior a 3 kg . mean=3.5.6)) (Grandes = qnorm(c(. sd=0.5. 6625 b) entre 1 e 4 kg . p = 0. . nunca tem medo e nunca se arrepende.25 Aprender é a única coisa que a mente nunca se cansa.190 Capítulo 11. Leonardo da Vinci. Variáveis aleatórias contínuas p = 0. 15.15. e 1.65 1 y−1.15)) Nessa situação (parâmetros populacionais conhecidos).72. Raramente se consegue obter a distribuição exata de alguma variável.75). sd=0. −∞ < Y < +∞ σ 2π ∫ ∴ 1. lower. respectivamente. 0225 m2 . lower. ter altura entre 1. Na prática. mean=1.65.pnorm(1. A solução é trabalhar com amostra.72. Exemplo: Suponha que a distribuição das estaturas dos alunos da UEL possa ser representada por um modelo gaussiano e que os parâmetros populacionais.65. 15 2π pnorm(1.15 ) dy = 0.tail=T) . 191 . mean=1. mas não dos valores exatos dos parâmetros que a especicam. média e variância. 2589 0. mean=1.72 2 1 √ e− 2 ( 0. 75 m? Qual a probabilidade de um aluno. analisá-la e inferir propriedades para a população.tail=T) # ou diff(pnorm(c(1. fossem conhecidos e iguais. 75) = 1.Capítulo 12 Introdução à inferência estatística O objetivo da inferência estatística é estudar uma determinada população baseando-se em informações obtidas através da amostra coletada. frequentemente o pesquisador tem alguma idéia sobre a forma da distribuição. 65 ≤ Y ≤ 1. a 1. sd=0.75 P (1. aleatoriamente selecionado. não haveria necessidade de usar a inferência estatística.72. então tem-se que a função densidade de probabilidade é dada por: f (y) = 1 y−µ 2 1 √ e− 2 ( σ ) . sd=0. ou muito demorado ou às vezes porque consiste num processo destrutivo. 1. 65 m Se os dados seguem uma distribuição normal.75. 72 m e 0. ou por que isso é muito dispendioso. Os modelos probabilísticos procuram medir a variabilidade de fenômenos casuais de acordo com as ocorrências. 3. a) Obter a distribuição de Y. . 5. a estimativa. Assim. tem-se: Parâmetro Estatística µ y¯ σ2 s2 Desvio padrão σ s Proporção π p Média Variância Considere: Y¯ = n ∑ yi i=1 n em que que: Y¯ é chamado estimador e y¯ = 1. 73 m é. Seja Y a variável aleatória valor assumido por um elemento sorteado ao acaso dessa população. Introdução à inferência estatística Já se discutiu a diferença entre estatísticas (amostragem) e parâmetros (população).1 Distribuição Amostral da Média Considere a seguinte população: 1. 12.192 Capítulo 12. 7. por exemplo. 5. y P(Y=y) 1 1/5 3 1/5 Total b) Calcular a média µY = E(Y ) e a variância 1 [ ]2 σ 2 = E(Y 2 ) − E(Y ) . Seja Y1 a variável aleatória número selecionado na Y1 + Y2 Y¯ = 2 Amostra Y1 + Y2 Y¯ = 2 Probabilidade 1/25 (5.5) 1/25 (7.5) 1/25 (5. 2 (média).7) 1/25 (5. extração e extração. dessa população.7) 1/25 (5.1) 1/25 (3.1) 1/25 (1.1) 1/25 (5.1) 1/25 (7.5) 1/25 (5. Se fosse de tamanho 3.5) 1/25 (1. teríamos: no caso de amostras com reposição.1) O número de amostras de tamanho 2 possíveis da população é: a a 52 = 25.3) 1/25 (5.Distribuição Amostral da Média 193 Solução: c) Considerar todas as possíveis amostras de tamanho variável aleatória número selecionado na a 1 n = 2.7) 1/25 (3.3) 1/25 (3.5) 1/25 (7.5) 1/25 (3.3) 1/25 (7.3) 1/25 (1. E se fosse sem reposição? . Obter a distribuição amostral da estatística Amostra Y1 + Y2 Y¯ = 2 Probabilidade Y2 .7) 1/25 53 = 125.5) 1/25 (5.3) 1/25 (5.7) 1/25 (7. (1.5) 1/25 (3.5) 1/25 (1. com reposição.5) 1/25 (5. 20 Y¯ 0. . ylab="Probabilidades") points(y. bty="l". Solução: y = 1:7 probab=c(1.2. 6.10 4 0. var(Y) . Introdução à inferência estatística 0. . sd(Y) par(mai=c(1.194 Capítulo 12. pch=19.05 1/25 7 0.1 Distribuição das Médias P (Y¯ = y¯) 1 1/25 2 2/25 Probabilidades 0. las=1.00 Total 1 1 2 3 4 Médias Calcular a média µY¯ = E(Y¯ ) e a variância [ ]2 σY2¯ = E(Y¯ 2 ) − E(Y¯ ) . prob.25 Tabela 12. 1. 4. 1)/25 require(distrEx) Y = DiscreteDistribution(supp=y. 6. type="h". col="blue") 5 6 7 . 5. xlab="Médias". prob=probab) E(Y) . 2. col="blue".15 0.5)) plot(probab~y. function (x.uel.rep(x.table('http://www.2 <.tila = sample(Peso. uma amostra usando os seguintes comandos: popul = c(1.3 <. ncol=n) z[. por default. replace=F)) Para efetuar os procedimentos realizados de forma direta no R. 5. times=N^(n-1)) } z } amostras. 5. dada por: var. é necessário a construção de uma função.pop = var(popul)*(n-1)/n) Assim. 2) .Distribuição Amostral da Média Para se retirar uma amostra de tamanho Para o exemplo dado. pode-se determinar as médias das amostras e a variância populacional aplicando-se: .pop <. 2. encontrada no material da Fiocruz.1] <. 20. N. each=N^(n-2)) if(n==3) { z[.ou. 5.rep(x. 3. pode-se retirar 195 n de uma população de tamanho N. Dada por: permuta2.function(x) { Var = sum((x-mean(x))^2)/length(x) } (var.pop(popul)) # ou.3] <.3(popul. 7) (amostra = sample(popul.permuta2. times=N^(n-2). basta usar o R. nrow=N^n. each=N^(n-1)) z[. head=T) attach(tilapia) (amostra. calcula a variância e o desvio padrão da amostra.br/pessoal/silvano/Dados/Tilapia. replace=T)) # ou tilapia = read.txt'.ou.rep(x.2] <. amostras.matrix(0. n) { if (n!=2 && n!=3) stop("Esta função é para obter permutações 2 a 2 ou 3 a 3 apenas") z <. que execute as tarefas. simplesmente: n = length(popul) (var. Para se determinar a variância de uma população é necessário denir uma função para efetuar tal cálculo.2 O R. . ou seja. Corolário: e σ 2 . então Y¯ ( ) σ2 µ. n terá distribuição exata (12. . Esse resultado. Yn ). mean). nclass =16) . Teorema: Para amostras aleatórias simples (Y1 . é conhecido como Teorema Central do Limite. . . independentemente da forma da distribuição da população. Yn ). Introdução à inferência estatística (medias. . . para n µ e grande. . 1). reps = 10000. σ √ n µ (12. . . . e (Y1 .2) signica aproximadamente distribuído.pop(medias. então: n Se Z= em que a ∼ e = Y¯ − µ R Y¯ − µ a ∼ N (0. a distribuição amostral de Y¯ aproxima-se cada vez mais de uma distribuição normal. Y2 . . Usando o no amostra aleatória simples de uma população qualquer. . Os comandos são: require(TeachingDemos) clt.2) cbind(table(medias.round(apply(amostras. e seja (Y1 .196 Capítulo 12. Y¯ ∼ N Se a população for normal. . fundamental na teoria da Inferência Estatística.2)) (var. Y2 . com média R é possível gerar amostras da população para comprovar o Teorema. Y2 . . de uma distribuição normal. isto é.2 <. é chamado erro amostral da média. 1. Yn ) uma amostra Então: σ2 . . Yn ) for uma 1 Y¯ = (Y1 .examp(n = 50.2. 2)) table(medias. retiradas de uma população com média σ2 . µ e variância σ2 . Y2 . σY2¯ = V (Y¯ ) = n µY¯ = E(Y¯ ) = µ Quando o tamanho da amostra aumenta.1) normal. . Aceita-se que para amostras com mais de 30 observações a aproximação à normal já pode ser considerada boa. A diferença entre a estatística Y¯ e o parâmetro µ.2)) Teorema: Seja Y uma variável aleatória com média aleatória simples de Y. . variância com média µ a distribuição amostral da média 2 e variância σ n Y¯ aproxima-se. . 01 m2 . 8 mm. 05? . Suponha que numa população de camarões µ = 27. para serem considerados adultos. camarões. 3 mm n = 35 e o desvio padrão é σ = 7. Qual a probabilidade da média do comprimento dessa amostra estar entre 1. a m de que P rob(Y¯ ≤ 22) = 0. Uma amostra de dez animais foi sorteada aleatoriamente. obtenha-se uma média Y¯ < 22 mm? Solução: b) Qual deve ser o valor para a média do comprimento total. Solução: µ. 69 m? Solução: Exemplo 2: Os camarões machos da espécie Farfantepenaeus paulensis.Distribuição Amostral da Média Exemplo 1: média 197 Suponha que os comprimentos de jacarés adultos de uma certa raça siga o modelo normal com µ = 1. 69 m e variância igual a 0. 63 e 1. devem apresentar um comprimento total maior ou igual a machos adultos a média dos comprimentos seja igual a a) Qual a probabilidade de que numa amostra de 22 mm. p.72 1. A população pode ser denida como uma variável Y = sendo P (Y = 1) = π Y tal que: 1. Y10 também são 0 ou 1 dependendo do valor assumido Xi . uma vez que elas assumem o valor As quantidades Y1 . a proporção das unidades de uma população que possuem uma determinada característica (proporção de sucessos). a proporção π de jacarés adultos será estimada pela proporção de comprimentos maiores que 1. c) observar os eleitores do candidato A. Y2 . e Alguns exemplos são: a) observar as capivaras machos.2 Distribuição Amostral da Proporção Considere o que 1.77 1. Introdução à inferência estatística 12. 69 m encontrada na amostra. 5 10 10 de todos os jacarés são considerados adultos. · · · . variáveis aleatórias.64 1. A estimativa obtida foi: p= indicando que Denição: 50% Seja π Y1 + Y2 + · · · + Y10 0 + 0 + 1 + ··· + 1 = = 0.75 1. 69 m. então.58 1. Yi será 1 para jacarés adultos e 0 1. 0. se o elemento da população não tem a característica.198 Capítulo 12. Seja Yi exemplo 1 em que os jacarés serão considerados adultos se o comprimento for maior o comprimento do i-ésimo jacaré escolhido. se Xi > 1.68 1. tal que: Yi = Logo. Se amostras aleatórias de tamanho a distribuição amostral de p n forem tomadas de uma população com proporção π . tem as seguintes propriedades: . 69 m 0. 69 m para jacarés jovens. que também é uma variável aleatória. d) observar as pessoas que se sentem mal após tomar uma vacina.74 Yi 0 0 1 1 0 0 1 0 1 1 Portanto.70 1.69 1. P (Y = 0) = 1 − π.63 1. se Xi ≤ 1. b) observar as árvores com cancro numa oresta de eucalipto. se o elemento da população tem a característica. Considere os seguintes dados: i 1 2 3 4 5 6 7 8 9 10 Xi 1. p terá distribuição aproximadamente normal: [ ] π(1 − π) a p ∼ N π. n estimativa Logo. obtendo-se 8 portadores da doença. determina-se p= y . qual é a probabilidade da proporção de imunizados na amostra ser inferior à 0. n em que a ∼ π. Retira-se uma amostra de 400 pessoas. Determine a proporção estimada de pessoas portadoras da doença e o desvio padrão. para n sucientemente grande (n > 30). Uma amostra de 25 indivíduos que tomaram a vacina foi sorteada e testes foram feitos para vericar a imunização ou não desses indivíduos. 85? . 3) Se a população original tem uma distribuição qualquer. 1) signica aproximadamente distribuído. o desvio padrão da proporção amostral decresce. 75? E superior à 0. Se o fabricante estiver correto. . Solução: Exemplo 2: Um fabricante arma que sua vacina contra gripe imuniza 80% dos casos. √ σp = Exemplo 1: p(1 − p) . n ( n ) √ ∑ Yi π(1 − π) π(1 − π) V ar(p) = σp2 = V ar = =⇒ σp = . n Deseja-se saber qual a proporção de pessoas da população portadoras de determinada doença. p−π z=√ π(1−π) n ∼ N (0.Distribuição Amostral da Proporção ( 1) E(p) = µp = E n ∑ Yi 199 ) = π =⇒ p é um estimador sem viés de π . Quando de ⇒ π é desconhecida e a amostra com reposição é grande. n n n i=1 i=1 2) Se o tamanho da amostra cresce. Introdução à inferência estatística .200 Solução: Capítulo 12.