MAT027_Apostila1.pdf

UNIVERSIDADE FEDERAL DA BAHIAINSTITUTO DE MATEMÁTICA - DEPARTAMENTO DE ESTATÍSTICA MAT 027 - ESTATISTICA IV A P O S T I L A 1: E S T A T I S T I C A D E S C R I T I V A 1 PREFÁCIO Prefácio à primeria versão A atual estrutura complexa de nossa sociedade introduziu a necessidade de um estudo cada vez mais detalhado acerca das informações disponíveis. Assim, todos os cursos da Universidade têm, em algum momento, necessidade de fazer uso da Estatística, como metodologia, dado o caráter quantitativo de grande parte das pesquisas realizadas. Assim, em alguma fase de seu trabalho, o pesquisador se vê às voltas com o problema de analisar e entender uma massa de dados, relevante ao seu particular objeto de estudos. Se forem informações sobre uma amostra ou população, ele necessitará resumir os dados para que estes sejam informativos, ou para compará-los com outros resultados, ou ainda para julgar sua adequação a alguma teoria. Segundo BERQUÓ et alii (1981), o papel da Estatística na pesquisa científica está em contribuir junto ao investigador: na formulação das hipóteses científicas e fixação das regras de decisão; no fornecimento de técnicas para um eficiente delineamento de pesquisa; na coleta, tabulação e análise dos dados empíricos (estatística descritiva) e em prover testes de hipóteses a serem realizados de tal modo que a incerteza da inferência indutiva possa ser expressa em um nível probabilístico pré-fixado (estatística indutiva). Este curso de estatística de apenas um semestre objetiva primordialmente que o aluno conheça a linguagem (”jargão” da estatística) e as palavras-chave para poder trocar idéias e/ou consultar um estatístico, bem como que o aluno tenha o mínimo conhecimento técnico para realização de uma futura análise, fornecendo com certa segurança as interpretações dos dados. Além disso, esse conhecimento permitirá uma leitura mais crítica de artigos de sua área de interesse. Esperamos que, apesar da abordagem ampla e superficial, este curso possa contribuir para a formação dos futuros licenciados e bacharéis no que tange à metodologia estatística. Leila Denise Alves Ferreira em 2001. Prefácio à segunda versão Esta nova versão da apostila do curso Estatística IV, uma disciplina ministrada essencialmente aos alunos de graduação da área de saúde na UFBa, reapresenta o material inicialmente proposto pela professora Leila, agora com algumas correções que se fizeram necessárias a partir das experiências vividas pelos professores que a utilizou nesses 4 últimos semestres. Fundamentalmente, as diferenças entre as duas versões dizem respeito a algumas falhas de impressão, detectadas principalmente em algumas fórmulas, além das figuras que receberam nova definição visual. A versão on line, agora apresentada no formato ’pdf’, pode ser ”baixada” a partir do endereço: www.est.ufba.br/mat027. O curso está dividido em três módulos: Estatística Descritiva, Probabilidade e Inferência, cujo objetivo é proporcionar ao aluno o conhecimento básico de Estatística para uso em situações relacionadas com o seu campo de estudo. Maristela D. de Oliveira e Angelo Marcio O. Sant’anna em 2002. 2 1 Introdução A palavra estatística deriva da expressão status, em latim, e significa o ”estudo do estado”. Foi pensada pelos ingleses, no século XVI, como uma ciência política, destinada a descrever características de um estado ou país, tais como população, área, riqueza e recursos naturais (Laurenti et al. 1985), envolvendo compilações de dados e gráficos. Em 1662, John Graunt publicou informes estatísticos sobre nascimentos e mortes. A partir daí deuse início ao desenvolvimento da probabilidade e estatística, sobretudo a partir do século XVII, com o estudo das grandes epidemias que assolavam o mundo, dando ensejo ao desenvolvimento da demografia. Em cada século seguinte mais e mais áreas foram se incorporando ao conjunto das que faziam uso da estatística. Na última década, com a grande revolução da informática, houve um avanço significativo das áreas de probabilidade e estatística, com o desenvolvimento de softwares mais poderosos, deixando à disposição do pesquisador muitas ferramentas alternativas ao seu trabalho (BOTTER, et alii, 1996) Hoje em dia a maior parte das decisões tomadas em quase todas as áreas de atividade humana moderna (por exemplo, avaliação de novos tratamentos médicos e de novos terminais de atendimento bancário, do planejamento de pesquisas científicas, de estratégias de marketing e investimento, para citar algumas) têm suas bases na estatística - definida, a grosso modo, como a coleta, análise e interpretação de dados, ou de forma mais ampla, como a ”ciência da tomada de decisão perante incertezas”. Como já foi dito anteriormente, a Estatística engloba um grande leque de ferramentas de análise. Com finalidade didática iremos dividir a estatística em dois grandes grupos: a) Estatística Descritiva: Por conta da quantidade de dados geralmente ser tão grande, é extremamente difícil captar intuitivamente as informações que os dados contêm. É necessário, portanto, que as informações sejam reduzidas até o ponto em que se possa interpretá-las mais claramente. A estatística descritiva vai resumi-las através do uso de certas medidas-síntese, que tornem possível a interpretação de resultados. No sentido mais amplo, suas funções são: • coleta de dados; • organização e classificação destes dados; • apresentação através de gráficos e tabelas; • cálculo de coeficientes (estatísticos), que permitem descrever resumidamente os fenômenos. b) Indutiva ou Inferência Estatística : Consiste em obter e generalizar conclusões; ou seja, inferir propriedades para o todo com base na parte, no particular. É tratada através de técnicas e métodos que se fundamentam na Teoria das Probabilidades. • Em estatística utilizaremos extensivamente os termos população e amostra. Assim, definiremos esses termos no contexto da estatística: • População: conjunto da totalidade dos elementos (valores, pessoas, medidas) a serem estudados. Congrega todas as observações que sejam relevantes para o estudo de uma ou mais características dos indivíduos. Podem ser tanto seres animados ou inanimados. • Amostra: um subconjunto de elementos extraídos de uma população. • Censo: é uma coleção de dados relativos a todos os elementos de uma população. O esquema a seguir tenta sintetizar, com um exemplo, as etapas de uma pesquisa estatística: 3 Levantamento de outros trabalhos realizados no mesmo campo e análogos. Apresentação dos Dados: há duas formas de apresentação: 4 . em especial. o delineamento da amostra (se necessária). qualquer que seja a modalidade de coleta de dados. através de sua contagem e agrupamento. Definição do Problema: formulação completa do problema a ser estudado. a forma como serão escolhidos os dados. exame das informações disponíveis. tornando impossível a tarefa de apreender todo o seu significado pela simples leitura.1 FASES DO TRABALHO ESTATÍSTICO A estatística está envolvida em todas as etapas de um projeto de pesquisa. Outros elementos importantes a serem pré-estabelecidos desta fase são: o cronograma das atividades (fixação de prazo para as várias fases). A seguir as fases de um trabalho cientifíco são citadas do ponto de vista do trabalho estatístico. e são as principais fases as seguintes: 1. uma vez que parte da informação de que se necessita pode ser encontrado nestes últimos. elaboração do questionário. Crítica dos questionários: leitura dos questionários. 4. 3. 5. reunião e registro sistemático de dados. Planejamento: determinação do procedimento necessário para resolver o problema e. É um trabalho de condensação e de tabulação dos dados. 6. com um objetivo determinado. que é realizada em computadores. como levantar informações sobre o assunto objeto de estudo. os custos envolvidos. que chegam ao analista de forma desorganizada. Além dos registros feitos pelo próprio pesquisador. Preocupação com a formulação correta das perguntas. erradas. pode-se recorrer a fontes externas de dados. observação de respostas incompletas. Coleta de dados (quesitos específicos para obter informações desejadas): refere-se à obtenção.População Amostra Tratamento de dados Inferência estatística Estatística descritiva Teoria das probabilidades 2 ESTATÍSTICA DESCRITIVA 2. 2. que pode ser censitário ou por amostragem. Apuração dos dados: consiste em resumir os dados. Nos dias atuais esta apuração tornou-se sinônimo de organização de base de dados. Supressão de valores estranhos ao levantamento. É nesta fase que será escolhido o tipo de levantamento a ser utilizado. As fases do trabalho estatístico são do âmbito da Estatística Descritiva. As variáveis qualitativas podem ser classicadas. que representam contagens ou medidas. Geralmente. e em um só local. De acordo com a estrutura numérica as variáveis podem ser classificadas em: • Quantitativas . rótulos ou categorias. 7.caracteriza-se por dados que consistem apenas em nomes. 5 . por sua vez. em uma grande empresa. Peso. Análise e Interpretação dos Dados: O interesse maior consiste em tirar conclusões que auxiliem o pesquisador a resolver seu problema. o número de empregados dispensados. Os dados não podem ser dispostos segundo um esquema ordenado. o conjunto de dados a ser analisado pode ser expresso por números-resumos. o rendimento das famílias em uma grande cidade. temperatura máxima diária. Discreta . de modo a se obter uma visão global mais rápida daquilo que se pretende analisar. Estado civil. As tabelas têm a vantagem de conseguir expor.2 CLASSIFICAÇÃO DE VARIÁVEIS Definiremos variável como qualquer atributo/característica que exerça influência no fenômeno estudado.se os resultados das observações serão expressos sempre através de números. Ex: Nível de escolaridade. • Qualitativas . os resultados sobre determinado assunto. Em relação às variáveis quantitativas. Cor da pele. Por exemplo. razão pela qual seus valores são expressos através de números inteiros não-negativos. número de mortos em um surto de determinada doença.pode assumir qualquer valor pertencente a um determinado intervalo do conjunto dos Reais. O significado exato de cada um desses valores será explicado posteriormente. a estatura ou peso dos indivíduos. Assim. em: 1. Ordinal . Ex: Estado civil 2. Ex: Idade. seus valores são resultados de um processo de contagem. Ex: Estatura e peso de atletas de um time de voley. Pode-se dizer que a variável contínua resulta normalmente de mensurações. por mês. 2. Contínua . que evidenciam características particulares desse conjunto. Altura. Antes da escolha da análise descritiva apropriada é necessária a classificação da variável de interesse. a distribuição dos alunos por sexo. no sentido de permitir uma visão rápida. desejamos registrar a idade das pessoas ao morrer. que se distinguem por alguma característica não-numérica. É de extrema importância. Ex: Sexo. População.(a) Apresentação Tabular: apresentação numérica dos dados. cuja finalidade principal é descrever o fenômeno. Ex: Número de alunos presentes às aulas de determinado professor. estas podem ser classificadas em: 1.se os resultados das observações serão expressos através de categorias. (b) Apresentação Gráfica: constitui uma apresentação geométrica. as estatísticas. Número de nascidos vivos. etc. Nominal . mas as diferenças entre os valores dos dados não podem ser determinadas ou não tem sentido.só pode assumir valores pertencentes a um conjunto finito ou enumerável. Nível de escolaridade. Tipo sanguíneo. sinteticamente.envolve dados que podem ser dispostos em alguma ordem. A analise dos dados estatísticos está ligada essencialmente ao cálculo de medidas. pois a adequação da técnica está diretamente relacionada ao tipo de variável em questão. fácil e clara do fenômeno e sua variação. 2. onde se tem a frequência com que a categoria aparece. de 26 de outubro de 1966.são colocadas abaixo da fonte. de modo a prescindir.também colocadas no rodapé (se necessárias).3 TIPOS DE SÉRIES ESTATÍSTICAS Série estatística é uma sucessão de dados estatísticos que medem a intensidade do fenômeno. Os elementos essenciais são: • Título . • Notas . É colocado no rodapé da tabela. Deve ser claro e conciso. há a necessidade de os dados e os resultados obtidos a partir daqueles serem dispostos de uma forma ordenada e resumida. • Cabeçalho . Uma tabela deve ser auto-suficiente. deve ter significado próprio. o ano.É aquela série que apresenta como elemento ou caráter variável o fato(ou espécie). onde se especifica o conteúdo de cada coluna.é a parte superior da tabela. etc. o mês.4. o século. em determinado ano. São elas: • Série Histórica .1 APRESENTAÇÃO DOS DADOS ELABORAÇÃO DE TABELAS Após a apuração. Ex: : Taxa de mortalidade infantil nos últimos 10 anos na cidade do Salvador-Ba. Classificação da população brasileira segundo as Unidades da Federação e o sexo. do Conselho Nacional de Estatística. segundo os Estados produtores. É colocado na parte superior da tabela. 6 .É o conjunto de colunas e linhas onde se encontram as informações numéricas sobre o fato observado.refere-se às séries que são combinações de outros tipos de séries já estudadas. local e o fato. de consultas ao texto. Deve conter a designação do fato observado.É aquela que apresenta como elemento variável somente o local (fator geográfico).é a parte da tabela em que se especifica o conteúdo de cada linha. como o dia. A elaboração de tabelas obedece à Resolução no 886. • Os elementos complementares são: • Fonte .É aquela em que o elemento que serve como base de classificação é a fração do tempo.é a indicação da entidade responsável pelo fornecimento ou elaboração dos dados. • Chamadas . classificados segundo o tipo sanguíneo. isto é. a fim de auxiliar o pesquisador na análise e facilitar a compreensão das conclusões apresentadas ao leitor. permanecendo fixos a época e o local. Os dados e os resultados são então apresentados na forma de tabelas. em 1996. As séries estatísticas serão classificadas de acordo com a variação de três elementos: tempo. quando isolada.. Contém informações gerais destinadas a conceituar ou esclarecer o conteúdo das tabelas. 2. Ex: A produção de cereais no Brasil.4 2. o local e a época em que foi registrado. • Coluna indicadora .É obrigatório. se necessárias. Ex: Os alunos de uma Faculdade. Casa. segundo suas características qualitativas ou quantitativas.2.é o cruzamento de cada linha com uma coluna. • Série Específica . colunas ou linhas. • Série Geográfica . Uma tabela possui elementos essenciais e complementares. célula ou cela . Servem para esclarecer minúncias em relação às casas. • Corpo da tabela . • Série Mista . 24 .34 .31 . específicos para dados agrupados em classes. Ela torna possível visualizar.22 .31 . emprega-se alguns dos sinais convencionais. quanto ao número de casas decimais.24 .É a diferença entre o maior e o menor valor observado da variável em estudo.21 . Deverá ser mantida a uniformidade.34 . Dados Brutos . Ex: Utilizando os mesmos dados anteriores: A = 36 . A definição de alguns conceitos será importante para o uso da linguagem apropriada ao elaborarmos e analisarmos as distribuições de frequências. Frequência absoluta simples (fi ) .31 . Ex: Utilizando os mesmos dados anteriores: 21 .25 .26 .36 .: 1. uma vez que os valores extremos são percebidos de imediato.23 . Mesmo uma informação tão simples como a de saber os valores mínimos e máximo requer um certo exame dos dados coletados. 4.25 . 3. 2.34 . Na ausência de um dado numérico.21 .22 .21 . os valores estão dispostos de forma desordenada. conforme a ordem do aparecimento.25 . Amplitude total ou ”range” (A) .33 .28 .33 33 .23 .21 .36 Apresenta vantagens concretas em relação aos dados brutos.22 . as variações dos dados. Os totais e subtotais devem ser destacados. Nenhuma casa da tabela deve ficar em branco. estas devem ser numeradas em ordem crescente. Em razão disso.31 Como pode ser observado. A seguir definiremos 5 primeiros.25 .22 . 4. 2.33 . a análise com este tipo de disposição começa a se complicar quando o número de observações tende a crescer.23 .É o conjunto dos dados numéricos obtidos após a coleta dos dados.35 . no ano de 1993.21 . As tabelas devem ser fechadas no alto e embaixo por linhas horizontais. Agora os dados referentes ao fenômeno são apresentados através de gradações. (Veja explicação em sala de aula com seu professor). pouca informação se consegue obter inspecionando-se os dados anotados.28 .21 = 15. nas quais todos os elementos são fixos.30 .26 .35 . onde é feita a correspondência entre categorias ou valores possíveis e as frequências respectivas. 5.34 . No total. Em publicações que compreendem muitas tabelas. Rol .26 . de forma bem ampla.25 . Ex: Idade dos alunos do curso de medicina veterinária da UFBA. não sendo fechadas à direita ou à esquerda por linhas verticais. Mas.32 .25 .33 . e mais adiante apresentaremos os 4 últimos.25 26 .33 . etc.É o número de vezes que o elemento aparece na amostra ou o número de elementos pertencentes a uma classe.25 .24 .2 DISTRIBUIÇÃO DE FREQUÊNCIA As distribuições de frequências constituem-se num caso particular das séries estatísticas. 2. 3.26 . É facultativo o emprego de traços verticais para a separação de colunas no corpo da tabela.4.É o arranjo dos dados brutos em uma determinada ordem crescente ou decrescente. válidos para quaiquer distribuição de freqüências.31 .31 -32 .34 . reticências.26 . 7 .30 .Algumas observações fazem-se importantes na elaboração de uma tabela. São elas: 1. são 9 conceitos a serem apresentados.35 . como hífen.23 .35 . a tabela a seguir representa a distribuição de frequências de dados não agrupados.5. Se. a variável for discreta e o número de valores representativos dessa variável for muito grande. recomenda-se o agrupamento dos dados em classes.É a soma das frequências simples absolutas de todos os elementos observados. Esse tipo de distribuição é utilizado geralmente para representar uma variável discreta. no ano de 1993. por outro lado. uma vez que a tabela poderá ficar muito extensa. é aconselhável a elaboração de distribuições de frequência. Essas tabelas podem ser classificadas em: • Distribuição de Frequências de Dados Tabulados Não-Agrupados em Classes . as análises e conclusões dos dados pesquisados. Quando a variável objeto de estudo for contínua geralmente será conveniente agrupar os valores observados em classes.é uma tabela onde os valores da variável aparecem individualmente. As tabelas de frequências podem representar tanto valores individuais como valores agrupados em classes. onde a frequência de determinado valor será dado pelo número de observações ou repetições de um valor ou de uma modalidade. Exemplo : Utilizando os mesmos dados anteriores. dificultando. Muitas vezes com o objetivo de resumir os dados originais em uma distribuição de frequências. Para condensarmos melhor os dados. como: 8 . além de sua elaboração. o procedimento visa a evitar certos inconvenientes. Idade (Xi ) fi 21 3 22 2 23 2 24 1 25 4 26 3 28 1 30 1 31 3 32 1 33 3 34 3 35 2 36 1 TOTAL (fi ) 30 Fonte: (dados hipotéticos) Este tipo de tabela não é aconselhável quando estamos trabalhando com variáveis que apresentam uma grande quantidade de valores distintos. Classe pode ser definida como sendo os subintervalos da Amplitude Total de uma variável (grupo de valores). Note que a soma das frequências absolutas simples é sempre igual ao número total de valores observados. Uma tabela com distribuição de frequência é uma tabela onde se procura fazer um arranjo dos valores e suas respectivas frequências. Frequência total (ft ) . • Distribuição de Frequências de Dados Agrupados em Classes. Nesse último caso. utilizaremos os dados agrupados em classes e não mais individualmente. Tabela 1: Idade dos alunos do curso de medicina veterinária da UFBA. com pouca variedade de valores. complementam os 5 primeiros já apresentados: 1. 2. 9 . No exemplo anterior de distribuição de frequência. bem como de sua variação. dificultando. Para determinar o número de classes há diversos métodos. É importante que a distribuição conte com um número adequado de classes. a leitura e a interpretação dos resultados apurados. impossibilidade ou dificuldade de visualização do comportamento do fenômeno como um todo.É representado por k. Ex: Utilizando os mesmos dados anteriores.Os limites de classe são seus valores extremos. Outras possibidades são: –| . 3 log10 n. a tendência de a série se concentrar em torno de um valor central. forem utilizadas muitas classes. (b) Fórmula de Sturges: K = 1 + 3. Se. no ano de 1993. Definição do número de classes . o aparecimento de diversos valores da variável com frequência nula.1. Se esse número for escasso. Para facilitar a análise é conveniente que se mantenham os intervalos de classe sempre constantes. Nós aprenderemos duas soluções: √ (a) k = 5. – Para construção de tabelas de frequência para dados agrupados em classe os 4 conceitos listados a seguir. de imediato. temos: Tabela 2: Idade dos alunos do curso de medicina veterinária da UFBA. 3. por outro lado. o valor 21 é denominado limite inferior da primeira classe. tanto quanto os dados brutos. 58 ==> k ≈ 7 Mesmo tendo outros critérios de determinação do número de classes. além de proporcionar uma visão panorâmica do comportamento da variável. e não somente de regras muitas vezes arbitrárias e pouco flexíveis. o que se deve ter em mente é que a escolha dependerá sobretudo da natureza dos dados e da unidade de medida em que eles se encontram. 3 log10 49 ==> k = 6. haverá algumas com frequência nula ou muito pequena. enquanto o valor 24 é denominado limite superior da primeira classe. onde n é o tamanho da amostra Exemplo: Se n = 49 teríamos: • pelo primeiro método: k = 7 • pelo segundo método: k = 1 + 3. |–| . os dados originais ficarão tão comprimidos que pouca informação poderá ser extraída desta tabela. Limites de Classe . para n ≤ 25 e k = n . Idade Frequências (fi ) 21 |– 24 7 24 |– 27 8 27 |– 30 1 30 |– 33 5 33 |– 36 9 TOTAL 30 Fonte: (dados hipotéticos) O símbolo |– indica a inclusão do limite inferior do intervalo naquela classe. grande extensão da tabela. Este tipo de tabela informa. apresentando uma distribuição irregular e prejudicial à interpretação do fenômeno. 2. o que seria impossível de se fazer a partir da lista dos dados brutos. para n > 25. de um número relativo. Absoluta (Fiab ) . 10 . Trata-se do caso visto até o presente momento. TIPOS DE FREQUÊNCIAS ½ Absoluta Frequências Simples Relativa Frequência Acumulada ½  Absoluta   “Abaixo de”   Relativa  (crescente) ½   Absoluta    “Acima de” Relativa (dcrescente) 1. portanto. sua amplitude pode ser definida como a diferença existente entre os limites superior (ou inferior) de duas classes consecutivas. multiplica-se o quociente obtido por 100: fri = fi n . Frequência Simples: (a) Frequência Simples Absoluta (fi ) .representa a proporção de observações de um valor individual ou de uma classe. basta acrescentar ao ponto médio da classe precedente a amplitude do intervalo de classe. Ex: Utilizando os mesmos dados anteriores: h = 24 − 21 = 3 4.é o número de repetições de um valor individual ou de uma classe de valores da variável. incluindo no cálculo a frequência do valor ou da classe. Amplitude do Intervalo de Classe (h) .100 (2) 2.3. 5 Para obter os pontos médios das demais classes.É a média aritmética simples entre o limite superior e o inferior de uma mesma classe.A amplitude de um intervalo de classe corresponde ao comprimento desta classe.é a soma da frequência simples absoluta de uma classe ou de um dado valor com as frequências simples absolutas das classes ou dos valores anteriores. Trata-se. Numericamente. Frequências Acumuladas: (a) Frequências Acumuladas “Abaixo de ”: i. Pontos Médios ou Centrais da Classe (xj ) . (b) Frequência Simples Relativa (fri ) . É utilizada toda vez que se procura saber quantas observações existem até uma determinada classe ou valor individual. A expressão ”abaixo de” refere-se ao fato de que as frequências a serem acumuladas correspondem aos valores menores ou anteriores ao valor ou à classe cuja frequência acumulada se deseja obter. Ex: Utilizando os mesmos dados anteriores: x1 = 24+21 2 = 22. fri = Pfi fi = fi ft (1) Desejando expressar o resultado em termos percentuais. em relação ao número total de observações. Devem ser simples. no ano de 1993. Relativa (Friac ) .são mapas geográficos ou topográficos em que as frequências das categorias de uma variável são projetadas nas áreas específicas do mapa. (b) Frequências Acumuladas ”Acima de”: i. basta somar à frequência simples absoluta da classe ou do valor individual.3 APRESENTAÇÃO GRÁFICA A apresentação gráfica é um complemento importante da apresentação tabular.. uma vez que através deles os dados estatísticos se apresentam em termos de grandezas visualmente interpretáveis. os mapas alfinetados são de grande emprego para apreciar o aparecimento e expansão de certas moléstias.4. de preferência sem comentários inseridos. Os gráficos podem ser cartogramas ou diagramas.00 100 .é a soma da frequência simples relativa dessa classe ou desse valor com as frequências simples relativas das classes ou dos valores anteriores. 2.ii. 11 .30 30 30 100 9 30 TOTAL 30 1.. dispensando esclarecimentos adicionais no texto. Esse tipo de representação gráfica é de grande utilidade em Saúde Pública. Relativa (Friab ) . Identifiquemos cada um deles: 1. . São os gráficos mais usados na representação de séries estatísticas e se apresentam através de uma grande variedade de tipos. Cartogramas .igual à soma da frequência simples relativa dessa classe ou desse valor com as frequências simples relativas das classes ou dos valores posteriores. Fonte: (dados hipotéticos) 2.17 17 21 70 14 47 33 |– 36 9 0. Absoluta (Fiac ) . Tabela 3: Idade dos alunos do curso de medicina veterinária da UFBA.. Propiciam os gráficos uma idéia preliminar mais satisfatória da concentração e dispersão dos valores. atrair a atenção do leitor e inspirar confiança.27 27 15 50 23 77 27 |– 30 1 0.são gráficos em que a magnitude das frequências é representada por certa mensuração de uma determinada figura geométrica.. incluindo no cálculo as observações correspondentes a esse valor ou a essa classe. sobretudo na elaboração de inquéritos epidemiológicos em que se deseja conhecer a distribuição geográfica de casos e óbitos de uma determinada doença epidêmica..representa o número de observações existentes além do valor ou da classe. Idade N o de alunos(fi ) fri fri (%) Fiab Fiab (%) Fiac Fiac (%) 21 |– 24 7 0. as frequências simples absolutas das classes ou dos valores individuais posteriores. Diagramas . . utilizando-se cores ou traçados cujos significados constam em legendas anexadas às figuras. Em epidemiologia.. A principal vantagem de um gráfico sobre a tabela prende-se ao fato de que ele permite conseguir uma visualização imediata da distribuição dos valores observados. Exemplo com as frequências apresentadas. Para obter este tipo de frequência.03 3 16 53 15 50 30 |– 33 5 0..23 23 7 23 30 100 24 |– 27 8 0. . Os gráficos devem ser auto-explicativos e de fácil compreensão. ii. Todo gráfico deve apresentar um título e uma escala.. preferíveis a esses últimos quando as legendas a se inscreverem sob os retângulos forem breves. 10 21 Bahia 8 6 5. em New Bedford. Gráfico em linha: c. Gráfico em barras Gráfico 1.Prestam-se à mesma finalidade dos gráficos em barras horizontais.8 Estados Freqüência 7.São utilizados para estabelecer comparações entre duas ou mais categorias.7 5. (c) Gráficos em Barras . Cada barra representa a intensidade de uma modalidade ou atributo. por meio de retângulos de igual largura e alturas proporcionais às respectivas grandezas.• Tipos de Diagramas: (a) Gráficos em Linhas ou Gráficos Lineares .Têm por finalidade comparar grandezas. estado de Massachussetts. tendo como principal vantagem o fato de despertar a atenção do público leitor. sendo que o Box-Plot será explicado mais adiante. 1990.São frequentemente usados para a representação de séries temporais. São gráficos muito comuns em jornais e revistas. Utilizados quando se pretende comparar cada valor da série com o total. Quantidade de resíduos industriais jogados no rio Acushnet. a. em partes por milhão.1 4.5 5. (e) Gráficos de Colunas Remontadas ou de Barras Agrupadas .São gráficos construídos a partir de figuras ou conjunto de figuras representativas da intensidade ou das modalidades do fenômeno. A produção de cereais no Brasil. (b) Gráficos Pictóricos (Pictogramas) . sendo. A seguir podemos encontrar alguns tipos de diagramas. As linhas são mais eficientes neste tipo de gráfico porque permitem a detecção de intensas flutuações nas séries e também possibilitam a representação de várias séries em um mesmo gráfico. (f) Gráficos em Setores . entretanto. segundo os Estados produtores. Gráfico 2.São utilizados para representar valores absolutos ou porcentagens complementares. em 1996. (d) Gráficos em Colunas .9 4 38 Sergipe 27 Piauí 2 Maranhão 10 0 1980 1981 1982 1983 1984 0 Pe ríodo 12 10 20 30 Freqüências 40 50 . de uma determinada cidade.1 GRÁFICOS REPRESENTATIVOS DAS DISTRIBUIÇÕES DE FREQUÊNCIA A representação gráfica das distribuições de frequência é feita através do histograma e do polígono de frequência. Maiores informações sobre esses e outros tipos de gráfico serão fornecidas em aula pelo professor.Unindo por linhas retas os pontos médios das bases superiores dos retângulos do histograma. Gráfico 3.2 0 0 Mazda 808 Vega Toyota Corolla Dodge Colt Toyota Celica 1996 1997 Produtos Modelos f. 1996. Consumo de gasolina.6 5 3 2. denominada polígono de frequência.5 2. em milhas por galão (mpg) de 5 modelos compactos de automóvel. em milhões de unidades. estado de Massachussetts.2 0. Gráfico em colunas Cosumo (mpg) 40 Gráfico 4.d.2 3.É um gráfico formado por um conjunto de retângulos justapostos. 1990 10 41 38 35 28 30 8.7 1.4.8 3. Gráfico em setores g. Box-Plot Gráfico 5. em Pernambuco. 2. segundo os Estados produtores.3. de forma que a área de cada retângulo seja proporcional à frequência da classe que ele representa. D istribuição do peso de todas as crianças prem aturas ao nascer e após dez dias de aplicação da dieta alim entar.4 1. 1998. Consumo de equipamentos. Polígonos de Frequência . obtém-se outra representação dos dados. 1. CURIOSIDADE: Florence Nightingale Florence Nightingale (1820-1910) é conhecida por muitos como a fundadora da profissão de enfermeira. A produção de cereais no Brasil. mas ela também salvou milhares de vidas utilizando a estatística. Histograma . Salvador. Ao encontrar um hospital em más condições 13 . H ospital W W W .7 4. Gráfico em colunas remontadas 26 20 6 4 2 10 2.5 8 Freqüências 50 e. 2100 10% 2000 22% 1900 1800 28% 1700 1600 40% Maranhão Piauí Se rgipe Bahia 1500 1400 N = 100 P eso ao N asc er 100 P eso após 10 dias 2. em Prince. 2 + 24.0 25.0 19. 0 + 25. 14 .. para o cálculo dessas medidas.0 21. x2 .sanitárias e sem suprimentos. Genericamente. 0 + 28. f2 . 7a edição. 0 + 21. morreram mais soldados em consequência de más condições sanitárias do que em combate. As medidas de tendência central são também chamadas de medidas de posição. fn . a média representa um valor típico (Soares & Siqueira. Os valores x1 . É claro que foram obtidos pesos de crianças desta idade que se encontram abaixo ou acima do valor médio. Fonte: TRIOLA. Média Aritmética 1. 2. e estabelecem o valor em torno do qual os dados se distribuem.0 20. Média Aritmética Simples: É dada pelo quociente entre a soma dos valores observados e a frequência total ( o número total de observações).2 24. . vamos aprender o cálculo de medidas que possibilitem representar um conjunto de dados relativos à observação de determinado fenômeno de forma resumida. • As principais medidas de tendência central são: 2.. . 0 + 27.0 21. Agora.0 kg. podemos escrever: X= P xi n (3) onde xi =valor genérico da observação n = tamanho da amostra =no . Florence Nightingale foi a pioneira na utilização não só da estatística social como das técnicas de gráficos.1999). São as medidas de tendência central mais comumente utilizadas para descrever resumidamente uma distribuição de frequência.5 MEDIDAS DE TENDÊNCIA CENTRAL Vimos até agora a sintetização dos dados sob a forma de tabelas. Ex: Temos uma amostra de 10 crianças de 5 anos de idade. Introdução à Estatística. 0 + 19. 0 + 21. No entanto. 0 + 20. tratou de melhorar essas condições e passou a utilizar a estatística para convencer as autoridades da necessidade de uma reforma médica mais ampla.. ou seja. Elaborou gráficos originais para mostrar que. de observações Este tipo de média aritmética será calculada quando os valores não estiverem tabulados. Mário. por exemplo. quando aparecerem representados individualmente como é o caso dos dados brutos.1 Médias. Rio de Janeiro. 0 + 22. Média Aritmética Ponderada: É a média aritmética calculada quando os dados estiverem agrupados em distribuições de frequência.5.0 27.. gráficos e distribuições de frequências. xn serão ponderados pelas respectivas frequências absolutas f1 . 1999 2. durante a guerra da Criméia. 0 ¯ = 23. 0 =⇒ X 10 Isso significa que o peso médio é de 23. é necessário que a variável seja quantitativa.0 28. LTC Editora. Vale a pena chamar a atenção que.0 22..0 n = 10 X= 23.. com dados referentes a seus pesos (em kg): 23. Bahia. 2500 Fonte: (dados hipotéticos) P xi fi 2500 = . a média geométrica desses valores será: Xg = √ n x x . X= Média Geométrica 1.. conforme se utilize ou não em seu cálculo uma tabela de frequências. genericamente. x 1 2 n 15 (4) . como a raiz n-ésima do produto entre eles.. 0 13 13 13 O número médio de cáries por criança é 2.. Dados n valores x1 .. em 1993.. A desvantagem da média aritmética relaciona-se com a existência de valores extremos (muito grandes ou muito pequenos). ou seja. 1993. N o de dentes careados (xi ) No de crianças (fi ) xi fi 0 3 0 1 2 2 2 4 8 3 2 6 4 1 4 5 1 5 TOTAL 13 25 Fonte: (dados hipotéticos) 0 (3) + 1 (2) + 2 (4) + 3 (2) + 4 (1) + 5 (1) 2+8+6+4+5 25 = = = 1. Há casos em que outros tipos de média são mais adequados. 25 ≈ 31.. 2. 0 n 80 Interpretação: A idade média dos pacientes de Aids na Bahia.. ==> X = 31. Faixa Etária fi (×1000) xi (ponto médio) xi fi 15 |– 25 25 20 500 25 |– 35 30 30 900 35 |– 45 15 40 600 45 |– 55 10 50 500 TOTAL 80 . x2 . que podem distorcer o resultado final.. Candeias. Também pode ser simples ou ponderada. Média Geométrica Simples: A média geométrica de n valores é definida.1990.. em média cada criança de 7 anos apresenta 2 cáries. 923 ≈ 2. como a média geométrica ou harmônica.. xn .0 entre a população avaliada em Candeias. foi de 31 anos.. . X= (b) Para tabelas de distribuição de dados agrupados em classes (TABELA 5): Tabela 5: Casos de Aids segundo faixa etária.Então teremos: X= P xi fi n Exemplos: (a) Para tabelas de distribuição de dados não agrupados (TABELA 4): Tabela 4: Número de cáries em crianćas de 7 anos de idade. .. seu manequim é 48.. pesa 78 kg..7 horas de sono. Média Harmônica: É o inverso da média aritmética dos inversos. quando se supõe crescimento geométrico. X2 .. ele termina o dia com 7.. Determinação da Mediana de Valores não-tabulados. Em cada ano.1 horas.. O dia seguinte começa com 21 minutos de transporte para um emprego.X1 .8 kg de bananas. e que a outra metada dos itens sejam menores do que ela. como bactérias. Fonte: TRIOLA.6 kg de massa. Mário. Também é utilizada em biologia para análises relacionadas com crescimento de organismos. Como a mediana divide os dados ordenados ao meio. Rio de Janeiro.8 kg de batatas fritas. que se determine a ordem em que se encontra a mediana na série. 1. temos :X h 6 X g 6 X.. Introdução à Estatística.3. LTC Editora. sobretudo. ler a correspondência e ver televisão. calça sapatos tamanho 43 e tem 85 cm de cintura.. Para isto encontramos: Emd = n+1 2 (6) O passo seguinte será localizar a mediana na lista de valores. Média Geométrica Ponderada: É a média geométrica quando os dados estiverem agrupados em uma distribuição de frequência. Após comer sua porção de batatas fritas. Esse tipo de média é. Podem ocorrer duas hipóteses com relação ao número de observações n: que ele seja ímpar ou par. Em Demografia é utilizada para se estimar a população de determinada localidade. temos a definição de média harmônica para dados agrupados em classes. por exemplo..8 kg de carne. Colocados em ordem crescente. Será calculada por meio da expresssão: q (5) X g = Σfi xf11 xf22 .Assim.15 kg de sorvete e 35. a mediana é o elemento que ocupa a posição central. 7a edição. em primeiro lugar. = 1 xi 1 1 + X1 +. Veremos os dois casos: (a) Número ímpar de observações: Requer. X2 . Xn ... onde trabalha 6. usada para construção de índices econômicos. Os inversos dos valores . 1999 Mediana (Md) É definido como o valor que divide uma série ordenada de tal forma que pelo menos a metade dos itens sejam iguais ou maiores do que ela. deve-se diferenciar a forma como encontra-se a mediana.. CURIOSIDADE: Um cidadão médio Um homem americano ”médio” chama-se Robert. vê televisão durante 2567 horas e recebe 585 cartas ou assemelhados pelo correio. Processa-se a partir de um rol ou lista ordenada dos dados. Xn serão: Xh = 1 n P i=1 1 1 1 X1 .. . 16 . Em geral. de acordo com o resultado obtido no cálculo do elemento mediano (Emd ). Consome anualmente 5. ou contagem de ovos de parasitas. temos: n = P n 1 i=1 xi De maneira análoga. A depender de como estejam os dados. ela não é sensível a valores discrepantes.+ X1 X1 n 2 n n como X = n P xi i=1 n . altura de 1.. . Tem 31 anos. 1. 8. 11.xfnn A média geométrica é usada principalmente em problemas envolvendo mudanças proporcionais.75 cm. 2. l = limite inferior da classe mediana. 3. Com base nas informações da coluna que contém as frequências acumuladas ”abaixo de” absoluta. Determinação da Mediana de Valores Tabulados Agrupados em Classes. definiremos o elemento mediano. Com o uso destas frequências encontraremos a posição definida pelo elemento mediano. o elemento mediano será determinado através da expressão: Emd = n 2 (7) A mediana será determinada pela média aritmética entre os valores que ocupam a posição definida pelo elemento mediano e a posição sucessora. Em seguida. N o de dentes careados (xi ) 0 1 2 3 4 5 TOTAL Fonte: (dados hipotéticos) Solução: n = 13 ==> Emd = (n+1) 14 2 =2 No de crianças (fi ) 3 2 4 2 1 1 13 Fiab 3 5 9 11 12 13 . Da mesma forma como foi calculado anteriormente. encontramos o elemento mediano através da fórmula Emd = n2 . Como n é ímpar —> a mediana é definida pelo valor que ocupa a 7a posição.. após a qual a mediana será calculada através da seguinte expressão: ant Md = l + h. não se fazendo distinção entre número par ou ímpar de observações.. Emdf−F md onde. = 7. 17 (8) . 1990. A partir daí. Exemplo: Cálculo da mediana para os dados da tabela 4 da secção de média. Interpretação: 50% das crianças de 7 anos apresentaram 2 ou menos cáries numa comunidade de Candeias em 1990. Neste caso. Tabela 6: Número de cáries em crianças de 7 anos de idade. determinaremos a classe mediana. acrescentaremos à tabela de frequência uma coluna de frequências acumuladas ”abaixo de” absoluta. Candeias. a mediana é igual a 2. Determinação da Mediana de Valores Tabulados não-Agrupados em Classes. na qual estará a mediana. h = amplitude do intervalo de classe Emd = elemento mediano Fant = frequência acumulada até a classe anterior à classe mediana f md = frequência absoluta simples da classe mediana.(b) Número par de observações: Neste caso. Sua vantagem é que pode ser usada para variáveis qualitativas. comumente chamada de classe modal. Genericamente. localizando o valor que apresenta a maior frequência.. Tipo de Sangue Frequência O 417 A 292 B 94 AB 17 TOTAL 820 Fonte: (dados hipotéticos) Os dados apresentados mostram que na amostra o sangue tipo O ocorreu com maior frequência. 1.. a determinação da moda é imediata. Se apresentar apenas uma moda diremos que é unimodal. nem sempre a moda existe (distribuição amodal) e nem sempre é única. se tiver várias modas (mais que duas) diremos que é multimodal. Determinação da Moda de Valores Não-Tabulados. Logo. Qualquer que seja o método adotado. tinham idade igual ou inferior a 30 anos. em 1993. 2. Fonte: (dados hipotéticos) n = 80 ==> Emd = 80 2 = 40. pode-se definir a moda como o valor mais frequente da distribuição. O elemento que ocupa a 40a posição encontra-se na 2a classe. a moda é sangue do tipo O. 2. Bahia. o procedimento não é imediato. sendo. Considerando um conjunto ordenado de valores.2 Moda (Mo) A moda é outra medida de tendência central. para esta amostra. Então.5. 18 . a moda será o valor predominante. sendo disponíveis alguns métodos de cálculo distintos. bastando para isso. No caso de dados tabelados não agrupados em classe. Exemplo: Tabela 7: Indivíduos segundo o tipo sanguíneo. o valor mais frequente desse conjunto. Tratando-se de uma tabela de frequências com valores tabulados e agrupados em classes.Exemplo: Cálculo da mediana para os dados da Tabela 5 Casos de Aids segundo faixa etária. Embora seu significado seja o mais simples possível. Md = 25 + 10(40−25) ==> Md = 30 30 Interpretação: 50% dos pacientes de Aids na Bahia. se possuir duas modas diremos que é bimodal. no entanto a menos importante. Determinação da Moda para Valores Tabulados. 1993 Faixa Etária fi (×1000) Fiab 15 |– 25 25 25 25 |– 35 30 55 35 |– 45 15 70 45 |– 55 10 80 TOTAL 80 . o primeiro passo para determinar a moda é localizar a classe que apresenta a maior frequência. consultar a tabela. 6 SEPARATRIZES São as medidas que separam o rol ou a distribuição de frequências em partes iguais. 1996. A classe modal será aquela que apresentar a maior frequência absoluta simples.1 Notas Alunos(fi ) xi 0 |– 2 3 1 2 |– 4 5 3 4 |– 6 7 5 6 |– 8 6 7 8 |–10 1 9 TOTAL 22 . Assim: 0% Q1 Q2 Q3 25% 50% 75% Q1 : 1o quartil.6. Interpretação: A nota mais frequente na 1a avaliação foi 5. 2. Deixa Q2 : 2o quartil. [EQi −Fant ] 19 fQi (10) . Vimos que a mediana divide a distribuição em duas partes iguais quanto ao número de elementos de cada parte. determinar a ordem ou posição do quartil a ser calculado. para expressão: 100% 25% dos elementos antes do seu valor 50% dos elementos antes do seu valor. Agora vamos estudar outras medidas que dividem a distribuição em partes iguais. São elas: 2. que serão as chamadas separatrizes. Deixa Genericamente.. Exemplo: Tabela 8: Notas da 1a Avaliação dos Alunos de Estatística IV da UFBA. Coincide com a mediana 75% dos elementos antes do seu valor. usaremos a seguinte EQi = in 4 (9) onde: i = número do quartil a ser calculado n = número de observações. Para dados agrupados em classes. que consiste em tomar o ponto médio da classe modal como sendo a moda. Deixa Q3 : 3o quartil. Fonte: (dados hipotéticos) Para este exemplo temos que a terceira classe é a classe modal (fi = 7)e a moda bruta será seu ponto médio: Mo = 5..1 Quartis (Qi): Os quartis dividem um conjunto de dados em quatro partes iguais.Nesse curso definiremos apenas o método da moda bruta. 0. encontraremos os quartis de maneira semelhante à usada para o cálculo da mediana: Qi = l + h. Assim: C1 C2 C3 0% 1% 2% 3% C97 C98 C99 C50 50% 97% 98% 99%100% O elemento que definirá a ordem do centil será encontrado pelo emprego da expressão: ECi = in 100 (12) onde: i = número identificador do centil n = número total de observações Para dados agrupados em classes. recorreremos à expressão que define a ordem em que o decil se encontra: EDi = in 10 (11) Para dados agrupados em classes.3 Percentis ou Centis (Ci): São as medidas que dividem a amostra em 100 partes iguais. Exemplo: Com base na tabela de distribuição de frequências abaixo encontre: a) Primeiro quartil . c) Nono decil Resolução: a) Q1 Encontrar a posição do primeiro quartil: 20 .2 Decis(Di): Os decis dividem um conjunto de dados em dez partes iguais. 2.6.onde. encontraremos os decis de maneira semelhante à usada para cálculo da mediana e dos quartis. Assim: D1 0% D2 10% 20% D3 D4 D5 30% 40% 50% 60% D7 D6 D8 70% 80% D9 90% 100% De maneira geral. b) Septuagésimo quinto centil . dos quartis e dos decis.6. l = limite inferior da classe que contém o quartil desejado h = amplitude do intervalo de classe EQi = elemento quartílico Fant = frequência acumulada até a classe anterior à classe mediana f Qi = frequência absoluta simples da classe quartílica. para calcular os decis. encontraremos os centis de maneira semelhante à utilizada para cálculo da mediana. 2. calcularemos C75 da seguinte forma: = 99. Fonte: (dados hipotéticos) EQ1 = n4 = 80 4 = 20 O Q1 está localizado na 20a posição.29 Q1 = 45 + 20[20−10] 14 Interpretação: 25% dos usuários consomem até 59. 75% dos usuários consomem mais de 59.. De maneira análoga. b) C75 Encontrar a posição do centil 75: n EC75 = 75 100 = 75 (80) 100 = 60 O C75 está localizado na 60a posição. De maneira análoga. c) D9 Encontrar a posição do 9o decil: n = 9 (80) ED9 = 9 10 10 = 72 O D9 está localizado na 72a posição. calcularemos D9 da seguinte forma: = 125 D9 = 105 + 20[72−64] 8 Interpretação: 90% dos usuários consomem até 125 kwh.29 kwh.29 C75 = 85 + 20[60−50] 14 Interpretação: 75% dos usuários consomem até 99. Com base nesses dados.. Com base nesses dados. A = Xmáx − Xm´ın 21 . 1980. 2. Consumo (Kwh) No de usuários (fi ) Fiab 5 |– 25 4 4 25 |– 45 6 10 45 |– 65 14 24 65 |– 85 26 50 85 |– 105 14 64 105 |– 125 8 72 125 |– 145 6 78 145 |– 165 2 80 TOTAL 80 . 10% dos usuários consomem mais de 125 kwh. Com base nesses dados. lançaremos mão das estatísticas denominadas medidas de dispersão. Rio de Janeiro. Essas nos proporcionarão um conhecimento mais completo do fenômeno a ser analisado. logo encontra-se na 5a classe. logo encontra-se na 3a classe.29 kwh.7 MEDIDAS DE DISPERSÃO Para avaliar o grau de variabilidade ou dispersão dos valores de um conjunto de números.59 kwh.59 kwh. calcularemos Q1 da seguinte forma: = 59. 25% dos usuários consomem mais de 99. 2.Tabela 9: Consumo médio de eletricidade (kw/hora) entre usuários. De maneira análoga.7.1 TIPOS DE MEDIDAS DE DISPERSÃO 1. Amplitude Total ou Intervalo Total (A) =>É a diferença entre os valores extremos da série. permitindo estabelecer comparações entre fenômenos da mesma natureza e mostrando até que ponto os valores se distribuem acima ou abaixo da medida de tendência central. logo encontra-se na 6a classe. 71 S= q 1.007.374 45 22.007.666 P 2 TOTAL . É dado pela soma dos quadrados dos desvios dividido pelo número total de observações.366 25 2.714 161.646 12 -10. S2 = n (x − x)2 P i n −1 i=1 22 (15) .286 5. 34. devemos frisar que a amplitude não é uma boa medida de dispersão porque seu cálculo se baseia apenas nos valores extremos da amostra e não em todos os dados.714 114. o cálculo do desvio-padrão se fará através da seguinte fórmula: S= s k (x − x)2 f P i i n − 1 i=1 (14) onde xi = ponto médio da classe Exemplo: Calcular o desvio-padrão para os dados da Tabela 12.780 = X = i=1 n = 630 ==> X = 79. 5 S = 80 79 ==> S = 31.226 34 11. Mede a concentração dos dados em torno da média.790 13 -9. Variância (S 2 ) =>Será dada pelo quadrado do desvio-padrão. 45}X = 22. s k P q xj fj k (x − x)2 f P i i 80.430 6 Tabela 10: Cálculo do Desvio Padrão..A amplitude nos dá a idéia do campo de variação dos valores da série.362 20 -2. (a) Desvio-padrão de dados brutos: S= s n (x − x)2 P i i=1 n − 1 (13) Exemplo: Calcular o desvio-padrão do conjunto A = {10.286 496. Xi di = (xi − x) d2i = (xi − x)2 10 -12. 12. di = 1.714 94.286 127. 430 = 12. 2. 958 (b) Desvio-padrão de dados tabulados: Quando os valores vierem dispostos em uma tabela de frequências. 13. Desvio-Padrão (S) => É a medida de dispersão mais usada e mais importante. 977 n−1 i=1 3.. 20. 25. No entanto.714 7. X (16) Como o CV é uma medida que exprime a variabilidade relativa à média.5 3080. por conta da maior facilidade do trato algébrico com funções quadráticas. Enquanto que para valores inferiores a 50%.. é usualmente expresso em porcentagem. a variância e o coeficiente de variação.5 240. Neste caso. Isso determina a diferença da dispersão relativa.5 85 |– 105 14 95 1330 15..5 1260.5 600.25 16641.5 20.25 526.25 11881.5 65 |– 85 26 75 1950 -4. Consumo (Kwh) N o de Usuários (fi ) xi xi fi (xi − x) (xi − x)2 (xi − x)2 fi 5 |– 25 4 15 60 -64. 67%.. então o desvio-padrão será pequeno. X = 55 Como vemos. S = 2.25 8403.0 25 |– 45 6 35 210 -44.5 1980. 23 . É dado por: CV = S × 100.5 145 |– 165 2 155 310 75. útil para comparação em termos relativos do grau de concentração em torno da média de séries distintas. 4.5 5700.0 125 |– 145 6 135 810 55.. Obs: Para efeitos práticos. • Se os valores estiverem distantes uns dos outros. a média será tanto mais representativa quanto menor for o valor de seu CV. X = 3 GrupoII —> CV = 3. então o desvio-padrão será grande. consequentemente. S = 2. Exemplo: A Tabela 13 representa a distribuição de recém-nascidos vivos. pequena representatividade da média. e consequentemente os dados serão homogêneos. em gramas. e consequentemente os dados serão heterogêneos. Calcule o desvio-padrão. o desvio 2 é muito mais importante para o grupo I do que para o grupo II.Tabela 11: Distribuição de frequências do consumo de energia elétrica (kwh). Coeficiente de Variação (CV) => Trata-se de uma medida relativa de dispersão. medida pelo coeficiente de variação.25 11400. a variância será a medida de dispersão mais utilizada quando tratarmos da inferência estatística..5 45 |– 65 14 55 770 -24.. 80780 Fonte: (dados hipotéticos) Interpretação do desvio-padrão (análoga à da variância): • Devemos ter em mente que o desvio-padrão mede a variação entre valores. a dispersão dos dados é a mesma para os dois grupos.25 3363. No entanto.5 105 |– 125 8 115 920 35. 6360 .5 4160. Entretanto as médias são diferentes.25 18481. 64%. Assim: • Se os valores estiverem próximos uns dos outros. e compare os resultados encontrados com as respostas apresentadas. o que é confirmado através do CV. segundo o peso. • A desvantagem do uso da variância perante o uso do desvio-padrão é que a unidade de medida utilizada é igual ao quadrado da unidade de medida dos dados.5 TOTAL 80 . Exemplo: Grupo I —> CV = 66.25 10082. . costuma-se considerar que o CV superior a 50% indica alto grau de dispersão e. Com esta informação pode-se. com a respectiva representação gráfica através de polígono de frequências. encontrar o desvio padrão (555.8. Para avaliar a variabilidade desses dados o coeficiente de variação é uma ferramenta fundamental. Peso (em gramas) (fi ) Xi 500 |– 1000 1 750 1000 |– 1500 3 1250 1500 |– 2000 22 1750 2000 |– 2500 115 2250 2500 |– 3000 263 2750 3000 |– 3500 287 3250 3500 |– 4000 99 3750 4000 |– 4500 32 4250 TOTAL 80 . a) Se a distribuição é simétrica: (X = Md = Mo) M o d a = M ed ia = M ed iana 24 . Desta forma teremos abaixo esta relação. mediana e moda. cujo valor para este conjunto de dados é de 2998. mediana e moda Uma primeira verificação da assimetria pode ser feita através da comparação entre os valores observados para a média.1 Relação entre média. 2.8 gramas. que se apresentam homogêneos. Assim. Vamos aprender algumas formas de avaliar a assimetria das curvas de frequência dos dados: 2. o que indica que não há uma grande variabilidade entre os pesos dos recém-nascidos avaliados. sendo que assimetria pode ser definida como o grau de deformação de uma curva de frequências.Tabela 12: Peso de recém-nascidos..2 gramas) e a variância (308.6 gramas2). permitindo uma análise mais clara sobre a importância da dispersão dos pesos desses recém-nascidos. Fonte: SAME/ FCM/ UNICAMP Solução: Inicialmente precisaremos calcular a média aritmética.240. o Coeficiente de Variação = 18..5%.8 MEDIDAS DE ASSIMETRIA As medidas de assimetria são utilizadas para avaliar o grau de assimetria da distribuição de frequências. então. a distribuição é simétrica Se Sk > 0.2 Coeficiente de Assimetria de Pearson (Sk) Indica o grau de distorção da distribuição em relação à uma distribuição simétrica.8.3 Coeficiente Quartil de Assimetria (eQ ) O coeficiente Quartil de Assimetria (eQ )=> É um coeficiente muito útil.8. a distribuição é assimétrica negativa 2. a distribuição é assimétrica positiva Se Sk < 0. É dado por: Sk = X − Mo S (17) Interpretação: Se Sk = 0. a distribuição é simétrica Se eQ > 0. a distribuição é assimétrica positiva 25 (18) . sobretudo quando não temos o desvio-padrão.b) Se a distribuição é assimétrica positiva ou à direita: (X > Md > Mo) Mo Med Media c) Se a distribuição é assimétrica negativa ou à esquerda: (X < Md < Mo) Media Med Mo 2. É dado por: eQ = Q3 − 2Md + Q1 Q3 − Q1 onde −1 < eQ < 1 Interpretação: Se eQ = 0. 0 = −0. área A. Proporc. área A. 45 =⇒ curva assimétrica negativa Sk = X−Mo S 555. tempo t Tabela 13: Proporção de óbitos por acidentes de trânsito na faixa etária de 15-29 anos de idade. área A. Proporc. no de óbitos pela doença D.de menores de 1ano = no de óbitos em menores de 1ano. Mortalidade proporcional segundo o sexo Exemplo: Mort. Ano No deÓbitos por acid.29 No total de óbtos por acid.6 = −0. Mo = 3250.1 PROPORÇÃO (frequência relativa simples) A proporção de indivíduos de uma dada categoria é definida através do quociente entre o número de indivíduos pertencentes a essa categoria e o número total de indivíduos considerados. as seguintes: PROPORÇÕES UTILIZADAS EM MORTALIDADE 1. 1980-1995. tempo t 26 . Algumas medidas importantes na análise do processo saúde-doença são definidas como proporções. tempo t total de óbitos.6 2. Mort. Região Nordeste.76 Fonte: MS/ DATASUS 2. sexo feminino.Se eQ < 0. trânsito entre 15 . representam subsídio para o delineamento de prioridades no setor saúde. como.61 1995 1705 5543 30.. trânsito Proporção 1980 1025 3462 29. 8. Mortalidade proporcional segundo a idade Exemplo: Proporc. Brasil. 0 Logo : X < Md < Mo =⇒ curva assimétrica negativa b) Coeficiente de assimetria de Pearson: = 2998. mas que permitem estabelecer comparação entre grupos. pela doença D = total de óbitos. X = 2998. área A. 2.8−3250. tempo t total de óbitos. área A. Mortalidade proporcional segundo causas Serve para indicar a importância de determinada causa ou grupo de causas em uma determinada área e.9. tempo t 3.9 COMPARAÇÃO ENTRE PROPORÇÃO. 2. Do ponto de vista estatístico representam medidas simples. devendo as categorias ser mutuamente exclusivas e exaustivas. a distribuição é assimétrica negativa Exemplo: Avalie a assimetria da distribuição dos pesos de recém-nascidos vivos do exemplo anterior. a) Relação entre média. áreaA. RAZÃO E TAXA Iremos realizar uma discussão breve destes termos e da distinção entre eles. tempo t Exemplo: Mort. para o sexo feminino = no de óbitos em ind. até certo ponto.2−2(3012. Md = 3012. A proporção é expressa mais comumente em percentagem.2 c) Coeficiente quartil de assimetria: 1 = 3370. por exemplo. 04 =⇒ curva assimétrica negativa eQ = Q3 −2Md+Q Q3 −Q1 3370−2662.2)+2622. mediana e moda. em alguns subdistritos do Município de São Paulo. em 1980.1 Nordeste 17054379 17801090 958. no total de óbitos.P. e calculamos o quociente entre o número de elementos que representam cada uma das categorias.6 Liberdade 62300 3413 54. nascidos vivos.). segundo as grandes Regiões do Brasil. Subdistrito População Óbtos Coefic. tempo t 27 . mulheres.1 Sul 9529280 9509655 1002.1 Fonte: LAURENTI. ser acrescentada a unidade de referência usado no denominador (habitantes. Estatística de Saúde. que constitui a chamada base do coeficiente à qual deve.9 Tucuruvi 345918 839 2. área A. obrigatoriamente. telefones/habitantes. Exemplo: Tabela 14: Populações masculina e feminina e razão de masculinidade (por 1000 mulheres)..6 Moóca 52967 213 4. tempo t População total.0 homens para 1000 mulheres. Ed. leitos/habitantes.1 Centro-Oeste 3838932 3705675 1036. 1967). óbitos e coeficiente geral de mortalidade.5 Jardim América 49300 7725 159.0 Fonte: LAURENTI. Sexo Masculino Feminino Razão de Masculinidade Regiões Norte 2992144 2893392 1034. 1987 Interpretação: No Brasil.2 RAZÃO ( ou índice) O termo razão é usado quando A e B representam características separadas e distintas.2. E.4 Vila Formosa 101000 418 4.U. 1980. área A. O P.3 TAXA ( ou Coeficiente) É usual multiplicar-se o resultado obtido por um número múltiplo de 10. Epidemiologia Geral. homens. tempo t Exemplo: Coeficiente geral de mortalidade = População total.0 BRASIL 59146099 59924766 987. In: FORATTINI. tempo t Tabela 15: Populaćão.0 Tatuapé 285000 811 2.1 Sudeste 25731364 26014954 989.1 Consolação 60300 4291 71. Da Universidade de São Paulo.7 Capela do Socorro 77764 280 3. R. área A. 1976.9. 2..9. Edgard Blucher. Quando se calcular um coeficiente está implícita sempre a noção de risco de acontecimento do fenômeno em estudo. Exemplo: Coeficiente de Prevalência = no casos existentes. um coeficiente é sempre calculado para determinado período de tempo bem especificado e para uma área delimitada. área A. etc. (por 1000 habitantes) Bela Vista 69000 1318 19. Assim. a razão de masculinidade assumiu o valor de 987. cobertura vegetal/total área. São Paulo. Como exemplos de razões temos: médicos/habitantes. A medida das doenças. o primeiro quartil. Um dos aspectos mais convenientes do uso dos box-plot é a possibilidade de comparação entre dois ou mais conjuntos de dados. Salvador. Já a relação hospital/população não expressa risco. ISC/UFBA. assimetria. et alii. ao passo que os quartis indicam a dispersão dos dados (através do cálculo do intervalo interquartil). A técnica a ser estudada a seguir refere-se a problemas que envolvam conjuntos de dados que possuem duas ou mais variáveis quantitativas. Em sala de aula serão apresentados mais detalhes sobre este tópico. 28 . Glória. 2000. Assim. trata-se de um coeficiente. Como a mediana revela uma tendência central. Está indicando que aquilo que está expresso no denominador (população) está sujeito ao risco de apresentar o evento discriminado no numerador.1 MEDIDA DE ASSOCIAÇÃO PARA VARIÁVEIS QUANTITATIVAS: CORRELAÇÃO LINEAR Até o momento todas as análises foram discutidas para cada variável individualmente. os box-plot têm a vantagem de não serem tão sensíveis a valores extremos como outras medidas baseadas na média e no desvio-padrão. a maior importância desse tipo de gráfico está na identificação de possíveis outliers no conjunto de dados. dispersão. 120 Idade (em anos) 100 80 60 1534 1445 1484 1423 1437 1466 1425 1478 1431 1471 1536 1583 1449 1452 1567 1584 1579 1563 1551 1504 1462 1575 1578 1540 40 20 0 -20 N= 476 384 655 0 1 2 Número de infecções Fonte: TEIXEIRA. quando se apresenta a relação óbitos/população. o terceiro quartil e o valor máximo. Diferença entre taxa e razão: Na razão o que está expresso no denominador não está sujeito ao risco de vir a apresentar o evento que está expresso no numerador. A construção de um box-plot exige que tenhamos o valor mínimo. O box-plot fornece informações sobre as características de posição. Dá apenas a informação do número de hospitais por habitantes. 1998. segundo o número de infecções por dengue.Os coeficientes de morbidade referem-se à frequência e gravidade das doenças. Exemplo: Idade dos indivíduos. 3. No entanto. a mediana. comprimento das caudas e outliers de um conjunto de dados. 3 BOX-PLOT O box-plot é um método alternativo ao histograma para representar os dados. Dinâmica de circulação do vírus do dengue em distintos espaços intraurbanos de uma grande cidade submetida a um programa de combate vetorial. correlação nula (r = 0). que é definido pela seguinte fórmula: P P P Y) XY − ( X)( n (19) r = rh P 2 (P X)2 i hP 2 (P Y )2 i X − n Y − n O coeficiente de correlação. em muitas situações. Deseja-se verificar independência entre as variáveis em estudo. o pesquisador se vê às voltas com variáveis qualitativas. tais como estas. ausência de associação entre estas. Caso 1 Tabelas bidimensionais 2 × 2 Um pesquisador está avaliando duas variáveis qualitativas. usualmente começa com uma tentativa para descobrir a forma aproximada dessa relação. representando-se graficamente os dados como pontos no plano x. que pode ser definido por: Y = ad − bc ad + bc 29 (20) . caso exista. Por meio dele pode-se prontamente verificar se existe alguma relação pronunciada e. y. Esta associação pode ser feita pela comparação das proporções em cada uma das categorias. a seguir apresentaremos algumas formas simples de análise da relação entre duas variáveis qualitativas.1 N. estaremos propondo a utilização de uma medida singular. se a relação visualizada no gráfico de dispersão deve lembrar o desenho de uma reta.2 MEDIDAS DE ASSOCIAÇÃO PARA VARIÁVEIS QUALITATIVAS Como foi dito. No entanto. Quando duas variáveis forem independentes. o uso do coeficiente de correlação linear somente é valido para duas variáveis quantitativas. o coeficiente de correlação será nulo. que nos informe sobre a intensidade da associação. A investigação da relação de duas variáveis. r. podendo ser classifada como: correlação linear positiva (0 < r < 1). Tal gráfico denominamos gráfico de dispersão. esta comparação não teria limites definidos para a indicação de associação. Após esta verificação. 3. sendo que cada uma delas apresenta apenas duas modalidades mutuamente exclusivas. em caso positivo. Por exemplo. se a relação pode ser tratada como aproximadamente linear. Desta forma. o r deve satisfazer à seguinte condição: −1 ≤ r ≤ 1. de limites bem definidos. mede a força da associação linear entre as duas variáveis avaliadas. vale a pena ressaltar que esta somente é uma medida válida se as duas variáveis estão relacionadas linearmente. Como propriedade.onde os valores de r só serão iguais a ±1 se os pontos estiverem totalmente sobre uma linha reta.2 N Para tabelas 2 × 2. Cat 12 c d N2. TOTAL N. correlação linear perfeita positiva (r = 1). correlação perfeita negativa (r = −1). Tabela 16: Tabela teórica de associaćão entre duas variáveis. No entanto. ou entre a temperatura do ambiente e a produção de frutas. correlação negativa (−1 < r < 0). uma medida adequada é o coeficiente de YULE. ou seja. No entanto. r. Deste modo. ou seja. Var2 Cat 21 Cat 22 TOTAL Var1 Cat 11 a b N1.A verificação da existência e do grau de relação entre variáveis quantitativas é objeto do estudo da correlação. A esta medida chamaremos de coeficiente de correlação. pode-se desejar saber se existe relação entre o peso e a altura de um indivíduo. pode-se medir o grau em que as variáveis estão relacionadas. Sua interpretação dependerá do valor numérico e do sinal. isto sugere independência entre os atributos. caso contrário. verificam-se os sobreviventes de cada amostra. Assim. os dados sugerem a existência de uma associação entre o uso da vacina e o padrão de sobrevivência após a exposição ao vírus em estudo. não farão parte do conteúdo programático deste curso. susceptíveis a determinado vírus. As cobaias da primeira amostra são injetadas com uma vacina experimental. Levando-se isto em consideração. É lícito concluir (ou pelo menos suspeitar) à luz destes dados que o uso da vacina está associado ao padrão de sobrevivência destes animais? Vacinados Sim Não TOTAL Sobreviventes Sim Não 130 70 80 160 210 230 TOTAL 200 240 440 Solução: a = 130. utilizaremos uma estatística chamada de Qui-quadrado. c = 80. é preciso saber: 1. e que é definida por: χ2 = n [(O − E)2 ] P E i=1 (21) Os valores esperados são encontrados mediante a suposição de independência. O valor de Y está compreendido no intervalo fechado de −1 até +1. outras técnicas poderão ser utilizadas. 2 amostras de cobaias isogênicas. Do ponto de vista da inferência estatística.58 ad + bc (130x160) + (70x80) 20800 + 5600 26400 Logo. Y 6= 0 corresponde a associação entre as variáveis. ou seja. ao acaso. o coeficiente de YULE apresenta a informação que permite a verificação de associação entre duas variáveis qualitativas. No entanto. sendo denominada coeficiente de contingência de Pearson. sugerindo-se uma associação entre os atributos. Y = 0 corresponde a independência 3. 2. no entanto. depois de determinado período de exposição. estaremos afastados da hipótese de independência.Na interpretação do coeficiente de YULE. O uso deste coeficiente contrapõe os resultados observados (simbolizados pela letra O) pelo pesquisador com aqueles resultados esperados (simbolizados pela letra E) obtidos a partir de uma hipótese teórica de independência entre os atributos. se os resultados observados forem próximos aos esperados. que as duas variáveis qualitativas em estudo apresentem uma r categorias e outra s categorias mutuamente exclusivas. obtém-se o valor esperado correspondente a cada casela multiplicando-se o total 30 . a medida a ser utilizada baseia-se na diferença entre os valores observados e esperados em cada uma das categorias. Todos as cobaias são então expostas ao vírus e. Assim. Neste caso. Exemplo: Considere que um pesquisador toma. b = 70. Caso 2 Tabelas bidimensionais r × s A desvantagem do uso do coeficiente de YULE é que esta medida restringe-se na análise de tabelas 2 × 2. Suponha-se. e as da segunda amostra são injetadas com uma substância inócua (grupo controle). que mede a discrepância entre os valores. caso não exista associação entre as variáveis espera-se que os valores encontrados não se apresentem em proporções diferentes segundo as categorias. Em termos descritivos. d = 160 Cálculo do coeficiente de YULE: Y = ad − bc (130x160) − (70x80) 20800 − 5600 15200 = = = = 0. s) − 1 (23) onde: r = número de categorias da variável 1 s = número de categorias da variável 2 Exemplo: Neste estudo deseja-se verificar se existe associação entre as variáveis sexo e grupo sanguíneo. C > 0 sugere associação.)(n.. = (200)(600) = 120 E11 = (n1. 55 Logo.da linha (em que se encontra a casela) pelo total da coluna (em que se encontra a casela)..2) (400)(200) E12 = = 1000 = 80. teremos: 2. Grupo Sanguíneo A B AB O TOTAL Sexo Masculino Feminino 112 88 58 42 180 120 250 150 600 400 TOTAL 200 100 300 400 1000 Solução: Os valores dispostos na tabela anterior referem-se aos resultados observados no estudo em questão. e assim por diante para todas as caselas. 05 C = 2. Obs: Este coeficiente é falho em determinar o sentido da associação (direta ou inversa). sugere-se o uso do coeficiente corrigido C. s) min(r..)(n. N Assim obteremos a tabela completa (com os resultados observados fora dos parênteses e os resultados esperados dentro dos parênteses) disposta da seguinte forma: Grupo Sanguíneo A B AB O TOTAL Sexo Masculino Feminino 112 (120) 88 (80) 58 (60) 42 (42) 180 (180) 120 (120) 250 (240) 150 (160) 600 400 TOTAL 200 100 300 400 1000 Para cálculo da estatística Qui-quadrado teremos: n [(O − E)2 ] P 2 2 2 2 χ2 = + (88−80) + (58−60) + . + (150−160) = (112−120) 120 80 60 160 E i=1 χ2 = 2. Para contornar este segundo problema.55 = 0. para o cálculo do coeficiente de contingência de Pearson. há ausência de um limite superior. que tem a expressão: Ccor = C. min(r. Os dados coletados encontram-se dispostos na tabela seguinte.. Além disso. que varia para cada estrutura da tabela. sendo este produto dividido pelo total geral (N) O coeficiente de contigência de Pearson é dado pela seguinte expressão: C= χ2 χ2 + n (22) Interpretação do coeficiente: C = 0 indica independência. Precisamos encontar os resultados esperados para cada casela.55+1000 31 .1) N 1000 (n1. Utilizando-se a correção do coeficiente de contingência. 29. como o resultado foi um valor próximo de zero. S. em toneladas. a produção de peles de alguns animais silvestres.T.800. no Brasil. 1. em 1965.100 toneladas. 32. a população presente recenseada no Brasil. 41. 4 EXERCÍCIOS DE FIXAÇÃO 1) Em um estudo estatístico a característica de interesse pode ser qualitativa (nominal ou ordinal) ou quantitativa (discreta ou contínua). 2. Capivara. na Bahia.088 do sexo masculino e 32 . Porco do mato. c) Segundo a Anuário Estatístico do Brasil. editado pelo IBGE. registraram-se os seguintes dados.G.410. 2. NOTAS FINAIS: 1. Porco do mato.. em toneladas: Ariranha. c) O H. Gato do mato. fabricante de componentes eletrônicos. sendo 20. No ano de 1966. 19. foi a seguinte: em 1940. 18. d) O A. e em São Paulo foi de 62. em todas as capitais do Brasil. A existência de associação não significa necessariamente relação de causa e efeito. 27. 143. mês a mês. a produção de óleo de mamona no Ceará.778 toneladas.012 toneladas.315 habitantes.843. teríamos: 2 = 0. em 1971. necessita saber o número de óbitos por principais grupos de causa em idosos no últimos 5 anos. Capivara. b) Segundo a Equipe Técnica de Estatística Agropecuária.A. foi a seguinte: Ariranha. (Alcoolatras Anônimos) deseja saber o número de pessoas que frequentaram as reuniões no ano de 1995.L.A. classificando a série estatística de cada uma delas: a) Segundo o Anuário Estatístico do Brasil.236. feminino) variável 3: número de pessoas na família d) população: sabonetes de certa marca variável: peso líquido e) população: aparelhos produzidos por uma linha de montagem variável: número de defeitos por unidade 2) Especifique o tipo de série estatística que deve ser construída para atender ao objetivo de cada uma das situações abaixo: a) O diretor de marketing da empresa G. Apesar da existência de outras medidas de associação. na Bahia foi de 28. em Pernambuco. castanhos. Classifique as variáveis nos exemplos que se seguem: a) população: moradores de uma certa cidade variável: cor dos olhos (pretos.E. 159. verdes) b) população: casais residentes em uma certa cidade variável 1: número de filhos variável 2: classe econômica c) população: candidatos a um exame vestibular variável 1: renda familiar variável 2: sexo (masculino. essas apresentadas nesta secção podem ser consideradas as medidas descritivas básicas.05 2−1 Assim. foi de 8.635. azuis. Gato do mato.927.614. deseja examinar a evolução de suas vendas em 1975.154. 10 Ccor = 0. b) Um laboratório farmacêutico está interessado em conhecer o comportamento das vendas de três de seus produtos no Brasil em 1994. segundo o sexo. 3) Elabore tabelas com os dados abaixo. como era de se esperar. isto sugere independência entre sexo e grupo sanguíneo.610 toneladas. 3.119.3) as frequências absolutas e relativas acumuladas (”acima de”) d) Construir um histograma e um polígono de frequências 4. 5. para o total de 70.354 mulheres. registrou-se a presença de 35.1) as frequências simples relativas c. 46. 31. Em 1960.3.885.108. mediana e moda b) de dispersão: amplitude total. sendo 25.1) Os dados seguintes representam 20 observações relativas ao índice pluviométrico em determinados municípios do Estado: Milímetros 144 152 160 151 154 145 142 146 141 150 de Chuva 159 160 157 146 141 150 142 141 143 158 4.3. E em 1970.379 habitantes. Idade de pacientes renais (em anos): Idade 26 28 30 32 37 TOTAL 33 fi 3 10 12 5 19 49 . 61 5. em 1950. Taxas sanguíneas de uréia (mg/dl): 27. sendo 46.2.4 5.7.629 do sexo masculino. 34.071 habitantes.944.2) as frequências absolutas e relativas acumuladas (”abaixo de”) c.2) Considere os seguintes dados sobre a distribuição de valores de metabolismo basal (cal/dia) em 35 adolescentes: 910 1070 1190 1280 960 1080 1200 1280 980 1090 1210 1300 1000 1110 1220 1310 1010 1110 1240 1360 1020 1120 1240 1380 1040 1130 1260 1420 1040 1140 1270 1460 1070 1180 1270 5) Calcule para cada uma das distribuições abaixo as seguintes medidas: a) de tendência central: média aritmética. a população total alcançou 93. 4. 4) Para os conjuntos de dados a seguir: a) Determinar o número de classes pela regra de Sturges b) Construir a tabela de frequências absolutas simples c) Determinar: c. 4.1.397.1. a população total foi 51.001 do sexo masculino.622.227 do sexo feminino. 32.20.204. desvio-padrão e variância 5.330. Pesos de recém-nascidos (em kg): 2.9. o quadragésimo centil e o nono decil para o conjunto de dados 5.4.68 24. Construa inicialmente um diagrama de dispersão. e y =a quantidade de água absorvida (variáveldependente). 1996 e 1997.5.000 DP 4.5.00 Máx 32.00 Min 8. 7) Os box plots a seguir mostram as distribuições de vendas de uma loja.5 6) Como parte de uma investigação sobre o efeito da variação de temperatura em ratos. Altura de 140 alunos (em cm): Estaturas (cm) No de Alunos 145|–150 2 150|–155 10 155|–160 27 160|–165 38 165|–170 27 170|–175 21 175|–180 8 180|–185 7 c) Calcule o primeiro quartil. Número de atendimentos em serviço médico por funcionários de uma empresa: No de Atendimento 0 1 2 3 4 TOTAL fi 24 21 3 51 1 50 5. responda: a) Que medidas podem ser calculadas a partir das que se encontram no quadro? b) Faça uma descrição rápida das principais diferenças entre o salário destes profissionais? Região A B Média 20.00 14. As informações pertinentes foram obtidas e encontram-se no quadro abaixo. Os resultados seguintes foram obtidos: Temperatura (o C) Água Absorvida (mg) 15 2794 20 2924 25 3175 30 3340 35 3576 Considere: x = temperatura (variável independente). Analise-os e descreva o comportamento dessas três distribuições: 1997 1996 1995 0 10 20 30 40 50 60 70 ( m ilh õ e s) 8) Decidiu-se investigar a distribuição salarial dos profissionais com nível universitário em duas regiões A e B.00 Q3 22. Com base nestes dados.00 Mediana 20.32 16. d) Avalie a assimetria do conjunto de dados 5.00 .5.00 34 Q1 17.00 42.00 6. Analise a correlação entre estas duas variáveis.000 20.00 Moda 20. referentes aos anos de 1995. a taxa de perda de água em um grupo de ratos foi determinada para um série de temperaturas pela absorção de água ocorrida em um particular tempo.15 17. expressas em salários mínimos.32 18. Hábito de fumar e sexo: Grupo Sanguíneo Sim Não TOTAL Sexo Masculino Feminino 20 60 25 75 45 135 TOTAL 80 100 180 9. LOPES. Lia Terezinha L. São Paulo: E. 1994. FONSECA. Wilton O . Emílio. Introdução à Estatística. Rio de Janeiro: Editora Campus Ltda. 1996. Editora Makron Books. 35 . 2a ed. GOTLIEB. 1 e 2. LAURENTI. UFBA. SOARES. Luiz Gonzaga. Bioestatística. 7a ed.P. SOUNIS. Estatística Básica. Arminda Lúcia. São Paulo: Editora McGraw-Hill do Brasil Ltda. Editora Atlas.2. 1990. 2a ed. Estatísticas de saúde. Bioestatística. Introdução à Estatística Médica. Gilberto de Andrade. Fevereiro. BUSSAB. UFMG. Introdução à Estatística. 3a ed. 7a ed. 4a ed. SOUZA. SIQUEIRA. Probabilidades e Estatística. Geraldo Luciano. Estatística Básica.. Pedro A .1. Mário. Curso de Estatística. BOTTER. et elii. Editora LTC. José Francisco. MORAES. 1980. Noções de estatística: Notas de aula. Departamento de Estatística. OVALLE. São Paulo: Atual Editora.1996. Estatística Básica. Instituto de Matemática e Estatística. 1980.P. 1979. 1987. São Paulo: Editora Pedagógica e Universitária Ltda.1999. 1999 VIEIRA. Sônia. USP. Belo Horizonte: Departamento de Estatística. 1a edição. Ivo Izidoro. MARTINS. São Paulo: Editora Atlas. Jairo Simon da. 1981. Paulo Afonso. TRIOLA. 1999 MORETTIN. Estado civil e aprovação no vestibular: Estado Civil Solteiro Casado Separado Outros TOTAL 5 Aprovado 120 45 180 255 600 Reprovado 80 55 120 145 400 TOTAL 200 100 300 400 1000 Bibliografia BERQUÓ.A . TOLEDO. Editora R.U. Notas de aulas (diversos). 1999. MORETTIN. Vols. et alii.9) Verifique se existe associação entre as duas variáveis dos exemplos a seguir: 9. Documents Similar To MAT027_Apostila1.pdfSkip carouselcarousel previouscarousel nextaula 11 - análise combinatória e probabilidade1 Ro Metemática 2016Apostila Modulo 1 2013(Estatística)Noções de estatística melhorada, francisco lindumeFt 5 Medidas de Tend CentralResumo Unidade II - Medidas de PosiçãoSumario_EstatisticaBasicaSimplificada_Carvalho.pdfApostila.estatística.2013 (2)4426477-Matematica-e-Realidade-Aula-08-551 (1)Exercícios de Estatística 2exercicios_de_estatistica_descritiva.docESTATÍSTICA DESCRITIVACO Barros Martins Pires 4a575479be9d2GAB Questoes de Prova SS[1]Temas a ProfessorAFRF_2005_Comentarios_Estatistica.pdfProva Pcdf_escrivão - Cespe 2013Aula 5 - Medidas de Tendência Central e Dispersão 2Estatística e Probabilidade 2(1)O Factor Casa No FutebolEstudo_Dirigido_-_Estatística_Aplicada_-_2014AssimetriaExercícios (Lista 02)ESTATISTICA REGULAR 14.pdfa Regular 13e Statistic ANotas de Aula 04lista do excel.xlsxEstatistica DescritivaEstat Med de Tend Central 3More From nonato1Skip carouselcarousel previouscarousel nextNovo Acordo Ortográfico Língua Portuguesa.pdf500 Questoes de Matematica Resolvidas.pdf500 Questoes de Matematica Resolvidas.pdfRegimentoInternoANAC.pdf128324527-Provas-Consultec-Matematica-Berg.docNocoes Direito Do TrabalhoTecnico-do-TRT-Questoes-Comentadas-2013-pdf.pdf149532487-PortugUES-FCC-Superior-Prova1-PACCO.pdfPortugues-Vestcom.pdfPoliticas-publicas-pdf.pdfRedacao-De-Correspondencias-Oficiais.pdfDistribuicao_de_Frequencia_MATA44.pdfWander-Garcia-Livro-2-MPU-questoes-comentadas.pdfNoções de contabilidade básica para cursos técnicos.pdfSimulado_INSS_2.pdfTabela_dist_QuiQuadrado.pdfCOSTA, Sérgio F. Introdução Ilustrada à Estatística (4.ª ed.). São Paulo. Harbra, 2005 cap 7.pdfTabela_dist_QuiQuadrado.pdfArquivologia-Para-Concursos-Renato-Valentini_series provas & concursos_.pdfContabilidade-PCMG-2013.pdfArquivologia.pdfMAT027_Apostila2.pdfTabela_dist_t.pdfDir-Eleitoral-area-judiciaria-TSE-Ricardo-Gomes-Aula-00.pdfAnac-lei11182-2010Controle-Externo-Lei.pdfDireito-Constitucional-Rodrigo-Colnago.pdfTabela_Normal_padrao.pdfArtigo_Arminda1999_Importancia_da_Estatistica.pdfFooter MenuBack To TopAboutAbout ScribdPressOur blogJoin our team!Contact UsJoin todayInvite FriendsGiftsLegalTermsPrivacyCopyrightSupportHelp / FAQAccessibilityPurchase helpAdChoicesPublishersSocial MediaCopyright © 2018 Scribd Inc. .Browse Books.Site Directory.Site Language: English中文EspañolالعربيةPortuguês日本語DeutschFrançaisTurkceРусский языкTiếng việtJęzyk polskiBahasa indonesiaSign up to vote on this titleUsefulNot usefulYou're Reading a Free PreviewDownloadClose DialogAre you sure?This action might not be possible to undo. Are you sure you want to continue?CANCELOK

Comments

Description