ESTATÍSTICA I1 Vamos conhecer um pouco mais de Estatística Leia o texto abaixo e veja como o ensino de estatística vem crescendo em todos os aspectos. PROJETO ENSINAR CONVERSA DE PROFESSORES: MÚLTIPLAS FACES, EXPERIÊNCIAS PLURAIS PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO / VICE-REITORIA ACADÊMICA _____________________________________________________________________ Um ensino significativo de Estatística RICARDO ROBERTO PLAZA TEIXEIRA Doutor em Ciências Professor do Departamento de Métodos e Técnicas/Faculdade de Psicologia da PUCSP _____________________________________________________________________ Durante julho de 2003, aconteceu no Rio de Janeiro o XI Seminário IASI (Inter American Statistical Institute) de Estatística Aplicada. O seu tema foi “Estatística na Educação e Educação em Estatística”. Estiveram presentes pesquisadores de diversos países e a discussão central girou em torno de como desenvolver o Raciocínio Estatístico e a Alfabetização Matemática, já que o dia-a-dia do nosso mundo está “transbordante” de dados estatísticos que muitas vezes são analisados erroneamente, levando a decisões equivocadas, devido justamente à falta de um raciocínio estatístico mais elaborado! A questão naturalmente é: como desenvolver em nossos alunos esse raciocínio estatístico, como alfabetizá-los na matemática? A matemática é - ou foi, na infância e na adolescência - algo de traumatizante na vida de uma grande parcela da população em nosso país. A sua desvinculação da realidade, a abstração pela abstração e a focalização no mais rígido formalismo, tudo isso transformou a matemática na mais odiada das disciplinas escolares! É claro que, por trás disso, há um círculo que se auto-alimenta: as crianças têm uma educação matemática descontextualizada, sofrem com isto, crescem aprendendo a evitar a matemática, não vendo finalidade alguma na sua aprendizagem e, muitos daqueles que mais a evitam, resolvem fazer um curso de graduação em Pedagogia, usando o argumento de que, nesse curso, não precisariam estudar matemática! Mas esse curso poderia ser um bom espaço para essas pessoas superarem os seus percalços se houvesse uma preocupação grande com a educação matemática. Infelizmente, espaços para isso acontecer são cada vez mais raros: diversos cursos de graduação em Pedagogia, pelo país afora, estão retirando de seu currículo, por exemplo, a Estatística, uma disciplina que poderia ajudar a viabilizar a tarefa de permitir que esses universitários superem os seus problemas com a Matemática. E a Estatística cai como uma luva para esse objetivo, já que, por ser a mais “impura” das Matemáticas, é, de certa maneira, aquela com maior potencial de contextualização do “impuro” mas real mundo em que vivemos! Essa expulsão da Estatística de muitos cursos de Pedagogia não aconteceu por acaso. Em muitos casos pelo país afora, professores universitários que ministravam essa disciplina para cursos superiores das Humanidades faziam um verdadeiro “estrago”, uma política de terra arrasada, ensinando uma Estatística “dura”, formal e sem vínculos com o cotidiano. Após reprovações em massa, conflitos repetidos, ressentimentos acumulados, muitos diretores e coordenadores de graduação devem ter resolvido tirar o “sofá” da sala, fazendo sumir a “Estatística” do currículo de seus cursos. O outro lado dessa moeda é o penúltimo lugar que o Brasil obteve no levantamento das habilidades em matemática do PISA (Programa Internacional de Avaliação de Estudantes), um “exame” realizado com adolescentes de 15 anos, em 41 países do globo. Portanto, é importante resgatar a Estatística em muitos cursos das chamadas Humanidades e, particularmente, no curso de Pedagogia, mas sem “terrorismos”, pois o excesso de dose no remédio, por melhor que seja a intenção, pode matar o paciente. 2 O problema aqui também se relaciona às Licenciaturas em Matemática que, em muitas das Universidades do país, são desprivilegiadas com relação ao bacharelado, como de resto acontece também com outras Licenciaturas. O “locus” da Licenciatura perde-se e, em muitos casos, os seus professores ministram cursos desvinculados totalmente do futuro profissional como educador daquele aluno de licenciatura. Conclusão: formação em massa de professores de matemática para a educação básica que agirão como seus professores universitários agiram com eles. Portanto, o problema da educação matemática permeia toda a nossa educação “de ponta a ponta” e só será resolvido com uma verdadeira mudança de cultura sobre o que seja ensinar matemática na educação fundamental, no ensino médio e na educação superior, mudança que não se faz da noite para o dia, mas que necessita, como toda caminhada, dos seus primeiros passos. Um dos grandes argumentos contrários aos pontos de vista aqui expostos é o de que todas essas outras ênfases, contextualizações e preocupações baixariam o nível dos conteúdos de matemática trabalhados com os alunos, diminuindo os padrões de nossa educação. Isso como se esses já não fossem catastróficos! É claro que ninguém está aqui propondo a diminuição desses “standards” mas, de forma concreta, será que não é pela falta de contextualização, que os alunos deixam de aprender e aprendem a odiar a matemática e tudo a ela relacionado, inclusive a estatística? O rigor a todo custo; o conteúdo “maximizado”, goela abaixo do aluno, de acordo com a máxima “quanto mais melhor”; a abstração sem retorno à realidade; tudo isto não estaria por trás dos nossos baixos índices de alfabetização matemática? Há níveis de rigor e há níveis de abstração que devem ser dosados conforme o público. Ou será que, para muitos professores, a matemática está acima do seu público? Essa desumanização dos alunos é também uma desumanização da própria matemática, já que ela acaba de nada tendo serventia para a maioria da população! O problema é: como mudar? Os próprios Parâmetros Curriculares Nacionais da Educação Básica apontam para a importância da Estatística, ressaltando inclusive que ela deve estar diluída em toda a formação básica de nossos jovens, desde as primeiras séries do Ensino Fundamental até o fim do Ensino Médio e, porque não, até a formação universitária dos que trilharem esse caminho. Isso com razão, pois é por meio de dados estatísticos que, muitas vezes, nós temos acesso a números e a quantificações em geral. Ensinar a interpretá-los corretamente é uma tarefa importante na educação de todo cidadão. Como contextualizar, então? Em primeiro lugar, usando criticamente a mídia: jornais, revistas, internet, TV, todos estão cheios de tabelas, gráficos e dados interessantes, motivadores e que permitirão, com solidez, enfoques didáticos que privilegiem o desenvolvimento e o conhecimento das técnicas estatísticas para tratamento de dados em geral. Em segundo lugar, utilizando os instrumentos tecnológicos disponíveis: “calculadoras de dez reais” que têm funções estatísticas básicas, programas acessíveis de computadores como a “Calculadora” da Microsoft e o Excel, ou mesmo programas mais sofisticados, quando possível, como o SPSS - que usamos com bons resultados na disciplina de Estatística para o curso de Psicologia da PUC-SP. Finalmente, valendo-se da História da Matemática e da própria Estatística, já que, sem conhecer a sua história, o conhecimento de nenhuma disciplina é realmente pleno e se perde todo o sabor da descoberta sobre o como as idéias científicas surgiram. Facilitar a aprendizagem da matemática pelo aluno jamais pode ser considerado equivalente a “facilitar na matéria para aprovar em massa os alunos”. Conseguir que um aluno aprenda a raciocinar matemática e estatisticamente deveria ser, sim, o nosso objetivo supremo, mesmo que não consigamos cumprir 100% do conteúdo planejado. Planejamento é planejamento; execução é outra coisa e exige flexibilidade! ESTATÍSTICA 3 1 - INTRODUÇÃO: 1.1 Definições: Definição 1: A Estatística trata dos métodos científicos para coleta, organização, descrição, análise e interpretação (conclusão) dos dados experimentais visando a tomada de decisões. “Estatística”, palavra de origem latina, significou por muito tempo “ciência dos negócios do Estado”. A Estatística pode ser dividida basicamente em 3 etapas: - - 1ª etapa: Coleta de dados a partir de uma amostra escolhida da população. Para esta primeira etapa estudaremos as técnicas de Amostragem. 2ª etapa: Análise descritiva (ou Estatística Dedutiva), que envolve a parte de resumo e interpretação dos dados por meio de tabelas, gráficos e medidas descritivas (quantidades). 3ª etapa: Escolha de um possível modelo explicativo para o comportamento do objeto em estudo, afim de se fazer, numa etapa posterior, a análise confirmatória dos dados, conhecida como inferência (ou Estatística Indutiva). Para esta última etapa, faz-se necessário a linguagem das probabilidades, para o esclarecimento de conclusões. Definição 2: Estatística Dedutiva trata da organização, sumário e apresentação gráfica dos dados. Definição 3: Estatística Indutiva consiste de métodos para tirar conclusões sobre uma população baseados em informações obtidas a partir de uma amostra da população. 1.2 População e Amostra Ao se coletar dados sobre as características de um conjunto de elementos, como por exemplo, os brinquedos produzidos por uma indústria, os carros que passam por um determinado farol ou as preferências da população sobre candidatos a uma determinada eleição, nem sempre é possível considerar todos os elementos, ou seja, toda a população ou universo. Considera-se, então, apenas uma pequena parte do todo, chamada amostra. No caso da eleição, a população é formada por todos os cidadãos com direito a voto e a amostra é formada pelos eleitores que serão entrevistados. Para se coletar uma amostra é preciso usar técnicas eficientes denominadas Técnicas de Amostragem que veremos mais adiante. Definição 4: População: População estatística é a coleção completa e total dos elementos (pessoas, medidas, itens, etc.) a serem considerados em um estudo estatístico. Definição 5: Amostra: é um subconjunto de uma população de interesse. 1.3 Variáveis: 4 preta. tipo de sangue (A.variável quantitativa (ou numérica). 3. . nº de filhos por família. 1. 2. Definição 7: Variável qualitativa é quando seus valores são expressos por atributos. peso. só assume valores inteiros. idade dos alunos de uma escola. altura. etc. etc. Tipos de variáveis: . ou seja. .. Definição 6: Variável é. parda. por exemplo: sexo (masculino – feminino). Variável quantitativa contínua: é uma variável que pode assumir qualquer valor dentro de dois limites. pois os resultados podem tomar um nº infinito de valores numéricos dentro de um determinado intervalo.para o fenômeno “estatura” temos uma situação diferente. - Variável quantitativa discreta: é uma variável que só pode assumir valores pertencentes a um conjunto enumerável. o conjunto de resultados possíveis de um fenômeno. cor da pele ( branca.). .Discreta. O). ou seja. - 1ª LISTA DE EXERCÍCIOS DE ESTATÍSTICA 5 . etc. . Definição 8: Variável quantitativa é quando seus valores são expressos em números. Tipos de variável quantitativa: . vermelha.A cada fenômeno corresponde um número de resultados possíveis. . . AB. pode assumir valores “quebrados” (decimais). convencionalmente.para o fenômeno “sexo” são dois os resultados possíveis: sexo masculino e feminino.Contínua.variável qualitativa (ou categórica). Assim por exemplo: .para o fenômeno “nº de filhos” há um nº de resultados possíveis expresso através dos números naturais: 0.. amarela. n. por exemplo: salários dos operários. B. 4-) Defina com suas palavras: a-) Estatística b-) Variável.1-) Classifique as variáveis em qualitativas ou quantitativas (discretas ou contínuas) a-) cor dos olhos b-) número de filhos c-) o ponto obtido em uma jogada d-) número de peças produzidas por hora e-) diâmetro externo 2-) Sugira uma população a cada uma das variáveis citadas no exercício 1. variável quantitativa e variável qualitativa c-) População d-) Amostra 6 . 3-) Ligue as variáveis abaixo com sua possível população de interesse: Variáveis a-) cor dos olhos b-) precipitação pluviométrica. diga quais são qualitativas. quantitativas discretas e quantitativas contínuas. (1 ano) c-) número de ações negociadas d-) salários e-) tamanho f-) sexo dos filhos g-) produção de algodão h-) comprimento i-) número de volumes j-) número de defeitos por unidade População 1-) aparelhos produzidos por uma linha de montagem 2-) seguimentos de reta 3-) casais residentes em uma cidade 4-) funcionários de uma empresa 5-) estação meteorológica de uma cidade 6-) alunos de uma escola 7-) bolsa de valores de uma escola 8-) pregos produzidos por uma máquina 9-) propriedades agrícolas do Brasil 10-) bibliotecas da cidade de São Paulo Em relação as variáveis. Tipos de freqüência: - Freqüência absoluta ou simplesmente freqüência (F): é o nº de vezes que cada dado aparece na pesquisa. p. Coutinho. determinando o nº de vezes que cada dado ocorre (freqüência) e a porcentagem com que aparece (freqüência relativa). Assim. Belo Horizonte. uma vez que não é possível a volta aos dados originais a partir da tabela. S. T.700 Mais de 8 salários mínimos 47. M.800 Fonte: Brasil em dados.1 Agrupamento em classes Como vimos no exemplo 1. quando necessitarmos de informações mais detalhadas sobre os dados da tabela. Distribuição de renda no Brasil . 40 Solução: 2.500 Total 791.860 De 4 a 8 salários mínimos 155.740 De 1 a 3 salários mínimos 363. complete a tabela de distribuição de freqüências encontrando as freqüências relativa e acumulada. Portanto podemos dizer que a variável renda foi dividida em “4 classes de freqüências”.E. Freqüência acumulada (Fa): é a soma de cada freqüência com as que lhe são anteriores na distribuição.2 – DISTRIBUIÇÃO POR FREQÜÊNCIAS Definição 9: Distribuição por freqüência é a tabela em que se resumem grandes quantidades de dados. defina qual é a variável em estudo e qual o tipo de variável. Exemplo 1: Dada a tabela abaixo. São elas: 7 . para representar a variável contínua “renda” foi necessário organizar os dados em classes. Depois. devemos usar algumas medidas obtidas a partir das classes de freqüências.1971 Faixa de renda Habitações Até um salário mínimo 224. Freqüência relativa ou percentual (Fr): é o cociente da freqüência absoluta pelo número total de dados. 1979. Iniciação à Estatística. e Cunha. O agrupamento em classes acarreta uma perda de informações. agrupando os dados em classes e depois tire as informações: . Limite superior (Ls): é o maior valor que a variável pode assumir em uma classe de freqüências. (iniciando por 150cm e terminando em 180cm) e responder as questões abaixo: a-) Quantos são os estudantes com estatura inferior a 160cm? b-) Que porcentagem de estudantes tem estatura igual ou superior a 175cm? c-) Quantos são os estudantes com estatura maior ou igual a 160cm e ao mesmo tempo menor que 175cm? d-) Qual a porcentagem de estudantes com estatura abaixo de 170cm? 8 . Ponto médio (Pm): o ponto médio de uma classe de freqüências é a média aritmética entre o Li e o Ls da mesma (classe).ponto médio para cada classe.amplitude total. Amplitude Total (ht): è a diferença entre o LS da última classe de freqüência com o LI da primeira classe.- Limite inferior (Li): é o menor valor que a variável pode assumir em uma classe de freqüências. . . temos: 2ª LISTA DE EXERCÍCIOS DE ESTATÍSTICA 1-) A partir das idades dos alunos de uma escola. Exemplo: Considerando o exemplo 1. fazer uma distribuição por freqüência.amplitude para cada classe. ou seja. 8 8 11 11 7 9 6 7 9 8 Idades (dados brutos) 9 7 8 10 10 12 15 13 12 6 5 10 6 9 8 6 7 11 9 2-) Em uma escola tomou-se a medida da altura de cada um de quarenta estudantes. obtendose os seguintes dados (em centímetros): 160 163 155 163 152 156 151 167 155 162 158 157 154 161 166 152 161 161 169 178 162 171 170 165 162 160 158 156 161 170 160 155 150 156 168 153 160 164 164 155 Fazer a distribuição de freqüência e usar 6 classes. Pm = Li + Ls . ou seja: ht = LS – LI. 2 - Amplitude (h): é a diferença entre o Ls e o Li da classe. ou seja: h = Ls – Li. Diagramas de área: . .3.Polígono de freqüências. Os eixos de um Polígono de freqüência são similares ao do Histograma. (Ver Exemplo 3 – Figura 4). MÉTODOS GRÁFICOS Objetivo: Facilitar a compreensão do fenômeno estatístico por meio do efeito visual imediato que lhe é próprio. .Gráficos de coluna. . 3. 3.1 Gráficos de linha: Sempre que as categorias utilizadas representarem um intervalo de tempo.Gráficos de barras.3.3.4 Histograma: Um Histograma é um diagrama de barras de uma distribuição de freqüência com uma diferença: não há espaços entre as barras. os dados podem ser descritos também através de um gráfico de linha.3. quantidades ou freqüências para diferentes categorias de dados. enquanto o diagrama de barras ilustra quantidades para qualquer tipo de categorias.5 Polígonos de Freqüência: O polígono de freqüência é um gráfico de linha de uma distribuição de freqüência. 3. exceto que no eixo horizontal são colocados os pontos médios de cada intervalo de classe.Histograma e .Gráficos de setores (ou gráfico de Pizza).3 Gráfico (ou Diagrama) de setores: O diagrama de setores.3. OBS: O gráfico de barras. os mais usados são: Gráficos de linha. 3. Um gráfico de linha retrata as mudanças nas quantidades com respeito ao tempo através de uma série de segmentos de reta 3. assim como sucede com os dados do exemplo 1 – Figura 1.3.6 Ogiva: Um Ogiva é um gráfico de uma distribuição de freqüência acumulada. (Ver Exemplo 3 – Figura 6) 9 . (Ver Exemplo 3 – Figura 5) 3. Os intervalos de classe são colocados no eixo horizontal enquanto as freqüências são colocadas no eixo vertical. (Ver Exemplo 2 – Figura 3). também é chamado de gráfico de colunas.1 Tipos de gráficos: Existem vários tipos de gráficos. (Ver Exemplo 1 – Figura 2) A diferença entre um diagrama de barras e um histograma é que o histograma refere-se sempre aos dados de uma distribuição de freqüências. é uma gráfico particularmente apropriado para representar as divisões de um montante total. Representação gráfica para as distribuições de freqüências: .3. 3. também conhecido como gráfico de Pizza. quando as barras estão dispostas no sentido vertical.Ogiva.2 Gráfico (ou Diagrama) de barras (ou colunas): O diagrama de barras representa por meio de uma série de barras. GRÁFICO DE SETORES Armas de fogo. 6.7 1970 38.1 1960 46. 2900.1980.500 foram causadas por veículos motorizados. GRÁFICO DE LINHAS 90 80 70 60 50 40 30 20 10 0 18721890192019401950A NO 1960197019801990- b-) um gráfico de barras (ou colunas).200 mortes por acidentes nos EUA.200 por incêndios.400 por armas de fogo (com base em dados do Conselho de Segurança Nacional). 9% 10 . 12. 6400. 4200. temos os seguintes dados. e 1. 2. 4600. 1400.400 por envenenamento.1960. 43500.900 por ingestão de alimentos ou de um objeto.9 1990 26. Descrever estes dados através de um gráfico de setores.1940. 57% 2% Ingestçao de alimentos ou objeto. G R Á F IC O D E B A R R A S 90 80 70 60 50 40 30 20 10 0 1872.5 Construa: a-) um gráfico de linha. 4. em um ano recente.7 1980 31. Veiculo Motorizado. sobre o analfabetismo no Brasil: ANO % 1872 82. em termos percentuais. 43.600 por afogamento.1970.3 1890 82.1 1950 57.1920.2 1940 61. 4. 6% Quedas. 6% Envenenamento. 16% Afogamento.200 por quedas.1890.6 1920 71.1990ANO Exemplo 2: De 75. 4% Incêndio.Exemplo 1: De acordo com os dados dos censos demográficos do FIBGE. 12200.1950. 00 |.11000.00 12000.00 |.00 14000.12000.14000. Absoluta (F) 18 31 15 3 1 1 1 70 Freq.00 9000.9000.00 |.00 11000.00 |.Exemplo 3: A tabela abaixo representa o salário de famílias de uma pequena comunidade.15000. Salário (em reais) 8000.00 |.00 |. HISTOGRAM A 35 30 25 20 15 10 5 0 0 0-8000 8000-9000 9000-10000 Freq.00 Total Construa com estes dados: a-) um Histograma.00 10000.00 |.10000. Acumulada (Fa) 18 49 64 67 68 69 70 31 18 15 3 1 1 1 14000-15000 10000-11000 11000-12000 12000-13000 13000-14000 SA LÁ R IOS (EM R EA IS) b-) Um polígono de freqüências POLÍGONO DE FREQÜÊNCIAS 35 30 25 20 15 10 5 0 0 0-8000 8000-9000 31 18 15 3 1 1 1 9000-10000 10000-11000 11000-1200012000-13000 13000-14000 14000-15000 SA LÁ R IOS (E M R E A IS ) c-) Um Ogiva OGIV A 80 70 60 50 40 30 20 10 0 80009000100001100012000130001400015000- SA LÁ R IOS (E M R E A IS) 11 .13000.00 13000. As outras medidas de posição são as separatrizes. Para dados não-agrupados (Quando os dados não estiverem na forma de distribuição de freqüência) 4.há valores extremos que afetam de uma maneira acentuada a média. a mediana de um conjunto de valores.2 Moda (Mo): Denominamos moda de um conjunto de dados o valor (ou valores) que ocorre com maior freqüência.os percentis.4. então a mediana será exatamente o valor “do meio” . 4. isto é. que englobam: .3 Mediana (Md).a moda. Dentre as medidas de tendência central.a média aritmética.: o salário modal dos empregados de uma indústria é o salário mais comum.a mediana. em geral.Se o nº de elementos for par.desejamos obter o ponto que divide a distribuição em partes iguais. é o valor situado de tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos. . então a mediana será exatamente a média “dos dois valores do meio”. . destacamos: . MEDIDAS DE POSIÇÃO Definição 11: As medidas de posição mais importantes são as medidas de tendência central. Por ex.Se o nº de elementos for ímpar. . n = o número de valores.a variável em estudo é salário. Em outras palavras. . . Emprego da Mediana Empregamos a mediana quando: . que recebem tal denominação pelo fato de os dados observados tenderem. ordenados. . estando estes dispostos segundo uma ordem. o salário recebido pelo maior número de empregados dessa indústria.: A mediana é outra medida de posição definida como o número que se encontra no centro de uma série de números.os quartis. x i = os valores da variável.1 Média aritmética ( x ): é o quociente da divisão da soma dos valores (dados. a se agrupar em torno dos valores centrais. observações) da variável pelo número deles: x= ∑x i =1 n i n sendo: x = a média aritmética.a própria mediana. 4.. Obs: . 12 . ou seja. 16. não há valor de moda para este exemplo. pergunta-se: Encontre a média. + 12 98 = = 14 7 7 Logo. 13. 13 . 18 e 12 litros. durante uma semana.Exemplo: Sabendo-se que a produção leiteira diária da vaca A. 14. o que nos leva a calcular a média aritmética ponderada. dada pela fórmula: x= ∑x f i =1 n n i i ∑f i =1 i OBS. como as freqüências são números indicadores da intensidade de cada valor da variável. a moda e a mediana para a produção diária de leite desta vaca. Nestes casos. 14 litros de leite por dia Para dados agrupados (Quando os dados estiverem na forma de distribuição de freqüência) Quando os dados estiverem agrupados. o valor mediano é o valor central dos dados. Média: n x= ∑x i =1 i n = 10 + 14 + 13 + 15 + 16 + 18. x = 14 litros de leite em média por dia que representa uma produção de 98 litros de leite em média por semana.: a média pode ser um número diferente de todos os valores da amostra que ela representa. Mediana: Ordenando os dados temos: 10 12 13 14 15 16 18 Desta forma. foi de: 10. ou seja. 15. elas funcionam como fatores de ponderação. na forma de distribuição de freqüências a forma de calcular a média aritmética muda um pouco.: A moda e a mediana são encontradas teoricamente da mesma forma citada anteriormente. OBS. Moda: Como não existe um valor que aparece com maior freqüência que os outros. como interpretar o resultado obtido. a variável de interesse já está ordenada. assim temos: n ∑x f i =1 n i i ∑f i =1 . quando os dados estão tabelados. já que estamos trabalhando com dados i ∑x f n ∑f i= 1 i= 1 n i i = i = Portanto. que o maior número de famílias com 4 filhos tem 2 meninos e 2 meninas. sendo. a tendência geral de uma leve superioridade numérica em relação ao número de meninos. Neste exemplo temos que a mediana é de 2 meninos. x = ∑x f i =1 n n i i ∑f i =1 = 78 = 2. porém. 34 i Interpretação: Sendo x uma variável discreta.3 .29 ≈ 2.3) de menino? O valor médio 2. Moda: O valor encontrado com maior freqüência para este conjunto de dados é de 3 meninos por família de 4 filhos. Mediana: Geralmente. 2 filhos e 3 décimos (ou 0. 14 . a moda e a mediana do nº de meninos por família? Solução: Média: Devemos usar a fórmula x = agrupados.3 meninos sugere. Portanto. tomando para variável o número de filhos do sexo masculino: Nº de meninos 0 1 2 3 4 fi xifi f ∑ 2 6 10 12 4 i =34 Qual é a média. basta encontrar o valor central dos dados.Exemplos: 1-) Consideremos a distribuição relativa a 34 famílias de quatro filhos. 1050 1050 |. a moda e a mediana da seguinte distribuição de freqüência e interprete os resultados obtidos: Custos R$ Classes de fr.650 650 |.2-) Calcule a média.1150 Total Solução Pm ( xi ) 500 600 700 800 900 1000 1100 fi xifi 8 10 11 16 13 5 1 64 15 .750 750 |. 450 |.850 850 |.950 950 |.550 550 |. 00. Faixas 7 |. 80. R$220. a estatura mediana e a moda dos alunos desta sala? 2-) Num estudo sobre consumo de combustível.154 154 |.8 8 |.00. Estaturas (cm) 150 |.00 e R$750. A informação obtida é apresentada na tabela abaixo em Km/litro.9 9 |-10 10 |.158 158 |.00 R$1200. 4-) A pulsação de 10 estudantes após exercícios físicos foram as seguintes (em batimentos por minuto): 80.00. Determine a média a moda e a mediana e interprete os resultados. Determine a média a moda e a mediana e interprete os resultados.11 11 |.3ª LISTA DE EXERCÍCIOS DE ESTATÍSTICA 1-) Considere a distribuição de freqüências das estaturas de 40 alunos de uma determinada classe de 8ª série.162 162 |. 86. 200 automóveis do mesmo ano e modelo tiveram seu consumo observado durante 1000 quilômetros.174 Total fi xifi 4 9 11 8 5 3 40 Pergunta-se: qual a estatura média. 91. R$253. 16 .12 Freqüência 27 29 46 43 55 Determine: a-) Qual a variável em estudo? Esta variável é discreta ou contínua? b-) A média aritmética. 3-) Os salários-hora de sete funcionários de uma companhia são: R$180.00. a mediana e a moda da variável em estudo. 89. 84. R$220. Interprete os resultados. c-) Construa um histograma para os dados.166 166 |.170 170 |. 85 e 86.00 e R$192. O segundo quartil (Q 2 ) : é exatamente o valor da mediana. ou seja. P 25 = Q 1 e P 75 = Q 3 4. 5. As medidas de dispersão que nos interessam são: . Mas a informação contida fornecida pelas medidas de posição necessita em geral ser complementada pelas medidas de dispersão. . mas estão ligadas à mediana relativamente à sua Segunda característica.4.2 Percentis: denominamos percentis os noventa e nove valores que separam uma série em 100 partes iguais. já que se baseiam em sua posição na série (no conjunto de dados). . cada uma delas contém 10% dos dados. num único número. Estas servem para indicar o quanto os dados se apresentam dispersos em torno da região central. São elas: . são os dez valores que dividem a série em 10 partes iguais.o desvio-padrão. onde P 50 = Md = Q 2 .e o coeficiente de variação. . P99 . o grau de variação existente no conjunto de valores. ou seja: P1 .4. não são medidas de tendência central. Caracterizam. portanto. Há. P3 .4. portanto. 17 . há outras que. três quartis: O primeiro quartil (Q 1 ) : é o valor situado de tal modo na série que uma quarta parte (25%) dos dados é menor que ele e as três quartas partes restantes (75%) são maiores.4. consideradas individualmente. P2 . .4 As Separatrizes Definição 12: Além das medidas de posição. 4. - - 4. O terceiro quartil (Q 3 ) : é o valor situado de tal modo na série que as três quartas partes (75%) dos dados são menores que ele e uma quarta parte restante (25%) é maior. onde.Os decis.os percentis. o valor situado de tal modo na série que deixa metade (50%) dos dados a esquerda dele e a outra metade à direita (Q 2 =Md). aquilo que é “médio” ou “típico” de um conjunto de dados.os quartis.1 Quartis: denominamos quartis os valores de uma série que a dividem em quatro partes iguais. MEDIDAS DE DISPERSÃO OU DE VARIABILIDADE Definição 13: Vimos que a moda a mediana e a média podiam ser usadas para resumir.a variância.3 Decis: os decis por sua vez.a amplitude total. . . 00 (serem constantes.4ºC) e alta em julho e agosto (bem perto de 37. quanto menor essas medidas. maiores oportunidades para prisões. tanto ladrões quanto professores secundários tenham uma renda média anual de R$ 900. enquanto que as dos ladrões espalham-se mais (são descontínuas. apresentar-se baixa em janeiro (cerca de 4.1ºC e 26. Este “índice” é uma medida indicativa do que costumamos chamar de variabilidade (ou dispersão). portanto. Para ilustrar a necessidade de conhecermos as medidas de dispersão de um conjunto de dados iremos introduzir alguns exemplos: Exemplo 1: Sabe-se que em Honolulu (Havaí) e Houston (Texas) a temperatura média diária é quase a mesma em torno de aproximadamente 23. e ao contrário. 18 . Pergunta-se: Será que. Desnecessário dizer que as praias em Houston não estão abarrotadas de gente o ano todo! Exemplo 2: Suponham que. desemprego. e muito. num outro aspecto importante que é o fato de as rendas dos professores concentrar-se ao redor de R$ 900. numa particular cidade. pobreza e. heterogêneas). Tais fatos demonstram que necessitamos.9ºC.00. de um índice que indique o grau de dispersão dos dados em torno da média. Por outro lado. poder-se-ia descobrir que elas diferem.8ºC). Será que essa informação indica que as duas distribuições de renda são necessariamente semelhantes? Muito ao contrário. isto é. por isso. fortunas excepcionais. o que reflete. mais heterogêneos são os dados.7ºC. a temperatura em Houston pode diferir estacionalmente. em alguns casos. oscilando. homogêneas). mais homogêneo o conjunto. podemos admitir que a temperatura é basicamente a mesma em ambas as localidades? Ou não será possível que enquanto uma cidade é melhor para natação a outra o seja para atividades externas? Como ilustra a figura 1.OBS: Quanto maior as medidas de dispersão. além de uma medida de tendência central. em geral. entre 21. a Temperatura em Honolulu varia muito pouco ao longo do ano. 2 Desvio-Padrão (S): o desvio-padrão é a medida mais usada na comparação de diferenças entre grupos. Da mesma forma podemos dizer que a distribuição de rendas entre professores apresenta menos variabilidade do que a distribuição de rendas entre ladrões. Sua formulação é dada pela raiz quadrada da média aritmética dos quadrados dos desvios. 50. Para quantificar o quão os dados são heterogêneos precisamos encontrar algumas medidas de posição. 70. Existem várias medidas de dispersão que envolvem os desvios. obtemos: X =70 Y = 70 Z =70 Vemos então. 15. 120. são elas: o desvio-padrão. 69. entretanto é fácil notar que o conjunto X é mais homogêneo que os conjuntos Y e Z. Assim sendo. 70. 70. Y: 68.Voltando ao exemplo 1. Uma idéia inicial é considerar o desvio de cada observação em relação a média aritmética do conjunto de dados. Daí surgem as outras medidas de variabilidade. 70. 5. poderíamos dizer que a distribuição de temperatura em Houston (Texas) tem maior variabilidade do que a distribuição de temperaturas em Honolulu (Havaí). seria mais conveniente considerarmos uma medida que utilizasse todas as observações.1 Amplitude total (R): a amplitude total é a diferença entre o maior e o menor valor observado: R = x ( máx . assim. São elas: 5. Calculando a média aritmética de cada um destes conjuntos. Considere os seguintes conjuntos de valores das variáveis X. 70.) OBS: A amplitude só leva em conta dois valores de todo o conjunto de dados e. que os três conjuntos apresentam a mesma média aritmética: 70. Vamos definir a palavra desvio em estatística: Definição 14: o desvio é definido como sendo a distância entre qualquer valor do conjunto de dados em relação a média aritmética do conjunto de dados. Y e Z: X: 70.) − x ( mín . vejamos as definições das medidas de dispersão e uma aplicação simples dela para exemplificar. 71. Ele determina a dispersão dos valores em relação a média. a variância e o coeficiente de variação. ou seja: S= ∑ (x i =1 n i − x) 2 = n −1 (x1 − x) 2 + (x 2 − x) 2 + + (x n − x) 2 n −1 19 . por ser mais precisa e estar na mesma medida do conjunto de dados. Z: 5. 72. 160. 5. ou seja. Por último. 13. Portanto não vamos trabalhar com esta medida constantemente. Para dados não-agrupados (Quando os dados não estiverem na forma de distribuição de freqüência) Exemplo: Sabendo-se que a produção leiteira diária da vaca A. a maior variação do número de litros de leite produzidos por dia pela vaquinha A é de 8 litros. o desvio-padrão (S). x i é cada uma das observações do conjunto de dados.4 Coeficiente de Variação (cv):. pede-se calcular a amplitude. OBS: Sabemos que a média para estes dados é: x = 14 litros de leite por dia Desvio-padrão: 20 . 16. foi de: 10. Solução: Amplitude: R= 18 – 10 = 8 litros de leite ou seja.O coeficiente de variação (cv) é definido como o quociente entre o desvio-padrão e a média. do desvio-padrão. x é a média do conjunto de dados e n é o número total de observações do conjunto de dados. durante uma semana. temos: 5. da variância e do coeficiente de variação utilizando os mesmos exemplos anteriores (aqueles utilizados para exemplificar as medidas de posição). 2 2 S = (S) = n ∑( x i − x ) ∑( x i − x ) 2 i =1 i= 1 = n −1 n −1 n 2 2 A variância não é uma medida conveniente de ser usada pois expressa o seu resultado numa medida ao quadrado. a variância ( S 2 ) e o coeficiente de variação (cv).onde.3 Variância ( S 2 ): a variância nada mais é do que o valor do desvio-padrão elevado ao quadrado. cv = S x Vamos exemplificar o cálculo da amplitude. 18 e 12 litros. 15. (Ele mede o “grau” de variabilidade do conjunto de dados). É freqüentemente expresso em porcentagem. 14. tomando para variável o número de filhos do sexo masculino: Nº de meninos ( xi ) 0 1 2 3 4 fi ( x i − x) (0-2.06 Calcule a amplitude.58 6(1.93% dos dados em x 14 relação a média.14 10(0.7) 2 =0.3)=1.88 4(2.S= ∑ (x i =1 n i − x) 2 = n −1 (x1 − x) 2 + (x 2 − x) 2 + + (x n − x) 2 = n −1 = = (10 − 14 ) 2 + (14 − 14 ) 2 + (13 − 14 ) 2 + (15 − 14 ) 2 + (16 − 14 ) 2 + (18 − 14 ) 2 + (12 − 14 ) 2 = 7 −1 ( − 4) 2 + ( 0) 2 + ( − 1) 2 + (1) 2 + ( 2) 2 + ( 4) 2 + ( − 2) 2 6 = 16 + 0 + 1 + 1 + 4 + 16 + 4 = 6 42 = 6 = 7 ≅ 2.3) 2 =0.7 (1.69)=10.09)=0.3 ( xi − x) 2 fi ( x i − x) 2 2 6 10 12 4 i f ∑ (-2. a variância ( S 2 ) e o coeficiente de variação (cv).65 litros de leite por semana Variância: S 2 = ( S ) 2 = ( 2.3)=-1.3)=0.3) 2 =1.3) 2 =5.49 (4-2.7 (0.9 12(0.3 (-1.89)=11. Solução: 21 .3)=-0.65 = = 0.65 ) 2 ≅ 7(litros de leite) 2 Coeficiente de variação: cv = S 2.56 2 ∑f i ( x i − x ) =39. Para dados agrupados (Quando os dados estiverem na forma de distribuição de freqüência) Para o Exemplo 1 temos: Exemplo 1: Consideremos a distribuição relativa a 34 famílias de quatro filhos.1893 ou seja.69 (2-2.89 =34 2(5.7) 2 =2.3)=-2.3 (-0.29)=10.29 (1-2.09 (3-2. existe uma variabilidade de 18. o desvio-padrão (S).49)=5. 58 +10 .4730 ou seja.088 ≅ 1 filho 33 ou seja.69 ) +10 (0.3) 2 + 6(1 − 2.088 = ≅ 0.56 = 33 39 . (variabilidade alta). existe uma variabilidade de 47.29 ) + 6(1.3 ± 1 = (1.088 ) ≅ 1.49 ) + 4( 2. Exemplo 2: Considere a seguinte distribuição de freqüência referente aos salários de operários de uma determinada fábrica: 22 .3 com uma variabilidade de aproximadamente 1 filho.09 ) +12 (0.Amplitude: R= 4 – 0 = 4 meninos ou seja. Coeficiente de variação: cv = S 1.7 ) + 4(1. a maior variação encontrada neste conjunto de dados é de 4 meninos. a maior parte das famílias com 4 filhos têm entre: 2.3) +12 ( 0.7 ) 33 2 2 2 2 2 = = 2(5.88 +11.3) + 6( −1.1836 ≅ 1.30% dos dados em x 2.3) + 4( 4 − 2.14 + 0.3 filhos Desvio-padrão: S= = = = = ∑ f (x i =1 i n i − x)2 = n −1 f1 ( x 1 − x ) 2 + f 2 (x 2 − x ) 2 + + f n ( x n − x ) 2 = n −1 2 2 2 2(0 − 2. .3) +12 ( 3 − 2.3) Variância: S 2 = (S) 2 = (1.3) 2 +10 ( 2 − 2. OBS: Sabemos que a média para este conjunto de dados é x =2.3 relação a média.3) +10 ( − 0.9 + 5.3 e 3.06 = 1.89 ) = 33 10 . o número médio de filhos homens por família de 4 filhos é de 2.1837 (filhos homens) 2 2 ≅ (1 e 3) filhos homens. ou seja.3) 34 −1 2( − 2. 2 10(23925.90)= 32862.32 ) 2 + 1( 345 .68) 2 = 23925.90 + 16 (2053 .1050 1050 |.90 fi ( x i − x) 2 8(64861.32) 2 = 60181. Solução: Amplitude: R= 1150 – 450 = 700 ou seja.68)= 45.0 + 32888 .32 ) 2 + 5( 245 .9 ∑f ( x i i − x) 2 =1518593.68)= -54.68)= -254.90 ) + 10 (23925 .90 ) + 5(60181 .5 1(119245.68 ) 2 + 11( − 54 .90)= 518895.90 (-154.68 ) 2 + 11( 700 − 754 .68 ) 2 + 13 ( 900 − 754 .0 11(2989.650 650 |.68) 2 = 64861.750 750 |.32 (1000-754. OBS: Sabemos que a média para este conjunto de dados é x =754.90 (-54.90 (45.68)= 245.90 1518593 .68) 2 = 2989.32) 2 = 119245.90 (145.68 ) 2 + 10 ( −154 .90)= 32888.32 ( xi − x) 2 (-254.90 ) = 63 518895 .550 550 |.68 ) 2 + 5(10 64 −1 8( − 254 .40 + 274532 .68)= -154.5 + 119245 .32 (1100-754.70 + 300909 .32 (900-754. ) 450 |.Custos R$ Pm ( x i Classes de fr.32) 2 = 21117.90 (245.68 (600-754.2 + 239259 .32 ) 2 = 63 8(64861 . o desvio-padrão (S).68 ) 2 + 16 ( 45 .90 + 13 (21227 .68)= 145. a maior diferença existente entre os salários dos operários desta determinada fábrica é de R$ 700.850 850 |.90 + 32862 .68 (700-754.90)= 119245.68)= 345.1150 Total 500 600 700 800 900 1000 1100 fi 8 10 11 16 13 5 1 64 ( x i − x) (500-754.68 ) 2 + 16 (800 − 754 .60 ≅ = 63 63 241 23 .69 filhos Desvio-padrão: S= = = = ∑f i (x i − x) 2 = i =1 n −1 n f1 ( x 1 − x ) 2 + f 2 ( x 2 − x ) 2 + + f n ( x n − x ) 2 = n −1 8( 500 − 754 .950 950 |.90 (345.68 (800-754.6 Calcule a amplitude.7 5(60181.90)= 239259.90)= 300909. a variância ( S 2 ) e o coeficiente de variação (cv).90 ) + 11(2989 .32 ) 2 + 13 (145 .00.9 16(2053.90)= 274532.68 ) 2 + 10 ( 600 − 754 .4 13(21117.32) 2 = 2053.90 ) + 1(119245 . encontre: a-) A amplitude.68 com uma variabilidade de aproximadamente R$155.57% dos dados em x 754 .42 e 909.94) reais. b). c-) A variância e d-) O coeficiente de variação. c) e d).26.26 = (599. Variância: S 2 = (S) 2 = (155 . a maior parte dos operários recebem entre: 754. ou seja. 24 . b-) O desvio-padrão.2057 ou seja.26 ) ≅ 24104 .26 = ≅ 0. 4ª LISTA DE EXERCÍCIOS DE ESTATÍSTICA 1-) Para todos os exercícios da 3ª lista.68 ± 155. o número médio de salários é de R$754. existe uma variabilidade de 20.68 relação a média.ou seja. e-) Interprete os resultados obtidos nos itens a).66 (reais) 2 2 Coeficiente de variação: cv = S 155 . devemos substituí-lo pois não existe o elemento de número 856 na população.numeramos a população de 001 a 800.2 Tipos de técnicas de amostragem não-probabilística: .6. TÉCNICAS DE AMOSTRAGEM Em amostragem. a seguir.Amostragens intencionais Definições das técnicas de amostragem probabilística 6. os quais corresponderão aos elementos sorteados para a amostra. Tipos de amostragem: probabilística e não-probabilística.Inacessibilidade a toda população . ou seja. Definição 15: A amostragem será probabilística se todos os elementos da população tiverem probabilidade conhecida e diferente de zero.1 Tipos de técnicas de amostragem probabilística: . . 6. OBS: Se o número 856 for sorteado.Amostragem por meio de conglomerados . de forma aleatória. Ex: Seja uma população de 800 elementos da qual desejamos tirar uma amostra casual simples de 50 elementos.Usar uma tabela de números aleatórios escolhendo (ou sorteando) uma linha e uma coluna da tabela e pegando os números com 3 algarismos subsequentes. Caso contrário a amostragem será não probabilística.Amostragem sistemática .1. os quais irão indicar os elementos da amostra.Amostragem casual simples . é necessário garantir que a amostra seja representativa da população.1. 6.Amostragem a esmo ou sem norma . Procedimento: . a amostra deve possuir as mesmas características básicas da população.1 Amostragem casual simples É feita quando todos os elementos da população têm a mesma chance (ou probabilidade igual) de pertencer à amostra. no processo de amostragem.2 Amostragem sistemática 25 .Amostragem estratificada 6. sendo os números tomados sempre de 3 algarismos. de pertencer à amostra. Na prática a amostragem casual simples é realizada numerando-se a população de 1 a N e sorteando-se. n números dessa sequência. renda familiar. a qual consiste em sortear um número suficiente de conglomerados. cujos elementos constituirão a amostra.4 Amostragem estratificada Muitas vezes a população se divide em subpopulações ou estratos. o número de elementos sorteados em cada estrato é proporcional ao número de elementos existente no extrato. População: todo cidadão que mora no Brasil Estrato: cada Estado do Brasil Amostra: nº x de elementos proporcional a cada estado Definições das técnicas de amostragem não-probabilística 6. os 49 que faltarão serão encontrados. 50 a partir do 16º elemento. então somos obrigados a realizar o trabalho estatístico somente na parte acessível. por exemplo. é possível e até conveniente fazer-se a amostragem por meio desses conglomerados.1: Inacessibilidade a toda população Nem sempre temos acesso a toda população. População: todos os indivíduos que moram na favela da Rocinha Conglomerado: cada barraco da favela Amostra: ordeno os barracos e sorteio (amostragem casual simples) um determinado número deles. Ex: Usando o exemplo anterior. Ex: Suponha a produção de peças por uma máquina População: todas as peças produzidas por esta máquina.1. A amostragem estratificada consiste em especificar quantos elementos da amostra serão retirados em cada estrato. Ex: Estudar uma determinada característica do povo brasileiro.1. 26 .2. 6. poderíamos utilizar a amostragem sistemática da seguinte forma: 800 = 16 que será o 1º elemento da amostra. OBS: Cuidados com ciclos de variação.3 Amostragem por meio de conglomerados Quando a população apresenta uma subdivisão em pequenos grupos. Cada indivíduo de dentro do barraco sorteado fará parte da minha amostra. Geralmente.É feita quando os elementos da população se apresentam ordenados e a retirada dos elementos da amostra é feita periodicamente. chamados conglomerados. Ex: Suponhamos que desejamos estudar alguma característica dos indivíduos que moram na favela da Rocinha. onde a população é composta de 800 elementos ordenados. retirados de 16 em 16. 6. 2.000. pois existem peças que já foram repassadas. 6. 6. 27 . usar algum dispositivo aleatório confiável. por julgar tais elementos bem representativos da população. pois seria extremamente trabalhosa. Amostra: os melhores alunos da sala. desta forma faríamos a retirada a esmo. evidentemente não faremos uma amostragem casual simples. peças que estão sendo produzidas (tenho acesso) e peças que ainda serão produzidas. no entanto. Ex: Avaliar o quanto determinada disciplina está sendo bem dada.3 Amostragens Intencionais É quando o amostrador deliberadamente escolhe certos elementos para pertencer à amostra.Problema: não tenho acesso a todas as peças. ou sistemática na parte da população que tenho acesso. População: todos os alunos que fazem determinada disciplina. para simplificar o processo.2. Ex: Suponha que desejamos retirar uma amostra de 100 parafusos de uma caixa contendo 10. procura ser aleatório sem.2 Amostragem a esmo ou sem norma É a amostragem em que o amostrador. Amostra: pode-se usar amostra casual simples. Qual o número total de elementos da amostra? 3-) Uma amostragem entre os moradores de uma cidade é realizada da seguinte forma: em cada subdistrito. sorteia-se um certo número de quarteirões proporcional à área do subdistrito.0 8.5 6.5 3. são sorteadas cinco residências.5ª LISTA DE EXERCÍCIOS DE ESTATÍSTICA 1-) Os números seguintes representam as notas de Estatística de trinta alunos.0 4.5 7.0 4. com início no dígito situado na interseção da Quinta linha com a oitava coluna da referida tabela. a) Essa amostra será representativa da população ou poderá apresentar algum vício? b) Que tipos de amostragem foram usados no procedimento? 4-) Uma indústria especializada em montagem de grandes equipamentos industriais recebeu setenta dispositivos de controle do fornecedor A e outros trinta dispositivos do fornecedor B.0 7. A6. doze elementos da amostra foram retirados do primeiro estrato. tal como se lê um livro): 33 35 35 34 34 33 36 39 40 39 38 34 33 35 34 32 36 40 41 40 34 30 33 34 36 34 33 40 45 41 34 37 34 33 35 35 34 42 41 40 34 36 31 31 34 37 33 39 40 40 31 33 32 35 33 35 32 38 39 42 36 34 36 35 32 35 31 40 41 39 35 34 33 35 38 30 37 40 41 39 32 32 29 37 34 35 35 40 40 38 37 39 36 32 33 34 34 40 42 40 a-) Uma amostra simples.0 3.5 4. de dez dispositivos foi retirada da população de 100 dispositivos. A seguir. relativo a esses dispositivos. foi calculada a resistência elétrica média da amostra de dez dispositivos.5 2.5 6.5 0.5 3.0 3. polígono de frequências. A variável é contínua ou discreta? 5. com auxílio dos números aleatórios da Tab.5 2-) Uma população se encontra dividida em três estratos. a média e o desvio-padrão dos dados. Ao se realizar uma amostragem estratificada proporcional.5 4. e que os setenta primeiros foram os recebidos do fornecedor ª Vamos admitir. ao acaso.5 5. Vamos admitir que os cem dispositivos foram numerados de 1 a 100 ao darem entrada no almoxarifado.0 7. O processo de utilização da tabela foi o usual.7. Construa o histograma. de cada quarteirão. N 2 = 120 e N 3 = 60 . também. cujos moradores são entrevistados.0 2.5 4.0 9.5 4. respectivamente na ordem de entrada no almoxarifado (lê-se segundo as linhas. com tamanhos respetivamente.5 6.5 4.5 5.0 4. é a resistência elétrica de certo componente crítico.0 4.0 4. N1 = 80 . que se deseja controlar. que os valores reais da variável de interesse (a resistência elétrica do componente crítico) dos cem dispositivos recebidos sejam os dados seguintes.0 9. O aspecto relevante. Que valor você acha que foi obtido para essa média? 28 .0 4. e que tivessem sido obtidos. 6-) Consideremos um estudo realizado em propriedades rurais de um município. Área (ha) 0 ├ 20 20 ├50 50 ├ 100 100 ├ 200 200 ├ 400 Total N° de propriedades 500 320 100 50 30 1000 Amostra estratificada (n=50) Uniforme Proporcional 50 50 a-) Qual deverá ser o tamanho da amostra dentro de cada estrato no caso uniforme e no proporcional? 29 . conforme Tabela 1 e que neste município sejam amostrados 50 propriedades. ainda utilizando os números aleatórios.2 . em seguida. seria isso razoável. Em sua opinião. dos setenta dispositivos provenientes do fornecedor A. sendo constante o período de retirada dos elementos para a amostra. Tabela 1: Distribuição do n° de propriedades rurais de um município qualquer. composto por 1000 propriedades rurais. num total ainda de dez dispositivos examinados. entre 3800 sinistros reportados ‘a companhia durante certo tempo. sua média ponderada. Para estimar o valor médio desses sinistros. Calcule a média dos valores da resistência elétrica observados nessa amostra. a companhia extrai uma amostra de 1%. indique como você procederia . tomando como pesos os dois tamanhos de estratos N1 = 2600 e N2 = 1200. 2600 são sinistros pequenos (inferiores a $200). quanto a área e n° de propriedades a serem amostradas por estrato (classes). tenha sido colhida uma amostra sistemática de dez dispositivos. Em quanto você estimaria a média da população de cem dispositivos? d-) Suponha agora que. respectivamente. alocada proporcionalmente aos dois estratos.8 e x 2 = 40 . distribuídas. no primeiro e no segundo estratos. x1 =33 .b-) Suponha agora que se pensasse em fazer amostragem estratificada. com os resultados seguintes (arredondados para o dólar mais próximo): Sinistros pequenos 42 115 63 78 45 148 195 66 18 73 55 89 170 41 92 103 22 138 49 62 88 113 29 71 58 83 Sinistros grandes 246 355 872 649 253 338 491 860 755 502 488 311 Determine as médias dessas duas amostras e. quanto a sua área. c-) Suponha agora que tivesse sido utilizada amostragem estratificada uniforme. 5-) Os registros de uma companhia de seguros mostram que. e sendo conhecido que o segundo dispositivo a entrar no almoxarifado (cujo valor da resistência elétrica é 38) pertencia a essa amostra. Suponha que o numero total de dispositivos a examinar na amostra continue sendo dez. enquanto os outros 1200 são sinistros grandes ($200 ou mais). no caso? Caso afirmativo. Comente os resultados. 725. sabendo que o elemento de ordem 1420 a ela pertence? 1648.b-) Determine a média amostral obtida para a amostragem estratificada uniforme e para a amostragem estratificada proporcional. qual dos elementos abaixo seria escolhido para pertencer a amostra. 7-) Em uma amostra de 32 elementos de uma população ordenada formada por 2432 elementos. 1120 8-) Ordene uma amostra de 15 elementos de uma população ordenada formada por 210 elementos. 290. sabendo que o elemento de ordem 149 a ela pertence. 2025. 30 . Em 1662. Figura 1. A primitiva utilização da estatística envolvia compilações de dados e gráficos que descreviam vários aspectos de um estado ou país. Se Análise de Dados não aparecer como uma escolha no menu Ferramentas. Assim é que as taxas de desemprego. rendas e taxas de desemprego. os índices do consumidor. O trabalho de Graunt foi secundado por estudos de mortalidade. deste mesmo menu. INTRODUÇÃO Primeiramente devemos instalar o módulo de Estatística que se encontra na opção Ferramentas. que significa estado. de inflação. Seguindo estes passos. As famílias. Seleção de Ferramentas de Análise na caixa de diálogo “Suplementos”. as taxas de natalidade e mortalidade são calculadas cuidadosamente a intervalos regulares. a opção Suplementos.ANEXOS ESTATÍSTICA USANDO O EXCEL A palavra estatística provém do latim status. Algumas técnicas estatísticas disponíveis na Análise de Dados.1. John Graunt publicou informes estatísticos sobre nascimentos e mortes. e seus resultados são utilizados por empresários para tomarem decisões que afetam a futura contratação de empregados. a opção Análise de Dados será incluída no menu Ferramentas.2. se existir tal caixa de verificação na lista “Suplementos Disponíveis”. deve ser selecionada e dentro da caixa de diálogo Suplementos deve-se selecionar Ferramentas de Análise. tamanho de populações. Figura 1. 1. níveis de produção e expansão para novos mercados. 31 . os governos e as empresas se apóiam largamente em dados estatísticos. GRÁFICOS E TABELAS 2.9 30.1 TIPOS DE GRÁFICOS 1-) Porcentagem de votos (Gráfico de Linhas) Meses Abril Maio Junho Julho Agosto Setembro Outubro Lula 31.7 38.5 36.2 23.8 FHC 20.3 42.6 21.2.0 22.3 37.1 27.5 PORCENTAGEM DE VOTOS PARA PRESIDENTE M ESES 50 40 30 20 10 0 ab ril m ai o ju nh o ju lho ag o se sto te m b ou ro tu br o 50 40 30 20 10 0 M ESES 2-) A tabela abaixo apresenta os percentuais de reprovação de uma determinada disciplina no ano letivo (Gráfico de Colunas): Bimestres 1º 2º 3º 4º Porcentuais 45% 35% 55% 15% 32 .8 43.5 22.8 30. 3-) A Próxima tabela apresenta a avaliação dos estudantes. com relação à UNE (união Nacional dos Estudantes) (Gráfico de Barras) Ótimo Bom Regular Ruím Péssimo Não avaliaram 4% 25% 27% 9% 13% 22% 4-) Situação conjugal dos presos de um determinada cadeia (Gráfico de Setores) Solteiros Casados Namorados 55% 18% 27% Gráfico de setores Solteiros Namorados 27% Solteiros 55% Casados Namorados Casados 18% 33 . em porcentagens. 34 . obtendo-se os seguintes dados (em centímetros): 160 163 155 163 152 156 151 167 155 162 158 157 154 161 166 152 161 161 169 178 162 171 170 165 162 160 158 156 161 170 160 155 150 156 168 153 160 164 164 155 Fazer a distribuição de freqüência e usar 6 classes.2 TABELAS DE FREQÜÊNCIAS No Microsoft EXCEL. encontrada no menu Ferramentas. pode ser utilizada. encontrada no menu Ferramentas e preencha a caixa Histograma.1). digite os limites superiores desejados da tabela de freqüências na coluna C da mesma planilha. (iniciando por 150cm e terminando em 180cm) e responder as questões abaixo: a) Quantos são os estudantes com estatura inferior a 160cm? b) Que porcentagem de estudantes tem estatura igual ou superior a 175cm? c) Quantos são os estudantes com estatura maior ou igual a 160cm e ao mesmo tempo menor que 175cm? d) Qual a porcentagem de estudantes com estatura abaixo de 170cm? 2.1. Figura 2. a opção do Histograma da ferramenta Análise de Dados. para obter tabelas de freqüências. Passo 1: Após ter digitado os dados do exemplo A na coluna A da planilha 1 do Excel. Seleção do intervalo de dados e dos limites superiores das classes para a construção da tabela de freqüência.Considere agora o exemplo A para desenvolver as próximas ferramentas estatísticas no Microsoft EXCEL Exemplo A: Em uma escola tomou-se a medida da altura de cada um de quarenta estudantes. Passo 2: Depois disso selecione a opção Histograma da ferramenta Análise de Dados. os limites superiores dos intervalos de classe devem ser inseridos na planilha que contém os dados a serem analisados. Para isto. (ver figura 2. No Microsoft EXCEL.15 15 0.25 25 0.Tabela de Freqüência para a variável altura Bloco Freqüência 155 10 160 10 165 12 170 6 175 1 180 1 Mais 0 A freqüência relativa e a percentagem de cada classe podem ser incluídas na tabela acima.3. da tendência central e indica a quantidade de dados que está fora das especificações. o gráfico mais apropriado é o Histograma O histograma é uma importante ferramenta de análise porque fornece visualmente uma idéia da variação dos dados. um histograma pode ser construído da seguinte maneira: 2. 2. Relativa Percentagem 0.5 0.025 2. através da inserção das seguintes funções: Tabela 2.1.1 HISTOGRAMA 35 .25 25 0.3 30 0.025 2. com 30% das observações.5 0 0 1 100 =(B2/$B$9) =(C2*100) =SOMA(B2:B8) Através da tabela acima verifica-se que o intervalo com maior concentração dos dados é o intervalo entre 165 e 170.3 GRÁFICOS PARA TABELA DE FREQÜÊNCIA Como vimos. Tabela de Freqüência Completa para a variável altura Bloco 155 160 165 170 175 180 Mais Total Freqüência 10 10 12 6 1 1 0 40 Freq. enquanto que nenhuma observação foi coletada acima de 180. para uma distribuição de freqüências.2.Passo 3: Agora criamos uma tabela de freqüências na planilha 4 do Excel que é a seguinte: Tabela 2. Passo2: Defina o intervalo com os dados da variável a ser analisada e o intervalo com os limites superiores dos intervalos. o procedimento a seguir deve ser feito: Passo 5: Aparecerá um segundo conjunto de pontos de dados sobrepostos às barras junto com uma fórmula que começa com a palavra Seqüências na caixa de edição acima das planilhas de trabalho. selecione a aba Opções. modifique a célula final de $B$8 para $B$7 e tecle Enter. o intervalo de dados. assim. Histograma e clique em OK. Construção do Histograma. modifique o valor para zero (0). na Barra de Fórmulas.2. O gráfico construído conterá dois erros. 36 . também. Para eliminar as falhas. O Histograma conterá. Selecione. abra a caixa de diálogo Formatar Seqüências de Dados. barras contínuas. o seguinte procedimento deve ser realizado: Passo 3: Com um clique duplo sobre uma barra do gráfico. Passo 7: O gráfico resultante tem agora o número apropriado de classes. e existe uma classe adicional. Existem lacunas entre as barras que correspondem aos intervalos de classe. denominada Mais pelo Excel. Passo 4: Na caixa de edição Espaçamento.Passo1: Selecione os comandos Ferramentas. na planilha. Análise de Dados. Figura 2. Clique no botão OK. digitando-os ou clicando no botão ao lado direito da caixa de edição e selecionando. as opção Resultado do Gráfico como na figura a seguir e clique em OK. Para remover a classe adicional. Passo 6: Na Barra de Fórmulas. 2 POLÍGONO DE FREQÜÊNCIA No polígono de freqüências. através do seguinte procedimento: Passo 1: Selecione na tabela de freqüências. Histograma para a variável altura Pelo Histograma acima. Para isso. basta clicarmos no cantinho do gráfico (ainda no excel) e depois que estiver marcado com uns quadradinhos pretos.1. basta clicarmos em cima de cada item a ser modificado (título do gráfico. 37 . podemos modificar os “títulos” do gráfico e das variáveis. o fenômeno de interesse é exibido ao longo do eixo horizontal e o eixo vertical representa a freqüência relativa ou absoluta de cada intervalo.3. Como no histograma. inclusive o tamanho da letra (fonte) e a cor das barras. descrita na seção 2. 2. verifica-se que as observações de altura variam entre 150cm e 180cm. o polígono de freqüência pode ser construído através do Assistente de Gráfico. da seqüência de pontos médios em seus respectivos percentuais de intervalo.. cada intervalo de valores é representado pelo seu ponto médio. as colunas que contêm os limites superiores dos intervalos e as freqüências de cada intervalo de dados. Se desejarmos ainda. título das variáveis. Resumidamente. No Microsoft EXCEL. através de uma série de linhas retas. A maioria das observações esta entre 150cm e 165cm. este gráfico é construído pela conexão. valores das variáveis e também na barra do histograma).3. como na figura abaixo.Histograma 14 12 10 8 6 4 2 0 155 160 165 170 175 180 Bloco Freqüência Freqüência Figura 2. O intervalo com maior número de observações é o terceiro que varia de 160cm a 165cm. Selecione.Figura 2.4. o formato do gráfico de linhas na etapa 1 das 4 etapas do assistente de gráficos e clique em Avançar. 38 . então. Gráficos e Linhas.5. como na Figura 2. Passo 2: Selecione Inserir. Figura 2. Seleção dos intervalos de dados.5. Definição do formato do Polígono de Freqüência. na qual são definidos o título. Altere. Para alterar estas marcações. Realizadas as escolhas sobre o formato do gráfico.5 177. Freqüências 39 . Dessa forma. caracterizado pelo valor típico da variável observada. será possível verificar que as marcações de categorias no eixo X referem-se aos limites superiores das classes.5 162. clique em Avançar e Concluir na etapa 4.5 Altura Figura 2. Determinar este valor típico é uma maneira de resumir a informação contida nos dados. as medidas de tendência central e dispersão podem ser calculadas através da inserção de funções na planilha de dados.Passo 3: Como os intervalos de dados já foram definidos. como será discutido em cada tópico específico. Passo 4: A etapa 3 consiste na definição estrutural do gráfico.6. não aos pontos médios. a mediana e a moda. verifica-se que o intervalo de dados mais freqüente é o intervalo com ponto médio igual a 162. os limites superiores pelos pontos médios de cada classe. entre outras opções. Se o polígono de freqüências for examinado. para estes dados é o seguinte: Polígono de Freqüência 14 12 10 8 6 4 2 0 152. na planilha da tabela de freqüências. construído como definido acima. a ausência ou não de legenda e linhas de grade. pois um único valor será escolhido para representar todos os outros.1 MEDIDAS DE TENDÊNCIA CENTRAL A maioria dos dados apresenta uma tendência de se agrupar ou concentrar em torno de um ponto central. clique também em Avançar na etapa 2. o polígono de freqüência.5 172. Nesta seção serão apresentados três tipos de medidas de posição: a média. Polígono de Freqüências para a variável altura Pelo polígono de freqüência acima.5 167. Clique no botão OK. clique duas vezes no eixo X a caixa de diálogo Formatar Eixos aparecerá.5 157. título dos eixos. Selecione a aba Escala e selecione os cruzamentos do Eixo dos Valores (Y) entre as categorias da caixa de verificação. automaticamente estes valores serão trocados no gráfico.5cm. 3. 3 RESUMO E DESCRIÇÃO DOS DADOS ATRAVÉS DE MEDIDAS No Microsoft EXCEL. será apresentada por ser o tipo de média mais utilizada.2 MEDIDAS DE DISPERSÃO Sabemos que as informações fornecidas pelas medidas de posição necessita. desvio-padrão e coeficiente de variação). No Microsoft EXCEL. Embora nenhum aluno apresente altura igual a 160. para este conjunto de dados. na célula E3 a função = MODO(A1:A40) e teclar enter. bimodal. multimodal ou amodal quando possuir. 3. Vamos então encontrar as principais medidas de dispersão (amplitude. Assim. As medidas de dispersão caracterizam. respectivamente. 3.1. em relação à média. como será feito com o Exemplo A. devemos inserir. 3. duas. devemos inserir. Então.2 MEDIANA Usada como alternativa. podemos dizer que 50% dos alunos têm estatura maior que 160. apenas a média aritmética. A moda é também a única das medidas de tendência central que faz sentido no caso de variáveis qualitativas. mais de duas ou nenhuma moda. O valor encontrado para a mediana será 160. assim. a média aritmética pode ser calculada através da inserção de função na planilha de dados.3. ou seja. representada por X . voltando a planilha de dados do Excel. O valor encontrado para a moda será 160cm. ou seja. moda. ou seja.3 MODA A moda também não é afetada pela ocorrência de valores extremos.1 MÉDIA ARITMÉTICA Vários tipos de médias de um conjunto de dados podem ser definidas. na célula E2 a função = MED(A1:A40) e teclar enter. Para o nosso exemplo. Um conjunto de dados pode ser classificado como unimodal. ser complementada pelas medidas de dispersão. O valor dessa média será 160. é mais freqüente encontrar alunos (nesse conjunto de dados) com estatura igual a 160cm. amplitude.1. em geral. o desvio-padrão e o coeficiente de variação) com o auxílio do Excel.5cm. mediana. 40 . o grau de variação existente no conjunto de valores.525cm.5cm. porém.525. Para o Exemplo A. por isso quando uma observação extrema está presente no conjunto de dados é mais conveniente o uso da mediana do que da média para descrever o conjunto de valores. na célula E1 a função = MEDIA(A1:A40) e teclar enter. Estas servem para indicar o quanto os dados se apresentam dispersos em torno da região central. o valor típico ou médio de altura. uma. devemos inserir. portanto. a categoria dessas variáveis que aparecer com maior freqüência é chamada de categoria modal. este é o valor da média aritmética. a mediana não é influenciada por pontos extremos ou discrepantes. para caracterizar o centro do conjunto de dados. vamos considerar a coluna E como receptora dos resumos dos dados (como a média.1. Neste texto. Análise de Dados e Estatística Descritiva. ou seja. 28cm.2. freqüentemente expresso em porcentagem.525 ± 6.2. isto dizer que este conjunto de dados é homogêneo. sem a necessidade da inserção de funções na planilha de dados. a amplitude para o nosso exemplo será dada pela inserção de funções =MÁXIMO(A1:A40)-MÍNIMO(A1:A40). OBS. O valor obtido para o CV foi de aproximadamente 3. 3. as alturas dos alunos diferem entre si por. denotado por CV. na verdade.23). onde E5 é a célula que contém o valor do desvio-padrão e E1 a célula que contém o valor da média aritmética e *100 para expressarmos o mesmo em porcentagem.: Algumas das principais medidas de tendência central e de dispersão podem ser calculadas conjuntamente no Microsoft EXCEL.3 COEFICIENTE DE VARIAÇÃO Como o coeficiente de variação. não há grandes diferenças entre as estaturas dos alunos com relação a média. Esta análise descritiva do conjunto de dados pode ser realizada através dos comandos Ferramentas. apresentada na Figura 3. Então. nesse conjunto de dados. no máximo. será definido. será aberta para a especificação do intervalo de dados a ser analisado e das estatísticas de interesse. inserir a expressão =(E5/E1)*100. Sua vantagem. a caixa de diálogo Estatística Descritiva. considerável quando comparada com a ordem de grandeza dos valores da variável e vice-versa.88%.1.23cm. no Excel. é definido como o quociente entre o desvio padrão e a média.2 DESVIO PADRÃO O desvio padrão. no Excel. pela função =DESVPAD(A1:A40). concentra-se entre (160. Assim. uma pequena dispersão absoluta pode ser.23cm. é caracterizar a dispersão dos dados em termos relativos a seu valor médio. Isto significa que a maioria das estaturas. Selecionadas estas opções. 3. houve uma dispersão “média” em torno da média aritmética de 6. ou seja. devemos.3. que serão calculadas.2. o desvio padrão encontrado foi de aproximadamente 6.1 AMPLITUDE No Microsoft Excel. 41 . Assim. o intervalo de dados a ser analisado na caixa de edição Intervalo de Dados. então. Especifique. O resultado será uma nova tabela contendo várias das medidas descritas nas seções anteriores. Escolha a opção de saída das estatísticas e selecione a opção Resumo Estatístico. Caixa de Diálogo “Estatística Descritiva”. Módulos para realização da Análise Descritiva dos dados. digitando-o ou selecionando-o diretamente na planilha através do botão ao lado direito da caixa de edição. Figura 3.1. Logo. teremos a seguinte Tabela-Resumo 42 .2.Figura 3. Análise Descritiva da variável altura Pela tabela acima.525) é muito próxima ao valor da mediana (160. indicando a não existência de pontos muito extremos e discrepantes que afetam o valor da média.81987 Curtose 0. O valor mais freqüente (moda) é 160 e a média dos dados coletados (160.216636 Assimetria 0.23056 Variância da amostra 38.Coluna1 Média 160. concentra-se entre 6. neste conjunto de dados. verifica-se que foram observados 40 valores de altura. variando entre 150 e 178 e resultando em uma amplitude de 28cm.23cm em torno da média aritmética. 43 . situação evidenciada pelo desvio padrão. A maioria dos valores de altura.525 Erro padrão 0.5).542412 Intervalo 28 Mínimo 150 Máximo 178 Soma 6421 Contagem 40 Tabela 3.5 Modo 160 Desvio padrão 6.985138 Mediana 160.1. 44 .