ESTATÍSTICA BÁSICA

AA P P O O S S T T I I L L A A E E S S T T A A T T Í Í S S T T I I C C A A Luis Felipe Dias Lopes, Dr. [email protected], [email protected] D E - UFSM 2 0 0 3 S Su um má ár r i io o 1 Concei t os bási cos 1.1 População x Amost ra 1.2 Censo x Amost ragem 1.3 Dado x Variável 1.4 Parâmet ros x est at íst icas 1.5 Arredondament o de dados 1.6 Fases do mét odo est at íst ico 2 Repr esent ação t abul ar 2.1 Represent ação esquemát ica 2.2 Element os de uma t abela 2.3 Séries est at íst icas 2.4 Dist ribuição de f reqüência 3 Repr esent ação gr áf i ca 3.1 Gráficos de Linhas 3.2 Gráficos de colunas ou barras 3.3 Gráf icos circulares ou de Set ores ( Pie Chart s) 3.4 Gráf ico Pict orial - Pict ograma 3.5 Gráfico Polar 3.6 Cart ograma 3.7 Gráf icos ut ilizados para a análise de uma dist ribuição de f reqüência 4 Medi das descr i t i vas 4.1 Medidas de posição 4.2 Medidas de variabilidade ou dispersão 4.3 Medidas de dispersão relat ivas 4.4 Moment os, assimet ria e curt ose 4.5 Exercícios 5 Pr obabi l i dade e var i ávei s al eat ór i as 5.1 Modelos mat emát icos 5.2 Conceit os em probabilidade 5. 3 Conceit os de probabilidade 5.4 Exercícios 5.5 Teorema de Bayes 5.6 Variáveis aleat órias 5.7 Função de probabilidade 5.8 Exemplos 5.9 Exercícios 6 Di st r i bui ções de Pr obabi l i dade 6.1 Dist ribuições discret as de probabilidade 6.2 Exercícios 6.2 Dist ribuições cont ínuas de probabilidade 6.4 Exercícios 7 Amost r agem 7.1 Conceit os em amost ragem 7.2 Planos de amost ragem 6.3 Tipos de amost ragem 7.4 Amost ragem com e sem reposição 7.5 Represent ação de uma dist ribuição amost ral 7.6 Dist ribuições amost rais de probabilidade 7.7 Exercícios 7.8 Est at íst icas amost rais 7.9 Tamanho da amost ra 8 Est i mação de par âmet r os 8.1 Est imação pont ual 8.2 Est imação int ervalar 8.3 Exercícios 9 Test es de hi pót eses 9.1 Principais conceit os 8.2 Test e de signif icância 9.3 Exercícios 9.4 Test es do Qui- quadrado 9.5 Exercícios 10 Regr essão e Correl ação 10.1 I nt rodução 10.2 Def inição 10.3 Modelo de Regressão 10.4 Mét odo para est imação dos parâmet ros α e β 10.5 Decomposição da variância Tot al 10.6 Análise de Variância da Regressão 10.7 Coef icient e de Det erminação ( r² ) 10.8 Coef icient e de Correlação ( r) 10.9 Exercíci os 11 Ref er ênci as bi bl i ogr áf i cas 1 1 1 C Co on nc ce ei i t t o os s B Bá ás si ic co os s 1.1 Popul ação x Amost r a • População (N): Conjunto de todos os elementos relativos a um determinado fenômeno que possuem pelo menos uma característica em comum, a população é o conjunto Universo, podendo ser finita ou infinita. • Finita - apresenta um número limitado de observações, que é passível de contagem. • Infinita - apresenta um número ilimitado de observações que é impossível de contar e geralmente esta associada a processos. • Amostra (n): É um subconjunto da população e deverá ser considerada finita, a amostra deve ser selecionada seguindo certas regras e deve ser representativa, de modo que ela represente todas as características da população como se fosse uma fotografia desta. •Uma população pode, mediante processos operacionais, ser considerada infinita, pois a mesma irá depender do tamanho da amostra. Se a freqüência relativa entre amostra e população for menor do que 5% ela é considerada infinita, se a freqüência relativa for maior do 5% ela é considerada finita. 1.2 Censo x Amost r agem • Pesquisa Estatística: É qualquer informação retirada de uma população ou amostra, podendo ser através de Censo ou Amostragem. • Censo: É a coleta exaustiva de informações das "N" unidades populacionais. • Amostragem: É o processo de retirada de informações dos "n" elementos amostrais, no qual deve seguir um método criterioso e adequado (tipos de amostragem). 1.3 Dado x Var i ável • Dados estatísticos: é qualquer característica que possa ser observada ou medida de alguma maneira. As matérias-primas da estatística são os dados observáveis. • Variável: É aquilo que se deseja observar para se tirar algum tipo de conclusão, geralmente as variáveis para estudo são selecionadas por processos de amostragem. Os símbolos utilizados para representar as variáveis são as letras maiúsculas do alfabeto, tais como X, Y, Z, ... que pode assumir qualquer valor de um conjunto de dados. As variáveis podem ser classificadas dos seguintes modos: 2 - Qualitativas (ou atributos): São características de uma população que não pode ser medidas. Nominal : são utilizados símbolos, ou números, para representar determinado tipo de dados, mostrando, assim, a qual grupo ou categoria eles pertencem. Ordinal ou por postos: quando uma classificação for dividida em categorias ordenadas em graus convencionados, havendo uma relação entre as categorias do tipo “maior do que”, “menor do que”, “igual a”, os dados por postos consistem de valores relativos atribuídos para denotar a ordem de primeiro, segundo, terceiro e, assim, sucessivamente. - Quantitativas: São características populacionais que podem ser quantificadas, sendo classificadas em discretas e contínuas. Discretas: são aquelas variáveis que pode assumir somente valores inteiros num conjunto de valores. É gerada pelo processo de contagem, como o número de veículos que passa em um posto de gasolina, o número de estudantes nesta sala de aula. Contínuas: são aquelas variáveis que podem assumir um valor dentro de um intervalo de valores. É gerada pelo processo de medição. Neste caso serve como exemplo o volume de água em um reservatório ou o peso de um pacote de cereal. 1.4 Par âmet r os x Est at íst i cas • Parâmetros: são medidas populacionais quando se investiga a população em sua totalidade, neste caso é impossível fazer inferências, pois toda a população foi investigada. • Estatísticas ou Estimadores: são medidas obtidas da amostra, torna-se possível neste caso utilizarmos as teorias inferências para que possamos fazer conclusões sobre a população. 3 1.5 Ar r edondament o de Dados Regras: Portaria 36 de 06/ 07/ 1965 - INPM ⇒ Instituto Nacional de Pesos e Medidas. 1 a ) Se o primeiro algarismo após aquele que for mos arredondar for de 0 a 4, conservamos o algarismo a ser arredondado e desprezamos os seguintes. Ex.: 7,34856 (para décimos) → 7,3 2 a ) Se o primeiro algarismo após aquele que formos arredondar for de 6 a 9, acrescenta-se uma unidade no algarismo a ser arredondado e desprezamos os seguintes. Ex.: 1,2734 (para décimos) → 1,3 3 a ) Se o primeiro algarismo após aquele que formos arredondar for 5, seguido apenas de zeros, conservamos o algarismo se ele for par ou aumentamos uma unidade se ele for ímpar, desprezando os seguintes. Ex.: 6,2500 (para décimos) → 6,2 12,350 (para décimos) → 12,4 •Se o 5 for seguido de outros algarismos dos quais, pelo menos um é diferente de zero, aumentamos uma unidade no algarismo e desprezamos os seguintes. Ex.: 8,2502 (para décimos) → 8,3 8,4503 (para décimos) → 8,5 4 a ) Quando, arredondarmos uma série de parcelas, e a soma ficar alterada, devemos fazer um novo arredondamento (por falta ou por excesso), na maior parcela do conjunto, de modo que a soma fique inalterada. Ex.: 17,4% + 18,4% + 12,3% + 29,7% + 22,2% = 100% arredondando para inteiro: 17% + 18% + 12% + 30% + 22% = 99% 17% + 18% + 12% + 31% + 22% = 100% 4 1.6 Fases do mét odo est at íst i co O método estatístico abrange as seguintes fases: a) Definição do Problema Consiste na: - formulação correta do problema; - examinar outros levantamentos realizados no mesmo campo (revisão da literatura); - saber exatamente o que se pretende pesquisar definindo o problema corretamente (variáveis, população, hipóteses, etc.) b) Planejamento Determinar o procedimento necessário para resolver o problema: - Como levantar informações; - Tipos de levantamentos: Por Censo (completo); Por Amostragem (parcial). - Cronograma, Custos, etc. c) Coleta ou levantamento dos dados Consiste na obtenção dos dados referentes ao trabalho que desejamos fazer. A coleta pode ser: Direta - diretamente da fonte; Indireta - feita através de outras fontes. Os dados podem ser obtidos pela própria pessoa (primários) ou se baseia no registro de terceiros (secundários). d) Apuração dos Dados ou sumarização Consiste em resumir os dados, através de uma contagem e agrupamento. É um trabalho de coordenação e de tabulação. Apuração: manual, mecânica, eletrônica e eletromecânica. e) Apresentação dos dados É a fase em que vamos mostrar os resultados obtidos na coleta e na organização. Esta apresentação pode ser: Tabular (apresentação numérica) Gráfica (apresentação geométrica) f) Análise e interpretação dos dados É a fase mais importante e também a mais delicada. Tira conclusões que auxiliam o pesquisador a resolver seu problema. 5 2 2 R Re ep pr r e es se en nt t a aç çã ão o t t a ab bu ul l a ar r Consiste em dispor os dados em linhas e colunas distribuídas de modo ordenado. A elaboração de tabelas obedece à Resolução n o 886, de 26 de outubro de 1966, do Conselho Nacional de Estatística. As normas de apresentação são editadas pela Fundação Brasileira de Geografia e Estatística (IBGE). 2.1 Repr esent ação esquemát i ca Título Cabeçalho Corpo Rodapé 2.2 El ement os de uma t abel a • Título: O título deve responder as seguintes questões: - O que? (Assunto a ser representado (Fato)); - Onde? (O lugar onde ocorreu o fenômeno (local)); - Quando? (A época em que se verificou o fenômeno (tempo)). • Cabeçalho: parte da tabela na qual é designada a natureza do conteúdo de cada coluna. • Corpo: parte da tabela composta por linhas e colunas. • Linhas: parte do corpo que contém uma seqüência horizontal de informações. • Colunas: parte do corpo que contém uma seqüência vertical de informações. • Coluna Indicadora: coluna que contém as discriminações correspondentes aos valores distribuídos pelas colunas numéricas. • Casa ou célula: parte da tabela formada pelo cruzamento de uma linha com uma coluna. • Rodapé: É o espaço aproveitado em seguida ao fecho da tabela, onde são colocadas as notas de natureza informativa (fonte, notas e chamadas). • Fonte: refere-se à entidade que organizou ou forneceu os dados expostos. • Notas e Chamadas: são esclarecimentos contidos na tabela (nota - conceituação geral; chamada - esclarecer minúcias em relação a uma célula). 6 2.3 Sér i es Est at íst i cas Uma série estatística é um conjunto de dados ordenados segundo uma característica comum, as quais servirão posteriormente para se fazer análises e inferências. • Série Temporal ou Cronológica: É a série cujos dados estão dispostos em correspondência com o tempo, ou seja, varia o tempo e permanece constante o fato e o local. Produção de Petróleo Bruto no Brasil de 1976 a 1980 (x 1000 m³) Anos Produção 1976 9 702 1977 9 332 1978 9 304 1979 9 608 1980 10 562 Fonte: Conjuntura Econômica (fev. 1983) • Série Geográfica ou Territorial: É a série cujos dados estão dispostos em correspondência com o local, ou seja, varia o local e permanece constante a época e o fato. População Urbana do Brasil em 1980 (x 1000) Região População Norte 3 037 Nordeste 17 568 Sudeste 42 810 Sul 11 878 Centro-Oeste 5 115 Total 80 408 Fonte: Anuário Estatístico (1984) • Série Específica ou Qualitativa: É a série cujos dados estão dispostos em correspondência com a espécie ou qualidade, ou seja, varia o fato e permanece constante a época e o local. População Urbana e Rural do Brasil em 1980 (x 1000) Localização População Urbana 80 408 Rural 38 566 Total 118 974 Fonte: Anuário Estatístico (1984) 7 • Série Mista ou Composta: A combinação entre duas ou mais séries constituem novas séries denominadas compostas e apresentadas em tabelas de dupla entrada. O nome da série mista surge de acordo com a combinação de pelo menos dois elementos. Local + Época = Série Geográfica Temporal População Urbana do Brasil por Região de 1940 a 1980 (x 1000) R E G I Õ E S Anos N NE SE S CO 1940 406 3 381 7 232 1 591 271 1950 581 4 745 10 721 2 313 424 1960 958 7 517 17 461 4 361 1 007 1970 1 624 11 753 28 965 7 303 2 437 1980 3 037 17 567 42 810 11 878 5 115 Fonte: Anuário Estatístico (1984) 2.4 Di st r i bui ção de Fr eqüênci a É o tipo de série estatística na qual permanece constante o fato, o local e a época. Os dados são colocados em classes preestabelecidas, registrando a freqüência de ocorrência. Uma distribuição de freqüência pode ser classificada em discreta e intervalar. a) Distribuição de Freqüência Discreta ou Pontual: É uma série de dados agrupados na qual o número de observações está relacionado com um ponto real. Notas do Aluno "X" na Disciplina de Estatística segundo critérios de avaliação do DE da UFSM – 1990 X i f i 6.3 2 8.4 3 5.3 2 9.5 3 6.5 5 Σ 15 Fonte: Departamento de Estatística (1990) 8 b) Distribuição de Freqüências Intervalar: Na distribuição de freqüência, os intervalos parciais deverão ser apresentados de maneira a evitar dúvidas quant o à classe a que permanece determinado elemento. O tipo de intervalo mais usado é do tipo fechado a esquerda e aberto a direita, representado pelo símbolo: | ---. Altura em centímetros de 160 alunos do Curso de Administração da UFSM - 1990 Altura (cm) X i f i 150 | --- 158 154 18 158 | --- 166 162 25 166 | --- 174 170 20 174 | --- 182 178 52 182 | --- 190 186 30 190 | --- 198 194 15 Σ ---- 160 Fonte: Departamento de Estatística (1990) Elementos de uma Distribuição de Freqüências: Ø Classe ou Classe de Freqüência (K): É cada subintervalo (linha) na qual dividimos o fenômeno. Para determinar o número de classes a partir dos dados não tabelados, podemos usar a Fórmula de Sturges, mas deve-se saber que existem outros métodos de determina ção do número de classes em uma tabela de freqüência. O que se deseja fazer é apenas comprimir um conjunto de dados em uma tabela, para facilitar a visualização e interpretação dos mesmos. n log 3.3 1 n(K) + · , onde “n” é n o de informações. •Além da Regra de Sturges, existem outras fórmulas empíricas para resolver o problema para determinação do número de classes [n(k)], há quem prefira n ) k ( n ≅ . Entretanto, a verdade é que essas fórmulas não nos levam a uma decisão final; esta vai depender na realidade de um julgamento pessoal, que deverá estar ligado a natureza dos dados, procurando, sempre que possível, evitar classes com freqüências nulas ou freqüências relativas exageradamente grandes. Ø Limite de Classe (l i ou L i ): São os valores extremos de cada classe. l i = limite inferior da i-ésima classe; L i = limite superior da i-ésima classe; 9 Ø Amplitude do intervalo de classe (h): É a diferença entre dois limites inferiores ou superiores consecutivos. l l h 1 n n − − · ou 1 n n L L = h − − •A amplitude do intervalo de classe deve ser constante em todo a distribuição de freqüências intervalar. Ø Amplitude total (H): É a diferença entre o limite superior da última classe e o limite inferior da 1ª classe, ou a diferença entre último e o primeiro elemento de um conjunto de dados postos em ordem crescente. 1 n l L H − · Ø Ponto médio de classe (X i ): É a média aritmética simples do limite inferior com o limite superior de uma mesma classe. 2 L l X i i i + · ou a partir do X 1 os demais pontos médios pode ser determinado por: h X X 1 n n + · − •Quando substituirmos os intervalos de classes pelos pontos médios (X i ), ter-se´-á uma distribuição de freqüência pontual. Ø Freqüência absoluta (f i ): É a quantidade de valores em cada classe n 2 1 n 1 i i f ... f f f n + + + · · ∑ · Ø Freqüência Acumulada (F i ): É o somatório da freqüência absoluta da i-ésima classe com a freqüência absoluta das classes anteriores, ou a freqüência acumulada da classe anterior. n f F n 1 i i n · · ∑ · Ø Freqüência Relativa (fr i ): É o quociente entre a freqüência absoluta da i-ésima classe com o somatório das freqüências. ∑ · · n 1 i i i i f f fr Obs.: 1 fr n 1 i i · ∑ · Ø Freqüência Relativa Acumulada (Fr i ): É o somatório da freqüência relativa da i-ésima classe com as freqüências relativas das classes anteriores. 1 fr Fr n 1 i i n · · ∑ · 10 3 3 R Reep pr r e es se en nt t a aç çã ão o g gr r á áff i i c ca a Os gráficos são uma forma de apresentação visual dos dados. Normalmente, contém menos informações que as tabelas, mas são de mais fácil leitura. O tipo de gráfico depende da variável em questão 3.1 Gr áf i cos de Li nhas Usado para ilustrar uma série temporal. Produção de Petróleo Bruto no Brasil de 1976 a 1980 (x 1000 m³) Anos Produção 8500 9000 9500 10000 10500 11000 1976 1977 1978 1979 1980 Fonte: Conjuntura Econômica (Fev. 1983) 3.1.1 Gráfico de linhas comparativas População Urbana do Brasil por Região de 1940 a 1980 (x 1000) 0 5000 10000 15000 20000 25000 30000 35000 40000 45000 1940 1950 1960 1970 1980 NE N SE S CO Fonte: Anuário Estatístico (1984) 11 3.2 Gr áf i cos de col unas ou bar r as Representação gráfica da distribuição de freqüências. Este gráfico é utilizado para variáveis nominais e ordinais. Características: - todas as barras devem ter a mesma largura - devem existir espaços entre as barras 3.2.1 Gráfico de Colunas Usado para ilustrar qualquer tipo de série. População Urbana do Brasil em 1980 (x 1000) N NE SE S CO Regiões 3037 17568 42810 11878 5115 0 10000 20000 30000 40000 50000 Pop. N NE SE S CO Regiões Fonte: Anuário Estatístico (1984) •As larguras das barras que deverão ser todas iguais podendo ser adotado qualquer dimensão, desde que seja conveniente e desde que não se superponham. O número no topo de cada barra pode ou não omitido, se forem conservados, a escala vertical pode ser omitida. 3.2.2.1 Gráfico de colunas comparativas a) Colunas Justapostas (gráfico comparativo) População Urbana do Brasil por Região de 1940 a 1980 (x 1000) 0 5000 10000 15000 20000 25000 30000 35000 40000 45000 1940 1950 1960 1970 1980 N NE SE S CO Fonte: Anuário Estatístico (1984) 12 b) Colunas Sobrepostas (gráfico comparativo) População Urbana do Brasil por Região de 1940 a 1980 (x 1000) 0 20000 40000 60000 80000 100000 1940 1950 1960 1970 1980 CO S SE N NE Fonte: Anuário Estatístico (1984) 3.2.2 Gráfico de Barras As regras usadas para o gráfico de barras são igua is as usadas para o gráfico de colunas. População Urbana do Brasil em 1980 (x 1000) Regiões População 0 10000 20000 30000 40000 50000 N NE SE S CO 3037 17568 42810 11878 5115 Fonte: Anuário Estatístico (1984) • Assim como os gráficos de Colunas podem ser construídos gráficos de barras comparativas. 3.3 Gr áf i cos ci rcul ares ou de Set ores ( Pi e Chart s) Representação gráfica da freqüência relativa (percentagem) de cada categoria da variável. Este gráfico é utilizado para variáveis nominais e ordinais. É uma opção ao gráfico de barras quando se pretende dar ênfase à comparação das percentagens de cada categoria. A construção do gráfico de setores segue uma regra de 3 simples, onde as freqüências de cada classe correspondem ao ângulo que se deseja representar em relação a freqüência total que representa o total de 360°. 13 Características: - A área do gráfico equivale à totalidade de casos (360 o = 100%); - Cada “fatia” representa a percentagem de cada categoria População Urbana e Rural do Brasil em 1980 (x 1000) 68% 32% Urbana Rural Fonte: Anuário Estatístico (1984) 3.4 Gr áf i co Pi ct or i al - Pi ct ograma Tem por objetivo despertar a atenção do público em geral, muito desses gráficos apresentam grande dose de originalidade e de habilidade na arte de apresentação dos dados. Evolução da matricula no Ensino Superior no Brasil de 1968 a 1994 (x 1000) 1968 1974 1980 1986 1990 1994 0 250 500 750 1000 1250 1500 Fonte: Grandes números da educação brasileira março de 1996 14 3.4.1 Exemplos de pictogramas Evolução da frota nacional de carros à álcool de 1979 à 1987 9 . 6 4 5 1979 1.277.107 1983 2.473.581 1985 3.631.647 1987 Os métodos mais eficientes para deixar de fumar segundo 30.000 fumantes entrevistados no Canadá 36% 30% 27% 19,5% 18,5% Go m a d e m a sc a r c o m nic o t ina m a i s se ssõ e s d e a p o i o p si c o l ó g i c o Int e rna m e nt o e m ho sp it a l e u so d e d ro g a s re l a xa n t e s Ac um p unt ura Hi p n o se Inj e ç ã o d e Clo nid ina , d ro g a q ue re d uz o s e fe it o s d a a b st inê nc ia Devastação Selvagem: extração de madeiras no Brasil Eucalipto Madeira nativa Pinus 2 4 , 4 % 6 8 , 8 % 6, 8% 15 3.5 Gr áf i co Pol ar É o tipo de gráfico ideal para representar séries temporais cíclicas, ou seja, toda a série que apresenta uma determinada periodicidade. 4.5.1 Como construir um gráfico polar 1) Traça-se uma circunferência de raio arbitrário (preferencialmente, a um raio de comprimento proporcional a média dos valores da série); 2) Constrói-se uma semi-reta (de preferência horizontal) partindo do ponto 0 (pólo) e com uma escala (eixo polar); 3) Divide-se a circunferência em tantos arcos forem as unidades temporais; 4) Traça -se semi-retas a partir do ponto 0 (pólo) passando pelos pontos de divisão; 5) Marca-se os valores correspondentes da variável, iniciando pela semi-reta horizontal (eixo polar); 6) Ligam-se os pontos encontrados com segmentos de reta; 7) Para fechar o polígono obtido, emprega-se uma linha interrompida. Precipitação pluviométrica do município de Santa Maria – RS- 1999 Meses Precipitação (mm) Janeiro 174,8 Fevereiro 36,9 Março 83,9 Abril 462,7 Maio 418,1 Junho 418,4 Julho 538,7 Agosto 323,8 Setembro 39,7 Outubro 66,1 Novembro 83,3 Dezembro 201,2 Fonte: Base Aérea de Santa Maria Média = 237,31 mm Precipitação pluviométrica do município de Santa Maria – RS- 1999 Fonte: Base Aérea de Santa Maria 16 3.6 Car t ogr ama É a representação de uma carta geográfica. Este tipo de gráfico é empregado quando o objetivo é o de figurar os dados estatísticos diretamente relacionados com as áreas geográficas ou políticas Dados absolutos (população) – usa-se pontos proporcionais aos dados. Dados relativos (densidade) – usa-se hachaduras. Exemplo: População da Região Sul do Brasil - 1990 Estado População (hab.) Área (m 2 ) Densidade Paraná 9.137.700 199.324 45,8 Santa Catarina 4.461.400 95.318 46,8 Rio Grande do Sul 9.163.200 280.674 32,6 Fonte: IBGE População da Região Sul do Brasil – 1990 Fonte: IBGE Densidade populacional da Região Sul do Brasil – 1990 Fonte: IBGE 17 3.7 Gr áf i cos ut i l i zados par a a anál i se de uma di st r i bui ção de f r eqüênci a 3.7.1 Histograma Altura em centímetros de 160 alunos do Curso de Administração da UFSM - 1990 Fonte: Departamento de Estatística (1990) 3.7.2 Polígono de Freqüências Altura em centímetros de 160 alunos do Curso de Administração da UFSM - 1990 Fonte: Departamento de Estatís tica (1990) 18 3.6.3 Ogivas Altura em centímetros de 160 alunos do Curso de Administração da UFSM – 1990 Ogiva Crescente Ogiva Decrescente 3.7.4 Gráfico em segmentos de reta vertical É utilizado para representar uma distribuição de freqüência pontual, onde os segmentos de reta são proporcionais às respectivas freqüências absolutas. Altura em centímetros de 160 alunos do Curso de Administração da UFSM - 1990 Fonte: Departamento de Estatística (1990) 3.7.5 Como se interpreta um histograma? A representação gráfica da distribuição da variável, por histogramas. Este gráfico é utilizado para variáveis contínuas. Características: - Cada barra representa a freqüência do intervalo respectivo; - Os intervalos devem ter a mesma amplitude; - As barras devem estar todas juntas. 19 A simples observação da forma do histograma permite algumas conclusões. Veja a figura 4.1. A medida dos dados está no centro do desenho. As freqüências mais altas também estão no centro da figura. Nos processos industriais, esta é a forma desejável. Figura 4.1 Histograma 60 50 40 30 20 10 0 A figura 4.2 apresenta um histograma com assimetria positiva. A média dos dados está localizada à esquerda do centro da figura e a cauda à direita é alongada. Esta ocorre quando o limite inferior é controlado ou quando não podem ocorrer valores abaixo de determinado limite. Figura 4.2 Histograma com assimetria positiva 60 50 40 30 20 10 0 A figura 4.3 apresenta um histograma com assimetria negativa. A média dos dados está localizada à direita do centro da figura e a cauda à esquerda é alongada. Esta forma ocorre quando o limite superior é controlado ou quando não podem ocorrer valores acima de certo limite Figura 4.3 Histograma com assimetria negativa 60 50 40 30 20 10 0 20 A figura 4.4 mostra um histograma em plateau, Isto é, com exceção das primeiras e das últimas classes, todas as outras têm freqüências quase iguais. Essa forma ocorre quando se misturam várias distribuições com diferentes médias. Figura 4.4 Histograma em plateau 60 50 40 30 20 10 0 A figura 4.5 mostra um histograma com dois picos, ou duas modas. As freqüências são baixas no centro da figura, mas existem dois picos fora do centro. Esta forma ocorre quando duas distribuições com médias bem diferentes se misturam. Podem estar misturados, por exemplo, os produtos de dois turnos de trabalho. Figura 4.5 Histograma com dois picos 60 50 40 30 20 10 0 Os histogramas também mostram o grau de dispersão da variável. Veja a figura 4.6. O histograma à esquerda mostra pouca dispersão, mas o histograma à direita mostra grande dispersão. Figura 4.6 Histogramas com dispersões diferentes Freqüência Freqüência 60 50 40 30 20 10 0 60 50 40 30 20 10 0 21 3.7.6 Curva de freqüência – curva polida Como, em geral, os dados coletados pertencem a uma amostra extraída de uma população, pode-se imaginar as amostras tornando-se cada vez mais amplas e a amplitude das classes ficando cada vez menor, o que nos permite concluir que o contorno do polígono de freqüências tende a se transformar numa curva (curva de freqüência), mostrando, de modo mais evidente, a verdadeira natureza da distribuição da população. Pode-se dizer, então, que, enquanto que o polígono de freqüência nos dá a imagem real do fenômeno estudado, a curva de freqüência nos dá a imagem tendenciosa. Assim, após o traçado de um polígono de freqüência, é desejável, muitas vezes, que se faça um polimento, de modo a mostrar o que seria tal polígono com um número maior de dados. Esse procedimento é claro, não nos dará certeza absoluta que a curva polida seja tal qual a curva resultante de um grande número de dados. Porém, pode-se afirmar que ela assemelha-se mais a curva de freqüência que o polígono de freqüência obtido de uma amostra limitada. O polimento, geometricamente, corresponde à eliminação dos vértices da linha poligonal. Consegue-se isso com a seguinte fórmula: 4 f f 2 f fc . post i . ant i + + · onde: fc i = freqüência calculada da classe considerada; f i = freqüência absoluta da classe i; f ant . = freqüência absoluta da classe anterior a i; f post . = freqüência absoluta da classe posterior a i; • Quando for em fazer o uso da curva polida convém mostrar as freqüências absolutas, por meio de um pequeno circulo, de modo que qualquer interessado possa julgar se esse ponto se o ponto é um dado original ou um dado polido. Altura em centímetros de 40 alunas do Curso de Enfermagem da UFSM - 1996 Altura (cm) X i f i fc i 150 | --- 154 152 4 (0+ 2 x 4 + 9)/ 4 = 4,25 154 | --- 158 156 9 (4 + 2 x 9 + 11)/ 4 = 8,25 158 | --- 162 160 11 (9 + 2 x 11 + 8)/ 4 = 9,75 162 | --- 166 164 8 (11 + 2 x 8 + 5)/ 4 = 8,00 166 | --- 170 168 5 (8 + 2 x 5 + 3)/ 4 = 5,25 170 | --- 174 172 3 (5 + 2 x 3 + 0)/ 4 = 2,75 Σ ---- 40 --- Fonte: Departamento de Estatística (1997) 31 Altura em centímetros de 40 alunas do Curso de Enfermagem da UFSM - 1996 Fonte: Departamento de Estatística (1997) 3.7.7 Curvas em forma de sino As curvas em forma de sino caracterizam-se pelo fato de apresentarem um valor máximo na região central. Distinguem-se as curvas em forma de sino em: simétrica e assimétrica a) Curva simétrica Esta curva caracteriza-se por apresentar o valor máximo no ponto central e os pontos eqüidistantes desse ponto terem a mesma freqüência. 32 b) Curvas assimétricas Na prática, não se encontram distribuições perfeitamente simétricas. As distribuições obtidas de medidas reais são mais ou menos assimétricas, em relação à freqüência máxima. Assim, as curvas correspondentes a tais distribuições apresentam a cauda de um lado da ordenada máxima mais longa do que o outro. Se a cauda mais longa fica a direita é chamada assimétrica positiva ou enviesada à direita, se a cauda se alonga a esquerda, a curva é chamada assimétrica negativa ou enviesada à esquerda. Assimétrica Positiva Assimétrica Negativa 33 4 Medi das Descr i t i vas Tem por objetivo descrever um conjunto de dados de forma organizada e compacta que possibilita a visualização do conjunto estudado por meio de suas estatísticas, o que não significa que estes cálculos e conclusões possam ser levados para a população. Podemos classificar as medidas de posição conforme o esquema abaixo: 4.1 Medi das de Posi ção Média Aritmética Representativas - Médias Média Geométrica Média Harmônica Mediana Separatrizes Quartis Decis Centis ou Percentis Dominantes Moda de Czuber Moda de King Moda de Pearson 4.1.1 Representativas (Médias) São medidas descritivas que tem por finalidade representar um conjunto de dados. a) Média Aritmética: Amostral (X); Populacional (µ) Dados Não Tabelados X X n ou = X N i i 1 n i i 1 N · · · ∑ ∑ µ 34 Dados Tabelados com Valores Ponderados Média Aritmética Ponderada ( X w ), (onde W i é o peso) Nota do aluno "X" 1° semestre de 1994 - UFSM Notas (X i ) Pesos (W i ) 7.8 2 8.3 3 8.2 2 5.8 3 Σ 10 Fonte: Dados Hipotéticos X X .W W w i i i 1 n i i=1 n · · ∑ ∑ D istribuição de freqüências - Média Aritmética ( X) Altura em centímetros de 160 alunos do Curso de Administração da UFSM - 1990 Altura (cm) X i f i X i . f i 150 | --- 158 154 18 2763,0 158 | --- 166 162 25 4037,5 166 | --- 174 170 20 3390,0 174 | --- 182 178 52 9230,0 182 | --- 190 186 30 5565,0 190 | --- 198 194 15 2917,55 Σ ---- 160 27903 Fonte: Departamento de Estatística (1990) X X .f f i i i 1 n i i=1 n · · ∑ ∑ - Características da Média Aritmética Simples 1 a ) A Média Aritmética Simples deverá estar entre o menor e o maior valor observado, max. min. X X X ≤ ≤ 2 a ) A soma algébrica dos desvios calculados entre os valores observados e a média aritmética é igual a zero; desvios = d x i · − µ d ( x zero i 1 n i i 1 n · · ∑ ∑ · − · µ) 35 3 a ) Somando-se ou subtraindo-se todos os valores (X i ) da série por uma constante "k" (k ≠ 0), a nova média aritmética será igual a média original somada ou subtraída por esta constante "k". k X Y X k x y x i i i t · ⇓ ⇓ t · 4 a ) Multiplicando-se ou dividindo-se todos os valores (X i ) da série por uma constante "k" (k ≠ 0), a nova média aritmética será igual a média original multiplicada ou dividida por esta constante "k". k X Y k X Y X k x y k x y x i i i i i ÷ · × · ⇓ ⇓ ⇓ ÷ · × · b) Média Geométrica: (X g ): A aplicação da média geométrica deve ser feita, quando os valores do conjunto de dados considerado se comportam segundo uma progressão geométrica (P.G.)ou dela se aproximam. Dados Não Tabelados n n 2 1 n n 1 i i g .X ... . .X X X X · · ∏ · Dados Tabelados ∑ ∑ ∏ · · · n 1 = i i n 2 1 n 1 = i i i f f n f 2 f 1 f n 1 i f i g .X ... . .X X X X Usando um artifício matemático, pode-se usar para calcular a média geométrica a seguinte fórmula: ( ) ∑ ∑ · ∑ · · · · + + + n 1 i i i n 1 i i n n 2 2 1 1 n 1 i i X log . f f 1 X log . f ... X log . f X log . f f 1 g 10 10 X 36 c) Média Harmônica (X h ) É usada para dados inversamente proporcionais. Ex.: Velocidade Média, Preço de Custo Médio 4.1.2 Emprego da média 1) Deseja-se obter a medida de posição que possui a maior estabilidade; 2) Houver necessidade de um tratamento algébrico ulterior. Dados Não Tabelados n 2 1 n 1 i i h X 1 ... X 1 X 1 X 1 X + + + · · ∑ · n n Dados Tabelados X f f X f f .. . f f X f X . .. f X h i i 1 n i i i 1 n 1 2 n 1 1 2 2 n n · · + + + + + + · · ∑ ∑ •Deve-se observar esta propriedade entre as médias h g X X X ≥ ≥ 4.1.3 Separatrizes (Mediana, Quartis, Decis e Centis ou Percentis) São medidas de posição que divide o conjunto de dados em partes proporcionais, quando os mesmos são ordenados. a) Dados não tabelados Antes de determinarmos as separatrizes devemos em primeiro lugar encontrar a posição da mesma. - Se o número de elementos for par ou ímpar, as separatrizes seguem a seguinte ordem: S 1) + i(n Posição· se for mediana ¹ ' ¹ · · 2 S 1 i se for quartis ¹ ' ¹ · ≤ ≤ 4 S 3 i 1 37 se for decis ¹ ' ¹ · ≤ ≤ 10 S 9 i 1 se for centis ¹ ' ¹ · ≤ ≤ 100 S 99 i 1 Dados Tabelados b) Distribuição de freqüências pontual: segue a mesma regra usada para dados não tabelados c) Distribuição de freqüências intervalar i i S ant S i f .h F S i.n l S , _ ¸ ¸ − + · onde: S Md i =1 i · ⇒ ; S Q 1 i 3 i i · ⇒ ≤ ≤ ; S D 1 i i i · ⇒ ≤ ≤ 9; S C ou P 1 i i i i · ⇒ ≤ ≤ 99 l S i ⇒ limite inferior da classe que contém a separatriz; i.n S ⇒ posição da separatriz; F ant ⇒ freqüência acumulada da classe anterior a que contém a separatriz; h ⇒ amplitude do intervalo de classe; f S i ⇒ freqüência absoluta da classe que contém a separatriz; 4.1.4 Emprego da mediana 1) Quando se deseja obter um ponto que divide a distribuição em partes iguais; 2) Há valores extremos que afetam de uma maneira acentuada a média; 3) A variável em estudo é salário. 4.1.5 Dominantes - Moda (Mo) É definida como sendo a observação de maior freqüência. 38 a) Dados não tabelados Ex.: 3 4 4 4 5 5 6 6 7 8 9 ⇒ Mo = 4 (unimodal) 5 6 7 8 9 10 11 12 13 ⇒ Mo = / ∃ (amodal) 1 1 2 2 3 3 3 4 5 5 5 ⇒ Mo 1 = 3 Mo 2 = 5 (bimodal) 5 5 6 6 7 7 8 8 ⇒ Mo = / ∃ (amodal) 5 5 6 6 7 7 8 ⇒ Mo 1 = 5 Mo 2 = 6 Mo 3 = 7 (multimodal) •Acima de 3 modas usamos o termo multimodal. Dados Tabelados a) Distribuição de freqüências pontual - Moda Bruta (Mo b ): é o ponto médio da classe de maior freqüência i b X Mo · b) Distribuição de freqüências intervalar - Moda de Czuber (Mo c ): O processo para determinar a moda usado por Czuber leva em consideração as freqüências anteriores e posteriores à classe modal. ¹ ' ¹ − · ∆ − · ∆ ⇒ , _ ¸ ¸ ∆ + ∆ ∆ + · pos Mo 2 ant Mo 1 2 1 1 Mo c f f f f .h l Mo onde: l Mo ⇒ limite inferior da classe modal; f Mo ⇒ freqüência absoluta da classe modal; h ⇒ amplitude do intervalo de classe; f ant ⇒ freqüência absoluta da classe anterior a classe modal; f pos ⇒ freqüência absoluta da classe posterior a classe modal; - Moda de King (Mo k ): O processo proposto por King considera a influência existente das classes anterior e posterior sobre a classe modal. A inconveniência deste processo é justamente não levar em consideração a freqüência máxima. .h f f f l Mo ant pos pos Mo k , _ ¸ ¸ + + · 39 - Moda de Pearson (Mo p ): O processo usado por Pearson pressupõe que a distribuição seja aproximadamente simétrica, na qual a média aritmética e a mediana são levadas em consideração. Mo Md - 2 X p · 3 •Um distribuição é considerada simétrica quando X Md Mo ≡ ≡ . 4.1.6 Emprego da moda 1) Quando se deseja obter uma medida rápida e aproximada de posição; 2) Quando a medida de posição deve ser o valor mais típico da distribuição. 4.1.7 Posição relativa da média, mediana e moda Quando uma distribuição é simétrica, as três medidas coincidem. Porém, a assimetria torna-as diferentes e essa diferença é tanto maior quanto maior é a assimetria. Assim, em uma distribuição temos: Mo Md x · · → curva simétrica Mo Md x < < → curva assimétrica negativa x Md Mo < < → curva assimétrica positiva Mo Md x · · Md Md Mo x Mo x Moda d ian a e M di a é M 40 4.1.8 Exercícios Para os dados abaixo calcule: Md; Q 1 ; Q 3 ; D 3 ; C 70 1) 3 7 8 10 12 13 15 17 18 21 4 6 8 11 13 14 17 18 19 22 25 2) Alturas dos alunos da Turma “X” no 1 o sem. de 1994 - UFSM Alturas f i 63 15 75 25 84 30 91 20 Σ 90 Fonte: Dados Hipotéticos 3) Alturas dos alunos da Turma “Y” no 1 o sem. de 1994 – UFSM Alturas f i F i 61 | --- 65 12 12 65 | --- 69 23 35 69 | --- 73 34 69 73 | --- 77 26 95 77 | --- 81 15 110 Σ 110 110 Fonte: Dados Hipotéticos 4.2 Medi das de Var i abi l i dade ou Di sper são Visam descrever os dados no sentido de informar o grau de dispersão ou afastamento dos valores observados em torno de um valor central representativo chamado média. Informa se um conjunto de dados é homogêneo (pouca variabilidade) ou heterogêneo (muita variabilidade). As medidas de dispersão podem ser: - D esvio ex tremo - amplitude Absoluta - D esvio Médio - D esvio Padrão - D esvio quadrático - V ariância 41 Para estudarmos as medidas de variabilidade para dados não tabelados usaremos um exemplo prático. Supomos que uma empresa esteja querendo contratar um funcionário, e no final da concorrência sobraram dois candidatos para uma única vaga. Então foi dado 4 tarefas para cada um, onde as mesmas tiveram como registro o tempo (em minutos) de execução. TAREFAS 1 2 3 4 OPERÁRIO 1 (TEMPO) 55 45 52 48 OPERÁRIO 2 (TEMPO 30 70 40 60 - Análise Gráfica - Medidas de dispersão Absoluta: - Desvio Extremo ou Amplitude de Variação (H): É a diferença entre o maior e o menor valor de um conjunto de dados H X X max min · − - Desvio Médio (d ): Em virtude do ( ) ∑ · · − n i i X X 1 0, usamos para calcular o desvio médio X X i i n − · · ∑ 0 1 , assim ficando: Para dados não tabelados d X X n X X X X X X n i i n n · − · − + − + + − · ∑ 1 1 2 ... Para dados tabelados 42 ( ) ∑ ∑ ∑ · · · − + + − + − · − · n i i n n n i i n i i i f X X f X X f X X f f X X f d 1 2 2 1 1 1 1 ... - Desvio Quadrático ou Variância : S 2 (amostra) ou σ 2 (população) Para dados não tabelados: ( ) ( ) ( ) ( ) n X X X X X X n X X n n i i 2 2 2 2 1 1 2 2 ... − + + − + − · − · ∑ · σ ( ) ( ) ( ) ( ) 1 ... 1 2 2 2 2 1 1 2 2 − − + + − + − · − − · ∑ · n X X X X X X n X X S n n i i Para dados tabelados ( ) ( ) ( ) ( ) ∑ ∑ ∑ · · · − + + − + − · − · n i i n n n i i n i i i f X X f X X f X X f f X X f 1 2 2 2 2 2 1 1 1 1 2 2 ... σ ( ) ( ) ( ) ( ) 1 ... 1 1 2 2 2 2 2 1 1 1 1 2 2 − − + + − + − · − − · ∑ ∑ ∑ · · · n i i n n n i i n i i i f X X f X X f X X f f X X f S 43 - Desvio Padrão: S (amostra) ou σ (população) Para dados não tabelados: ( ) ( ) ( ) ( ) n X X X X X X n X X n n i i 2 2 2 2 1 1 2 ... − + + − + − · − · ∑ · σ ( ) ( ) ( ) ( ) 1 ... 1 2 2 2 2 1 1 2 − − + + − + − · − − · ∑ · n X X X X X X n X X S n n i i Para dados tabelados ( ) ( ) ( ) ( ) ∑ ∑ ∑ · · · − + + − + − · − · n i i n n n i i n i i i f X X f X X f X X f f X X f 1 2 2 2 2 2 1 1 1 1 2 ... σ ( ) ( ) ( ) ( ) 1 ... 1 1 2 2 2 2 2 1 1 1 1 2 − − + + − + − · − − · ∑ ∑ ∑ · · · n i i n n n i i n i i i f X X f X X f X X f f X X f S •(n - 1) é usado como um fator de correção, onde devemos considerar a variância amostral como uma estimativa da variância populacional. - Propriedades da Variância 1ª) Somando-se ou subtraindo-se uma constante k a cada valor observado a variância não será alterada; 2ª) Multiplicando-se ou dividindo-se por uma constante k cada valor observado a variância ficará multiplicada ou dividida pelo quadrado dessa constante. Outra forma de calcular o desvio padrão O desvio padrão mede bem a dispersão de um conjunto de dados, mas é difícil de calcular. Então, você pode obter o desvio padrão através da seguinte relação: 2 d R ˆ · σ onde R é a amplitude e o valor de d 2 , que depende do tamanho da amostra, é encontrado na tabela a seguir. Este método de calcular o desvio padrão fornece boas estimativas para amostras de pequeno tamanho (n= 4, 5 ou 6), mas perde a eficiência se n> 10. De qualquer 44 forma, é essa relação entre a amplitude e o desvio padrão de uma amostra que permite fazer gráficos de controle R X − . TABELA 1: - Fatores para construir um gráfico de controle n 2 3 4 5 6 7 8 9 10 11 12 13 14 d2 1,128 1,693 2,059 2,326 2,534 2,704 2,847 2,970 3,078 3,173 3,258 3,336 3,407 n 15 16 17 18 19 20 21 22 234 24 25 --- --- d2 0,347 3,532 3,532 3,640 3,689 3,735 3,778 3,819 3,858 3,391 3,391 --- --- Fonte: Montgomery, D.C. Statical Quality Control. Nova York, Wyley. 1991. 4.3 Medi das de Di sper são Rel at i va - V ariância relativa Relativa - Coeficiente de V ariação (Pearson) É a medida de variabilidade que em geral é expressa em porcentagem, e tem por função determinar o grau de concentração dos dados em torno da média, geralmente utilizada para se fazer a comparação entre dois conjuntos de dados em termos percentuais, esta comparação revelará o quanto os dados estão próximos ou distantes da média do conjunto de dados. - Variância Relativa V R X . .· σ µ 2 2 2 ou S 2 - Coeficiente de Variação de Pearson 100 x X S ou . V . C µ σ · •C.V. ≤ 50% ⇒ a média é representativa C.V. ≅ 0 ⇒ é a maior representatividade da média (S = 0) 4.4 Moment os, assi met r i a e cur t ose As medidas de assimetria e curtose complementam as medidas de posição e de dispersão no sentido de proporcionar uma descrição e compreensão mais completa das distribuições de freqüências. Estas distribuições não diferem apenas quanto ao valor médio e à variabilidade, mas também quanto a sua forma (assimetria e curtose). 45 Para estudar as medidas de assimetria e curtose, é necessário o conhecimento de certas quantidades, conhecidas como momentos. 4.4.1 Momentos São medidas descritivas de caráter mais geral e dão origem às demais medidas descritivas, como as de tendência central, dispersão, assimetria e curtose. Conforme a potência considerada tem-se a ordem ou o grau do momento calculado. - Momentos simples ou centrados na origem (m r ) O momento simples de ordem “r” é definido como: n X m r i r ∑ · , para dados não tabelados; ∑ ∑ · i i r i r f f X m , para dados tabelados. onde: r é um número inteiro positivo; m 0 = 1; m 1 = média aritmética. - Momentos centrados na média (M r ) O momento de ordem “r” centrado na média, é definido como: ( ) n d n X X M r i r i r ∑ ∑ · − · , para dados não-tabelados ( ) n f d f f X X M i r i i i r i r ∑ ∑ ∑ · − · , para dados tabelados onde: M 0 = 1; M 1 = 0; M 2 = variância (s 2 ). 46 - Momentos abstratos (α r ) São definidos da seguinte forma: r r r s M · α onde: s = desvio padrão. 4.4.2 Assimetria Uma distribuição de valores sempre poderá ser representada por uma curva (gráfico). Essa curva, conforme a distribuição, pode apresentar várias formas. Se considerarmos o valor da moda da distribuição como ponto de referência, vemos que esse pont o sempre corresponde ao valor de ordenada máxima, dando-nos o ponto mais alto da curva representativa da distribuição considerada, logo a curva será analisada quanto à sua assimetria. - Distribuição Simétrica: É aquela que apresenta a X ≡ Mo ≡ Md e os quartis Q 1 e Q 3 eqüidistantes do Q 2 . X ≡ Mo ≡ Md - Distribuição Assimétrica Assimétrica Positiva Mo < Md < X Assimétrica Negativa X < Md < Mo Podemos medir a assimetria de uma distribuição, calculando os coeficientes de assimetria. Sendo o mais utilizado o Coeficiente de Assimetria de Pearson. As X Mo S · − - Se As < 0 ⇒ a distribuição será Assimétrica Negativa ; - Se As > 0 ⇒ a distribuição será Assimétrica Positiva; - Se As = 0 ⇒ a distribuição será Simétrica. 47 Quando não tivermos condições de calcularmos o desvio padrão podemos usar a seguinte fórmula: As Q Q Md Q Q · + − − 3 1 3 1 2 - Coeficiente momento de assimetria ( α 3 ): É o terceiro momento abstrato. 3 3 3 s M · α O campo de variação do coeficiente de assimetria é: -1 ≤ α 3 ≤ + 1 - Intensidade da assimetria: | α 3 | < 0,2 ⇒ simetria; 0,2 < | α 3 | < 1,0 ⇒ assimetria fraca; | α 3 | > 1,0 ⇒ assimetria forte. 4.4.3 Curtose Já apreciamos as medidas de tendência central, de dispersão e de assimetria. Falta somente examinarmos mais uma das medidas de uso comum em Estatística, para se positivarem as característ icas de uma distribuição de valores: são as chamadas Medidas de Curtose ou de Achatamento, que nos mostra até que ponto a curva representativa de uma distribuição é a mais aguda ou a mais achatada do que uma curva normal, de altura média. - Curva Mesocúrtica (Normal): É considerada a curva padrão. - Curva Leptocúrtica: É uma curva mais alta do que a normal. Apresenta o topo relativamente alto, significando que os valores se acham mais agrupados em torno da moda. - Curva Platicúrtica: É uma curva mais baixa do que a normal. Apresenta o topo achatado, significando que várias classes apresentam freqüências quase iguais. 48 - Coeficiente de Curtose K Q Q P P · − − 3 1 90 10 2( ) - Se K > 0.263 ⇒ a distribuição será Platicúrtica. - Se K = 0.263 ⇒ a distribuição será Mesocúrtica; - Se K < 0.263 ⇒ a distribuição será Leptocúrtica; Coeficiente momento de curtose (α 4 ): Corresponde ao momento abstrato de quarta ordem. 4 4 4 s M · α onde: M 4 = momento centrado de quarta ordem. Interpretação: - Se α 4 < 3 ⇒ curva Platicúrtica; - Se α 4 = 3 ⇒ curva Mesocúrtica; - Se α 4 > 3 ⇒ curva Leptocúrtica. 4.5 Exer cíci os Para os exercícios abaixo construa uma tabela de dispersão o suficiente para determinar as medidas de posição (média aritmética, mediana e moda de czuber), dispersão (desvio padrão e variância, coeficiente de variação de Pearson), assimetria (coeficiente de assimetria, e coeficiente de curtose). Faça um relatório referente ao comportamento dos dados em função dos resultados obtidos. 1) De um exame final de Estatística, aplicado a 50 alunos da Universidade Luterana,Ano 1999 resultaram as seguintes notas: 4,0 4,2 4,3 4,4 4,5 4,5 4,6 5,0 5,1 5,2 5,3 5,3 5,5 5,7 5,8 6,0 6,1 6,3 6,4 6,5 6,6 6,7 6,8 6,9 7,0 7,2 7,5 7,6 7,7 7,9 8,0 8,3 8,5 8,6 8,8 8,9 9,0 9,1 9,2 9,3 9,3 9,4 9,4 9,5 9,5 9,6 9,7 9,8 9,9 10,0 49 2) Os dados a seguir refere-se a altura em centímetros de 70 alunos da PUCC, turma 6, ano 2000. 153 154 155 156 158 160 160 161 161 161 162 162 163 163 164 164 165 166 167 167 168 168 169 169 170 170 170 171 171 172 172 173 173 174 174 175 175 176 177 178 179 179 180 182 183 184 185 186 186 187 188 188 189 189 190 191 192 192 192 192 193 194 194 195 197 197 199 200 201 205 3) Os dados a seguir referem-se aos salários anuais pagos em dólares a 60 funcionários da Empresa “PETA S.A.” em 1997. 50,00 52,50 53,50 54,00 54,20 55,50 56,30 56,50 57,00 58,10 58,50 59,00 60,30 61,50 62,00 62,90 63,50 64,00 64,30 65,00 66,00 66,25 67,50 68,00 68,70 69,50 70,00 72,00 75,00 76,50 77,00 78,00 80,00 81,50 82,50 83,50 85,00 87,30 88,00 89,10 90,00 91,35 92,10 93,20 94,00 95,25 96,00 97,00 98,00 99,80 100,10 100,20 101,00 102,00 103,40 104,30 105,00 107,00 108,00 109,10 50 55 P Pr ro ob ba ab bi i l l i id da ad de e e e V Va ar ri i á áv ve ei i s s AAl l e ea at t ó ór r i i a as s 5.1 Model os Mat emát i cos Podem-se destinguir dois tipos de modelos matemáticos: 6.1.1 Modelos Determinísticos Refere -se a um modelo que estipule que as condições sob as quais um experimento seja executado determinem o resultado do experimento. O modelo determinístico requer o uso de parâmetros pré-determinados em equações que definem processos precisos. Em outras palavras, um modelo determinístico empr ega "Considerações Físicas" para prever resultados. 6.1.2 Modelos Não Determinísticos ou Probabilísticos São aqueles que informam com que chance ou probabilidade os acontecimentos podem ocorrer. Determina o "grau de credibilidade" dos acontecimentos. (Modelos Estocásticos). Em outras palavras, um modelo probabilístico emprega uma mesma espécie de considerações para especificar uma distribuição de probabilidade. 5.2 Concei t os em Pr obabi l i dade Os conceitos fundamentais em probabilidade são experimentos aleatórios, espaço amostral e eventos. 5.2.1 Experimento aleatório (Ω) Qualquer processo aleatório, capaz de produzir observações, os resultados surgem ao acaso, podendo admitir repetições no futuro. Um experimento aleatório apresenta as seguintes características: a - os resultados podem repetir-se n vezes ( ∞ → n ) ; 51 b - embora não se possa prever que resultados ocorrerão, pode-se descrever o conjunto de resultados possíveis; c - a medida que se aumenta o número de repetições, aparece uma certa regularidade nos resultados. 5.2.2 Espaço Amostral (S) É o conjunto de resultados possíveis, de um experimento aleatório. Quanto ao número de elementos pode ser: 5.2.2.1 Finito Número limitado de elementos; Ex.: S = {1, 2, 3, 4, 5, 6} 5.2.2.2 Infinito Número ilimitado de elementos, pode ser sub-dividido em: a - Enumerável Quando os possíveis resultados puderem ser postos em concordância biunívoca com o conjunto dos números naturais (N) (caso das variáveis aleatórias discretas). Ex.: N b - Não Enumerável Quando os possíveis resultados não puderem ser postos em concordância biunívoca com o conjunto dos números naturais (caso das variáveis aleatórias contínuas). Ex.: R 5.2.3 Evento (E) Um evento (E) é qualquer subconjunto de um espaço amostral (S). Pode-se ter operações entre eventos da mesma forma que com conjuntos, como mostra a seguir. 5.2.4 Operações com Eventos 5.2.4.1 A união B Símbolo utilizado "U", é o evento que ocorrerá se, e somente se, A ou B ou ambos ocorrerem; 52 B A S FIGURA 6.1 - Evento A união B 5.2.4.2 A interseção B Símbolo utilizado "I", é o evento que ocorrerá se, e somente se, A e B ocorrem simultaneamente. B A S A B U FIGURA 6.2 - Evento A interseção B 5.2.4.3 Complementar de A Simbologia " A _ ", é o evento que ocorrerá se, e somente se A não ocorrer. A S FIGURA 6.3 - Evento complementar de A (A _ ) 53 5.2.5 Tipos de eventos 5.2.5.1 Eventos Mutuamente Excludentes São ditos eventos mutuamente excludentes, quando a ocorrência de um implica ou não ocorrência de outro, isto é, não pode ocorrer juntos, e conseqüentemente, A I B é o conjunto vazio (∅). FIGURA 6.4 - Eventos mutuamente excludentes 5.2.5.2 Eventos Não Excludentes ou Quaisquer São ditos eventos não excludentes quando a ocorrência de um implica na ocorrência do outro, isto é, são aqueles que ocorrem ao mesmo tempo, A B I ≠ ∅. FIGURA 6.5 - Evento não excludentes 5.2.5.3 Eventos Independentes São aqueles cuja ocorrência de um evento, não possui efeito algum na probabilidade de ocorrência do outro. 54 A B I ≠ ∅, se A e B forem Quaisquer; A B I · ∅, se A e B forem Mutuamente Excludentes. logo, ( ) P(B) . ) A ( P B A P · I Ex.: A e B eventos Quaisquer S = { 1, 2, 3, 4 } A = {1, 2 } B = { 2, 4 } } 2 { B A · I ( ) P(B) . ) A ( P B A P · I P A ( ) · 2 4 P B ( ) · 2 4 ( ) 4 1 B A P · I 5.2.5.4 Eventos Dependentes ou Condicionados Existem varias situações onde a ocorrência de um evento pode influenciar fortemente na ocorrência de outro. Assim, se (A) e (B) são eventos, deseja-se definir uma quantidade denominada probabilidade condicional do evento (A) dado que o evento (B) ocorre, ou sob a forma simbólica ( ) B A P . Assim, dá-se a seguinte definição: ( ) P(B) B) P(A B A P I · onde P(B) > 0. Se P(B) = 0, tem-se que ( ) B A P não é definida. 5.2.5.5 Eventos Coletivamente Exaustivos São aqueles que ocorrem se nenhum outro ocorrer. 55 A B C D I I I · ∅ FIGURA 6.6 - Evento coletivamente exaustivos 5.3 Concei t os de Probabi l i dade 5.3.1 Conceito Empírico de Probabilidade O problema fundamental da probabilidade consiste em atribuir um número a cada evento (E), o qual avaliará quão possível será a ocorrência de "E", quando o experimento for realizado. Uma possível maneira de tratar a questão seria determinar a freqüência relativa do evento E (f r (E)), f E) número de ocorrências do evento (E) número de repetições do experimento ( ) r ( · Ω . Surgem, no entanto, dois problemas: a - Qual deve ser o número de repetições do experimento (Ω); b - A sorte ou habilidade do experimentador poderá influir nos resultados, de forma tal que a probabilidade é definida como sendo: P(E) = lim f (E) n r →∞ , onde "n" é o número de repetições do experimento Ω. 5.3.2 Definição Clássica ou Enfoque " A priori" de Probabilidade Se existe "a" resultados possíveis favoráveis a ocorrência de um evento "E" e "b" resultados possíveis não favoráveis, sendo os mesmos mutuamente excludentes, então: 56 P(E) = a a + b , onde os resultados devem ser verossímeis (possível e verdadeiro) e permite a observação dos valores da probabilidade antes de ser observado qualquer amostra do evento (E). 5.3.3 Definição Axiomática Seja (Ω) um experimento, seja (S) um espaço amostral associado a (Ω). A cada evento (E) associa-se um número real representado por P(E) e denominaremos de probabilidade de E, satisfazendo as seguintes propriedades: a - 0 ≤ P(E) ≤ 1; b - P(S) = 1; c - Se A e B são eventos mutuamente excludentes, então: P(A U B) = P(A) + P(B). d - Se A 1 , A 2 , ..., A n são eventos mutuamente excludentes dois a dois, então: P(A 1 U A 2 U ... U A n ) = P(A 1 ) + P(A 2 ) + ... + P(A n ) ou P( A P(A i=1 n i i i=1 n U ) ) · ∑ . As propriedades anteriores são conhecidas como axiomas da teoria da probabilidade. Os axiomas, muitas vezes, se inspiram em resultados experimentais e que, assim, definem a probabilidade de forma que possa ser confirmada experimentalmente. 5.3.4 Teoremas Fundamentais Teorema 1 - Se ∅ for evento vazio, então P(∅) = 0. Prova: Seja um evento A = ∅. Assim, A = A U ∅, como A I ∅ = ∅, de acordo com o item (3.2.3.4), A e ∅ são mutuamente excludentes, então: P(A) = P(A U ∅) P(A) = P(A) + P(∅) 57 P(∅) = P(A) - P(A) P(∅) = 0. Teorema 2 - Se o evento A _ for o evento complementar de A, então P(A _ )= 1-P(A). Prova: A U A _ = S, mas A e A _ são mutuamente excludentes, então: P(A U A _ ) = P(S) P(A U A _ ) = P(A) + P(A _ ) P(A) + P(A _ ) = 1 logo, P(A _ ) = 1 - P(A). Teorema 3 - Se A e B são eventos quaisquer, então: P(A U B) = P(A) + P(B) - P(A I B) Prova: Para provar o Teorema 3 devemos transformar A U B em eventos mutuamente excludentes, conforme a FIGURA 6. FIGURA 6 - Decomposição de eventos quaisquer em mutuamente excludentes Tem-se então que: (A U B) = A U (B I A _ ) 58 e B = (A I B) U (B I A _ ) logo pela propriedade (c) temos: P(A U B) = P[A U (B I A _ )] P(A U B) = P(A) + P(B I A _ ) (-) e P(B) = P[(A I B) U (B I A _ )] P(B) = P(A I B) + P(B I A _ ) ou P(B I A _ ) = P(B) - P(A I B) (--) substituindo-se a equação (-) na equação (--) tem-se: P(A U B) = P(A) + P(B) - P(A I B). Decorrências do Teorema 3: Sejam A, B e C eventos quaisquer: P(A U B U C) = P[(A U B) U C] P(A U B U C) = P(A U B) + P(C) - P[(A U B) I C] P(A U B U C) = P(A) + P(B) + P(C) - P(A I B) - P[(AIC) U (BIC)] P(A U B U C) = P(A) + P(B) + P(C) - P(AIB) - [P(AIC) + P(BIC) - P(AIBIC)] P(A U B U C) = P(A) + P(B) + P(C) - P(AIB) - P(AIC) - P(BIC) + P(AIBIC) Sejam A 1 , A 2 , ..., A n eventos quaisquer: 59 P(A A . .. A P(A ) P(A A ) P(A A A ) P(A A A A ) P(A A A ). 1 2 n i i j i j 2 n i 1 n i j k i j k 3 n i j k n 1 i j k 4 n 1 2 n U U U I I I I I I I I I l l ) ... ( ) ... · − + + − + + − < · · < < · − < < < · ∑ ∑ ∑ ∑ 1 RESUMO ¹ ¹ ¹ ¹ ¹ ' ¹ ∅ ≠ ⇒ ∅ · ⇒ + B A B) P(A - P(B) + P(A) = B) P(A Quaisquer B A P(B) + P(A) = B) P(A s Excludente Mutuamente (OU) I I U I U U ¹ ¹ ¹ ¹ ¹ ' ¹ ⇒ ∅ ≠ ⇒ P(B/A) x P(A) = B) P(A s Dependente B A P(B) x P(A) = B) P(A tes Independen (E) x I I I I 60 5.4 Exer cíci os 1) A probabilidade de 3 jogadores marcarem um penalti é respectivamente: 2/ 3; 4/ 5; 7/ 10 cobrando uma única vez. a) todos acertarem. (28/ 75) b) apenas um acertar. (1/ 6) c) todos errarem. (1/ 50) 2) Numa bolsa com 5 moedas de 1,00 e 10 moedas de 0,50. Qual a probabilidade de ao retirarmos 2 moedas obter a soma 1,50. (10/ 21) 3) Uma urna contém 5 bolas pretas, 3 vermelhas e 2 brancas. Três bolas são retiradas. Qual a probabilidade de retirar 2 pretas e 1 vermelha ? a) sem reposição (1/ 4) b) com reposição (9/ 40) 4 ) Numa classe há 10 homens e 20 mulheres, metade dos homens e metade das mulheres possuem olhos castanhos. Ache a probabilidade de uma pessoa escolhida ao acaso ser homem ou ter olhos castanhos. (2/ 3) 5) A probabilidade de um homem estar vivo daqui a 20 anos é de 0.4 e de sua mulher é de 0.6 . Qual a probabilidade de que: a) ambos estejam vivos no período ? (0.24) b) somente o homem estar vivo ? (0.16) c) ao menos a mulher estar viva ? (0.6) d) somente a mulher estar viva? (0.36) 6) Faça o exercício anterior considerando 0,5 a chance do homem estar vivo e 0,2 a chance da mulher estar viva e compara os resultados. 7) Uma urna contém 5 fichas vermelhas e 4 brancas. Extraem-se sucessivamente duas ficha, sem reposição e constatou-se que a 1ª é branca. a) qual a probabilidade da segunda também ser branca ? (3/ 8) b) qual a probabilidade da 2ª ser vermelha ? (5/ 8) 8) Numa cidade 40 % da população possui cabelos castanhos, 25% olhos castanhos e 15% olhos e cabelos castanhos. Uma pessoa é selecionada aleatoriamente. a) se ela tiver olhos castanhos, qual a probabilidade de também ter cabelos castanhos? b) se ela tiver cabelos castanhos, qual a probabilidade de ter olhos castanhos ? (3/ 5) (3/ 8) 61 9) Um conjunto de 80 pessoas tem as características abaixo: BRASILEIRO ARGENTINO URUGUAIO TOTAL MASCULINO 18 12 10 40 FEMININO 20 05 15 40 TOTAL 38 17 25 80 Se retirarmos uma pessoa ao acaso, qual a probabilidade de que ela seja: a) brasileira ou uruguaia. (63/ 80) b) do sexo masculino ou tenha nascido na argentina. (9/ 16) c) brasileiro do sexo masculino. (18/ 80) d) uruguaio do sexo feminino. (15/ 80) e) ser mulher se for argentino. (5/ 17) 10) Um grupo de pessoas está assim formado: Médico Engenheiro Veterinário Masc. 21 13 15 Femin. 12 08 17 Escolhendo-se, ao acaso, uma pessoa do grupo, qual a probabilidade de que seja: a) Uma mulher que fez o curso de medicina ? b) Uma pessoa que fez o curso de medicina ? c) Um engenheiro dado que seja homem ? d) Não ser médico dado que não seja homem ? 11) Num ginásio de esportes, 26% dos frequentadores jogam vôlei, 36% jogam basquete e 12% praticam os dois esportes. Um dos frequentadores é sorteado para ganhar uma medalha. Sabendo-se que ele joga basquete, qual a probabilidade de que também jogue vôlei ? 12) A probabilidade de um aluno resolver um determinado problema é de 1/ 5 e a probabilidade de outro é de 5/ 6. Sabendo que os alunos tentam solucionar o problema independentemente. Qual a probabilidade do problema ser resolvido : a) somente pelo primeiro ? b) ao menos por um dos alunos ? c) por nenhum ? 62 5.5 Teor ema de Bayes Definição: Seja S um espaço amostral e A , A , ..., A , 1 2 k k eventos. Diz-se que A , A , ..., A , 1 2 k formam uma partição de S se: A , i 1, 2, ..., k i ≠ ∅ · A S, i i 1 k · · U A A , i j i j I · ∅ ≠ A , A , A , A , A , ..., A 1 2 3 4 5 k formam uma partição de S. FIGURA 6.7 - Diagrama representativo do Teorema de Bayes Seja B um evento qualquer de S, onde: B (B A ) (B A ) ... (B A 1 2 k · I U I U U I ) ( ) ∑ · , _ ¸ ¸ · k 1 j j j A B .P A P P(B) , j = 1, 2, ..., k (-) , _ ¸ ¸ · i i i A B ).P P(A ) A P(BI , (--) como 63 P(B) ) A P(B B A P i i I · , _ ¸ ¸ , (---) substituindo as equações (-) e (--) na equação (---) temos: ( ) ( ) ∑ · , _ ¸ ¸ , _ ¸ ¸ · , _ ¸ ¸ k 1 j j j i i i A B .P A P A B .P A P B A P , j = 1, 2, ..., k . Exemplo: Urna U 1 U 2 U 3 Azul 3 4 3 Branca 1 3 3 C o r e s Preta 5 2 3 Escolhe-se uma urna ao acaso e dela extrai-se uma bola ao acaso, verificando-se que ela é branca. Qual a probabilidade dela ter saído da urna: U 1 ? U 2 ? U 3 ? 2) Temos 2 caixas: na primeira há 3 bolas brancas e 7 pretas e na segunda, 1 branca e 5 pretas. De uma caixa escolhida aleatoriamente, selecionou-se uma bola e verificou-se que é preta. Qual a probabilidade de que tenha saído da primeira caixa ? segunda caixa ? 5.6 Var i ávei s al eat ór i as Ao descrever um espaço amostral (S) associado a um experimento (Ω) especifica-se que um resultado individual necessariamente, seja um número. Contudo, em muitas situações experimentais, estaremos interessado na mensuração de alguma coisa e no seu registro como um número. Definição: Seja (Ω) um experimento aleatório e seja (S) um espaço amostral associado ao experimento. Uma função de X, que associe a cada elemento s ∈ S um número real x(s), é denominada variável aleatória. 64 FIGURA 1 - Representação de uma variável aleatória Uma variável X será discreta (V.A.D.) se o número de valores de x(s) for finito ou infinito numerável. Caso encontrarmos x(s) em forma de intervalo ou um conjunto de intervalos, teremos uma variável aleatória contínua (V.A.C.). 5.7 Função de Pr obabi l i dade A probabilidade de que uma variável aleatória "X" assuma o valor "x" é uma função de probabilidade, representada por P(X = x) ou P(x). 5.7.1 Função de Probabilidade de uma V.A.D. A função de probabilidade para uma variável aleatória discreta é chamada de função de probabilidade no ponto, ou seja, é o conjunto de pares (x i; P(x i )), i = 1, 2, ..., n, ..., conforme mostra a FIGURA 9. FIGURA 6.1 - Distribuição de probabilidade de uma V.A.D. 65 Para cada possível resultado de x teremos: 0 P( X) 1 ≤ ≤ ; P(X ) 1 i i 1 · · ∞ ∑ 5.7.2 Função de Repartição para V.A.D. Seja X uma variável aleatória discreta. Define-se Função de Repartição da Variável aleatória X, no ponto x i , como sendo a probabilidade de que X assuma um valor menor ou igual a x i , isto é: ( ) F(X P X x i ) · ≤ Propriedades: 1 a ) ( ) F(X P x i x x i ) · ≤ ∑ 2 a ) F(−∞ · ) 0 3 a ) F(+∞ · ) 1 4 a ) ( ) P a x b F(b F(a < ≤ · − ) ) 5 a ) ( ) P a x b F(b F(a P X a ≤ ≤ · − + · ) ) ( ) 6 a ) ( ) P a x b F(b F(a P X b < < · − − · ) ) ( ) 7 a ) F(X) é contínua à direita ⇒ ( ) lim ) x x o F(X F X → · 0 8 a ) F(X) é descontínua à esquerda, nos pontos em que a probabilidade é diferente de zero. ( ) lim ) , ) x x o F(X F X → ≠ ≠ 0 0 para P(X= x o 9 a ) A função não é decrescente, isto é, F(b) ≥ F(a) para b > a. 5.6.3 Esperança Matemática de V.A.D. Definição: Seja X uma V.A.D., com valores possíveis x 1 , x 2 , ..., x n ,... ; Seja P(x i ) = P(X = x i ), i = 1, 2, ..., n, ... . Então, o valor esperado de X (ou Esperança Matemática de X), denotado por E(X) é definido como 66 E( X) x P(x ) i i i 1 · · ∞ ∑ se a série E( X) x P(x ) i i i 1 · · ∞ ∑ convergir absolutamente, isto é, se |x | P(x ) i i i 1 · ∞ ∑ < ∞, este número é também denominado o valor médio de X, ou expectância de X. 5.7.4 Variância de uma V.A.D. Definição: Seja X uma V.A.D. . Define-se a variância de X, denotada por V(X) ou σ 2 x , da seguinte maneira: ( ) V(X) x E(X) .P(x ) i 2 i i 1 · − · ∞ ∑ ou V(X) E(X ) E( X) 2 2 · − onde E(X ) x P( x ) 2 i 2 i i 1 · · ∞ ∑ e a raiz quadrada positiva de V(X) é denominada o desvio-padrão de X, e denotado por σ x . 5.7.5 Função de Probabilidade de uma V.A.C. No instante em que X é definida sobre um espaço amostral contínuo, a função de probabilidade será contínua, onde a curva limitada pela área em relação ao valores de x será igual a 1. FIGURA 6.2 - Distribuição de probabilidade de uma V.A.C. Se quisermos calcular a probabilidade de X assumir um valor x entre "a" e "b" devemos calcular: P(a x b) f(x) dx a b ≤ ≤ · ∫ 67 Pelo fato de que a área representa probabilidade, e a mesma tem valores numéricos positivos, logo a função precisa estar inteiramente acima do eixo das abscissas (x). Definição: A função f(x) é uma Função Densidade de Probabilidade (f.d.p.) para uma V.A.C. X, definida nos reais quando f (x) 0 ≥ ; f(x) dx = 1 −∞ +∞ ∫ ; P(a x b) f(x) dx a b ≤ ≤ · ∫ . 5.7.6 Função de Repartição para V.A.C. Seja X uma variável aleatória contínua. Define-se Função de Repartição da Variável aleatória X, no ponto x i , como sendo: F(X f x dx x ) ( ) · −∞ ∫ • ( ) ( ) ( ) ( ) P a x b P a x b P a x b P a x b ≤ ≤ · < < · < ≤ · ≤ < 5.7.7 Esperança Matemática de uma V.A.C. Definição: Seja X uma V.A.C. com f.d.p. f(x). O valor esperado de X é definido como ∫ ∞ ∞ · + - dx x.f(x) E(X) pode acontecer que esta integral imprópria não convirja. Conseqüentemente, diremos que E(X) existirá se, e somente se, ∫ +∞ ∞ − f(x) | x | for finita. 68 5.7.8 Variância de uma V.A.C. Definição: Seja X uma V.A.C. de uma função distribuição de probabilidade (f.d.p.). A variância de X é: ( ) V(X) x E(X) f(x) dx 2 · − −∞ +∞ ∫ ou V(X) E(X ) E( X) 2 2 · − onde E(X ) x f(x) dx 2 2 · −∞ +∞ ∫ 5.8 Exempl os - Variável Aleatória Discreta Seja X o lançamento de duas moedas e descrever o experimento em função da obtenção do número de caras: i) determinar a função de probabilidade e represente graficamente; ii) construir a função de repartição e represente graficamente; iii) Use as propriedades para determinar: a) P(0 < x < 2); b) P(0 ≤ x ≤ 1); c) P(0 < x ≤ 2); d) F(1); e) F(2) iv) E(X) e V(X) i) Representação gráfica 0 1 2 0 0,1 0,2 0,3 0,4 0,5 0,6 69 ii) Representação gráfica F(x) = 0 se x< 0 F(X) = 1/ 4 se 0 ≤ x < 1 F(X) = 3/ 4 se 1 ≤ x < 2 F(X) = 1 se x ≥ 2 iii) a) ( ) 4 3 4 1 4 1 1 ) 2 X ( P ) 0 ( F ) 2 ( F 2 x 0 P · − − · · − − · < < b) ( ) P x F( F( P X 0 1 1 0 0 3 4 1 4 1 4 3 4 ≤ ≤ · − + · · − + · ) ) ( ) c) ( ) P x F( F( 0 2 2 0 1 1 4 3 4 < ≤ · − · − · ) ) d) F(1) = 3/ 4 e) F(2) = 1 iv) Esperança Matemática E( X) x P(x ) i i i 1 · · ∞ ∑ = 0 1 2 1 . 1 4 . 2 4 . 1 4 + + · Variância E(X ) x P( x ) 2 i 2 i i 1 · · ∞ ∑ = 0 1 2 6 4 2 2 2 . 1 4 . 2 4 . 1 4 + + · V(X) E(X ) E( X) 2 2 · − = 6 4 4 4 2 4 05 − · · . 70 - Variável Aleatória Contínua Seja X uma variável aleatória contínua: ¹ ' ¹ < < · valor outro qualquer para 0, 1 x 0 para , x 2 ) x ( f i) represente graficamente função densidade de probabilidade; ii) determinar a função de repartição e represente graficamente; iii) Determine , _ ¸ ¸ ≤ ≤ 4 3 x 4 1 P e , _ ¸ ¸ < ≤ 1 x 4 1 P iv) E(X) e V(X) i) ii) para x< 0 ⇒ ∫ ∞ − · · x 0 dx 0 ) X ( F para 0 ≤ x < 1 ⇒ [ ] ∫ ∫ ∞ − · + · + · x 2 x 0 2 x 0 x x 0 dx x 2 dx 0 ) X ( F para x ≥ 1 ⇒ [ ] ∫ ∫ ∫ ∞ − +∞ · + + · + + · x 1 0 2 1 0 1 1 0 x 0 dx 0 dx x 2 dx 0 ) X ( F 71 Representação gráfica iii) [ ] P x x 1 4 3 4 2 3 4 1 4 8 16 0 5 1 4 3 4 1 4 3 4 2 2 ≤ ≤ ¸ ¸ _ , · · ¸ ¸ _ , − ¸ ¸ _ , · · ∫ dx = x 2 , iv) [ ] E(X) f(x) dx = 2x dx = f(x) dx = 2 3 · · ∫ ∫ ∫ x x x x 0 1 0 1 2 0 1 3 0 1 2 2 3 [ ] E(X ) f(x) dx = 2x dx = f(x) dx = 2 4 2 · · ∫ ∫ ∫ x x x x 2 0 1 2 0 1 3 0 1 4 0 1 2 1 2 logo, [ ] V(X) E(X ) E(X) 2 2 · − · − ¸ ¸ _ , · − · 1 2 2 3 9 8 18 1 18 2 5.9 Exer cíci os 1) Admita que a variável X tome valore 1, 2 e 3 com probabilidades 1/ 3, 1/ 6 e 1/ 2 respectivamente. a) Determine sua função de repartição e represente graficamente. b) Calcule usando as propriedades: b.1) a) P(1 < x < 3); b) P(1 ≤ x ≤ 2); c) P(1 < x ≤ 3); d) F(1); e) F(2) c) E(X) e V(X) 2) No lançamento simultâneo de dois dados, considere as seguintes variáveis aleatórias: 72 X = número de pontos obtidos no 1 o dado. Y = número de pontos obtidos no 2 o dado. a) Construir a distribuição de probabilidade através de uma tabela e gráfico das seguinte variáveis: i) W = X - Y ii) A = 2 Y iii) Z = X . Y b) Construir a função de repartição das Variáveis W, A e Z c) Aplicar as propriedades e determinar: i) P (-3 < W ≤ 3) v) P (Z = 3) ii) P (0 ≤ W ≤ 4) vi) P (A ≥ 11) iii) P (A > 6) vii) P (20 ≤ Z ≤ 35) iv) P (Z ≤ 5.5) viii) P 3,5 < Z < 34) d) Determine E(W), E(A), E(Z), V(W), V(A) e V(Z) 3) Uma variável aleatória discreta tem a distribuição de probabilidade dada por: ( ) P X K x · para x = 1, 3, 5 e 7 a) calcule o valor de k b) Calcular P(X= 5) c) E(X) d) V(X) 4) Seja Z a variável aleatória correspondente ao número de pontos de uma peça de dominó. a) Construir a tabela e traçar o gráfico P(Z). b) Determinar F(Z) e traçar o gráfico. c) Calcular P(2≤ Z < 6). d) Calcular F(8). e) E(Z) e V(Z). 73 5) Seja ( ) ¹ ¹ ¹ ' ¹ < < − · contrário caso 0, 1 x 0 , x 1 2 3 ) x ( f 2 , i) Ache a função de repartição e esboce o gráfico. ii) Determine E(X) e V(X). 6) Seja ¹ ¹ ¹ ' ¹ ≤ ≤ · contrário caso 0, 2 x 0 , x 2 1 ) x ( f , i) Ache a função de repartição e esboce o gráfico. ii) P(1< x < 1,5). iii) E(X) e V(X). 7) Uma variável aleatória X tem a seguinte f.d.p.: x < 0 f(x) = 0 0 ≤ x < 2 f(x) = k 2 ≤ x < 4 f(x) = k(x - 1) x ≥ 4 f(x) = 0 a) Represente graficamente f(x). b) Determine k. c) Determine F(X) e faça o gráfico d) E(X) e V(X) 8) A função de probabilidade de uma V.A.C. X é ( ) ¹ ' ¹ < < − · contrário caso 0, 1 x 0 , x 1 x 6 ) x ( f a) Determine F(X) e represente graficamente. b) Calcule P x ≤ ¸ ¸ _ , 1 2 c) E(X) e V(X) 74 9) Uma variável aleatória X tem a seguinte f.d.p.: f(x) = 0 x < 0 f(x) = Ax 0 ≤ x < 500 f(x) = A(100 - x) 500 ≤ x < 1000 f(x) = 0 x ≥ 1000 a) Determine o valor de A. b) P (250 ≤ x ≤ 750). 10) Dada a função de repartição: F(X) = 0 para x < -1 F(X) = x +1 2 para -1 ≤ x < 1 F(X) = 1 para x ≥ 1 a) Calcule: P x − ≤ ≤ ¸ ¸ _ , 1 2 1 2 , b) P(X = 0) 75 6 6 D Di i s stt r r i ib bu ui i ç çõõe es s d de e P Pr ro ob ba ab bi i l l i i d da ad de e Após termos visto as definições de V.A.D. e V.A.C., citaremos as principais distribuições de probabilidade relacionadas a estas variáveis. 6.1 Di st r i bui ções Di scr et as de Pr obabi l i dade 6.1.1 Distribuição de Bernoulli Consideramos uma única tentativa de um experimento aleatório podemos ter sucesso ou fracasso nessa tentativa. Seja "p" a probabilidade de sucesso e "q" a probabilidade de fracasso, onde p + q = 1. Seja X o número de sucesso em uma única tentativa, logo X pode assumir: X = 0 se ocorrer fracasso e X = 1 se ocorrer sucesso, ou ainda: ¹ ' ¹ · . p = 1) = P(X com sucesso, for se 1, q = 0) = P(X com fracasso, for se 0, X Supondo que em uma única tentativas o número de casos possíveis sejam: A, A, ..., A A, A, ..., A x sucessos n-x fracassos 1 2 44 3 44 1 2 44 3 44 , sendo os resultados independentes, temos: P(A A ... A A A ... A) P(A). P(A). ... . P(A).P(A). P(A). ... . P(A) I I I I I I I · P(A).P(A). ... .P(A) . P(A). P(A). ... .P(A) x sucessos n- x fracassos 1 2 4444 3 4444 1 2 4444 3 4444 , onde P(A)= p e P(A _ ) = q, 76 nessa condição a variável aleatória X tem distribuição de Bernoulli, e sua função de probabilidade (f. p.) (função de probabilidade) é dada por: P(X x) p .q x n x · · − . 6.1.1.1 Esperança Matemática da Distribuição de Bernoulli E( X) x P(x ) i i i 1 · · ∞ ∑ E( X) x P(x ) x P(x ) 1 1 2 2 · + E(X) P(0) P(1) · + 0 1 . . E(X) 0.q 1.p · + E(X) p · 6.1.1.2 Variância da Distribuição de Bernoulli V(X) E(X ) E( X) 2 2 · − onde E(X ) x P( x ) 2 i 2 i i 1 · · ∞ ∑ E(X ) x P(x ) x P( x ) 2 1 2 1 2 2 2 · + E( X ) 1.p = p 2 · + 0.q logo V(X) p p 2 · − ( ) p - 1 p. V(X) · V(X) p . q · 6.1.2 Distribuição Binomial O termo "Binomial" é utilizado quando uma variável aleatória esta agrupada em duas classes ou categorias. As categorias devem ser mutuamente excludentes, de modo a deixar bem claro a qual categoria pertence determinada observação; e as classes devem ser coletivamente exaustivas, de forma que nenhum outro resultado fora delas é possível 77 Sejam, "p" probabilidades de sucesso e "q" probabilidades de falha, ou seja p + q = 1. A probabilidade de x sucessos em x tentativas é dado por p x e de (n - x) falhas em (n - x) tentativas é dado por q n-x , onde o número de vezes em que pode ocorrer x sucessos e (n-x) falhas é dado por: x)! (n x! n! x n C x n, − · , _ ¸ ¸ · logo, a probabilidade de ocorrer x sucessos com n tentativas será x n x q p x n x) P(X − , _ ¸ ¸ · · Propriedades necessárias para haver uma utilização da Distribuição Binomial: 1 a ) Número de tentativas fixas; 2 a ) Cada tentativa deve resultar numa falha ou sucesso; 3 a ) As probabilidades de sucesso devem ser iguais para todas as tentativas; 4 a ) Todas as tentativas devem ser independentes. 6.1.2.1 Esperança Matemática de Distribuição Binomial E( X) x P(x ) i i i 1 · · ∞ ∑ x n x q p x n x. E(X) − , _ ¸ ¸ · como P(X) segue uma Distribuição de Probabilidade, temos: ∑ ∑ ∞ − ∞ · · , _ ¸ ¸ · 0 1 = x x n x 1 i i 1 q p x n ou 1 ) x = P(X logo, E(X) x. n! x(x - 1)!(n - x)! p q x n x x · − · ∞ ∑ 1 E(X) . (n -1)! (x -1)!(n - x)! p q x n x x · − · ∞ ∑ n 1 , ou seja para s = x - 1 e x = s + 1, temos 1) (s n 1 s 1 = x q p s 1 - n n. E(X) + − + ∞ ∑ , _ ¸ ¸ · 78 s ) 1 (n s 1 = x q .p p s 1 - n n. E(X) − − ∞ ∑ , _ ¸ ¸ · 4 4 4 3 4 4 4 2 1 1 s ) 1 (n s 1 = x q . p s 1 - n n.p E(X) − − ∞ ∑ , _ ¸ ¸ · p . n E(X) · 6.1.2.2 Variância de uma Distribuição Binomial V(X) E(X ) E( X) 2 2 · − onde E(X ) x P( x ) 2 i 2 i i 1 · · ∞ ∑ E(X ) x.x n! x.( x 1)!(n x)! p q para s = x -1 e x = s +1, temos: 2 x n x x · − − − · ∞ ∑ 1 , E(X ) n! s!(n )! p q 2 s+1 n x · + − + − + · ∞ ∑ ( ) ( ) ( ) s s s 1 1 1 1 E(X ) s.n (n -1)! s!(n- 1- s)! p .p q n (n- 1)! s!(n-1- s)! p . p q 2 s n 1 s s n 1 s x x · + − − − − · ∞ · ∞ ∑ ∑ 1 1 1 1 1 1 ] 1 ¸ , _ ¸ ¸ + , _ ¸ ¸ − · ∑ ∑ ∞ · − − − ∞ · − − 4 4 4 3 4 4 4 2 1 4 4 4 3 4 4 4 2 1 1 1 x s 1 n s 1)p (n 1 x s 1 n s 2 q p s 1 - n q .p p s 1 n s n.p ) E(X E(X ) 2 · − + n p n p . ( ) 1 1 E(X ) 2 · − + n p np p . ( 1 E( X ) n p np np 2 2 2 2 · − + V(X) p np np - (np) 2 2 2 · − + n 2 V(X) n. p. (1- p) · V( X) n. p.q · 79 6.1.2.3 Esperança Matemática e Variância para a Probabilidade de Sucesso (p) de uma Distribuição Binomial p E(p) · e V(p) p. q n · 6.1.3 Distribuição de Poisson Quando numa distribuição binomial o tamanho "n" das observações for muito grande e a probabilidade "p" de sucesso for muito pequena, a probabilidade x de ocorrência de um determinado número de observações segue uma Distribuição de Poisson. A aplicação da distribuição segue algumas restrições: - Somente a chance afeta o aparecimento do evento, contando-se apenas com a sua ocorrência, ou seja, a probabilidade de sucesso "p". - Uma vez não conhecido o número total de eventos, a distribuição não pode ser aplicada. Se n → ∞ em conseqüência n > > x assim, n! (n x)! n. ( n 1).( n 2). ... .(n- x+1) n x − · − − ≈ logo, P(x) n x! p q x x n x · − . Se p → 0 e n > > x logo, ( ) n n x n p 1 q q − · ≈ − assim, P(x) (n. p) (1 p) x! x n · − 1 ] 1 ¸ + − − + − · ... ) p ( 1 . 2 ) 1 n ( n p . n 1 x! (n.p) P(x) 2 x 1 ] 1 ¸ + + − ≅ ... ! 2 ) p . n ( p . n 1 x! (n.p) P(x) 2 x 80 P(x) (n. p) e x! x -n.p · Substituindo o valor esperado n.p por λ e considerando-o como sendo o número médio de ocorrência expresso em unidades de tempo, pode-se dizer que λ é a taxa média de falhas (falha / unid. tempo) e t o tempo, logo o número médio de falhas será λ t , assim, P( x) . e x! - · λ λ t x fornece a probabilidade de x falhas no período de tempo t. A probabilidade de zero falhas no tempo t é a confiabilidade do componente em função do tempo. P(0) R(t) e t · · −λ 6.1.3.1 Esperança Matemática da Distribuição de Poisson E( X) x P(x ) i i i 1 · · ∞ ∑ E(X) x e x! - x x 1 · · ∞ ∑ λ λ E( X) e (x- 1)! - x x 1 · · ∞ ∑ λ λ , substituindo s = x -1 e x = s + 1 temos: E(X) e s! - s+1 x 1 · · ∞ ∑ λ λ E(X) e s! - s x 1 · · ∞ ∑ λ λ λ 1 1 2 4 3 4 E(x) = λ 6.1.3.2 Variância da Distribuição de Poisson V(X) E(X ) E( X) 2 2 · − onde E(X ) x P( x ) 2 i 2 i i 1 · · ∞ ∑ E( X ) x. x e x(x- 1)! 2 - x x 1 · · ∞ ∑ λ λ , substituindo s = x - 1 e x = s + 1 temos: 81 E(X ) (s +1) e s! 2 - s+1 x 1 · · ∞ ∑ λ λ E(X ) (s +1) e s! 2 - s x 1 · · ∞ ∑ λ λ λ 1 1 1 1 ] 1 ¸ λ + λ λ · ∑ ∑ ∞ · λ ∞ · λ 43 42 1 43 42 1 1 1 x s - E(X) 1 x s - 2 s! e s! e s ) E(X E(X) 2 · + λ λ 2 V(X) · + − λ λ λ 2 2 ( ) V(X) · λ 6.2 Exer cíci os 1) Admitindo-se o nascimento de meninos e meninas sejam iguais, calcular a probabilidade de um casal com 6 filhos ter: a) 4 filhos e 2 filhas b) 3 filhos e 3 filhas 2) Em 320 famílias com 4 crianças cada uma, quantas se esperaria que tivessem: a) nenhuma menina; b) 3 meninos c) 4 meninos 3) Um time X tem 2/ 3 de probabilidade de vitória sempre que joga. Se X jogar 5 partidas, calcule a probabilidade de: a) X vencer exatamente 3 partidas; b) X vencer ao menos uma partida; c) X vencer mais da metade das partidas; d) X perder todas as partidas; 4) A probabilidade de um atirador acertar um alvo é 1/ 3. Se ele atirar 6 vezes, qual a probabilidade de: a) acertar exatamente 2 tiros; b) não acertar nenhum tiro. 5) Num teste de certo-errado, com 100 perguntas, qual a probabilidade de um aluno, respondendo as questões ao acaso, acertar 70% das perguntas ? 82 6) Se 5% das lâmpadas de certa marca são defeituosas, achar a probabilidade de que, numa amostra de 100 lâmpadas, escolhidas ao acaso, tenhamos: a) nenhuma defeituosa (use binomial e poisson) b) 3 defeituosas; c) mais do que uma boa; 7) Uma fabrica de pneus verificou que ao testar seus pneus nas pistas, havia em média um estouro de pneu a cada 5.000 km. a) qual a probabilidade que num teste de 3.000 km haja no máximo um pneu estourado ? b) Qual a probabilidade de um carro andar 8.000 km sem estourar nenhum pneu ? 8) Certo posto de bombeiros recebe em média 3 chamadas por dia. Calcular a probabilidade de: a) receber 4 chamadas num dia; b) receber 3 ou mais chamadas num dia; c) 22 chamadas numa semana. 9) A média de chamadas telefônicas em uma hora é 3. Qual a probabilidade: a) receber exatamente 3 chamadas numa hora; b) receber 4 ou mais chamadas em 90 minutos; c) 75 chamas num dia; 10) Na pintura de paredes aparecem defeitos em média na proporção de 1 defeito por metro quadrado. Qual a probabilidade de aparecerem 3 defeitos numa parede 2 x 2 m ? 11) Suponha que haja em média 2 suicídios por ano numa população de 50.000 hab. Em uma cidade de 100.000 habitantes, encontre a probabilidade de que um dado ano tenha havido: a) nenhum suicídio; b) 1 suicídio; c) 2 ou mais suicídios. 12) Suponha 400 erros de impressão distribuídos aleatoriamente em um livro de 500 páginas. Encontre a probabilidade de que uma dada página contenha: a) nenhum erro; b) 100 erros em 200 páginas. 83 6.3 Di st ri bui ções Cont ínuas de Probabi l i dade 6.3.1 Distribuição Uniforme É uma distribuição de probabilidade usada para variáveis aleatórias contínuas, definida num intervalo a, b , e sua função densidade de probabilidade é dada por: ¹ ¹ ¹ ' ¹ ≤ ≤ − · b > ou x a < x se 0 b x a se a b 1 f(x) . FIGURA 6.1 - Representação de uma Distribuição Uniforme 6.3.1.1 Esperança Matemática da Distribuição Uniforme ∫ +∞ ∞ − · dx f(x) x E(X) ∫ · b a dx a - b 1 x E(X) b a 2 2 x a - b 1 E(X) 1 ] 1 · E(X) b a 2(b a) 2 2 · − − E(X) ( b- a) (b +a) 2(b a) · − E( X) (b +a) 2 · 84 6.3.1.2 Variância da Distribuição Uniforme V(X) E(X ) E( X) 2 2 · − ∫ +∞ ∞ − · dx f(x) x ) E(X 2 2 ∫ · b a 2 2 dx a - b 1 x ) E(X ∫ · b a 2 2 dx x a - b 1 ) E(X b a 3 2 3 x a - b 1 ) E(X 1 ] 1 · E(X ) b a 3( b a) 2 3 3 · − − E( X ) (b - a)(b ab a ) 3(b a) 2 2 2 · + + − E( X ) b ab a 3 2 2 2 · + + 2 2 2 2 a b 3 a ab b V(X) , _ ¸ ¸ + − + + · V(X) b ab a 3 b ab a 4 2 2 2 2 · + + − − + V(X) 4b 4ab 4a 3b 6ab 3a 12 2 2 2 2 · + + − − − V(X) b ab a 12 2 2 · − + 2 V(X) (b a) 12 2 · − 6.3.2 Distribuição Normal ou Gaussiana É um modelo de distribuição contínua de probabilidade, usado tanto para variáveis aleatórias discretas como contínuas. Uma variável aleatória X, que tome todos os valores reais -∞ < x < +∞ tem distribuição normal quando sua função densidade de probabilidade (f.d.p.) for da forma: ∞ < −∞ σ π · , _ ¸ ¸ σ µ − − + < x , e 2 1 f(x) 2 x 2 1 85 Os parâmetros µ e σ seguem as seguintes condições: −∞ ∞ < < + e > 0 µ σ . 6.3.2.1 Propriedades da Distribuição Normal a) f é uma f.d.p. legítima para f(x)≥0, logo 1 d(x) f(x) · ∫ +∞ ∞ − fazendo t x · − µ σ temos: I = dt e 2 1 d(x) f(x) 2 t − ∞ + ∞ − ∞ + ∞ − ∫ ∫ σ π · . Para calcular esta integral usaremos um artifício, ou seja, no lugar de I usaremos I². ∫ ∫ ∞ + ∞ − − ∞ + ∞ − − π · ds e . dt e 2 1 I 2 s 2 t 2 ds dt e 2 1 I + - 2 ) s (t + - 2 2 2 ∫ ∫ ∞ ∞ + − ∞ ∞ π · introduzindo coordenadas polares para realizar o cálculo dessa integral dupla, temos: s r · cos e t = r sen α α conseqüentemente o elemento de área ds dt se torna r dr dα. Como −∞ ∞ − ∞ ∞ ∞ < < + e < < + 0 < r < + e 0 < a < 2 s t , π , portanto α π · ∫ ∫ ∞ − π d dr e r 2 1 I + 0 2 r 2 0 2 2 ∫ π +∞ − α 1 1 ] 1 π · 2 0 0 2 r 2 d e 2 1 I 2 ∫ π α − − π · 2 0 2 d ) 1 0 ( 2 1 I I 2 · 1 2 0 2 π α π 86 I 2 · · 1 2 2 1 π π I² = 1 , logo I = 1 como queríamos mostrar. b) O aspecto gráfico da função f tem: - Semelhança de um sino, unimodal e simétrico em relação a média µ. - A especificação da média µ e do desvio padrão σ é completamente evidenciado. - A área total da curva equivale a 100%. - A área total da curva equivale a 100%. FIGURA 7.2 - Distribuição Normal em função da µ e σ 6.3.2.2 Esperança Matemática da Distribuição Normal ∫ +∞ ∞ − · dx f(x) x E(X) ∫ ∞ + ∞ − , _ ¸ ¸ σ µ − − π σ · dx e 2 1 x E(X) 2 x 2 1 fazendo z x · − µ σ ,∂ ∂ σ σ µ x e x = z + z · , ∫ ∞ + ∞ − − µ σ π · dz e ) + z ( 2 1 E(X) 2 z 4 4 3 4 4 2 1 43 42 1 um 2 z zero 2 z dz e 2 1 dz e z 2 1 E(X) ∫ ∫ ∞ + ∞ − − ∞ + ∞ − − π µ + σ π · 87 E(X) = µ 6.3.2.3 Variância da Distribuição Normal V(X) E(X ) E( X) 2 2 · − ∫ +∞ ∞ − · dx f(x) x ) E(X 2 2 ∫ ∞ + ∞ − , _ ¸ ¸ σ µ − − π σ · dx e 2 1 x ) E(X 2 x 2 1 2 2 fazendo z x · −µ σ ,∂ ∂ σ σ µ z · x e x = z + , ∫ ∞ + ∞ − − µ σ σ π σ · dz e ) + z ( 2 1 ) E(X 2 z 2 2 4 4 3 4 4 2 1 43 42 1 um 2 z 2 zero 2 z 2 z 2 2 2 dz e 2 1 dz e z 2 2 1 dz e z 2 1 ) E(X ∫ ∫ ∫ ∞ + ∞ − − ∞ + ∞ − − ∞ + ∞ − − π µ + σ µ π + σ π · 2 2 z 2 2 2 dz e z 2 1 ) E(X µ + σ π · ∫ ∞ + ∞ − − integrando por partes temos que ∫ ∫ du v - dv u = dv u z u dv e dz du 1 dz v e 2 z 2 z 2 2 2 · · · · − − − ∫ ∞ + ∞ − − +∞ ∞ − − µ − − 1 ] 1 σ π · 2 2 z 2 z 2 2 2 + dz e e z 2 1 ) E(X 2 um 2 z 2 2 dz e 2 1 0 ) E(X µ + − π σ + · ∫ ∞ + ∞ − − 4 4 4 3 4 4 4 2 1 E(X ) 2 · + σ µ 2 2 logo, V(X) = σ² 88 6.3.2.4 Distribuição Normal Padronizada Tem como objetivo solucionar a complexidade da f(x) através da mudança de variável. f(z). FIGURA 7.4 - Complemento da Distribuição Normal Padronizada Fazendo z x · −µ σ e z ~ N(0,1) temos que f(z) = 1 e z 2 2 2π − −∞ +∞ ∫ , com E(z) = 0 e VAR(z) = 1. onde: z = número de desvios padrões a contar da média x = valor arbitrário µ = média da distribuição normal σ = desvio padrão da distribuição normal Estas probabilidades estão tabeladas e este caso particular é chamado de Forma Padrão da Distribuição Normal. 89 6.3.3 Distribuição “t” de Student Trata-se de um modelo de distribuição contínua que se assemelha à distribuição normal padrão, N ~ (0,1). Ë utilizada para inferências estatísticas, particularmente, quando se tem amostras com tamanhos inferiores a 30 elementos. A distribuição t também possui parâmetros denominado "grau de liberdade - ϕ". A média da distribuição é zero e sua variância é dada por: [ ] ( ) VAR t t ϕ ϕ σ ϕ ϕ · · − 2 2 , para ϕ > 2. A distribuição t é simétrica em relação a sua média. 6.4 Exer cíci os 1) As alturas dos alunos de uma determinada escola são normalmente distribuídas com média 1,60 m e desvio padrão 0,30 m. Encontre a probabilidade de um aluno escolhido ao acaso medir: a) entre 1,50 e 1,80 m b) mais que 1,75 m c) menos que 1,48 m d) entre 1,54 e 1,58 m e) menos que 1,70 m f) exatamente 1,83 m 2) A duração de certo componente eletrônico tem média 850 dias e desvio padrão 45 dias. Qual a probabilidade do componente durar: a) entre 700 e 1000 dias b) menos que 750 dias c) mais que 850 dias d) Qual deve ser o número de dias necessários para que tenhamos de repor 5% dos componentes. (R = 776 dias) 3) Um produto pesa, em média, 10 g, com desvio padrão de 2 g. É embalado em caixas com 50 unidades. Sabe-se que as caixas vazias pesam 500 g, com desvio- padrão de 25 g. Admitindo-se uma distribuição normal dos pesos e independência entre as variáveis dos pesos do produto e da caixa, calcule a probabilidade de uma caixa cheia pesar mais de 1050 g. X V V V geral p c geral · · + · · 1000 50 28 73 , , . V S geral geral (R = 0.04093) 90 4) Em uma distribuição normal 28% dos elementos são superiores a 34 e 12% inferiores a 19. Encontrar a média e a variância da distribuição. (R = X· · 29 03 73 44 . , . S 2 ) 5) Suponha que a duração de vida de dois equipamentos E 1 e E 2 tenham respectivamente distribuições N(45 ; 9) e N(40 ; 36). Se o equipamento tiver que ser usado por período de 45 horas, qual deles deve ser preferido? (R = E 1 ) 6) A precipitação pluviométrica média em certa cidade, no mês de dezembro, é de 8,9 cm. Admitindo a distribuição normal com desvio padrão de 2,5 cm, determinar a probabilidade de que, no mês de dezembro próximo, a precipitação seja (a) inferior a 1,6 cm, (b) superior a 5 cm mas não superior a 7,5 cm, (c) superior a 12 cm. 7) Em uma grande empresa, o departamento de manutenção tem instruções para substituir as lâmpadas antes que se queimem (não esperar que queimem para então substituí -las). Os registros indicam que a duração das lâmpadas tem distribuição N(900 ; 75) (horas). Quando devem ser substituídas as lâmpadas de modo que no máximo 10% delas queimem antes de serem trocadas? (R = 889 horas) 8) Os registros indicam que o tempo médio para se fazer um teste é aproximadamente N(80 ; 20) (min.). Determinar: a) a percentagem de candidatos que levam menos de 60 min ? b) se o tempo concedido é de 1h, que percentagem não conseguirá terminar o teste ? 9) A profundidade dos poços artesianos em um determinado local é uma variável aleatória N(20 ; 3) (metros). Se X é a profundidade de determinado poço, determinar (a) P(X < 15), (b) P(18 < X < 23), (c) P (X > 25). 10) Certa máquina de empacotar determinado produto oferece variações de peso com desvio padrão de 20 g. Em quanto deve ser regulado o peso médio do pacote para que apenas 10% tenham menos que 400 g? Calcule a probabilidade de um pacote sair com mais de 450 g. [R = a) µ = 425.6 b) 0.11123 )] 91 7 7 A Am mo os st t r ra ag ge em m 7.1 Concei t os em Amost r agem Inferência Estatística - é o processo de obter informações sobre uma população a partir de resultados observados ma Amostra. Amostragem: É o processo de retirada de informações dos "n" elementos amostrais, na qual deve seguir um método adequado (tipos de amostragem). 7.2 Pl ano de Amost r agem 1 o ) Definir os Objetivos da Pesquisa 2 o ) População a ser Amostrada - Parâmetros a ser Estimados (Objetivos) 3 o ) Definição da Unidade Amostral - Seleção dos Elementos que farão parte da amostra 4 o ) Forma de seleção dos elementos da população 92 - Tipo de Am Estratificada ostragem Aleatoria Simples Sistematica por Conglomerados ¹ ' ¹ ¹ ¹ ¹ ¹ 5 o ) Tamanho da Amostra Ex.: Moradores de uma Cidade (população alvo) Objetivo: Tipo de Residência própria alugada emprestada tres ou ma um piso dois pisos is pisos ¹ ' ¹ ¹ ¹ ¹ ' ¹ ¹ ¹ Unidade Amostral: Domicílios (residências) Elementos da População: Família por domicílio Tipo de Amostragem: aleatoria simples estratificada sistematica ¹ ' ¹ ¹ ¹ 7.3 Ti pos de Amost r agem 7.3.1 Amostragem Simples ou Ocasional É o processo mais elementar e freqüentemente utilizado. Todos os elementos da população tem igual probabilidade de serem escolhidos. Para uma população finita o processo deve ser sem reposição. Todos os elementos da população devem ser numerados. Para realizar o sorteio dos elementos da população devemos usar a Tabela de Números Aleatórios . 7.3.2 Amostragem Sistemática Trata-se de uma variação da Amostragem Aleatória Ocasional, conveniente quando a população está naturalmente ordenada, como fichas em um fichário, lista telefônica, etc. Ex.: N = 5000 n = 50, então r N n · ·10, (P.A. de razão 10) Sorteia-se usando a Tabela de Números Aleatórios um número entre 1 e 10, (x= 3), o número sorteado refere-se ao 1 o elemento da amostra, logo os elementos da amostra serão: 93 3 13 23 33 43 ...... Para determinar qualquer elemento da amostra podemos usar a fórmula do termo geral de uma P.A. a a n r n · + − 1 1 ( ). 7.3.3 Amostragem Estratificada É um processo de amostragem usado quando nos depararmos com populações heterogêneas, na qual pode-se distinguir subpopulações mais ou menos homogêneas, denominados estratos. Após a determinação dos estratos, seleciona-se uma amostra aleatória de cada uma subpopulação (estrato). As diversas subamostras retiradas das subpopulações devem ser proporcionais aos respectivos números de elementos dos estratos, e guardarem a proporcionalidade em relação a variabilidade de cada estrato, obtendo-se uma estratificação ótima. Tipos de variáveis que podem ser usadas em estratificação: idade, classes sociais, sexo, profissão, salário, procedência, etc. 7.3.4 Amostragem por Conglomerados (ou Agrupamentos) Algumas populações não permitem, ou tornam-se extremamente difícel que se identifiquem seus elementos, mas podemos identificar subgrupos da população. Em tais casos, uma amostra aleatória simples desses subgrupos (conglomerados) podem ser escolhida, e uma contagem completa deve ser feita no conglomerado sorteado. Agregados típicos são: quarteirões, famílias, organizações, agências, edifícios, etc. 7.4 Amost r agem " COM" e " SEM" reposi ção Seja "N" o número de elementos de uma população, e seja "n" o número de elementos de uma amostra, então: Se o processo de retirada dos elementos for COM reposição (pop. infinita (f ≤ 5%) ), o número de amostra s possíveis será: n o de amostras = N n Se o processo de retirada de elementos for SEM reposição (pop. finita (f > 5%) ), o número de amostras possíveis será: 94 n o de amostras = ( )! n - N ! n ! N C n , N · Ex.: Supondo N = 8 e n = 4 com reposição: n o de amostras = N n = 8 4096 4 · sem reposição: n o de amostras = ( ) C N n N n , ! ! ! · N- n = C 8 4 8 4 70 , ! ! ! · · 4 Ex.: Processo de Amostragem Aleatória Simples (Distribuição Amostral das Médias) - (com reposição) N = { 1, 2, 3, 4} n = 2 n o de amostras = N n = 4 16 2 · { } { } { } { } { } { } { } { } { } { } { } { } { } { } { } { } 11 12 13 14 21 2 2 2 3 2 4 31 3 2 33 34 41 4 2 4 3 4 4 , , , , , , , , , , , , , , , , - (sem reposição) N = { 1, 2, 3, 4} n = 2 n o de amostras = C 4 2 4 2 6 , ! ! ! · · 2 { } { } { } { } { } { } 4 , 3 4 , 2 3 , 2 4 , 1 3 , 1 2 , 1 Para ilustrar melhor as estatísticas amostrais usaremos o processo com reposição. { } { } { } { } { } { } { } { } { } { } { } { } { } { } { } { } 11 10 12 15 13 2 0 14 2 5 21 15 2 2 2 0 2 3 2 5 2 4 3 0 31 2 0 3 2 2 5 33 3 0 3 4 3 5 41 2 5 4 2 3 0 4 3 35 4 4 4 0 , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ⇒ · ⇒ · ⇒ · ⇒ · ⇒ · ⇒ · ⇒ · ⇒ · ⇒ · ⇒ · ⇒ · ⇒ · ⇒ · ⇒ · ⇒ · ⇒ · x x x x x x x x x x x x x x x x 95 7.5 Repr esent ações de uma Di st r i bui ção Amost r al - Tabela x i P(X = x i ) 1,0 1/ 16 1,5 2/ 16 2,0 3/ 16 2,5 4/ 16 3,0 3/ 16 3,5 2/ 16 4,0 1/ 16 Σ 16/ 16 - Gráfico 7.6 Est at íst i cas Amost r ai s - Esperança Matemática ( ) ( ) µ x E x x i i n · · · · · ∑ P(X = x i ) , 40 16 2 5 1 -Variância ou ( ) ( ) VAR x E x E x · − 2 2 [ ( )] onde ( ) ( ) E x 2 · ∑ x P X = x i 2 i i=1 n 96 7.7 TAMANHO DA AMOSTRA 7.7.1 Introdução Os pesquisadores de todo o mundo, na realização de pesquisas científicas, em qualquer setor da atividade humana, utilizam as técnicas de amostragem no planejamento de seus trabalhos, não só pela impraticabilidade de poderem observar, numericamente, em sua totalidade determinada população em estudo, como devido ao aspecto econômico dessas investigações, conduzidos com um menor custo operacional, dentro de um menor tempo, além de possibilitar maior precisão nos respectivos resultados, ao contrário, do que ocorre com os trabalhos realizados pelo proceso censitário (COCHRAN, 1965; CRUZ, 1978). A técnica da amostragem, a despeito de sua larga utilização, ainda necessita de alguma didática mais adequada aos pesquisadores iniciantes. Na teoria da amostragem, são consideradas duas dimensões: 1 a ) Dimensionamento da Amostra; 2 a ) Composição da Amostra. 7.7.2 Procedimentos para determinar o tamanho da amostra 1 o ) Analisar o questionário, ou roteiro da entrevista e escolher uma variável que julgue mais importante para o estudo. Se possível mais do que uma; 2 o ) Verificar o nível de mensuração da variável: nominal, ordinal ou intervalar; 3 o ) Considerar o tamanho da população: infinita ou finita 4 o ) Se a varíavel escolhida for: - intervalar e a população considerada infinita, você poderá determinar o tamanho da amostra pela fórmula: n Z · ¸ ¸ _ , . d σ 2 97 onde: Z = abscissa da curva normal padrão, fixado um nível de confiança (1- ) α Z = 1,65 → (1 - α) = 90% Z = 1,96 → (1 - α) = 95% Z = 2,0 → (1 - α) = 95.5% Z = 2,57 → (1 - α) = 99% Geralmente usa-se Z = 2 σ = desvio padrão da população, expresso na unidade variável, onde poderá ser determinado por: • Especificações Técnicas • Resgatar o valor de estudos semelhantes • Fazer conjeturas sobre possíveis valores d = erro amostral, expresso na unidade da variável. O erro amostral é a máxima diferença que o investigador admite suportar entre µ e x, isto é: µ − < x d . - intervalar e a população considerada finita, você poderá determinar o tamanho da amostra pela fórmula: n Z N Z · − + 2 2 2 2 1 . N d 2 . ( ) . σ σ onde: Z = abscissa da normal padrão σ 2 = variância populacional N = tamanho da população d = erro amostral - nominal ou ordinal, e a população considerada infinita, você poderá determinar o tamanho da amostra pela fórmula: n Z · 2 p . q d 2 . $ $ onde: Z = abscissa da normal padrão $ p = estimativa da verdadeira proporção de um dos níveis da variável escolhida. Por exemplo, se a variável escolhida for parte da empresa, $ p poderá ser a estimativa da 98 verdadeira proporção de grandes empr esas do setor que está sendo estudado. $ p será expresso em decimais ( $ p = 30% → $ p = 0.30). $ $ q p · − 1 d = erro amostral, expresso em decimais. O erro amostral neste caso será a máxima diferença que o investigador admite suportar entre π e $ p, isto é: π− < $ p d, em que π é a verdadeira proporção (freqüência relativa do evento a ser calculado a partir da amostra. - nominal ou ordinal, e a população considerada finita, você poderá determinar o tamanho da amostra pela fórmula: n Z N Z · − + 2 2 1 p . q . N d p . q 2 . $ $ ( ) . $ $ onde: Z = abscissa da normal padrão N = tamanho da população $ p = estimativa da proporção $ $ q p · − 1 d = erro amostral Estas fórmulas são básicas para qualquer tipo de composição da amostra; todavia, existem fórmulas específicas segundo o critério de composição da amostra. - Se o investigador escolher mais de uma variável, poderá acontecer de ter que aplicar mais de uma fórmula, assim deverá optar pelo maior valor de "n". • Quando não tivermos condições de prever o possível valor para $ p, admita $ p = 0.50, pois, dessa forma, você terá o maior tamanho da amostra, admitindo -se constantes os demais elementos. 7.8 Di st ri bui ções amost rai s de probabi l i dade 7.8.1 Distribuição amostral das médias Se a variável aleatória "x" segue uma distribuição normal: ( ) x ~ N (x); (x) µ σ 2 , onde z x x x · −µ σ ( ) ( ) 99 µ µ ( ) x · (a média amostral é igual a média populacional) e σ σ ( ) ( ) x x n · (Desvio Padrão Amostral) 7.8.1.1 Caso COM reposição (pop. infinita) x N x x n ~ ( ); ( ) µ σ 2 ¸ 1 ] 1 7.8.1.2 Caso SEM reposição (pop. finita) Quando a amostra for > 5% da população n N ¸ ¸ _ , devemos usar um fator de correção. x N x x n ~ ( ); ( ) µ σ N- n N-1 2 ¸ 1 ] 1 , onde N- n N-1 é o fator de correção Ex 1 .: Uma população muito grande tem média 20,0 e desvio padrão 1,4 . Extrai -se uma amostra de 49 observações. Responda: a) Qual a média da distribuição amostral ? b) Qual o desvio padrão da distribuição amostral ? c) Qual a porcentagem das possíveis médias que diferiram por mais de 0,2 da média populacional ? Ex 2 .: Um processo de encher garrafas de coca-cola dá em média 10% mal cheias com desvio padrão de 30%. Extraída uma amostra de 225 garrafas de uma sequência de produção de 625, qual a probabilidade amostral das garrafas mal cheias estar entre 9% e 12%. O exemplo n o 2 pode ser resolvido usando a distribuição amostral das proporções, onde p = proporção populacional, p= média da distribuição amostral das proporções. Logo temos: 100 7.8.2 Distribuição amostral das proporções p p p p n · · − e . N- n N- 1 p σ ( ) 1 , onde N - n N-1 é usado para população finita. Ex 1 : Uma máquina de recobrir cerejas com chocolate é regulada para produzir um revestimento de (3% em relação ao volume da cereja). Se o processo segue uma distribuição normal, qual a probabilidade de extrair uma amostra de 25 cerejas de um lote de 169 e encontrar uma média amostral superior a 3,4%. R = 0,44828. 7.9 Exer cíci os 1) Uma fabrica de baterias alega que eu artigo de primeira categoria tem uma vida média de 50 meses, e desvio padrão de 4 meses. a) Que porcentagem de uma amostra de 36 observações acusaria vida média no intervalo de um mês em torno da média ? b) Qual será a resposta para uma amostra de 64 observações? c) Qual seria o percentual das médias amostrais inferior a 49,8 meses com n = 100? 2) Um varejista compra copos diretamente da fábrica em grandes lotes. Os copos são embrulhados individualmente. Periodicamente o varejista inspeciona os lotes para determinar a proporção dos quebrados ou lascados. Se um grande lote contém 10% de quebrados (lascados) qual a probabilidade do varejista obter numa a mostra de 100 copos 17% ou mais defeituosos? 3) Deve-se extrair uma amostra de 36 observações de uma máquina de cunhar moedas comemorativas. A espessura média das moedas é de 0,2 cm, com desvio padrão de 0,01 cm. a) Que percentagem de médias amostrais estará no intervalo t 0,004 em torno da média? R = 0.98316 b) Qual a probabilidade de obter uma média amostral que se afaste por mais de 0,005 cm da média do processo ? R = 0.00164 4) Suponha que uma pesquisa recente tenha revelado que 60% de uma população de adultos do sexo masculino consistam de não-fumantes. Tomada uma amostra de 10 pessoas de uma população muito grande, que percentagem esperamos nos intervalos abaixo: a) de 50% a 65% b) maior que 53% c) de 65% a 80% 5) Se a vida média de operação de um "flash" é 24 horas, com distribuição normal e desvio padrão de 3 horas, qual é a probabilidade de uma amostra de 10 "flashes" retirados de uma população de 500 "flashes" apresentar vida média que difira por mais de 30 min. da média. R = 0.60306 101 8 8 E Es st t i i m ma aç çã ão o d de e P Pa ar r â âm me et t r r o os s É um processo de indução, na qual usamos dados extraídos de uma amostra para produzir inferência sobre a população. Esta inferência só será válida se a amostra for significativa. - Tipos de Estimações de Parâmetros i) Estimação Pontual ii) Estimação Intervalar 8.1 Est i mação Pont ual É usada quando a partir da amostra procura-se obter um único valor de certo parâmetro populacional, ou seja, obter estimativas a partir dos valores amostrais. a) Estatísticas Seja (X 1 , X 2 , ..., X n ) uma amostra aleatória e (x 1 ,x 2 , ..., x n ) os valores tomados pela amostra; então y = H(x 1 ,x 2 , ..., x n ) é uma estatística. Principais estatísticas: - Média Amostral - Proporção Amostral - Variância Amostral 8.2 Est i mação I nt er valar Uma outra maneira de se calcular um estimativa de um parâmetro desconhecido, é construir um intervalo de confiança para esse parâmetro com uma probabilidade de 1− α (nível de confiança) de que o intervalo contenha o verdadeiro parâmetro. Dessa maneira α será o nível de significância, isto é, o erro que se estará cometendo ao afirmar que o parâmetro está entre o limite inferior e o superior calculado. 8.2.1 Intervalo de confiança para a média (µ) com a variância (σ 2 ) conhecida. (n > 30 → Z) Seja ( ) 2 N X σ µ, ~ 102 Como já vimos anteriormente, x (média amostral) tem distribuição normal de média µ e desvio padrão σ n ,ou seja: X N n ~ ; µ σ 2 ¸ ¸ _ , Portanto, z X n · −µ σ tem distribuição N (0,1) Então, ( ) P z z z − ≤ ≤ + · − α α α 2 2 1 P z x n z − ≤ − ≤ + ¸ ¸ _ , · − α α µ σ α 2 2 1 P z n X z n X − − ≤ ≤ + − ¸ ¸ _ , · − α α σ µ σ α 2 2 1 P X z n X z n − ≤ ≤ + ¸ ¸ _ , · − α α σ µ σ α 2 2 1 (Pop. Infinita) Para caso de populações finitas usa-se a seguinte fórmula: P X Z n Z n + ≤ ≤ ¸ ¸ _ , · − N- n N -1 N- n N- 1 α α σ µ σ α 2 2 1 (Pop. Finita) Obs.: Os níveis de confiança mais usados são: 1 90 1 64 2 − · ⇒ · t α α % , z 1 95 1 96 2 − · ⇒ · t α α % , z 1 85 2 − · ⇒ · α α % z 1 99 2 − · ⇒ · t α α % 2,58 z 103 Ex.: Seja X a duração da vida de uma peça de equipamento tal que σ = 5 horas. Admita que 100 peças foram ensaiadas fornecendo uma duração de vida média de 500 horas e que se deseja obter um intervalo de 95% para a verdadeira média populacional. R = P (499,02 ó µ ó 500,98) = 95%. Obs.: Podemos dizer que 95% das vezes, o intervalo acima contém a verdadeira média populacional. Isto não é o mesmo que afirmar que 95% é a probabilidade do parâmetro µ cair dentro do intervalo, o que constituirá um erro, pois µ é um parâmetro (número) e ele está ou não no intervalo. 8.2.2 Intervalo de confiança para a média (µ) com a variância (σ 2 ) desconhecida ( n ≤ 30) Neste caso precisa-se calcular a estimativa S (desvio padrão amostral) a partir dos dados, lembrando que: ( ) S x x n i i n 2 2 1 1 · − − · ∑ onde n -1 = graus de liberdade X N n ~ ; µ σ 2 ¸ ¸ _ , Portanto, t X S n · −µ tem distribuição N (0,1) t X S n z S N S · − · · µ σ σ σ . S ( , ) 0 1 Est a distribuição é conhecida como distribuição "t" de Student, no caso com (ϕ = n -1) graus de liberdade 104 O gráfico da função densidade da variável "t" é simétrico e tem a forma da normal, porém menos "achatada" sua média vale 0 e a variância ϕ ϕ − 2 em que ϕ é o grau de liberdade (ϕ > 2) t X S n ϕ α µ , 2 · − Então, ( ) P t t t − ≤ ≤ + · − ϕ α ϕ α α , , 2 2 1 P X t s n X t s n − ≤ ≤ + ¸ ¸ _ , · − ϕ α ϕ α µ α , , 2 2 1 (Pop. Infinita) Para caso de populações finitas usa-se a seguinte fórmula: α − · , _ ¸ ¸ − − + ≤ µ ≤ − − − α ϕ α ϕ 1 1 N n N n S t X 1 N n N n S t X P 2 / , 2 / , (Pop. Finita) Ex.: A seguinte amostra: 9, 8, 12, 7, 9, 6, 11, 6, 10, 9 foi extraída de uma população aproximadamente normal. Construir um intervalo de confiança paraµ com um nível de 95%. ( ) ( ) X x n x x n t R P i i n i i n · · · − − ≅ ≅ · · t · ≤ ≤ · · · ∑ ∑ 1 2 1 9 2 5% 8 7 1 4 2 262 7 27 1013 95% , , , , , . S S 2 =10-1= 9 =5% t 2 , 2 ϕ ϕ µ ϕ α Obs.:Quando n>30 e σ for desconhecido poderemos usar S como uma boa estimativa de σ. Esta estimação será melhor quanto maior for o tamanho da amostra. 8.2.3 Intervalo de Confiança para Proporções Sendo $ p o estimador de π, onde $ p segue uma distribuição normal, logo: 105 $ ~ $; $. $ p N p p q n ¸ ¸ _ , (pop. infinita) $ ~ $; $. $ p N p p q n N- n N- 1 ¸ ¸ _ , ¸ 1 ] 1 (pop. finita) logo Z p p · − $ $ π σ onde ¹ ¹ ¹ ¹ ¹ ' ¹ · · · σ amostra da elementos de número tica caracterís n X pˆ n qˆ . pˆ pˆ ( ) α − · σ + ≤ π ≤ σ − α α 1 Z p Z p P p 2 p 2 ˆ ˆ ˆ ˆ (Pop. Infinita) Para caso de populações finitas usa-se a seguinte fórmula: P p Z N n N p Z N n N p p $ $ $ $ − − − ≤ ≤ + − − ¸ ¸ _ , · − α α σ π σ α 2 2 1 1 1 (Pop. Finita) Ex.: Uma centena de componentes eletrônicos foram ensaiados e 93 deles funcionaram mais que 500 horas. Determine um intervalo de confiânça de 95% para a verdadeira proporção populacional sabendo que os mesmos foram retirados de uma população de 1000 componentes. 8.2.4 Intervalo de Confiança para Variância Como o estimador de σ 2 é S 2 pode-se considerar que ( ) n S −1 2 2 σ tem distribuição Qui - quadrado, ou seja: X n−1 2 ~ Z S 2 2 σ , logo o intervalo será: 106 χ χ α ϕ inf ; 2 1 2 2 · − χ χ α ϕ sup ; 2 2 2 · Assim temos: ( ) ( ) P n S X n S X − ≤ ≤ − ¸ 1 ] 1 1 · − 1 1 1 2 2 2 2 2 sup inf σ α Ex.: A seguinte amostra: 9, 8, 12, 7, 9, 6, 11, 6, 10, 9 foi extraída de uma população aproximadamente normal. Construir um intervalo de confiança para σ 2 com um nível de 95%. 8.2.5 Intervalo de Confiança para a diferença Entre duas Médias: Usualmente comparamos as médias de duas populações formando sua diferença: µ µ 1 2 − Uma estimativa pontual desta diferença correspondente: X X 1 2 − a) Variâncias Conhecidas ( ) ( ) Padrão Erro . 2 2 1 2 1 α µ µ Z X X t − · − Erro Padrão? ( ) ( ) ( ) 2 2 1 2 2 1 X VAR 1 X VAR 1 X X VAR − + + · − · + σ σ 1 2 1 2 2 2 n n 107 logo o erro padrão · + σ σ 1 2 1 2 2 2 n n ( ) ( ) ( ) P X X Z n n X X Z n n 1 2 2 1 2 1 2 2 2 1 2 1 2 2 1 2 1 2 2 2 1 − − + ≤ − ≤ − + + ¸ 1 ] 1 1 · − α α σ σ µ µ σ σ α Obs.: se σ σ 1 2 e são conhecidas e tem um valor em comum, logo: Erro Padrão: σ 1 1 1 2 n n + Ex.: Seja duas classes muito grande com desvios padrões σ 1 1 21 · , e σ 2 2 13 · , . Extraída uma amostra de 25 alunos da classe 1 obteve-se uma nota média de 7,8, e da classe 2 foi extraída uma amostra de 20 alunos obteve-se uma nota média de 6,0. Construir um intervalo de 95% de confiança para a verdadeira diferença das médias populacionais. R = (LI= 0,753; LS= 2,847) b) Variâncias Desconhecidas Em geral conhecemos duas variâncias populacionais (σ σ 1 2 2 2 e ). Se as mesmas são desconhecidas o melhor que podemos fazer é estimá-las por meio de variâncias amostrais S S 1 2 2 2 e . Como as amostras serão pequenas, introduziremos uma fonte de erro compensada pela distribuição "t": ( ) ( ) P X X t S n S n X X t S n S n 1 2 2 1 2 1 2 2 2 1 2 1 2 2 1 2 1 2 2 2 − − + ≤ − ≤ − + + ¸ 1 ] 1 1 α α µ µ onde ϕ · + − n n 1 2 2 Obs.: Se as variâncias populacionais são desconhecidas mas as estimativas são iguais, poderemos usar para o Erro Padrão o seguinte critério: Erro Padrão: S n n C 1 1 1 2 + onde S c é o desvio padrão conjunto ( ) ( ) S n S n S n n C · − + − + − 1 1 2 2 2 2 1 2 1 1 2 Ex 1 .: De uma turma (1) foi extraída uma amostra de 6 alunos com as seguintes alturas: 150, 152, 153, 160, 161, 163. De uma segunda turma foi extraída uma amostra de 8 alunos com as seguintes alturas: 165, 166, 167, 172, 178, 180, 182, 190. Contruir um intervalo de 95% de confiança para a verdadeira diferença entre as médias populacionais. 108 Ex 2 .: De uma máquina foi extraída uma amostra de 8 peças, com os seguintes diâmetros: 54, 56, 58, 60, 60, 62, 63, 65. De uma segunda máquina foi extraída uma amostra de 10 peças, com os seguintes diâmetros: 75, 75, 76, 77, 78, 78, 79, 80, 80, 82. Construir um intervalo de 99% de confiança para a diferença entre as médias populacionais, supondo que as máquinas foram construídas pelo mesmo fabricante . 8.2.6 Intervalo de Confiança para a Diferença entre duas Proporções ( ) ( ) P p p Z p q n p q n p p Z p q n p q n $ $ $ $ $ $ $ $ $ $ $ $ 1 2 2 1 1 1 2 2 2 1 2 1 2 2 1 1 1 2 2 2 1 − − + ≤ − ≤ − + + ¸ 1 ] 1 · − α α π π α Ex.: Em uma pesquisa realizada pelo Instituto Gallup constatou que 500 estudantes entrevistados com menos de 18 anos, 50% acreditam na possibilidade de se verificar uma modificação na América, e que dos 100 estudantes com mais de 24 anos, 69% acreditam nessa modificação. Construir um intervalo de confiança para a diferença entre as proporções destas subpopulações usando α= 5%. R= (LI= 0,0893, LS= 0,2905) 8.3 Exer cíci os 1) Ao se realizar uma contagem de eritrócitos em 144 mulheres encontrou-se em média 5,35 milhões e desvio padrão 0,4413 milhões de glóbulos vermelhos. Determine os limites de confiança de 99% para a média populacional. 2) Um conjunto de 12 animais de experiência receberam uma dieta especial durante 3 semanas e produziram os seguintes aumentos de peso (g): 30, 22, 32, 26, 24, 40, 34, 36, 32, 33, 28 e 30. Determine um intervalo de 90% de confiança para a média. R ⇒ X= 30.58, S = 5.09,LI = 27.942, LS = 33.218 3) Construa um intervalo de 95 % de confiança para um dos seguintes casos: Média Amostral σ Tamanho da Amostra a) 16,0 2,0 16 b) 37,5 3,0 36 c) 2,1 0,5 25 d) 0,6 0,1 100 4) Numa tentativa de melhor o esquema de atendimento, um médico procurou estimar o tempo médio que gasta com cada paciente. Uma amostra aleatória de 49 pacientes, colhida num período de 3 semanas, acusou uma média de 30 min., com desvio padrão de 7 min. Construa um intervalo de 95% de confiança para o verdadeiro tempo médio de consulta. 109 5) Solicitou-se a 100 estudantes de um colégio que anotasse suas despesas com alimentação e bebidas no período de uma semana. Há 500 estudantes no colégio. O resultado foi uma despesa de $40,00 com um desvio padrão de $10,00. Construa um intervalo de 95% de confiança para a verdadeira média. 6) Uma amostra aleatória de 100 fregueses da parte da manhã de um supermercado revelou que apenas 10 não incluem leite em suas compras. a) qual seria a estimativa percentual dos fregueses que compram leite pela parte da manhã. (α = 5%). R ⇒ L I = 84.12%, L S = 95.88% b) construir um intervalo de 90% de confiança para a verdadeira proporção dos fregueses que não compram leite pela manhã. R ⇒ L I = 5.08%, L S = 14.92% 7) Uma amostra aleatória de 40 homens trabalhando num grande projeto de construção revelou que 6 não estavam usando capacetes protetores. Construa um intervalo de 98% de confiança para a verdadeira proporção dos que não estão usando capacetes neste projeto. R ⇒ σ P = 0.056, L I = 0.02, L S = 0.28 8) De 48 pessoas escolhidas aleatoriamente de uma longa fila de espera de um cinema, 25% acharam que o filme principal continha demasiada violência. a) qual deveria ser o tamanho da fila, a partir do qual se pudesse desprezar o fator de correção finita; b) construa um intervalo de 98% de confiança para a verdadeira proporção, se há 100 pessoas na fila; c) construa um intervalo de 98% de confiança para a verdadeira proporção, se há 500 pessoas na fila. 9) Em uma fábrica, colhida uma amostra (n = 30) de certa peça, obtiveram-se as seguintes medidas para os diâmetros: 10 11 11 11 12 12 12 12 13 13 13 13 13 13 13 13 13 13 13 13 14 14 14 14 14 15 15 15 16 16 a) estimar a média e a variância; R ⇒ 13,13 e 2,05 b) construir um intervalo de confiança para a média, sendo α = 5%. (L I = 12.536 e L S = 13.664) c) construir um intervalo de 95 % de confiança para a média, supondo que a amostra tenha sido retirada de uma população de 100 peças, sendo α = 5%. (L I = 12.581 e L S = 13.579) d) Construir um intervalo de confiânça para a variância populacional, sendo α = 5%. (L I = 1.3003 e L S = 3.704) 10) Supondo populações normais, contruir um intervalo de confiança para a média e para a variância ao nível de significância de 90% para as amostras. a) 2 3 4 5 5 6 6 7 8 8 9 n = 11 b) 12 12 15 15 16 16 17 18 20 22 22 23 n = 12 c) 25 25 27 28 30 33 34 35 36 n = 9 110 11) Sendo X uma população tal que ) ; N( ~ X 2 σ µ em que µ e σ² são desconhecidos. Uma amostra de tamanho 15 forneceu os seguintes valores X 8, 7 i · ∑ , e X 27,3 i 2 · ∑ . Determinar um intervalo de confiança de 95% para µ e σ² , supondo: X X n i · ∑ e S 2 · − ¸ ¸ _ , − ∑ ∑ X X n n i i 2 2 1 12) Dados os seguintes conjuntos de medias, determinar um intervalo de 99% de confiança para a variância populacional e para a média populacional. 0.0105; 0,0193; 0,0152; 0,0229; 0,0244; 0,0190; 0,0208; 0,0253; 0,0276 R ⇒ X= O.0206, L I = 0.01467, L S = 0.026653; S = 0.0053, L I = 0.00001, L S = 0.000167 13) O tempo de reação a uma injeção intravenosa é em média de 2.1 min., com desvio padrão de 0.1 min., para grupos de 20 pacientes. Construa um intervalo de confiança de 90 % para o tempo médio para toda a população dos pacientes submetidos ao tratamento. 14) Uma firma esta convertendo as máquinas que aluga para uma versão mais moderna. Até agora foram convertidas 40 máquinas. O tempo médio de convers ão foi de 24 horas com desvio padrão de 3 horas. a) Determine um intervalo de confiança de 99 % para o tempo médio de conversão. b) Para uma amostra de 60 máquinas, como ficaria o intervalo de confiança de 99 % para o tempo médio de conversão 15) Seis dentre 48 terminais telefônicos dão respostas de ocupado. Uma firma possui 800 terminais. Construir um intervalo de confiança de 95 % para a proporção dos terminas da firma que apresentam sinal de ocupado. R ⇒ L I = 3.4%, L S = 21.6% 16) Uma amostra de 50 bicicletas de um estoque de 400 bicicletas, acusou 7 com pneus vazios. a) Estime o número de bicicletas com pneus vazios: b) Construa um intervalo de 99 % confiança para a população das bicicletas com pneus vazios. R ⇒ a) 56; b) L I = 0.021 L S = 0.258 17) A média salarial semanal para uma amostra de n = 30 empregados em uma grande firma é X = 180,00 com desvio padrão S = 14,00. Construa um intervalo de confiança de 99 % para a média salarial dos funcionários. 18) Uma empresa de pesquisa de mercado faz contato com uma amostra de 100 homens em uma grande comunidade e verifica que uma proporção de 0.40 na amostra prefere lâminas de barbear fabricadas por seu cliente em vez de qualquer outra marca. Determinar o intervalo de confiança de 95 % para a proporção de todos os homens na comunidade que preferem a lâmina do cliente. 111 19) Uma pequena fábrica comprou um lote de 200 pequenas peças eletrônicas de um saldo de estoque de uma grande firma. Para uma amostra aleatória de 50 peças, constatou-se que 5 eram defeituosas. Estimar a proporção de todas as peças que são defeituosas no carregamento utilizando um intervalo de confiança de 99 %. 20) Duas amostras de plantas foram cultivadas com dois fertilizantes diferentes. A primeira amostra oriunda de 200 sementes, acusou altura média de 10,9 cm e desvio padrão 2,0 cm. A segunda amostra, de 100 sementes, acusou uma altura média de 10,5 cm com desvio padrão de 5,0 cm. Construir um intervalo de confiança entre as alturas médias das populações ao nível de 95% de confiança. 21) Uma amostra aleatória de 120 trabalhadores de uma grande fábrica leva em média 22,0 min. para executar determinado serviço, com S 2 de 4 min 2 . Em uma segunda fábrica, para executar a mesma tarefa, uma amostra aleatória de 120 operários, gasta em média 19,0 min com S 2 de 10 min 2 . Construir um intervalo de 99% de confiança entre as médias das populações. 22) Extraíram-se amostras independentes de adultos brancos e pretos, que acusaram os seguintes tempos (em anos) de escolaridade. Branco 8 18 10 10 14 Preto 9 12 5 10 14 12 6 Construir um intervalo de 95% de confiança para: a) a média da população branca, e a média da população preta; b) a diferença entre as médias entre brancos e pretos 23) Em uma amostra aleatória de cinco pessoas, foi medida a capacidade toráxica antes e após determinado tratamento, obtendo-se os dados a seguir. Construir um intervalo de 95% de confiança para a diferença entre as médias antes e depois do tratamento. Capacidade Toráxica Pessoa Antes (X) Após (Y) A 2750 2850 B 2360 2380 C 2950 2930 D 2830 2860 E 2250 2320 112 24) Extraída duas amostras de professores homens e mulheres, obteve-se os seguintes resultados quantos aos salários em milhares de dólares: Construir um intervalo de 95% de confiança para: Homens Mulheres n 1 = 25 n 2 = 5 X 1 = 16,0 X 2 = 11,0 S 1 2 = 16 S 2 2 = 10 a) a média da diferença entre os salários; b) a média do salário dos homens; c) a média do salário das mulheres. 25) Em uma pesquisa efetuada em com 1650 americanos foram consultados sobre o seguinte tema: "A mulher grávida pode procurar um médico e interromper a gravidez, a qualquer momento durante os três primeiros meses. É a favor ou contra esta decisão?" Uma semana mais tarde foram consultados 1650 americanos foram consultados sobre o mesmo assunto , exceto que a pergunta "a favor do aborto, ao invés de "interromper a gravidez". As respostas foram as seguint es: Resposta Pergunta A favor Contra Sem opinião "Interromper a gravidez" 46% 39% 15% "A favor do aborto" 41% 49% 10% a) Seja π 1 a proporção dos votantes a favor do 1 o caso (interromper) e π 2 a proporção dos votantes a favor do 2 o caso (aborto). Construir um intervalo de 95% de confiança para a diferença π 1 - π 2 . R = L I = 0.01628, L S = 0.08379 b) Repetir a (a) para os votantes que não tiveram opinião. R = L I = 0.0275, L S = 0.0725 26) Numa pesquisa sobre intenção do comprador brasileiro. 30 famílias de uma amostra aleatória de 150 declararam ser uma intenção comprar um carro novo dentro de um ano. Uma outra amostra de 160 famílias 25 declararam a mesma intenção. Construir um intervalo de 99% de confiança para as diferenças entre as proporções. R = L I = 0.0727, L S = 0.1527 113 9 9 T Te es st t e e d de e H Hi ip pó ót t e es se es s Trata-se de uma técnica para se fazer inferência estatística. Ou seja, a partir de um teste de hipóteses, realizado com os dados amostrais, pode-se inferir sobre a população. No caso da inferência através de Intervalo de confiança, busca-se "cercar" o parâmetro populacional desconhecido. Aqui formula-se uma hipótese quanto ao valor do parâmetro populacional, e pelos elementos amostrais faz-se um teste que indicará a ACEITAÇÃO ou REJEIÇÃO da hipótese formulada. 9.1 Pr i nci pai s Concei t os 9.1.1 Hipótese Estatística Trata-se de uma suposição quanto ao valor de um parâmetro populacional, ou quanto à natureza da distribuição de uma variável populacional. São exemplos de hipóteses estatísticas: a) A altura média da população brasileira é 1,65 m, isto é: H: µ = 1,65 m; b) A variância populacional dos salários vale $ 500 2 , isto é, H: σ 2 = 500 2 ; c) A proporção de paulistas fumantes é 25%, ou seja, H: p = 0.25 d) A distribuição dos pesos dos alunos da nossa faculdade é normal. 9.1.2 Teste de Hipótese É uma regra de decisão para aceitar ou rejeitar uma hipóteses estatística com base nos elementos amostrais. 9.1.3 Tipos de Hipóteses Designa-se por H o , chamada hipótese nula, a hipóteses estatística a ser testada, e por H 1 a hipótese alternativa. A hipótese nula expressa uma igualdade, enquanto que a hipótese alternativa é dada por uma desigualdade (≠ , < , > ). 114 Exemplos: H H 0 0 1 0 : : Θ Θ · ≠ ¹ ' ¹ θ θ Teste Bicaudal ou Bilateral H H 0 0 1 0 : : Θ Θ · > ¹ ' ¹ θ θ Teste Unilateral Direito H H 0 0 1 0 : : Θ Θ · < ¹ ' ¹ θ θ Teste Unilateral Esquerdo 9.1.4 Tipos de erros Há dois tipos de erro ao testar uma hipótese estatística. Pode-se rejeitar uma hipóteses quando ela é, de fato verdadeira, ou aceitar uma hipóteses quando ela é, de fato, falsa. A rejeição de uma hipótese verdadeira é chamada "erro tipo I". A aceitação de uma hipótese falsa constitui um "erro tipo II". As probabilidades desses dois tipos de erros são designados, respectivamente, por α e β. A probabilidade α do erro do tipo I é denominada "nível de significância" do teste. Os possíveis erros e acertos de um teste estão sintetizados abaixo: Realidade H o verdadeira H o falsa Decisão Aceitar H o Decisão correta (1 - α) Erro Tipo II ( β) Rejeitar H o Erro Tipo I ( α) Decisão Correta (1 - β) Observe que o erro tipo I só poderá acontecer se for rejeitado H o e o erro tipo II quando for aceito H o . 115 9.2 Test e de si gni f i cânci a Os testes de Significância considera somente erros do tipo α, pois são os mais usados em pesquisas educacionais, sócio-econômicas. . . O procedimento para realização dos testes de significância é resumido nos seguintes passo: 1 o ) Enunciar as hipóteses H 0 e H 1 ; 2 o ) fixar o limite do erro α, e identificar a variável do teste; 3 o ) com o auxílio das tabelas estatísticas, considerando α e a variável do teste, determinar as RR (região de rejeição) e RA (região de aceitação) para H o ; 4 o ) com os elementos amostrais, calcular o valor da variável do teste; 5 o ) concluir pela aceitação ou rejeição do H 0 pela comparação do valor calculado no 4 o passo com RA e RR. 9.2.1 Teste de significância para a média 1. Enunciar as hipóteses: H 0 : µ = µ 0 H 1 0 0 0 : µ µ µ µ µ µ ≠ > < ¹ ' ¹ ¹ ¹ (a) (b) (c) 2. Fixar α. Admitindo: - Se a variância populacional σ 2 for conhecida, a variável teste será "Z" (n> 30); - Se a variância populacional σ 2 for desconhecida, a variável teste será "t" de Student com ϕ = n -1 (n ≤ 30). 3. Com o auxílio das tabelas "Z" e "t" determinar as regiões RA e RR; ( a ) ( b ) ( c ) 116 4. Calcular o valor da variável: Z X n cal · − µ σ 0 t X S n cal · − µ 0 onde: X = média amostral µ 0 = valor da hipótese nula 5. Conclusão para a situação ( a ) - Se − ≤ ≤ + Z Z Z cal α α 2 2 ou − ≤ ≤ + t t t cal α α 2 2 , não se pode rejeitar H o . - Se Z Z Z Z cal cal < − > + α α 2 2 ou ou t t t cal cal < − > + α α 2 2 ou t , rejeita-se H o . OBS.: Para qualquer tipo de teste de significância devemos considerar: - Se a variável teste (calculada) cair dentro da região de aceitação (RA) não se pode rejeitar H o ; - Se a variável teste (calculada) cair fora da região de aceitação (RA) rejeita-se H o . Ex.: Os dois registros dos últimos anos de um colégio, atestam para os calouros admitidos uma nota média de 115 pontos (teste vocacional). Para testar a hipótese de que a média de uma nova turma é a mesma, tirou-se, ao acaso, uma amostra de 20 notas, obtendo-se média 118 e desvio padrão 20. Admitir α = 5%, para efetuar o teste. (R = aceita-se H o ) 9.2.2 Teste de significância para a proporção 1. Enunciar as hipóteses: H o : π = p o H p p p 1 0 0 0 : π π π ≠ > < ¹ ' ¹ ¹ ¹ (a) (b) (c) 2. Fixar α. Escolhendo a variável normal padrão "Z"; 3. Com o auxílio da tabela "Z" determinar as regiões RA e RR; 117 ( a ) ( b ) ( c ) 4. Calcular o valor da variável: n q . p p f Z 0 0 0 cal − · onde f X n · onde: f = freqüência relativa do evento na amostral X = característica dentro da amostra p o = valor da hipótese nula 5. Conclusão para a situação (a) - Se − ≤ ≤ + Z Z Z cal α α 2 2 , não se pode rejeitar H o . - Se Z Z Z Z cal cal < − > + α α 2 2 ou , rejeita-se H o . Ex.: As condições de mortalidade de uma região são tais que a proporção de nascidos que sobrevivem até 60 anos é de 0,6 . Testar essa hipótese ao nível de 2%, se em 1000 nascimentos amostrados aleatoriamente, verificou-se 530 sobreviventes até 60 anos. (R = rejeita-se H o ) 9.2.3 Teste de significância para a varância 1. Enunciar as hipóteses: H o : σ 2 = σ 0 2 H 1 2 0 2 2 0 2 2 0 2 : σ σ σ σ σ σ ≠ > < ¹ ' ¹ ¹ ¹ (a) (b) (c) 2. Fixar α. Escolhendo a variável qui-quadrado com ϕ = n -1. 118 3. Com o auxílio da tabela "χ 2 " determinar as regiões RA e RR; ( a ) ( b ) ( c ) Para ( a ) temos: χ χ α ϕ inf ; 2 1 2 2 · − χ χ α ϕ sup ; 2 2 2 · Para ( b ) temos:χ χ α ϕ sup ; 2 2 · Para ( c ) temos:χ χ α ϕ inf ; 2 1 2 · − 4. Calcular o valor da variável: χ σ cal n S 2 2 0 2 1 · − ( ) onde: S 2 = variância amostral σ 2 = valor da hipótese nula 5. Conclusão para a situação (a) - Se χ χ χ inf sup 2 2 ≤ ≤ cal , não se pode rejeitar H o . - Se χ χ χ χ cal cal 2 2 2 2 < > inf sup ou , rejeita-se H o . Ex.: Para testar a hipótese de que a variância de uma população é 25, tirou-se uma amostra de 25 elementos obtendo-se S 2 = 18,3. Admitindo-se α = 5%, efetuar o teste de significância unicaudal a esquerda. (R = aceita-se H o ) 10.2.4 Teste de significância para igualdade de duas médias 1 o caso) Se as variâncias populacionais σ 2 forem conhecidas e supostamente iguais, independentes e normais, a variável teste será "Z" (n n 30) 1 + 2 > ; 1. Enunciar as hipóteses: H o : µ 1 = µ 2 ou µ 1 - µ 2 = d H 1 1 2 1 2 : µ µ µ µ ≠ − ≠ ¹ ' ¹ d 119 onde d é a diferença admitida entre as duas médias. 2. Fixar α. Escolhendo a variável normal padrão "Z"; 3. Com o auxílio da tabela "Z" determinar as regiões RA e RR; 4. Calcular o valor da variável: ( ) Z X X d n n cal · − − + 1 2 1 2 1 2 2 2 σ σ 5. Conclusão: Optar pela aceitação ou rejeição de H o . Ex.: Um fabricante de pneus faz dois tipos. Para o tipo A, σ = 2500 Km, e para o tipo B, σ = 3000 Km. Um taxi testou 50 pneus do tipo A e 40 pneus do tipo B, obtendo 24000 Km e 26000 Km de duração média dos respectivos tipos. Adotando um risco de 4% e que existe uma diferença admitida de 200 Km entre as marcas, testar a hipótese de que a vida média dos dois tipos é a mesma. (R = rejeita-se H o ) 2 o caso) Se as variâncias populacionais σ 2 forem desconhecidas, independentes e normais, a variável teste será "t" (n n 30) 1 + 2 ≤ com ϕ = n 1 + n 2 -2; a) As estimativas diferentes 1. Enunciar as hipóteses: H o : µ 1 = µ 2 ou µ 1 - µ 2 = d H 1 1 2 1 2 : µ µ µ µ ≠ − ≠ ¹ ' ¹ d onde d é a diferença admitida entre as duas médias. 2. Fixar α. Escolhendo a variável "t" de Student; 3. Com o auxílio da tabela "t" determinar as regiões RA e RR; 4. Calcular o valor da variável: 120 ( ) t X X d S n S n cal · − − + 1 2 1 2 1 2 2 2 5. Conclusões: Optar pela aceitação ou rejeição de H o . Ex.: Dois tipos de pneus foram testados sob as mesmas condições meteorológicas. O tipo A fabricado pela fabrica A, registrou uma média de 80.000 km rodados com desvio padrão de 5.000 km. em 6 carros amostradas. O tipo B fabricado pela fábrica B, registrou uma média de 88.000 km com desvio padrão de 6.500 km em 12 carros amostradas. Adotando α = 5% testar a hipótese da igualdade das médias. b) As estimativas iguais 1. Enunciar as hipóteses: H o : µ 1 = µ 2 ou µ 1 - µ 2 = d H 1 1 2 1 2 : µ µ µ µ ≠ − ≠ ¹ ' ¹ d onde d é a diferença admitida entre as duas médias. 2. Fixar α. Escolhendo a variável "t" de Student; 3. Com o auxílio da tabela "t" determinar as regiões RA e RR; 4. Calcular o valor da variável: ( ) 2 1 c 2 1 cal n 1 n 1 . S d X X t + − − · onde ( ) ( ) S n S n S n n C · − + − + − 1 1 2 2 2 2 1 2 1 1 2 5. Conclusões: Optar pela aceitação ou rejeição de H o . Ex.: Dois tipos de tintas foram testados sob as mesmas condições meteorológicas. O tipo A registrou uma média de 80 min para secagem com desvio padrão de 5 min. em cinco partes amostradas. O tipo B, uma média de 83 min com desvio padrão de 4 min. em 6 partes amostradas. Adotando α = 5% testar a hipótese da igualdade das médias. (R = aceit a-se H o ) 121 9.2.5 Teste de significância para igualdade de duas proporções 1. Enunciar as hipóteses: H : o 1 = 2 π π H 1 1 2 : π π ≠ 2. Fixar α. Escolhendo a variável normal padrão "Z"; 3. Com o auxílio da tabela "Z" determinar as regiões RA e RR; 4. Calcular o valor da variável: Z p p p q n cal · − − − $ $ $ . $ 1 2 1 2 1 2 onde $ , $ , $ p p 1 2 · · · + + − X n X n p X X n n 1 1 2 2 1 2 1 2 1 2 5. Conclusões: Optar pela aceitação ou rejeição de H o . Ex.: Deseja-se testar se são iguais as proporções de homens e mulheres que lêem revista e se lembram do determinado anúncio. São os seguintes os resultados da amostra aleatória independente de homens e mulheres: Admita α = 10%. Homens Mulheres X 1 = 70 n 1 = 200 X 2 = 50 n 2 = 200 9.2.6 Teste de significância para igualdade de duas variâncias 1. Enunciar as hipóteses: H : 0 σ σ 1 2 2 2 · H : 1 σ σ 1 2 2 2 ≠ 2. Fixar α. Escolhendo a variável "F" com ϕ 1 = n 1 - 1 graus de liberdade no numerador, e ϕ 2 = n 2 - 1 graus de liberdade no denominador. 3. Com o auxílio da tabela "F" determinar as regiões RA e RR; ( ) F F sup , · α ϕ ϕ 1 2 ( ) ( ) F F F inf , , · · − 1 1 2 2 1 1 α α ϕ ϕ ϕ ϕ 122 4. Calcular o valor da variável: F S S cal · 1 2 2 2 5. Conclusões: Optar pela aceitação ou rejeição de H o . Ex.: Dois programas de treinamento de funcionários foram efetuados. Os 21 funcionários treinados no programa antigo apresentaram uma variância de 146 pontos em sua taxa de erro. No novo programa, 11 funcionários apresentaram uma variância de 200. Sendo α = 10%, pode-se concluir que a variância é diferente para os dois programas? 9.3 Exer cíci os 1) O crescimento da indústria da lagosta na Flórida nos últimos 20 anos tornou esse estado americano o 2 o mais lucrativo centro industrial de pesca. Espera -se que uma recente medida tomada pelo governo das Bahamas, que proibiu os pescadores norte americanos de jogarem suas redes na plataforma continental desse país. Produza uma redução na quantidade de Kg de lagosta que chega aos Estados Unidos. De acordo com índices passados, cada rede traz em média 14 Kg de lagosta. Uma amostra de 20 barcos pesqueiros, recolhida após a vigência da nova lei, indicou os seguintes resultados, em Kg (Use α = 5%) 7.89 13.29 17.96 15.6 8.89 15.28 16.87 19.68 18.91 12.47 10.93 9.57 5.53 11.57 10.02 8.57 17.96 10.79 19.59 11.06 Estes dados mostram evidências suficientes de estar ocorrendo um decréscimo na quantidade média de lagostas pescadas por barco, que chega aos Estados Unidos, depois do decreto do governo das Bahamas? Teste considerando α = 5%. (bilateral) 2) Os resíduos industriais jogados nos rios, muitas vezes, absorvem oxigênio, reduzindo assim o conteúdo do oxigênio necessário à respiração dos peixes e outras formas de vida aquática. Uma lei estadual exige um mínimo de 5 p.p.m. (Partes por milhão) de oxigênio dissolvido, a fim de que o conteúdo de oxigênio seja suficiente para manter a vida aquática. Seis amostras de água retiradas de um rio, durante a maré baixa, revelaram os índices (em partes por milhão) de oxigênio dissolvido: 123 4.9 5.1 4.9 5.5 5.0 4.7 Estes dados são evidência para afirmar que o conteúdo de oxigênio é menor que 5 partes por milhão? Teste considerando α = 5% e α = 1%. 3) A Debug Company vende um repelente de insetos que alega ser eficiente pelo prazo de 400 horas no mínimo. Uma análise de 90 itens aleatoriamente inspecionados acusou uma média de eficiência de 380 horas. a) Teste a afirmativa da companhia, contra a alternativa que a duração é inferior a 400 horas, ao nível de 1%, seu desvio padrão é de 60 horas. b) Repita o teste, considerando um desvio padrão populacional de 90 horas. 4) Ao final de 90 dias de um dieta alimentar envolvendo 32 pessoas, constatou-se o seguinte ganhos médio de peso 40 g, e desvio padrão de 1,378g. a) Supondo que o ganho de peso médio dessas pessoas é de 45 g, teste a hipótese para α = 5%, se esse valor é o mesmo (bilateral) b) Supondo que a variância dessas pessoas é de 1.8 g 2 , teste a hipótese para α = 5%, se esse valor é o mesmo (bilateral). 5) Uma pesquisa feita alega que 15% dos pessoas de uma determinada região sofrem de cegueira aos 70 anos. Numa amostra aleatória de 60 pessoas acima de 70 anos constatou-se que 12 pessoas eram cegas. Teste a alegação para α = 5% contra p > 15%. 6) A tabela abaixo mostra a quantidade de pessoas que obtiveram o melhor efeito perante a aplicação de duas drogas: Droga A Droga B Sexo muscular intravenosa muscular Total Masculino 21 10 22 53 Feminino 20 12 25 57 Total 41 22 47 110 a) Testar a hipótese de que a proporção de homens submetidos a droga A é de 35%, sendo α = 3%. b) Testar a hipótese de que a proporção dos adultos que tiveram melhor resultado nas aplicações musculares é de 85%, usando α = 2%. c) Testar a hipótese de que a proporção de mulheres é de 50%, usando α = 5%. d) Testar a hipótese de que a proporção de pessoas submetidos a droga A é de 65%, usando α = 4%. 7) Um processo de fabricação de arame de aço dá um produto com resistência média de 200 psi. O desvio padrão é de 20 psi. O engenheiro de controle de qualidade deseja elaborar um teste que indique se houve ou não variação na média do 124 processo, usando uma amostra de 25 arames obteve-se uma média de 285 psi. Use um nível de significância de 5%. Suponha normal a população das resistências. 8) A DeBug Company vende um repelente para insetos que alega ser eficiente pelo prazo de 400 horas no mínimo. Uma análise de 9 itens escolhidos aleatoriamente acusou uma média de eficiência de 380 horas. a) Teste a alegação da companhia, contra a alternativa que a duração é inferior a 400 horas no mínimo ao nível de 1%, e o desvio padrão amostral é de 60 horas. b) Repitas o item (a) sabendo que o desvio padrão populacional é de 90 horas. 9) Um laboratório de Análises Clínicas realizou um teste de impurezas em 9 porções de um determinado composto. Os valores obtidos foram: 10,32; 10,44; 10;56; 10,.60; 10,63; 10,67; 10,7; 10.73; 10,75 mg. a) estimar a média e a variância de impurezas entre as porções. b) Testar a hipótese de que a média de impureza é de 10.4, usando α = 5%. c) Testar a hipótese de que a variância é um usando α = 5%. 10) Uma experiência tem mostrado que 40% dos estudantes de uma Universidade reprovam em pelo menos 5 disciplinas cursada na faculdade. Se 40 de 90 estudantes fossem reprovados em mais de 5 disciplinas, poderíamos concluir quanto a proporção populacional, usando α = 1%. 11) Para verificar a eficácia de uma nova droga foram injetados doses em 72 ratos, obtendo-se a seguinte tabela: Sexo Tamanho da Amostra Variância Machos 41 43.2 Fêmeas 31 29.5 Testar a igualdade das duas variâncias usando α = 10%. 12) Sendo Amostra 1 n 1 = 60 X 1 = 5.71 σ 1 2 = 43 Amostra 2 n 2 = 35 X 2 = 4.12 σ 2 2 = 28 a) Testar a igualdade das duas médias usando α = 4%. b) Testar a igualdade das duas variâncias usando α = 5% 125 13) Na tabela abaixo estão registrados os índices de vendas em 6 supermecados para os produtos concorrentes da marca A e marca B. Testar a hipótese de que a diferença das médias no índice de vendas entre as marcas é zero, usando α = 5%. Supermercado Marca A Marca B 1 14 4 2 20 16 3 2 28 4 11 9 5 5 31 6 12 10 14) Da população feminina extraiu-se uma amostra resultando: Renda (em $1000) 10 | --- 25 25 | --- 40 40 | --- 55 55 | --- 70 70 | ---85 N o de mulheres 7 12 10 6 4 da população masculina retirou-se uma amostra resultando: Renda (em $1000) 10 | --- 25 25 | --- 40 40 | --- 55 55 | --- 70 70 | ---85 N o de homens 8 15 12 7 3 a) Testar ao nível de 10% a hipótese de que a diferença entre a renda média dos homens e das mulheres valha $ 5000. b) Testar ao nível de 5% a hipótese de que a diferença entre as variâncias valha 0. 15) Uma empresa de pesquisa de opinião seleciona, aleatoriamente, 300 eleitores de São Paulo e 400 do Rio de Janeiro, e pergunta a cada um se votará ou não num determinado candidato nas próximas eleições. 75 eleitores de SP e 120 do RJ responderam afirmativo. Há diferença entre as proporções de eleitores favoráveis ao candidato naqueles dois estados? use α = 5%. 16) Estão em teste dois processos para fechar latas de comestíveis. Numa seqüência de 1000 latas, o processo 1 gera 50 rejeições, enquanto o processo 2 acusa 200 rejeições. Pode ao nível de 5%, concluir que os dois processos sejam diferentes? 9.4 Test e do Qui - quadr ado χ 2 Anteriormente foi testado hipóteses referentes a um parâmetro populacional ou mesmo a comparação de dois parâmetros, ou seja, são os testes paramétricos. Agora será testado aqueles que não dependem de um parâmetro populacional, nem de suas respectivas estimativas. Este teste é chamado de teste do Qui-quadrado. O teste do Qui-quadrado é usado quando se quer comparar freqüências observadas com freqüências esperadas. Divide-se em três tipos: 126 - Teste de adequação do ajustamento - Teste de Aderência - Teste de Independência (Tabela de Contingência) 9.4.1 Procedimentos para a realização de um teste Qui-quarado (χ 2 ) 1 o ) Determinação das Hipóteses: H o : F o = F e H 1 : F o ≠ F e 2 o ) Escolha do Nível de Significância (α) 3 o ) Estatística Calculada ( ) ∑ · − · χ k 1 i e 2 e o 2 cal F F F 4 o ) Estatística Tabelada: χ χ ϕ α tab 2 2 · , 5 o ) Comparar o χ cal 2 com χ tab 2 e concluir: 6 o ) Conclusão: Se χ cal 2 ≤ χ tab 2 → aceita -se H o Se χ cal 2 > χ tab 2 → rejeita-se H o 127 9.4.2 Teste de adequação do ajustamento Suponhamos uma amostra de tamanho n. Sejam E 1 , E 2 , ..., E k , um conjunto de eventos possíveis da amostra. Eventos Freq. Obs. E 1 E 2 : E k F o1 F o2 : F ok Total n Este teste é indicado para verificar se as freqüências observadas dos k eventos (k classes em que a variável é dividida) concordam ou não com as freqüências teóricas esperadas. As freqüências esperadas (F ei ) são obtidas multiplicando-se o número total de elementos pela proporção teórica da classe i (n. p i ). Para encontrar o χ cal 2 , necessita-se do nível de Significância (α) e dos graus de liberdade (ϕ), os quais podem ser obtidos da seguinte forma: 1 o ) ϕ = k - 1, quando as freqüências esperadas puderem ser calculadas sem que façam estimativas dos parâmetros populacionais a partir das distribuições amostrais. 2 o ) ϕ = k - 1 - m, quando para a determinação das freqüências esperadas, m parâmetros tiverem suas estimativas calculadas a partir das distribuições amostrais. Pearson mostrou que, se o modelo testado for verdadeiro e se todas as F ei ≤ 5%, estas deverão ser fundidas às classes adjacentes. Ex1.: Deseja-se testar se o número de acidentes numa rodovia se distribui igualmente pelos dias da semana. Para tanto foram levantados os seguintes dados (α = 5%). Dia da Semana Dom Seg Ter Qua Qui Sex Sab N o de Acidentes 33 26 21 22 17 20 36 Resolução: H o : As freqüências são iguais em todos os dias H 1 :As freqüências são diferentes em todos os dias 128 Dia da Semana Dom Seg Ter Qua Qui Sex Sab k = 7 N o de Acidentes 33 26 21 22 17 20 36 175 p i 1/ 7 1/ 7 1/ 7 1/ 7 1/ 7 1/ 7 1/ 7 --- Fe = n . p i 25 25 25 25 25 25 25 --- ( ) ( ) ( ) 12 25 25 36 ... 25 25 26 25 25 33 2 2 2 2 calc · − + + − + − · χ χ cal 2 = 12 χ tab 2 = χ 5 6 2 12 5 %, . · Conclusão: Como o χ cal 2 < χ tab 2 , aceita-se H o , ou seja, para α = 5%, as freqüências podem ser iguais. Ex2.: O número de livros emprestados por uma biblioteca durante certa semana está a seguir. Teste a hipótese que o número de livros emprestados não dependem do dia da semana, com α = 1%. Dia da Semana Seg Ter Qua Qui Sex N o de Livros 110 135 120 146 114 R = χ cal 2 = 7.29 ; χ tab 2 = χ 1 4 2 13 28 %, . · 9.4.3 Teste de aderência É usada a estatística χ 2 quando deseja-se testar a natureza da distribuição amostral. Por exemplo, quando se quer verificar se a distribuição amostral se ajusta a um determinado modelo de distribuição de probabilidade (Normal, Poisson, Binomial, ...), ou seja, verifica-se a boa ou má, aderência dos dados da amostra do modelo. Ex1.: O número de defeitos por unidade de uma amostra de 100 aparelhos de TV produzidos por uma linha de montagem apresentou a seguinte distribuição: N o de Defeitos 0 1 2 3 4 5 6 7 N o de Aparelhos 25 35 18 13 4 2 2 1 Verificar se o número de defeitos por unidade segue razoavelmente uma distribuição de Poisson, com α = 5%. Resolução: H o : A distribuição do n o de defeitos/ unidade segue uma Poisson H 1 : A distribuição do n o de defeitos/ unidade não segue uma Poisson 129 N o de Defeitos 0 1 2 3 4 5 6 7 n N o de Aparelhos 25 35 18 13 4 2 2 1 100 p i 0.212 0.329 0.255 0.132 0.051 0.016 0.004 0.001 1.000 Fe = n . p i 21.2 32.9 25.5 13.2 5.1 1.6* 0.4* 0.1* 100 Para calcular p i , temos: p e i i i · −µ µ ! (Distribuição de Poisson) µ · · · · ∑ X X f n i i i n . . 1 155 ( ) 212 . 0 ! 0 55 . 1 e p 0 55 . 1 0 · · − ( ) 051 . 0 ! 4 55 . 1 e p 4 55 . 1 4 · · − ( ) 329 . 0 ! 1 55 . 1 e p 1 55 . 1 1 · · − ( ) 016 . 0 ! 5 55 . 1 e p 5 55 . 1 5 · · − ( ) 255 . 0 ! 2 55 . 1 e p 2 55 . 1 2 · · − ( ) 004 . 0 ! 6 55 . 1 e p 6 55 . 1 6 · · − ( ) 132 . 0 ! 3 55 . 1 e p 3 55 . 1 3 · · − ( ) 001 . 0 ! 6 55 . 1 e p 6 55 . 1 7 · · − * = F ei ≤ 5%, logo deve ser agrupada com a classe adjacente. ( ) ( ) ( ) 474 . 3 2 . 7 2 . 7 9 ... 9 . 32 9 . 32 35 2 . 21 2 . 21 25 7 6 5 4 2 2 2 2 calc · − + + − + − · χ − − − 43 42 1 ¹ ' ¹ · · − − · − − · ϕ ) X ( usados) s estimadore de (número 1 = m o) agrupament após classes de (número 5 k 3 1 1 5 m 1 k χ tab 2 = χ 5 3 2 7 81 %, . · Conclusão: Como o χ cal 2 ≤ χ tab 2 , aceita-se H o , ou seja, para α = 5%, a distribuição do número de defeitos/ unidade pode seguir uma Distribuição de Poisson. 130 Ex2.: Verificar se os dados das distribuição das alturas de 100 estudantes do sexo feminino se aproxima de uma distribuição normal, com α = 5%. Altura (cm) N o de Estudantes Transf. "Z" Prob (área) Fe = n . p i 150 | --- 156 156 | --- 162 162 | --- 168 168 | --- 174 174 | --- 180 180 | --- 186 4 12 22 40 20 2 - ∞ | --- -1.94 -1.94 | --- -1.04 -1.04 | --- -0.14 -0.14 | --- 0.76 0.75 | --- 1.66 1.66 | --- + ∞ 0.026 * 0.123 0.295 0.332 0.175 0.048 * 2.6 12.3 29.5 33.2 17.5 4.8 k = 6 100 1.000 100.0 Resolução: H o : A distribuição da altura das estudantes do sexo feminino é normal H 1 : A distribuição da altura das estudantes do sexo feminino não é normal Para calcular p i , temos: Z x S i · −µ (Distribuição Normal Padrão) µ · · · · ∑ X X f n i i i n . . 1 168 96 ( ) 67 . 6 1 n X X . f S n 1 i i i · − − · ∑ · Z 1 156 168 96 6 67 1 94 · − · − . . . Z 4 174 168 96 6 67 0 76 · − · . . . Z 2 162 168 96 6 67 1 04 · − · − . . . Z 5 180 168 96 6 67 1 65 · − · . . . Z 3 168 168 96 6 67 0 14 · − · − . . . ( ) ( ) ( ) ( ) 38 . 3 3 . 22 ) 8 . 4 5 . 17 ( ) 2 20 ( 2 . 33 2 . 33 40 5 . 29 5 . 29 22 9 . 14 ) 3 . 12 6 . 2 ( ) 12 4 ( 6 5 2 2 2 2 1 2 2 calc · + − + + − + − + + − + · χ − − 4 4 4 4 3 4 4 4 4 2 1 4 4 4 4 3 4 4 4 4 2 1 ϕ = k - 1 - m = 4 - 1 - 2 = 1 ¹ ' ¹ · (S) ) X ( usados) s estimadore de (número 2 = m o) agrupament após classes de (número 4 k χ tab 2 = χ 5 1 2 3 84 %, . · Conclusão: Como o χ cal 2 ≤ χ tab 2 , aceita-se H o , ou seja, para α = 5%, a distribuição da altura das estudantes do sexo feminino é normal. 131 9.4.4 Tabelas de contingência – Teste de independência Uma importante aplicação do teste χ 2 ocorre quando se quer estudar a relação entre duas ou mais variáveis de classificação. A representação das freqüências observadas, nesse caso, pode ser feita por meio de uma tabela de contingência. H o : As variáveis são independentes (não estão associadas) H 1 : As variáveis não são independentes (estão associadas) O número de graus de liberdade é dado por: ϕ = (L - 1) (C - 1), onde L é o número de linhas e C o número de colunas da tabela de contingência. ( ) ∑ · − · χ k 1 i e 2 e o 2 cal F F F ( )( ) s observaçõe de total j coluna da soma i linha da soma F eij · Obs.: Em tabelas 2 x 2 temos 1 grau de liberdade, por isso utiliza -se a correção de Yates, onde para n ≥ 50 pode ser omitida. O teste do χ 2 não é indicado em tabelas 2 x 2 nos seguintes casos: i) quando alguma freqüência esperada for menor que 1; ii) quando a freqüência total for menor que 20 (n ≤ 20); iii) quando a freqüência total (20 ≤ n ≤ 40) e algumas freqüências esperadas for menor que 5. Neste caso aplica-se o teste exato de Fischer. Ex.: Verifique se há associação entre os níveis de renda e os municípios onde foram pesquisados 400 moradores. Use α = 1%. Município Níveis de Renda A B C D X Y 28 44 42 78 30 78 24 76 H o : As variáveis são independentes H 1 : As variáveis são dependentes A B C D Total (l ) X Y 28 44 42 78 30 78 24 76 124 276 Total (c) 72 120 108 100 400 F x e11 124 72 400 22 32 · · . F x e21 276 72 400 49 68 · · . 132 F x e12 124 120 400 37 2 · · . F x e22 276 120 400 82 8 · · . F x e13 124 108 400 33 48 · · . F x e23 276 108 400 74 52 · · . F x e14 124 100 400 310 · · . F x e24 276 100 400 69 · · ( ) ( ) ( ) 81 , 5 69 69 76 ... 2 , 37 2 , 37 42 32 , 22 32 ,. 22 28 2 2 2 2 calc · − + + − + − · χ 34 , 11 2 3 %; 1 2 ) 1 4 )( 1 2 ( %; 1 2 tab · χ · χ · χ − − Conclusão: Como o χ cal 2 ≤ χ tab 2 , aceita-se H o , ou seja, para α = 1%, as variáveis são independentes. Uma medida do grau de relacionamento, associação ou dependência das classificações em uma tabela de contingência é dada pelo coeficient e de contingência. C n cal cal · + χ χ 2 2 Quanto maior o valor de C, maior o grau de associação, O máximo valor de C dependerá do número de linhas e colunas da tabela e pode variar de 0 (independência) a 1 (dependência total). 9.5 Exer cíci os 1) Verificar se os dados se a justam a uma distribuição de Poisson, α = 2.5%. N o de Acidentes 0 1 2 3 4 5 N o de Dias 25 19 10 9 4 3 2) Testar para α = 5% se há alguma relação entre as notas escolares e o salário. Salários Notas Escolares Alta Baixa Média Alto Médio Baixo 18 26 6 5 16 9 17 38 15 R = aceita H o 133 3) Determine o valor do coeficiente de contingência considerando os dados: α = 1%. Sexo Partido A B Masculino Feminino 50 29 72 35 C = 4% 4) Com o objetivo de investigar a relação entre a situação do emprego no momento em que se aprovou um empréstimo e saber se o empréstimo está, agora, pago ou não, o gerente de uma financeira selecionou ao acaso 100 clientes obtendo os resultados da tabela. Teste a hipótese nula de que a situação de emprego e a de empréstimo são variáveis independentes, com α = 5%. Estado Atual Situação de Emprego do Emprést imo Empregado Desempregado Em mora Em dia 10 60 8 22 R = Aceita H o 5) A tabela indica o número médio de acidentes por mil homens/ hora da amostra de 50 firmas obtidas de uma indústria específica. A média desta distribuição é de 2.32 e o desvio padrão de 0.42. Teste a hipótese nula de que as freqüências observadas seguem uma distribuição normal, com α = 5%. N o de Acidentes N o de Firmas 1.5 --- 1.7 1.8 --- 2.0 2.1 --- 2.3 2.4 --- 2.6 2.7 --- 2.9 3.0 --- 3.2 3 12 14 9 7 5 R = A ceita H o Total 50 6) Verifique se a distribuição se ajusta a normal. (α = 5%), onde 200 casas de aluguel foram pesquisadas, obtendo-se a seguinte distribuição: Classes ($) freq. observada 250 | --- 750 750 | --- 1250 1250 | --- 1750 1750 | --- 2250 2250 | --- 2750 2750 | --- 3250 3250 | --- 3750 3750 | --- 4250 4250 | --- 4750 2 10 26 45 60 37 13 5 2 Total 200 134 1 10 0 R RE EG GR RE ES SS SÃ ÃO O E E C CO OR RR RE EL LA AÇ ÇÃ ÃO O 10.1 I nt r odução Muitas vezes é de interesse estudar-se um elemento em relação a dois ou mais atributos ou variáveis simultaneamente. Nesses casos presume-se que pelo menos duas observações são feitas sobre cada elemento da amostra. A amostra consistirá, então, de pares de valores, um valor para cada uma das variáveis, designadas, X e Y. Um indivíduo “i” qualquer apresenta o par de valores (X i ; Y i ). Objetivo visado quando se registra pares de valores (observações) em uma amostra, é o estudo das relações entre as variáveis X e Y. Para a análise de regressão interessam principalmente os casos em que a variação de um atributo é sensivelmente dependente do outro atributo. O problema consiste em estabelecer a função matemática que melhor exprime a relação existente entre as duas variáveis. Simbolicamente a relação é expressa por uma equação de regressão e graficamente por uma curva de regressão. 10.2 Def i ni ção Constitui uma tentativa de estabelecer uma equação matemática linear que descreva o relacionamento entre duas variáveis (uma dependente e outra independente). A equação de regressão tem por finalidade ESTIMAR valores de uma variável, com base em valores conhecidos da outra. Ex.: Peso x Idade; Vendas x Lucro; Nota x Horas de Estudo 10.3 Model o de Regr essão i i i + x yˆ ε + β α · i yˆ ⇒ valor estimado (variável dependente); i x ⇒ variável independente; α ⇒ coeficiente de regressão (coeficiente angular); β ⇒ coeficient e linear; i ε ⇒ resíduo. 135 10.3.1 Pressuposições Na regressão, os valores de "y" são estimados com base em valores dados ou conhecidos de "x", logo a variável "y" é chamada variável dependente, e "x" variável independente. a) A relação entre X e Y é linear (os acréscimos em X produzem acréscimos proporcionais em Y e a razão de crescimento é constante). b) Os valores de X são fixados arbitrariamente (X não é uma variável aleatória). c) Y é uma variável aleatória que depende entre outras coisas dos valores de X. d) ε i é o erro aleatório, portanto uma variável aleatória com distribuição normal, com média zero e variância σ 2 . [ ε i ~ N (0, σ 2 )]. ε i representa a variação de Y que não é explicada pela variável independente X. e) Os erros são considerados independentes. Ex.: Vendas (x 1000) X Lucro (x100) Obs. 1 2 3 4 5 6 7 8 Vendas 201 225 305 380 560 600 685 735 Lucro 17 20 21 23 25 24 27 27 10.3.1 Gráfico (Diagrama de Dispersão) Tem como finalidade ajudar na decisão se uma reta descreve adequadamente ou não o conjunto de dados. Vendas L u c r o 16 18 20 22 24 26 28 150 250 350 450 550 650 750 850 Pelo gráfico podemos observar que a possível reta de regressão terá um coeficiente de regressão (coeficiente linear) positivo. 136 10.4 Mét odo par a est i mação dos parâmet ros α e β As estimativas dos parâmetros α e β dadas por “a” e “b”, serão obtidas a partir de uma amostra de n pares de valores (x i , y i ) que correspondem a n pontos no diagrama de dispersão. Exemplo: O método mais usado para ajustar uma linha ret a para um conjunto de pontos (x , y ), ..., (x ,y ) 1 1 n n é o Método de Mínimos Quadrados: O método dos mínimos quadrados consiste em adotar como estimativa dos parâmetros os valores que minimizem a soma dos quadrados dos desvios. 10.4.1 Características 1 a ) A soma dos desvios verticais dos pontos em relação a reta é zero; 2 a ) A soma dos quadrados desses desvios é mínima. Os valores de "a" e "b" da reta de regressão $ y a x + b · serão: a n xy n x S S i=1 n 2 i=1 n xy xx · − − ¸ ¸ _ , · ∑ ∑ ∑ ∑ ∑ · · · x y x i n i n i n 1 1 1 2 b y a x · − Para cada par de valores (x i , y i ) podemos estabelecer o desvio: ) bx a ( y yˆ y e i i i i i + − · − · Para facilitar os cálculos da reta de regressão, acrescentamos três novas colunas na tabela dada. Obs. Vendas X i Lucro Y i 2 i X Y i 2 i i Y . X 1 201 17 40401 289 3417 2 225 20 50625 400 4500 3 305 21 93025 441 6405 4 380 23 144400 529 8740 5 560 25 313600 625 14000 6 600 24 360000 576 14400 7 685 27 469225 729 18495 8 735 27 540225 729 19845 Σ 3691 184 2011501 4318 89802 137 ( ) ( )( ) ( ) ( ) 0159 , 0 3691 2011501 8 184 3691 89802 8 x x n y x y x n a 2 2 n 1 i i n 1 = i 2 i n 1 i i n 1 i i n 1 = i i i · − − · , _ ¸ ¸ − − · ∑ ∑ ∑ ∑ ∑ · · · 15,66 = 1,38) (0,159)(46 - 23 = x a y b − · 15,66 + x 0159 , 0 yˆ · Saída do Statistica Vendas L u c r o 16 18 20 22 24 26 28 150 250 350 450 550 650 750 850 y = 15,66 + 0,0159 x Partindo da reta de regressão podemos afirmar que para uma venda de 400 mil podemos obter um lucro de $ ( . ) y (400.000) + 15.66 = 22 mil · 0 0159 . Saídas do Statistica Obs.: Para qualquer tipo de equação de regressão devemos ter muito cuidado para não extrapolar valores para fora do âmbito dos dados. O perigo da extrapolação para fora dos dados amostrais, é que a mesma relação possa não mais ser verificada. 138 10.5 Decomposi ção da var i ânci a Tot al A dispersão da variação aleatória “y” pode ser medida através da soma dos quadrados dos desvios em relação a sua média y . Essa soma de quadrados será denominada Soma de Quadrados Total (SQTotal). ( ) ∑ · − · n 1 i 2 i y y SQTotal A SQTotal pode ser decomposta da seguinte forma: ( ) ( ) ( ) ∑ ∑ ∑ · · · − + − · − n 1 i 2 i i n 1 i 2 i n 1 i 2 i yˆ y y yˆ y y Essa relação mostra que a variação dos valores de Y em torno de sua média pode ser dividida em duas partes: uma ( ) ∑ · − n 1 i 2 i y yˆ que é explicada pela regressão e outra ( ) ∑ · − n 1 i 2 i i yˆ y , devido ao fato de que nem todos os pontos estão sobre a reta de regressão, que é a parte “não explicada” pela regressão ou variação residual. Assim: SQ. Total = SQRegressão + SQResíduo A estatística definida por SQTotal o a ~ Regress SQ r 2 · , e denominada coeficiente de determinação, indica a proporção ou percentagem da variação de Y que é “explicada” pela regressão. Note que 0 ≤ r 2 ≤ 1. Fórmulas para cálculo: SQTotal = ( ) ∑ ∑ ∑ · · , _ ¸ ¸ − · − n 1 i 2 n 1 i i n 1 = i 2 i 2 i y y n y y , com (n - 1) graus de liberdade. SQ Regressão = ( ) , _ ¸ ¸ − · − ∑ ∑ ∑ ∑ · · · n 1 i i n 1 i i n 1 = i i i n 1 i 2 i y x y x n b y yˆ , com (n - 2) graus de liberdade. 139 10.6 Anál i se de Var i ânci a da Regr essão A Soma de Quadrados da Regressão (SQRegressão), segue uma distribuição de χ 2 (qui-quadrado) com (1) grau de liberdade, enquanto que a Soma de Quadrados do Resíduo (SQResíduos) segue a mesma distribuição, porém com (n - 2) graus de liberdade. Portanto, o quociente QMResiduo o a ~ QMRegress 2 - Residuo/n SQ o/1 a ~ Regress SQ · , segue uma distribuição F de Snedecor com 1 e (n - 2) graus de liberdade. Esse fato nos permite empregar a distribuição F de Snedecor para testar a significância da regressão, através da chamada Análise de Variância, sintetizada no quadro abaixo: Análise de Variância Causas de Variação G.L. SQ QM F Regressão 1 SQRegressão 1 o a ~ QMRegress QMResiduo o a ~ QMRegress Resíduo n - 2 SQResíduo 2 - n QMResíduo --- Total n - 1 SQTotal --- --- onde QM representa Quadrado Médio e é obtido pela divisão da Soma de Quadrados pelos respectivos graus de liberdade. Para testar a significância da regressão, formula-se as seguintes hipóteses: H 0 : β= 0 contra H 1 : β≠0, onde β representa o coeficiente de regressão paramétrico. Se o valor de F, calculado a partir do quadro anterior, superar o valor teórico de F com 1 e (n - 2) graus de liberdade, para o nível de significância α, rejeita -se H 0 e conclui -se que a regressão é significativa. Se F calc. > F α [1,(n-2)] , rejeita-se H 0 . 140 Para o exemplo anterior: Obs. Vendas i X Lucro i Y 2 i X Y i 2 i i Y . X 1 201 17 40401 289 3417 2 225 20 50625 400 4500 3 305 21 93025 441 6405 4 380 23 144400 529 8740 5 560 25 313600 625 14000 6 600 24 360000 576 14400 7 685 27 469225 729 18495 8 735 27 540225 729 19845 Σ 3691 184 2011501 4318 89802 66 , 15 x 0159 , 0 yˆ i i + · 1 ] 1 ¸ − ∑ ∑ ∑ · · n 1 i i n 1 i i n 1 = i i i y x y x n a = o a ~ SQRegress ( ) [ ] 624,42 = ) 184 )( 3691 ( 89802 8 0,0159 = o a ~ SQRegress − 2 n 1 i i n 1 = i 2 i y y n SQTotal , _ ¸ ¸ − · ∑ ∑ · 688,00 = (184) - 8(4318) SQTotal 2 · Causas de Variação G.L. SQ QM F Regressão 1 624,42 624,42000 58,93 Resíduo 6 63,58 10,59587 --- Total 7 688,00 --- --- H 0 : β = 0 e H 1 : β ≠ 0 Comparando o F calc. = 58,93 com o F tab. = F 0,05 (1,6) = 5,99 Conclui-se que a regressão de y sobre x segundo o modelo 66 , 15 x 0159 , 0 yˆ i i + · é significativa ao nível de significância de 5%. Uma vez estabelecida e testada a equação de regressão, a mesma pode ser usada para explicar o relacionamento entre as variáveis e também para fazer previsões dos valores de Y para valores fixados de X. 141 Saídas do Statistica 10.7 Coef i ci ent e de Det er mi nação ( r ² ) É o grau em que as predições baseadas na equação de regressão superam as predições baseadas em y, ou ainda é a proporção entre a variância explicada pela variância total. Variância Total = soma dos desvios ao quadrado VT = SQTotal = ( ) ∑ ∑ ∑ · · , _ ¸ ¸ − · − n 1 i 2 n 1 i i n 1 = i 2 i 2 i y y n y y , Variância Não-explicada = soma de quadrados dos desvios em relação a reta $ y VÑE = ( ) ∑ · − n 1 i 2 i i yˆ y Para facilitar os cálculos usaremos: r n xy n x n y COV S S 2 i=1 n 2 2 i=1 n 2 i=1 n xy xx yy · − ¸ ¸ _ , − ¸ ¸ _ , ¸ 1 ] 1 1 − ¸ ¸ _ , ¸ 1 ] 1 1 · ∑ ∑ ∑ ∑ ∑ ∑ ∑ · · · · x y x y i n i n i n i n 1 1 1 2 1 2 . [ ] [ ][ ] r 8(89802) - (3691)(184) 8(2011501) - (3691) 8(4318) - (184) 0.908 2 2 2 · · 2 O valor de r² varia de 0 a 1, logo o fat o de r² = 0.908 (no exemplo), indica que aproximadamente 91% da variação do lucro estão relacionados com a variação das vendas, em outras palavras 9% da variação dos lucros não são explicados pelas vendas. 142 Saídas do Statistica 10.8 Coef i ci ent e de Correl ação ( r ) Tem como objetivo encontrar o grau de relação entre duas variáveis, ou seja, um coeficiente de correlação. Esta é a forma mais comum de análise, envolvendo dados contínuos, conhecido como "r de Pearson ". 10.8.1 Características do “r” - Pode assumir valores positivos (+ ) como negativos (-), é semelhante ao coeficiente de regressão de uma reta ajustada num diagrama de dispersão; - A magnitude de r indica quão próximos da "reta" estão os pontos individuais; - quando o r se aproxima de + 1 indica pouca dispersão, e uma correlação muito forte e positiva; - quando o r se aproxima de "zero" indica muita dispersão, e uma ausência de relacionamento; - quando o r se aproxima de -1 indica pouca dispersão, e uma correlação muito forte e negativa. 0 -1 +1 0 valor de r -0,5 +0,5 Negativa forte Positiva forte Negativa moderada Positiva moderada Negativa fraca Positiva fraca 143 10.8.2 Medidas de Correlação 10.8.2.1 Tratamento Qualitativo (correlação momento produto) Relação entre as variáveis, mediante a observação do diagrama de dispersão. 10.8.2.2 Tratamento Quantitativo É o estabelecimento das medidas de correlação. O valor de "r" pode ser enganoso, na realidade, uma estatística mais significante é o r² (coeficiente de determinação), que dá o valor percentual da variação de uma variável explicativa em relação a outra variável. yy xx xy n 1 i n 1 = i 2 n 1 i n 1 = i 2 n 1 i n 1 i n 1 = i S . S S y y n x x n y x xy n r · 1 ] 1 ¸ , _ ¸ ¸ − 1 ] 1 ¸ , _ ¸ ¸ − , _ ¸ ¸ − · ∑ ∑ ∑ ∑ ∑ ∑ ∑ · · · · Logo podemos observar que o coeficiente de determinação nos dá uma base intuitiva para a análise de correlação. No exemplo temos r = 0.95 3 Saída do Statistica Regression 95% confid. LUCRO = 15,660 + ,01591 * VENDAS Correlação: r = ,95295 Vendas L u c r o 16 18 20 22 24 26 28 150 250 350 450 550 650 750 850 144 10.9 Exer cíci os Para os dados abaixo: a) Construa um diagrama de dispersão; b) Determine a reta de regressão; c) Faça uma análise de variância do modelo; d) Calcule o Coeficiente de Explicação; e) Calcule o Coeficiente de Correlação de Pearson; f) Interprete os resultados obtidos. X = 1 o Exame e Y = 2 o Exame Aluno 1 2 3 4 5 6 7 8 9 10 Exame 1 82 84 86 83 88 87 85 83 86 85 Exame 2 92 91 90 92 87 86 89 90 92 90 R = $ . y x +157. 25 · −0 79 ; r² = 53.29%; r = -0.73 X = horas de estudo e Y = Nota da Prova Aluno 1 2 3 4 5 6 7 8 Horas 2 4 5 5 6 8 9 10 Nota 1 3 6 6 8 7 8 10 R = $ . y x +0.12 · 0 98 ; r² = 82.99%; r = + 0.911 X = Seguro (x 1000 ) e Y = Renda (x100) Indivíduo 1 2 3 4 5 6 7 8 Seguro 20 16 34 23 27 32 18 22 Renda 64 61 84 70 88 92 72 77 R = $ . y x +40.08 ·1 50 ; r² = 74.3%; r = + 0.86 X = Peso do Pai (kg) e Y = Peso do Filho (kg) Indivíduo 1 2 3 4 5 6 7 8 9 10 Peso Pai 65 63 67 64 68 62 70 66 68 67 Peso Filho 68 66 68 65 69 66 68 65 71 67 R = $ . y x +35.48 · 0 48 ; r² = 40.58%; r = + 0.637 145 1 11 1 R Re ef f e er rê ên nc ci ia as s B Bi i b b l l i i o oggr r á áf f i ic ca as s COSTA NETO, P.L.O.; CYMBALISTA, M. (1994). Probabilidades. São Paulo: Edgard Blucher. FONSECA, J.S.; MARTINS, G.A. (1993). Curso de estatística. 4 a ed. São Paulo: Atlas. LAPONNI, Juan Carlos (1997). Estatística usando o Excel. São Paulo: Lapponi Treinamento e Editora. MILONE, G.; ANGELINI, F. (1995). Estatística aplicada. São Paulo: Atlas. SNEDECOR, G. W.; COCHRAM, W. G. (1989). Statistical Methods. 8 rd ed. Iowa: Iowa State University Press, 1989. WONNACOTT, T.H.; WONNACOTT, R. J. (1990). Introductory Statistics. New York. John wiley & Sons; Sum ário 1 Conceitos básicos 1.1 População x Amostra 1.2 Censo x Amostragem 1.3 Dado x Variável 1.4 Parâmetros x estatísticas 1.5 Arredondamento de dados 1.6 Fases do método estatístico 2 Representação tabular 2.1 Representação esquemática 2.2 Elementos de uma tabela 2.3 Séries estatísticas 2.4 Distribuição de freqüência 3 Representação gráfica 3.1 Gráficos de Linhas 3.2 Gráficos de colunas ou barras 3.3 Gráficos circulares ou de Setores (Pie Charts) 3.4 Gráfico Pictorial - Pictograma 3.5 Gráfico Polar 3.6 Cartograma 3.7 Gráficos utilizados para a análise de uma distribuição de freqüência 4 Medidas descritivas 4.1 Medidas de posição 4.2 Medidas de variabilidade ou dispersão 4.3 Medidas de dispersão relativas 4.4 Momentos, assimetria e curtose 4.5 Exercícios 5 Probabilidade e variáveis aleatórias 5.1 Modelos matemáticos 5.2 Conceitos em probabilidade 5.3 Conceitos de probabilidade 5.4 Exercícios 5.5 Teorema de Bayes 5.6 Variáveis aleatórias 5.7 Função de probabilidade 5.8 Exemplos 5.9 Exercícios 6 Distribuições de Probabilidade 6.1 Distribuições discretas de probabilidade 6.2 Exercícios 6.2 Distribuições contínuas de probabilidade 6.4 Exercícios 7 Amostragem 7.1 Conceitos em amostragem 7.2 Planos de amostragem 6.3 Tipos de amostragem 7.4 Amostragem com e sem reposição 7.5 Representação de uma distribuição amostral 7.6 Distribuições amostrais de probabilidade 7.7 Exercícios 7.8 Estatísticas amostrais 7.9 Tamanho da amostra 8 Estimação de parâmetros 8.1 Estimação pontual 8.2 Estimação intervalar 8.3 Exercícios 9 Testes de hipóteses 9.1 Principais conceitos 8.2 Teste de significância 9.3 Exercícios 9.4 Testes do Qui-quadrado 9.5 Exercícios 10 Regressão e Correlação 10.1 Introdução 10.2 Definição 10.3 Modelo de Regressão 10.4 Método para estimação dos parâmetros α e β 10.5 Decomposição da variância Total 10.6 Análise de Variância da Regressão 10.7 Coeficiente de Determinação (r²) 10.8 Coeficiente de Correlação (r) 10.9 Exercícios 11 Referências bibliográficas As matérias-primas da estatística são os dados observáveis.1 População x Amostra • População (N): Conjunto de todos os elementos relativos a um determinado fenômeno que possuem pelo menos uma característica em comum. podendo ser finita ou infinita. podendo ser através de Censo ou Amostragem.apresenta um número ilimitado de observações que é impossível de contar e geralmente esta associada a processos. 1. Censo: É a coleta exaustiva de informações das "N" unidades populacionais.1 Conceitos Bá sicos 1. a população é o conjunto Universo. tais como X. • • • Amostra (n): É um subconjunto da população e deverá ser considerada finita. 1. mediante processos operacionais. Os símbolos utilizados para representar as variáveis são as letras maiúsculas do alfabeto. que é passível de contagem. Amostragem: É o processo de retirada de informações dos "n" elementos amostrais. Finita . que pode assumir qualquer valor de um conjunto de dados.. ser considerada infinita. Variável: É aquilo que se deseja observar para se tirar algum tipo de conclusão. a amostra deve ser selecionada seguindo certas regras e deve ser representativa.3 Dado x Variável • • Dados estatísticos: é qualquer característica que possa ser observada ou medida de alguma maneira. Infinita . no qual deve seguir um método criterioso e adequado (tipos de amostragem).. pois a mesma irá depender do tamanho da amostra.apresenta um número limitado de observações. de modo que ela represente todas as características da população como se fosse uma fotografia desta. se a freqüência relativa for maior do 5% ela é considerada finita. geralmente as variáveis para estudo são selecionadas por processos de amostragem.2 Censo x Amostragem • • • Pesquisa Estatística: É qualquer informação retirada de uma população ou amostra. Se a freqüência relativa entre amostra e população for menor do que 5% ela é considerada infinita. Z. Y. • Uma população pode. As variáveis podem ser classificadas dos seguintes modos: 1 . . 2 . torna-se possível neste caso utilizarmos as teorias inferências para que possamos fazer conclusões sobre a população. pois toda a população foi investigada. “igual a”. para representar determinado tipo de dados. ou números. terceiro e.Qualitativas (ou atributos): São características de uma população que não pode ser medidas. Estatísticas ou Estimadores: são medidas obtidas da amostra. assim. sucessivamente. . sendo classificadas em discretas e contínuas. a qual grupo ou categoria eles pertencem. os dados por postos consistem de valores relativos atribuídos para denotar a ordem de primeiro.4 Parâmetros x Estatísticas • • Parâmetros: são medidas populacionais quando se investiga a população em sua totalidade. Discretas: são aquelas variáveis que pode assumir somente valores inteiros num conjunto de valores. assim. neste caso é impossível fazer inferências. É gerada pelo processo de contagem. como o número de veículos que passa em um posto de gasolina. Nominal : são utilizados símbolos. havendo uma relação entre as categorias do tipo “maior do que”. É gerada pelo processo de medição. o número de estudantes nesta sala de aula. Contínuas: são aquelas variáveis que podem assumir um valor dentro de um intervalo de valores. Ordinal ou por postos: quando uma classificação for dividida em categorias ordenadas em graus convencionados. “menor do que”.Quantitativas: São características populacionais que podem ser quantificadas. mostrando.. 1. segundo. Neste caso serve como exemplo o volume de água em um reservatório ou o peso de um pacote de cereal. arredondarmos uma série de parcelas.1.5 4 a) Quando.3 8.2% = 100% arredondando para inteiro: 17% 17% + + 18% 18% + + 12% 12% + + 30% 31% + + 22% 22% = = 99% 100% 3 .4503 (para décimos) → 8.5 Arredondamento de Dados Regras: Portaria 36 de 06/07/1965 . na maior parcela do conjunto. Ex. devemos fazer um novo arredondamento (por falta ou por excesso).: 7.: 1.2502 (para décimos) → 8. 1 a) Se o primeiro algarismo após aquele que formos arredondar for de 0 a 4.4% + 12. acrescenta-se uma unidade no algarismo a ser arredondado e desprezamos os seguintes.4 • Se o 5 for seguido de outros algarismos dos quais.3 3 a) Se o primeiro algarismo após aquele que formos arredondar for 5.2 12.4% + 18.2500 (para décimos) → 6.34856 (para décimos) → 7. conservamos o algarismo se ele for par ou aumentamos uma unidade se ele for ímpar. Ex. seguido apenas de zeros. aumentamos uma unidade no algarismo e desprezamos os seguintes.: 17.: 6.INPM ⇒ Instituto Nacional de Pesos e Medidas. pelo menos um é diferente de zero.3 2 a) Se o primeiro algarismo após aquele que formos arredondar for de 6 a 9. conservamos o algarismo a ser arredondado e desprezamos os seguintes.350 (para décimos) → 12.: 8. Ex. Ex. de modo que a soma fique inalterada.2734 (para décimos) → 1. desprezando os seguintes. Ex.3% + 29. e a soma ficar alterada.7% + 22. É um trabalho de coordenação e de tabulação.formulação correta do problema.) b) Planejamento Determinar o procedimento necessário para resolver o problema: .Tipos de levantamentos: Por Censo (completo). Esta apresentação pode ser: Tabular (apresentação numérica) Gráfica (apresentação geométrica) f) Análise e interpretação dos dados É a fase mais importante e também a mais delicada. Tira conclusões que auxiliam o pesquisador a resolver seu problema. etc. eletrônica e eletromecânica. Os dados podem ser obtidos pela própria pessoa (primários) ou se baseia no registro de terceiros (secundários). c) Coleta ou levantamento dos dados Consiste na obtenção dos dados referentes ao trabalho que desejamos fazer.Como levantar informações. . hipóteses. Custos. etc.Cronograma. população.diretamente da fonte. . Indireta .feita através de outras fontes. Por Amostragem (parcial). A coleta pode ser: Direta . d) Apuração dos Dados ou sumarização Consiste em resumir os dados. através de uma contagem e agrupamento.examinar outros levantamentos realizados no mesmo campo (revisão da literatura).6 Fases do método estatístico O método estatístico abrange as seguintes fases: a) Definição do Problema Consiste na: . e) Apresentação dos dados É a fase em que vamos mostrar os resultados obtidos na coleta e na organização.1. .saber exatamente o que se pretende pesquisar definindo o problema corretamente (variáveis. mecânica. 4 . Apuração: manual. . 2 Repre se ntação tab ular Consiste em dispor os dados em linhas e colunas distribuídas de modo ordenado. A elaboração de tabelas obedece à Resolução no 886, de 26 de outubro de 1966, do Conselho Nacional de Estatística. As normas de apresentação são editadas pela Fundação Brasileira de Geografia e Estatística (IBGE). 2.1 Representação esquemática Título Cabeçalho Corpo Rodapé 2.2 Elementos de uma tabela • Título: O título deve responder as seguintes questões: - O que? (Assunto a ser representado (Fato)); - Onde? (O lugar onde ocorreu o fenômeno (local)); - Quando? (A época em que se verificou o fenômeno (tempo)). Cabeçalho: parte da tabela na qual é designada a natureza do conteúdo de cada coluna. Corpo: parte da tabela composta por linhas e colunas. Linhas: parte do corpo que contém uma seqüência horizontal de informações. Colunas: parte do corpo que contém uma seqüência vertical de informações. Coluna Indicadora: coluna que contém as discriminações correspondentes aos valores distribuídos pelas colunas numéricas. Casa ou célula: parte da tabela formada pelo cruzamento de uma linha com uma coluna. Rodapé: É o espaço aproveitado em seguida ao fecho da tabela, onde são colocadas as notas de natureza informativa (fonte, notas e chamadas). Fonte: refere-se à entidade que organizou ou forneceu os dados expostos. Notas e Chamadas: são esclarecimentos contidos na tabela (nota - conceituação geral; chamada - esclarecer minúcias em relação a uma célula). • • • • • • • • • 5 2.3 Séries Estatísticas Uma série estatística é um conjunto de dados ordenados segundo uma característica comum, as quais servirão posteriormente para se fazer análises e inferências. • Série Temporal ou Cronológica: É a série cujos dados estão dispostos em correspondência com o tempo, ou seja, varia o tempo e permanece constante o fato e o local. Produção de Petróleo Bruto no Brasil de 1976 a 1980 (x 1000 m³) Anos 1976 1977 1978 1979 1980 • Produção 9 702 9 332 9 304 9 608 10 562 Fonte: Conjuntura Econômica (fev. 1983) Série Geográfica ou Territorial: É a série cujos dados estão dispostos em correspondência com o local, ou seja, varia o local e permanece constante a época e o fato. População Urbana do Brasil em 1980 (x 1000) Região Norte Nordeste Sudeste Sul Centro-Oeste Total População 3 037 17 568 42 810 11 878 5 115 80 408 Fonte: Anuário Estatístico (1984) • Série Específica ou Qualitativa: É a série cujos dados estão dispostos em correspondência com a espécie ou qualidade, ou seja, varia o fato e permanece constante a época e o local. População Urbana e Rural do Brasil em 1980 (x 1000) Localização Urbana Rural Total População 80 408 38 566 118 974 Fonte: Anuário Estatístico (1984) 6 • Série Mista ou Composta: A combinação entre duas ou mais séries constituem novas séries denominadas compostas e apresentadas em tabelas de dupla entrada. O nome da série mista surge de acordo com a combinação de pelo menos dois elementos. Local + Época = Série Geográfica Temporal População Urbana do Brasil por Região de 1940 a 1980 (x 1000) REGIÕES NE SE S 3 381 7 232 1 591 4 745 10 721 2 313 7 517 17 461 4 361 11 753 28 965 7 303 17 567 42 810 11 878 Anos 1940 1950 1960 1970 1980 N 406 581 958 1 624 3 037 CO 271 424 1 007 2 437 5 115 Fonte: Anuário Estatístico (1984) 2.4 Distribuição de Freqüência É o tipo de série estatística na qual permanece constante o fato, o local e a época. Os dados são colocados em classes preestabelecidas, registrando a freqüência de ocorrência. Uma distribuição de freqüência pode ser classificada em discreta e intervalar. a) Distribuição de Freqüência Discreta ou Pontual: É uma série de dados agrupados na qual o número de observações está relacionado com um ponto real. Notas do Aluno "X" na Disciplina de Estatística segundo critérios de avaliação do DE da UFSM – 1990 Xi 6.3 8.4 5.3 9.5 6.5 Σ fi 2 3 2 3 5 15 Fonte: Departamento de Estatística (1990) 7 representado pelo símbolo: |---. que deverá estar ligado a natureza dos dados. • Além da Regra de Sturges. os intervalos parciais deverão ser apresentados de maneira a evitar dúvidas quanto à classe a que permanece determinado elemento.190 190 |--. Altura em centímetros de 160 alunos do Curso de Administração da UFSM .1990 Altura (cm) 150 |--. existem outras fórmulas empíricas para resolver o problema para determinação do número de classes [n(k)]. há quem prefira n ( k) ≅ n . evitar classes com freqüências nulas ou freqüências relativas exageradamente grandes. Entretanto. a verdade é que essas fórmulas não nos levam a uma decisão final. procurando. esta vai depender na realidade de um julgamento pessoal. O que se deseja fazer é apenas comprimir um conjunto de dados em uma tabela.158 158 |--. sempre que possível.198 Σ Xi 154 162 170 178 186 194 ---fi 18 25 20 52 30 15 160 Fonte: Departamento de Estatística (1990) Elementos de uma Distribuição de Freqüências: Ø Classe ou Classe de Freqüência (K): É cada subintervalo (linha) na qual dividimos o fenômeno.174 174 |--. 8 . O tipo de intervalo mais usado é do tipo fechado a esquerda e aberto a direita.b) Distribuição de Freqüências Intervalar: Na distribuição de freqüência. mas deve-se saber que existem outros métodos de determina ção do número de classes em uma tabela de freqüência.182 182 |--. Li = limite superior da i-ésima classe. n(K) = 1 + 3. li = limite inferior da i-ésima classe. onde “n” é no de informações.166 166 |--. Ø Limite de Classe (li ou Li): São os valores extremos de cada classe. para facilitar a visualização e interpretação dos mesmos. podemos usar a Fórmula de Sturges.3 log n . Para determinar o número de classes a partir dos dados não tabelados. ou a freqüência acumulada da classe anterior.. H = L n − l1 Ø Ponto médio de classe (X i): É a média aritmética simples do limite inferior com o limite superior de uma mesma classe. ter-se´-á uma distribuição de freqüência pontual. Xi = li + Li 2 ou a partir do X1 os demais pontos médios pode ser determinado por: Xn = Xn−1 + h • Quando substituirmos os intervalos de classes pelos pontos médios (Xi).. Frn = ∑ fri = 1 i =1 n 9 . h = l n − l n −1 ou h = L n − L n −1 • A amplitude do intervalo de classe deve ser constante em todo a distribuição de freqüências intervalar. ou a diferença entre último e o primeiro elemento de um conjunto de dados postos em ordem crescente.Ø Amplitude do intervalo de classe (h): É a diferença entre dois limites inferiores ou superiores consecutivos. Ø Amplitude total (H): É a diferença entre o limite superior da última classe e o limite inferior da 1ª classe. + f n i =1 n Ø Freqüência Acumulada (Fi): É o somatório da freqüência absoluta da i-ésima classe com a freqüência absoluta das classes anteriores. fri = fi ∑f i =1 n Obs. Ø Freqüência absoluta (fi): É a quantidade de valores em cada classe n = ∑ f i = f 1 + f 2 + . Fn = ∑f i =1 n i =n Ø Freqüência Relativa (fr i): É o quociente entre a freqüência absoluta da i-ésima classe com o somatório das freqüências.: ∑fr i=1 n i =1 i Ø Freqüência Relativa Acumulada (Fri): É o somatório da freqüência relativa da i-ésima classe com as freqüências relativas das classes anteriores. 1 Gráficos de Linhas Usado para ilustrar uma série temporal. Produção de Petróleo Bruto no Brasil de 1976 a 1980 (x 1000 m³) 11000 10500 10000 Produção 9500 9000 8500 1976 1977 1978 Anos 1979 1980 Fonte: Conjuntura Econômica (Fev. contém menos informações que as tabelas. 1983) 3.1. Normalmente.3 Represen ta çã o grá fica Os gráficos são uma forma de apresentação visual dos dados. O tipo de gráfico depende da variável em questão 3.1 Gráfico de linhas comparativas População Urbana do Brasil por Região de 1940 a 1980 (x 1000) 45000 40000 35000 30000 25000 20000 15000 10000 5000 0 1940 1950 1960 1970 1980 NE N SE S CO Fonte: Anuário Estatístico (1984) 10 . mas são de mais fácil leitura. desde que seja conveniente e desde que não se superponham.3. Características: .2. Este gráfico é utilizado para variáveis nominais e ordinais.1 Gráfico de colunas comparativas a) Colunas Justapostas (gráfico comparativo) População Urbana do Brasil por Região de 1940 a 1980 (x 1000) 45000 40000 35000 30000 25000 20000 15000 10000 5000 0 N NE SE S CO 1940 1950 1960 1970 1980 Fonte: Anuário Estatístico (1984) 11 .devem existir espaços entre as barras 3. se forem conservados.2. 30000 20000 10000 0 N NE SE Regiões S CO 3037 17568 11878 5115 42810 Fonte: Anuário Estatístico (1984) • As larguras das barras que deverão ser todas iguais podendo ser adotado qualquer dimensão.todas as barras devem ter a mesma largura .2 Gráficos de colunas ou barras Representação gráfica da distribuição de freqüências.2.1 Gráfico de Colunas Usado para ilustrar qualquer tipo de série. a escala vertical pode ser omitida. O número no topo de cada barra pode ou não omitido. 3. População Urbana do Brasil em 1980 (x 1000) 50000 40000 Pop. onde as freqüências de cada classe correspondem ao ângulo que se deseja representar em relação a freqüência total que representa o total de 360°.2 Gráfico de Barras As regras usadas para o gráfico de barras são igua is as usadas para o gráfico de colunas.2.3 Gráficos circulares ou de Setores (Pie Charts) Representação gráfica da freqüência relativa (percentagem) de cada categoria da variável. É uma opção ao gráfico de barras quando se pretende dar ênfase à comparação das percentagens de cada categoria.b) Colunas Sobrepostas (gráfico comparativo) População Urbana do Brasil por Região de 1940 a 1980 (x 1000) 100000 80000 60000 40000 20000 0 1940 1950 1960 1970 1980 CO S SE N NE Fonte: Anuário Estatístico (1984) 3. Este gráfico é utilizado para variáveis nominais e ordinais. População Urbana do Brasil em 1980 (x 1000) CO S Regiões SE NE N 0 3037 10000 20000 30000 40000 50000 População 17568 5115 11878 42810 Fonte: Anuário Estatístico (1984) • Assim como os gráficos de Colunas podem ser construídos gráficos de barras comparativas. 12 . 3. A construção do gráfico de setores segue uma regra de 3 simples. Pictograma Tem por objetivo despertar a atenção do público em geral.Características: .A área do gráfico equivale à totalidade de casos (360o = 100%). Evolução da matricula no Ensino Superior no Brasil de 1968 a 1994 (x 1000) 1500 1250 1000 750 500 250 0 1968 1974 1980 1986 1990 1994 Fonte: Grandes números da educação brasileira março de 1996 13 .4 Gráfico Pictorial . .Cada “fatia” representa a percentagem de cada categoria População Urbana e Rural do Brasil em 1980 (x 1000) 32% Urbana Rural 68% Fonte: Anuário Estatístico (1984) 3. muito desses gráficos apresentam grande dose de originalidade e de habilidade na arte de apresentação dos dados. 277.473.647 1987 2.8% 14 .581 1985 1.000 fumantes entrevistados no Canadá Goma de mascar com nicotina mais sessões de apoio psicológico Internamento em hospital e uso de drogas relaxantes Acumpuntura Hipnose Injeção de Clonidina.645 1979 Os métodos mais eficientes para deixar de fumar segundo 30.631.3.1 Exemplos de pictogramas Evolução da frota nacional de carros à álcool de 1979 à 1987 3.8% Eucalipto 24.4% Madeira nativa 68.4.5% 18.5% Devastação Selvagem: extração de madeiras no Brasil Pinus 6. droga que reduz os efeitos da abstinência 36% 30% 27% 19.107 1983 9. a um raio de comprimento proporcional a média dos valores da série).1 Novembro 83. toda a série que apresenta uma determinada periodicidade. iniciando pela semi-reta horizontal (eixo polar).1 Junho 418. Precipitação pluviométrica do município de Santa Maria – RS. 3) Divide-se a circunferência em tantos arcos forem as unidades temporais. 4) Traça -se semi-retas a partir do ponto 0 (pólo) passando pelos pontos de divisão.5 Gráfico Polar É o tipo de gráfico ideal para representar séries temporais cíclicas.1999 Fonte: Base Aérea de Santa Maria Média = 237.7 Maio 418. emprega-se uma linha interrompida. 6) Ligam-se os pontos encontrados com segmentos de reta. 2) Constrói-se uma semi-reta (de preferência horizontal) partindo do ponto 0 (pólo) e com uma escala (eixo polar).9 Março 83.8 Setembro 39.3 Dezembro 201.5.4 Julho 538.2 Fonte: Base Aérea de Santa Maria Precipitação pluviométrica do município de Santa Maria – RS.7 Agosto 323. 5) Marca-se os valores correspondentes da variável.7 Outubro 66. ou seja.1 Como construir um gráfico polar 1) Traça-se uma circunferência de raio arbitrário (preferencialmente.31 mm 15 .3.9 Abril 462. 7) Para fechar o polígono obtido.8 Fevereiro 36.1999 Meses Precipitação (mm) Janeiro 174. 4. 324 95.8 46. Dados relativos (densidade) – usa-se hachaduras.6 População da Região Sul do Brasil – 1990 Densidade populacional da Região Sul do Brasil – 1990 Fonte: IBGE Fonte: IBGE 16 .400 9.163. Este tipo de gráfico é empregado quando o objetivo é o de figurar os dados estatísticos diretamente relacionados com as áreas geográficas ou políticas Dados absolutos (população) – usa-se pontos proporcionais aos dados.3. Exemplo: População da Região Sul do Brasil .8 32.700 4.674 Densidade 45.137.200 Área (m 2) 199.318 280.6 Cartograma É a representação de uma carta geográfica.) 9.461.1990 Estado Paraná Santa Catarina Rio Grande do Sul Fonte: IBGE População (hab. 2 Polígono de Freqüências Altura em centímetros de 160 alunos do Curso de Administração da UFSM .1 Histograma Altura em centímetros de 160 alunos do Curso de Administração da UFSM .1990 Fonte: Departamento de Estatística (1990) 17 .7.3.7.7 Gráficos utilizados para a análise de uma distribuição de freqüência 3.1990 Fonte: Departamento de Estatística (1990) 3. onde os segmentos de reta são proporcionais às respectivas freqüências absolutas. Altura em centímetros de 160 alunos do Curso de Administração da UFSM .3.Cada barra representa a freqüência do intervalo respectivo. . 18 .5 Como se interpreta um histograma? A representação gráfica da distribuição da variável.7. Características: .1990 Fonte: Departamento de Estatística (1990) 3. por histogramas.6.Os intervalos devem ter a mesma amplitude.7.As barras devem estar todas juntas.4 Gráfico em segmentos de reta vertical É utilizado para representar uma distribuição de freqüência pontual. Este gráfico é utilizado para variáveis contínuas. .3 Ogivas Altura em centímetros de 160 alunos do Curso de Administração da UFSM – 1990 Ogiva Crescente Ogiva Decrescente 3. Esta ocorre quando o limite inferior é controlado ou quando não podem ocorrer valores abaixo de determinado limite. Figura 4. Nos processos industriais. esta é a forma desejável.1.1 Histograma 60 50 40 30 20 10 0 A figura 4. A média dos dados está localizada à direita do centro da figura e a cauda à esquerda é alongada. Esta forma ocorre quando o limite superior é controlado ou quando não podem ocorrer valores acima de certo limite 19 .3 apresenta um histograma com assimetria negativa. Veja a figura 4. A média dos dados está localizada à esquerda do centro da figura e a cauda à direita é alongada.2 apresenta um histograma com assimetria positiva. A medida dos dados está no centro do desenho.A simples observação da forma do histograma permite algumas conclusões. Figura 4.2 Histograma com assimetria positiva 60 50 40 30 20 10 0 Figura 4. As freqüências mais altas também estão no centro da figura.3 Histograma com assimetria negativa 60 50 40 30 20 10 0 A figura 4. Esta forma ocorre quando duas distribuições com médias bem diferentes se misturam. Os histogramas também mostram o grau de dispersão da variável.4 Histograma em plateau A figura 4. todas as outras têm freqüências quase iguais. por exemplo.4 mostra um histograma em plateau. As freqüências são baixas no centro da figura.Figura 4. Isto é. mas o histograma à direita mostra grande dispersão.5 Histograma com dois picos 60 50 40 30 20 10 0 A figura 4. os produtos de dois turnos de trabalho. ou duas modas.6 Histogramas com dispersões diferentes Freqüência 60 50 40 30 20 10 0 Freqüência 60 50 40 30 20 10 0 20 . Veja a figura 4. Essa forma ocorre quando se misturam várias distribuições com diferentes médias. Podem estar misturados. Figura 4.6. com exceção das primeiras e das últimas classes. O histograma à esquerda mostra pouca dispersão. 60 50 40 30 20 10 0 Figura 4.5 mostra um histograma com dois picos. mas existem dois picos fora do centro. que se faça um polimento. a curva de freqüência nos dá a imagem tendenciosa.7. mostrando. pode-se afirmar que ela assemelha-se mais a curva de freqüência que o polígono de freqüência obtido de uma amostra limitada. Pode-se dizer. em geral.25 (5 + 2 x 3 + 0)/4 = 2. geometricamente. = freqüência absoluta da classe posterior a i.00 (8 + 2 x 5 + 3)/4 = 5. os dados coletados pertencem a uma amostra extraída de uma população. corresponde à eliminação dos vértices da linha poligonal. a verdadeira natureza da distribuição da população. de modo que qualquer interessado possa julgar se esse ponto se o ponto é um dado original ou um dado polido. Altura em centímetros de 40 alunas do Curso de Enfermagem da UFSM . não nos dará certeza absoluta que a curva polida seja tal qual a curva resultante de um grande número de dados. de modo mais evidente. Consegue-se isso com a seguinte fórmula: f ant. Esse procedimento é claro. muitas vezes. Assim. de modo a mostrar o que seria tal polígono com um número maior de dados. fi = freqüência absoluta da classe i. o que nos permite concluir que o contorno do polígono de freqüências tende a se transformar numa curva (curva de freqüência). enquanto que o polígono de freqüência nos dá a imagem real do fenômeno estudado. é desejável. por meio de um pequeno circulo. pode-se imaginar as amostras tornando-se cada vez mais amplas e a amplitude das classes ficando cada vez menor. Porém. = freqüência absoluta da classe anterior a i. após o traçado de um polígono de freqüência. O polimento. então.75 --- 150 154 158 162 166 170 154 158 162 166 170 174 Fonte: Departamento de Estatística (1997) 21 . fpost. + 2f i + f post.1996 Altura (cm) |--|--|--|--|--|--Σ Xi 152 156 160 164 168 172 ---fi 4 9 11 8 5 3 40 fci (0+ 2 x 4 + 9)/4 = 4.25 (9 + 2 x 11 + 8)/4 = 9.25 (4 + 2 x 9 + 11)/4 = 8. fant.6 Curva de freqüência – curva polida Como. que. • Quando for em fazer o uso da curva polida convém mostrar as freqüências absolutas.3. fc i = 4 onde: fc i = freqüência calculada da classe considerada.75 (11 + 2 x 8 + 5)/4 = 8. 7.1996 Fonte: Departamento de Estatística (1997) 3.7 Curvas em forma de sino As curvas em forma de sino caracterizam-se pelo fato de apresentarem um valor máximo na região central. Distinguem-se as curvas em forma de sino em: simétrica e assimétrica a) Curva simétrica Esta curva caracteriza-se por apresentar o valor máximo no ponto central e os pontos eqüidistantes desse ponto terem a mesma freqüência.Altura em centímetros de 40 alunas do Curso de Enfermagem da UFSM . 31 . as curvas correspondentes a tais distribuições apresentam a cauda de um lado da ordenada máxima mais longa do que o outro.b) Curvas assimétricas Na prática. se a cauda se alonga a esquerda. não se encontram distribuições perfeitamente simétricas. Se a cauda mais longa fica a direita é chamada assimétrica positiva ou enviesada à direita. Assimétrica Positiva Assimétrica Negativa 32 . em relação à freqüência máxima. a curva é chamada assimétrica negativa ou enviesada à esquerda. Assim. As distribuições obtidas de medidas reais são mais ou menos assimétricas. Podemos classificar as medidas de posição conforme o esquema abaixo: 4.1 Medidas de Posição Representativas Médias Média Aritmética Média Geométrica Média Harmônica Separatrizes Mediana Quartis Decis Centis ou Percentis Moda de Czuber Moda de King Moda de Pearson Dominantes 4.4 Medidas Descritivas Tem por objetivo descrever um conjunto de dados de forma organizada e compacta que possibilita a visualização do conjunto estudado por meio de suas estatísticas. Populacional (µ) Dados Não Tabelados X= ∑ Xi i =1 n n ou µ = ∑X i =1 N i N 33 .1 Representativas (Médias) São medidas descritivas que tem por finalidade representar um conjunto de dados.1. a) Média Aritmética: Amostral ( X ). o que não significa que estes cálculos e conclusões possam ser levados para a população. 0 2917.Dados Tabelados com Valores Ponderados Média Aritmética Ponderada ( X w ).5 3390.Média Aritmética ( X ) Altura em centímetros de 160 alunos do Curso de Administração da UFSM .0 5565. 2 a) A soma algébrica dos desvios calculados entre os valores observados e a média aritmética é igual a zero.W i =1 i n i ∑W i=1 n i Fonte: Dados Hipotéticos Distribuição de freqüências .0 4037.8 8.UFSM Notas (Xi) 7.0 9230.55 27903 X= ∑ X . (onde Wi é o peso) Nota do aluno "X" 1° semestre de 1994 . Xmin.3 8. desvios = d = x i − µ ∑ d = ∑ ( x i − µ) = zero i =1 i =1 n n 34 .1990 Altura (cm) Xi fi Xi . fi 150 158 166 174 182 190 |--|--|--|--|--|--Σ 158 166 174 182 190 198 154 162 170 178 186 194 ---18 25 20 52 30 15 160 2763.f i i =1 n i ∑f i=1 n i Fonte: Departamento de Estatística (1990) - Características da Média Aritmética Simples 1a) A Média Aritmética Simples deverá estar entre o menor e o maior valor observado. ≤ X ≤ Xmax.2 5.8 Σ Pesos (Wi) 2 3 2 3 10 Xw = ∑ X . ..)ou dela se aproximam.G. logX2 +. a nova média aritmética será igual a média original multiplicada ou dividida por esta constante "k".Xn n f f f Usando um artifício matemático. xi yi = xi × k yi = x i ÷ k ⇓ ⇓ ⇓ X Y = X× k b) Média Geométrica: (Xg): Y = X ÷k A aplicação da média geométrica deve ser feita...3 a) Somando-se ou subtraindo-se todos os valores (Xi) da série por uma constante "k" (k ≠ 0). . log X1+f2 ..X 2 .. a nova média aritmética será igual a média original somada ou subtraída por esta constante "k". .+f n..logXi n 35 . logX n ) 1 n ∑fi i =1 = 10 i=1 ∑f i . quando os valores do conjunto de dados considerado se comportam segundo uma progressão geométrica (P.X n Xg ∑ = n i =1 fi ∏X i=1 n fi i = ∑ n i =1 fi X1 1 . Dados Não Tabelados Xg = n Dados Tabelados ∏X i =1 n i = n X 1. pode-se usar para calcular a média geométrica a seguinte fórmula: 1 ∑fi Xg = 10i=1 n ( f1.X2 2 . xi yi = x i ± k ⇓ ⇓ X Y =X±k 4 a) Multiplicando-se ou dividindo-se todos os valores (Xi) da série por uma constante "k" (k ≠ 0). . . Decis e Centis ou Percentis) São medidas de posição que divide o conjunto de dados em partes proporcionais. Preço de Custo Médio 4.Se o número de elementos for par ou ímpar. 2) Houver necessidade de um tratamento algébrico ulterior. as separatrizes seguem a seguinte ordem: Posição = i(n + 1) S  i =1 se for mediana  S = 2 1 ≤ i ≤ 3 se for quartis   S=4 36 . . Dados Não Tabelados X h = n ∑ n i =1 1 Xi n = n 1 1 1 + + . Ex. + n X1 X2 Xn • Deve-se observar esta propriedade entre as médias X ≥ X g ≥ Xh 4.3 Separatrizes (Mediana. + f n f1 f f + 2 + ..c) Média Harmônica (Xh) É usada para dados inversamente proporcionais. .1. a) Dados não tabelados Antes de determinarmos as separatrizes devemos em primeiro lugar encontrar a posição da mesma.. . + X1 X2 Xn Dados Tabelados Xh = ∑ ∑ i= 1 i =1 n fi fi Xi = f 1 + f 2 + .: Velocidade Média. quando os mesmos são ordenados..2 Emprego da média 1) Deseja-se obter a medida de posição que possui a maior estabilidade.1. Quartis. 1. 2) Há valores extremos que afetam de uma maneira acentuada a média.5 Dominantes . 37 . ⇒ freqüência acumulada da classe anterior a que contém a separatriz. ⇒ freqüência absoluta da classe que contém a separatriz. ⇒ posição da separatriz. 3) A variável em estudo é salário.h  S  +  f Si S i = l Si onde: Si = Md ⇒ i = 1. Si = Di ⇒ 1 ≤ i ≤ 9 . S i = Q i ⇒ 1 ≤ i ≤ 3. Si = C i ou Pi ⇒ 1 ≤ i ≤ 99 l Si i.1.4 Emprego da mediana 1) Quando se deseja obter um ponto que divide a distribuição em partes iguais.1 ≤ i ≤ 9 se for decis   S = 10 1 ≤ i ≤ 99 se for centis   S = 100 Dados Tabelados b) Distribuição de freqüências pontual: segue a mesma regra usada para dados não tabelados c) Distribuição de freqüências intervalar  i.n S ⇒ limite inferior da classe que contém a separatriz.Moda (Mo) É definida como sendo a observação de maior freqüência. 4.n  − Fant  . Fant h fSi 4. ⇒ amplitude do intervalo de classe. Moda de Czuber (Mo c ): O processo para determinar a moda usado por Czuber leva em consideração as freqüências anteriores e posteriores à classe modal.Moda Bruta (Mo b): é o ponto médio da classe de maior freqüência Mo b = X i b) Distribuição de freqüências intervalar . ⇒ freqüência absoluta da classe anterior a classe modal. ⇒ freqüência absoluta da classe modal. ⇒ freqüência absoluta da classe posterior a classe modal.  ∆1  Mo c = lMo +   ∆ + ∆ . A inconveniência deste processo é justamente não levar em consideração a freqüência máxima.: 3 5 1 5 5 4 6 1 5 5 4 7 2 6 6 4 8 2 6 6 5 9 3 7 7 5 6 6 7 8 9 ⇒ Mo = 4 (unimodal) / 10 11 12 13 ⇒ Mo = ∃ (amodal) 3 3 4 5 5 5 ⇒ Mo1 = 3 Mo 2 = 5 (bimodal) / 7 8 8 ⇒ Mo = ∃ (amodal) 7 8 ⇒ Mo1 = 5 Mo2 = 6 Mo3 = 7 (multimodal) • Acima de 3 modas usamos o termo multimodal.  f pos Mo k = l Mo +  f +f ant  pos  . ⇒ amplitude do intervalo de classe.Moda de King (Mo k ): O processo proposto por King considera a influência existente das classes anterior e posterior sobre a classe modal.h   38 .h ⇒   1 2  onde:  ∆ 1 = f Mo − f ant  ∆ 2 = f Mo − f pos l Mo fMo h ⇒ limite inferior da classe modal.a) Dados não tabelados Ex. fant fpos . Dados Tabelados a) Distribuição de freqüências pontual . a assimetria torna -as diferentes e essa diferença é tanto maior quanto maior é a assimetria. 2) Quando a medida de posição deve ser o valor mais típico da distribuição. 4.7 Posição relativa da média.Moda de Pearson (Mo p): O processo usado por Pearson pressupõe que a distribuição seja aproximadamente simétrica. em uma distribuição temos: x = Md = Mo → curva simétrica x < Md < Mo → curva assimétrica negativa Mo < Md < x → curva assimétrica positiva x = Md = Mo M od a M e d ian a M é di a Mo Md x x Md Mo 39 . na qual a média aritmética e a mediana são levadas em consideração.6 Emprego da moda 1) Quando se deseja obter uma medida rápida e aproximada de posição. Porém.2 X • Um distribuição é considerada simétrica quando X ≡ Md ≡ Mo .. Assim. as três medidas coincidem. 4. Mop = 3 Md .1.1. mediana e moda Quando uma distribuição é simétrica. Desvio Padrão .4.Variância 40 7 6 8 8 10 11 12 13 13 14 15 17 17 18 18 19 21 22 25 3) . de 1994 – UFSM Alturas fi Fi 61 |--65 12 12 65 |--69 23 35 69 |--73 34 69 73 |--77 26 95 77 |--81 15 110 110 110 Σ Fonte: Dados Hipotéticos 4.amplitude . de 1994 . D 3.Desvio extremo .UFSM Alturas fi 63 15 75 25 84 30 91 20 90 Σ Fonte: Dados Hipotéticos Alturas dos alunos da Turma “Y” no 1 o sem. C70 1) 3 4 2) Alturas dos alunos da Turma “X” no 1o sem. As medidas de dispersão podem ser: Absoluta . Q1.1.Desvio Médio . Informa se um conjunto de dados é homogêneo (pouca variabilidade) ou heterogêneo (muita variabilidade).8 Exercícios Para os dados abaixo calcule: Md.Desvio quadrático . Q3 .2 Medidas de Variabilidade ou Dispersão Visam descrever os dados no sentido de informar o grau de dispersão ou afastamento dos valores observados em torno de um valor central representativo chamado média. . + X n − X n n Para dados tabelados 41 .Análise Gráfica 1 55 30 2 45 70 3 52 40 4 48 60 .Desvio Extremo ou Amplitude de Variação (H): É a diferença entre o maior e o menor valor de um conjunto de dados H = Xmax− Xmin . e no final da concorrência sobraram dois candidatos para uma única vaga. assim ficando: i =1 i n Para dados não tabelados d= ∑X i =1 n i −X = X 1 − X + X2 − X +. Então foi dado 4 tarefas para cada um.Para estudarmos as medidas de variabilidade para dados não tabelados usaremos um exemplo prático. Supomos que uma empresa esteja querendo contratar um funcionário.Medidas de dispersão Absoluta: . onde as mesmas tiveram como registro o tempo (em minutos) de execução. usamos para calcular o desvio n i =1 médio ∑ X − X = 0 . TAREFAS OPERÁRIO 1 (TEMPO) OPERÁRIO 2 (TEMPO ..Desvio Médio (d ): Em virtude do ∑ (X i − X ) = 0 . . + f n X n − X ∑f i=1 n i ..... + f n (X n − X ) 2 2 2 ∑f i =1 n i S2 = ∑ f (X i =1 − X) −1 2 ∑f i =1 n = f1 (X 1 − X ) + f 2 ( X 2 − X ) + . + ( X n − X ) n 2 2 2 S2 = ∑ (X n i =1 i − X) 2 n −1 = 1 − X ) + (X 2 − X ) + ....Desvio Quadrático ou Variância : S 2 (amostra) ou σ 2 (população) Para dados não tabelados: σ2= ∑ (X n i =1 i − X) 2 n = (X (X 1 − X ) + ( X 2 − X ) + .d = ∑ (f n i =1 i n Xi − X i ) ∑f i =1 = f1 X 1 − X + f 2 X 2 − X + . + (X n − X ) n −1 2 2 2 Para dados tabelados σ2 = ∑ f (X n i =1 i n i =1 i −X) i 2 ∑f n i i = f1 ( X 1 − X ) + f 2 (X 2 − X ) + . + f n ( X n − X ) 2 2 2 i ∑f i=1 n i −1 42 ... + f n ( X n − X ) 2 2 2 ∑f i =1 n i S= ∑ f (X n i =1 i i −X) −1 2 ∑f i =1 n = f1 ( X 1 − X ) + f 2 ( X 2 − X ) + ..1) é usado como um fator de correção.. 2ª) Multiplicando-se ou dividindo-se por uma constante k cada valor observado a variância ficará multiplicada ou dividida pelo quadrado dessa constante. onde devemos considerar a variância amostral como uma estimativa da variância populacional. Este método de calcular o desvio padrão fornece boas estimativas para amostras de pequeno tamanho (n=4. é encontrado na tabela a seguir. Então. + (X n − X ) n 2 2 2 S= ∑ (X n i =1 i −X) 2 n −1 = 1 − X ) + ( X 2 − X ) + . Outra forma de calcular o desvio padrão O desvio padrão mede bem a dispersão de um conjunto de dados.. mas é difícil de calcular.. + ( X n − X ) n −1 2 2 2 Para dados tabelados σ= ∑ f (X n i i =1 n i =1 i −X) i 2 ∑f = f 1 (X 1 − X ) + f 2 (X 2 − X ) + . De qualquer 43 ... mas perde a eficiência se n>10. + f n ( X n − X ) 2 2 2 i ∑f i =1 n i −1 • (n . 5 ou 6). você pode obter o desvio padrão através da seguinte relação: ˆ σ= R d2 onde R é a amplitude e o valor de d2 . ..Desvio Padrão: S (amostra) ou σ (população) Para dados não tabelados: σ = ∑ (X n i =1 i − X) 2 n = (X (X 1 − X ) + (X 2 − X ) + ..Propriedades da Variância 1ª) Somando-se ou subtraindo-se uma constante k a cada valor observado a variância não será alterada.. que depende do tamanho da amostra. 407 ----- 4.532 3.532 3. é essa relação entre a amplitude e o desvio padrão de uma amostra que permite fazer gráficos de controle X − R .640 3.970 3.078 n 15 16 17 18 19 20 21 22 234 d2 0.= σ2 S2 ou 2 µ2 X .778 3. D.704 2.Variância relativa .C.347 3.4 Momentos.173 3. 44 . R .847 2.3 Medidas de Dispersão Relativa Relativa .391 3.128 1. Wyley.693 2. TABELA 1: .Coeficiente de Variação (Pearson) É a medida de variabilidade que em geral é expressa em porcentagem. Estas distribuições não diferem apenas quanto ao valor médio e à variabilidade. = σ S ou x 100 µ X • C. e tem por função determinar o grau de concentração dos dados em torno da média.V. Statical Quality Control.V. .Variância Relativa V. Nova York.819 3. 1991.336 ----14 3.Coeficiente de Variação de Pearson C. geralmente utilizada para se fazer a comparação entre dois conjuntos de dados em termos percentuais.V. mas também quanto a sua forma (assimetria e curtose).858 Fonte: Montgomery. assimetria e curtose As medidas de assimetria e curtose complementam as medidas de posição e de dispersão no sentido de proporcionar uma descrição e compreensão mais completa das distribuições de freqüências. ≅ 0 ⇒ é a maior representatividade da média (S = 0) 4.689 3.735 3. 11 12 3.534 2.391 13 3. esta comparação revelará o quanto os dados estão próximos ou distantes da média do conjunto de dados. ≤ 50% ⇒ a média é representativa C.Fatores para construir um gráfico de controle n 2 3 4 5 6 7 8 9 10 d2 1.326 2.258 24 25 3.forma.059 2. Momentos simples ou centrados na origem (mr) O momento simples de ordem “r” é definido como: mr ∑X = n r i . conhecidas como momentos. é necessário o conhecimento de certas quantidades. como as de tendência central.Momentos centrados na média (Mr) O momento de ordem “r” centrado na média. m0 = 1. . dispersão. m1 = média aritmética.4. mr onde: ∑X f = ∑f r i i . para dados não-tabelados r i Mr ∑ (X − X) = ∑f i fi = ∑d n fi . M2 = variância (s2). . para dados tabelados. M1 = 0. 45 . é definido como: Mr ∑ (X = i − X) r n r i = ∑d n r i . para dados tabelados onde: M0 = 1. Conforme a potência considerada tem-se a ordem ou o grau do momento calculado. 4. r é um número inteiro positivo. assimetria e curtose.Para estudar as medidas de assimetria e curtose.1 Momentos São medidas descritivas de caráter mais geral e dão origem às demais medidas descritivas. i para dados não tabelados. X − Mo As = S . 4. pode apresentar várias formas. .4. vemos que esse ponto sempre corresponde ao valor de ordenada máxima. calculando os coeficientes de assimetria. conforme a distribuição. .Distribuição Assimétrica Assimétrica Positiva Assimétrica Negativa Mo < Md < X X < Md < Mo Podemos medir a assimetria de uma distribuição. Se considerarmos o valor da moda da distribuição como ponto de referência.. Sendo o mais utilizado o Coeficiente de Assimetria de Pearson. .2 Assimetria Mr sr Uma distribuição de valores sempre poderá ser representada por uma curva (gráfico).Se As < 0 ⇒ a distribuição será Assimétrica Negativa . 46 . logo a curva será analisada quanto à sua assimetria. dando-nos o ponto mais alto da curva representativa da distribuição considerada.Se As = 0 ⇒ a distribuição será Simétrica.Momentos abstratos (αr) São definidos da seguinte forma: αr = onde: s = desvio padrão.Distribuição Simétrica: É aquela que apresenta a X ≡ Mo ≡ Md e os quartis Q1 e Q3 eqüidistantes do Q2 . Essa curva. X ≡ Mo ≡ Md .Se As > 0 ⇒ a distribuição será Assimétrica Positiva. de altura média. . assimetria fraca. assimetria forte. α3 = M3 s3 O campo de variação do coeficiente de assimetria é: -1 ≤ α 3 ≤ +1 .0 4. .2 < |α 3| < 1.Curva Platicúrtica: É uma curva mais baixa do que a normal.Coeficiente momento de assimetria ( α 3): É o terceiro momento abstrato.2 0. ⇒ ⇒ ⇒ simetria. significando que os valores se acham mais agrupados em torno da moda.Intensidade da assimetria: |α3 | < 0.0 |α3| > 1. de dispersão e de assimetria. Apresenta o topo relativamente alto. Apresenta o topo achatado. significando que várias classes apresentam freqüências quase iguais. 47 . para se positivarem as característ icas de uma distribuição de valores: são as chamadas Medidas de Curtose ou de Achatamento.Curva Leptocúrtica: É uma curva mais alta do que a normal.3 Curtose Já apreciamos as medidas de tendência central.4. Falta somente examinarmos mais uma das medidas de uso comum em Estatística. . que nos mostra até que ponto a curva representativa de uma distribuição é a mais aguda ou a mais achatada do que uma curva normal.Quando não tivermos condições de calcularmos o desvio padrão podemos usar a seguinte fórmula: As = Q 3 + Q 1 − 2 Md Q 3 − Q1 .Curva Mesocúrtica (Normal): É considerada a curva padrão. .2 5. aplicado a 50 alunos da Universidade Luterana.Se K = 0.3 4.5 6.1 6.3 7.5 9.Se α 4 < 3 ⇒ curva Platicúrtica.0 7. assimetria (coeficiente de assimetria.7 6.7 5.0 5. 1) De um exame final de Estatística.5 4.5 7.1 7.9 9. M α 4 = 44 s onde: M4 = momento centrado de quarta ordem. .6 9.9 8.2 6.263 ⇒ a distribuição será Platicúrtica.263 ⇒ a distribuição será Mesocúrtica. Interpretação: . .263 ⇒ a distribuição será Leptocúrtica. .9 9.7 8.4 5.2 9.5 4.4 7. e coeficiente de curtose).3 5.5 9. Faça um relatório referente ao comportamento dos dados em função dos resultados obtidos.3 6.0 9.5 6.3 6.0 48 ..8 9.5 5.Se K < 0.Se α 4 = 3 ⇒ curva Mesocúrtica.1 9.0 6.8 7.3 10.8 8.6 6. coeficiente de variação de Pearson).4 4. 4.0 9.Se K > 0. Coeficiente momento de curtose ( α 4 ): Corresponde ao momento abstrato de quarta ordem.Coeficiente de Curtose K= Q 3 − Q1 2( P90 − P10 ) .6 4.4 4.5 Exercícios Para os exercícios abaixo construa uma tabela de dispersão o suficiente para determinar as medidas de posição (média aritmética.2 8.3 9.Se α 4 > 3 ⇒ curva Leptocúrtica.Ano 1999 resultaram as seguintes notas: 4.8 5.7 9.9 5.6 9.6 8. dispersão (desvio padrão e variância.0 8. mediana e moda de czuber). 00 98.00 100.30 75.00 58. 50.50 68.00 107.25 78.00 108.20 102.00 77.00 91.2) Os dados a seguir refere-se a altura em centímetros de 70 alunos da PUCC.00 85.50 93.” em 1997.00 88.00 56.30 63.10 99.00 92.10 52.10 65.30 67.50 64.20 62.50 60.00 72.35 100.00 64.40 55.50 95.00 54.50 62.00 105.50 89.00 103.00 57.50 80. turma 6.25 104.50 59.90 69.50 94.30 56.00 81.00 66. 153 162 168 172 179 188 193 154 162 168 173 179 188 194 155 163 169 173 180 189 194 156 163 169 174 182 189 195 158 164 170 174 183 190 197 160 164 170 175 184 191 197 160 165 170 175 185 192 199 161 166 171 176 186 192 200 161 167 171 177 186 192 201 161 167 172 178 187 192 205 3) Os dados a seguir referem-se aos salários anuais pagos em dólares a 60 funcionários da Empresa “PETA S.00 87. ano 2000.00 54.80 109.00 58.20 53.50 70.00 90.10 101.50 83.00 68.50 66.00 61.30 97.A.00 96.00 76.70 82.10 49 . os resultados surgem ao acaso. 5. um modelo determinístico emprega "Considerações Físicas" para prever resultados. Em outras palavras.2 Modelos Não Determinísticos ou Probabilísticos São aqueles que informam com que chance ou probabilidade os acontecimentos podem ocorrer.1 Modelos Matemáticos Podem-se destinguir dois tipos de modelos matemáticos: 6. espaço amostral e eventos. capaz de produzir observações.1 Experimento aleatório (Ω ) Qualquer processo aleatório. Determina o "grau de credibilidade" dos acontecimentos. Em outras palavras.5 P roba bilid ad e e Va riá veis Aleatória s 5. O modelo determinístico requer o uso de parâmetros pré-determinados em equações que definem processos precisos.1.os resultados podem repetir-se n vezes ( n → ∞ ) . 5.2. um modelo probabilístico emprega uma mesma espécie de considerações para especificar uma distribuição de probabilidade.1 Modelos Determinísticos Refere -se a um modelo que estipule que as condições sob as quais um experimento seja executado determinem o resultado do experimento. (Modelos Estocásticos). podendo admitir repetições no futuro. 6. Um experimento aleatório apresenta as seguintes características: a .2 Conceitos em Probabilidade Os conceitos fundamentais em probabilidade são experimentos aleatórios. 50 .1. Quanto ao número de elementos pode ser: 5. Ex. é o evento que ocorrerá se.: N b .: R 5. 51 .2.2 Infinito Número ilimitado de elementos.2.1 A união B Símbolo utilizado "U ".2. c . 5. como mostra a seguir.2.4.a medida que se aumenta o número de repetições.embora não se possa prever que resultados ocorrerão.Não Enumerável Quando os possíveis resultados não puderem ser postos em concordância biunívoca com o conjunto dos números naturais (caso das variáveis aleatórias contínuas).4 Operações com Eventos 5. pode-se descrever o conjunto de resultados possíveis. 6} 5. Ex. 5.2 Espaço Amostral (S) É o conjunto de resultados possíveis. Pode-se ter operações entre eventos da mesma forma que com conjuntos. de um experimento aleatório.: S = {1.b . aparece uma certa regularidade nos resultados. 3. e somente se.Enumerável Quando os possíveis resultados puderem ser postos em concordância biunívoca com o conjunto dos números naturais (N) (caso das variáveis aleatórias discretas). 2.2. 4. A ou B ou ambos ocorrerem.1 Finito Número limitado de elementos. pode ser sub-dividido em: a .2.2.3 Evento (E) Um evento (E) é qualquer subconjunto de um espaço amostral (S). Ex. 5.2. e somente se A não ocorrer.1 .4.4.2.Evento A interseção B 5. A e B ocorrem simultaneamente.3 Complementar de A Simbologia " A ".2. _ S A FIGURA 6.S A B FIGURA 6.2 .2 A interseção B Símbolo utilizado "I ". é o evento que ocorrerá se.Evento A união B 5. é o evento que ocorrerá se. S A A B FIGURA 6.3 . e somente se.Evento complementar de A (A ) _ 52 U B . quando a ocorrência de um implica ou não ocorrência de outro. FIGURA 6.3 Eventos Independentes São aqueles cuja ocorrência de um evento. não pode ocorrer juntos.2.1 Eventos Mutuamente Excludentes São ditos eventos mutuamente excludentes.5 . isto é.5 Tipos de eventos 5.5. A I B é o conjunto vazio (∅).2.2 Eventos Não Excludentes ou Quaisquer São ditos eventos não excludentes quando a ocorrência de um implica na ocorrência do outro. 53 . isto é.5. e conseqüentemente.2.5. não possui efeito algum na probabilidade de ocorrência do outro.5. A I B ≠ ∅ . são aqueles que ocorrem ao mesmo tempo.Evento não excludentes 5.Eventos mutuamente excludentes 5.4 . FIGURA 6.2. Assim.5.5. P(B) P (A ) = 2 4 P( B) = 2 4 P(A I B ) = 1 4 5. B Assim. 4 } A = {1. 2 } B = { 2. 4 } A I B = { 2} P(A I B ) = P( A ) .2. tem-se que P A B não é definida. 2. ou sob a forma simbólica P A . se A e B forem Mutuamente Excludentes. deseja-se definir uma quantidade denominada probabilidade condicional do evento (A) dado que o evento (B) ocorre. dá-se a seguinte definição: ( ) PA ( B) = P(A I B) P(B) ( ) onde P(B) > 0.A I B ≠ ∅ . P (A I B) = P( A ) .2. se A e B forem Quaisquer. Se P(B) = 0. 5. logo.5 Eventos Coletivamente Exaustivos São aqueles que ocorrem se nenhum outro ocorrer. 3.4 Eventos Dependentes ou Condicionados Existem varias situações onde a ocorrência de um evento pode influenciar fortemente na ocorrência de outro. A I B = ∅.: A e B eventos Quaisquer S = { 1. P(B) Ex. 54 . se (A) e (B) são eventos. no entanto. de forma tal que a probabilidade é definida como sendo: P(E) = lim n→∞ fr (E) . b . quando o experimento for realizado.2 Definição Clássica ou Enfoque "A priori" de Probabilidade Se existe "a" resultados possíveis favoráveis a ocorrência de um evento "E" e "b" resultados possíveis não favoráveis.A sorte ou habilidade do experimentador poderá influir nos resultados. f r ( E) = número de ocorrências do evento (E) . número de repetições do experimento ( Ω) Surgem. Uma possível maneira de tratar a questão seria determinar a freqüência relativa do evento E (fr(E)). então: 55 . o qual avaliará quão possível será a ocorrência de "E".3 Conceitos de Probabilidade 5.3.Evento coletivamente exaustivos 5.1 Conceito Empírico de Probabilidade O problema fundamental da probabilidade consiste em atribuir um número a cada evento (E). 5. onde "n" é o número de repetições do experimento Ω.Qual deve ser o número de repetições do experimento (Ω).6 .3. sendo os mesmos mutuamente excludentes.AI BICID = ∅ FIGURA 6. dois problemas: a . . como A I ∅ = ∅.. de acordo com o item (3. +P(An) ou P( U A i ) = i=1 n ∑ P(A ) .. . A 2. então P(∅) = 0.4 Teoremas Fundamentais Teorema 1 . a+b onde os resultados devem ser verossímeis (possível e verdadeiro) e permite a observação dos valores da probabilidade antes de ser observado qualquer amostra do evento (E).Se A1. Prova: Seja um evento A = ∅.2. Assim. muitas vezes. A = A U ∅. b . A e ∅ são mutuamente excludentes. i i=1 n As propriedades anteriores são conhecidas como axiomas da teoria da probabilidade. c . d . Os axiomas. U An ) = P(A1) + P(A2) + .P(S) = 1.Se A e B são eventos mutuamente excludentes... se inspiram em resultados experimentais e que... 5. A cada evento (E) associa-se um número real representado por P(E) e denominaremos de probabilidade de E.P(E) = a .3. então: P(A) = P(A U ∅) P(A) = P(A) + P(∅) 56 . definem a probabilidade de forma que possa ser confirmada experimentalmente. então: P(A U B) = P(A) + P(B).0 ≤ P(E) ≤ 1.4).3. então: P(A1 U A 2 U .Se ∅ for evento vazio.3. An são eventos mutuamente excludentes dois a dois. assim. seja (S) um espaço amostral associado a (Ω).3 Definição Axiomática Seja (Ω) um experimento. satisfazendo as seguintes propriedades: a . 5. Teorema 2 .Se o evento A for o evento complementar de A. então P(A )=1-P(A).P(A).P(A I B) Prova: Para provar o Teorema 3 devemos transformar A U B em eventos mutuamente excludentes. Teorema 3 . mas A e A são mutuamente excludentes. _ _ _ _ _ _ _ _ _ FIGURA 6 . então: P(A U A ) = P(S) P(A U A ) = P(A) + P( A ) P(A) + P( A ) = 1 logo.P(∅) = P(A) .Se A e B são eventos quaisquer. conforme a FIGURA 6.P(A) P(∅) = 0. então: P(A U B) = P(A) + P(B) .Decomposição de eventos quaisquer em mutuamente excludentes Tem-se então que: (A U B) = A U (B I A ) 57 _ . P(A ) = 1 . Prova: A U A = S. P(A I B). A n eventos quaisquer: _ _ _ _ _ ( -) _ ( --) 58 .P(AI C) . Decorrências do Teorema 3: Sejam A.[P(AI C) + P(BI C) .) na equação (--) tem-se: P(A U B) = P(A) + P(B) . A2 .P[(AI C) U (BI C)] P(A U B U C) = P(A) + P(B) + P(C) ...e B = (A I B) U (B I A ) logo pela propriedade (c) temos: P(A U B) = P[A U (B I A )] P(A U B) = P(A) + P(B I A ) e P(B) = P[(A I B) U (B I A )] P(B) = P(A I B) + P(B I A ) ou P(B I A ) = P(B) .P(AI B) ..P[(A U B) I C] P(A U B U C) = P(A) + P(B) + P(C) .P(A I B) .P(A I B) substituindo-se a equação (. B e C eventos quaisquer: P(A U B U C) = P[(A U B) U C] P(A U B U C) = P(A U B) + P(C) .P(BI C) + P(AI B I C) Sejam A1 .P(AI B I C)] P(A U B U C) = P(A) + P(B) + P(C) . .P(AI B) . .. U A n ) = ∑ P(A i ) − i =1 n i < j =2 ∑ P(A i I A j ) + i j n i < j< k = 3 ∑ P(A I A i n j IAk ) + − i < j <k <l = 4 ∑ P(A I A n I A k I A l ) + ..P(A I B)  A IB ≠ ∅   Independentes ⇒ P(A I B) = P(A) x P(B) I  AIB ≠∅   x (E) Dependente s ⇒ P(A I B) = P(A) x P(B/A)   59 . RESUMO Mutuamente Excludente s ⇒ P(A U B) = P(A) + P(B) U  AIB =∅   + (OU)  Quaisquer ⇒ P(A U B) = P(A) + P(B) .. I A n )...P(A 1 U A 2 U. + ( −1) n −1 P(A1 I A 2 I. 5. metade dos homens e metade das mulheres possuem olhos castanhos. (1/6) c) todos errarem.50. Qual a probabilidade de ao retirarmos 2 moedas obter a soma 1. 7) Uma urna contém 5 fichas vermelhas e 4 brancas. a) qual a probabilidade da segunda também ser branca ? (3/8) b) qual a probabilidade da 2ª ser vermelha ? (5/8) 8) Numa cidade 40 % da população possui cabelos castanhos. (28/75) b) apenas um acertar.16) c) ao menos a mulher estar viva ? (0.6 .4 e de sua mulher é de 0. (2/3) 5) A probabilidade de um homem estar vivo daqui a 20 anos é de 0.00 e 10 moedas de 0.2 a chance da mulher estar viva e compara os resultados. 7/10 cobrando uma única vez. 25% olhos castanhos e 15% olhos e cabelos castanhos. (10/21) 3) Uma urna contém 5 bolas pretas. Extraem-se sucessivamente duas ficha. Três bolas são retiradas. Qual a probabilidade de que: a) ambos estejam vivos no período ? (0. Uma pessoa é selecionada aleatoriamente. Qual a probabilidade de retirar 2 pretas e 1 vermelha ? a) sem reposição (1/4) b) com reposição (9/40) 4 ) Numa classe há 10 homens e 20 mulheres. 4/5.36) 6) Faça o exercício anterior considerando 0.24) b) somente o homem estar vivo ? (0. Ache a probabilidade de uma pessoa escolhida ao acaso ser homem ou ter olhos castanhos. qual a probabilidade de ter olhos castanhos ? (3/5) (3/8) 60 . qual a probabilidade de também ter cabelos castanhos? b) se ela tiver cabelos castanhos. sem reposição e constatou-se que a 1ª é branca.50.6) d) somente a mulher estar viva? (0.5 a chance do homem estar vivo e 0. a) se ela tiver olhos castanhos. (1/50) 2) Numa bolsa com 5 moedas de 1. a) todos acertarem. 3 vermelhas e 2 brancas.4 Exercícios 1) A probabilidade de 3 jogadores marcarem um penalti é respectivamente: 2/3. ao acaso. uma pessoa do grupo. Sabendo-se que ele joga basquete. qual a probabilidade de que também jogue vôlei ? 12) A probabilidade de um aluno resolver um determinado problema é de 1/5 e a probabilidade de outro é de 5/6. Médico 21 12 Engenheiro 13 08 Veterinário 15 17 Escolhendo-se.9) Um conjunto de 80 pessoas tem as características abaixo: MASCULINO FEMININO TOTAL BRASILEIRO 18 20 38 ARGENTINO 12 05 17 URUGUAIO 10 15 25 TOTAL 40 40 80 Se retirarmos uma pessoa ao acaso. (15/80) e) ser mulher se for argentino. (18/80) d) uruguaio do sexo feminino. (63/80) b) do sexo masculino ou tenha nascido na argentina. qual a probabilidade de que seja: a) Uma mulher que fez o curso de medicina ? b) Uma pessoa que fez o curso de medicina ? c) Um engenheiro dado que seja homem ? d) Não ser médico dado que não seja homem ? 11) Num ginásio de esportes. Um dos frequentadores é sorteado para ganhar uma medalha. 36% jogam basquete e 12% praticam os dois esportes. qual a probabilidade de que ela seja: a) brasileira ou uruguaia. Sabendo que os alunos tentam solucionar o problema independentemente. (5/17) 10) Um grupo de pessoas está assim formado: Masc. (9/16) c) brasileiro do sexo masculino. Qual a probabilidade do problema ser resolvido : a) somente pelo primeiro ? b) ao menos por um dos alunos ? c) por nenhum ? 61 . 26% dos frequentadores jogam vôlei. Femin. A4 . Ak formam uma partição de S... k UA i =1 k i = S.5 Teorema de Bayes Definição: Seja S um espaço amostral e A1.Diagrama representativo do Teorema de Bayes Seja B um evento qualquer de S.. A k .U (B I A k )   P(B) = ∑ P(A j ).. 2.5.P B  . FIGURA 6.... A 2 . i ≠ j A1. j = 1... i = 1. Diz-se que A 1 .. k eventos. A 2 .. A3 . Ak . onde: B = (B I A 1 ) U (B I A 2 ) U. A2 .  A   i como ( --) 62 .7 . . formam uma partição de S se: A i ≠ ∅. k Aj   j =1 k ( -) P(B I A i ) = P(A i )..P B  .. .... . Ai I A j = ∅ . 2.. . A5 . . De uma caixa escolhida aleatoriamente.. Qual a probabilidade dela ter saído da urna: U1 ? U2 ? U3 ? 2) Temos 2 caixas: na primeira há 3 bolas brancas e 7 pretas e na segunda.) temos: P(A i ). seja um número. verificando-se que ela é branca.P(B I A i ) P A i  = . em muitas situações experimentais. 1 branca e 5 pretas. .. Contudo. estaremos interessado na mensuração de alguma coisa e no seu registro como um número. é denominada variável aleatória.6 Variáveis aleatórias Ao descrever um espaço amostral (S) associado a um experimento (Ω) especifica-se que um resultado individual necessariamente.  B   P(B) ( ---) substituindo as equações (.. k . Uma função de X. j = 1.P A j    j =1 Exemplo: Urna Cores Azul Branca Preta U1 3 1 5 U2 4 3 2 U3 3 3 3 Escolhe-se uma urna ao acaso e dela extrai-se uma bola ao acaso. Qual a probabilidade de que tenha saído da primeira caixa ? segunda caixa ? 5. 63 . selecionou-se uma bola e verificou-se que é preta. que associe a cada elemento s ∈ S um número real x(s).  B   B  ∑ P(A j ).) e (--) na equação (--.P B   A  A  i P i  = k . 2. Definição: Seja (Ω) um experimento aleatório e seja (S) um espaço amostral associado ao experimento. ). representada por P(X = x) ou P(x). . i = 1. 5. teremos uma variável aleatória contínua (V.D.D.D.) se o número de valores de x(s) for finito ou infinito numerável.A.7. conforme mostra a FIGURA 9..1 ..7 Função de Probabilidade A probabilidade de que uma variável aleatória "X" assuma o valor "x" é uma função de probabilidade.A. P(xi)).. .Representação de uma variável aleatória Uma variável X será discreta (V. Caso encontrarmos x(s) em forma de intervalo ou um conjunto de intervalos.FIGURA 1 . ou seja.A. 64 . n.. A função de probabilidade para uma variável aleatória discreta é chamada de função de probabilidade no ponto. FIGURA 6...A. 2.Distribuição de probabilidade de uma V. 5.C. é o conjunto de pares (xi.1 Função de Probabilidade de uma V. D. . no ponto xi .. para P(X = xo ) ≠ 0 9 a) A função não é decrescente.7. isto é.. Seja X uma variável aleatória discreta.6. Então.3 Esperança Matemática de V..A. xn. .. ..D. F(b) ≥ F(a) para b > a.A. i = 1.A. Define-se Função de Repartição da Variável aleatória X.D... como sendo a probabilidade de que X assuma um valor menor ou igual a xi... . x2. com valores possíveis x1. isto é: F(X) = P( X ≤ x i ) Propriedades: F(X) = 1 a) xi ≤ x ∑ P( x ) i 2 a) F(−∞) = 0 3 a) F(+∞ ) = 1 4 a) P(a < x ≤ b) = F(b) − F(a) 5 a) P(a ≤ x ≤ b) = F(b) − F(a) + P(X = a ) 6 a) P( a < x < b) = F(b) − F(a ) − P( X = b) 7 a) F(X) é contínua à direita ⇒ xlim F(X ) = F(X o ) → x0 8 a) F(X) é descontínua à esquerda.. denotado por E(X) é definido como 65 .2 Função de Repartição para V. n. Seja P(xi) = P(X = xi). . nos pontos em que a probabilidade é diferente de zero. x→ x 0 lim F(X) ≠ F(X o ). o valor esperado de X (ou Esperança Matemática de X).. 2. ∑ P(X ) = 1 i =1 i ∞ 5. Definição: Seja X uma V.Para cada possível resultado de x teremos: 0 ≤ P( X) ≤ 1. 5.. onde a curva limitada pela área em relação ao valores de x será igual a 1.C.C.2 . Se quisermos calcular a probabilidade de X assumir um valor x entre "a" e "b" devemos calcular: P(a ≤ x ≤ b) = ∫ f(x) dx a b 66 . 5.P(x i ) ou V(X) = E(X 2 ) − E( X) 2 ∞ ∞ 2 i =1 onde E (X 2 ) = ∑ x 2 P( xi ) e a raiz quadrada positiva de V(X) é denominada o desvio-padrão i de X. Define-se a variância de X.D.E( X) = ∑ xi P(xi ) ∞ se a série E( X) = ∑ xi P(xi ) convergir absolutamente.7.A.7. i =1 i i ∞ este número é também denominado o valor médio de X.A. da seguinte maneira: V(X) = ∑ ( xi − E(X)) . i =1 FIGURA 6. No instante em que X é definida sobre um espaço amostral contínuo. e denotado por σ x. isto é.A.5 Função de Probabilidade de uma V.D. denotada por V(X) ou σ2x. ou expectância de X. 5. .4 Variância de uma V. a função de probabilidade será contínua.Distribuição de probabilidade de uma V. se i =1 ∞ i =1 ∑ |x | P(x ) < ∞ . Definição: Seja X uma V.A. A. no ponto xi . e somente se.p. Seja X uma variável aleatória contínua.C. como sendo: F(X) = ∫ f ( x) dx −∞ x • P(a ≤ x ≤ b) = P(a < x < b) = P(a < x ≤ b) = P(a ≤ x < b) 5. 5.p.A.A.7 Esperança Matemática de uma V.6 Função de Repartição para V. Definição: A função f(x) é uma Função Densidade de Probabilidade (f. ∫ +∞ −∞ | x | f(x) for 67 .C. e a mesma tem valores numéricos positivos.7. b a P(a ≤ x ≤ b) = ∫ f(x) dx . f(x). X.) para uma V. finita.C. diremos que E(X) existirá se. Conseqüentemente.A.d.Pelo fato de que a área representa probabilidade.C.7. ∫ +∞ −∞ f(x) dx = 1 . definida nos reais quando f (x) ≥ 0 . logo a função precisa estar inteiramente acima do eixo das abscissas (x). Define-se Função de Repartição da Variável aleatória X. com f.d.f(x) dx -∞ +∞ pode acontecer que esta integral imprópria não convirja. Definição: Seja X uma V. O valor esperado de X é definido como E(X) = ∫ x. A. iii) Use as propriedades para determinar: a) P(0 < x < 2).p.6 0.5 0.C. b) P(0 ≤ x ≤ 1). ii) construir a função de repartição e represente graficamente.C. Definição: Seja X uma V.d.3 0. c) P(0 < x ≤ 2). A variância de X é: V(X) = ∫ onde ( x − E(X) )2 f(x) dx ou V(X) = E(X 2 ) − −∞ E(X 2 ) = ∫ x2 f(x) dx −∞ +∞ +∞ E( X) 2 5.2 0.1 0 0 1 2 Representação gráfica 68 . de uma função distribuição de probabilidade (f.Variável Aleatória Discreta Seja X o lançamento de duas moedas e descrever o experimento em função da obtenção do número de caras: i) determinar a função de probabilidade e represente graficamente.5.4 0. d) F(1).).8 Exemplos . e) F(2) iv) E(X) e V(X) i) 0.8 Variância de uma V.7.A. 5 6 4 2 69 .ii) F(x) = 0 se x<0 F(X) = 1/4 se 0 ≤ x < 1 F(X) = 3/4 se 1 ≤ x < 2 F(X) = 1 se x ≥ 2 iii) Representação gráfica a) P (0 < x < 2) = F ( 2) − F (0) − P ( X = 2) = 1 − 3 1 1 1 1 3 − = 4 4 4 3 b) P(0 ≤ x ≤ 1) = F(1) − F( 0) + P( X = 0) = 4 − 4 + 4 = 4 c) P(0 < x ≤ 2) = F( 2) − F( 0) = 1 − 4 = 4 1 3 d) F(1) = 3/4 e) F(2) = 1 iv) Esperança Matemática E( X) = ∑ xi P(xi ) = 0 . + 2 . + 1 . i i =1 ∞ 1 2 2 1 6 +1 . + 22 . = 1 4 4 4 i =1 ∞ 1 2 1 Variância 2 E(X 2 ) = ∑ x 2 P( xi ) = 0 . = 4 4 4 4 V(X) = E(X 2 ) − E( X) 2 = 4 − 4 = 4 = 0. ii) determinar a função de repartição e represente graficamente. para qualquer outro valor i) represente graficamente função densidade de probabilidade.Variável Aleatória Contínua Seja X uma variável aleatória contínua: 2x. 1 3 1 iii) Determine P  ≤ x ≤  e P  ≤ x < 1     4 4 4  iv) E(X) e V(X) i) ii) para x<0 ⇒ F(X ) = ∫ 0 dx = 0 −∞ x x −∞ x 0 1 +∞ x para 0 ≤ x < 1 ⇒ F(X ) = ∫ 0 dx + ∫ 2x dx = 0 + x 2 para x ≥ 1 −∞ 0 1 [ ] x 0 = x2 ⇒ F (X ) = ∫ 0 dx + ∫ 2x dx + ∫ 0 dx = 0 + x 2 [ ] 1 0 +0 =1 70 . para 0 < x < 1 f (x ) =   0.. considere as seguintes variáveis aleatórias: 71 . b) P(1 ≤ x ≤ 2). c) P(1 < x ≤ 3).1) a) P(1 < x < 3). V(X) = E(X 2 ) − [E(X)] = 2 1  2 9 −8 1 −  = = 2  3 18 18 2 5. d) F(1).9 Exercícios 1) Admita que a variável X tome valore 1. b) Calcule usando as propriedades: b. e) F(2) c) E(X) e V(X) 2) No lançamento simultâneo de dois dados.5 1  4 4 4 4 16 4 4 ∫ 3 [ ] 3 2 2 iv) E(X) = E(X2 ) = ∫ 1 x f(x) dx = 1 0 ∫ 1 x 2x dx = 1 0 ∫ 1 2 x2 f(x) dx = 1 0 2 31 2 x = 3 0 3 2 41 1 x = 4 0 2 [ ] ∫ x2 f(x) dx = 0 ∫ x 2 2x dx = 0 ∫ 2x 3 f(x) dx = 0 [ ] logo. 2 e 3 com probabilidades 1/3. a) Determine sua função de repartição e represente graficamente. 1/6 e 1/2 respectivamente.Representação gráfica iii) 3 8 1  3 1 P ≤ x ≤  = 14 2 x dx = x2 4 =   −   = = 0. A e Z c) Aplicar as propriedades e determinar: i) P (-3 < W ≤ 3) ii) P (0 ≤ W ≤ 4) iii) P (A > 6) iv) P (Z ≤ 5. Y = número de pontos obtidos no 2o dado.5) v) P (Z = 3) vi) P (A ≥ 11) vii) P (20 ≤ Z ≤ 35) viii) P 3.5 < Z < 34) d) Determine E(W). d) Calcular F(8). c) Calcular P(2≤ Z < 6).X = número de pontos obtidos no 1o dado. E(A). 3. E(Z). a) Construir a distribuição de probabilidade através de uma tabela e gráfico das seguinte variáveis: i) W = X . 5 e 7 a) calcule o valor de k c) E(X) b) Calcular P(X=5) d) V(X) 4) Seja Z a variável aleatória correspondente ao número de pontos de uma peça de dominó.Y ii) A = 2 Y iii) Z = X . V(A) e V(Z) 3) Uma variável aleatória discreta tem a distribuição de probabilidade dada por: P(X ) = K x para x = 1. V(W). e) E(Z) e V(Z). b) Determinar F(Z) e traçar o gráfico. a) Construir a tabela e traçar o gráfico P(Z). Y b) Construir a função de repartição das Variáveis W. 72 . 1) f(x) = 0 a) Represente graficamente f(x).d.  0.A. 7) Uma variável aleatória X tem a seguinte f.: x<0 0≤x<2 2≤x<4 x≥4 f(x) = 0 f(x) = k f(x) = k(x . caso contrário  i) Ache a função de repartição e esboce o gráfico.p.5). iii) E(X) e V(X). ii) Determine E(X) e V(X).C. b) Calcule P x ≤ 2    c) E(X) e V(X)  1 6x (1 − x ).2 5) Seja f (x ) =  2 (1 − x ). 0 < x < 1  0. ii) P(1< x < 1. 0 ≤ x ≤ 2 . X é f (x ) =  a) Determine F(X) e represente graficamente. 6) Seja f (x ) =  2 x. caso contrário   1 i) Ache a função de repartição e esboce o gráfico.  3  0. caso contrário 73 . c) Determine F(X) e faça o gráfico d) E(X) e V(X) 8) A função de probabilidade de uma V. 0 < x < 1 . b) Determine k. p.: f(x) = 0 f(x) = Ax f(x) = A(100 .x) f(x) = 0 a) Determine o valor de A. b) P (250 ≤ x ≤ 750).d. 10) Dada a função de repartição: F(X) = 0 para x < -1 F(X) = x +1 2 x<0 0 ≤ x < 500 500 ≤ x < 1000 x ≥ 1000 para -1 ≤ x < 1 para x ≥ 1 F(X) = 1  1 a) Calcule: P  − 2 ≤ x ≤ 2  . b) P(X = 0)   1 74 .9) Uma variável aleatória X tem a seguinte f. P(A)..1 Distribuições Discretas de Probabilidade 6... . . 144424443 1444 2444 3 4 4 4 4 x sucessos n. onde P(A)= p e P(A ) = q.P(A).6 Distrib uições de Proba bilid ade Após termos visto as definições de V.. se for fracasso. Supondo que em uma única tentativas o número de casos possíveis sejam: A. I A) = P(A).. 6.D. A..P(A ) .. . com P(X = 1) = p .x fracassos _ 75 . onde p + q = 1...A. citaremos as principais distribuições de probabilidade relacionadas a estas variáveis.. . . ou ainda: 0.. A .1 Distribuição de Bernoulli Consideramos uma única tentativa de um experimento aleatório podemos ter sucesso ou fracasso nessa tentativa. P(A ).A. A 14 24 3 14 244 4 4 4 3 x sucessos n-x fracassos sendo os resultados independentes..C. P(A) P(A).P(A) . se for sucesso. com P(X = 0) = q X= 1. . P(A).P(A ). Seja X o número de sucesso em uma única tentativa.. P(A). temos: P(A I A I. ... ...I A I A I A I . Seja "p" a probabilidade de sucesso e "q" a probabilidade de fracasso... A.1. A. . . logo X pode assumir: X = 0 se ocorrer fracasso e X = 1 se ocorrer sucesso. e V. P(A). P(1) E(X) = 0. de modo a deixar bem claro a qual categoria pertence determinada observação.(1 .p E (X) = p 6.1. As categorias devem ser mutuamente excludentes.p = p logo V(X) = p − p 2 V(X) = p.2 Variância da Distribuição de Bernoulli V(X) = E(X 2 ) − E( X) 2 onde E (X 2 ) = ∑ x 2 P( xi ) i i =1 ∞ 2 E(X ) = x1 P(x1 ) + x2 P( x2 ) 2 E( X 2 ) = 0.1 Esperança Matemática da Distribuição de Bernoulli E( X) = ∑ xi P(xi ) i =1 ∞ E( X) = x1 P(x1 ) + x2 P(x 2 ) E(X) = 0.1.1. e as classes devem ser coletivamente exaustivas.nessa condição a variável aleatória X tem distribuição de Bernoulli.q + 1. p. 6. e sua função de probabilidade (f. de forma que nenhum outro resultado fora delas é possível 76 .1.q n− x . q 6.q + 1. P(0) + 1.p ) 2 V(X) = p .1.) (função de probabilidade) é dada por: P(X = x) = p x .2 Distribuição Binomial O termo "Binomial" é utilizado quando uma variável aleatória esta agrupada em duas classes ou categorias.  p x q n− x x   como P(X) segue uma Distribuição de Probabilidade.x) falhas em (n .2. 4 a) Todas as tentativas devem ser independentes. onde o número de vezes em que pode ocorrer x sucessos e (n-x) falhas é dado por: n n! C n. ou seja para s = x .∑  p q   x =1  s  77 .x) tentativas é dado por qn-x. ou seja p + q = 1.1. "p" probabilidades de sucesso e "q" probabilidades de falha. E (X) = x.Sejam. temos: ∞ ∞  n ∑ P(X = x i ) = 1 ou ∑1  x  p x q n− x = 1   i =1 x=   0 logo.x)! x =1 ∞  n .x =   =  x  x! (n − x)!   logo.1 s +1 n− (s+1) E(X) = n. a probabilidade de ocorrer x sucessos com n tentativas será n P(X = x) =  p x q n −x x   Propriedades necessárias para haver uma utilização da Distribuição Binomial: 1 a) Número de tentativas fixas. 3 a) As probabilidades de sucesso devem ser iguais para todas as tentativas. ∞ n! ∑ p x q n− x x(x .1)!(n . A probabilidade de x sucessos em x tentativas é dado por px e de (n . temos (x -1)!(n .1 e x = s + 1.x)! x =1 E (X) = n. ∞ (n -1)! ∑ p x q n−x . 2 a) Cada tentativa deve resultar numa falha ou sucesso. 6.1 Esperança Matemática de Distribuição Binomial E( X) = ∑ xi P(xi ) i =1 ∞ n E(X) = x. ∞  n .s)! s!(n -1.2. p.s)! x =1 x =1   ∞   n − 1 ∞ s  n .( x − 1)!(n − x)! x=1 ∞ n! E (X 2 ) = ( s + 1) ∑1 ps+1q n−( s+1) s!(n − ( s + 1) )! x = ∞ ∞ (n -1)! (n . temos: x.p) V( X) = n.(np) 2 V(X) = n. p ( np − p + 1 2 i =1 ∞ E( X 2 ) = n 2 p 2 − np 2 + np V(X) = n 2 p 2 − np 2 + np .p ∑   p . para s = x -1 e x = s +1.p q    144 x =244 43 144 24 4 3  1 x =1  s   4 4 4   (n−1)p 1   2 E(X ) = n. p ( n − 1) p + 1 E(X2 ) = n.1 s (n −1) −s E(X) = n.q   x =1  s  14 4 2444 4 3 1 E(X) = n . p 6.1.p q n−1− s + n∑ p s.q 78 . p.p q  x =1   ∞  n .1 s n −1−s  n −1− s E(X 2 ) = n.1.n ∑ p s .(1 .x ∑ p xq n −x . p q n−1−s s!(n .p s  + ∑ p q   s ∑ p .1 s (n−1) −s E(X) = n.∑   s  p .1)! E(X 2 ) = s.2 Variância de uma Distribuição Binomial V(X) = E(X 2 ) − E( X) onde 2 E(X 2 ) = ∑ x 2 P( xi ) i ∞ n! E(X ) = x. p)  ( n. 1 − n.. contando-se apenas com a sua ocorrência. a probabilidade de sucesso "p".Uma vez não conhecido o número total de eventos.( n − 1).1 (−p) + .2... A aplicação da distribuição segue algumas restrições: . P(x) = n x x n −x p q . x! Se p → 0 e n >> x logo.1.1. Se n → ∞ em conseqüência n >> x assim.x + 1) ≈ n x (n − x)! logo.p + x!  2!  n 79 ... a distribuição não pode ser aplicada.p) P(x) ≅ + .p + 2. . .p)  n( n − 1)  2 P(x) = 1 − n. a probabilidade x de ocorrência de um determinado número de observações segue uma Distribuição de Poisson.3 Distribuição de Poisson p.6.. ou seja. p) x (1 − p) n x! x (n. x!   x 2  (n.( n − 2). P (x) = (n.3 Esperança Matemática e Variância para a Probabilidade de Sucesso (p) de uma Distribuição Binomial E(p) = p e V(p) = 6. q n − x ≈ q n = (1 − p) assim. n! = n.Somente a chance afeta o aparecimento do evento. .q n Quando numa distribuição binomial o tamanho "n" das observações for muito grande e a probabilidade "p" de sucesso for muito pequena.(n . 3.2 Variância da Distribuição de Poisson V(X) = E(X 2 ) − E( X) 2 onde E (X 2 ) = ∑ x 2 P( xi ) i ∞ E( X 2 ) = ∑ x.p por λ e considerando-o como sendo o número médio de ocorrência expresso em unidades de tempo. logo o número médio de falhas será λ t . x x =1 i =1 ∞ e -λ λx .1. substituindo s = x . P(x) = λxt . assim.(n. tempo) e t o tempo.1)! 80 . e-λ x! fornece a probabilidade de x falhas no período de tempo t. P(0) = R(t) = e −λ t 6. pode-se dizer que λ é a taxa média de falhas (falha / unid.1 e x = s + 1 temos: x(x . substituindo s = x -1 e x = s + 1 temos: x =1 (x . p) x e -n.3. P( x) = A probabilidade de zero falhas no tempo t é a confiabilidade do componente em função do tempo.1.1 Esperança Matemática da Distribuição de Poisson E( X) = ∑ xi P(xi ) e -λ λx x! x =1 -λ x ∞ e λ E( X) = ∑ .1)! ∞ e-λ λs+1 E (X) = ∑ s! x =1 ∞ e -λ λs E(X) = λ ∑ s! x =1 1 24 4 3 E (X) = ∑ x 1 ∞ i =1 ∞ E(x) = λ 6.p x! Substituindo o valor esperado n. e -λ λs+1 s! x =1 ∞ e -λ λs E(X 2 ) = λ ∑ (s +1) s! x =1   ∞  ∞ e -λ λs e -λ λs  E(X 2 ) = λ ∑ s +∑  x =4 s! 1 x =1 1 24 3 1 2s!  4 4 3  E(X)  1   E (X 2 ) = ∑ (s + 1) ∞ E(X) 2 = λ2 + λ V(X) = λ2 + λ − ( λ ) 2 V(X) = λ 6. Se X jogar 5 partidas. qual a probabilidade de: a) acertar exatamente 2 tiros. d) X perder todas as partidas. b) X vencer ao menos uma partida.2 Exercícios 1) Admitindo-se o nascimento de meninos e meninas sejam iguais. calcule a probabilidade de: a) X vencer exatamente 3 partidas. acertar 70% das perguntas ? 81 . 5) Num teste de certo-errado. b) 3 meninos c) 4 meninos 3) Um time X tem 2/3 de probabilidade de vitória sempre que joga. respondendo as questões ao acaso. b) não acertar nenhum tiro. 4) A probabilidade de um atirador acertar um alvo é 1/3. c) X vencer mais da metade das partidas. Se ele atirar 6 vezes. quantas se esperaria que tivessem: a) nenhuma menina. qual a probabilidade de um aluno. calcular a probabilidade de um casal com 6 filhos ter: a) 4 filhos e 2 filhas b) 3 filhos e 3 filhas 2) Em 320 famílias com 4 crianças cada uma. com 100 perguntas. c) mais do que uma boa. c) 2 ou mais suicídios. Em uma cidade de 100. a) qual a probabilidade que num teste de 3.000 km. b) receber 4 ou mais chamadas em 90 minutos. 82 . Qual a probabilidade: a) receber exatamente 3 chamadas numa hora.6) Se 5% das lâmpadas de certa marca são defeituosas. 7) Uma fabrica de pneus verificou que ao testar seus pneus nas pistas. c) 75 chamas num dia. Qual a probabilidade de aparecerem 3 defeitos numa parede 2 x 2 m? 11) Suponha que haja em média 2 suicídios por ano numa população de 50. numa amostra de 100 lâmpadas.000 km haja no máximo um pneu estourado ? b) Qual a probabilidade de um carro andar 8. encontre a probabilidade de que um dado ano tenha havido: a) nenhum suicídio. 10) Na pintura de paredes aparecem defeitos em média na proporção de 1 defeito por metro quadrado. achar a probabilidade de que. Encontre a probabilidade de que uma dada página contenha: a) nenhum erro.000 km sem estourar nenhum pneu ? 8) Certo posto de bombeiros recebe em média 3 chamadas por dia. 9) A média de chamadas telefônicas em uma hora é 3. havia em média um estouro de pneu a cada 5. b) receber 3 ou mais chamadas num dia. Calcular a probabilidade de: a) receber 4 chamadas num dia. tenhamos: a) nenhuma defeituosa (use binomial e poisson) b) 3 defeituosas.000 hab. b) 1 suicídio. 12) Suponha 400 erros de impressão distribuídos aleatoriamente em um livro de 500 páginas.000 habitantes. c) 22 chamadas numa semana. escolhidas ao acaso. b) 100 erros em 200 páginas. 1 . definida num intervalo a.Representação de uma Distribuição Uniforme 6.3 Distribuições Contínuas de Probabilidade 6.1 Esperança Matemática da Distribuição Uniforme E(X) = ∫ x f(x) dx −∞ b +∞ E(X) = ∫ a x 1 dx b-a b 1 x2  E(X) =  b .3.a 2 a b2 − a 2 E (X) = 2(b − a) ( b . e sua função densidade de probabilidade é dada por:  1  f(x) =  b − a  0  se a ≤ x ≤ b se x < a ou x > b . FIGURA 6.a) (b + a) E(X) = 2(b − a) E( X) = (b + a) 2 83 .3.1. b .1 Distribuição Uniforme É uma distribuição de probabilidade usada para variáveis aleatórias contínuas.6. usado tanto para variáveis aleatórias discretas como contínuas.2 Variância da Distribuição Uniforme V(X) = E(X 2 ) − E( X) E(X 2 ) = ∫ x 2 f(x) dx −∞ +∞ 2 E(X 2 ) = ∫ x 2 b a 1 dx b-a 1 b 2 x dx b .) for da forma: 1 2π σ − 1  x −µ    2 σ  2 f(x) = e . que tome todos os valores reais -∞ < x < +∞ tem distribuição normal quando sua função densidade de probabilidade (f.a)(b 2 + ab + a 2 ) E( X 2 ) = 3(b − a) 2 b + ab + a 2 2 E( X ) = 3 2 2 b + ab + a 2  b + a  V(X) = −  3  2  b2 + ab + a 2 b 2 − ab + a 2 V(X) = − 3 4 2 2 4b + 4ab + 4a − 3b 2 − 6ab − 3a 2 V(X) = 12 b2 − 2ab + a2 V(X) = 12 2 V(X) = (b − a) 2 12 6.3.−∞ < x < +∞ 84 .a ∫a b 1 x3  2 E(X ) =  b-a 3 a E(X 2 ) = b3 − a 3 E(X ) = 3( b − a) (b . Uma variável aleatória X.p.3.1.6.2 Distribuição Normal ou Gaussiana É um modelo de distribuição contínua de probabilidade.d. 3. legítima para f(x)≥0.p. portanto 1 2π I = 2π ∫0 2 ∫ +∞ 0 2 re − r2 2 dr dα r 1 2π − 2  2 I = e  dα 2π ∫0 0  +∞ 1 2π − ( 0 − 1) dα 2π ∫0 1 2π I2 = α0 2π I2 = 85 . ∫− ∞ e 2 ds 2π −∞ I = 2 ∫ +∞ −∞ f(x) d(x) = 1 1 2π ∫ ∫ -∞ +∞ +∞ -∞ e − (t 2 +s 2 ) 2 dt ds introduzindo coordenadas polares para realizar o cálculo dessa integral dupla. ∫− ∞ −∞ 2π σ Para calcular esta integral usaremos um artifício. ou seja. temos: s = r cosα e t = r senα conseqüentemente o elemento de área ds dt se torna r dr dα.Os parâmetros µ e σ seguem as seguintes condições: −∞ < µ < + ∞ e σ > 0 . no lugar de I usaremos I².2. Como − ∞ < s < + ∞ e − ∞ < t < + ∞ .1 Propriedades da Distribuição Normal a) f é uma f. t s +∞ − 1 +∞ −2 2 I = ∫ e dt . 6.d. 0 < r < + ∞ e 0 < a < 2 π . logo fazendo t = x− µ temos: σ t − +∞ +∞ 1 f(x) d(x) = ∫ e 2 dt = I . unimodal e simétrico em relação a média µ. 1 2π = 1 2π b) O aspecto gráfico da função f tem: .A área total da curva equivale a 100%.A área total da curva equivale a 100%.∂ z = e x = z σ +µ. . FIGURA 7.Distribuição Normal em função da µ e σ 6.2 Esperança Matemática da Distribuição Normal E(X) = ∫ x f(x) dx −∞ +∞ e dx σ 2π x−µ ∂x fazendo z = . σ σ z − 1 +∞ E(X) = ( σ z + µ ) e 2 dz ∫ 2π −∞ z z − +∞ +∞ − 1 1 2 2 E(X) = σ ∫ z e dz + µ ∫−∞ e dz −∞ 2 3 2π 14 4 2π 2 144 44 3 −∞ zero um E(X) = ∫ x +∞ 1 1  x −µ  −   2 σ  2 86 .I2 = I² = 1 .2. . logo I = 1 como queríamos mostrar. .3.2 .Semelhança de um sino.A especificação da média µ e do desvio padrão σ é completamente evidenciado. σ σ z − +∞ 1 2 2 E(X ) = σ ∫ ( σ z + µ) e 2 dz σ 2π −∞ −∞ E(X ) = ∫ x 2 +∞ 2 1 1  x −µ  −   2 σ  2 E(X ) = 2 − +∞ 1 σ 2 ∫ z 2 e 2 dz + −∞ 2π z − − +∞ +∞ 1 1 2µ σ ∫ z e 2 dz + µ 2 e 2 dz ∫ −∞ 14243 2π 2π − ∞ 1442443 zero um z z E(X 2 ) = 1 2π σ2 ∫ +∞ −∞ z2 e − z 2 dz + µ 2 integrando por partes temos que ∫ u dv = u dv .E(X) = µ 6.2.∫ v du z =u 2 dv = e − z2 2 du = 1 dz E(X ) = 2 v = −e 1 2π 2 2 z − 2 − 2 dz z 2 z  − +∞ 2 2  − ∫−∞ − e dz + µ  −∞ z +∞ σ z e E(X 2 ) = 0 + σ 2 − +∞ 1 2 ∫− ∞ − e 2 dz + µ 2π 4 144 24 4 3 4 um E(X ) = σ + µ logo. ∂z = e x = z σ +µ.3. 2 2 2 V(X) = σ² 87 .3 Variância da Distribuição Normal V(X) = E(X 2 ) − E( X) 2 E(X 2 ) = ∫ x 2 f(x) dx −∞ +∞ e dx σ 2π x−µ ∂x fazendo z = . 88 . f(z).Complemento da Distribuição Normal Padronizada Fazendo z = x−µ e z ~ N(0. onde: z = número de desvios padrões a contar da média x = valor arbitrário µ = média da distribuição normal σ = desvio padrão da distribuição normal Estas probabilidades estão tabeladas e este caso particular é chamado de Forma Padrão da Distribuição Normal.4 Distribuição Normal Padronizada Tem como objetivo solucionar a complexidade da f(x) através da mudança de variável. 2π −∞ com E(z) = 0 e VAR(z) = 1.2.1) temos que σ 2 1 +∞ − z2 f(z) = ∫ e .6.3. FIGURA 7.4 . Admitindo-se uma distribuição normal dos pesos e independência entre as variáveis dos pesos do produto e da caixa. com desviopadrão de 25 g. calcule a probabilidade de uma caixa cheia pesar mais de 1050 g.ϕ". 10 g.54 e 1. para ϕ > 2.4 Exercícios 1) As alturas dos alunos de uma determinada escola são normalmente distribuídas com média 1. Encontre a probabilidade de um aluno escolhido ao acaso medir: a) entre 1.04093) 89 . (R = 776 dias) 3) Um produto pesa.60 m e desvio padrão 0. quando se tem amostras com tamanhos inferiores a 30 elementos. N ~ (0.1). em média.83 m 2) A duração de certo componente eletrônico tem média 850 dias e desvio padrão 45 dias. A distribuição t é simétrica em relação a sua média. com desvio padrão de 2 g. Xgeral = 1000. Ë utilizada para inferências estatísticas.30 m. É embalado em caixas com 50 unidades.3.75 m d) entre 1.50 e 1. Vgeral = 50Vp + Vc . Qual a probabilidade do componente durar: a) entre 700 e 1000 dias b) menos que 750 dias c) mais que 850 dias d) Qual deve ser o número de dias necessários para que tenhamos de repor 5% dos componentes. Sabe-se que as caixas vazias pesam 500 g. 73 (R = 0. A média da distribuição é zero e sua variância é dada por: VAR t ϕ = σ 2 t ϕ = [ ] ( ) ϕ ϕ−2 .70 m b) mais que 1.48 m e) menos que 1.3 Distribuição “t” de Student Trata-se de um modelo de distribuição contínua que se assemelha à distribuição normal padrão. particularmente.58 m f) exatamente 1.6.80 m c) menos que 1. A distribuição t também possui parâmetros denominado "grau de liberdade . 6. Sgeral = Vgeral = 28. 4) Em uma distribuição normal 28% dos elementos são superiores a 34 e 12% inferiores a 19. Encontrar a média e a variância da distribuição. (R = X = 29. 03, S2 = 73. 44 ) 5) Suponha que a duração de vida de dois equipamentos E1 e E2 tenham respectivamente distribuições N(45 ; 9) e N(40 ; 36). Se o equipamento tiver que ser usado por período de 45 horas, qual deles deve ser preferido? (R = E1 ) 6) A precipitação pluviométrica média em certa cidade, no mês de dezembro, é de 8,9 cm. Admitindo a distribuição normal com desvio padrão de 2,5 cm, determinar a probabilidade de que, no mês de dezembro próximo, a precipitação seja (a) inferior a 1,6 cm, (b) superior a 5 cm mas não superior a 7,5 cm, (c) superior a 12 cm. 7) Em uma grande empresa, o departamento de manutenção tem instruções para substituir as lâmpadas antes que se queimem (não esperar que queimem para então substituí -las). Os registros indicam que a duração das lâmpadas tem distribuição N(900 ; 75) (horas). Quando devem ser substituídas as lâmpadas de modo que no máximo 10% delas queimem antes de serem trocadas? (R = 889 horas) 8) Os registros indicam que o tempo médio para se fazer um teste é aproximadamente N(80 ; 20) (min.). Determinar: a) a percentagem de candidatos que levam menos de 60 min ? b) se o tempo concedido é de 1h, que percentagem não conseguirá terminar o teste ? 9) A profundidade dos poços artesianos em um determinado local é uma variável aleatória N(20 ; 3) (metros). Se X é a profundidade de determinado poço, determinar (a) P(X < 15), (b) P(18 < X < 23), (c) P (X > 25). 10) Certa máquina de empacotar determinado produto oferece variações de peso com desvio padrão de 20 g. Em quanto deve ser regulado o peso médio do pacote para que apenas 10% tenham menos que 400 g? Calcule a probabilidade de um pacote sair com mais de 450 g. [R = a) µ = 425.6 b) 0.11123 )] 90 7 Amo st ra ge m 7.1 Conceitos em Amostragem Inferência Estatística - é o processo de obter informações sobre uma população a partir de resultados observados ma Amostra. Amostragem: É o processo de retirada de informações dos "n" elementos amostrais, na qual deve seguir um método adequado (tipos de amostragem). 7.2 Plano de Amostragem 1 o ) Definir os Objetivos da Pesquisa 2 o ) População a ser Amostrada - Parâmetros a ser Estimados (Objetivos) 3 o ) Definição da Unidade Amostral - Seleção dos Elementos que farão parte da amostra 4 o ) Forma de seleção dos elementos da população 91 Aleatoria Simples Sistematica  - Tipo de Amostragem   Estratificada  por Conglomerados  5 o ) Tamanho da Amostra Ex.: Moradores de uma Cidade (população alvo)  própria  Objetivo: Tipo de Residência  alugada emprestada  Unidade Amostral: Domicílios (residências) um piso  dois pisos tres ou mais pisos  Elementos da População: Família por domicílio aleatoria simples  Tipo de Amostragem:  sistematica estratificada  7.3 Tipos de Amostragem 7.3.1 Amostragem Simples ou Ocasional É o processo mais elementar e freqüentemente utilizado. Todos os elementos da população tem igual probabilidade de serem escolhidos. Para uma população finita o processo deve ser sem reposição. Todos os elementos da população devem ser numerados. Para realizar o sorteio dos elementos da população devemos usar a Tabela de Números Aleatórios . 7.3.2 Amostragem Sistemática Trata-se de uma variação da Amostragem Aleatória Ocasional, conveniente quando a população está naturalmente ordenada, como fichas em um fichário, lista telefônica, etc. Ex.: N = 5000 n = 50, então r = N = 10, (P.A. de razão 10) n Sorteia-se usando a Tabela de Números Aleatórios um número entre 1 e 10, (x=3), o número sorteado refere-se ao 1 o elemento da amostra, logo os elementos da amostra serão: 92 a n = a1 + ( n − 1). Para determinar qualquer elemento da amostra podemos usar a fórmula do termo geral de uma P.3 Amostragem Estratificada É um processo de amostragem usado quando nos depararmos com populações heterogêneas. edifícios. organizações. então: Se o processo de retirada dos elementos for COM reposição (pop. salário. profissão.. As diversas subamostras retiradas das subpopulações devem ser proporcionais aos respectivos números de elementos dos estratos.. Agregados típicos são: quarteirões. 7. e seja "n" o número de elementos de uma amostra. ou tornam-se extremamente difícel que se identifiquem seus elementos.A.4 Amostragem por Conglomerados (ou Agrupamentos) Algumas populações não permitem. Em tais casos.3. o número de amostra s possíveis será: no de amostras = N n Se o processo de retirada de elementos for SEM reposição (pop.. uma amostra aleatória simples desses subgrupos (conglomerados) podem ser escolhida. classes sociais.. etc. agências.3. obtendo-se uma estratificação ótima. e uma contagem completa deve ser feita no conglomerado sorteado. seleciona-se uma amostra aleatória de cada uma subpopulação (estrato). o número de amostras possíveis será: 93 . Após a determinação dos estratos. na qual pode-se distinguir subpopulações mais ou menos homogêneas. famílias. procedência. e guardarem a proporcionalidade em relação a variabilidade de cada estrato. sexo.. 7.3 13 23 33 43 . Tipos de variáveis que podem ser usadas em estratificação: idade. finita (f > 5%) ). etc. infinita (f ≤ 5%) ). mas podemos identificar subgrupos da população. denominados estratos.4 Amostragem "COM" e "SEM" reposição Seja "N" o número de elementos de uma população. r 7. : Supondo N = 8 e n = 4 N! n! (N .1} .2} {1.1} ⇒ x = 2. {11} ⇒ x = 1.2} {1.3} {2.4} ⇒ x = 3.2} ⇒ x = 3.1} {3.0 {3. 3.4} ⇒ x = 3.3} {1. 3.0 {4.no de amostras = C N .2} ⇒ x = 2.0 {4.4} 4! =6 2! 2! {1.4 = = 70 n ! ( N .5 {2.5 {3.5 {4. {2.3} {3.: Processo de Amostragem Aleatória Simples (Distribuição Amostral das Médias) .3} {2.5 {1.4} ⇒ x = 2.0 .3} ⇒ x = 2.3} {1.4} {3.3} ⇒ x = 2.1} ⇒ x = 15 . 4} Para ilustrar melhor as estatísticas amostrais usaremos o processo com reposição. 4} n=2 . 4} {2.0 {1. 2.4} ⇒ x = 4.3} {4.(sem reposição) N = { 1.n )! 4! 4! Ex.4} {2.5 {2. 2.0 94 .2} ⇒ x = 2.n = N! 8! = C8.3} ⇒ x = 3.3} ⇒ x = 3.2} {2.1} {4.4} {3.0 {3.2} ⇒ x = 1.2} {3.2 = no de amostras = N n = 4 2 = 16 {1.n )! com reposição: n o de amostras = N n = 8 4 = 4096 sem reposição: no de amostras = C N . n = Ex.4} {4.0 {2.(com reposição) N = { 1.2} {4. {11} {2. . {31} ⇒ x = 2. 4} n=2 no de amostras = C 4.5 {4.5 {1. 0 3.Gráfico P(X = xi ) 1/16 2/16 3/16 4/16 3/16 2/16 1/16 16/16 7.5 2.6 Estatísticas Amostrais .Esperança Matemática µ( x ) = E( x) = ∑x i =1 n i P(X = xi ) = 40 = 2.7.0 Σ .Tabela xi 1.0 2.5 Representações de uma Distribuição Amostral .0 1.5 16 -Variância ou VAR( x ) = E x 2 − [ E ( x)]2 onde E x 2 = ( ) n 2 i ( ) ∑ x P( X = x ) i i=1 95 .5 3.5 4. 2 o ) Verificar o nível de mensuração da variável: nominal. como devido ao aspecto econômico dessas investigações. Na teoria da amostragem.7. em sua totalidade determinada população em estudo. ou roteiro da entrevista e escolher uma variável que julgue mais importante para o estudo. você poderá determinar o tamanho da amostra pela fórmula:  Z . em qualquer setor da atividade humana. na realização de pesquisas científicas. 1978).7 TAMANHO DA AMOSTRA 7. ordinal ou intervalar. ainda necessita de alguma didática mais adequada aos pesquisadores iniciantes. 2 a) Composição da Amostra.2 Procedimentos para determinar o tamanho da amostra 1 o ) Analisar o questionário.7. 1965.1 Introdução Os pesquisadores de todo o mundo. do que ocorre com os trabalhos realizados pelo proceso censitário (COCHRAN. numericamente. a despeito de sua larga utilização. CRUZ. são consideradas duas dimensões: 1 a) Dimensionamento da Amostra. utilizam as técnicas de amostragem no planejamento de seus trabalhos. dentro de um menor tempo. conduzidos com um menor custo operacional.7.intervalar e a população considerada infinita. Se possível mais do que uma. além de possibilitar maior precisão nos respectivos resultados. A técnica da amostragem. não só pela impraticabilidade de poderem observar. 7. ao contrário. 3 o ) Considerar o tamanho da população: infinita ou finita 4 o ) Se a varíavel escolhida for: . σ n=   d  2 96 . α) = 95% Z = 2.96 → (1 . você poderá determinar o tamanho da amostra pela fórmula: n= $ $ Z2 .α ) Z = 1. expresso na unidade variável.57 → (1 .5% Z = 2.α) = 95. expresso na unidade da variável.65 → (1 . Por $ exemplo. p poderá ser a estimativa da 97 .α) = 99% Geralmente usa-se Z = 2 σ = desvio padrão da população. você poderá determinar o tamanho da amostra pela fórmula: n= Z 2 . onde poderá ser determinado por: • Especificações Técnicas • Resgatar o valor de estudos semelhantes • Fazer conjeturas sobre possíveis valores d = erro amostral.nominal ou ordinal.α) = 90% Z = 1. e a população considerada infinita. fixado um nível de confiança (1.onde: Z = abscissa da curva normal padrão. .intervalar e a população considerada finita. p . isto é: µ − x < d . O erro amostral é a máxima diferença que o investigador admite suportar entre µ e x . σ2 . q d2 onde: Z = abscissa da normal padrão $ p = estimativa da verdadeira proporção de um dos níveis da variável escolhida. se a variável escolhida for parte da empresa.0 → (1 . σ 2 onde: Z = abscissa da normal padrão σ 2 = variância populacional N = tamanho da população d = erro amostral . N d 2 ( N − 1) + Z2 . expresso em decimais. . existem fórmulas específicas segundo o critério de composição da amostra.1 Distribuição amostral das médias Se a variável aleatória "x" segue uma distribuição normal: x ~ N µ(x). você terá o maior tamanho da amostra.Se o investigador escolher mais de uma variável. p $ $ será expresso em decimais ( p = 30% → p = 0. todavia. σ 2 (x) . e a população considerada finita. admita p = 0. q d = erro amostral Estas fórmulas são básicas para qualquer tipo de composição da amostra. $ $ q = 1− p d = erro amostral.nominal ou ordinal. onde z = ( ) x − µ(x ) σ ( x) 98 . $ $ • Quando não tivermos condições de prever o possível valor para p .$ verdadeira proporção de grandes empresas do setor que está sendo estudado. assim deverá optar pelo maior valor de "n". pois. em que π é a verdadeira proporção (freqüência relativa do evento a ser calculado a partir da amostra. N 2 $ $ d ( N − 1) + Z2 .8.30). isto é: π − p < d . p . q . admitindo-se constantes os demais elementos. 7. p . poderá acontecer de ter que aplicar mais de uma fórmula.8 Distribuições amostrais de probabilidade 7. você poderá determinar o tamanho da amostra pela fórmula: n= onde: Z = abscissa da normal padrão N = tamanho da população $ p = estimativa da proporção $ $ q = 1− p $ $ Z2 . dessa forma. O erro amostral neste caso será a máxima $ $ diferença que o investigador admite suportar entre π e p . .50. 2 da média populacional ? Ex2 .  .8.1.µ ( x ) = µ (a média amostral é igual a média populacional) e σ ( x ) = Padrão Amostral) 7.n  N -n é o fator de correção x ~ N µ( x).    N  σ 2 ( x) N .1 Caso COM reposição (pop.: Uma população muito grande tem média 20. onde n N -1  N -1  Ex1 .  n   7. Responda: a) Qual a média da distribuição amostral ? b) Qual o desvio padrão da distribuição amostral ? c) Qual a porcentagem das possíveis médias que diferiram por mais de 0. qual a probabilidade amostral das garrafas mal cheias estar entre 9% e 12%. Extraída uma amostra de 225 garrafas de uma sequência de produção de 625. Logo temos: 99 . Extrai -se uma amostra de 49 observações. infinita) σ ( x) (Desvio n  σ 2 ( x)  x ~ N µ( x).1. onde p = proporção populacional. O exemplo n o 2 pode ser resolvido usando a distribuição amostral das proporções.2 Caso SEM reposição (pop.: Um processo de encher garrafas de coca-cola dá em média 10% mal cheias com desvio padrão de 30%.4 .0 e desvio padrão 1.8. finita) n Quando a amostra for > 5% da população   devemos usar um fator de correção. p = média da distribuição amostral das proporções. A espessura média das moedas é de 0. com distribuição normal e desvio padrão de 3 horas. Se um grande lote contém 10% de quebrados (lascados) qual a probabilidade do varejista obter numa a mostra de 100 copos 17% ou mais defeituosos? 3) Deve-se extrair uma amostra de 36 observações de uma máquina de cunhar moedas comemorativas. N -1 Ex1: Uma máquina de recobrir cerejas com chocolate é regulada para produzir um revestimento de (3% em relação ao volume da cereja).8. com desvio padrão de 0. Se o processo segue uma distribuição normal.98316 b) Qual a probabilidade de obter uma média amostral que se afaste por mais de 0.00164 4) Suponha que uma pesquisa recente tenha revelado que 60% de uma população de adultos do sexo masculino consistam de não-fumantes. R = 0.005 cm da média do processo ? R = 0. Os copos são embrulhados individualmente. da média.4%. R = 0.2 cm. qual é a probabilidade de uma amostra de 10 "flashes" retirados de uma população de 500 "flashes" apresentar vida média que difira por mais de 30 min.44828.01 cm. Periodicamente o varejista inspeciona os lotes para determinar a proporção dos quebrados ou lascados.9 Exercícios 1) Uma fabrica de baterias alega que eu artigo de primeira categoria tem uma vida média de 50 meses.8 meses com n =100? 2) Um varejista compra copos diretamente da fábrica em grandes lotes. 7. e desvio padrão de 4 meses. que percentagem esperamos nos intervalos abaixo: a) de 50% a 65% b) maior que 53% c) de 65% a 80% 5) Se a vida média de operação de um "flash" é 24 horas.7. N -1 onde N -n é usado para população finita.60306 100 . n N-n . qual a probabilidade de extrair uma amostra de 25 cerejas de um lote de 169 e encontrar uma média amostral superior a 3. a) Que porcentagem de uma amostra de 36 observações acusaria vida média no intervalo de um mês em torno da média ? b) Qual será a resposta para uma amostra de 64 observações? c) Qual seria o percentual das médias amostrais inferior a 49.2 Distribuição amostral das proporções p=p e σp = p(1 − p ) . a) Que percentagem de médias amostrais estará no intervalo ± 0. Tomada uma amostra de 10 pessoas de uma população muito grande.004 em torno da média? R = 0. σ2 ( ) 101 . isto é. é construir um intervalo de confiança para esse parâmetro com uma probabilidade de 1− α (nível de confiança) de que o intervalo contenha o verdadeiro parâmetro..Tipos de Estimações de Parâmetros i) Estimação Pontual ii) Estimação Intervalar 8. Principais estatísticas: . Xn) uma amostra aleatória e (x1 . .Variância Amostral 8. então y = H(x1 . X2.1 Intervalo de confiança para a média (µ) com a variância (σ 2 ) conhecida..Proporção Amostral . Dessa maneira α será o nível de significância.. . a) Estatísticas Seja (X1... (n > 30 → Z) Seja X ~ N µ.Média Amostral . xn ) é uma estatística.x2.8 Estimação de Parâme tros É um processo de indução.x2. Esta inferência só será válida se a amostra for significativa.1 Estimação Pontual É usada quando a partir da amostra procura-se obter um único valor de certo parâmetro populacional. obter estimativas a partir dos valores amostrais.. 8. xn) os valores tomados pela amostra.. . ou seja.2. .. o erro que se estará cometendo ao afirmar que o parâmetro está entre o limite inferior e o superior calculado.. na qual usamos dados extraídos de uma amostra para produzir inferência sobre a população.2 Estimação Intervalar Uma outra maneira de se calcular um estimativa de um parâmetro desconhecido. 58 1 − α = 85% ⇒ zα 2 = 102 . Infinita)  n n Para caso de populações finitas usa-se a seguinte fórmula:  σ P X + Z α 2 n  N-n σ ≤µ≤ Zα2 N -1 n N-n  = 1 − α (Pop.ou seja: n  σ2  X ~ N  µ. z = X−µ tem distribuição N (0. P − z α 2 ≤ z ≤ + zα 2 = 1 − α ( )   x−µ P − zα 2 ≤ ≤ +z α 2  = 1 − α σ n    σ σ  P − zα 2 − X ≤ µ ≤ + zα 2 − X = 1 − α   n n σ σ   P X − z α 2 ≤ µ ≤ X + zα 2  = 1 − α (Pop.   n Portanto.1) σ n Então. Finita) N -1 Obs.Como já vimos anteriormente.: Os níveis de confiança mais usados são: 1 − α = 90 % ⇒ zα 2 = ± 1. 64 1 − α = 95% ⇒ z α 2 = ± 1. 96 1 − α = 99 % ⇒ z α 2 = ± 2. x (média amostral) tem distribuição normal de média σ µ e desvio padrão . lembrando que: S2 = ∑ (x i =1 n i − x) 2 n −1 onde n -1 = graus de liberdade  σ2  X ~ N µ.1) S n t= X−µ σ z N ( 0. o que constituirá um erro. Admita que 100 peças foram ensaiadas fornecendo uma duração de vida média de 500 horas e que se deseja obter um intervalo de 95% para a verdadeira média populacional. = = S S S S n σ σ Esta distribuição é conhecida como distribuição "t" de Student. o intervalo acima contém a verdadeira média populacional.2.: Seja X a duração da vida de uma peça de equipamento tal que σ = 5 horas. Isto não é o mesmo que afirmar que 95% é a probabilidade do parâmetro µ cair dentro do intervalo. R = P (499.02 ó µ ó 500.Ex. no caso com (ϕ = n -1) graus de liberdade 103 . 8. Obs. pois µ é um parâmetro (número) e ele está ou não no intervalo.1) .98) = 95%.2 Intervalo de confiança para a média (µ) com a variância (σ 2 ) desconhecida ( n ≤ 30) Neste caso precisa-se calcular a estimativa S (desvio padrão amostral) a partir dos dados. t = X−µ tem distribuição N (0.   n Portanto.: Podemos dizer que 95% das vezes. Finita)   Ex.7 S2 = ϕ = 5% ∑ (x i =1 n i − x) 2 n −1 ≅4 S≅ 2 ϕ = 10 -1 = 9 t ϕ .27 ≤ µ ≤ 10.3 Intervalo de Confiança para Proporções $ $ Sendo p o estimador de π.α 2 ≤ t ≤ + t ϕ . ϕ porém menos "achatada" sua média vale 0 e a variância em que ϕ é o grau de liberdade ϕ−2 (ϕ > 2) t ϕ .α 2 = 1 − α ( )  s s  P X − t ϕ.α / 2 N −1 n N −n N −1   = 1 − α (Pop. onde p segue uma distribuição normal. logo: 104 . 10. 9. α 2 ≤ µ ≤ X + t ϕ. α 2  = 1 − α (Pop.5% = ±2.:Quando n>30 e σ for desconhecido poderemos usar S como uma boa estimativa de σ. 8. Esta estimação será melhor quanto maior for o tamanho da amostra.α / 2  n  N−n S ≤ µ ≤ X + t ϕ. 6.α 2 = Então. 9 foi extraída de uma população aproximadamente normal. 8. Infinita)  n n Para caso de populações finitas usa-se a seguinte fórmula:  S P  X − t ϕ .262 R = P( 7. Construir um intervalo de confiança paraµ com um nível de 95%. 7. α 2 = t 9 .2.13) = 95% Obs. 11. 2. X= ∑ xi i =1 n n = 8. 6.: A seguinte amostra: 9.O gráfico da função densidade da variável "t" é simétrico e tem a forma da normal. 12. X−µ S n P − t ϕ .   n  (pop.q σ p = $ p−π  ˆ n logo Z = onde  caracterís tica σp $ X= p = ˆ  n número de elementos da amostra  P (ˆ − Z α 2 σ p ≤ π ≤ ˆ + Z α 2 σ p ) = 1 − α (Pop. q  N . 8. Infinita) p p ˆ ˆ Para caso de populações finitas usa-se a seguinte fórmula:  N −n N −n $ $ P p − Zα 2 σ p ≤ π ≤ p + Zα 2 σ p  = 1 − α (Pop.4 Intervalo de Confiança para Variância Como o estimador de σ2 é S 2 pode-se considerar que . infinita) $ $  p.1 (pop.    n  N .n   $ $ p ~ N  p.$ $  $ p. σ2 logo o intervalo será: X2 ~ Z n−1 ( n − 1)S2 σ2 tem distribuição Qui 105 . Determine um intervalo de confiânça de 95% para a verdadeira proporção populacional sabendo que os mesmos foram retirados de uma população de 1000 componentes. ou seja: S2 . q  $ p ~ N  p. finita)  ˆˆ p.: Uma centena de componentes eletrônicos foram ensaiados e 93 deles funcionaram mais que 500 horas.quadrado.2. Finita) $ $ N −1 N −1   Ex. 9 foi extraída de uma população aproximadamente normal.χ2 = χ2 α inf Assim temos: 1− . 11. 7. 8. Construir um intervalo de confiança para σ 2 com um nível de 95%. 8.5 Intervalo de Confiança para a diferença Entre duas Médias: Usualmente comparamos as médias de duas populações formando sua diferença: µ1 − µ 2 Uma estimativa pontual desta diferença correspondente: X1 − X 2 a) Variâncias Conhecidas µ1 − µ 2 = (X 1 − X 2 ) ± Zα . 12. ϕ 2 χ2 = χ2 sup α 2 . 6.ϕ  ( n − 1)S2 ( n − 1)S2  = 1 − α 2 P ≤σ ≤  2 X2  Xsup  inf   Ex. 6. 9.(Erro Padrão) 2 Erro Padrão? VAR (X 1 − X 2 ) = (+ 1) VAR X1 + (− 1) VAR X 2 2 2 = 2 σ1 σ 2 + 2 n1 n2 106 .2. 10.: A seguinte amostra: 9. 13 . introduziremos uma fonte de erro compensada pela distribuição "t":  S2 S2 S2 S2  P( X1 − X2 ) − t α 2 1 + 2 ≤ µ 1 − µ 2 ≤ ( X1 − X 2 ) + t α 2 1 + 2  onde ϕ = n1 + n2 − 2 n1 n2 n1 n 2     Obs. logo: Erro Padrão: σ 1 1 + n1 n 2 Ex.: Seja duas classes muito grande com desvios padrões σ 1 = 1. 152. 190.847) b) Variâncias Desconhecidas Em geral conhecemos duas variâncias populacionais (σ 2 e σ 2 ). 107 .: De uma turma (1) foi extraída uma amostra de 6 alunos com as seguintes alturas: 150. De uma segunda turma foi extraída uma amostra de 8 alunos com as seguintes alturas: 165. 163.: Se as variâncias populacionais são desconhecidas mas as estimativas são iguais. 167. poderemos usar para o Erro Padrão o seguinte critério: Erro Padrão: SC 1 1 + n1 n2 onde Sc é o desvio padrão conjunto SC = ( n1 − 1)S12 + ( n2 − 1)S2 2 n1 + n2 − 2 Ex1 . Extraída uma amostra de 25 alunos da classe 1 obteve-se uma nota média de 7.: se σ1 e σ2 são conhecidas e tem um valor em comum. 1 2 Como as amostras serão pequenas. Construir um intervalo de 95% de confiança para a verdadeira diferença das médias populacionais. 166. e da classe 2 foi extraída uma amostra de 20 alunos obteve-se uma nota média de 6. 161. 180. R = (LI=0.8.0. 160. 182. LS=2.753. 153. Se as mesmas são 1 2 desconhecidas o melhor que podemos fazer é estimá-las por meio de variâncias amostrais S2 e S2 . Contruir um intervalo de 95% de confiança para a verdadeira diferença entre as médias populacionais.logo o erro padrão = σ2 σ2 1 + 2 n1 n2 2  σ2 σ 2 σ1 σ 2  1 P( X1 − X2 ) − Z α 2 + 2 ≤ ( µ1 − µ 2 ) ≤ ( X1 − X2 ) + Z α 2 + 2  = 1− α n1 n 2 n1 n 2     Obs. 172. 178. 21 e σ 2 = 2. 80. 78. 79. supondo que as máquinas foram construídas pelo mesmo fabricante . 76. 58. 36. 22. Determine os limites de confiança de 99% para a média populacional. S = 5.1 Tamanho da Amostra 16 36 25 100 a) b) c) d) 4) Numa tentativa de melhor o esquema de atendimento. Determine um intervalo de 90% de confiança para a média. 108 .0 0. 26. 56.2905) 8. 82. 33. 34. 77.35 milhões e desvio padrão 0. com desvio padrão de 7 min. 65. 24.: De uma máquina foi extraída uma amostra de 8 peças. 32.6 Intervalo de Confiança para a Diferença entre duas Proporções  $ $ $ $ $ $ $ $ pq pq pq p q $ $ $ $ P (p1 − p2 ) − Z α 2 1 1 + 2 2 ≤ π 1 − π 2 ≤ ( p1 − p 2 ) + Z α 2 1 1 + 2 2 n1 n2 n1 n2    = 1− α  Ex.6 σ 2.58. De uma segunda máquina foi extraída uma amostra de 10 peças.0 37. 60.4413 milhões de glóbulos vermelhos.218 3) Construa um intervalo de 95 % de confiança para um dos seguintes casos: Média Amostral 16. R ⇒ X =30. Uma amostra aleatória de 49 pacientes.1 0. 63.942. e que dos 100 estudantes com mais de 24 anos.0 3.09. 28 e 30.Ex2 . 62.3 Exercícios 1) Ao se realizar uma contagem de eritrócitos em 144 mulheres encontrou-se em média 5.0893. Construir um intervalo de 99% de confiança para a diferença entre as médias populacionais. LS = 33. com os seguintes diâmetros: 75. 60. 78. LS=0. 32.2. Construa um intervalo de 95% de confiança para o verdadeiro tempo médio de consulta.LI = 27.. 40. R=(LI=0.: Em uma pesquisa realizada pelo Instituto Gallup constatou que 500 estudantes entrevistados com menos de 18 anos. 2) Um conjunto de 12 animais de experiência receberam uma dieta especial durante 3 semanas e produziram os seguintes aumentos de peso (g): 30.5 2. 80. 69% acreditam nessa modificação. Construir um intervalo de confiança para a diferença entre as proporções destas subpopulações usando α=5%. 50% acreditam na possibilidade de se verificar uma modificação na América. acusou uma média de 30 min. um médico procurou estimar o tempo médio que gasta com cada paciente. colhida num período de 3 semanas. 8.5 0. 75. com os seguintes diâmetros: 54. a) qual seria a estimativa percentual dos fregueses que compram leite pela parte da manhã.704) 13. 25% acharam que o filme principal continha demasiada violência. Construa um intervalo de 98% de confiança para a verdadeira proporção dos que não estão usando capacetes neste projeto.02.536 e LS = 13.92% 7) Uma amostra aleatória de 40 homens trabalhando num grande projeto de construção revelou que 6 não estavam usando capacetes protetores.28 8) De 48 pessoas escolhidas aleatoriamente de uma longa fila de espera de um cinema.88% b) construir um intervalo de 90% de confiança para a verdadeira proporção dos fregueses que não compram leite pela manhã. c) construa um intervalo de 98% de confiança para a verdadeira proporção. R ⇒ LI = 84. O resultado foi uma despesa de $40. colhida uma amostra (n = 30) de certa peça. 6) Uma amostra aleatória de 100 fregueses da parte da manhã de um supermercado revelou que apenas 10 não incluem leite em suas compras. R ⇒ 13. LS = 95.12%. (α = 5%). c) construir um intervalo de 95 % de confiança para a média.3003 e LS = 3. sendo α = 5%. se há 100 pessoas na fila. contruir um intervalo de confiança para a média e para a variância ao nível de significância de 90% para as amostras.00. se há 500 pessoas na fila.13 e 2.05 b) construir um intervalo de confiança para a média. LI = 0. (LI = 1. R ⇒ LI = 5.056. LS = 14. supondo que a amostra tenha sido retirada de uma população de 100 peças. a) b) c) 2 12 25 3 12 25 4 15 27 5 15 28 5 16 30 6 16 33 109 6 17 34 7 18 35 8 20 36 8 22 9 22 23 n = 11 n = 12 n=9 . sendo α = 5%. Há 500 estudantes no colégio. LS = 0.00 com um desvio padrão de $10. Construa um intervalo de 95% de confiança para a verdadeira média. obtiveram-se as seguintes medidas para os diâmetros: 10 13 14 11 13 14 11 13 14 11 13 14 12 13 14 12 13 15 12 13 15 12 13 15 13 13 16 13 13 16 a) estimar a média e a variância.5) Solicitou-se a 100 estudantes de um colégio que anotasse suas despesas com alimentação e bebidas no período de uma semana. a) qual deveria ser o tamanho da fila. 9) Em uma fábrica. b) construa um intervalo de 98% de confiança para a verdadeira proporção.08%. R ⇒ σP = 0. sendo α = 5%.664) 10) Supondo populações normais.579) (LI = 12. (LI = 12. a partir do qual se pudesse desprezar o fator de correção finita.581 e LS = d) Construir um intervalo de confiânça para a variância populacional. Construir um intervalo de confiança de 95 % para a proporção dos terminas da firma que apresentam sinal de ocupado. 0.40 na amostra prefere lâminas de barbear fabricadas por seu cliente em vez de qualquer outra marca. LS = 21. e ∑ X2i = 27.00001. 18) Uma empresa de pesquisa de mercado faz contato com uma amostra de 100 homens em uma grande comunidade e verifica que uma proporção de 0.00. LI = 0.258 17) A média salarial semanal para uma amostra de n = 30 empregados em uma grande firma é X = 180. S = 0. como ficaria o intervalo de confiança de 99 % para o tempo médio de conversão 15) Seis dentre 48 terminais telefônicos dão respostas de ocupado. Determinar um intervalo de confiança de 95% para µ e σ² .0208..0229. 0. supondo: X= ∑X n i  X ∑ X2i −  ∑n i      e S2 = n−1 2 12) Dados os seguintes conjuntos de medias.0152. R ⇒ LI = 3. 0. Até agora foram convertidas 40 máquinas. 0. LI = 0. b) LI = 0. Construa um intervalo de confiança de 90 % para o tempo médio para toda a população dos pacientes submetidos ao tratamento. 0. R ⇒ a) 56.6% 16) Uma amostra de 50 bicicletas de um estoque de 400 bicicletas. LS = 0.026653.11) Sendo X uma população tal que X ~ N(µ.1 min.0190. 0. 0. 0.00 com desvio padrão S = 14.0244.0053. Uma firma possui 800 terminais. LS = 0.000167 13) O tempo de reação a uma injeção intravenosa é em média de 2. 14) Uma firma esta convertendo as máquinas que aluga para uma versão mais moderna. O tempo médio de convers ão foi de 24 horas com desvio padrão de 3 horas.1 min.021 LS = 0. a) Estime o número de bicicletas com pneus vazios: b) Construa um intervalo de 99 % confiança para a população das bicicletas com pneus vazios..0276 R⇒ X =O. determinar um intervalo de 99% de confiança para a variância populacional e para a média populacional. acusou 7 com pneus vazios.0193.0206. para grupos de 20 pacientes. 7 . σ 2 ) em que µ e σ² são desconhecidos.0105. 110 . Determinar o intervalo de confiança de 95 % para a proporção de todos os homens na comunidade que preferem a lâmina do cliente.3 . b) Para uma amostra de 60 máquinas.4%. com desvio padrão de 0.0253. Construa um intervalo de confiança de 99 % para a média salarial dos funcionários. 0.01467. Uma amostra de tamanho 15 forneceu os seguintes valores ∑ X i = 8. a) Determine um intervalo de confiança de 99 % para o tempo médio de conversão. Estimar a proporção de todas as peças que são defeituosas no carregamento utilizando um intervalo de confiança de 99 %. foi medida a capacidade toráxica antes e após determinado tratamento.5 cm com desvio padrão de 5. e a média da população preta. b) a diferença entre as médias entre brancos e pretos 23) Em uma amostra aleatória de cinco pessoas.0 cm.19) Uma pequena fábrica comprou um lote de 200 pequenas peças eletrônicas de um saldo de estoque de uma grande firma. Branco Preto 8 9 18 12 10 5 10 10 14 14 12 6 Construir um intervalo de 95% de confiança para: a) a média da população branca. constatou-se que 5 eram defeituosas. A primeira amostra oriunda de 200 sementes. A segunda amostra. uma amostra aleatória de 120 operários. acusou altura média de 10. 20) Duas amostras de plantas foram cultivadas com dois fertilizantes diferentes. Pessoa A B C D E Capacidade Toráxica Antes (X) Após (Y) 2750 2850 2360 2380 2950 2930 2830 2860 2250 2320 111 . Construir um intervalo de 95% de confiança para a diferença entre as médias antes e depois do tratamento. para executar determinado serviço. de 100 sementes. 22) Extraíram-se amostras independentes de adultos brancos e pretos. Construir um intervalo de confiança entre as alturas médias das populações ao nível de 95% de confiança. Em uma segunda fábrica. gasta em média 19. para executar a mesma tarefa. obtendo-se os dados a seguir. acusou uma altura média de 10.9 cm e desvio padrão 2. que acusaram os seguintes tempos (em anos) de escolaridade. Construir um intervalo de 99% de confiança entre as médias das populações. com S2 de 4 min2.0 min. Para uma amostra aleatória de 50 peças.0 min com S2 de 10 min2.0 cm. 21) Uma amostra aleatória de 120 trabalhadores de uma grande fábrica leva em média 22. obteve-se os seguintes resultados quantos aos salários em milhares de dólares: Construir um intervalo de 95% de confiança para: Homens n1 = 25 X1 = 16. Construir um intervalo de 95% de confiança para a diferença π 1 .0275.1527 112 .0727. Construir um intervalo de 99% de confiança para as diferenças entre as proporções. R = LI = 0. É a favor ou contra esta decisão?" Uma semana mais tarde foram consultados 1650 americanos foram consultados sobre o mesmo assunto . LS = 0.24) Extraída duas amostras de professores homens e mulheres. a qualquer momento durante os três primeiros meses.π 2. ao invés de "interromper a gravidez". 30 famílias de uma amostra aleatória de 150 declararam ser uma intenção comprar um carro novo dentro de um ano.01628. exceto que a pergunta "a favor do aborto. R = LI = 0. LS = 0. R = LI = 0. 25) Em uma pesquisa efetuada em com 1650 americanos foram consultados sobre o seguinte tema: "A mulher grávida pode procurar um médico e interromper a gravidez. As respostas foram as seguintes: Pergunta "Interromper a gravidez" "A favor do aborto" A favor 46% 41% Resposta Contra 39% 49% Sem opinião 15% 10% a) Seja π 1 a proporção dos votantes a favor do 1o caso (interromper) e π 2 a proporção dos votantes a favor do 2 o caso (aborto).0 2 S1 = 16 Mulheres n2 = 5 X 2 = 11.0725 26) Numa pesquisa sobre intenção do comprador brasileiro. c) a média do salário das mulheres.0 S 2 = 10 2 a) a média da diferença entre os salários. LS = 0. b) a média do salário dos homens.08379 b) Repetir a (a) para os votantes que não tiveram opinião. Uma outra amostra de 160 famílias 25 declararam a mesma intenção. chamada hipótese nula. 9. 9. isto é. e pelos elementos amostrais faz-se um teste que indicará a ACEITAÇÃO ou REJEIÇÃO da hipótese formulada. a partir de um teste de hipóteses.65 m. No caso da inferência através de Intervalo de confiança. e por H1 a hipótese alternativa. realizado com os dados amostrais. ou seja. H: p = 0. ou quanto à natureza da distribuição de uma variável populacional. busca-se "cercar" o parâmetro populacional desconhecido. São exemplos de hipóteses estatísticas: a) A altura média da população brasileira é 1. A hipótese nula expressa uma igualdade.25 d) A distribuição dos pesos dos alunos da nossa faculdade é normal. 113 .1. H: σ 2 = 500 2 .1. 9. a hipóteses estatística a ser testada. c) A proporção de paulistas fumantes é 25%. Ou seja.1. isto é: H: µ = 1. pode-se inferir sobre a população.1 Principais Conceitos 9. enquanto que a hipótese alternativa é dada por uma desigualdade (≠ .65 m. b) A variância populacional dos salários vale $ 500 2. >). Aqui formula-se uma hipótese quanto ao valor do parâmetro populacional.3 Tipos de Hipóteses Designa-se por Ho. < .9 Teste de Hip óte ses Trata-se de uma técnica para se fazer inferência estatística.2 Teste de Hipótese É uma regra de decisão para aceitar ou rejeitar uma hipóteses estatística com base nos elementos amostrais.1 Hipótese Estatística Trata-se de uma suposição quanto ao valor de um parâmetro populacional. por α e A probabilidade α do erro do tipo I é denominada "nível de significância" do teste.4 Tipos de erros Há dois tipos de erro ao testar uma hipótese estatística.Exemplos: H 0: Θ = θ0   H 1: Θ ≠ θ 0 H 0: Θ = θ0   H 1: Θ > θ 0  H 0 : Θ = θ0   H 1: Θ < θ 0 Teste Bicaudal ou Bilateral Teste Unilateral Direito Teste Unilateral Esquerdo 9.β) Observe que o erro tipo I só poderá acontecer se for rejeitado Ho e o erro tipo II quando for aceito Ho . As probabilidades desses dois tipos de erros são designados. falsa. A rejeição de uma hipótese verdadeira é chamada "erro tipo I".α) H o falsa Erro Tipo II ( β) Decisão Correta (1 . 114 . respectivamente.1. A aceitação de uma hipótese falsa constitui um "erro tipo II". Os possíveis erros e acertos de um teste estão sintetizados abaixo: Realidade H o verdadeira Erro Tipo I ( α) Decisão Aceitar H o Rejeitar Ho Decisão correta (1 . β. Pode-se rejeitar uma hipóteses quando ela é. de fato verdadeira. de fato. ou aceitar uma hipóteses quando ela é. . Com o auxílio das tabelas "Z" e "t" determinar as regiões RA e RR. 3 o ) com o auxílio das tabelas estatísticas. . passo: O procedimento para realização dos testes de significância é resumido nos seguintes 1 o ) Enunciar as hipóteses H 0 e H 1. 3. 4 o ) com os elementos amostrais. Fixar α. a variável teste será "t" de Student com ϕ = n -1 (n ≤ 30). .9. considerando α e a variável do teste. 5 o ) concluir pela aceitação ou rejeição do H0 pela comparação do valor calculado no 4o passo com RA e RR.2. (a) (b) (c) 115 . sócio-econômicas. 2 o ) fixar o limite do erro α. Admitindo: . 9. pois são os mais usados em pesquisas educacionais. Enunciar as hipóteses: µ ≠ µ 0 (a)  H1 : µ > µ 0 (b) µ < µ (c)  0 H 0 : µ = µ0 2.Se a variância populacional σ2 for desconhecida.Se a variância populacional σ 2 for conhecida. determinar as RR (região de rejeição) e RA (região de aceitação) para Ho.1 Teste de significância para a média 1. e identificar a variável do teste. calcular o valor da variável do teste. a variável teste será "Z" (n>30).2 Teste de significância Os testes de Significância considera somente erros do tipo α. .: Os dois registros dos últimos anos de um colégio. (R = aceita-se Ho ) 9. para efetuar o teste. ao acaso. Admitir α = 5%. Ex. rejeita-se Ho.Se a variável teste (calculada) cair dentro da região de aceitação (RA) não se pode rejeitar Ho . tirou-se. 116 . Fixar α. Escolhendo a variável normal padrão "Z". Enunciar as hipóteses: π ≠ p 0 (a)  H1 : π > p 0 (b) π < p (c)  0 Ho : π = po 2.Se Zcal < − Z α ou Zcal > +Z α ou t cal < − t α ou t cal > + t α . 2 2 2 2 OBS. 3. uma amostra de 20 notas. 2 2 2 2 .Se a variável teste (calculada) cair fora da região de aceitação (RA) rejeita-se Ho. Calcular o valor da variável: Z cal = X − µ0 σ n t cal = X − µ0 S n onde: X = média amostral µ 0 = valor da hipótese nula 5. Com o auxílio da tabela "Z" determinar as regiões RA e RR.4. não se pode rejeitar Ho.2 Teste de significância para a proporção 1.Se − Z α ≤ Zcal ≤ + Zα ou − t α ≤ t cal ≤ + t α . Conclusão para a situação ( a ) .: Para qualquer tipo de teste de significância devemos considerar: . Para testar a hipótese de que a média de uma nova turma é a mesma.2. obtendo-se média 118 e desvio padrão 20. atestam para os calouros admitidos uma nota média de 115 pontos (teste vocacional). 2 2 . 117 .Se − Z α ≤ Zcal ≤ + Z α . (R = rejeita-se Ho ) 9.6 .Se Zcal < − Z α ou Zcal > +Z α . Enunciar as hipóteses: Ho : σ 2 = σ2 0 σ 2 ≠ σ 2 (a) 0  H1 : σ 2 > σ 2 (b) 0 σ 2 < σ 2 (c) 0  2. Calcular o valor da variável: (b) (c) Z cal = f − p0 p0 . q0 n onde f = X n onde: f = freqüência relativa do evento na amostral X = característica dentro da amostra po = valor da hipótese nula 5. rejeita-se Ho. Testar essa hipótese ao nível de 2%.: As condições de mortalidade de uma região são tais que a proporção de nascidos que sobrevivem até 60 anos é de 0.2. Escolhendo a variável qui-quadrado com ϕ = n -1. verificou-se 530 sobreviventes até 60 anos. se em 1000 nascimentos amostrados aleatoriamente. Conclusão para a situação (a) . Fixar α.(a) 4. não se pode rejeitar Ho . 2 2 Ex.3 Teste de significância para a varância 1. 3. Conclusão para a situação (a) . inf sup . Com o auxílio da tabela "χ 2 " determinar as regiões RA e RR.4 Teste de significância para igualdade de duas médias 1 o caso) Se as variâncias populacionais σ2 forem conhecidas e supostamente iguais.: Para testar a hipótese de que a variância de uma população é 25. Admitindo-se α = 5%. 1.2. cal inf cal sup Ex. ϕ 2 (b) .3. Calcular o valor da variável: χ2 = cal ( n − 1)S 2 σ2 0 onde: S2 = variância amostral σ 2 = valor da hipótese nula 5. ϕ inf 4. (R = aceita-se H o) 10. não se pode rejeitar Ho. independentes e normais.µ2 = d µ 1 ≠ µ 2 H1 :   µ1 − µ 2 ≠ d 118 . ϕ sup α 2 Para ( c ) temos: χ2 = χ1−α. tirou-se uma amostra de 25 elementos obtendo-se S2 = 18. a variável teste será "Z" (n1 + n 2 > 30) . rejeita-se Ho. efetuar o teste de significância unicaudal a esquerda. Enunciar as hipóteses: Ho : µ1 = µ2 ou µ1 .Se χ 2 ≤ χ cal ≤ χ 2 . (a) 1− .Se χ 2 < χ 2 ou χ 2 > χ 2 .ϕ (c) Para ( a ) temos: χ2 = χ2 α χ2 = χ2 inf sup α 2 Para ( b ) temos: χ 2 = χ 2 . Calcular o valor da variável: µ 1 ≠ µ 2 H1:   µ1 − µ 2 ≠ d 119 . 3. 4. e para o tipo B. testar a hipótese de que a vida média dos dois tipos é a mesma.: Um fabricante de pneus faz dois tipos. a variável teste será "t" (n1 + n2 ≤ 30) com ϕ = n1 + n2 -2. independentes e normais. Para o tipo A.onde d é a diferença admitida entre as duas médias. 2. Escolhendo a variável "t" de Student. 3. σ = 3000 Km. 4. a) As estimativas diferentes 1.µ2 = d onde d é a diferença admitida entre as duas médias. Ex. Fixar α. σ = 2500 Km. Calcular o valor da variável: Zcal = (X 1 − X2 ) − d σ2 σ2 1 + 2 n1 n2 5. Enunciar as hipóteses: Ho : µ1 = µ2 ou µ1 . (R = rejeita-se Ho ) 2 o caso) Se as variâncias populacionais σ 2 forem desconhecidas. Adotando um risco de 4% e que existe uma diferença admitida de 200 Km entre as marcas. obtendo 24000 Km e 26000 Km de duração média dos respectivos tipos. Com o auxílio da tabela "Z" determinar as regiões RA e RR. Escolhendo a variável normal padrão "Z". Com o auxílio da tabela "t" determinar as regiões RA e RR. Um taxi testou 50 pneus do tipo A e 40 pneus do tipo B. 2. Conclusão: Optar pela aceitação ou rejeição de Ho . Fixar α. : Dois tipos de tintas foram testados sob as mesmas condições meteorológicas. 4. Conclusões: Optar pela aceitação ou rejeição de Ho .000 km rodados com desvio padrão de 5.µ2 = d onde d é a diferença admitida entre as duas médias. registrou uma média de 80. em 6 partes amostradas. Fixar α. b) As estimativas iguais 1. 5. Escolhendo a variável "t" de Student. Conclusões: Optar pela aceitação ou rejeição de Ho . Adotando α = 5% testar a hipótese da igualdade das médias. 2. O tipo B.000 km com desvio padrão de 6. O tipo A registrou uma média de 80 min para secagem com desvio padrão de 5 min. uma média de 83 min com desvio padrão de 4 min. Calcular o valor da variável: t cal = µ 1 ≠ µ 2 H1:   µ1 − µ 2 ≠ d (X 1 − X2 ) − d 1 1 + n1 n 2 onde S C = ( n1 − 1)S2 + ( n2 − 1)S2 1 2 n1 + n 2 − 2 S c. O tipo B fabricado pela fábrica B.t cal = (X 1 − X2 ) − d S2 S2 1 + 2 n1 n2 5. (R = aceita-se Ho ) 120 . Ex. registrou uma média de 88.000 km. O tipo A fabricado pela fabrica A. em 6 carros amostradas. Adotando α = 5% testar a hipótese da igualdade das médias. Ex. Enunciar as hipóteses: Ho : µ1 = µ2 ou µ1 .500 km em 12 carros amostradas.: Dois tipos de pneus foram testados sob as mesmas condições meteorológicas. em cinco partes amostradas. Com o auxílio da tabela "t" determinar as regiões RA e RR. 3. Fixar α. ϕ 2 ) Finf = F1− α ( ϕ1 . ϕ 2 ) = 1 Fα (ϕ 2 .9. Fsup = Fα (ϕ 1. Homens X1 = 70 n1 = 200 Mulheres X2 = 50 n2 = 200 9. p2 = 2 . e ϕ 2 = n2 . Conclusões: Optar pela aceitação ou rejeição de Ho . Calcular o valor da variável: Z cal = $ $ p1 − p2 $ $ p1−2 . Ex. Fixar α.6 Teste de significância para igualdade de duas variâncias 1. Enunciar as hipóteses: H o : π1 = π2 H 1: π 1 ≠ π 2 2.2.2. ϕ 1 ) 121 . Escolhendo a variável normal padrão "Z".q 1−2 n onde p1 = $ X1 X X + X2 $ $ . Escolhendo a variável "F" com ϕ 1 = n1 . São os seguintes os resultados da amostra aleatória independente de homens e mulheres: Admita α = 10%.1 graus de liberdade no denominador. Enunciar as hipóteses: 2 H 0: σ1 = σ 2 2 H 1: σ 2 ≠ σ 2 1 2 2. p1−2 = 1 n1 n2 n1 + n 2 5. 4. Com o auxílio da tabela "Z" determinar as regiões RA e RR.1 graus de liberdade no numerador.5 Teste de significância para igualdade de duas proporções 1. 3.: Deseja-se testar se são iguais as proporções de homens e mulheres que lêem revista e se lembram do determinado anúncio. 3. Com o auxílio da tabela "F" determinar as regiões RA e RR. 59 8.4. Seis amostras de água retiradas de um rio.3 Exercícios 1) O crescimento da indústria da lagosta na Flórida nos últimos 20 anos tornou esse estado americano o 2o mais lucrativo centro industrial de pesca. Sendo α = 10%.m. que chega aos Estados Unidos. (Partes por milhão) de oxigênio dissolvido. Uma amostra de 20 barcos pesqueiros. Produza uma redução na quantidade de Kg de lagosta que chega aos Estados Unidos.6 18.57 13. revelaram os índices (em partes por milhão) de oxigênio dissolvido: 122 . Calcular o valor da variável: Fcal = 5.: Dois programas de treinamento de funcionários foram efetuados. reduzindo assim o conteúdo do oxigênio necessário à respiração dos peixes e outras formas de vida aquática. Conclusões: S2 1 S2 2 Optar pela aceitação ou rejeição de Ho . Uma lei estadual exige um mínimo de 5 p.47 10.02 11.96 19. (bilateral) 2) Os resíduos industriais jogados nos rios. muitas vezes. Ex.79 15. a fim de que o conteúdo de oxigênio seja suficiente para manter a vida aquática. durante a maré baixa.96 17.89 15. No novo programa.89 12. em Kg (Use α = 5%) 7. que proibiu os pescadores norte americanos de jogarem suas redes na plataforma continental desse país.53 10.68 5.57 19. recolhida após a vigência da nova lei.87 9. pode-se concluir que a variância é diferente para os dois programas? 9.57 17. Espera -se que uma recente medida tomada pelo governo das Bahamas. 11 funcionários apresentaram uma variância de 200. indicou os seguintes resultados. depois do decreto do governo das Bahamas? Teste considerando α = 5%.p. De acordo com índices passados. absorvem oxigênio. cada rede traz em média 14 Kg de lagosta.29 16.28 10. Os 21 funcionários treinados no programa antigo apresentaram uma variância de 146 pontos em sua taxa de erro.93 8.91 11.06 Estes dados mostram evidências suficientes de estar ocorrendo um decréscimo na quantidade média de lagostas pescadas por barco. b) Testar a hipótese de que a proporção dos adultos que tiveram melhor resultado nas aplicações musculares é de 85%. 7) Um processo de fabricação de arame de aço dá um produto com resistência média de 200 psi. ao nível de 1%. 4) Ao final de 90 dias de um dieta alimentar envolvendo 32 pessoas. 6) A tabela abaixo mostra a quantidade de pessoas que obtiveram o melhor efeito perante a aplicação de duas drogas: Droga A Sexo Masculino Feminino Total muscular intravenosa Droga B muscular 21 20 41 10 12 22 22 25 47 Total 53 57 110 a) Testar a hipótese de que a proporção de homens submetidos a droga A é de 35%.5 5. O desvio padrão é de 20 psi. b) Repita o teste. usando α = 2%. sendo α = 3%. Uma análise de 90 itens aleatoriamente inspecionados acusou uma média de eficiência de 380 horas. O engenheiro de controle de qualidade deseja elaborar um teste que indique se houve ou não variação na média do 123 .9 5. 3) A Debug Company vende um repelente de insetos que alega ser eficiente pelo prazo de 400 horas no mínimo. considerando um desvio padrão populacional de 90 horas. 5) Uma pesquisa feita alega que 15% dos pessoas de uma determinada região sofrem de cegueira aos 70 anos. c) Testar a hipótese de que a proporção de mulheres é de 50%. usando α = 4%. seu desvio padrão é de 60 horas. teste a hipótese para α = 5%. contra a alternativa que a duração é inferior a 400 horas. d) Testar a hipótese de que a proporção de pessoas submetidos a droga A é de 65%.4. teste a hipótese para α = 5%. a) Teste a afirmativa da companhia.8 g2. se esse valor é o mesmo (bilateral). constatou-se o seguinte ganhos médio de peso 40 g. Numa amostra aleatória de 60 pessoas acima de 70 anos constatou-se que 12 pessoas eram cegas.9 5.378g. Teste a alegação para α = 5% contra p > 15%. se esse valor é o mesmo (bilateral) b) Supondo que a variância dessas pessoas é de 1. e desvio padrão de 1. usando α = 5%.7 Estes dados são evidência para afirmar que o conteúdo de oxigênio é menor que 5 partes por milhão? Teste considerando α = 5% e α = 1%.1 4.0 4. a) Supondo que o ganho de peso médio dessas pessoas é de 45 g. 32.processo. 10) Uma experiência tem mostrado que 40% dos estudantes de uma Universidade reprovam em pelo menos 5 disciplinas cursada na faculdade.71 σ 12 = 43 σ 22 = 28 X 2 = 4. 9) Um laboratório de Análises Clínicas realizou um teste de impurezas em 9 porções de um determinado composto.. usando uma amostra de 25 arames obteve-se uma média de 285 psi. 10. 10. 10. obtendo-se a seguinte tabela: Sexo Machos Fêmeas Tamanho da Amostra 41 31 Variância 43. 10. Os valores obtidos foram: 10. 12) Sendo Amostra 1 Amostra 2 n1 = 60 n2 = 35 X 1 = 5.7. 10. b) Testar a hipótese de que a média de impureza é de 10. 11) Para verificar a eficácia de uma nova droga foram injetados doses em 72 ratos.12 a) Testar a igualdade das duas médias usando α = 4%. Suponha normal a população das resistências. b) Repitas o item (a) sabendo que o desvio padrão populacional é de 90 horas.75 mg.60.63. a) Teste a alegação da companhia.44. Uma análise de 9 itens escolhidos aleatoriamente acusou uma média de eficiência de 380 horas. c) Testar a hipótese de que a variância é um usando α = 5%.56. 8) A DeBug Company vende um repelente para insetos que alega ser eficiente pelo prazo de 400 horas no mínimo.73. b) Testar a igualdade das duas variâncias usando α = 5% 124 . a) estimar a média e a variância de impurezas entre as porções. Se 40 de 90 estudantes fossem reprovados em mais de 5 disciplinas. 10. 10. Use um nível de significância de 5%.4. e o desvio padrão amostral é de 60 horas. contra a alternativa que a duração é inferior a 400 horas no mínimo ao nível de 1%. poderíamos concluir quanto a proporção populacional.67.5 Testar a igualdade das duas variâncias usando α = 10%. usando α = 5%. 10.2 29. usando α = 1%. Numa seqüência de 1000 latas. Este teste é chamado de teste do Qui-quadrado. 16) Estão em teste dois processos para fechar latas de comestíveis.55 55 |--. e pergunta a cada um se votará ou não num determinado candidato nas próximas eleições. b) Testar ao nível de 5% a hipótese de que a diferença entre as variâncias valha 0. o processo 1 gera 50 rejeições.70 70 |---85 8 15 12 7 3 a) Testar ao nível de 10% a hipótese de que a d iferença entre a renda média dos homens e das mulheres valha $ 5000. concluir que os dois processos sejam diferentes? 9. aleatoriamente.4 Teste do Qui-quadrado χ 2 Anteriormente foi testado hipóteses referentes a um parâmetro populacional ou mesmo a comparação de dois parâmetros. O teste do Qui-quadrado é usado quando se quer comparar freqüências observadas com freqüências esperadas.25 25 |--.40 40 |--. 15) Uma empresa de pesquisa de opinião seleciona. nem de suas respectivas estimativas. 75 eleitores de SP e 120 do RJ responderam afirmativo.13) Na tabela abaixo estão registrados os índices de vendas em 6 supermecados para os produtos concorrentes da marca A e marca B.70 70 |---85 7 12 10 6 4 da população masculina retirou-se uma amostra resultando: Renda (em $1000) No de homens 10 |--. enquanto o processo 2 acusa 200 rejeições. são os testes paramétricos. Supermercado 1 2 3 4 5 6 Marca A 14 20 2 11 5 12 Marca B 4 16 28 9 31 10 14) Da população feminina extraiu-se uma amostra resultando: No de mulheres Renda (em $1000) 10 |--. Divide-se em três tipos: 125 . Pode ao nível de 5%. Há diferença entre as proporções de eleitores favoráveis ao candidato naqueles dois estados? use α = 5%. usando α = 5%.25 25 |--. ou seja. Testar a hipótese de que a diferença das médias no índice de vendas entre as marcas é zero.55 55 | --. Agora será testado aqueles que não dependem de um parâmetro populacional.40 40 |--. 300 eleitores de São Paulo e 400 do Rio de Janeiro. - Teste de adequação do ajustamento - Teste de Aderência - Teste de Independência (Tabela de Contingência) 9.4.1 Procedimentos para a realização de um teste Qui-quarado (χ 2 ) 1 o) Determinação das Hipóteses: Ho : Fo = Fe 2 o) Escolha do Nível de Significância (α) 3 o) Estatística Calculada H1: Fo ≠ Fe χ 2 cal =∑ i =1 k (Fo − Fe ) Fe 2 4 o) Estatística Tabelada: 5 o) Comparar o χ 2 = χ 2 ,α tab ϕ 2 χ2 cal com χ tab e concluir: 6 o) Conclusão: Se Se χ2 cal χ2 cal ≤ χ tab → aceita -se Ho 2 > χ tab → rejeita-se H o 2 126 9.4.2 Teste de adequação do ajustamento Suponhamos uma amostra de tamanho n. Sejam E1, E2, ..., Ek, um conjunto de eventos possíveis da amostra. Eventos E1 E2 : Ek Total Freq. Obs. Fo1 Fo2 : Fok n Este teste é indicado para verificar se as freqüências observadas dos k eventos (k classes em que a variável é dividida) concordam ou não com as freqüências teóricas esperadas. As freqüências esperadas (Fei) são obtidas multiplicando-se o número total de elementos pela proporção teórica da classe i (n. pi). Para encontrar o χ cal , necessita-se do nível de Significância (α) e dos graus de liberdade (ϕ), os quais podem ser obtidos da seguinte forma: 2 1 o) ϕ = k - 1, quando as freqüências esperadas puderem ser calculadas sem que façam estimativas dos parâmetros populacionais a partir das distribuições amostrais. 2 o) ϕ = k - 1 - m, quando para a determinação das freqüências esperadas, m parâmetros tiverem suas estimativas calculadas a partir das distribuições amostrais. Pearson mostrou que, se o modelo testado for verdadeiro e se todas as Fei ≤ 5%, estas deverão ser fundidas às classes adjacentes. Ex1.: Deseja-se testar se o número de acidentes numa rodovia se distribui igualmente pelos dias da semana. Para tanto foram levantados os seguintes dados ( = α 5%). Dia da Semana No de Acidentes Dom Seg Ter Qua Qui Sex Sab 33 26 21 22 17 20 36 Resolução: Ho : As freqüências são iguais em todos os dias H1 :As freqüências são diferentes em todos os dias 127 Dia da Semana No de Acidentes pi Fe = n . p i Dom Seg Ter Qua Qui Sex Sab k=7 33 1/7 25 26 1/7 25 21 1/7 25 22 1/7 25 17 1/7 25 20 1/7 25 36 1/7 25 175 --- --- χ2 = calc (33 − 25)2 + (26 − 25)2 25 25 + ... + (36 − 25) 2 25 = 12 χ 2 = 12 cal χ 2 = χ 2%, 6 = 12. 5 tab 5 Conclusão: Como o χ 2 < χ2 , aceita-se Ho, ou seja, para α = 5%, as freqüências cal tab podem ser iguais. Ex2.: O número de livros emprestados por uma biblioteca durante certa semana está a seguir. Teste a hipótese que o número de livros emprestados não dependem do dia da semana, com α = 1%. Dia da Semana No de Livros 2 Seg Ter Qua Qui Sex 110 135 120 146 114 2 R = χ2 = 7.29 ; χ tab = χ1%, 4 = 13. 28 cal 9.4.3 Teste de aderência É usada a estatística χ 2 quando deseja-se testar a natureza da distribuição amostral. Por exemplo, quando se quer verificar se a distribuição amostral se ajusta a um determinado modelo de distribuição de probabilidade (Normal, Poisson, Binomial, ...), ou seja, verifica-se a boa ou má, aderência dos dados da amostra do modelo. Ex1.: O número de defeitos por unidade de uma amostra de 100 aparelhos de TV produzidos por uma linha de montagem apresentou a seguinte distribuição: No de Defeitos No de Aparelhos 0 1 2 3 4 5 6 7 25 35 18 13 4 2 2 1 Verificar se o número de defeitos por unidade segue razoavelmente uma distribuição de Poisson, com α = 5%. Resolução: Ho : A distribuição do no de defeitos/unidade segue uma Poisson H1 : A distribuição do no de defeitos/unidade não segue uma Poisson 128 55) p7 = = 0.2 32...9 + .001 6! * = Fei ≤ 5%.132 4 0.2 32.55 (1.9) 2 21.5 13. para α = 5%.55 (1.f i i =1 n i p0 = e −1.55) = 0.2 5.329 1! p2 = e −1 . 55 (1.55) = 0.55) = 0.474 k = 5 (número de classes após agrupament o) ϕ = k −1 − m = 5 −1−1 = 3  m = 1 (número de estimadore s usados) (X ) χ 2 = χ 2%.016 2 0.No de Defeitos No de Aparelhos pi Fe = n .55) p3 = = 0.1* 100 Para calcular pi.016 5! p6 = e −1. a distribuição do cal tab número de defeitos/unidade pode seguir uma Distribuição de Poisson.9 25.001 100 1. ou seja.55 (1.6* 0.004 6! 6 6 e −1. χ2 = calc (25 − 21.212 0! 0 1 n = 1.212 35 0. temos: pi = e −µ µi (Distribuição de Poisson) i! µ=X= ∑X .000 21.2 )2 + (35 − 32.1 1.55 (1. pi 0 1 2 3 4 5 6 7 n 25 0. aceita-se Ho.55 (1. + (9 − 7.55 4 p4 = e −1 . 81 tab 5 Conclusão: Como o χ 2 ≤ χ 2 .55 (1.255 2! 2 3 e −1.55) p5 = = 0.55) p1 = = 0. 55 (1.051 4! 5 e −1 .55) = 0. 129 .2 )2 1 7.051 2 0.132 3! e −1 . logo deve ser agrupada com a classe adjacente. 3 = 7.24 4 3 2 4 − 5 −6 − 7 = 3.329 18 0.4* 0.004 1 0.255 13 0. 76 6.5 + 4. 67 180 − 168. 67 Z4 = Z5 = 174 − 168. Altura (cm) 150 |--.14 -0.8)) 2 144414 . 67 + + + = 3.3 29.6 + 12.2)2 (( 20 + 2) − (17. 96 = −1.1 = 3.0 Resolução: Ho : A distribuição da altura das estudantes do sexo feminino é normal H1 : A distribuição da altura das estudantes do sexo feminino não é normal Para calcular pi.156 156 |--.026 * 0.5 33 .75 |--. aceita-se Ho. temos: Zi = x −µ (Distribuição Normal Padrão) S S= µ=X= ∑ X i .5) 2 (40 − 33.5 4. 96 = −1.m = 4.(X n i =1 i i − X) n−1 = 6.295 0.5 33.-1. 67 162 − 168 .2 1444 22 .1-2 = 1   m = 2 (número de estimadore s usados) ( X) (S) χ 2 = χ 2%.000 Fe = n . 96 = 0.9 444 4 4 2 3 1− 2 29 .+ ∞ Prob (área) 0.174 174 |--.186 k=6 No de Estudantes 4 12 22 40 20 2 100 Transf. "Z" -∞ |--. 84 tab 5 Conclusão: Como o χ 2 ≤ χ 2 . 96 = 1.14 6. p i 2.162 162 |--.123 0.76 0.04 -1.66 1.: Verificar se os dados das distribuição das alturas de 100 estudantes do sexo feminino se aproxima de uma distribuição normal. 04 6.332 0. ou seja.96 = −0.048 * 1. com α = 5%.0. a distribuição da cal tab altura das estudantes do sexo feminino é normal.1.Ex2.66 |--.94 -1.1.-0.96 ∑ f .168 168 |--.14 |--. 130 .67 Z1 = Z2 = 156 − 168. 65 6.2 17. 94 6.180 180 |--. fi i =1 n n = 168 .3)) 2 (22 − 29. 67 Z3 = χ2 = calc 168 − 168.-1.8 100.04 |--. para α = 5%.6 12.3 444 4 4 2 3 5 −6 k = 4 (número de classes após agrupament o) ϕ = k.38 (( 4 + 12) − (2.175 0.94 |--. Município X Y A 28 44 Níveis de Renda B C 42 30 78 78 D 24 76 Ho : As variáveis são independentes H1 : As variáveis são dependentes X Y Total (c) A 28 44 72 B 42 78 120 C 30 78 108 D 24 76 100 Total ( l ) 124 276 400 Fe11 = 124 x72 = 22.: Verifique se há associação entre os níveis de renda e os municípios onde foram pesquisados 400 moradores. 68 400 131 . nesse caso. O teste do χ 2 não é indicado em tabelas 2 x 2 nos seguintes casos: i) quando alguma freqüência esperada for menor que 1.4 Tabelas de contingência – Teste de independência Uma importante aplicação do teste χ 2 ocorre quando se quer estudar a relação entre duas ou mais variáveis de classificação. 32 400 Fe21 = 276x72 = 49. Neste caso aplica-se o teste exato de Fischer.: Em tabelas 2 x 2 temos 1 grau de liberdade. por isso utiliza -se a correção de Yates.9. iii) quando a freqüência total (20 ≤ n ≤ 40) e algumas freqüências esperadas for menor que 5. onde para n ≥ 50 pode ser omitida.4. Use α = 1%. onde L é o número de linhas e C o número de colunas da tabela de contingência. pode ser feita por meio de uma tabela de contingência. A representação das freqüências observadas.1) (C . Ho : As variáveis são independentes (não estão associadas) H1 : As variáveis não são independentes (estão associadas) O número de graus de liberdade é dado por: ϕ = (L .1). χ2 = ∑ cal i =1 k (Fo − Fe ) Fe 2 Feij = (soma da linha i )(soma da coluna j) total de observações Obs. ii) quando a freqüência total for menor que 20 (n ≤ 20). Ex. Uma medida do grau de relacionamento. 8 400 276x108 = 74. Salários Alto Médio Baixo Alta 18 26 6 Notas Escolares Baixa Média 5 17 16 38 9 15 R = aceita H o 132 . 2 400 124x108 = 33.2 (76 − 69)2 + .0 400 Fe22 = Fe23 = Fe24 = 276x120 = 82. O máximo valor de C dependerá do número de linhas e colunas da tabela e pode variar de 0 (independência) a 1 (dependência total)..5 Exercícios 1) Verificar se os dados se a justam a uma distribuição de Poisson. maior o grau de associação. + 69 2 2 χ 2 = χ1%. para α = 1%..Fe12 = Fe13 = Fe14 = χ 124x120 = 37. ou seja..32 37. 2)2 = 22. 9.5%. 52 400 276x100 = 69 400 = 5. aceita-se Ho. 48 400 124x100 = 31. associação ou dependência das classificações em uma tabela de contingência é dada pelo coeficiente de contingência.32)2 + (42 − 37.( 2 −1)( 4−1) = χ1%.34 tab Conclusão: Como o χ 2 ≤ χ 2 . α = 2. C= χ2 cal 2 χcal + n Quanto maior o valor de C.81 2 calc (28 − 22.3 = 11. as variáveis são cal tab independentes. No de Acidentes No de Dias 0 25 1 19 2 10 3 9 4 4 5 3 2) Testar para α = 5% se há alguma relação entre as notas escolares e o salário. 1250 1250 |--.2. pago ou não. (α = 5%). o gerente de uma financeira selecionou ao acaso 100 clientes obtendo os resultados da tabela.750 750 |--. Sexo Masculino Feminino A 50 29 Partido B 72 35 C = 4% 4) Com o objetivo de investigar a relação entre a situação do emprego no momento em que se aprovou um empréstimo e saber se o empréstimo está.2750 2750 |--.2250 2250 |--.7 --.3) Determine o valor do coeficiente de contingência considerando os dados: α = 1%.3250 3250 |--.1 --.1.8 --.42.32 e o desvio padrão de 0.6 2.2.3 2. com α = 5%.2.4750 Total freq.1750 1750 |--. agora. Teste a hipótese nula de que as freqüências observadas seguem uma distribuição normal. A média desta distribuição é de 2.5 --. com α = 5%. Estado Atual do Empréstimo Em mora Em dia Situação de Emprego Empregado Desempregado 10 8 60 22 R = Aceita H o 5) A tabela indica o número médio de acidentes por mil homens/hora da amostra de 50 firmas obtidas de uma indústria específica. obtendo-se a seguinte distribuição: Classes ($) 250 |--. observada 2 10 26 45 60 37 13 5 2 200 133 .2.0 2.4250 4250 |--.0 --. No de Acidentes 1.2 Total No de Firmas 3 12 14 9 7 5 50 R = Aceita Ho 6) Verifique se a distribuição se ajusta a normal.3.3750 3750 |--. onde 200 casas de aluguel foram pesquisadas.9 3.4 --.7 1. Teste a hipótese nula de que a situação de emprego e a de empréstimo são variáveis independentes. designadas. Vendas x Lucro. Simbolicamente a relação é expressa por uma equação de regressão e graficamente por uma curva de regressão. 134 . de pares de valores.: Peso x Idade. ˆ x i ⇒ variável independente. O problema consiste em estabelecer a função matemática que melhor exprime a relação existente entre as duas variáveis. X e Y. é o estudo das relações entre as variáveis X e Y. com base em valores conhecidos da outra. 10. ε i ⇒ resíduo.2 Definição Constitui uma tentativa de estabelecer uma equação matemática linear que descreva o relacionamento entre duas variáveis (uma dependente e outra independente). β ⇒ coeficiente linear.3 Modelo de Regressão ˆ yi = α xi + β + εi y i ⇒ valor estimado (variável dependente). Nota x Horas de Estudo 10. Yi). A equação de regressão tem por finalidade ESTIMAR valores de uma variável.10 REGRESS ÃO E C ORRELAÇÃO 10. Objetivo visado quando se registra pares de valores (observações) em uma amostra. α ⇒ coeficiente de regressão (coeficiente angular). Para a análise de regressão interessam principalmente os casos em que a variação de um atributo é sensivelmente dependente do outro atributo. Nesses casos presume-se que pelo menos duas observações são feitas sobre cada elemento da amostra.1 Introdução Muitas vezes é de interesse estudar-se um elemento em relação a dois ou mais atributos ou variáveis simultaneamente. A amostra consistirá. Ex. Um indivíduo “i” qualquer apresenta o par de valores (Xi . um valor para cada uma das variáveis. então. a) A relação entre X e Y é linear (os acréscimos em X produzem acréscimos proporcionais em Y e a razão de crescimento é constante). ε i representa a variação de Y que não é explicada pela variável independente X. e "x" variável independente. 135 . com média zero e variância σ 2. os valores de "y" são estimados com base em valores dados ou conhecidos de "x".1 Pressuposições Na regressão. c) Y é uma variável aleatória que depende entre outras coisas dos valores de X.: Vendas (x 1000) X Lucro (x100) Obs.1 Gráfico (Diagrama de Dispersão) Tem como finalidade ajudar na decisão se uma reta descreve adequadamente ou não o conjunto de dados.3. b) Os valores de X são fixados arbitrariamente (X não é uma variável aleatória). logo a variável "y" é chamada variável dependente. portanto uma variável aleatória com distribuição normal. σ 2)].3. Ex. d) εi é o erro aleatório. e) Os erros são considerados independentes. Vendas Lucro 1 201 17 2 225 20 3 305 21 4 380 23 5 560 25 6 600 24 7 685 27 8 735 27 10. 28 26 24 Lucro 22 20 18 16 150 250 350 450 Vendas 550 650 750 850 Pelo gráfico podemos observar que a possível reta de regressão terá um coeficiente de regressão (coeficiente linear) positivo.10. [ ε i ~ N (0. $ Os valores de "a" e "b" da reta de regressão y = a x + b serão: n∑ xy − ∑ x∑ y i=1 n i =1 i =1 n n n a=  n  n ∑ x −  ∑ x  i =1  i=1 2 2 = Sxy Sxx b = y −a x Para cada par de valores (xi . serão obtidas a partir de uma amostra de n pares de valores (xi. . Obs. y1 ).4.y n ) é o Método de Mínimos Quadrados: O método dos mínimos quadrados consiste em adotar como estimativa dos parâmetros os valores que minimizem a soma dos quadrados dos desvios. Exemplo: O método mais usado para ajustar uma linha ret a para um conjunto de pontos (x1 .10. yi) que correspondem a n pontos no diagrama de dispersão..1 Características 1 a) A soma dos desvios verticais dos pontos em relação a reta é zero. y i) podemos estabelecer o desvio: e i = y i − yi = yi − ( a + bx i ) ˆ Para facilitar os cálculos da reta de regressão. 1 2 3 4 5 6 7 8 Σ Vendas Xi 201 225 305 380 560 600 685 735 3691 Lucro Yi 17 20 21 23 25 24 27 27 184 X2 i 40401 50625 93025 144400 313600 360000 469225 540225 2011501 Yi2 289 400 441 529 625 576 729 729 4318 X i . 2 a) A soma dos quadrados desses desvios é mínima.4 Método para estimação dos parâmetros α e β As estimativas dos parâmetros α e β dadas por “a” e “b”.Yi 3417 4500 6405 8740 14000 14400 18495 19845 89802 136 . 10. (x n .. acrescentamos três novas colunas na tabela dada.. Saídas do Statistica Obs.66 + 0.0159 x Lucro 22 20 18 16 150 250 350 450 Vendas 550 650 750 850 Partindo da reta de regressão podemos afirmar que para uma venda de 400 mil $ podemos obter um lucro de y = ( 0. 0159 ) (400.000) + 15.0159 x + 15.38) = 15.66 = 22 mil . é que a mesma relação possa não mais ser verificada.66 Saída do Statistica 28 26 24 y = 15.(0.66 ˆ y = 0.a= n ∑ x i yi − ∑ x i ∑ y i i =1 i =1 i =1 n  n  n∑ x 2 −  ∑ x i  i i =1  i =1  2 n n n = 8(89802) − (3691)(184) = 0. 137 .0159 2 8(2011501) − (3691) b = y − a x = 23 . O perigo da extrapolação para fora dos dados amostrais.159)(461.: Para qualquer tipo de equação de regressão devemos ter muito cuidado para não extrapolar valores para fora do âmbito dos dados. 2) graus de liberdade. Assim: SQ. SQTotal = ∑ (y i − y) i =1 n 2 A SQTotal pode ser decomposta da seguinte forma: 2 2 ˆ ˆ 2 ∑ ( yi − y) = ∑ (y i − y) + ∑ ( yi − yi ) i =1 i =1 i =1 n n n Essa relação mostra que a variação dos valores de Y em torno de sua média pode ser dividida em duas partes: uma ∑ ( yi − y) que é explicada pela regressão e outra ˆ 2 i =1 n ∑ (y i =1 n i − yi ) . 138 . Total = SQRegressão + SQResíduo SQRegress ~o a .1) graus de liberdade. SQ Regressão = y ∑ (ˆ i =1 n n n  n  2 − y) = b n ∑ x i yi − ∑ x i ∑ y i  . ˆ 2 devido ao fato de que nem todos os pontos estão sobre a reta de regressão. i =1 i =1  i =1  i com (n . i =1 i =1  i =1  n 2 n 2 i 2 com (n . Essa soma de quadrados será denominada Soma de Quadrados Total (SQTotal). indica a proporção ou percentagem da variação de Y que é “explicada” pela regressão. Fórmulas para cálculo:  n  SQTotal = ∑ ( yi − y) = n∑ y −  ∑ yi  . que é a parte “não explicada” pela regressão ou variação residual.5 Decomposição da variância Total A dispersão da variação aleatória “y” pode ser medida através da soma dos quadrados dos desvios em relação a sua média y .10. e denominada coeficiente de SQTotal determinação. A estatística definida por r 2 = Note que 0 ≤ r2 ≤ 1. 1 SQ SQRegressão SQResíduo SQTotal QM QMRegress ~o a 1 QMResíduo n -2 --- F QMRegress ~o a QMResiduo ----- onde QM representa Quadrado Médio e é obtido pela divisão da Soma de Quadrados pelos respectivos graus de liberdade. onde β representa o coeficiente de regressão paramétrico.L.2) graus de liberdade. rejeita-se H0. porém com (n . enquanto que a Soma de Quadrados do Resíduo (SQResíduos) segue a mesma distribuição. Esse fato nos permite empregar a distribuição F de Snedecor para testar a significância da regressão. segue uma distribuição de χ 2 (qui-quadrado) com (1) grau de liberdade. formula-se as seguintes hipóteses: H0: β=0 contra H1: β≠0.2 n.2 QMResiduo segue uma distribuição F de Snedecor com 1 e (n . rejeita -se H0 e conclui -se que a regressão é significativa. calculado a partir do quadro anterior.2) graus de liberdade. > Fα [1. através da chamada Análise de Variância.6 Análise de Variância da Regressão A Soma de Quadrados da Regressão (SQRegressão).(n-2)]. 139 . SQ Residuo/n .2) graus de liberdade. Portanto. sintetizada no quadro abaixo: Análise de Variância Causas de Variação Regressão Resíduo Total G. Para testar a significância da regressão. Se o valor de F. 1 n.10. superar o valor teórico de F com 1 e (n . o quociente SQRegress ~o/1 QMRegress ~o a a = . Se Fcalc. para o nível de significância α. 42 63.66 n n  n  SQRegress ~o = a n ∑ x i yi − ∑ x i ∑ yi  a i =1 i =1  i =1  SQRegress~o = 0.99 ˆ Conclui-se que a regressão de y sobre x segundo o modelo yi = 0.42 a n  n  SQTotal = n∑ y 2 −  ∑ y i  i i =1  i=1  2 SQTotal = 8(4318) . = F0. a mesma pode ser usada para explicar o relacionamento entre as variáveis e também para fazer previsões dos valores de Y para valores fixados de X.42000 10.Para o exemplo anterior: Vendas Obs. = 58.(184) 2 = 688.59587 --- F 58.0159x i + 15.0159[8(89802) − (3691)(184)] = 624.Yi 3417 4500 6405 8740 14000 14400 18495 19845 89802 ˆ yi = 0. Uma vez estabelecida e testada a equação de regressão.0159x i + 15.66 é significativa ao nível de significância de 5%.93 ----- H0: β = 0 e H1: β ≠ 0 Comparando o Fcalc.00 Causas de Variação Regressão Resíduo Total G.5 8 688. 1 2 3 4 5 6 7 8 Σ Lucro Xi 201 225 305 380 560 600 685 735 3691 Yi 17 20 21 23 25 24 27 27 184 X2 i 40401 50625 93025 144400 313600 360000 469225 540225 2011501 Yi2 289 400 441 529 625 576 729 729 4318 X i .00 QM 624.6) = 5.93 com o Ftab.05 (1.L. 140 . 1 6 7 SQ 624. (3691) ][8(4318) . Syy  n 2  n  2  n 2  n  2  n ∑ x −  ∑ x  n∑ y −  ∑ y   i =1    i=1  i =1    i=1    2 r2 = [8(2011501) . logo o fato de r² = 0. Variância Total = soma dos desvios ao quadrado  n  VT = SQTotal = ∑ ( yi − y) = n∑ y −  ∑ yi  . ou ainda é a proporção entre a variância explicada pela variância total.(3691)(184)]2 = 0.(184) ] 2 2 [8(89802) .7 Coeficiente de Determinação (r²) É o grau em que as predições baseadas na equação de regressão superam as predições baseadas em y .908 O valor de r² varia de 0 a 1. em outras palavras 9% da variação dos lucros não são explicados pelas vendas.908 (no exemplo). 141 . indica que aproximadamente 91% da variação do lucro estão relacionados com a variação das vendas. i =1 i =1  i =1  n 2 n 2 i 2 $ Variância Não-explicada = soma de quadrados dos desvios em relação a reta y VÑE = ∑ (y i =1 n i − yi ) ˆ 2 Para facilitar os cálculos usaremos: n n  n   n∑ xy − ∑ x∑ y COVxy  i=1 i =1 i =1  r2 = = Sxx.Saídas do Statistica 10. e uma correlação muito forte e positiva.5 0 +0. Esta é a forma mais comum de análise.Pode assumir valores positivos (+) como negativos (-). é semelhante ao coeficiente de regressão de uma reta ajustada num diagrama de dispersão.8 Coeficiente de Correlação (r) Tem como objetivo encontrar o grau de relação entre duas variáveis.quando o r se aproxima de +1 indica pouca dispersão.Saídas do Statistica 10. 10.quando o r se aproxima de "zero" indica muita dispersão. conhecido como "r de Pearson ".quando o r se aproxima de -1 indica pouca dispersão. ou seja. .1 Características do “r” . e uma correlação muito forte e negativa. e uma ausência de relacionamento. um coeficiente de correlação.A magnitude de r indica quão próximos da "reta" estão os pontos individuais. .5 -1 Negativa Negativa Negativa forte moderada fraca Positiva Positiva Positiva fraca moderada forte +1 0 142 .8. valor de r -0. envolvendo dados contínuos. . . 8.2 Medidas de Correlação 10. na realidade.10.2.01591 * VENDAS Correlação: r = . mediante a observação do diagrama de dispersão. 16 150 250 350 450 Vendas 550 650 750 850 143 .8.2. n n  n   n∑ xy − ∑ x ∑ y  Sxy  i =1 i =1 i =1  = S xx . 10.95 3 Saída do Statistica LUCRO = 15. que dá o valor percentual da variação de uma variável explicativa em relação a outra variável.2 Tratamento Quantitativo É o estabelecimento das medidas de correlação. uma estatística mais significante é o r² (coeficiente de determinação).8.1 Tratamento Qualitativo (correlação momento produto) Relação entre as variáveis. O valor de "r" pode ser enganoso.95295 28 26 24 Lucro 22 20 18 Regression 95% confid.Syy  n 2  n   n 2  n    n ∑ x −  ∑ x  n ∑ y −  ∑ y    i =1   i =1  i =1    i =1 r= Logo podemos observar que o coeficiente de determinação nos dá uma base intuitiva para a análise de correlação. No exemplo temos r = 0.660 + . 637 144 . 48 x + 35.86 X = Peso do Pai (kg) e Y = Peso do Filho (kg) Indivíduo Peso Pai Peso Filho 1 65 68 2 63 66 3 67 68 4 64 65 5 68 69 6 62 66 7 70 68 8 66 65 9 68 71 10 67 67 $ R = y = 0.911 X = Seguro (x 1000 ) e Y = Renda (x100) Indivíduo Seguro Renda 1 20 64 2 16 61 3 34 84 4 23 70 5 27 88 6 32 92 7 18 72 8 22 77 $ R = y = 1. e) Calcule o Coeficiente de Correlação de Pearson. r² = 74.9 Exercícios Para os dados abaixo: a) Construa um diagrama de dispersão. r² = 82. f) Interprete os resultados obtidos. r = -0. 25 .29%.08 .48. r = +0.3%. 79 x +157. r = +0.58%. r² = 40.73 X = horas de estudo e Y = Nota da Prova Aluno Horas Nota 1 2 1 2 4 3 3 5 6 4 5 6 5 6 8 6 8 7 7 9 8 8 10 10 $ R = y = 0. r² = 53. X = 1o Exame e Y = 2 o Exame Aluno Exame 1 Exame 2 1 82 92 2 84 91 3 86 90 4 83 92 5 88 87 6 87 86 7 85 89 8 83 90 9 86 92 10 85 90 $ R = y = −0. d) Calcule o Coeficiente de Explicação.99%. r = +0. 50 x + 40.12 . c) Faça uma análise de variância do modelo. 98 x + 0. b) Determine a reta de regressão.10. FONSECA. (1993). Juan Carlos (1997). São Paulo: Lapponi Treinamento e Editora. São Paulo: Atlas. J. (1995). Estatística usando o Excel. Probabilidades. G. WONNACOTT.A. G. F. 8rd ed. MARTINS. J. R.. Curso de estatística. Estatística aplicada. W. T.L.S. ANGELINI. LAPONNI. Introductory Statistics. CYMBALISTA. São Paulo: Edgard Blucher. P. John wiley & Sons.. M. 1989. Statistical Methods. WONNACOTT. (1989). Iowa: Iowa State University Press.1 1 Re fe rê ncia s Bib liográf ica s COSTA NETO. MILONE.. 4a ed.H. 145 .. W. (1994). G. SNEDECOR.. New York. São Paulo: Atlas. G. (1990). COCHRAM.O. Documents Similar To ESTATÍSTICA BÁSICASkip carouselcarousel previouscarousel nextApostila de Estatstica - PrincipalApostila de Estatística - UFSM - Prof. Dr. Luis Felipe Dias LopesESTATISTICAEstatística descritivaHidrologiaEst1apost2014EstatisticaApostila Estatística Psicologia Vol 1 2009 (1)CEP básicometereologia representacao_dados_080715Media Mediana ModaHistória da EstatísticaEstatística básicaMedidas Estatísticas de Posição e DispersãoAula14Box Plotestatstica-131227231508-phpapp01CAPITULO 06 - NOVO.pptxff401ª e 2ª lista de exercíciosATPS de Estatistica (1)CID_ECS_Sebenta_V1.pdfAssimetriaEstatística Descritiva 2013Técnicas de Pesquisa em EconomiaFaetec-Apostila-Estatistica.pdfPlano de Ensino EstatísticaExcel Exercicos 2 Ficha RESOLVEstat-02Link Estudos EstatísticosMore From Antonio Alves de FariaSkip carouselcarousel previouscarousel nextBaixar Comentario Da Carta Aos RomanosCartas de Ashby Trabalho(Indice de Desempenho)Termodinâmica - Yunus a. Çengel CopySistemas de Ar condicionado.pdfCORROSÃO ABORDAGEM GERAL Copydesafios metodologicos da pesquisa.pdfColetanea de Provascomo fazer uma dissertação de mestrado.pdfQuestões de Motores de Combustão InternaAs-Parabolas-de-Jesus-Com-Joachim-Jeremias.pdfAvaliação 1.pdfGILBERTO WOLFF - integração vertical.pdfCorrosãoAprenda a Estudar - Um Guia Para o Sucesso Do Estudante - LeilianeCONHECIMENTOS ESPECÍFICOS - SERVIÇOS BANCÁRIOSA Plica Coes Da Term Odin a Mica36116_Acionamentos Eletricos Cap 1 V2 Agosto2006INFORMATICASemantica e EstilisticaESTATÍSTICA BÁSICAAprenda a Estudar - Um Guia Para o Sucesso Do Estudante - LeilianeCorrosãoDicas de inglêsFooter MenuBack To TopAboutAbout ScribdPressOur blogJoin our team!Contact UsJoin todayInvite FriendsGiftsLegalTermsPrivacyCopyrightSupportHelp / FAQAccessibilityPurchase helpAdChoicesPublishersSocial MediaCopyright © 2018 Scribd Inc. .Browse Books.Site Directory.Site Language: English中文EspañolالعربيةPortuguês日本語DeutschFrançaisTurkceРусский языкTiếng việtJęzyk polskiBahasa indonesiaSign up to vote on this titleUsefulNot usefulYou're Reading a Free PreviewDownloadClose DialogAre you sure?This action might not be possible to undo. Are you sure you want to continue?CANCELOK

Comments

Description