Ibmec_Apostila_Estatística

March 23, 2018 | Author: Fabiana Chagas | Category: Mode (Statistics), Histogram, Average, Standard Deviation, Median


Comments



Description

CURSOESTATÍSTICA RJ Revisão: Jul. 2012. Zentgraf, Roberto Z56f 2011. 132p.; 20x26 cm Inclui bibliografia 1. Aplicações da Estatística 2. Medidas Descritivas para uma Variável 3. Probabilidades 4. Relação entre Variáveis 5. Inferência: intervalos de Confiança I. Zentgraf, Roberto II. Ibmec Online III. Título CDD: 311.2 Estatística/ Roberto Zentgraf – São Paulo: Grupo Ibmec Educacional, Grupo Ibmec Educacional 2ª Edição - 2011 RJ Sumário ABERTURA DO CURSO ....................................................................... Carta ao aluno ......................................................................................... Currículo resumido do professor-autor .................................................... Introdução................................................................................................ Objetivos.................................................................................................. Diretrizes Pedagógicas............................................................................ MÓDULO 1: Aplicações da Estatística Unidade 1 - Conceitos Iniciais ................................................................. Unidade 2 - Utilização de Dados ............................................................. Unidade 3 - Utilização de Gráficos .......................................................... Unidade 4 – Utilização de Ferramentas do Excel ................................... Resumo ................................................................................................... MÓDULO 2: Medidas Descritivas para Uma Variável Unidade 1 - Tipos de Medidas Descritivas .............................................. Unidade 2 – Variância e Desvio-Padrão ................................................. Unidade 3 – Informações Discrepantes .................................................. Unidade 4 – Cálculo de Indicadores para dados Agrupados .................. Unidade 5 – Utilização das Ferramentas do Excel .................................. Resumo ................................................................................................... MÓDULO 3: Probabilidades Unidade 1 - Definição e Abordagens....................................................... Unidade 2 - Combinação de Eventos ...................................................... Unidade 3 – Variáveis Aleatórias e Distribuições de Probabilidade .................................................................. Unidade 4 – Valores Esperados, Variâncias e Desvios-Padrões ............ Copyright Ibmec 05 05 06 07 07 07 12 15 20 23 24 28 37 43 45 49 50 55 59 64 67 .............................. 90 Unidade 5 ................................Coleta de Dados .. 75 Resumo ........ 129 Copyright Ibmec .........................Cálculo dos Parâmetros da Regressão ................... 81 Unidade 2 .......................................................... 69 Unidade 6 .................................................................................... 92 Unidade 6 -Utilização das Ferramentas do Excel ..................... 107 Unidade 3 ...............Outros Intervalos de Confiança .............Combinação de Variáveis .............................Cálculo do coeficiente de correlação .......................................... 99 MÓDULO 5: Inferência: intervalos de Confiança Unidade 1 ............... 127 REFERÊNCIAS BIBLIOGRÁFICAS .......Modelos de Distribuição de Probabilidade.....Cálculo de Covariância ................ 112 Unidade 4 ...........Unidade 5 ........................Utilização das Ferramentas do Excel ................................................. 76 MÓDULO 4: Relação Entre Variáveis Unidade 1 ................................... 121 Unidade 5 ................Utilização das Ferramentas do Excel .............. 126 Resumo ...Conceitos Iniciais de Seleção de Amostras ...................................... 98 Resumo ....................................................... 87 Unidade 4 ................Construção do Intervalo de Confiança .............Distribuição Amostral ........................................... 83 Unidade 3 ........................... 105 Unidade 2 ........................... com o acompanhamento do seu professor online. ganhe conhecimento e segurança para lidar com as questões estatísticas do seu dia a dia. O presente estudo apresentará de forma gradual e objetiva os principais fundamentos da Estatística com exemplos práticos e atuais. Roberto Zentgraf (Professor-autor) Copyright Ibmec 5 . em cursos de graduação e pós-graduação. Espero que você. É o resultado de minha experiência em sala de aula de mais de 16 anos. Um grande abraço. pessoal e profissional.Abertura do Curso Carta ao Aluno Caro(a) aluno(a). ao longo dos diversos módulos. um dos maiores veículos de comunicação do país. Roberto Zentgraf mantém o blog “Você Investe”.com. em Finanças (Ibmec) e Mestre em Engenharia de Produção (UFF). foi colunista do jornal O Dia e hoje é articulista semanal do jornal O Globo. ingressou na área acadêmica.br.Currículo resumido do professor-autor Roberto Zentgraf é Engenheiro Civil (UFRJ) com pós-graduações em Análise de Sistemas (PUC). Além disso. sendo atualmente Professor e Coordenador do MBA em Finanças do Ibmec/RJ e do MBA em Gestão de Negócios. hospedado no site www. É também autor dos livros Matemática Financeira Objetiva e Estatística Objetiva. Após trabalhar na Esso.oglobo. 6 Copyright Ibmec . Bem vindo ao curso de Estatística! Objetivos Após concluir o curso Estatística. os principais fundamentos da Estatística e suas principais funções existentes. como Inferência Estatística. • Consulte a bibliografia e o material de apoio caso tenha alguma dúvida. • Releia o conteúdo sempre que achar necessário. de forma gradual e objetiva. Diretrizes pedagógicas Tenha sempre em mente que você é o principal agente de sua aprendizagem! Para um estudo eficaz. você será capaz de: • Aplicar os principais fundamentos da Estatística. Econometria. • Utilizar as funções estatísticas existentes no software EXCEL.Introdução O curso apresentará. Copyright Ibmec 7 . resolvidos por meio de fórmulas e por planilha Excel. Análise Multivariada etc. Pesquisa de Mercado. • Avaliar situações reais e casos práticos através do uso da Estatística no processo de tomada de decisões. siga estas dicas: • Organize o seu tempo e escolha o melhor horário do dia para estudar. • Compreender a base teórica para conteúdos mais avançados. com exemplos práticos e atuais. . MÓDULO 1 Apicações da Estatística 9 . . Conceitos iniciais • Unidade 2 . sua importância e principais campos de atuação.Introdução ao Módulo Este módulo aborda a definição da estatística. • Identificar os principais tipos de gráficos utilizados pela Estatística. Objetivos • Definir Estatística. • Resolver problemas utilizando o EXCEL. sua importância e principais campos de atuação.Utilização de gráficos • Unidade 4 . • Identificar os tipos de dados e seus níveis de informação.Utilização de ferramentas do EXCEL Copyright Ibmec 11 .Utilização de dados • Unidade 3 . • Filtrar informações incorretamente veiculadas através de gráficos. • Trabalhar com conjunto de dados e deles extrair grande quantidade de informações. • Diferenciar uma população de uma amostra. • Diferenciar entre a Estatística Descritiva e a Inferencial. Estrutura do Módulo • Unidade 1 . através de sua classificação e/ou montagem de Distribuições de Frequências. Serão apresentadas idéias básicas para a compreensão e aplicação da estatística no seu cotidiano. Medicina: É possível avaliar a eficácia de um medicamento através dos resultados observados no controle de pacientes com determinada doença. algumas peças são aleatoriamente testadas. uma pesquisa do IBOPE revela que. organização.. Por esse motivo.. 12 Copyright Ibmec . decidem pela distribuição em escala nacional. Conheça alguns exemplos: Pesquisas de opinião: “No jornal de hoje. com base na aceitação do mercado. 60% dos televisores estiveram sintonizados na Rede Globo (. no Brasil desperdiça-se 20% aproximadamente (.)” Índices comparativos: “Um estudo revela que. as ações que mais se valorizaram foram as de empresas ligadas à geração e distribuição de energia elétrica e de telecomunicações (.. apresentação de gráficos) para analisar dados. resumo. determina-se a aceitação ou rejeição do lote. nos últimos 6 meses.)” Análises de mercado: “Revista especializada em Finanças revela que...)” Campos de Atuação da Estatística Estatística é “ciência” que utiliza métodos (coleta. A Estatística pode ser aplicada em praticamente todas as áreas do conhecimento humano. no horário nobre. Controle de Qualidade: Em uma linha de montagem. é uma matéria que pouco a pouco vem perdendo o seu caráter teórico e se fazendo presente em nosso dia a dia. Mídia: A audiência alcançada em determinado horário e canal define o preço a ser cobrado aos anunciantes pela veiculação de suas propagandas. Conheça alguns dos campos de sua atuação: Marketing: Com o objetivo de avaliar a reação do consumidor a um novo produto.Unidade 1 – Conceitos Iniciais Dados Estatísticos Diariamente são divulgados dados estatísticos em jornais e revistas com o intuito de garantir a veracidade de informações. enquanto nas nações desenvolvidas o índice de desperdício na construção civil é de cerca de 5%. A partir dos resultados.. algumas empresas distribuem seus lançamentos inicialmente em Curitiba e. Já a amostra é definida como uma parte ou subconjunto da população. Um dos objetivos da Estatística é mensurar tal incerteza. As despesas feitas por consumidores selecionados aleatoriamente. correlação com o mercado etc. C1 C2 AMOSTRA Os eleitores maiores de 40 anos.Política: As pesquisas realizadas antes das eleições permitem aos candidatos a revisão de suas estratégias na campanha. apresentação e análise de dados. Nas situações descritas. População e Amostra Nos estudos estatísticos. pode ser definida como o grupo ou conjunto de indivíduos no qual será realizada a coleta. Copyright Ibmec 13 . dependerão do tipo de trabalho que será realizado com os dados coletados. B2 Os gastos efetuados pelos consumidores em uma lanchonete no período de um ano. médias. o administrador de um Fundo de Pensão analisa parâmetros estatísticos como resultados anteriores. projeções. uma população. já que não necessariamente essas previsões se concretizarão. isto é. consequentemente. as decisões tomadas com base nos insumos estatísticos serão consideradas duvidosas. B C Na prática. Análise de Investimentos: Antes de comprar e/ou vender uma ação. A2 As peças produzidas em determinado setor B1 de uma indústria na semana passada. As despesas feitas por estudantes do ensino médio. estabelecendo parâmetros de confiabilidade. 1000 eleitores selecionados aleatoriamente. os conceitos de população ou amostra serão relativos. também chamada de Universo. Veja os exemplos na tabela abaixo. reduzindo as possibilidades de erro e. As peças produzidas na 6ª feira. POPULAÇÃO A Os brasileiros que votaram nas últimas A1 eleições. 20 peças escolhidas aleatoriamente. desvios-padrões. a estatística descritiva possibilitará: • Ordenar os valores obtidos em forma crescente/decrescente. Em outras palavras. conseguem antecipar o resultado da eleição. Suas técnicas podem ser aplicadas nos dados coletados a partir de populações (censo) ou a partir de amostras (amostragem). conclusões foram baseadas de acordo com o resultado coletado em pequenas amostras: os 2000 eleitores e a “prova” do sorvete. Antes de uma eleição. 14 Copyright Ibmec . os institutos de pesquisa entrevistam 2000 pessoas e. Os dados coletados podem ser extraídos de uma ou mais amostras. Observe que nos exemplos apresentados. é necessário descrever os dados! A partir dos preços dos imóveis publicados nos classificados dos jornais. com base em suas respostas. Estatística Inferencial A estatística inferencial abrange as técnicas e procedimentos destinados à descoberta de algum dado acerca de uma população. os valores mais frequentes. Em uma sorveteria experimentamos determinado sabor para decidirmos se levaremos ou não a embalagem de dois litros. • Determinar a dispersão dos valores obtidos. Nesta fase da pesquisa.Estatística Descritiva A estatística descritiva é o conjunto de técnicas e procedimentos destinados à organização e ao sumário dos dados. • Agrupar os valores obtidos em classes. • Representar graficamente os valores. foram realizadas inferências acerca das respectivas populações. • Determinar os valores médios. computadores. a relação já não seria de 2 para 1. é possível definir os recursos (tempo. Observe que mesmo que façamos uma conversão para outra escala. Agrupar os indivíduos de uma empresa por nível de escolaridade (Ensino Fundamental. Numérico Intervalar Numérico Racional Coleta de Dados Apesar de ser muitas vezes negligenciada. A partir dessa etapa. Médio. é através da coleta de dados que se obtêm as informações necessárias para a montagem e confirmação dos modelos formulados. pois. DADOS FORMATO Por Categoria Qualitativos Classificados Ordinal NÍVEL DE INFORMAÇÃO Nominal EXEMPLO Agrupar os indivíduos de uma sala de aula por sexo ou por religião. o $100 indivíduos com renda duas vezes maior que os de renda $50. capital. a razão entre as duas classes permanecerá de 2 para 1.Utilização de Dados Tipos de Dados e Seus Níveis de Informação A tabela a seguir apresenta as diversas categorias de dados e seus respectivos níveis de informação. Superior). Copyright Ibmec 15 . O zero representará indivíduos sem renda. Escalas de temperatura: Se um corpo A está a 20oC [Celsius] e um corpo B a 10oC não é possível afirmar que A é duas vezes mais quente que B. se usássemos a escala Kelvin (K).Unidade 2 . Quantitativos Indivíduos agrupados de acordo com sua renda mensal. mão-de-obra) que serão utilizados no estudo estatístico. uma agência de viagens decidiu intensificar sua propaganda e para aprimorar seus esforços enviou um questionário a seus potenciais clientes. DADOS BRUTOS Gastos efetuados nas últimas férias 950 1. apesar de completa.150 700 1.500 1.390 870 1.000 900 1.100 1. o menor. A análise das informações torna-se mais trabalhosa visto que demanda esforços adicionais do observador. não é possível identificar qual o maior gasto.000 1.300 A tabela.200 2.800 1.300 2.700 1.550 1.000 900 870 1. Os dados listados são apresentados em sua forma bruta (rol. Com esse procedimento é possível encontrar informações com rapidez além de apresentar os dados com maior elegância e clareza.600 1.200 1.250 900 1. e assim sucessivamente.450 1. demonstra algumas inconsistências.750 1.100 1.050 1.000 1.280 2.350 1. o processo de ordenação poderá consumir razoável tempo de execução. Exemplo disso seria a arrumação de discos em uma estante em ordem alfabética. também conhecida por classificação ou sort. dependendo da quantidade de valores.650 1.800 1.380 1.700 1.350 2.900 1.750 1.250 1.200 1. Ordem dos Dados Ordenação de Dados é uma técnica simples.500 1.250 1. raw data). Por exemplo.300 450 1.700 1.150 950 1.100 750 800 800 1.200 1.Exemplo prático Com a proximidade do verão. 16 Copyright Ibmec . Uma das perguntas foi: “Quanto você gastou em suas últimas férias”? O resultado obtido entre 60 clientes encontra-se na tabela abaixo. que consiste em arrumar os dados em alguma sequência.280 1.050 670 1.450 1.400 1.500 1.550 1.420 2. Porém.100 1. 600 2. Suponha que exista uma listagem com os nomes ordenados alfabeticamente na primeira coluna e o gasto em férias na segunda.000 1.100 1.500 1.000 1.650 2.300 1.350 1.350 1.390 1.280 1.280 1. uma alternativa será inserir uma terceira coluna na qual acrescentaremos a posição. Distribuição de Frequências Uma outra forma de apresentar dados quantitativos e/ou qualitativos é através da Distribição de Frequências (DF).500 1.100 1.900 1. Chamamos este tipo de classificação de ordenação por postos.150 Alterar a ordem dos dados originais nem sempre é desejável.800 1.700 2. que o valor correspondente ao gasto ocupa em relação aos demais.200 1.800 1. Copyright Ibmec 17 .700 1.250 1.450 1.380 1. Veja a tabela abaixo.Exemplo prático Os dados apresentados anteriormente na tabela Gastos efetuados nas últimas férias foram ordenados para facilitar a observação das informações como: o menor/maior gasto e média de gastos.300 1. ou o ranking.450 1. DADOS ORDENADOS Gastos efetuados nas últimas férias 450 670 700 750 800 800 870 870 900 900 900 950 950 1.400 1.700 2.300 1.750 1. Caso seja necessário não perder a ordem alfabética.150 1.750 1.200 1.250 1.050 1.420 1.250 1.500 1.100 2.050 1.200 1.200 1.550 1. Esse procedimento é definido como o agrupamento dos dados em uma tabela contendo classes (ou categorias) e o número de ocorrências (ou freqüência) em cada categoria.550 1.000 1.100 1.000 1. Escolha um valor ligeiramente superior ao menor valor encontrado em (1). • Utilize um número de classes que permita a obtenção de mais informações sobre os dados em estudo. de classe (AC) dividindo a amplitude total determinada em (2) pelo número de classes estabelecido em (3). 3. 6. 18 Copyright Ibmec .). 8. Totalize o número de ocorrências contadas. 9. Determine a amplitude total. Este será o limite inferior da primeira classe (LI1). exceto os casos onde o critério levar as classes vazias (sem nenhuma ocorrência). Encontre os limites inferiores de cada uma das demais classes. diminuindo o menor do maior valor encontrado em (1). 5. Some a amplitude de classe ao limite inferior da classe precedente (LI2=LI1+AC. Se necessário. 1. é usual que em uma classe C a contagem obedeça ao critério: LIC < X ≤ LSC.Verifique abaixo as sugestões para a montagem de uma DF. Calcule a amplitude. LS2=LI3 etc. Conte as ocorrências em cada classe e preencha a DF. Dicas . intervalo. Encontre o maior e o menor valor dentre os dados observados. Determine o número de classes desejadas. Observe que o limite superior (LS) de cada classe será igual ao limite inferior da classe seguinte (LS1=LI2.Distribuição de frequências • Sempre que possível. Arredonde o resultado para cima.). 7. 2. Atenção! Supondo uma variável X qualquer. utilize classes de mesma amplitude. calcule o percentual de ocorrências de cada classe em relação ao total. 4. LI3=LI2+AC etc. • Evite um número muito alto ou muito baixo de classes. 33 100.400 $1.Algumas Observações Com base no exemplo da tabela Gastos efetuados nas últimas férias elaboramos a distribuição de frequências não cumulativas listadas a seguir. Já as DFs que relacionam apenas os resultados da contagem dos valores são denominadas de Distribuições de Frequência Absolutas.33 16.000 < Gastos ≤ $1.67 3.200 Totais Nº de Observações 1 5 8 10 13 9 8 4 2 60 Percentual (%) 1.33 13.800 $1. • Um valor que irá desempenhar importante papel nos cálculos envolvendo as Distribuições de Frequência será o PONTO MÉDIO DE CLASSE. equidistante dos limites extremos de cada classe. Copyright Ibmec 19 .800 < Gastos ≤ $2.67 15.67 8. Na tabela. • As DFs que relacionam apenas os percentuais são denominadas Distribuições de Frequência Relativas.000 $2.00 13.200 < Gastos ≤ $1.000 < Gastos ≤ $2.600 < Gastos ≤ $1. DISTRIBUIÇÃO DE FREQUÊNCIAS Classes $400 < Gastos ≤ $600 $600 < Gastos ≤ $800 $800 < Gastos ≤ $1.33 6.67 21. o ponto médio da 2 ª classe será de $700 [=(600+800) ÷ 2].000 $1.600 $1.00 Observações: • Os valores constantes na última coluna da tabela serão obtidos através da divisão da frequência existente em cada uma das classes pelo total de observações.400 < Gastos ≤ $1.200 $1. 20 Copyright Ibmec . onde a área delimitada entre o eixo horizontal e os segmentos de reta é proporcional à frequência observada. Os gráficos são adotados em pesquisas estatísticas. variando em seus formatos e definições. A partir de agora você conhecerá diferentes formas de representar graficamente os dados estatísticos.Unidade 3 – Utilização de Gráficos Utilização dos Gráficos no Cotidiano A utilização dos gráficos é muito frequente para representar os mais diversos fenômenos em nossa cultura. Histogramas e Polígonos de Frequência Histogramas e polígonos de frequência são gráficos apropriados para a representação das distribuições de frequências não cumulativas. sempre mantendo em comum a característica de enfatizar aspectos pouco evidentes em uma análise apenas numérica. Histograma ou gráfico de barras é formado por diversos retângulos cuja área é proporcional à frequência observada. Nas notícias diárias dos jornais verificamos um alto número de gráficos divulgados em suas páginas. Polígonos de Frequência são formados a partir da união dos pontos médios de um histograma. Outros Tipos de Gráficos Gráficos de Linha ou Gráficos XY relacionam a evolução da variável Y em função da variável X. se uma classe tiver amplitude diferente das demais. Gráficos Ogiva Os gráficos ogiva (ou polígonos de frequências acumuladas) são apropriados para a representação das distribuições de frequências cumulativas. A fatia destacada corresponde à classe dos maiores gastos. denominada curva de frequência. No exemplo ao lado. Copyright Ibmec 21 . À medida que os segmentos de reta de um gráfico polígono de frequência tornam-se mais suaves. o eixo horizontal deverá estar em escala. O gráfico abaixo relaciona o tempo (X) ao volume financeiro de vendas (Y). o eixo horizontal representa a variável em estudo e o eixo vertical a frequência cumulativa observada. o polígono traçado tende a formar uma curva. a altura do retângulo deverá ser ajustada. O gráfico abaixo apresenta as diversas categorias verificadas para os possíveis gastos de férias dos clientes de uma agência de viagens. Gráficos de Torta ou (Pie Charts) são gráficos onde a área de cada fatia corresponde à participação da classe em relação ao todo. de forma a refletir a proporcionalidade existente entre a frequência e a área do retângulo. Consequentemente.Particularidades dos histogramas e polígonos de frequência Nos histogramas envolvendo variáveis quantitativas. A maioria dos softwares utilizados para gerar histogramas considera os valores da escala horizontal como texto. O gráfico abaixo ilustra o diagrama para as variações mensais nas vendas de um produto (eixo vertical) contra as variações mensais nos gastos em publicidade (eixo horizontal).Diagramas de Dispersão Diagramas de Dispersão ilustram o formato do relacionamento entre duas variáveis. Por conta disso. Uso indevido de gráficos Geralmente. as informações dispostas graficamente causam maior impacto visual para o leitor. prevenindo-se de decisões incorretas. recomenda-se que o analista das informações gráficas esteja sempre atento para identificar possíveis distorções geradas por figuras mal construídas. 22 Copyright Ibmec . • Tenha cuidado com o endereçamento relativo ao replicar a fórmula para as células seguintes. • Digite =FREQUENCIA(faixadados. Se ord=0 ou omitido.lista-num. • Admitindo que os dados estejam dispostos em uma faixa da planilha denominada lista-num e sendo num o valor para o qual se deseja saber a posição. Suas técnicas podem ser aplicadas nos dados coletados a partir de populações (censo) ou a partir de amostras (amostragem). selecione uma nova coluna contendo uma linha a mais do que o número de linhas de colunalimites. é necessário descrever os dados! Veja agora como utilizar as ferramentas do EXCEL para ordenar logicamente os dados estatísticos. Copyright Ibmec 23 .ord) para o cálculo. siga as instruções: • Admita que os dados para criar a DF estejam dispostos em uma faixa da planilha denominada faixadados e os limites superiores em uma coluna denominada colunalimites.colunalimites) e tecle simultaneamente [CTRL] [SHIFT] [ENTER].Unidade 4 – Utilização de Ferramentas do Excel Uso do Excel Na Ordem Lógica de Dados Estatísticos A estatística descritiva é o conjunto de técnicas e procedimentos destinados à organização e ao sumário dos dados. estará em ordem crescente. Nesta fase da pesquisa. • Na coluna à direita da colunalimites. a lista estará em ordem decrescente. Caso contrário. Uso do Excel na Distribuição de Frequências Para utilizar o Excel no cálculo da Distribuição de Frequências. • Digite =ORDEM (num. selecione uma nova célula em outra região. Lembre-se que lista-num deverá estar fixa. preocupada apenas em descrever o conjunto de dados coletados. conhecemos os conceitos iniciais da Estatística. Vimos também que uma população refere-se a todo conjunto de observações em estudo. Já a amostra. e a estatística inferencial. considera apenas parte deste conjunto. permite conclusões das características populacionais. Além disso. classificações e análises. que ao reunir informações coletadas em amostras. intervalar e racional. apresentamos algumas funções básicas do Excel que lhe ajudarão a solucionar exercícios dos próximos módulos. e não populacionais. A Estatística está dividida em dois grandes grupos de estudo: a estatística descritiva.Resumo Neste módulo. ordinal. 24 Copyright Ibmec . Diferentes tipos de dados poderão ser classificados em função dos níveis de informação que eles oferecem: nominal. Por fim. a maioria das conclusões estatísticas baseia-se em dados amostrais. Verificamos a importância de lidar com grande quantidade de dados. MÓDULO 2 Medidas Descritivas para uma Variável 25 . . • Detectar observações suspeitas ou discrepantes (outliers) em um conjunto de dados.Variância e desvio-padrão • Unidade 3 . Estrutura do Módulo • Unidade 1 . calcular e interpretar os principais indicadores de dispersão.Utilização das ferramentas do Excel Copyright Ibmec 27 . A estatística descritiva fornece medidas capazes de caracterizar corretamente o conjunto de dados estudado e será o tema deste módulo! Objetivos • Listar os tipos de medidas descritivas definidas pela Estatística e sua utilidade. como por exemplo a análise de risco. mostrando como aplicá-los em conjunto com as medidas de posição em questões práticas.Tipos de medidas descritivas • Unidade 2 . mostrando suas principais características e limitações e analisando-as comparativamente.Cálculo de indicadores para dados agrupados • Unidade 5 .Informações discrepantes • Unidade 4 . • Listar. • Resolver problemas utilizando o EXCEL. calcular e interpretar as principais medidas de posição e as de tendência central. • Listar.Introdução ao Módulo As medidas descritivas são técnicas que possibilitam a extração de informações a partir de um conjunto de dados. Essas técnicas nos forçam a trabalhar com um número excessivo de ocorrências. mínimo. variância. identificando a assimetria e o achatamento da distribuição. Considerando uma base de dados contendo os gastos em férias para clientes de uma agência de viagens. o que equivale a mensurar a variabilidade existente no conjunto de dados. Os principais indicadores são os coeficientes de assimetria e o de curtose. amplitude. são denominadas de medidas de tendência central: média. Outras Medidas Descritivas: complementam a descrição dos dados. Algumas das medidas de posição. Medidas de Posição e Tendência Central As medidas de posição apontam um determinado valor da distribuição: máximo. por tentarem estabelecer o centro da distribuição. as medidas de posição serão úteis para respondermos às seguintes questões: • Qual o maior gasto? Qual o menor? • Quanto o cliente gasta em média? • Qual o gasto típico? • Os 25% de clientes que gastam pertencem a que faixa etária? 28 Copyright Ibmec .Unidade 1 – Tipos de Medidas Descritivas Medidas de Dispersão e Outras Medidas As medidas descritivas que iremos apresentar podem ser classificadas de acordo com o tipo de informação que irão nos fornecer. Por exemplo. mediana e outras. desvio-médio e outras. teremos: Medidas de Dispersão: tentam estabelecer a largura da distribuição. quartil etc. Imaginando que os dados para os quais iremos calculá-las estejam agrupados em uma distribuição de frequências. 800. $59. • A soma dos desvios de cada observação em relação à sua média aritmética. • Todos os valores são utilizados no cálculo da média.000.500 e 6.200.000. Qual a média salarial para estes dados? Calculando a média chegaremos ao valor de $289. Exemplo: Na Empresa ABC os salários anuais de seus diretores são respectivamente de $60.000. a venda de automóveis fabricados no Brasil foi respectivamente de 5.000 e $1. 4. certamente um valor muito pouco representativo dos salários dos diretores da empresa ABC! Copyright Ibmec 29 . • Não pode ser calculada para intervalos (ou classes) abertas. Calcule a venda média.000.000. • Quando existir. $65.000.Média Aritmética Para um conjunto formado por n dados Xi não agrupados em distribuições de frequência. $61. determinaremos sua média aritmética a partir da expressão ao lado: Nos últimos 5 meses. 7. será sempre zero: • É afetada por valores extremos (ver exemplo a seguir).100 unidades (dados hipotéticos). 3.000. será única. Aplicando a fórmula chegaremos a: Propriedades da média aritmética • Todo intervalo fechado possui uma média aritmética. 200. o valor mediano será aquele que ocupar a 3ª posição [=(5+1)/2].000. qual seria o salário mediano dos diretores que ganham $60. • À média aritmética dos valores que ocuparem as posições n/2 e (n+2)/2. 30 Copyright Ibmec .000? Como n=5.000. Observe que este valor é mais representativo do que a média calculada anteriormente. ou seja $61. a mediana será igual: • Ao valor que ocupar a posição (n+1)/2 no caso dos conjuntos com números ímpares de dados. a MEDIANA corresponderá à medida que ocupa a posição central da lista formada. Ainda sobre a Empresa ABC. conclui-se que para um conjunto de dados não agrupados em distribuições de freqüência. 50% dos valores serão menores e 50% serão maiores que o valor mediano.Mediana Para um conjunto ordenado de dados.000 e $1.000. após ordenarmos os dados. $61. no caso de conjuntos com números pares de dados centrais.000. Pela definição anterior. $59. $65. Dividindo-a em dois grupos. 8. • Pode ser determinada para dados no nível ordinal. haverá sempre uma única mediana. Por exemplo. com D. Por exemplo. o conceito mediano será C. se 10 estudantes de um curso receberam conceito A. 20 receberam C e um único foi reprovado. • Pode ser calculada para uma distribuição de frequências que tenha intervalos (ou classes) abertas. dados os valores 3. 5. 8 receberam B. 7. Para este caso não seria possível calcularmos o conceito médio. • A mediana não é afetada por valores extremos. 8. 3 e 8 a moda será 8 visto que é o valor que aparece por maior número de vezes. 2.Algumas Propriedades da Mediana • Para qualquer conjunto de dados. Veja abaixo algumas distribuições e suas modas. A moda é pouco versátil nos cálculos aritméticos e possui pouca aplicabilidade na inferência estatística. Moda A moda de um conjunto de dados corresponderá ao valor que ocorrer com a maior frequência. Copyright Ibmec 31 . • Esta relação é denominada de Relação Empírica ou Relação de Pearson. desde que o nível de assimetria não seja muito acentuado. Sendo assim. 32 Copyright Ibmec . • Nas distribuições assimétricas. admitiremos que os valores para os quais deseja-se calcular a média sejam todos não negativos. Porém.• Nas distribuições simétricas. muitos a utilizam como forma de chegar a valores mais conservadores do que os obtidos pela média aritmética. Média Geométrica A raiz enésima de um número poderá ser obtida elevando-o a 1/n. Qual a média geométrica de 3. a mediana (Md) e a média (Me) possuirão a seguinte relação: Mo = 3Md . a moda. 5. a moda (Mo). dado um conjunto específico de números. 7 e 16? Propriedade da média geométrica Uma importante propriedade da média geométrica é que ela será sempre menor ou igual à média aritmética. em homenagem ao seu idealizador. a média e a mediana serão iguais.2Me. quando as medidas da moda e da média coincidirem. não obrigatoriamente a distribuição será simétrica. Por esta razão. Nem sempre a média geométrica estará definida no domínio dos números reais. .50. a média geométrica será a única medida que nos levará à resposta correta.00 Média Geométrica 50. Suponha que nos últimos 4 anos a inflação tenha sido respectivamente de 15%.. Cálculo de variações percentuais (ou taxas de juros) médias. X 2. (1+i2).00 49.50.50.60 10. Entretanto. 20%. (1+in). Valores 50.. Qual a inflação média anual? Copyright Ibmec 33 . Na fórmula MG. 25% e 50%.57 Utilização da média geométrica A utilização da média geométrica como medida conservadora está sujeita a críticas. para alguns tipos de problemas...50 40.00 50. chegando a: A taxa iMg será denominada de Taxa Geométrica de Retorno ou Taxa de Retorno Ponderada pelo Tempo (Time-Weighted-Rate-of-Return-TWRR)..90 Média Aritmética 50.32 35. Xn por (1+i1).00 50. .A tabela a seguir ilustra a questão. substituiremos cada um dos valores X1. Aplicando a expressão anterior. teremos: Outras Medidas de Posição Além das medidas centrais e das medidas extremas (máximo. 34 Copyright Ibmec . a forma para calcularmos estes valores será similar à que vimos para a mediana: • Os quartis irão dividir a distribuição em 4 partes (25% para cada). Decis e Percentis. Exemplo prático A figura a seguir representa os retornos mensais obtidos por duas linhas de produto com as mesmas características e durante o mesmo período (os doze últimos meses). • Os percentis em 100 partes (1% para cada). Após ordenarmos o conjunto de dados. mínimo) descritas nos itens anteriores é comum a utilização dos Quartis. • Os decis em 10 partes (10% para cada). o fazem de forma racional. assumindo que os responsáveis pelas escolhas em uma empresa. as medidas de dispersão possibilitam a avaliação do grau de representatividade de uma média. a melhor opção teria sido aplicar os recursos na Linha B. Além de permitir a comparação entre grupos de dados. seria possível indicarmos qual teria sido a melhor opção de investimento? Por que? A figura nos mostra que os retornos de A ocorreram de forma mais volátil que os retornos de B. percebemos que o investimento na Linha A foi mais arriscado que B. É comum associarmos a dispersão ao risco ou à incerteza dos resultados. Utilizando os dados da figura que representa os retornos mensais de duas linhas de produto. Assim. Nesse caso.Sabendo-se que ambos obtiveram lucratividade média de 5. qual seria a amplitude para as lucratividades mensais apresentadas? Copyright Ibmec 35 . a amplitude corresponderá à diferença entre o maior e o menor valor. Por outro lado. é de se esperar que eles somente aceitem maiores riscos caso obtenham compensações em termos de retorno. Amplitude Para um conjunto de valores.00%am. Como é desejável obter medidas que utilizem todos os dados em seus cálculos. • Amplitude Semi-interquartílica .00–0. • Amplitude entre percentis . Por exemplo.00% (=10. 36 Copyright Ibmec .00%. retornos mensais de 0.00). a amplitude para ambos será de 10.00%.00% e 0. Já os retornos mensais de 10.metade da anterior.10-90 ou entre percentis 5-95 etc. Conheça outras medidas de dispersão: • Amplitude Interquartílica – diferença entre o terceiro e o primeiro quartis.00% em relação à média. a solução será observar o desvio de cada valor em relação à sua média. induzindo-nos ao erro de classificá-los como igualmente voláteis (ou dispersos). para os Fundos A e B.00% gerarão desvios de +5.00% causarão desvios de -5.Como ambas as linhas apresentaram lucratividades extremas de +10. Unidade 2 – Variância e Desvio-Padrão Variância Para um conjunto formado por n dados Xi não agrupados. demonstra-se que o melhor estimador pontual para a variância populacional é obtido através da divisão do numerador das fórmulas anteriores por (n-1). • Note que a fórmula da variância amostral é ligeiramente diferente da fórmula para a variância populacional. tentando chegar a conclusões acerca da população. A razão para isso é que. ao trabalharmos com uma amostra. • Neste caso. desejamos dar um passo adiante. determinaremos a variância através da expressão: • É comum assinalarmos a variância populacional pela letra grega σ² (sigma ao quadrado ou simplesmente sigma dois). Voltando ao exemplo abaixo. qual a variância para as lucratividades mensais apresentadas? Copyright Ibmec 37 . e não por n. 00. cujo quadrado equivale a 25. • 5. cujo quadrado também equivale a 25. quadrado de 25. Já nos meses em que A rendeu 10.00. 38 Copyright Ibmec .00% em um mês (desvio de 5. • 4. seja ela calculada com base em uma população ou em uma amostra.00. Desvio-Padrão O desvio-padrão corresponde à raiz quadrada positiva da variância.Para cada um dos seis meses em que A apresentou lucratividade nula. chegaremos a: A linha B apresentou retornos de: • 0. Aplicando a fórmula da variância e admitindo uma amostra.00% em três meses (desvio de -1. • 6.00%.00% em quatro meses (desvio e quadrado nulos). Conclusão Por ter apresentado uma menor variância. o desvio gerado foi de –5. concluímos que a dispersão das lucratividades apresentada pela Linha B foi menor que a apresentada pela Linha A.00% em um mês (desvio de -5.00).00) e de 10.00.00%.00). quadrado igual a 1.00).00% o desvio gerado foi de +5. quadrado igual a 25.00.00% em três meses (desvio e quadrado iguais a 1. chegaremos a: Podemos concluir que B é menos volátil do que A. em termos absolutos. • O escore z também é conhecido como escore reduzida ou escore padrão. de acordo com o coeficiente de variação: A venda média projetada e a incerteza desta projeção. a conclusão será oposta. Escore Z Dado um conjunto de observações com média μ e desvio padrão σ. Porém. Em termos relativos. o escore Z associado a uma observação X medirá a distância entre X e a média do conjunto em unidades de desvio-padrão. Os valores para o produto B são M$40 e M$4. O coeficiente de variação O desvio-padrão é uma medida de dispersão absoluta que poderá levar a distorções na comparação de dois conjuntos de dados: unidades de medidas distintas e médias muito afastadas. medida pelo desvio-padrão. Para estes casos. Copyright Ibmec 39 . para o produto A são respectivamente de M$10 e M$2. qual o produto é considerado com vendas mais voláteis? Encontrando o CV para os dois produtos. As principais medidas são o Escore z e o Coeficiente de Variação. o mais indicado será empregar uma medida de dispersão relativa.Medidas relativas As medidas relativas são assim chamadas por incorporarem simultaneamente a posição e a dispersão de um dado em relação ao conjunto da qual faz parte. • Um valor positivo para z significará que X encontra-se à direita da média. Caso Z seja negativo X encontra-se à esquerda da média. 000. Já em SP. Se duas filiais. uma paulista e uma carioca venderam $170. Qual a interpretação para este fato? No RJ. Estes mesmos dados para SP correspondem a $120.000.000. tornando uma venda acima deste valor não tão difícil de ser alcançada. em termos relativos. onde μ corresponderá à média do conjunto e σ ao desvio-padrão. quando considerarmos o desvio-padrão.000 e $25. Interpretando o desvio-padrão De acordo com as técnicas da Estatística Inferencial. o menor desvio-padrão para as vendas indica baixa dispersão em torno da média de $125. o desvio-padrão mais alto indica uma maior dispersão em torno da média de $120. 40 Copyright Ibmec . o que torna uma venda acima deste valor mais difícil para a equipe encarregada. por estar mais distante da média.000. esteja melhor posicionada.000. o desvio-padrão servirá de base para o traçado de intervalos de confiança (faixa de valores onde encontra-se determinado percentual dos dados analisados). com um desvio-padrão de $10. concluímos o oposto. em qual delas ocorreu um maior esforço por parte da equipe de vendas? Calculemos os escores z para cada filial: À primeira vista pode parecer que a filial de SP. Escore Z – exemplo prático A venda média das filiais cariocas do Grupo ABCD para o ano de 1999 foram de $125.000 cada. Entretanto. • Utilize a fórmula abaixo para determinar o valor para z.• O escore z será bastante útil na comparação entre distribuições. na detecção de observações discrepantes e no cálculo de probabilidades associado à Distribuição Normal. Lei empírica Para um conjunto de dados com distribuição simétrica e em formato de sino encontraremos aproximadamente as seguintes proporções: • 68% dos dados estarão no intervalo [ μ – 1.σ ] será dada por: Nesse caso. • 100% dos dados estarão no intervalo [ μ – 3.σ ].σ . Os intervalos de confiança também podem ser encontrados através do Teorema de Chebyshev e da Lei Empírica. μ + 2. qual o intervalo onde observaremos pelo menos 95% dos valores? Copyright Ibmec 41 .σ ].σ . μ + k. • 95% dos dados estarão no intervalo [ μ – 2.σ .60 e desvio padrão de $35.61.σ ]. K poderá ser qualquer constante maior que 1. μ + 1. Este assunto será abordado no próximo módulo.σ . Chebyshev e Lei Empírica Para os salários da Empresa XYZ com média de $199. μ + 3. Teorema de Chebyshev Para qualquer conjunto de dados a proporção mínima de valores compreendidos no intervalo [μ – k.Para traçar estes intervalos é necessário desenvolvermos os conceitos de probabilidades. Teorema de Chebyshev O primeiro passo será encontrarmos o valor de k através da fórmula: O intervalo será obtido por: Lei Empírica A faixa solicitada será obtida por: 42 Copyright Ibmec . O estudante realmente não faltou a nenhuma aula durante os cinco anos de universidade. Logo. Suponha que ao verificar o cadastro de uma operadora de cartões de crédito encontramos um cliente com 128 anos de idade ou um fundo de renda fixa que em dezembro de 19xx tenha obtido rentabilidade de 15. Nesse caso. Por que esse critério é utilizado? Responderemos à essa questão através da Lei Empírica e do Teorema de Chebyshev. Tais ocorrências são classificadas como observações discrepantes (outliers) que podem ser atribuídas a: • Erro de digitação.Unidade 3 – Informações Discrepantes Outliers Não é incomum analisar um conjunto de dados e encontrarmos valores acentuadamente distintos dos demais. Teorema de Chebyshev: A proporção mínima que estará na faixa [μ 3σ. que a julgar pelo desempenho da bolsa brasileira em dezembro de 19xx teve um resultado até modesto.00 (ou inferiores a -3. μ+3σ] será igual a 89%. valores superiores a 3. lembrando que z ≥ 3 significa que a observação está distante da média em pelo menos 3 desvios-padrões. um resultado de z maior que 3. encontrar alguém além destes limites é pouco provável. coleta ou armazenagem do dado. um estudante que nos cinco anos em que frequentou a universidade nunca faltou qualquer aula. Portanto. • Observação que não pertence ao grupo pesquisado. Classificação de Informações Discrepantes Para classificar um dado suspeito de discrepância. Copyright Ibmec 43 . é possível utilizar o cálculo do escore z.00 (ou menor que -3. para qualquer conjunto de dados.00) também é pouco provável.00) confirmarão a suspeita. • Eventos considerados raros. O fundo em análise é um fundo de ações. Lei Empírica: Praticamente 100% das observações encontram se distantes no máximo 3 desviospadrões da média.00%am. O senhor de 128 anos seria na realidade um rapaz de 28. ou ainda. Para os salários da Empresa XYZ que possui média de $199.61. um salário de $400 pode ser considerado discrepante? Calculando o escore z para cada um dos salários chegaremos a: 44 Copyright Ibmec .60 e desvio padrão de $35. as fórmulas para a média aritmética e variância serão: Média aritmética Variância Conheça a seguir alguns exemplos. Sendo Xi e fi o ponto-médio e a frequência de cada classe. Copyright Ibmec 45 .Unidade 4 – Cálculo de Indicadores para Dados Agrupados Média Aritmética e Variância Para o caso dos dados agrupados. calculadoras e EXCEL não possuem funções específicas para o cálculo dos indicadores. Por esse motivo. será preciso simular tabelas para o cálculo da média e da variância. XYZ.460 5.60).950 160 < $ ≤ 180 <$≤ 200 < $ ≤ 220 < $ ≤ 240 < $ ≤ 260 < $ ≤ Totais [∑] Exemplo 2 Determine a variância dos salários semanais listados na tabela (média = $199.060 4.060 2.Exemplo 1 Qual o salário médio dos empregados da Cia. 46 Copyright Ibmec .800 3.Salários Semanais em $ Classes 120 140 <$≤ <$≤ 140 160 180 200 220 240 260 280 Xi=Ponto Médio 130 150 170 190 210 230 250 270 fi = frequência 7 12 18 24 26 22 11 5 125 Xi fi 910 1.560 5. listados nas duas primeiras colunas da abaixo? Distribuição de Frequências Cia XYZ .350 24.750 1. 12 29.16 4.331.16 876.16 924.16 92.16 2.941.16 (Xi-μ)²fi 33.780.909.521.211.460.60 10. onde Xi e fi referem-se respectivamente ao ponto médio e à freqüência encontrada em cada classe.770.812.60 -49. DISTRIBUIÇÃO DE FREQÜÊNCIAS Cia XYZ .16 108.60 -9.Salários Semanais em $ Classes 120 140 160 180 200 220 240 260 Totais [∑] <$≤ <$≤ <$≤ <$≤ <$≤ <$≤ <$≤ <$≤ 140 160 180 200 220 240 260 280 Xi 130 150 170 190 210 230 250 270 fi 7 12 18 24 26 22 11 5 125 Xi-μ -69.540.60 -29.76 24.40 (Xi-μ)² 4.844.00 Copyright Ibmec 47 .956.52 27.16 20.88 2.84 2.40 70.92 15.16 2.280.80 157.40 30.40 50.A tabela auxiliará os cálculos intermediários. Salários Semanais em $ Classes 120 140 160 180 200 220 240 260 Totais [ ∑] <$≤ <$≤ <$≤ <$≤ <$≤ <$≤ <$≤ <$≤ 140 160 180 200 220 240 260 280 fi = Frequência 7 12 18 24 26 22 11 5 125 Fi = Frequência Acumulada 7 19 37 61 87 109 120 125 125 Observe que criamos uma coluna adicional contendo as frequências acumuladas fi . nossa contagem chegou a 61 (=F4). precisaremos contar mais 1. ou seja: 48 Copyright Ibmec .5 observações na 5ª classe. Consequentemente. determinaremos o valor de X através de uma Regra de Três Simples. Se assumirmos que em cada classe os salários se distribuem uniformemente. Note que até a 4ª classe.Exemplo 3 Qual é o valor mediano dos salários agrupados na Distribuição de Frequências ilustrada na Tabela? DISTRIBUIÇÃO DE FREQUÊNCIAS Cia XYZ . A classe contendo a mediana será aquela onde fi for maior ou igual à metade do total das observações. k) MÁXIMO(lista) MED(lista) MEDIA(lista) MEDIA. é a função inversa da função ORDEM. onde Méd e Dp referem-se à média e ao desviopadrão do conjunto de dados de onde se extraiu X.Dp) decimais da resposta.casas) PADRONIZAR(X. k-ésimo QUARTIL da lista. VARIÂNCIA POPULACIONAL da lista. utilize as seguintes funções: FUNÇÃO MAIOR(lista. k-ésimo MENOR VA-LOR da lista. POSIÇÃO de X na lista. VALOR MÍNIMO da lista. MÉDIA ARITMÉTICA da lista.k) FUNÇÃO DESVPAD(lista) DESVPADP(lista) VAR(lista) VARP(lista) CALCULA DESVIO-PADRÃO AMOSTRAL da lista. PERCENTIL(lista. Sendo lista a faixa de dados contendo os dados para os quais deseja-se calcular o indicador e k um número inteiro positivo qualquer. Para aqueles que necessitem de um maior aprofundamento neste tópico. se cód=0 ou omitido a lista virá em ordem decrescente.k) MÍNIMO(lista) MODO(lista) ORDEM(X.lista.cód) k-ésimo MAIOR VALOR da lista. PERCENTUAL.X. MÉDIA GEOMÉTRICA da lista.Unidade 5 – Utilização das Ferramentas do Excel Face ao grande número de recursos existentes no EXCEL. nesta seção apresentaremos as funções das definições vistas ao longo do módulo. MODA da lista. MEDIANA da lista.Méd. VARIÂNCIA AMOSTRAL da lista. Há também o complemento denominado “Ferramentas de análise” que será bastante útil para as análises estatísticas. casas refere-se ao número de casas (lista. VALOR MÁXIMO da lista. Copyright Ibmec 49 . DESVIO-PADRÃO POPULACIONAL da lista. P O R C E N T U A L POSIÇÃO PERCENTUAL de X na lista. CALCULA O R D E M .GEOMÉTRICA(lista) MENOR(lista.k))) QUARTIL(lista. k-ésimo PERCENTIL da lista. recomendamos fortemente a leitura da bibliografia indicada. ESCORE z para o valor X. por procurarem o centro da distribuição. Já os quartis. Seus principais indicadores são a amplitude. Algumas delas. são denominadas de medidas de tendência central: médias. A combinação de medidas de posição e dispersão permitirá aplicar a teoria em problemas práticos: montagem de intervalos de confiança e na percepção de informações discrepantes. essas medidas de posição poderão indicar simetria da distribuição. foi possível observar as ferramentas do EXCEL utilizadas para calcular essas medidas de posição e dispersão. As medidas de dispersão apontam a variabilidade existente no conjunto de dados. adequadas para comparação de dois ou mais conjuntos de dados que apresentem diferenças de ordem de grandeza ou unidades distintas. As medidas de posição têm a finalidade de apontar um valor específico no conjunto de dados. mediana e moda. Dependendo de como estiverem relacionadas. Outras medidas descritivas tais como os coeficientes de assimetria e curtose complementam o trabalho de descrição de um conjunto de dados.Resumo Iniciamos este módulo ilustrando como as medidas descritivas de posição e dispersão ajudam a formar uma imagem da distribuição dos dados. a variância e o desvio padrão. pecentis e o escore z são exemplos de medidas relativas. Por fim. 50 Copyright Ibmec . MÓDULO 3 Probabilidades 51 . . 00%.Variáveis aleatórias e distribuições de probabilidade Copyright Ibmec 53 . variáveis discretas e contínuas e suas respectivas Distribuições de Probabilidades. Estrutura do Módulo • Unidade 1 . indentificando quando e como utilizá-los: Binomial. não nos levarão a respostas exatas. • Calcular probabilidades de eventos isolados e de eventos combinados. o diretor de uma emissora de TV concluiu ser necessária uma audiência mínima de 17. minimizando desta forma a escolha por decisões incorretas. identificando suas diferentes abordagens. É justamente neste contexto que a Teoria das Probabilidades ganha especial importância. devido à incerteza associada aos eventos futuros. pois permite a quantificação e análise dos riscos que poderão ocorrer. • Definir variáveis aleatórias. Objetivos • Destacar a importância da Teoria das Probabilidades para a inferência estatística. imagine a seguinte situação: Para manter um programa no ar. • Determinar e interpretar o significado do valor esperado.Combinação de eventos • Unidade 3 . da variância e do desvio-padrão de uma variável aleatória.00%. Normal e Uniforme. O diretor deve ou não manter o programa? Processos decisórios baseados em fatos desta natureza são também denominados processos probabilísticos já que. A última pesquisa envolveu 120 telespectadores e revelou índices de audiência da ordem de 15. • Resolver problemas utilizando o EXCEL.Definição e abordagens • Unidade 2 . • Identificar a importância de se trabalhar com modelos teóricos de probabilidade para a simplificação dos cálculos. • Listar alguns modelos discretos e contínuos de distribuição.Introdução ao Módulo Para entendermos porque é necessário termos noções de probabilidade na tomada de decisões. Utilização de ferramentas do EXCEL 54 Copyright Ibmec .• Unidade 4 .Valores esperados. variâncias e desvios-padrões • Unidade 5 .Modelos de distribuição de probabilidade • Unidade 6 . a teoria da probabilidade ultrapassou os limites dos jogos de azar. que mede a possibilidade de um particular evento vir a ocorrer. Coloquialmente. com o decorrer do tempo. A probabilidade poderá ser representada na forma percentual. Tirar um número menor ou igual a seis é um exemplo de evento certo. é um número entre 0 e 1. Diante de um problema envolvendo o cálculo de probabilidades.Unidade 1 – Definição e Abordagens O que é Probabilidade? A origem do cálculo de probabilidades data do século XVI. conforme a utilizamos hoje. probabilidade mede a chance de um determinado evento vir a ocorrer. iremos dispor basicamente da abordagem apresentada ao lado para a sua resolução. Abordagens Lançar um dado e tirar sete é um bom exemplo de evento impossível. estando intimamente relacionada aos jogos de azar. Entretanto. integrando-se a um universo maior de aplicações. nunca inferior a zero ou superior a cem por cento. Copyright Ibmec 55 . Formalmente. inclusive. 000 2 13 112 1. O número total de resultados [n(S)] é 6.020 10.30 / 6 1. qual seria a probabilidade de tirarmos 4? Interprete o resultado. Consequentemente.00 / 6 56 . equiprováveis (probabilidades iguais) e coletivamente exaustivos (todos os resultados podem ser listados).12 / 6 1.02 / 6 1. O valor encontrado poderá ser interpretado como a proporção de resultados “4” a que chegaremos após a repetição do experimento. A probabilidade de ocorrência do evento A.000 60.Cálculo na abordagem clássica Baseia-se na hipótese de que os eventos são mutuamente exclusivos (quando um ocorre o outro não ocorre).00 / 6 1. esta probabilidade será de 1/6 [=n(A)/n(S)].040 Copyright Ibmec 2. será então determinada por: Exemplo prático Supondo o experimento “lançar um dado numerado e observar a face que cai para cima”. Tiraremos “4” apenas de uma única forma [n(A)]. Probabilidade Lançamento de um dado não viciado Número de Jogadas Número de “4” ocorridos Proporção 6 60 600 6. o dado do exemplo anterior fosse “viciado” e quiséssemos obter a probabilidade de ocorrência do “4”. lançando o dado 6 vezes. “2”. Entretanto. Se uma das condições anteriores fosse violada precisaríamos da abordagem experimental para chegar ao resultado. se fizéssemos a experiência.. fatoriais e outras). a listagem de todos os resultados poderá ser bastante extensa. poderíamos obter “4” mais (ou menos) do que uma única vez.As chances de sair um número são iguais as de sair 2 ou 3 etc. O exemplo anterior envolveu eventos: • Equiprováveis . Estas variações. razão pela qual foi possível adotarmos a abordagem clássica em sua resolução. denominamos a abordagem clássica de abordagem matemática ou “a priori” (o resultado é previamente conhecido). se por algum mecanismo qualquer. em casos mais sofisticados. desde que dentro de certos limites. etc. etc.Ao tiramos 1 não poderemos obter 2 ou 3. “3”.Sabemos todos os possíveis resultados: “1”. Neste caso específico. • Mutuamente exclusivos . a contagem do número total de resultados (6) e do número de resultados favoráveis (1) foi bastante simples. não inviabilizando o valor calculado anteriormente para a probabilidade. conforme ilustrado na tabela acima. Por isso. O que aconteceria por exemplo. Cálculo na Abordagem da Frequência Relativa A probabilidade de ocorrência de um evento A será determinada por: Copyright Ibmec 57 . razão pela qual o cálculo é feito por intermédio das técnicas de contagem (análise combinatória. pois baseou-se na listagem de todos os resultados. serão passíveis de acontecer. • Coletivamente exaustivos .Na realidade. Classificação de Eventos O resultado de 1/6 foi obtido através de dedução matemática sem a necessidade da realização de uma experiência. testar as peças. suponha que o dado fosse construído de forma a apresentar “4” com maior frequencia que os demais resultados.000 cheques recebidos. Uma fábrica produziu um lote de 10. • As conclusões obtidas por este método. Admitindo que após 1. Algumas importantes observações merecem destaque: • O valor obtido por este método será sempre uma estimativa já que sempre trabalharemos com amostras. um experimento precisou ser conduzido (lançar o dado. Porém. 58 Copyright Ibmec . Na abordagem subjetiva. a probabilidade associada a um evento irá basear-se na opinião pessoal do analista sobre as chances de sua ocorrência. de cada 1. A probabilidade de um lojista receber um cheque sem fundos é de 12% pois. de acordo com os dados históricos da contabilidade. A probabilidade delas apresentarem defeito é de 2.Frequência Relativa Note que nos exemplos anteriores a condição de equiprobabilidade foi violada.000 jogadas obtivéssemos 250 “4”. Por conseguinte. na impossibilidade de realização do experimento. Cálculo na Abordagem Subjetiva Na impossibilidade de realização dos experimentos e na ausência de registros históricos uma avaliação subjetiva por parte dos indivíduos poderá ser utilizada. as estimativas na grande maioria das vezes serão tendenciosas.25. observar os cheques devolvidos) para posteriormente estabelecermos as respectivas probabilidades (motivo da denominação experimental ou “a posteriori”). assumiríamos que p(“4”) seria de 0. deveríamos lançá-lo por muitas vezes e observarmos a frequência do valor “4”. já que testes realizados com 100 destas peças.00%. dados históricos sobre os eventos poderão ser considerados na determinação das probabilidades. somente serão válidas se as amostras analisadas mantiverem as mesmas características e condições das populações que as originaram. razão pela qual foi impossível aplicarmos a abordagem clássica. preconcebidas e de “difícil defesa” quando questionadas.Voltando ao exemplo anterior. Para uma maior precisão. 120 são devolvidos por este motivo. Observações . apontaram apenas 2 defeituosas. será preciso tomar cuidado quanto às conclusões. uma alternativa será ampliar o tamanho da amostra. • Em algumas situações. Ainda que este seja o único critério possível em determinadas situações. Como determinaríamos a probabilidade de tirar “4”? Neste caso.000 peças. p(A ou B ou C) = p(A) + p(B) + p(C). não puderem ocorrer simultaneamente. que deverá ser subtraída da soma das probabilidades individuais para evitar sua dupla contagem. qual a probabilidade de encontrarmos um investidor que aplique no fundo de ações ou no fundo de renda fixa?” A regra geral para estes casos será dada pela expressão abaixo: Para dois eventos A e B. Um investidor em ações? 2. esta propriedade poderá ser utilizada para agilizar os cálculos. o conjunto com todas as possibilidades. 120 investem em ações e 100 em renda fixa. nem todas as probabilidades das interseções deverão ser retiradas.) = 1. o que implica que p(Ā) será equivalente a 1 . • A observação anterior aplica-se para os eventos complementares [p(A ou ) = 1]. qual a probabilidade de tirarmos 1 ou 2?”. “Em uma pesquisa entre 1000 correntistas de um banco. a probabilidade A ou B será a soma das probabilidades individuais. • Caso a união dos eventos forme o espaço amostral. pergunta-se quais as probabilidades de selecionarmos: 1. p(A ou B ou C ou . Um investidor em renda fixa? Copyright Ibmec 59 . • Quando os eventos forem mutuamente exclusivos. ou seja. Eventualmente.p(A) e vice-versa.Unidade 2 – Combinação de Eventos Leis da Adição – Combinações do Tipo A ou B As combinações podem ser exemplificadas nas seguintes situações: “No lançamento de um dado.. Sabendo-se ainda que 60 investem em ambas as modalidades. • Para três ou mais eventos mutuamente exclusivos.. Exemplo prático Uma pesquisa entre 200 correntistas de um banco revela que. a probabilidade de ocorrência de um ou de outro será dada por: p(AouB) = p(AB) = p(A) + p(B) -p(AeB) • O último termo da fórmula refere-se à probabilidade da interseção dos conjuntos A e B. o termo p(AeB) será nulo. deste total. • Atenção ao aplicar a regra anterior na combinação de três ou mais eventos pois. Por exemplo. 1 ou 110%. Usando a fórmula.3. o que contraria a definição de probabilidade. Um investidor em ações ou renda fixa? 5. A probabilidade será: 60 Copyright Ibmec . Um correntista que não invista em nenhum dos dois? Adotando a abordagem da freqüência relativa. as probabilidades pedidas serão: Note que se não retirássemos a probabilidade da interseção chegaríamos a p(A ou RF) = 1. Um investidor em ações e renda fixa? 4. chegaremos a: Basta observar que o evento C = {“não investir nem em ações. nem em renda fixa”} é complementar ao evento {“investir em um ou em outro”}. que é condição necessária e suficiente para a independência dos eventos. • Para o caso de eventos independentes. B e C forem independentes. suponha uma caixa com 2 bolas claras e 1 bola escura. Eventos Dependentes e Independentes Para fixar os conceitos de dependência e independência de eventos. eles não serão mutuamente exclusivos e se forem mutuamente exclusivos. não serão independentes.p(C). • Quando a ocorrência de um evento A não influenciar a ocorrência do evento B. tendo o evento A ocorrido ou não. Neste caso. a probabilidade de ocorrência de B não será alterada e assim. • A fórmula anterior poderá ser aplicada a n eventos. os eventos serão independentes. p(A). se A.Leis da Multiplicação – Combinações do Tipo A e B Estas combinações podem ser exemplificadas nas seguintes situações: “No lançamento de uma moeda duas vezes. designada por p(B|A) (lê-se p de B dado A). Neste caso. Definindo o evento A como {“tirar a primeira bola e ela ser clara”} e o evento B como {“tirar a segunda bola e ela ser clara”} determine: 1. p(A e B e C) = p(A). Por exemplo. a fórmula passa a ser reescrita como: p(AeB) = p(A) x p(B). a probabilidade da ocorrência simultânea de ambos será dada por: p(AeB) = p(A B) = p(A) x p(B | A) = p(B) x p(A | B) • Quando a ocorrência de um evento A influenciar a ocorrência do evento B. os eventos A e B serão dependentes. qual a probabilidade de encontrarmos títulos com vencimento superior a 20 dias e valores inferiores a $1. se dois eventos são independentes. Na realidade.p(B). após a ocorrência do evento A. Para dois eventos quaisquer. determinaremos a probabilidade condicional para o evento B. Não confundir eventos independentes com eventos mutuamente exclusivos.200?” A regra geral para estes casos será dada pela expressão abaixo. p(B|A) = p(B). qual a probabilidade de tirarmos duas caras (uma cara e outra cara)?” ou “Analisando o prazo de vencimento de duplicatas. Copyright Ibmec 61 . Conclusões Nas resoluções anteriores. independente do resultado da primeira extração (A={ser clara} 62 Copyright Ibmec . 3. p(B|A) supondo que a primeira bola não seja recolocada na caixa. Assim. p(B|A) = ½. p(B|A) supondo que a primeira bola seja recolocada na caixa.2. n(S|A) = 3. a situação da caixa não será alterada. n(S|A) refere-se ao número de elementos do espaço amostral após a primeira retirada. Logo. dado que a primeira bola extraída foi clara. sobraram 2 bolas. Se A ocorreu. No caso (b). n(B|A) = 2. os eventos A e B são independentes. p(A) = 2/3. Sendo n(A) = 2 e n(S) = 3. n(B|A) = 1. n(B|A) refere-se ao número de bolas claras na segunda extração. p(B|A) = 2/3. Comparativamente. teremos: 1. Como a primeira bola não foi devolvida a situação da caixa ficou alterada. Como a primeira bola foi devolvida. já que a ocorrência do primeiro não influencia a ocorrência do segundo. Aplicando a abordagem clássica e designando por S o espaço amostral. 2. Portanto. n(S|A) é denominado espaço amostral reduzido. 3. n(S|A) = 2. Com isso. dado que a primeira bola extraída foi clara. 1 clara e a outra escura. percebe-se que. Para o caso (c). Caso a primeira bola fosse escura (o evento teria ocorrido).)=2/2. No exemplo analisado. tratando-se de eventos dependentes. os eventos A e B não serão mais independentes. as condições iniciais do experimento serão modificadas. conforme ilustra o diagrama da esquerda apresentado anteriormente. o conhecimento prévio do primeiro resultado irá alterar as expectativas em relação ao segundo resultado. Consequentemente. Pelas duas conclusões anteriores. determinamos p(B|A)=1/2. pois ao não devolvermos a primeira bola à caixa. p(B)=p(B|A)=p(B| )=2/3. passamos a trabalhar em um espaço amostral reduzido.ou ={ser escura}). p(B|. Copyright Ibmec 63 . o que comprova que o segundo resultado é afetado pela ocorrência do primeiro [p(B)≠p(B|A)≠p(B|. o fato de recolocarmos a bola de volta na caixa não irá alterar as condições iniciais para a extração da segunda bola.)]. Portanto. (CKK). Uma distribuição de probabilidades (DP) será uma tabela onde a primeira coluna listará todos os possíveis valores da variável aleatória e a segunda. • Uma variável aleatória (VA) é aquela cujo valor é proveniente do possível resultado de um experimento.(KKK)}. • Uma variável aleatória discreta é aquela que poderá assumir apenas valores definidos.Unidade 3 – Variáveis Aleatórias e Distribuições de Probabilidade Variáveis Aleatórias Suponha o experimento simples de lançarmos 3 moedas não viciadas. os possíveis resultados deste experimento equivalerão às 8 “trincas” a seguir: {(CCC). resultantes da contagem de itens. • A tabela criada nestes moldes. • A situação anterior é um exemplo de variável aleatória. 64 Copyright Ibmec .(KCK). concluiremos que X poderá assumir os valores 0. 1. as variáveis aleatórias poderão assumir valores enumeráveis ou não.(KCC). suas respectivas probabilidades de ocorrência. 2 e 3. • Uma variável aleatória contínua é aquela que poderá assumir infinitos valores em um determinado intervalo. definida no quadro acima.(CKC)... dependendo da natureza do experimento. separados. Distribuição de Probabilidades Discretas Supondo que X seja uma variável aleatória discreta. Definindo a variável X como o número de caras que ocorrem nos 3 lançamentos. associaremos a X às probabilidades de ocorrência de cada um de seus possíveis valores.(CCK). também recebe o nome de função de probabilidade para a variável X. E.(KKC). Representando cara como C e coroa como K. denominadas funções densidade de probabilidade ou simplesmente curvas de probabilidade. Exemplo Prático A tabela a seguir ilustra a função de probabilidade p(X = x) e a função de distribuição p(X ≤ x) para a variável X do exemplo “Cara e Coroa” apresentado anteriormente. ou seja ∑p(x)=1. • A função de probabilidade também poderá estar expressa na forma cumulativa. ou seja 0 ≤ p(X=x) ≤ 1. fornecendo portanto a probabilidade de X ≤ x [F(x)=p(X ≤ x)]. Quando colocadas em um gráfico X Y. Neste caso. ela será denominada função de distribuição acumulada. Copyright Ibmec 65 . trataremos questões deste tipo através da construção de funções matemáticas específicas. Na realidade. além da condição anterior. • A partir de uma função de probabilidades é possível traçarmos gráficos similares aos histogramas: no eixo horizontal marcaremos os valores assumidos por X e no eixo vertical marcaremos os valores assumidos por p(X=x). Distribuições de Probabilidade Lançamento de três moedas não viciadas X=Número de Caras 0 1 2 3 ∑ p(X = x) 1/8 3/8 3/8 1/8 8/8 p(X ≤ x) 1/8 4/8 7/8 8/8 ---- Distribuição de Probabilidades Contínuas Quando X for uma variável contínua poderá assumir infinitos valores dentro de um determinado intervalo. • Com exceção da observação anterior. • Para que uma função qualquer seja uma função de probabilidade. as demais não serão aplicáveis às variáveis contínuas.• A probabilidade associada a cada valor de X deverá ser sempre um número compreendido entre 0 e 1. estas curvas irão delimitar áreas proporcionais às probabilidades da variável aleatória. a soma de todas as probabilidades deverá ser 1. onde T assume qualquer valor em unidades de tempo no intervalo [0. Quando o intervalo considerado for infinitesimal. Calcule a probabilidade do primeiro cliente chegar entre [0. O primeiro passo será traçarmos o gráfico com a função densidade para. no limite. a probabilidade da variável X assumirá um único valor: zero [p(X=x)=0].75 ou 75%.1]. 66 Copyright Ibmec . • No gráfico anterior. a região marcada da figura anterior ficará menor.1]. quanto para outras funções mais complexas.2]. • À medida que diminuirmos o intervalo. • Por isso.Aplicação da probabilidade contínua Suponha que a variável T meça o tempo gasto entre o início do expediente bancário e a chegada do primeiro cliente à agência. teremos apenas um ponto na função densidade que não delimitará nenhuma área. considerado [0. • Tanto para a função citada. encontraremos a área por intermédio da integração da função densidade. Através de estudos apropriados. Observe no gráfico abaixo que a probabilidade do primeiro cliente chegar entre 0 e 1 corresponde à região hachurada. determinarmos a área correspondente ao intervalo considerado. a determinação da área marcada foi possível através do conhecimento de técnicas básicas de Geometria já que a área corresponde à forma de um trapézio. igual a 0.T/2. sabe-se que a função densidade f(T) = 1 . nas distribuições contínuas. em seguida. O Valor Esperado de Z.00 e definindo Z como o ganho líquido em cada sorteio. A Distribuição de Probabilidades para Z. A Variância e o Desvio-padrão de Z. se a casa selecionada não for sorteada. 4. O valor esperado é usualmente representado pelo operador E (nome da variável). Copyright Ibmec 67 . pede-se: 1. variâncias. ele perderá a ficha apostada. 3. outra com o número 00 e as demais numeradas de 1 a 36. Supondo que cada ficha tenha o valor de $1. a Média Aritmética é também denominada de Valor Esperado ou Esperança Matemática. desvios-padrões etc. Portanto. a determinação das medidas descritivas envolvendo as distribuições de probabilidades discretas será similar à utilizada para as distribuições de frequência. A interpretação dos resultados. Para apostar é necessário colocar uma ficha em uma destas casas. Nas distribuições de probabilidade. O desvio-padrão σ para uma variável aleatória continuará definido como a raiz quadrada positiva de sua variância.Unidade 4 – Valores Esperados. Exemplo prático Em um jogo de roleta o tabuleiro possui 38 casas: uma com o número 0. podemos calcular médias. 2. Se a casa selecionada for sorteada ele receberá sua ficha de volta e ainda um prêmio de 35 fichas adicionais. Variâncias e Desvios-Padrões Variáveis Discretas e Medidas Descritivas Assumindo que trabalharemos com variáveis discretas. 00 (quando a “casa” escolhida pelo apostador for sorteada).7629.00 ∑ p(Z = z) 37/38 1/38 38/38 p(Z ≤ z) 37/38 38/38 ---- Solução B: Usaremos o conceito de média para dados agrupados e chegaremos a: Solução C: O desvio-padrão será a raiz quadrada positiva do resultado anterior: $5. Distribuições de Probabilidade Roleta .00 (quando o apostador perder a ficha apostada) ou 35.00 +35. A tabela seguinte complementa a resposta. Como a roleta tem 38 números. a chance do número sorteado ser o escolhido pelo apostador é de 1/38 e a chance de não ser é de 37/38.Solução A A variável Z poderá assumir somente 2 valores: -1. 68 Copyright Ibmec .Jogo Pleno Z=Ganho/(Perda) -1. • Variáveis cujas regras de formação adaptem-se perfeitamente Em termos matemáticos aos modelos pré-estabelecidos seria. • Variáveis onde as regras de formação não necessariamente constituem uma relação matematicamente perfeita. Modelos de Distribuição Conheça agora os três modelos teóricos de distribuições de probabilidades. é razoável verificar. • Variáveis onde as regras de formação não necessariamente constituam uma relação matematicamente perfeita e não existam estudos disponíveis O tempo gasto entre o início do expediente e a chegada do primeiro cliente poderia eventualmente ilustrar este tipo. Para estes casos. Copyright Ibmec 69 . através dos testes de hipótese apropriados. Os resultados de medições ou os retornos dos ativos de risco. levando-o a concentração dos fatores que verdadeiramente afetam sua tomada de decisão. o analista deverá trabalhar com a coleta de dados amostrais. Ao longo do módulo. • O conhecimento de tais modelos permitirá o raciocínio do pesquisador das questões algébricas. • Existem alguns poucos modelos que cobrem praticamente todos os principais tipos de problemas usuais. O nosso objetivo foi ilustrar o princípio da utilização de distribuições. A determinação das probabilidades será simplificada se conhecermos os modelos teóricos de distribuições de probabilidades: • Os modelos de distribuições de probabilidades são na realidade funções matemáticas que permitem o cálculo das probabilidades de forma bastante rápida e simples.Unidade 5 – Modelos de Distribuição de Probabilidade Conceitos Toda e qualquer variável aleatória estará associada a uma tabela de probabilidades ou a uma função densidade distinta. abordaremos apenas as distribuições binomial. Nestas situações. se as atuais condições permaneceram inalteradas em relação aos modelos pré-estabelecidos. formular hipóteses acerca do comportamento dos dados e testá-los. o número de caras no lançamento de três moedas representado pela distribuição binomial. Caso necessite de conhecimentos específicos nesta área. verifique a bibliografia ao final do curso. uniforme e normal. geralmente representados pela distribuição normal. por exemplo. • Em uma linha de montagem uma peça sair defeituosa ou não. • As tentativas são independentes (uma não afeta a outra). Fórmulas de cálculo 70 Copyright Ibmec . Os resultados acima podem ser classificados em duas categorias: SUCESSOS [S] ou INSUCESSOS [I]. Distribuição De Bernoulli Evento Sucesso Insucesso ∑ Probabilidade p q p+q=1q=1-p Se repetirmos a Distribuição de Bernoulli n vezes de forma independente.Distribuição Binomial Diversas são as situações onde o dado que devemos analisar apresenta dois possíveis estados: • No lançamento de uma moeda tirarmos ou não cara. Se atribuirmos probabilidades a cada uma das categorias. garantindo que um resultado não influencie o seguinte. • No lançamento de um dado tirarmos ou não o número 6. construiremos uma Distribuição de Probabilidades denominada de Distribuição de Bernoulli. Principais características da distribuição binomial • Cada tentativa apresenta Sucesso (S) ou Insucesso (I). • Usada para populações infinitas ou amostras com reposição. chegaremos à Distribuição Binomial. • X mede o número de sucessos em n tentativas. • Aplicações em controle de qualidade. • k: número desejado (k=0. para populações maiores. a função densidade f(X) é plana. p(X = 3) = C310 x 0..2. as probabilidades de defeitos em uma segunda peça serão alteradas.n).95 e k=3.. q=0. • p: probabilidade de um único sucesso (0<1). paralela ao eixo horizontal. (n=1. Qual a probabilidade de encontrarmos 3 peças defeituosas em uma amostra com 10 peças? Ao retirarmos uma primeira peça para a realização dos testes.1. diminuiremos a população em um elemento.2.05. Conseqüentemente.Onde • n: tamanho da amostra. • q: probabilidade de uma única falha (q=1-p). Exemplo prático O percentual de peças defeituosas em uma linha de produção é de 5%.0105 105% Distribuição Uniforme A distribuição uniforme é o modelo mais simples de distribuição contínua além de ser caracterizada pela função densidade constante entre seus parâmetros.3. p=0. Principais características da distribuição uniforme: • No intervalo.. • Parâmetros: a e b. Copyright Ibmec 71 ...957 = 0. n=10.). é razoável admitir que esta alteração não ocasione tanto impacto na condição da população. Entretanto.053 x 0.-∞ < a < b < +∞.. Gauss (1777-1855) que a criou. b=50. 72 Copyright Ibmec .Fórmulas de cálculo Em uma sorveteria. o volume diário vendido é uniformemente distribuído entre 10 e 50 litros. c=25. Qual a probabilidade das vendas de amanhã situarem-se entre 25 e 40 litros? Qual o valor esperado das vendas? E a variância? Temos a=10. Distribuição Normal Uma das distribuições contínuas mais importantes para a estatística é a Distribuição Normal. d=40. também citada em alguns textos como Distribuição de Gauss em homenagem a Karl F. • Utilizadas para aproximar resultados de outras distribuições (binomial. se X e Y são VAs normais. da média e do desvio-padrão. há uma família de curvas normais. Copyright Ibmec 73 . Ou seja. cuja principal característica é apresentar média nula e desviopadrão igual a 1. Valores positivos para z indicarão que X está à direita da média.X + b. com um ponto de máximo ao centro da distribuição e extremos assintóticos que nunca tocam o eixo horizontal (tendendo respectivamente a . • Para encontrar um valor X qualquer a partir da probabilidade. Na realidade. • Descrevem muitos fenômenos físicos e financeiros. Encontre X pela expressão acima.Y também é VA normal (a e b constantes). • Inteiramente descritas por seus parâmetros μ e σ (média e desvio padrão). • Para encontrar a probabilidade de X em um intervalo. Fórmulas de cálculo • A variável z equivale à distância entre X e a média medida em desvios-padrões. Z = a. por exemplo). Valores negativos indicarão que X está à esquerda. • Uma combinação linear de variáveis normalmente distribuídas é também uma variável normalmente distribuída. calcule primeiramente z e em seguida consulte a tabela da normal padrão.Principais Características da distribuição normal: • São simétricas em relação à média e apresentam o formato de um sino. referem-se à distribuição normal padronizada. procure a área no corpo da tabela e em seguida ache z. conforme ilustrado na figura abaixo. • As tabelas usualmente adotadas para o cálculo da probabilidade em função de z.∞ e + ∞). Exemplo Cálculo de z: (1318-1000)/150 = 2.12. 74 Copyright Ibmec . Calcula DIST. não é necessário calcular z para usar a função Usa a Normal-padrão para calcular z tal que p(X ≤ z) = prob Encontra o Escore z para C.NORM(C. respectivamente. Função COMBIN(n. Probabilidades usando a Binomial. se log=0.NORM(prob. Há outras funções que permitem o cálculo de probabilidades para outras distribuições. recomendamos fortemente a leitura da bibliografia indicada.log) DIST.d) Copyright Ibmec 75 .md.dp.md. Para aqueles que necessitem de um maior aprofundamento neste tópico.n. Usa a Normal para calcular a probabilidade de X ≤ C. estraído de um conjunto com média md e desvio-padrão dp.log) COMBINAÇÃO de n. DISTRBINOM fornecerá a probabilidade de X=k.Unidade 6 – Utilização de Ferramentas do Excel Uso do Excel no Cálculo de Probabilidades Nesta seção apresentaremos as funções das definições vistas ao longo do módulo. md e dp referem-se à média e ao desvio-padrão do conjunto de dados. não é necessário calcular z para usar a função. log deverá ser igual a 1. k a k. Usa a Normal-padrão para calcular a probabilidade de X ≤ z Usa a Normal para calcular C tal que p(X ≤ C) = prob. onde k. se log=1 de X<=k.NORMP(z) INV.md.p.k) DISTRBINOM(k. n e p correspondem às definições vistas no texto.NORMP(prob) PADRONIZAR(C.dp) INV. ferramentas indispensáveis para lidar com o cálculo clássico da probabilidade. Para o cálculo das probabilidades em combinações “OU” é necessário utilizar a lei da Adição. 76 Copyright Ibmec . variando ligeiramente sua expressão em função dos eventos serem ou não mutuamente exclusivos. regras da adição e da multiplicação. As combinações de eventos podem ser do tipo “evento A OU evento B” ou “evento A E evento B”. Apresentamos as principais técnicas de contagem: diagrama de árvore. coletivamente exaustivos ou equiprováveis. Dois ou mais eventos podem ser considerados como mutuamente exclusivos. Nas combinações “E” utilizam-se a lei da Multiplicação que varia da mesma forma que as combinações “OU”. A frequência relativa e a frequência subjetiva são outras abordagens de cálculo da probabilidade.Resumo Iniciamos este módulo definindo probabilidade como um número entre 0 e 1 que mede as chances de determinado evento vir a ocorrer. MÓDULO 4 Relação entre Variáveis 77 . . • Definir variáveis aleatórias. • Listar alguns modelos discretos e contínuos de distribuição. Esta técnica possui o objetivo de projetar o que ocorrerá com uma das variáveis a partir do conhecimento prévio do que ocorrerá com a outra variável. Copyright Ibmec 79 . faturamento e lucro líquido. Objetivos • Destacar a importância da Teoria das Probabilidades para a inferência estatística. e vice-versa. Neste módulo enfatizaremos o estudo do interrelacionamento entre duas variáveis X e Y e abordaremos duas técnicas específicas: Análise da Covariância/Correlação onde a ênfase recai na identificação da dependência entre as variáveis. são dependentes ou independentes. permitindo o cálculo da variância para uma combinação linear de variáveis. da variância e do desvio-padrão de uma variável aleatória. • Determinar e interpretar o significado do valor esperado. Se a variável A influenciar a ocorrência da variável B. variáveis discretas e contínuas e suas respectivas Distribuições de Probabilidades. Análise de Regressão onde a ênfase recai na formalização do relacionamento entre as variáveis através de uma equação. • Resolver problemas utilizando o EXCEL. A e B serão dependentes. • Identificar a importância de se trabalhar com modelos teóricos de probabilidade para a simplificação dos cálculos. • Calcular probabilidades de eventos isolados e de eventos combinados. identificando suas diferentes abordagens. Normal e Uniforme. não é razoável esperar que seu lucro tenha evoluído? Analisando de outra forma o que tentamos verificar é se as variáveis citadas. Duas variáveis A e B serão independentes se os resultados obtidos por A não influenciarem os resultados obtidos por B. indentificando quando e como utilizá-los: Binomial.Introdução ao Módulo Se o faturamento de uma Empresa ABC dobrou este mês. Estrutura do Módulo • Unidade 1 - Coleta de dados • Unidade 2 - Cálculo de covariância • Unidade 3 - Cálculo do coeficiente de correlação • Unidade 4 - Combinação de variáveis • Unidade 5 - Cálculo dos parâmetros da regressão • Unidade 6 - Utilização de ferramentas do EXCEL 80 Copyright Ibmec Unidade 1 – Coleta de Dados Coleta de Valores Para realizarmos toda e qualquer análise envolvendo mais do que uma única variável, o primeiro passo será a coleta dos valores de forma emparelhada. As VARIÁVEIS aleatórias X e Y estarão EMPARELHADAS quando, a cada momento que observarmos uma ocorrência, anotarmos dois valores: um para a variável X, outro para a variável Y. Portanto, para n observações teremos n pares de dados: (X1,Y1); (X2,Y2); (X3,Y3); ..... (XN,YN). • O conceito anterior poderá ser ampliado de forma a incluir mais do que duas variáveis. X, Y e Z poderiam formar as triplas (X1,Y1,Z1); (X2,Y2,Z2); (X3,Y3,Z3); ..... (XN,YN,ZN). • A definição anterior não necessariamente significará que cada par [ou n-dupla] de valores ocorrerá em um instante de tempo distinto. Relação de Dados e Variáveis A tabela abaixo relaciona o faturamento e o lucro líquido da Empresa XYZ. Observe que os dados estão emparelhados, pois a cada mês foram coletados os dados referentes às duas variáveis [X=FAT, Y=LL]. DADOS EMPARELHADOS Empresa XYZ - Valores em M$ Anos 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 Faturamento (X) 200 300 500 400 600 800 900 900 1.100 1.000 Copyright Ibmec Lucro Líquido (Y) 20 35 48 38 56 77 87 83 102 98 81 • É comum designarmos a variável explicativa ou independente por X, sendo a variável explicada ou dependente designada por Y. • Para estudar a influência de mais do que uma variável explicativa no comportamento da variável explicada, a técnica utilizada é a Análise de Regressão Múltipla. • Cabe ressaltar que as medidas encontradas usualmente referem-se às relações entre as variáveis tomadas duas a duas. Por esse motivo, trataremos somente da análise envolvendo duas variáveis. Utilização dos Diagramas de Dispersão No estudo do comportamento das variáveis quantitativas, uma ferramenta bastante utilizada é o traçado do diagrama de dispersão, já definido no módulo 2 e ilustrado abaixo. Através do diagrama de dispersão é possível identificar visualmente: • A existência e o tipo de relacionamento entre as variáveis, i.e, um relacionamento positivo (do tipo Y sobe quando X sobe, Y cai quando X cai) ou negativo (do tipo Y sobe quando X cai, Y cai quando X sobe). Na figura ao lado exemplificamos um relacionamento positivo. • A forma como o relacionamento ocorre: linear, quadrático, exponencial e outros. Na figura anterior exemplificamos um relacionamento linear entre X e Y. • Nem sempre esta ferramenta permitirá a identificação dos relacionamentos. Particularmente, nos casos envolvendo variáveis qualitativas ou variáveis quantitativas que assumam poucos valores. 82 Copyright Ibmec se fôssemos calcular a covariância entre X e X. a covariância populacional será de 8. No processo inferencial.957. Exemplo prático Conforme cálculos efetuados na tabela abaixo. sx. • Observe a semelhança entre as expressões anteriores e as utilizadas para o cálculo da variância.y.620 por 9). encontraríamos 8. Se quiséssemos apresentar em bases amostrais. Copyright Ibmec 83 .062 (M$)2.Unidade 2 – Cálculo de Covariância Cálculo da Covariância Outra possível técnica para identificar os relacionamentos entre duas variáveis numéricas X e Y é o cálculo da covariância e da correlação entre X e Y. recorreríamos às expressões para a variância. será um estimador não tendencioso de σx.78 (M$)2 (obtidos pela divisão de 80. • O motivo de utilizarmos (n-1) no denominador da covariância amostral seguirá a mesma linha de raciocínio que utilizamos para a variância amostral. Ou seja.y calculado desta forma. 6 18.878 2. é possível encontrar um valor não nulo (positivo ou negativo) ou um valor nulo.620 8. 84 Copyright Ibmec .700 670 Y=LL 20 35 48 38 56 77 87 83 102 98 644 64.198 4.100 1.868 10. Y também cai e vice-versa.6 33.6 0 0 (X-μX) x (Y-μy) 20.638 5.CÁLCULO DA COVARIÂNCIA Empresa XYZ .4 -8.000 6. Y sobe e vice-versa. Para o caso de um valor não nulo.4 -29.788 7.168 11.y > 0: X e Y são dependentes e apresentam relacionamento positivo.088 80.276 16.6 37.y < 0: X e Y são dependentes e apresentam relacionamento negativo.128 588 1. se X cai.4 X-μX -470 -370 -170 -270 -70 130 230 230 430 330 0 0 Y-μy -44. ou seja: se X sobe Y cai. a interpretação será: • σx.062 Interpretação da Covariância Tendo determinado a covariância.4 -26.Valores em M$ Anos 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 ∑ Médias X=Fat 200 300 500 400 600 800 900 900 1.4 12. • σx. Ou seja. se X cai.4 -16. se X sobe Y também sobe.6 22. Covariância Negativa A figura acima ilustra um exemplo de covariância negativa. uma covariância positiva indicará movimentos paralelos na mesma direção. necessariamente apresentarão covariância nula. Para o caso de um valor nulo é preciso deveremos observar que: • Se duas variáveis forem independentes. x.y será positivo.-) e (+. caso as observações concentrem-se nos quadrantes (-. Supondo que X e Y assumam a função do tempo. Neste caso. a argumentação é similar à do exemplo anterior e poderá ser adotada para a interpretação dos resultados. • Mas se duas variáveis apresentarem covariância nula. Observe no Diagrama de Dispersão que cada par (x. seu produto será positivo. Como a covariância é função da soma de todos estes produtos.-) os desvios serão negativos para X e Y. No quadrante assinalado com (-. Consequentemente. O gráfico à direita ilustra a questão de outra forma. Copyright Ibmec 85 .y) irá gerar um desvio em relação às médias para X e Y. A mesma linha de raciocínio poderá ser utilizada para os demais quadrantes.Covariância Positiva O gráfico abaixo apresenta um exemplo de covariância positiva.+). não necessariamente serão variáveis independentes. o Coeficiente de Correlação surge como uma boa alternativa. a covariância apresenta alguns inconvenientes. • É uma variável ilimitada.Inconvenientes da Covariância O resumo das regras e conclusões anteriores encontra-se abaixo. Para contornarmos os inconvenientes apresentados. dentre os quais destacamos: • Sua unidade é de difícil entendimento. Se X estiver expresso em $ e Y em nº de empregados. e consequentemente. ou seja. a covariância estará expressa em $2. está definida para qualquer valor existente no conjunto de números reais. Por exemplo. se X e Y estiverem expressos em $. 86 Copyright Ibmec . a covariância será expressa em $xnº de empregados. não fornecerá o grau de dependência existente entre as variáveis. Apesar de servir como indicador para a dependência de variáveis e possuir uma série de propriedades aritméticas úteis para a combinação de variáveis. Esta característica permitirá a criação de uma escala para a quantificação do relacionamento entre as variáveis (r=0. Portanto. se r=0. o Coeficiente de Correlação terá o mesmo sinal da covariância. Supondo X e Y duas variáveis emparelhadas.4). -1 "≤ ρ "≤ 1 (a prova constitui-se em teorema da Estatística teórica).Unidade 3 – Cálculo do coeficiente de correlação Coeficiente de Correlação O Coeficiente de Correlação (também denominado de Coeficiente de Pearson) é normalmente designado por r para dados referentes a amostras e por  [lê-se rô] para dados referentes a populações. Razão de se preferir afirmar que.Y] será definido por: Considerando que o desvio-padrão de qualquer variável será sempre um número não negativo. o Coeficiente de Correlação ρX. • Quando diferente de zero. Sua utilização é bastante difundida nos problemas envolvendo o relacionamento linear entre duas variáveis. o Coeficiente de Correlação apresentará também as seguintes características: • Não possuirá unidades. • Será uma variável limitada. evitando com isso uma das desvantagens que citamos para a covariância. será interpretado de forma similar. • Quando nulo poderá indicar independência entre as variáveis ou relacionamentos não lineares.Y [ou rX. indicará dependência entre as variáveis. ou seja. as variáveis são não correlacionadas.8 significa que X e Y apresentam dependência maior que W e Z. Além da similaridade com a variância. evidenciando relacionamentos positivos ou negativos. pois além de quantificar a correlação existente entre elas. que possuem r=0. ainda a qualifica. Copyright Ibmec 87 . Ou seja.062 M$2. Se calcularmos os desvios-padrões para X e Y encontraremos respectivamente 296. exemplo já apresentado anteriormente.9964 [= 8. Assim. mais forte será esta relação (ou dependência). O Coeficiente de Determinação Face à sua característica de oscilar entre -1 e 1.26)].Exemplo prático Calcule o Coeficiente de Correlação existente entre o Faturamento e o Lucro Líquido da empresa XYZ.26 M$.82 M$ e 27. O inverso ocorrerá à medida que o coeficiente aproximarse de zero. Outras Informações 88 Copyright Ibmec . o coeficiente de correlação será igual a 0. quanto mais próximo de +1 ou de -1. O Coeficiente de Determinação r2 medirá a proporção da variação de Y que poderá ser explicada pela variação existente em X. Já havíamos calculado a covariância e obtido 8. usualmente denominado de coeficiente r2 (coeficiente de correlação elevado ao quadrado). Outra alternativa viável.82 x 27. será trabalharmos com o Coeficiente de Determinação.062 / (296. o coeficiente de correlação permitirá a qualificação do grau de relacionamento entre as variáveis. Observe que enquanto r preocupa-se com a direção do relacionamento.• A expressão (1. r e r2 indicarão o maior ou menor afastamento dos pares (Xi. r2 preocupa-se com a maior ou menor proximidade dos pontos da reta traçada.r2) também é denominada de Coeficiente de Indeterminação e representa a parcela da variabilidade de Y não explicada pela variabilidade de X. • Os gráficos a seguir ilustram diversos casos de r e r2. • Por ser uma medida do relacionamento linear entre as variáveis. Copyright Ibmec 89 .Yi) da reta de regressão linear. recebem o nome de Combinações Lineares de X e Y.40 chegaremos a: 90 Copyright Ibmec . para uma combinação linear entre X e Y. VAR(aX+bY) = a2 .E(Y) b. expressões do tipo “aX + bY” onde a e b são duas constantes quaisquer. Supondo que a lucratividade e o risco (em desvio-padrão) para a linha de ventiladores (X) sejam de 4% e 3%. Admitindo que a=0.70. Sendo você o fabricante. utilizaremos as fórmulas (a) e (b) apresentadas anteriormente. e para tostadores (Y) sejam de 7% e 6%. Prova-se que.E(X) = b. VAT(X) + b2VAR(Y) + 2ab COV (X. igual a -0.60 e b=0. analise os resultados obtidos.Unidade 4 – Combinação de Variáveis Combinação de Variáveis Admitindo a observação de valores emparelhados para duas variáveis X e Y quaisquer. E(aX = bY) = a. opte por alocar 60% dos seus recursos na fabricação de ventiladores e os 40% restantes na fabricação de tostadores. Com 60% em X e 40% em Y. as relações válidas serão: a. O primeiro passo será determinarmos a covariância entre X e Y. Será necessário definir o coeficiente de correlação.Y) Exemplo prático Ventiladores e tostadores são produtos cuja correlação das vendas é negativa. Copyright Ibmec 91 .72% contra 3.00%) ao que você obteria se investisse somente na produção de ventiladores (5.20% contra 4.00%).Observe que foi possível obter um retorno superior e com risco inferior (1. .. • A regressão simples estudará os modelos envolvendo apenas uma única variável explicativa X. meramente casuais.. científica etc.. Ao confrontarmos uma série histórica dos fechamentos de um índice da bolsa de valores com o número de dias ensolarados. X3. ambos em bases mensais.4 Preço. sendo os demais modelos abordados pela regressão múltipla.. menor a quantidade demandada (vendida).. o modelo confirma a Lei da Demanda da Microeconomia que postula que quanto maior o preço.Xn). deverá ser justificada através de alguma teoria econômica. Xn. o comportamento da variável explicada Y estará relacionado ao comportamento de uma única variável explicativa X (simples). . X3. Mesmo estabelecendo uma equação matemática. As variáveis X1. é possível encontrarmos algum tipo de relacionamento.. Neste caso.X2. Exemplos práticos 1. Entretanto.Unidade 5 – Cálculo dos Parâmetros da Regressão Análise de Regressão A análise de regressão procura estabelecer uma equação matemática que determinará o comportamento de uma variável Y em função do comportamento de outras variáveis X1. essa questão não seria justificável por nenhuma teoria financeira. Tais modelos. 2. X2. a regressão não é condição necessária e suficiente para determinar relações de causa-efeito entre as variáveis envolvidas. ou seja. constituem-se no que os estatísticos denominam de relacionamentos espúrios.. Y=f(X1. Tal relacionamento será definido por intermédio da equação de uma reta linear.. • A regressão Y é também denominada de variável dependente ou explicada. um analista estabeleceu o seguinte modelo: Venda = 30 . Xn são denominadas de variáveis independentes ou explicativas. Analisando as vendas de um produto em função dos preços praticados. X2. Se tal relação existir. Regressão Linear Simples Através do modelo de regressão linear simples. financeira. 92 Copyright Ibmec . O gráfico representa o diagrama de dispersão para as duas variáveis estabelecendo uma equação linear interligada.A tabela abaixo apresenta o faturamento e o lucro líquido apresentados em 18 meses de operação da Empresa XYZ. admitiremos o relacionamento linear entre as variáveis envolvidas e teremos estabelecido uma equação. Copyright Ibmec 93 .Yi). Dados Emparelhados Empresa XYZ Observação 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Faturamento M$ (X) 25 8 27 10 26 27 29 9 16 14 27 13 20 25 22 25 20 7 Lucro Líquido k$ (Y) 32 14 37 20 37 34 38 18 26 25 37 21 28 36 34 36 31 20 Equação Linear Desde que a expressão abaixo seja válida para todo par (Xi. Ypi]. 94 Copyright Ibmec . a melhor reta será aquela que minimizar os erros. para o segundo faturamento constante (X 2=8). não previsto no modelo. Já que o valor efetivamente observado para Y2 foi 14. Para as demais observações Yi.Na equação acima A refere-se à interseção da reta com o eixo vertical e B ao coeficiente angular da reta. também será possível o cálculo dos respectivos erros ei. e2 corresponde à distância vertical entre a observação Y2 e a reta representativa da equação. O termo ei refere-se ao erro. equivalente à diferença entre o valor observado Yi e o valor Ypi projetado pela equação de regressão [ei = Yi . ou resíduo.5.5 x 8). o modelo iria prever um lucro líquido de 19 (=Yp2 = 15 + 0. haveria um erro igual a -5 (=e2 = 14 – 19). Representação .equação linear Se acreditássemos que os valores adequados para A e B fossem respectivamente iguais a 15 e 0. No gráfico acima. Considerando que se traçarmos retas distintas os erros modificarão. A figura abaixo apresenta todas as variáveis envolvidas. para a variância de X (igual a 54.1111). Copyright Ibmec 95 . será possível utilizá-la para estimar a média condicional da população E(Y|X=X0) a partir de um valor X= X0 conhecido.4444 e 29.0247) e para as médias de X e Y (respectivamente iguais a 19. Caso soubéssemos previamente os valores para a covariância entre X e Y (igual a 54.Métodos dos Mínimos Quadrados O método dos mínimos quadrados minimiza os erros ei. é preciso substituir o valor de X0 na equação encontrada. prova-se que os valores para estes coeficientes são dados conforme abaixo: Exemplo Determine os coeficientes A e B para a equação de regressão entre o faturamento e o lucro líquido da empresa XYZ. faríamos: Desde que calculado utilizando-se todas as casas decimais relevantes.0062). Realização de Previsões Uma vez obtida a Função de Regressão Linear Amostral [Ypi=A+BXi]. Para isso. Estabelecendo A e B que tornam mínima a soma dos quadrados dos erros ei. A interpretação para este coeficiente não é tão simples. Além dos coeficientes citados.) para este índice? Veja as possíveis respostas a seguir.6682. o valor encontrado para Yp0 é apenas uma estimativa pontual do lucro líquido esperado na população.Y) aproximam-se de uma reta. pois nem sempre o valor encontrado apresentará significado econômico/financeiro relevante. Observe que apesar de correto. • Equivale à sensibilidade da variável explicada quanto às mudanças na variável explicativa. Para este caso X0=15. Interpretação dos Coeficientes .6733 + 0. financeiro etc. O coeficiente α indica a interseção da reta de regressão com o eixo vertical ou o valor esperado para a variável explicada Y quando a variável explicativa é nula. é comum publicar-se também o coeficiente de determinação r 2 associado à regressão. r2 também poderá ser utilizado para comparar os resultados de regressões distintas desde que respeite algumas restrições. • Equivale à medida de risco sistemático. Consequentemente.9997 x 15 = 24. Porém.Exemplo Utilizando os dados do exemplo apresentado anteriormente. 96 Copyright Ibmec . Quando o faturamento for igual a M$15 e sujeito à variabilidade amostral. Β E R2 Vimos que o coeficiente β corresponde à inclinação da reta de regressão. chegaremos a: Yp0 = 9. Portanto. não diversificável. certamente encontraremos um novo valor para Yp0. Vimos anteriormente que à medida que os pares (X. estime o valor do lucro líquido para um mês cujo faturamento seja igual a M$ 15. através da equação de regressão encontrada. qual seria o significado real (econômico. mais próximo de 1 estará r2. • Equivale ao valor da oscilação marginal na variável explicada [Y] em função de oscilação marginal de uma unidade na variável explicativa [X]. onde deseja-se explicar o comportamento da mesma variável. o melhor modelo será o último já que apresenta maior valor que o primeiro (80% versus 70%).80. Copyright Ibmec 97 .70 e a regressão do lucro com a inflação gerar r2=0. não necessariamente o método conduzirá a respostas adequadas. Para comparações envolvendo diferentes números de variáveis explicativas e/ou formas distintas para a variável explicada.Por exemplo. A situação ilustrada retrata a comparação de duas regressões lineares simples. se a regressão do lucro com o faturamento gerar r2=0. Unidade 6 – Utilização das Ferramentas do Excel Uso do Excel na Relação Entre Variáveis Nesta seção apresentaremos as funções das definições vistas ao longo do módulo. Há outras funções que permitem as análises estatísticas. Para aqueles que necessitem de um maior aprofundamento neste tópico, recomendamos fortemente a leitura da bibliografia indicada. Sendo LX e LY duas listas de idêntico tamanho, contendo dados numéricos, utilize as seguintes funções: Função COVAR(LY;LX) CORREL(LY;LX) INCLINACAO(LY;LX) INTERCEPÇÃO(LY;LX) PREVISÃO(X;LY;LX) Covariância entre as duas listas. Correlação entre as duas listas. Coeficiente Angular (B) da regressão linear entre X e Y. Coeficiente Linear (A) da regressão linear entre X e Y. Projeção de Y para o valor X utilizando o modelo de regressão linear entre X e Y. Parâmetros da Regressão Linear entre X e Y. É uma função matricial, encerre-a com [CTRL] [SHIFT] [ENTER]. PROJ.LIN(LY;LX;k;e) Se k=Verdadeiro ou omisso calculará o coeficiente A; se falso, A=0. Se e=falso ou omisso calculará apenas A e B; se verdadeiro retornará todos os dados da regres-são linear. RQUAD(LY;LX) Coef. de Determinação (r 2) entre as duas listas. Projeção de Y a partir de estimativas de X (constantes em NL) através do Modelo Linear de regressão entre X e Y. TENDENCIA(LY;LX;NL;k) É uma função matricial, encerre-a com [CTRL] [SHIFT] [ENTER]. Se k=Verdadeiro calculará coeficiente A; se falso ou omisso fará A=0 Calcula 98 Copyright Ibmec Resumo Apresentamos os conceitos de dependência e independência aplicados às variáveis além das duas técnicas disponíveis: análise de correlação e análise de regressão. Em ambos os tipos de análise, o primeiro passo será a realização da coleta de dados que deverá ser feita de forma emparelhada. Supondo duas variáveis X e Y quaisquer, afirmaremos que elas estão emparelhadas quando, a cada observação X’, obtivermos uma observação Y’ ou vice versa. Para variáveis numéricas, na maioria das vezes, o traçado do diagrama de dispersão permitirá (sem precisão) a identificação de existência, do tipo e da forma do relacionamento entre as variáveis. A covariância medirá quantitativamente o relacionamento entre duas variáveis. Quando positiva, indicará que duas variáveis estão positivamente relacionadas: quando uma crescer, a outra também crescerá. Quando negativa, indicará o oposto: quando uma crescer, a outra cairá. Também é possível medir o relacionamento entre duas variáveis através do coeficiente de correlação. Além de possuir características semelhantes à covariância, permite a qualificação do relacionamento entre as variáveis. Por fim, indicamos as ferramentas do EXCEL para calcular as relações entre as variáveis. Os procedimentos adequados para sua utilização foram destacados ao final deste módulo. Copyright Ibmec 99 MÓDULO 5 Inferência: Intervalos de Confiança 101 . . Um dos procedimentos da inferência estatística bastante útil é a estimação. o erro padrão amostral e o formato da distribuição. Copyright Ibmec 103 . associando-as aos modelos teóricos de distribuições de probabilidades. estimar. • Construir intervalos de confiança para as médias. do nível de confiança preestabelecido e do tamanho da amostra • Definir o tamanho ideal da amostra em função do erro máximo aceitável. Ao longo do módulo. definir os principais tipos de amostras e números aleatórios. algum parâmetro populacional baseado em dados coletados de uma amostra. sua importância e principais campos de atuação. o erro amostral. obtivermos faturamento médio de $200. procure compreender a lógica existente nos procedimentos da inferência estatística. • Etapa 2: Conhecer a distribuição amostral relacionada à estatística estudada.000 e desvio-padrão de $10. • Etapa 3: Realizar os cálculos para a determinação do intervalo. exemplificando como ele varia em função da dispersão existente na população. • Definir distribuição amostral. técnica adequada para descobrir. Por exemplo: Qual o faturamento médio das microempresas no Brasil se. exemplificando as principais características para o caso da distribuição amostral das médias: o valor esperado. • Enunciar o Teorema Central do Limite. apresentaremos o método inicialmente para as médias sob condições especiais.000? De uma forma geral. será necessário realizar três etapas: • Etapa 1: Seleção de amostras não tendenciosas. Por ser mais intuitivo. • Citar outras distribuições amostrais. Serão apresentadas idéias básicas para a compreensão e aplicação da estatística no seu cotidiano. • Estabelecer as etapas para a construção de um intervalo de confiança. Objetivos • Diferenciar amostras probabilísticas das não probabilísticas.Introdução ao Módulo Este módulo aborda a definição da estatística. exemplificando sua utilização. ao selecionarmos uma amostra com 100 microempresas. para que os resultados obtidos pelas técnicas que iremos abordar levem-nos a conclusões corretas. Conceitos iniciais de seleção de amostras • Unidade 2 .Outros intervalos de confiança • Unidade 5 .Utilização de ferramentas do EXCEL 104 Copyright Ibmec .Construção do intervalo de confiança • Unidade 4 .• Construir intervalos de confiança para proporções e para os coeficientes da regressão linear. • Resolver problemas utilizando o EXCEL Estrutura do Módulo • Unidade 1 .Distribuição amostral • Unidade 3 . mantendo se o critério adotado. nem toda amostra pode gerar resultados confiáveis e. Entretanto. Amostra não probabilística Supondo as condições do exemplo apresentado anteriormente. Portanto. já que haveria uma tendência à seleção de uma maior proporção de indivíduos de nível superior. tenha as mesmas chances de ser selecionado que os demais. dos quais 75% têm segundo grau completo e os 25% restantes nível superior. Exemplo Em uma empresa há 1. a proporção de funcionários com segundo grau em uma amostra tenderá a reproduzir a proporção encontrada na população. uma amostra baseada nos resultados de uma prova sobre Estatística. Assim. certamente seria não probabilística.Unidade 1 – Conceitos Iniciais de Seleção de Amostras Amostra Uma amostra pode ser definida como qualquer subconjunto da população sobre a qual desejamos efetuar análises. Lembre-se de que esta é uma disciplina usualmente ministrada nas faculdades. Amostra probabilística Uma amostra probabilística caracteriza-se por ser extraída da população de tal forma que cada item. Copyright Ibmec 105 . dependendo do grau de “contaminação”. a probabilidade de um funcionário selecionado ter segundo grau será de 75% e. Um processo probabilístico de amostragem deverá garantir que as chances de seleção de um funcionário específico sejam idênticas às chances de seleção de cada um dos demais.000 funcionários. ou pessoa. precisaremos de amostras não tendenciosas ou simplesmente amostras probabilísticas. poderá até mesmo nos levar a conclusões inconsistentes. sacudir a urna e retirar 50 cartões. 106 Copyright Ibmec . caso quiséssemos selecionar 50 funcionários aleatoriamente. A metodologia descrita acima é denominada de amostragem aleatória simples. É importante ter atenção que nos processos de inferência as chances de sorteio devem ser iguais para todos os elementos da população. extrair 50 cartões. poderíamos: • Escrever o nome de cada um dos 1000 funcionários em um cartão. sendo o sistematizado e o estratificado os mais comuns. • Atribuir um número a cada um dos 1000 funcionários e depositar 1000 cartões ou fichas numeradas na urna. Há outros métodos de amostragem aleatória.Amostra Probabilística Supondo as condições da empresa com 1000 funcionários. • Simular a urna anterior através da utilização de números aleatórios. após sua mistura. ou ainda em calculadoras e softwares. depositando-os em uma urna e. que poderão ser obtidos em tabelas. Verifique a bibliografia básica indicada para conhecer mais detalhes sobre o tema amostragem. sua média amostral teria sido $4.33.41 e não os -$1. ao selecionar uma amostra com 3 elementos. gerando um erro de $1.00 o que nos levaria a um erro de -$0. pois ao estimarmos o valor para o desvio padrão populacional. ou média amostral. a primeira amostra teria gerado um desvio-padrão de s=$1. a média para esta amostra.00 obtidos para a média. tratando-se de amostras probabilísticas.67. caso você tivesse sorteado $3.00.Unidade 2 – Distribuição Amostral Exemplo Prático Calcule a média. Utilizando as fórmulas adequadas. Neste caso. o desvio-padrão e trace o histograma para a população em análise. Os erros amostrais variam em função: • Do parâmetro em estudo. Os erros apontados no exemplo são denominados erros amostrais e. $5 e $6. chegaremos a: Erros Amostrais Suponha que. gerando um erro de –$0. sua ocorrência é puramente devida ao acaso. Por outro lado. você tenha sorteado $3. Copyright Ibmec 107 . seria $4. $4 e $5. Para n=2. e assim sucessivamente. Se calcularmos o desviopadrão das médias amostrais encontradas para as 25 amostras com n=2.$5). Os resultados obtidos encontram-se listados na tabela abaixo.00 0. ($3. Sendo razoável acreditar que.67 0. 108 Copyright Ibmec .$3). a amostra ($3.41.50 0. As médias amostrais neste caso estarão espaçadas em $0.$4) irá gerar média $3. • Desvio-padrão: corresponde ao desvio-padrão das médias amostrais.($7. e assim sucessivamente.00 5.00 5. • Média: corresponde às médias das médias amostrais..$3) irá gerar média $3. Se calcularmos a média das médias amostrais encontradas para as 25 amostras com n=2. Distribuição Amostral das Médias n 1 2 3 4 5 f 5 25 125 625 3125 Intervalo 1.82 0.50 0.00 5.. A amostra ($3.5..00 0.$7).• Da amostra especificamente selecionada já que cada uma gera um erro distinto. Com n=2. e assim sucessivamente.25 0.00 5. chegaremos a $1.40 1.. • Variância: corresponde às variâncias das médias amostrais.00 Variância Desv-pad 2.63 • n: tamanho das amostras.50.00 1. Distribuição Amostral das Médias Simulamos a retirada de todas as amostras de determinado tamanho admitindo reposição. isto significou termos 25 amostras diferentes ($3.00 0. quanto maior o tamanho da amostra em relação ao tamanho da população.20 Média 5. e assim sucessivamente.00. por exemplo. • f: número de amostras encontradas. Se calcularmos a variância das médias amostrais encontradas para as 25 amostras com n=2.33 0. • Intervalo: corresponde ao menor intervalo entre duas médias amostrais consecutivas. menor deverá ser o erro gerado. chegaremos a $5.41 1. chegaremos a $2. ($3.$4). • Do tamanho da amostra.71 0. independente do tamanho da amostra. desde que o tamanho da amostra seja suficientemente grande.Fórmulas O resultado anterior é tão importante. Para toda e qualquer população. a distribuição amostral das médias terá formato aproximadamente normal. a distribuição amostral das médias tenderá à distribuição normal. que é base de um dos mais importantes teoremas da Estatística: Teorema Central do Limite. Teorema Central do Limite Para uma população normalmente distribuída. Copyright Ibmec 109 . 00 e o desvio-padrão.00. para garantirmos 95. o formato da distribuição da população não é importante. nos dará: [70 – 2 × 1.44% das médias amostrais? Qual o problema desta abordagem? Utilizando as fórmulas. qual o intervalo central em que observaríamos 95. o que.44% de probabilidade no centro. conforme abaixo. pois através do Teorema Central do Limite. 70 + 2 × 1] = [68 – 72]. será igual a 70. com amostras de 30 elementos em diante. Se retirássemos todas as amostras com 30 elementos. O grande problema da abordagem anterior é que partimos do conhecimento completo da população para chegarmos ao comportamento das amostras. para as médias amostrais será igual a 1.48. para os dados do problema. observaremos que a média das médias. As médias amostrais irão se comportar de acordo com uma Normal. é necessário delimitar um intervalo que compreenda dois desvios-padrões à esquerda e dois desvios-padrões à direita da média. ou valor esperado das médias. ou erro-padrão. 110 Copyright Ibmec . Em uma Normal.Distribuição Amostral das Médias Suponha que uma população tenha média 70 e desvio-padrão 5. precisaremos realizar o caminho oposto. Verificaremos mais informações sobre esse assunto na próxima unidade.Na prática. Copyright Ibmec 111 . ou seja. partirmos do conhecimento de uma amostra para inferirmos algo sobre a população. corresponde a . Intervalos assim construídos serão denominados intervalos de confiança.Unidade 3 – Construção do Intervalo de Confiança Roteiro Esta modalidade de estimação baseia-se na distribuição amostral da estatística utilizada como estimador para estabelecer o intervalo onde acreditamos estar o parâmetro estimado. Verifique qual a distribuição amostral adequada à variável em estudo e. O intervalo de confiança será dado por: • O roteiro anterior será sempre válido para populações normalmente distribuídas. o roteiro anterior será válido desde que n ≥ 30. 4. determine seus índices i. 5. calcule a estimativa pontual (T) para o parâmetro a ser estimado. o que no caso da média corresponde à média amostral . ou seja. Estabeleça o nível de confiança desejado. Após a coleta dos dados amostrais. sendo o nível de confiança correspondente ao grau de confiabilidade que queremos ter no procedimento. o que no caso das médias. 112 Copyright Ibmec . 2. o que no caso das médias significa encontrar o valor de z na Normal. com base no nível de confiança estabelecido em (3). e com α conhecido. 3. Determine o erro-padrão da estimativa (E). qual a probabilidade de acerto do procedimento. 1. independente do tamanho da amostra. • Veja adiante como proceder para o caso do desvio-padrão populacional ser desconhecido. • Para populações não normalmente distribuídas. Copyright Ibmec 113 . ou seja X = 69.4722 (=0. • Etapa 5: O intervalo de confiança IC será igual a: IC = 69 .2 x 1 <= μ <= 69 + 2 x 1 = [67 <= μ <= 71]. contratado para estimar a média populacional.Exemplos Práticos Exemplo 1 Voltando à população com média 70 e desvio-padrão de 5. procuraremos na tabela o valor de z equivalente a uma área de 0. o que nos dará z igual a 2.48. • Se desejamos 95. Considerando um nível de confiança de 95. após coletar uma amostra com 30 elementos. qual o intervalo que ele dirá ao contratante? Admita que. por pesquisa já divulgada anteriormente. a distribuição amostral será de acordo com uma distribuição normal. • Etapa 4: Como estamos trabalhando com médias e conhecemos o desvio padrão populacional. equivale a 95. • Etapa 2: Utilizaremos a fórmula ajustada pelo fator de correção. suponha que um consultor.44% de confiança.9544/2). Aplicando o roteiro citado teremos: • Etapa 1: Já calculada. • Etapa 3: Já estabelecida.44%. tenha obtido uma média amostral de 69. o consultor saiba qual o desvio-padrão existente na população.44%. Exemplo 2 Neste caso. A probabilidade da média populacional estar neste intervalo é de 0%. Por outro lado. Construa uma tabela e represente a curva da distribuição amostral das médias com os possíveis resultados encontrados pelo consultor. 114 Copyright Ibmec . no intervalo do exemplo anterior. o intervalo gerado seria [64 <= μ <= 68].44%) corresponde à probabilidade da média populacional estar no intervalo gerado. a única alteração em relação à resolução anterior será na Etapa 1. Na sequência de exemplos que apresentamos. Logo. Intervalo de Confiança e Média Mantendo as mesmas condições dos últimos exemplos. alterando o intervalo de confiança gerado: IC = 72 . a probabilidade da média populacional estar inserida neste intervalo é de 100% já que ela efetivamente está. simule os resultados obtidos em possíveis amostras retiradas da população em estudo. caso o consultor tivesse obtido como média amostral 66. sabemos que a média populacional é 70.2 x 1 <= μ <= 72 + 2 x 1 = [70 <= μ <= 74] Interpretação dos Resultados Um erro muito comum é achar que o nível de confiança (indicado nos exemplos anteriores como igual a 95. é fácil concluir que o IC gerado pelo consultor será modificado conforme a média amostral obtida. desde que as médias amostrais estejam no intervalo 68 ≤ ≤ 72.3 e n geraram intervalos contendo a média real da população. seus extremos dependerão do valor encontrado para a média amostral.Pelas respostas dadas nos exemplos anteriores.00). 71 Intervalo 67 . 69 . n X 69 72 70 66 . a amostra 4 não gerou intervalos pois a média real da população (=70) não faz parte do intervalo considerado (=64-68). Distribuição Amostral das Médias Qual a probabilidade de escolhermos um intervalo contendo a média real da população? Como o intervalo é em função de. o pesquisador irá gerar um IC contendo a média.2.71 70 .74 68 . Ou seja. e seguindo a regra: ( -2.00 ≤ μ ≤ +2.68 . percebemos que as amostras 1. Copyright Ibmec 115 . Entretanto. A tabela a seguir simula alguns resultados e os intervalos gerados.72 64 . Intervalo de Confiança para a Média Amostra 1 2 3 4 .73 Analisando a simulação da tabela. poderá ser obtida conforme a seguir. A figura abaixo resume os conceitos relevantes. tais chances serão de exatos 95.Qual a probabilidade disso ocorrer? Conforme já calculado anteriormente.44%. o erro amostral máximo que poderemos cometer será equivalente à metade da amplitude do intervalo. A expressão para seu valor. no caso das médias. O nível de confiança estabelecerá o percentual de vezes que os intervalos de confiança gerados. Como será necessário determinar o tamanho da amostra. apresentarão o parâmetro populacional em estudo. a partir das técnicas citadas. Determinação do Tamanho das Amostras Já definimos o erro amostral como a diferença entre a estimativa e característica populacional estimada. 116 Copyright Ibmec . resolveremos a equação anterior considerando n como incógnita. justamente o nível de confiança preestabelecido. Como os intervalos de confiança que construímos são centrados na média amostral. Na prática. • No exemplo em análise. caso ele seja desconhecido. uma amostra piloto poderá ser realizada com o objetivo de estimar este valor.00? Substituindo os valores da fórmula chegaremos a: • O valor encontrado deverá ser arredondado para cima. o número de elementos na amostra irá variar em função dos fatores: • O nível de confiança σ desejado (representado por z): quanto maior σ. maior e portanto maior n. • A dispersão σ: quanto maior σ. o desvio-padrão foi fornecido como dado do problema. Copyright Ibmec 117 . qual o tamanho da amostra necessária para que tivéssemos um erro máximo de 0.Ou seja: Portanto. maior o tamanho n. Erro Máximo Voltando aos enunciados anteriores.5. ao invés dos 2. • O erro máximo aceitável: quanto menor o erro. maior z e mantidas as demais variáveis da fórmula constantes. maior será o tamanho n. o cálculo do erro-padrão das médias executado na etapa 2 será alterado. três alterações no roteiro anterior serão necessárias. para garantirmos o mesmo nível de confiança pretendido. quando utilizarmos esta distribuição. é obrigatória a utilização de Student. Consequentemente. gerando intervalos de confiança maiores (com extremos mais afastados). independente do tamanho da amostra e com σ desconhecido. Ao adotarmos tal critério. Em outras palavras. com (n-1) graus de liberdade. para amostras com n ≥ 30. sendo n ≥ 30. Na prática. • Demonstra-se que no caso do desvio-padrão desconhecido. Assim. Para n < 30. Para populações não normalmente distribuídas. apresentando maior dispersão dos valores. na etapa 4 do roteiro. A razão de tal procedimento reside no fato de utilizarmos o desvio-padrão s como estimativa do desvio-padrão σ. utilizaremos o teorema central do limite ( normalmente distribuída com desvio padrão dado pela fórmula). os valores que encontrarmos para t serão maiores em termos absolutos que os correspondentes valores de z na Distribuição Normal. Sendo assim. • O desvio-padrão amostral s será utilizado para estimar o desvio-padrão populacional σ. O formato da distribuição de student é semelhante ao da distribuição normal. a distribuição amostral para as médias seguirá uma Distribuição de Student. Lembre-se que o erropadrão será apenas uma estimativa do real erro-padrão. Sabe-se de outras 118 Copyright Ibmec .Desvio-Padrão Populacional Desconhecido Quando não soubermos o valor do desvio-padrão populacional. procuraremos t correspondente ao nível de confiança desejado. • O intervalo de confiança será dado por: Observações O roteiro anterior será sempre válido para populações normalmente distribuídas. é necessário aumentar o intervalo de confiança das estimativas. porém um pouco mais largo. substituiremos um parâmetro populacional fixo por uma estatística que apresenta elevada volatilidade. utiliza-se a distribuição normal como aproximação da distribuição de student. Intervalo Deseja-se estimar a média salarial dos trabalhadores de um determinado setor. pesquisas que os salários nestes níveis são normalmente distribuídos. Coletando-se os salários de 15 indivíduos selecionados aleatoriamente, chegou-se à média de $150 e desvio-padrão de $20. Qual o intervalo para a média salarial da população com 95% de confiança. Utilize Student e Normal. Seguindo o roteiro citado anteriormente, teremos: • Etapa 1: Já calculada, X = 150. • Etapa 2: Utilizaremos a fórmula com s no lugar de σ • Etapa 3: Já estabelecida, equivale a 95,00%. • Etapa 4: Utilizaremos a Distribuição t de Student com (15 1=14) graus de liberdade. Para um nível de 95% de confiança em torno da média, sobrarão 2,5% de área sob a curva de cada lado. Portanto, o valor de t será encontrado na interseção da linha, onde gl=14 com a coluna correspondente a 2,50%, t=2,1448. • Etapa 5: O intervalo de confiança IC será igual a: IC = 150 - 2,1448 x 5,16 ≤ μ ≤ 150 + 2,1448 x 5,16 IC = [138,92 ≤ μ ≤ 161,08] Normal Igual à resolução anterior com as etapas 4 e 5 modificadas. • Etapa 4: 95% dos valores ao redor da média, irão se situar entre z = -1,96 e z = + 1,96, obtidos a partir de S = 0,95/2 = 0,475. • Etapa 5: O intervalo de confiança IC será igual a: IC = 150 - 1,9600 x 5,16 ≤ μ ≤ 150 + 1,9600 x 5,16 IC = [139,88 < μ < 160,12] Copyright Ibmec 119 Intervalo Student A figura abaixo apresenta os valores envolvidos do exemplo anterior. O intervalo obtido pela student é maior que o obtido pela normal. Note que a diferença encontrada é devida aos valores distintos de t e z. Se o tamanho da amostra aumentar esta diferença tenderá a se reduzir. 120 Copyright Ibmec Unidade 4 – Outros Intervalos de Confiança Intervalo de Confiança para uma Proporção Dado um grupo composto por N indivíduos, para os quais X apresente determinada característica, definiremos uma proporção π como a razão X/N. Ou seja, a frequência relativa com que tais indivíduos ocorrem no grupo. Se de cada 50 peças produzidas, 10 apresentam defeitos, diremos que a proporção de defeituosas é de 0,20 ou de 20%. Na construção de um intervalo de confiança, utilize o quadro abaixo: Exemplo prático Uma pesquisa de mercado realizada em 200 domicílios de uma região revela que 150 consomem determinado produto. Construa o intervalo de confiança a 95%. Copyright Ibmec 121 122 Copyright Ibmec .4750 [=0.69 ≤ π ≤ 0.95/2]. Intervalo de Confiança para Coeficientes da Regressão Linear Os intervalos envolvendo os coeficientes A e B obtidos na regressão linear são similares aos que geramos para as médias.0306 = (0.Aplicando-se o roteiro padronizado.75 – 1.96.75. Etapa 2: Cálculo do erro-padrão: Etapa 3: Nível de Confiança: NC=95%. Através da tabela. Etapa 5: O intervalo de confiança IC será igual a: IC = 0. Etapa 4: Seguindo o roteiro. Utiliza-se a distribuição normal quando os erros-padrões para α e β forem conhecidos ou a distribuição de student com (n-2) graus de liberdade quando desconhecidos.75 + 1. procuraremos z correspondente à área de 0.96 x 0.81).0306 ≤ π ≤ 0. faremos: Etapa 1: Cálculo do estimador pontual: = 150 / 200 = 0. utilizaremos a normal.96 x 0. Chegaremos a z = 1. mas no caso de você trabalhar com uma amostra. o termo σY|X corresponderá ao desvio-padrão dos erros em torno da reta de regressão. aplicamos o conceito populacional. em sua versão amostral (sA*). • Nas expressões anteriores. substitua σB* por sB* para encontrar o erro-padrão do A. encontrando assim sY|X. • Trabalhando com amostras. Exemplo prático 2 As colunas X e Y da tabela a seguir relacionam o faturamento (X) e o lucro líquido (Y) da Empresa XYZ. substitua o N das expressões por (n – 2). Na fórmula. • Não se preocupe com o excesso de contas a serem efetuadas. substitua σY|X por sY|X para encontrar o erro-padrão do B. pois a maioria dos softwares que realizam cálculos estatísticos fornecerão os resultados automaticamente. Copyright Ibmec 123 . em sua versão amostral (sB*). • Trabalhando com amostras. Determine • Os coeficientes A e B da regressão.• Os asteriscos ao lado de A e B foram propositalmente colocados para diferenciar variâncias e erros-padrões dos estimadores A e B de variâncias e desvios-padrões para duas variáveis quaisquer A e B. 34 1. • O erro-padrão da estimativa.67 34.67 36.45 1. • Os erros-padrões de A e B.67 25.08 60.66 31.78 7.11 1.66 29.33 1.• O erro e para cada observação.161 Cálculo erro-padrão estimativa Yp 34.67 0.78 11.34 -1.67 23.67 0.33 1.10 0.66 22.78 1.33 3.45 0.67 34.33 0.66 -3.10 13.778 XY 800 112 999 200 962 918 1.67 36.11 0.34 -2.79 2.33 0.67 -1.34 2.66 18.00 124 .78 1.47 0.11 2.66 36.67 16.44 Y 32 14 37 20 37 34 38 18 26 25 37 21 28 36 34 36 31 20 524 29.34 0.11 1.66 -0.102 162 416 350 999 273 560 900 748 900 620 140 11.67 e=(Y-Yp) -2.66 17. faremos: Faturamento x Lucro Líquido – Empresa XYZ Dados Obs. Admitindo que você esteja fazendo os cálculos e não utilizando o EXCEL para chegar às respostas.33 1.67 35.66 -0.67 1.11 Copyright Ibmec Cálculo A e B X² 625 64 729 100 676 729 841 81 256 196 729 169 400 625 484 625 400 49 7.00 e²=(Y-Yp)² 7. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 ∑ Média X 25 8 27 10 26 27 29 9 16 14 27 13 20 25 22 25 20 7 350 19.66 38.67 29.44 0.77 0.66 19.78 5. Isto foi feito na sexta e sétima coluna da tabela.6733 + 0.67 e = Y – Yp = 14 – 17. d. Yp = A + BX = 9. precisaremos encontrar alguns somatórios.9997 x 8 = 17. o primeiro passo é encontrar cada projeção para. Como o erro é a diferença entre o valor observado para Y e sua projeção Yp feita pela reta de regressão. Os erros-padrões de A e B são calculados conforme a seguir: Copyright Ibmec 125 .67 = –3.a. em seguida chegarmos a cada erro. b. Para o cálculo dos coeficientes A e B através das fórmulas adequadas.67 c) O erro-padrão da estimativa obriga-nos a calcular a soma dos quadrados dos erros. razão da inclusão da quarta e quinta coluna na tabela. o que foi feito na última coluna da tabela. A=0. use-a para a seleção de amostras aleatórias. você encontrará os indicadores apresentados no texto.b) DISTT(X.LX.n) onde α corresponderá a (1-Nível de Confiança).caudas) Calcula Número aleatório entre 0 e 1. Parâmetros da Regressão Linear entre X e Y.LX) Erro-padrão da estimativa de Y|X.LIN(LY.s. Há outras funções que permitem as análises estatísticas.LX) INCLINACAO(LY.X ou t > X) se caudas=2. de Student (critério bicaudal) t tal que p(t<-X ou t>X) é igual a prob.LX) INTERCEPÇÃO(LY. TENDENCIA(LY. encerre-a com [CTRL] [SHIFT] [ENTER]. de Student. use-a para a seleção de amostras aleatórias.Unidade 5 – Utilização das Ferramentas do Excel Uso do Excel nos Intervalos de Confiança Nesta seção apresentaremos as funções das definições vistas ao longo do módulo. Erro-padrão-da-estimativa. se verdadeiro retornará todos os dados da regres-são linear.gl) 126 . Para aqueles que necessitem de um maior aprofundamento neste tópico. INT. Dist. Projeção de Y para o valor X utilizando o modelo de regressão linear entre X e Y. Se k=Verdadeiro ou omisso calculará o coeficiente A.LX) PREVISÃO(X. nas 3 linhas iniciais. Coeficiente Linear (A) da regressão linear entre X e Y. Se k=Verdadeiro calculará coeficiente A. Copyright Ibmec INVT(prob. Coeficiente Angular (B) da regressão linear entre X e Y. p(t > X) se caudas=1. A.LY.gl.k. R2. Sendo LX e LY duas listas de idêntico tamanho. utilize as seguintes funções: Função ALEATORIO() ALEATORIOENTRE(a.LX.NL. p(t < .k) Projeção de Y a partir de estimativas de X (constantes em NL) através do Modelo Linear de regressão entre X e Y. recomendamos fortemente a leitura da bibliografia indicada. Semi-amplitide para o intervalo de confiança para a média.e) Se e=falso ou omisso calculará apenas A e B. Erro-A. É uma função matricial. contendo dados numéricos. usando a Normal. Número aleatório entre a e b. Por exemplo. EPADYX(LY. A matriz gerada é composta por 5 linhas e 2 colunas e. na seguinte sequência: B. Dist. Erro-B. se NC=95% faça a=5%. PROJ. se falso.CONFIANÇA(a. se falso ou omisso fará A=0. é preciso determinar o tamanho da amostra por meio de expressões matemáticas. Copyright Ibmec 127 . A definição dos intervalos de confiança e para os coeficientes de regressão linear também é definida por cálculos específicos. mostramos as ferramentas disponibilizadas pelo Excel e a forma de utilizá-las para calcular os intervalos de confiança. Como os intervalos de confiança são centrados na média amostral. Apresentamos os procedimentos necessários para a construção da distribuição amostral no caso das médias.Resumo Abordamos o conceito de amostra probabilística e o cuidado necessário para definir quais serão os dados que formarão uma amostra para evitar qualquer tipo de inconsistência. Para auxiliar todos esses cálculos. para encontrar o erro amostral máximo. crucial para definição da teoria central do limite e dos intervalos de confiança. . REFERÊNCIAS BIBLIOGRÁFICAS 129 . . .ZENTGRAF. Estatística objetiva. Copyright Ibmec 131 . Roberto. ZTG Ed. 2001.
Copyright © 2024 DOKUMEN.SITE Inc.