Notas de aulaM501 Probabilidade, Estatística e Processos Estocásticos Dayan Adionel Guimarães Novembro de 2007 2 Agradecimento Aos professores: Dr. José Marcos Câmara Brito Dr. Carlos Alberto Ynoguti M.Sc. Estevan Marcelo Lopes agradeço muito por terem gentilmente disponibilizado suas notas de aula, apostilas e slides sobre Probabilidade, Estatística e Processos Estocásticos, a partir dos quais estas notas de aula foram elaboradas. 3 Aula nº Data Tema Teoria de conjuntos Conteúdo Introdução. Teoria de conjuntos: Lei de De Morgan. Princípio da Dualidade. Definições para probabilidade: por freqüência relativa, axiomática e clássica. Objetivos Ao final da aula os alunos deverão ser capazes de: 1) definir corretamente os conceitos de experimento, resultado, evento e espaço amostral; 2) realizar operações com conjuntos. 3) conceituar probabilidade. 4) realizar cálculos simples relacionando probabilidade com a teoria de conjuntos. Definição de experimento, resultado, evento e espaço amostral. Seja o EXPERIMENTO correspondente ao lance de uma moeda, para o qual são esperados, obviamente, os RESULTADOS cara e coroa. Vamos definir o EVENTO correspondente à ocorrência de cara nos dois primeiros lances da moeda, num total de 3 lances. Então teremos o ESPAÇO AMOSTRAL: CCC CCK CKC CKK KCC KCK KKC KKK Onde C = cara e K = coroa. O número de possíveis resultados é 2 3 = 8. Quantas vezes o evento definido ocorre? Resposta: duas vezes. Perceba que posso me referir ao resultado correspondente aos possíveis eventos e, neste caso, teremos os 8 possíveis resultados listados acima, que compõem o espaço amostral. Conjuntos Seja o lance de um dado e o evento correspondente à observação de um número de pontos menor que 4. Na figura, S é o espaço amostral e A é o conjunto referente ao evento definido. Seja um outro evento referente à observação de um número de pontos maior que 1: 4 Aqui A + B = 1, 2, 3, 4, 5 e 6, que corresponde ao espaço amostral, neste caso, por coincidência. AB é o conjunto com os elementos 2 e 3. Lei de de-Morgan Vamos aplicar a lei de de-Morgan na igualdade abaixo: ( ) A B C AB AC + = + Ao aplicarmos a forma genérica de de-Morgan, devemos ter cuidado com a interpretação. Aplicando esta forma, nós simplesmente MANTEMOS A IGUALDADE ENTRE OS TERMOS. Isto não significa que, ao aplicarmos a regra genérica, mantemos a igualdade com a expressão original. Portanto, se não quisermos modificar o resultado da expressão original, temos que fazer como acima, ou seja, aplicar a forma específica do de-Morgan. O que é mais importante? Reposta: as relações c c i i i i A A ( = ( ¸ ¸ ∩ ∪ e c c i i i i A A ( = ( ¸ ¸ ∪ ∩ . Teoremas com conjuntos. Exemplo: vamos mostrar a validade de 5 Exercício: mostrar a validade dos demais teoremas referentes a conjuntos. Definição de probabilidade por freqüência relativa Exemplo: suponha que você tenha a tarefa de determinar se uma moeda é justa ou não. Se efetuarmos um número bastante grande de lances da moeda, registrando um dos resultados (por exemplo, a ocorrência de cara) no final do experimento vamos obter o número de resultados favoráveis, n A e o número de lances, n. Dividindo n A por n obteremos uma estimativa da probabilidade de ocorrência de cara. Se este valor estiver convergindo para 0,5 à medida que aumentamos n, podemos afirmar que a moeda é justa. Caso contrário podemos afirmar que ela não justa. Perceba que nossa inferência estatística (opinião a partir do resultado) será tão mais precisa quanto maior o valor de n. Exercício: uma aplicação direta deste conceito em telecomunicações é na determinação da probabilidade de erro de bit em um sistema qualquer. Esta probabilidade de erro é normalmente denominada na prática de BER (bit error rate) ou taxa de erro de bit. Descreva um procedimento que lhe permita estimar a BER em um sistema real, utilizando o conceito de freqüência relativa. Definição clássica de probabilidade Seja novamente o EXPERIMENTO correspondente ao lance de uma moeda, para o qual são esperados os RESULTADOS cara e coroa. Vamos definir o EVENTO correspondente à ocorrência duas caras num total de 3 lances. Então teremos o ESPAÇO AMOSTRAL: CCC CCK CKC CKK KCC KCK KKC KKK No espaço amostral podemos notar a ocorrência de 3 eventos favoráveis, contra 8 possíveis. Portanto, a probabilidade de ocorrência de 2 caras é de 3/8. 6 Exemplo: Uma célula em um sistema de comunicações móveis possui 5 canais, que podem estar livres (L) ou ocupados (O). Tem-se que: a) O espaço amostral consiste de 32 combinações de 5 canais com as possíveis opções L e O em cada um dos canais, o que leva a 32 pontos. Seja 0 canal livre e 1 canal ocupado. Então teremos os possíveis resultados: b) Admitindo que os pontos do espaço amostral são EQUIPROVÁVEIS, ou seja, têm a mesma probabilidade de ocorrência, a probabilidade de uma chamada do tipo conferência, que precisa de 3 canais livres para ser completada, ser bloqueada por falta de canal livre é de: Podemos observar no espaço amostral que temos 16 ocorrências favoráveis ao evento definido (3 ou mais canais ocupados, o que levará ao bloqueio da chamada) em 32 situações possíveis. Portanto, a probabilidade de bloqueio é de 16/32 = 0,5. FIM DA AULA 7 Aula nº Data Tema Teorema de Bayes Conteúdo Probabilidade conjunta. Probabilidade condicional e a Regra de Bayes. Eventos Independentes. Objetivos Ao final da aula os alunos deverão ser capazes de: 1) Definir corretamente os conceitos de probabilidade conjunta e condicional. 2) Saber escrever a expressão do Teorema de Bayes e utilizá-la. 3) Conceituar eventos independentes. Probabilidade conjunta Como o nome sugere, esta probabilidade refere-se à ocorrência conjunta de dois ou mais eventos. Exemplo Num jogo de dados, vamos analisar a probabilidade conjunta referente a dois lances do dado. Os possíveis números de pontos observados são: S 1,1 1,2 1,3 1,4 1,5 1,6 2,1 2,2 2,3 2,4 2,5 2,6 3,1 3,2 3,3 3,4 3,5 3,6 4,1 4,2 4,3 4,4 4,5 4,6 5,1 5,2 5,3 5,4 5,5 5,6 6,1 6,2 6,3 6,4 6,5 6,6 A partir dessas possibilidades e do conceito clássico de probabilidade, podemos realizar cálculos. Por exemplo, vamos determinar a probabilidade de um número ímpar de pontos no primeiro lance e um número 3 no segundo lance. Então a probabilidade procurada P[ímpar, 3] = 3/36. Probabilidades marginais Utilizando o conceito de probabilidades marginais é possível obter, a partir do conhecimento de probabilidades conjuntas, probabilidades simples (ou marginais). Por exemplo, dada uma probabilidade conjunta P[A,B], podemos obter P[A] ou P[B]. Obtemos P[A] somando todas as probabilidades conjuntas em que A é fixo e B é qualquer. Assim, obtemos P[B] somando as probabilidades conjuntas em que B é fixo e A é qualquer dos possíveis valores. 8 No exemplo anterior, podemos, a partir de P[ímpar, 3], obter a probabilidade de o segundo lance apresentar o número 3 somando todas as probabilidades correspondentes a 3 no segundo lance e qualquer valor no primeiro, ou seja: Probabilidade condicional É uma probabilidade de ocorrência de um evento, obtida tendo-se o conhecimento de que um outro evento ocorreu. Em outras palavras, é a probabilidade obtida sobre um evento, com uma informação adicional sobre a ocorrência de outro. Representa-se a probabilidade de ocorrência de um evento A, dado que um evento B ocorreu por P[A | B] => lê-se “probabilidade de A dado B”. A probabilidade condicional relaciona-se com a probabilidade conjunta por meio da importante relação: Verificando: Exemplo: Em uma caixa há 100 resistores cujas resistências e tolerâncias são mostradas na tabela a seguir. Um resistor é selecionado da caixa ao acaso. Calcule a probabilidade do resistor ser de 47 ohms dado que ele tem tolerância de 5% e calcule a probabilidade dele ter tolerância de 5% dado que a resistência é de 100 ohms. Perceba que neste exemplo temos uma sutil diferença em ralação ao cálculo da probabilidade conjunta. O cálculo de P[47 , 5%] corresponde ao seguinte experimento: se retirarmos da caixa um resistor qualquer, a probabilidade dele ser de 47 ohms E ter tolerância 5% é P[47 , 5%] = 28/100. Já o cálculo 9 de P[47 | 5%] significa que retiramos um resistor da caixa, constatamos que sua tolerância é de 5% e queremos, DADA esta informação adicional, calcular a probabilidade do resistor ter valor 47 ohms. P[47 | 5%] = P[47 , 5%]/ P[5%] = (28/100)/(62/100) = 28/62. Exercício Determinar a probabilidade do resultado da jogada de um dado ser um número menor do que 4 nas seguintes situações: a) se não temos nenhuma informação. b) se sabemos que o resultado foi ímpar. Os possíveis resultados são: 1 2 3 4 5 e 6. a) queremos calcular P[D < 4] = 3/6 b) agora queremos calcular P[D < 4 | D ímpar] = P[D < 4 , D ímpar]/P[D ímpar] = (2/6)/(3/6) = 2/3. Desafio A partir do entendimento da lógica do experimento computacional Prob_Conjunta.vsm, implementado no VisSim/Comm, implemente um experimento capaz de estimar as probabilidades calculadas no exercício 1. Exercício para casa Utilizando a teoria de conjuntos e a relação entre probabilidade condicional e conjunta, mostre a validade da expressão: Teorema de Bayes Este importante teorema permite que calculemos a probabilidade condicional P[A|B] a partir do conhecimento de P[B|A]: Exemplo Um transmissor envia um bit zero (evento A0) ou um bit 1 (evento A1) através de um um canal de comunicação binário simétrico. O canal ocasionalmente causa erro, de modo que um zero transmitido pode ser recebido como 1 e um 1 transmitido pode ser recebido como 0. A probabilidade de erro é p = 0.1, independente do bit transmitido. A probabilidade de um bit 0 ser transmitido é 0.6. Sejam B0 e B1 os eventos: um bit 0 foi recebido e um bit 1 foi recebido, respectivamente. Calcule as seguintes probabilidades: P(B0), P(B1), P(B1|A0), P(A0|B0), P(A0|B1), P(A1|B0), P(A1|B1). Este canal tem a representação abaixo: 10 P[B0] é a probabilidade de receber 0. P[B1|A0] é a probabilidade de receber 1, tendo transmitido 0 = p. P[A1|B0] é a probabilidade de ter transmitido 1, tendo recebido 0, e assim por diante... Eventos independentes Dois eventos são ditos independentes se ocorrência de um deles não tem influência na ocorrência dos demais. Em outras palavras, o dado sobre a ocorrência de um determinado evento não adiciona nenhuma informação à determinação da probabilidade de ocorrência de outro evento, ou seja: P[A | B] = P[A]. Substituindo este resultado na expressão que relaciona probabilidade conjunta com condicional obtemos: P[A,B] = P[A|B]P[B] = P[A]P[B] O que significa que, para eventos independentes, a probabilidade de ocorrência conjunta dos eventos é o produto das probabilidades de cada evento. Exemplo O lance de duas moedas corresponde a eventos independentes (não há nenhuma influência do resultado de um lance no resultado do outro lance). Sendo assim, a probabilidade de ocorrência de cara no primeiro lance e de cara no segundo é de 0,5x0,5 = 0,25. Perceba que já havíamos calculado este mesmo valor a partir da definição clássica de probabilidade: 1 ocorrência sobre 4 possíveis = ¼ = 0,25. FIM DA AULA 11 Aula nº Data Tema Métodos de contagem - 1 Conteúdo Métodos de contagem: amostragem com e sem reposição, com e sem ordenação. Objetivos Ao final da aula os alunos deverão ser capazes de utilizar a teoria dos métodos de contagem para resolver problemas sobre probabilidade. Definição de amostragem A amostragem se refere à escolha aleatória de um número k de objetos dentro de uma população com n objetos. Definição de reposição Realizamos uma reposição quando retornamos um objeto selecionado à população sob análise, antes que um próximo objeto seja selecionado. Seja, por exemplo, o processo de seleção de 2 bolas de um conjunto de 5 bolas numeradas. Suponhamos que a primeira bola retirada tenha o número 3. Se o experimento é COM reposição, significa que a próxima bola a ser retirada poderá ser, inclusive, a própria bola de número 3. Se não houver reposição, a bola 3 (neste exemplo) estará fora das opções de escolha da segunda bola. Definição de ordenação Dizemos que um experimento é COM ordenação, quando a ordem dos objetos é relevante, ou seja, diferentes ordenações de um mesmo conjunto de objetos geram diferentes resultados para o experimento. Como exemplo, se retirarmos na primeira tentativa a bola de número 3 e na segunda a bola de número 5 num experimento COM ordenação, significa que retirar a bola 5 e depois a bola 3 corresponde a um outro resultado possível. Se não nos preocupamos com a ordenação, os resultados (3,5) e (5,3) são idênticos. Princípio fundamental da contagem Definição geral: Seja um experimento E, composto de sub-experimentos E 1 , E 2 , ..., E k , com os números de possibilidades n 1 , n 2 , ..., n k . O número de possibilidades do experimento E é dado por i i n ∏ . Por exemplo, seja uma prova com 4 questões (4 sub-experimentos), onde o número de possíveis respostas para as questões é 3, 2, 4 e 6, respectivamente. Então, o número de possíveis formas distintas (experimento) de se resolver tal prova é de 3 x 2 x 4 x 6 = 144. Exemplo 1.28 Yates: Seja um experimento correspondente ao lance de uma moeda. Obviamente este experimento tem duas possibilidades (cara e coroa). Seja um outro experimento, correspondente ao lance de um dado. Este experimento possui 6 possibilidades. O experimento combinado “lançar a moeda e lançar o dado” terá então 2 x 6 = 12 possibilidades: (cara, 1), (cara, 2), (cara, 3), (cara, 4), (cara, 5), (cara, 6), (coroa, 1), (coroa, 2), (coroa, 3), (coroa, 4), (coroa, 5) e (coroa, 6). 12 Amostragem COM reposição e COM ordenação Teorema 1.14 do Yates: Dado um conjunto com n objetos distintos, há n k maneiras diferentes de selecionar k objetos, com reposição e levando-se em conta a ordenação. Exemplo 1.34 Yates: de quantas formas possíveis podemos gerar seqüências binárias com 10 bits? Resposta: n = 2 (temos um “conjunto” com dois bits: 0 e 1) e queremos selecionar, com reposição, 10 bits. Então teremos 2 10 = 1.024 possíveis formas diferentes de selecionar estes 10 bits. Exemplo 1.35 Yates: Quantas “palavras” de 4 letras podem ser produzidas a partir do alfabeto (A – Z)? Resposta: o conjunto tem 26 letras = n. Estamos selecionando palavras de 4 letras e, portanto, k = 4. Então teremos 26 4 = 456.976 palavras. Dos dois exemplos anteriores podemos extrair uma regra interessante: para sabermos quantas palavras existem em um alfabeto de tamanho n, simplesmente elevamos n ao tamanho da palavra. Exemplo slide 31: Num conjunto de 5 bolas numeradas temos 5 2 = 25 possibilidades de seleção de 2 bolas com reposição e considerando a ordenação, como podemos verificas abaixo: Amostragem SEM reposição e COM ordenação (permutação) Exemplo slide 32: Como exemplo, seja determinar o número de possibilidades de retirada de 2 bolas de um conjunto de 5, sem reposição e levando em conta a ordenação. Teremos os resultados: A este tipo de contagem denominamos PERMUTAÇÃO de 2 objetos distintos em 5. Genericamente seu valor é dado por n(n – 1)(n – 2)...(n – k +1) Para o exemplo acima teremos: 5x4 = 20 possíveis permutações dos números de 2 bolas retiradas em 5. Exemplo slide 33: Vamos ver o que acontece se em n objetos selecionarmos sem reposição e com ordenação os n objetos. Basta fazer k = n na expressão anterior, o que leva a n!. Assim, com 5 bolas temos 5! = 120 possíveis formas de selecionar 5 bolas, considerando a ordem e sem reposição. 13 Multiplicando o numerador e o denominador da expressão anterior por (n – k)! obtemos uma forma alternativa de cálculo na amostragem sem reposição e com ordenação: ( )! ! ( 1)( 2)...( 1) ( 1)( 2)...( 1) ( )! ( )! n k n n n n n k n n n n k n k n k − − − − + = − − − + = − − Exemplo 1.30 Yates: Quantas possibilidades existem na seleção de três cartas de um baralho, sem reposição? Resposta: neste caso n = 52 e k = 3, num processo de amostragem sem reposição e com ordenação. Então teremos n(n – 1)(n – 2)...(n – k +1) = 52x51x50 = 132.600 possibilidades. Fórmula de Stirling: certas calculadoras e até softwares de matemática têm sua limitação no cálculo fatorial. Quando o argumento for muito elevado, a fórmula de Stirling apresenta-se como uma ótima aproximação. Ela é dada por: 1 2 ! 2 n n n n e π + − ≅ Amostragem SEM reposição e SEM ordenação (combinação) Exemplo slide 35: no exemplo das 5 bolas retirando-se 2, suponha que não nos importamos com a ordenação, ou seja, os resultados (2,3) e (3,2), por exemplo, são idênticos. Desta forma teremos as possibilidades: O cálculo destas possibilidades é chamado de COMBINAÇÃO e é realizado por meio do chamado coeficiente binomial: ! !( )! n n k k n k | | = | − \ ¹ Dizemos que estamos interessados no número de combinações de k elementos em n elementos. Para o exemplo logo acima teremos: 5!/(2!3!) = 120/12 = 10. Exemplo 1.31 Yates: Qual é o número de diferentes “mãos” de 5 cartas num jogo de poker? Resposta: 52!/(5!47!) = 2.598.960. Na próxima aula veremos mais um exemplo de utilização da amostragem sem reposição e sem ordenação no jogo da Mega-Sena. Em seguida finalizaremos o assunto referente aos métodos de contagem e faremos alguns exercícios de fixação. FIM DA AULA 14 Aula nº Data Tema Métodos de contagem - 2 Conteúdo Continuação do estudo dos métodos de contagem referentes a amostragem com e sem reposição, com e sem ordenação. Objetivos Ao final da aula os alunos deverão ser capazes de: utilizar a teoria dos métodos de contagem para resolver problemas sobre probabilidade. Exemplo: SenaM501 e Mega-Sena: Suponha que você esteja criando seu próprio jogo da SENA. Ele contém N números e os sorteios são de K números. Um jogador pode tentar a sorte apostando em J números. Numa primeira versão do jogo, à qual você denominou SENA-M501, foi estipulado que N = 6, K = 2 e J = 2 ou 3. Pede-se então: a) Calcule C, o número possível de combinações de dois números na SENA-M501. Liste as possíveis combinações. 6 15 2 N C K | | | | = = = | | \ ¹ \ ¹ (1,2) (1,3) (1,4) (1,5) (1,6) (2,3) (2,4) (2,5) (2,6) (3,4) (3,5) (3,6) (4,5) (4,6) (5,6) b) Calcule P 2 , a probabilidade de um jogador ganhar na SENA-M501 apostando em dois números. Se apostarmos em qualquer par de números, poderemos observar que haverá um evento favorável contra 15 eventos possíveis e, portanto, P 2 = 1/15. c) Calcule P 3 , a probabilidade de um jogador ganhar na SENA-M501 apostando em três números. Observamos abaixo que, por exemplo, se o jogador apostar nos números 2, 3 e 5 ele terá 3 eventos favoráveis à sua premiação. Portanto P 3 = 3/15 = 1/5. Observando os números apostados e as possibilidades de acertar no sorteio, percebemos que as três possibilidades marcadas acima nada mais são do que o número de combinações de 2 elementos em 3, ou seja 15 3 3! 3 2 2!(3 2)! | | = = | − \ ¹ d) A partir dos resultados dos itens b e c determine a expressão de cálculo de P J , a probabilidade de um jogador ganhar em uma versão genérica da SENA-M501 que contenha N números, sorteios de K números e apostas de J números. Observando os resultados b e c, percebemos que na definição clássica de probabilidade o numerador, correspondente ao número de eventos favoráveis, será J K | | | \ ¹ e o denominador, correspondente ao número total de possibilidades, será N K | | | \ ¹ . Então, a probabilidade procurada será: J J K P N K | | | \ ¹ = | | | \ ¹ e) Mostrar que n k n j n j k j k k − | | | | | | | | = | | | | − \ ¹ \ ¹ \ ¹ \ ¹ . f) Sabendo que a MEGA-SENA real possui 60 números e sorteios de 6 números, calcule P 6 , P 7 , P 8 , P 9 e P 10 , as probabilidades de um jogador ganhar apostando em 6, 7, 8, 9 e 10 números. Para facilitar a interpretação dos resultados, faça um gráfico com os valores encontrados. 16 6 7 8 9 10 6 7 6 6 1.997E-8 , 1.398E-7 60 60 6 6 8 9 10 6 6 6 5.593E-7 , 1.678E-6 , 4.195E-6 60 60 60 6 6 6 J J K P P P N K P P P | | | | | | | | | \ ¹ \ ¹ \ ¹ = ⇒ = = = = | | | | | | | | | \ ¹ \ ¹ \ ¹ | | | | | | | | | \ ¹ \ ¹ \ ¹ = = = = = = | | | | | | | | | \ ¹ \ ¹ \ ¹ No gráfico ao lado a escala logarítmica no eixo das probabilidades torna mais fácil a leitura dos valores envolvidos. Isto acontece em situações em que os valores de probabilidade não seguem um comportamento linear, caso em que uma escala linear seria mais adequada. Com o objetivo de se acostumar a este tipo de representação logarítmica, muito utilizado em telecomunicações, faça como exercício a leitura dos valores de probabilidade da forma mais precisa que puder. Compare sua leitura com os valores exatos obtidos anteriormente. Amostragem COM reposição e SEM ordenação O número de modos diferentes de escolher k objetos de um conjunto de n objetos distintos com reposição e sem ordenação é dado por: Exemplo slide 35, porém com reposição: no exemplo das 5 bolas numeradas, suponha que retiramos uma bola da caixa aleatoriamente e, após recolocá-la de volta, selecionamos a segunda bola. Qual o número de possibilidades de escolha das duas bolas, sem nos preocuparmos com a ordem em que elas são escolhidas? As possibilidades serão: 17 De onde concluímos que, de fato há 1 5 1 2 6 6! 720 15 possibilidades 2 2 2!(6 2)! 48 n k k − + − + | | | | | | = = = = = | | | − \ ¹ \ ¹ \ ¹ Podemos resolver também assim: 1 ( 1 )! 6! 15 possibilidades !( 1 )! 2!4! n k n k k k n k k − + | | − + = = = | − + − \ ¹ Experimentos seqüenciais e diagrama de árvore Como complemento estude o item 1.8 da apostila, p. 16-19, objetivando entender como se aplica o diagrama em árvore na solução de problemas com experimentos seqüenciais. Refaça os exemplos 1.13 a 1.16 para certificar-se de que entendeu o que estudou. O diagrama de árvore pode ser considerado como uma ferramenta para a solução de problemas probabilísticos em que o experimento sob análise consiste de uma seqüência de sub-experimentos. Nesta seqüência, um sub-experimento depende do resultado de sub-experimentos anteriores. A utilização dessa ferramenta em M501 não é obrigatória, podendo ser vista apenas como uma forma adicional que os alunos poderão utilizar para resolver exercícios ou questões de provas. FIM DA AULA 18 Aula nº Data Tema Exercícios de fixação Conteúdo Exercícios de fixação sobre probabilidade. Objetivos Permitir que os alunos revisitem os conceitos teóricos e conheçam exemplos de aplicação destes conceitos na solução de problemas. 1) Estabelecer a relação entre a PERMUTAÇÃO de k objetos em k, a COMBINAÇÃO de k objetos em n e o número de POSSÍVEIS k-uplas ORDENADAS DISTINTAS em n. Como exemplo, seja os n elementos, n = 4: 1, 2, 3 e 4, com k = 2. As possíveis combinações são n k | | | \ ¹ = 4 2 | | | \ ¹ = 6: 1,2 1, 3, 1,4 2,3 2,4 3,4 Os possíveis pares ordenados distintos são n(n – 1)(n – 2)...(n – k + 1) = 4x3 = 12: 1,2 1,3, 1,4 2,1 2,3 2,4 3,1 3,2 3,4 4,1 4,2 4,3 O número de permutações possíveis com cada combinação é k! = 2! = 2. Por analogia verificamos então que: n(n – 1)(n – 2)...(n – k + 1) = n k | | | \ ¹ k! 2) Mostre que se P(A) = P(B) = 1, então P(A∩B) = 1. Percebemos que se P[A] = P[B] = 1, a única possibilidade de fazer com que P(A∩B) seja um resultado válido em termos de probabilidade é ter P(A∪B) = 1. Neste caso, então P(A∩B) = 1. 3) Mostre que P[A c ] = 1 – P[A]. 19 4) Usando diagramas de Venn, faça um exemplo que mostre que P(A∪B) = P(A) + P(B) − P(A∩B). Seja o exemplo abaixo, onde S = {0, 1, 2, 3, 4, 5, 6, 7}, A = {1, 2, 3}, B = {3, 4, 5, 6}, A∩B = {3} e A∪B = {1, 2, 3, 4, 5, 6}. Percebemos que P(A∪B) é a probabilidade de ocorrência dos elementos {1, 2, 3, 4, 5, 6}. Nas probabilidades de ocorrência dos elementos e A e dos elementos de B, o número 3 aparece duas vezes e, portanto, precisa ser “eliminado” da dupla contagem retirando-se a interseção entre A e B. Vejamos os valores numéricos: P[A] = 3/8, P[B] = 4/8, P[A∪B] = 6/8, P(A∩B) = 1/8. De fato P(A∪B) = P(A) + P(B) − P(A∩B): 6/8 = 3/8 + 4/8 – 1/8. 5) Usando diagramas de Venn, faça um exemplo que mostre que P(A∪B) ≤ P(A) + P(B). Utilizando os resultados do exercício anterior concluímos que P(A∪B) = P(A) + P(B) se não houver interseção entre os eventos A e B. Por outro lado, P(A∪B) < P(A) + P(B) se existir alguma interseção. Portanto, com estas únicas possibilidades mostramos o que o exercício pede, ou seja P(A∪B) ≤ P(A) + P(B). 6) Mostre que para eventos A, B e C quaisquer: P[A∪B∪C] = P[A] + P[B] + P[C] – P[A∩B] – P[A∩C] – P[B∩C] + P[A∩B∩C]. OBS: repita o exercício utilizando diagramas de Venn. 7) Um sistema de comunicação de microondas conecta os equipamentos de edição de uma emissora de rádio ao sistema de transmissão por meio de três links, conforme ilustrado a seguir. Tais links podem falhar de forma independente com probabilidades P1, P2 e P3. Qual a probabilidade de falha no sistema de comunicação como um todo? 20 Solução por 1 – P[sistema não falhar] Solução pela união dos eventos individuais de falha A probabilidade de falha em um sistema serial como este é a probabilidade da UNIÃO dos eventos de falha. Vejamos: P[falha] = P[falha link1 ∪ falha link 2 ∪ falha link 3] = P1 + P2 + P3 – P1P2 – P2P3 – P1P3 + P1P2P3. 8) Repita o exercício 7 considerando que os links estão em paralelo. Da solução deste exercício você tirará uma conclusão muito útil à solução de problemas deste tipo. Agora o sistema falhará se todos os links falharem ao mesmo tempo. Portanto estamos interessados na probabilidade conjunta de falha dos links. Como os eventos de falha são independentes, P[falha] = P[falha link 1 ∩ falha link 2 ∩ falha link 3] = P[falha link1, falha link 2, falha link 3] = P1×P2×P3. Assim, concluímos: sistemas em paralelo têm probabilidade de falha igual à INTERSEÇÃO dos eventos de falha (probabilidade conjunta). Sistemas e série têm probabilidade de falha igual à UNIÃO dos eventos de falha. Sistemas combinados têm probabilidades de falha calculadas pela combinação destes eventos de falha. Outros exercícios para casa 9) Se retirarmos, de uma única vez, 3 bolas de uma caixa com 10 bolas numeradas, qual a probabilidade de retirarmos o conjunto de bolas (1, 2, 3), nesta ordem? 10) Se retirarmos, de uma única vez, 3 bolas de uma caixa com 10 bolas numeradas, qual a probabilidade de retirarmos o conjunto de bolas (1, 2, 3), em qualquer ordem? 11) Num sorteio, 60 bolas numeradas de 1 a 60 são misturadas em uma gaiola rotativa e depois, uma a uma, são retiradas. Qual a probabilidade de se retirar os números 1, 33, 27, 45, 46 e 59 nas primeiras 6 retiradas? 12) Num sorteio, 60 bolas numeradas de 1 a 60 são misturadas em uma gaiola rotativa e depois, uma a uma, são retiradas. Qual a probabilidade de se acertar 6 números em 6 retiradas, apostando 7 números? 21 13) Associar a coluna da esquerda à coluna da direita, apresentando os cálculos pertinentes aos três casos listados na coluna da direita. (A) 720 (B) 56 (C) 7.776 (D) 3.628.800 (E) 120 (F) 10 (G) 30 (H) 40.320 ( ) é o número de possíveis resultados de uma corrida com 10 competidores, listando-se apenas as três primeiras posições (pódio de 3 lugares). ( ) é o número de diferentes palavras de 8 bits que pode ser formado a partir de 5 uns e 3 zeros. ( ) é o número de resultados diferentes que podem ser obtidos lançando-se 5 dados de uma vez e observando a soma do número de pontos de cada lance. FIM DA AULA 22 Aula nº Data Tema Variáveis aleatórias - 1 Conteúdo Introdução às variáveis aleatórias. Objetivos Ao final da aula os alunos deverão ser capazes de: 1) definir corretamente o conceito de variável aleatória (v.a.). 2) realizar cálculos de probabilidade por meio da Função de Distribuição Cumulativa (FDC). Variável aleatória – definição simplificada Uma variável aleatória (v.a.) nada mais é do que o mapeamento dos resultados aleatórios de um experimento em números que vão ser, por conseqüência, aleatórios. Como exemplo, seja o experimento de se lançar uma moeda 2 vezes consecutivas e seja o evento correspondente à contagem do número de caras observado. Podemos então definir uma variável aleatória X que corresponda a este evento. A variável aleatória X terá aqui os seguintes valores {0, 1 e 2}. Eventos equivalentes Quando calculamos probabilidades a partir de representações com diagramas de Venn obtemos resultados idênticos àqueles obtidos por meio das variáveis aleatórias correspondentes. Por exemplo, o conjunto referente à ocorrência de cara em dois lances consecutivos no exemplo anterior tem associação equivalente à ocorrência do valor 2 da variável aleatória X definida. Função de Distribuição Cumulativa (FDC) Num primeiro momento, vamos nos contentar apenas com a definição matemática da FDC, que é: onde a letra F (sempre maiúscula) indica que estamos nos referindo a uma FDC; o sobrescrito X (sempre maiúsculo) está associado à variável aleatória a que a FDC se refere; x (sempre minúsculo) significa um valor específico para a variável aleatória e P[X ≤ x] é a probabilidade da variável aleatória X assumir um valor menor ou igual a x. Exemplo: Vamos determinar a FDC da v.a. X, sendo X o número de caras (C) em três arremessos de uma moeda ideal, ou seja, X assume apenas os valores 0, 1, 2 e 3. Para uma moeda justa, as probabilidades para cada resultado são 1/8, 3/8, 3/8 e 1/8, respectivamente, valores estes obtidos por meio da definição clássica de probabilidade, seja operando no espaço amostral de caras e coroas ou com os valores da variável aleatória. Por exemplo, 3/8 é a probabilidade de ocorrência de duas caras: este valor pode ser obtido dividindo-se o número de eventos favoráveis à aparição de duas caras (3) pelo número total de possibilidades (8) ou dividindo-se o número de eventos favoráveis à aparição do valor 2 da v.a. (3) pelo número total de possibilidades (8). 23 F X (x) é simplesmente a soma das probabilidades de ocorrência dos resultados que são menores ou iguais a x, ou seja: P[X ≤ 0] = 1/8, P[X ≤ 1] = 1/8 + 3/8 = 1/2, P[X ≤ 2] = 1/8 + 3/8 + 3/8 = 7/8 e P[X ≤ 3] = 1/8 + 3/8 + 3/8 + 1/8 = 1. Como resultado temos a FDC ilustrada a seguir: Propriedades da FDC 1 ) ( 0 ≤ ≤ x F X Estes são os possíveis valores para a FDC 0 ) ( lim = −∞ → x F X x A FDC começa sempre em zero, não importa o quanto à “esquerda” do gráfico. 1 ) ( lim = ∞ → x F X x A FDC termina sempre em um, não importa o quanto à “direita” do gráfico. A FDC é uma função não decrescente de x, isto é, se a < b, então F X (a) ≤ F X (b). Em outras palavras, se a < b o valor da FDC no ponto a será sempre menor ou igual ao valor da FDC no ponto b. [ ] ( ) ( ) X X P a X b F b F a < ≤ = − Podemos utilizar esta propriedade para calcular probabilidades. Por exemplo, na FDC abaixo seja calcular a probabilidade da v.a. X assumir os valores entre 2 e 3, ou seja, queremos calcular P[2 ≤ X ≤ 3] = F X (3) – F X (2) = 0,9 – 0,5 = 0,4. 24 Se a FDC é contínua em um ponto b, então o evento {X = b} tem probabilidade nula. Isto significa que a probabilidade de ocorrência de um valor específico de uma v.a. que tem FDC contínua é nula. No exemplo logo acima, se fizermos o ponto da esquerda, a, se aproximar cada vez mais do ponto 3, teremos F X (3) – F X (a) cada vez menor. No limite, quando estivermos a um valor infinitesimal distante do ponto 3, F X (3) – F X (a) será P[X = 3] = 0. [ ] ( ) ( ) X X P a X b F b F a − ≤ ≤ = − Esta propriedade, de aplicação bastante útil, diz que a probabilidade da v.a. X assumir valores entre a e b é determinada pela subtração do valor da FDC no ponto b do valor da FDC imediatamente à esquerda de a. Para o exemplo anterior, P[2 ≤ X ≤ 3] = F X (3) – F X (2 − ) = 0,9 – 0,5 = 0,4. No caso do jogo das moedas, suponha que quiséssemos a probabilidade de X assumir o valor 2. Então teríamos: P[X = 2] = P[2] – P[2 − ] = 7/8 – 1/2 = 3/8. Se a FDC é contínua, [ ] [ ] [ ] [ ] P a X b P a X b P a X b P a X b < < = ≤ < = < ≤ = ≤ ≤ . Isto significa que incluir ou não os valores específicos de a e b no cálculo de probabilidades não altera o resultado. Podemos também interpretar esta propriedade lembrando que a probabilidade de ocorrência de um valor específico de uma v.a. cuja FDC é contínua é nula e, portanto, incluir ou não este “valor nulo” no cálculo torna-se indiferente. Exercício para casa Para a FDC abaixo, pede-se: a) Recalcular [| 1| 1/ 2] 1 [1/ 2 3/ 2] 1 [ (3/ 2) (1/ 2)] 7/16 X X P x P X F F − > = − ≤ ≤ = − − = . b) Calcular P[X = 1,5]. Tipos de variáveis aleatórias Os tipos de v.a. estão associados às possibilidades para os valores da v.a.. Por exemplo, numa transmissão de dados, a variável aleatória pode ser a ocorrência dos bits zeros e uns. Portanto, e obviamente, os valores desta v.a. são discretos e iguais a 0 ou 1. Por conseqüência, a correspondente FDC será também discreta: 25 Uma variável aleatória contínua pode assumir quaisquer valores dentre os números reais na faixa em que tal v.a. existe. Por exemplo, suponha que a vazão máxima no cano da COPASA que alimenta sua residência com água seja de 1 m 3 /hora e a mínima seja de 0. Em um determinado momento, a vazão poderá ter qualquer valor real entre 0 e 1 m 3 /hora, como ilustrado pela FDC da v.a. em questão: Uma variável aleatória mista, como o nomesugere, pode assumir valores discretos e contínuos. Sua FDC é, portanto, composta de partes discretas e de partes contínuas, conforme ilustração a seguir: Na próxima aula iniciaremos com o estudo da função densidade de probabilidade (FDP), a qual possui associação direta com a FDC. Em seguida estudaremos vários tipos de variáveis aleatórias discretas e contínuas. FIM DA AULA 26 Aula nº Data Tema Variáveis aleatórias - 2 Conteúdo Função densidade de probabilidade para v.a. contínuas e discretas. Densidades condicionais. Objetivos Continuação do estudo de variáveis aleatórias: Função densidade de probabilidade para variáveis aleatórias discretas e contínuas. Densidades condicionais. Histograma. Função massa de probabilidade (FMP) A função massa de probabilidade simplesmente representa em um gráfico as probabilidades de ocorrência de cada um dos valores de uma v.a. discreta. Como exemplo, seja uma v.a. que pode assumir os valores {0, 1, 2, 3} com probabilidades 0.3, 0.2, 0.4 e 0.1, respectivamente. Teremos a seguinte FMP e correspondente FDC: Matematicamente: p X (x k ) = P[X = x k ] Função densidade de probabilidade (FDP) Para entendermos o conceito de FDP, vamos analisar um exemplo: suponha que coletamos a estatura de 100 alunos do Inatel, obtendo os mais variados valores. Suponha que, dentro da faixa de valores encontrados, criamos 7 sub-faixas (ou classes) e contamos quantos alunos têm estatura dentro daquela sub-faixa. Um possível resultado seria: 27 Com este exemplo acabamos aprendendo o conceito de HISTOGRAMA, ou seja, a figura acima é o histograma que mostra a distribuição da estatura dos alunos consultados. Se, no limite, fizermos cada sub-faixa ter uma largura tendendo a zero, teremos como resultado uma função contínua que mostrará, mais uma vez, como as estaturas dos alunos consultados se distribui. A esta função contínua damos o nome de função densidade de probabilidade. Para o exemplo, teremos: 1.3 1.4 1.5 1.6 1.7 1.8 1.9 0 1 2 3 4 Valores de X F r e q ü ê n c i a r e l a t i v a A relação entra uma função densidade de probabilidade e uma função de distribuição cumulativa é dada por: ( ) ( ) X X dF x f x dx = ou seja, determinamos a FDP de uma v.a. por meio da derivada da função de distribuição cumulativa. Portanto, a FDC é determinada pela integral da FDP. Função densidade de probabilidade (FDP) para v.a. discretas A FDP de uma v.a. discreta é determinada simplesmente substituindo os traços da FMP por funções impulso, conforme ilustrado a seguir. O uso de representações diferentes de um impulso, na figura, não corresponde a um erro. Matematicamente, ( ) ( ) ( ) X X k k k p x p x x x δ = − ∑ 28 Função densidade de probabilidade (FDP) para v.a. contínuas Aproveitando a definição de FDP dada anteriormente, definimos a FDP de uma variável aleatória contínua por meio de uma função contínua de área unitária. A FDP representa a “densidade” de probabilidade no ponto x no seguinte sentido: é a probabilidade de X estar em um intervalo pequeno na vizinhança de x: Na definição de histograma, vimos um exemplo referente à estatura de um grupo de alunos do Inatel. Vimos, naquele exemplo, que fazendo as sub-faixas tenderem a zero teríamos como resultado uma função contínua. Se normalizarmos esta função resultante de forma que tenha área unitária, o resultado será uma forma aproximada da FDP da estatura dos alunos do Inatel. Propriedades de uma PDF Para v.a. contínuas temos as seguintes propriedades: A primeira propriedade diz que uma FDP não pode ter valores negativos, o que implicaria em valores negativos de probabilidade. A segunda propriedade permite que calculemos probabilidades a partir de uma FDP. Por exemplo, a probabilidade da v.a. X estar entre os valores a e b, denotada por [ ] P a X b ≤ ≤ , é calculada pela integral da FDP entre os pontos a e b. A terceira propriedade apenas repete o que já estudamos, ou seja, a FDC é a integral da FDP e a FDP é a derivada da FDC. 29 A última propriedade é uma condição para que possamos calcular probabilidades a partir do cálculo de área sob a FDP. Como exemplo, suponha que uma v.a. X tenha valores somente entre 1,4 e 2. Portanto, a probabilidade de X estar entre 1,4 e 2 será a área da FDP correspondente entre os pontos 1,4 e 2. Este valor dever ser, obviamente, igual a 1. Para v.a. discretas temos as seguintes propriedades: A primeira propriedade diz que uma FDP não pode ter valores negativos, o que implicaria em valores negativos de probabilidade. A segunda propriedade permite que calculemos probabilidades a partir de uma FDP. Por exemplo, a probabilidade da v.a. X assumir os valores 1, 2 e 7 é dada pela soma das probabilidades de ocorrência dos valores 1, 2 e 7, lidas diretamente no eixo vertical da FDP. A terceira propriedade apenas repete o que já estudamos, ou seja, a FDC é a integral da FDP, agora na versão discreta em que a integral se torna um somatório. Assim, para determinarmos a FDC a partir da FDP, basta ir acumulando os valores de probabilidade a cada valor da v.a. discreta. Para determinarmos a FDP a partir da FDC, basta plotar no eixo horizontal, em cada valor da v.a., um impulso cuja amplitude é igual ao correspondente “salto” da FDC. A última propriedade é uma condição para que possamos calcular probabilidades a partir do cálculo de área sob a FDP. Como exemplo, suponha que uma v.a. X tenha valores somente entre 1,4 e 2. Portanto, a probabilidade de X estar entre 1,4 e 2 será a área da FDP correspondente entre os pontos 1,4 e 2. Este valor dever ser, obviamente, igual a 1. Densidades condicionais Densidades condicionais são aquelas que nos permitem obter informações probabilísticas sobre uma v.a. com um conhecimento adicional sobre o experimento correspondente. Por exemplo, ao fazermos apostas em um hipódromo, se sabemos que um determinado cavalo está machucado ou doente, mesmo sendo um campeão, diminuímos nossa confiança em apostar nele. A função de distribuição condicional de uma v.a. X, dado o conhecimento do evento B é definida por: [ , ] ( | ) [ | ] [ ] X P X x B F x B P X x B P B ≤ = ≤ = 30 Determina-se a função densidade de probabilidade de uma v.a. contínua da mesma forma que definimos anteriormente, ou seja, pela derivada da FDC: ( | ) ( | ) X X d f x B F x B dx = Para uma v.a. discreta, a FMP condicional é dada por: [ , ] ( | ) [ | ] [ ] k X k k P X x B p x B P X x B P B = = = = Exemplo: o tempo de vida X de uma máquina tem distribuição exponencial. Vamos determinar a FDC e a FDP condicionadas ao evento A = {X > t}, ou seja, a máquina ainda se encontra em funcionamento no instante t: [ ] { } { } ( | ) [ | ] [ ] X P X x X t F x X t P X x X t P X t ≤ ∩ > > = ≤ > = > Por meio da figura a seguir percebemos que os eventos no numerador acima não têm interseção quando x ≤ t e têm interseção quando x > t em t < X ≤ x. Então teremos a FDC condicional: 0, ( | ) ( ) ( ) , 1 ( ) X X X X x t F x X t F x F t x t F t ≤ ¦ ¦ > = − ´ > ¦ − ¹ Diferenciando a FDC em relação a x obtemos a FDP condicional: ( ) ( | ) , 1 ( ) X X X f x f x X t x t F t > = ≥ − Exercício para casa: usando o resultado do exemplo anterior, determine a estimativa do tempo de vida da máquina estar entre 2,5 a 3 unidades de tempo, conhecendo-se ou não conhecendo-se o dado adicional: a máquina está em funcionamento em t = 2. Conceito de histograma – estudo dirigido Faça uma pesquisa sobre o conceito de HISTOGRAMA em livros e/ou páginas da Internet sobre estatística. Como sugestão, tente resolver a questão por meio da enciclopédia Wikipedia: http://en.wikipedia.org/wiki/Histogram. Faça um resumo sobre o assunto, contendo ao menos um 31 exemplo da utilização de histogramas em análises estatísticas. Estabeleça a relação entre um histograma e uma função densidade de probabilidade em termos de seu formato e da sua normalização para probabilidade total unitária (área unitária). Histograma × ×× × FDP Suponha que temos um conjunto de 100 valores de uma variável aleatória discreta e queremos, a partir deste conjunto, determinar a FMP da v.a. em questão. Contando o número de ocorrências de cada valor e construindo o correspondente histograma obtivemos o resultado: 0 1 2 3 4 5 6 7 8 9 10 0 20 40 60 Valores de X F r e q ü ê n c i a d e o c o r r ê n c i a Utilizando o conceito de probabilidade por freqüência relativa, podemos calcular a probabilidade de ocorrência de cada valor dividindo o número de ocorrências de um valor pelo número total de valores, o que nos levaria a: 0 1 2 3 4 5 6 7 8 9 10 0 0.2 0.4 0.6 Valores de X P r o b a b i l i d a d e Entretanto, pelo fato de termos utilizado um número muito pequeno de amostras, as probabilidades estimadas podem ter valores bastante incorretos. Vejamos o que acontece se aumentarmos o número de valores disponíveis para 10.000. Com este valor as estimativas de probabilidade por freqüência relativa se tornarão bastante precisas e, por conseqüência, a FMP estimada será também bastante precisa, conforme ilustrado a seguir: 0 1 2 3 4 5 6 7 8 9 10 0 2000 4000 6000 Valores de X F r e q ü ê n c i a d e o c o r r ê n c i a 32 0 1 2 3 4 5 6 7 8 9 10 0 0.2 0.4 0.6 Valores de X P r o b a b i l i d a d e Para uma variável aleatória contínua, a regra que pode ser extraída do exemplo anterior também é válida: quanto maior o número de valores da v.a. considerados na construção do histograma, mais este histograma se assemelhará à FDP da v.a. em questão. Não devemos nos esquecer, no entanto, que a aproximação do histograma da FDP se dará com as medidas adicionais: largura das sub-faixas (ou classes) tão pequenas quanto possível e normalização do histograma para que tenha área unitária. A seguir temos o histograma de uma v.a. contínua, construído a partir de 100 amostras desta v.a.. 35 40 45 50 55 60 65 0 5 10 15 20 25 Valores de X F r e q ü ê n c i a d e o c o r r ê n c i a Veja agora o histograma construído com 10.000 amostras da v.a. contínua, normalizado para área unitária e com classes bem estreitas. Observe a grande semelhança com a FDP real da v.a. em questão. FIM DA AULA 33 Aula nº Data Tema Variáveis aleatórias - 3 Conteúdo Continuação do estudo de variáveis aleatórias: Variáveis aleatórias discretas mais comuns; Variáveis aleatórias contínuas mais comuns. Objetivos Ao final da aula os alunos deverão ser capazes de: 1) realizar cálculos de probabilidade envolvendo as variáveis aleatórias discretas e contínuas estudadas. Variável aleatória discreta de Bernoulli É utilizada para modelar qualquer fenômeno aleatório que possa ser descrito como tendo dois estados. Por exemplo: ligado/desligado, aceso/apagado, cara/coroa, bit0/bit1, etc... Adicionalmente, uma v.a. de Bernoulli pode modelar qualquer fenômeno aleatório ao qual se possa associar a um evento de interesse A uma probabilidade de ocorrência p = P[A], a partir de uma função indicadora I A que assume o valor 1 sempre que o evento de interesse ocorrer e 0 quando não ocorrer. Por exemplo, suponha que associamos o valor 1 à ocorrência de uma descarga elétrica dentro do Campus do Inatel e 0 fora do Campus. Se p é a probabilidade de um raio atingir o Campus, o evento em questão pode ser modelado por uma v.a. de Bernoulli com probabilidade de sucesso p. Abaixo temos a FMP para esta variável. Variável aleatória discreta Binomial Esta variável está associada ao número de sucessos em n testes de Bernoulli. Por exemplo, suponha que a probabilidade de uma lâmpada queimar é p. Portanto, para este experimento, sucesso significa a lâmpada queimar. Num conjunto de n lâmpadas, a probabilidade de x lâmpadas queimarem é dada pela distribuição Binomial. A FMP para uma v.a. Binomial é dada a seguir. 34 Num outro exemplo, suponha que queremos calcular a probabilidade de termos mais de 5 bits errados em um bloco de n bits, num sistema de comunicação em que o canal causa erros de bit com uma probabilidade p. Neste caso, o sucesso no teste de Bernoulli corresponde a um erro de bit. Então, a probabilidade de termos 5 ou mais erros em n bits será calculada por: P[X ≥ 5] = 1 – P[X < 5] = 4 0 1 (1 ) x n x x n p p x − = | | − − | \ ¹ ∑ . Variável aleatória discreta de Poisson Uma v.a. de Poisson modela fenômenos aleatórios em um intervalo de observação. Por exemplo, a taxa de solicitações de chamadas telefônicas encaminhadas a uma central de comutação é de λ solicitações por segundo. Em um determinado intervalo de observação T, o número de solicitações segue uma distribuição de Poisson. Nesta distribuição α = λT é o número médio de ocorrências do evento no intervalo considerado. Num outro exemplo, o número de clientes que chegam a uma fila de espera em um Banco durante um determinado intervalo de observação T segue uma distribuição de Poisson, onde α = λT é o número médio de clientes que chegam ao banco neste intervalo e λ é a taxa de chegada dos clientes (clientes/segundo). Aproximação de Poisson para a distribuição Binomial Quando n é grande os cálculos envolvendo a distribuição Binomial apresentam um complicador que é o cálculo fatorial presente no coeficiente binomial. Nestes casos, adicionalmente quando p tem valor pequeno, a distribuição de Poisson aproxima-se da distribuição Binomial, ou seja: ( ) ( ) 1 , ! x n x x X n p x p p e np x x α α α − − | | = − ≅ = | \ ¹ Como exemplo, suponha que queremos calcular a probabilidade de um bloco de 1.000 bits ter 5 ou mais bits em erro, num sistema de comunicação em que a probabilidade de erro de bit é de 1×10 −3 . Neste exemplo o “sucesso” no teste de Bernoulli, que corresponde à probabilidade p = 1×10 −3 está associado ao erro em um bit. Aqui, se tentarmos aplicar diretamente a distribuição Binomial, que modela eventos como o descrito, teremos problema para calcular o valor do coeficiente binomial por causa do valor de n = 1.000. Como p tem valor pequeno,podemos usar a aproximação de Binomial para Poisson, com α = np = 1.000×10 -3 . 35 Variável aleatória discreta Geométrica Usamos esta distribuição sempre que queremos modelar um experimento no qual estamos interessados em contar o número de insucessos antes que o primeiro sucesso ocorra. Por exemplo, suponha que queremos determinar X, o número necessário de lances de um dado antes que o número 3 (3 pontos) aparece pela primeira vez. A variável aleatória X tem distribuição Geométrica. Esta variável é dita SEM MEMÓRIA. Para ilustrar este conceito, no exemplo do dado se ainda não ocorreu um sucesso após lançar-se o dado um determinado número de vezes, o número de insucessos adicionais até a ocorrência do primeiro sucesso continua tendo uma distribuição Geométrica. Por exemplo, se após lançarmos o dado 5 vezes não observamos a ocorrência de um sucesso (3 pontos, para o caso), a probabilidade de aparecer 3 pontos após mais 3 lances continua sendo calculada por p X (x) para x = 3. Variável aleatória contínua Uniforme Uma v.a. contínua tem distribuição Uniforme quando as probabilidades de ocorrência da v.a estão uniformemente distribuídas dentro da faixa de valores onde ela existe. Por exemplo, na FDP abaixo, se calcularmos a probabilidade da v.a. assumir valores entre a e a + ∆, encontraremos o mesmo valor que entre b e b – ∆. Como exemplo, quando amostras de um sinal de áudio são quantizadas, gera-se um erro entre a amostra quantizada e o valor real da amostra do sinal. Este erro tem distribuição Uniforme de –q/2 a +q/2, onde q é o passo de quantização (distância entre um nível de quantização e seus vizinhos mais próximos). Num outro exemplo, quando transmitimos um sinal num canal de comunicação móvel sem fio, como acontece em sistemas celulares, a fase do sinal recebido é aleatória com distribuição Uniforme entre –π 36 e π, ou seja, o sinal recebido pode assumir qualquer valor de fase dentro destes limites, com a mesma probabilidade. Variável aleatória contínua Exponencial Utilizamos uma distribuição Exponencial para modelar eventos que, com o passar do tempo, têm menor probabilidade de ocorrência. Por exemplo, a duração de uma chamada telefônica é uma v.a. com distribuição exponencial, pois a probabilidade de uma chamada durar menos tempo é maior que a probabilidade de durar mais tempo. A v.a. exponencial é também utilizada para modelar o tempo de vida de algumas máquinas e equipamentos. Neste caso, quanto mais o tempo passar, menor a probabilidade de ocorrência de falha. Assim, um automóvel, por exemplo, tem mais chance de apresentar defeito nos primeiros dois meses de uso do que nos dois meses seguintes ao primeiro ano de uso. Obviamente este modelo se aplica ao intervalo de tempo antes que falhas começam a aparecer por envelhecimento ou desgaste de peças. Como vimos anteriormente, o número de chegadas de clientes em uma fila tem distribuição de Poisson. Neste caso, o intervalo entre as chegadas tem distribuição Exponencial, ou seja, é mais provável que os intervalos entre chegadas consecutivas sejam menores; intervalos elevados entre chegadas consecutivas são mais raros. A seguir tem-se a FDP para a variável aleatória Exponencial. Variável aleatória contínua Gaussiana A distribuição Gaussiana tem uso muito freqüente em várias áreas do conhecimento. Por exemplo, ela caracteriza grande parte dos fenômenos aleatórios naturais e o ruído térmico em sistemas de telecomunicações. Adicionalmente, sob uma grande faixa de condições a variável aleatória Gaussiana pode ser usada para aproximar a distribuição da soma de um grande número de variáveis aleatórias independentes com distribuição qualquer. A seguir tem-se a FDP para a variável aleatória Gaussiana, onde podemos notar a presença dos parâmetros µ (média) e σ (desvio padrão). A média, ou valor mais provável, corresponde à posição central da PDF. O desvio padrão está associado à dispersão da FDP, ou seja, quanto maior o valor de σ, mais dispersos os valores da v.a. em questão estarão em relação à sua média. 37 Cálculo numérico de área de uma Gaussiana via função erfc(x) ou Q(x) Quando os problemas sobre probabilidade envolvendo uma v.a. Gaussiana demandam cálculos de área da FDP, nos deparamos com um obstáculo: o cálculo da área sob a cauda de uma Gaussiana não tem solução analítica exata. Nestes casos utilizamos as funções erfc(x) e Q(x) cujo objetivo é permitir um cálculo numérico dessa área. Tais funções são definidas por meio das expressões: 2 2 ( ) exp x erfc x u du π ∞ ( = − ¸ ¸ ∫ 2 1 ( ) exp 2 2 x u Q x du π ∞ ( = − ( ¸ ¸ ∫ Estas funções se relacionam por meio de: ( ) ( ) 2 2 erfc x Q x = 1 ( ) 2 2 x Q x erfc | | = | \ ¹ . Muitos softwares de cálculo e até calculadoras mais modernas contêm ao menos uma dessas funções embutidas. Ainda assim, muitas referências contêm tabelas de valores destas funções para uma grande faixa de argumentos. Como alternativa, a expressão a seguir corresponde à expansão da função erfc(x) em uma série. Para 50 ou mais termos no somatório, o valor obtido com a série se aproxima bastante do valor exato da função. Verifique esta afirmação como exercício. A função Q(x) possui algumas aproximações, conforme ilustrado na figura a seguir, onde se pode identificar claramente em que faixa de valores do argumento tais aproximações são mais ou menos precisas. 38 Na apostila define-se ainda a função 2 1 ( ) exp 2 2 x u x du π −∞ | | Φ = − | \ ¹ ∫ , para a qual se apresenta uma tabela de valores no Apêndice F desta apostila. Portanto, observando a definição da função Q(x) dada anteriormente, facilmente chegamos à relação: ( ) 1 ( ) x Q x Φ = − Então, para uma v.a. Gaussiana de média µ e desvio padrão σ, a FDC pode ser calculada por meio de: ( ) 1 X x x F x Q µ µ σ σ − − | | | | = Φ = − | | \ ¹ \ ¹ FIM DA AULA 39 Aula nº Data Tema Variáveis aleatórias - 4 Conteúdo Variáveis aleatórias múltiplas. Funções e transformações de variáveis aleatórias. Objetivos Ao final da aula os alunos deverão ser capazes de: 1) realizar cálculos de probabilidade envolvendo variáveis aleatórias múltiplas, funções de variáveis aleatórias e transformações de variáveis aleatórias. Variáveis aleatórias múltiplas Variáveis aleatórias múltiplas surgem em problemas nos quais estamos interessados no evento combinado de dois ou mais experimentos ou no evento combinado referente à repetição de um mesmo experimento. Como exemplo, quando analisamos o lance de um dado definimos uma única variável aleatória. Se lançarmos dois dados ou repetirmos o lance de um único dado, criaremos duas variáveis aleatórias sobre as quais poderemos extrair informações probabilísticas. A função de distribuição cumulativa conjunta para duas v.a. contínuas é definida por: Através desta função conseguimos obter probabilidades associadas à ocorrência conjunta das variáveis em questão. Independência de variáveis aleatórias Se as variáveis aleatórias em questão são independentes, encontramos a FDC ou a FDP conjuntas pela multiplicação das FDCs ou FDPs de cada uma das v.a. envolvidas, ou seja: Como exemplo, sejam duas variáveis aleatórias Gaussianas X e Y, independentes e de mesmo desvio padrão. A FDP conjunta será dada pelo produto das correspondentes FDPs. O resultado será: 2 2 2 2 2 2 2 2 ( , ) ( ) ( ) 1 ( ) 1 ( ) exp exp 2 2 2 2 1 ( ) ( ) exp 2 2 XY X Y X Y X Y f x y f x f y x y x y µ µ σ σ πσ πσ µ µ πσ σ = ( ( − − = − × − ( ( ¸ ¸ ¸ ¸ ( − + − = − ( ¸ ¸ 40 Se esboçarmos esta função teremos como resultado a curva a seguir: Assim como qualquer FDP, a integral em todas as variáveis deve ter valor unitário: Obtendo densidades marginais a partir de densidades conjuntas A partir do conhecimento de densidades conjuntas, podemos determinar a FDC ou a FDP de cada uma das v.a. envolvidas. Nestes casos as FDPs ou FDCs obtidas são denominadas de densidades marginais. Para v.a. contínuas, encontramos a FDP de uma das variáveis integrando a FDP conjunta na outra variável: Para variáveis aleatórias discretas, encontramos a FMP (ou FDP) de uma das variáveis somando todas as probabilidades referentes à outra variável, ou seja: ( ) ( , ) X i XY i j j f x f x y ∞ =−∞ = ∑ ( ) ( , ) Y i XY i j i f y f x y ∞ =−∞ = ∑ Transformação de FPDs A transformação de FDPs é uma ferramenta bastante útil para que tenhamos condições de conhecer a FDP simples (unidimensional) ou conjunta (multidimensional) de variáveis aleatórias que foram geradas pela modificação de outras variáveis aleatórias. Embora haja ferramentas que permitem a transformação de FDPs conjuntas com qualquer número de variáveis aleatórias, veremos apenas os casos particulares nos quais: a) um valor de uma das variáveis 41 corresponde a um único valor da outra e b) um par de valores de uma das variáveis conjuntas corresponde a um único par de valores da outra. Transformação de FPDs de primeira ordem Sejam X e Y duas v.a. relacionadas por meio de Y = g(X), onde g(X) é qualquer função que mapeia um valor da v.a. X em um único valor da v.a. Y. Encontramos a FDP de Y utilizando a expressão: onde |g’(X)| é o módulo da derivada de g(X) e g −1 (y) é a função inversa de y, ou seja, é simplesmente a função g(X) reescrita de tal forma que a variável x fique isolada. Por exemplo, se y = g(x) = ax + b, g −1 (y) = x = (y – b)/a. Transformação de FDPs de segunda ordem Quando o problema de transformação envolve duas variáveis aleatórias, respeitada a condição acima, ou seja, um par de valores das variáveis U e V têm somente um par de valores correspondentes das variáveis X e Y, e vice-versa, utilizamos as expressões a seguir: onde J( . ) é denominado Jacobiano da transformação e é dado pelo determinante: Apenas para relembrar, o determinante de uma matriz 2 × 2 é calculado da seguinte maneira: a b ad bc c d = − FIM DA AULA 42 Aula nº Data Tema Exercícios de fixação Conteúdo Exercícios de fixação sobre variáveis aleatórias. Objetivos Permitir que os alunos revisitem os conceitos teóricos e conheçam exemplos de aplicação destes conceitos na solução de problemas. 1) O tempo de espera, X, para transmissão em um sistema de comunicação varia segundo um comportamento exponencial parametrizado por λ, isto é P[X > x] = e -λx , x > 0. Encontre a FDC de X. Encontre P[T < X ≤ 2T] para T = 1/λ. Solução no slide 14 2) O tempo de espera X de um usuário em um sistema de filas é zero se ele encontra o sistema livre e é exponencialmente distribuído se ele encontra o sistema ocupado. As probabilidades de ele encontrar o sistema livre ou ocupado são p e (1 – p), respectivamente. Encontre a FDC de X. Solução no Slide 16 3) Um sistema de comunicação transmite informação binária através de um canal que introduz erros aleatoriamente distribuídos com probabilidade e = 10 −3 . O transmissor transmite cada bit de informação três vezes (código de repetição) e o receptor decide sobre o bit transmitido com base em uma lógica majoritária. Qual seria a probabilidade do receptor errar a decisão? Solução no Slide 24 4) As solicitações de chamadas em ligações telefônicas chegam à central de comutação numa taxa de λ solicitações por segundo. Sabendo que o número de solicitações em um determinado intervalo é uma variável de Poisson, encontre a probabilidade de não haver solicitações de chamadas em um intervalo de t segundos. Encontre também a probabilidade de haver n ou mais solicitações nesse intervalo. Solução no Slide 27 5) O número de acessos a uma página da Internet em qualquer intervalo de observação é uma v.a. de Poisson. Suponha que a página do Inatel recebe em média 2 acessos por segundo. Pede-se: a) Qual a probabilidade de não haver nenhum acesso no intervalo de 0,25 segundos? b) Qual a probabilidade de haver não mais que 2 acessos no intervalo de 1 segundo? Solução a Seja N(T) o número de acessos em T segundos. Para T = 0,25 s , α = λT = 2 acessos/segundo × 0,25 segundo = 0,5 acessos. P[N(0,25) = 0] = 0 0,5 0, 5 (0) 0, 607 0! X p e − = = Solução b Para T = 1 s , α = λT = 2 acessos/segundo × 1 segundo = 2 acessos. P[N(1) ≤ 2] = 0 1 2 2 2 2 2 0 2 2 2 ( ) 0, 677 0! 1! 2! X x p x e e e − − − = = + + = ∑ 43 6) Usando a aproximação da distribuição Binomial com a distribuição de Poisson, resolva: a probabilidade de erro de bit em um sistema de comunicação é de 10 −3 . Encontre a probabilidade de um bloco de 1.000 bits ter 5 ou mais bits em erro. Solução Neste caso temos um típico exemplo onde a distribuição Binomial parece ser aplicável, pois queremos encontrar a probabilidade de ocorrência de um determinado número de sucessos (erros de bit), x, em um número n de eventos de Bernoulli. Entretanto, no cálculo com a distribuição Binomial há o coeficiente binomial que requer que n! seja determinado. Neste exercício, como n = 1.000, o cálculo exato seria impraticável. Em situações como esta podemos aproximar a distribuição Binomial pela distribuição de Poisson, quando, adicionalmente, p tem valor pequeno. Para calcularmos P[X ≥ 5] torna-se mais fácil calcular 1 – P[X < 5]: O parâmetro α é, neste caso, o número médio de bits em erro em um bloco de 1.000 bits. Portanto, α = np = 1.000×10 −3 = 1. Então, 7) O tempo de vida X de uma máquina tem distribuição exponencial. Determine a FDC e a FDP condicionadas ao evento A = {X > t}, ou seja, a máquina ainda se encontra em funcionamento no instante t. Solução parcial no Slide 44. Dica para encontrar o intervalo de interseção: ver notas da aula 17. Para a solução deste problema precisamos lembrar, do Capítulo 1, que: P[A|B] = P[A,B]/P[B] = P[A∩B]/P[B]. Assim podemos escrever: [ ] [ ] { },{ } { } { } ( | ) [ | ] [ ] [ ] X P X x X t P X x X t F x X t P X x X t P X t P X t ≤ > ≤ ∩ > > = ≤ > = = > > Para determinarmos a interseção contida na expressão acima vamos utilizar a figura a seguir, de onde percebemos que não haverá interseção enquanto x ≤ t. Então, [ ] { } { } P X x X t ≤ ∩ > = 0 para x ≤ t. Para x > t temos que calcular P[t < X < x] = F X (x) – F X (t). Então teremos: 0, ( | ) ( ) ( ) , 1 ( ) X X X X x t F x X t F x F t x t F t ≤ ¦ ¦ > = − ´ > ¦ − ¹ 44 Finalmente, derivando a FDC encontraremos a FDP de X: ( ) 1 ( ) ( ) ( ) ( ) ( ) 1 ( ) 1 ( ) X X X X X X X d d f x f x F x F x F t dx F t dx F t = = − = − − para x > t e f X (x) = 0 em caso contrário. 8) Usando o resultado do exercício anterior, estime de forma aproximada a probabilidade de o tempo de vida da máquina estar entre 2,5 a 3 unidades de tempo, conhecendo ou não se conhecendo o dado adicional: a máquina está em funcionamento em t = 2. Solução A seguir temos as FDPs e FDCs referentes ao problema. Ambas foram plotadas de acordo com a distribuição exponencial em sua versão original e em sua versão condicionada, de acordo com o exercício anterior. Podemos calcular P[2,5 ≤ X ≤ 3] pela área sob as FDPs ou por meio da subtração dos valores das FDCs nos pontos 3 e 2,5, como ilustrado nas figuras. Curiosamente P[2,5 ≤ X ≤ 3 | X > 2] é maior que P[2,5 ≤ X ≤ 3]. Este resultado nos diz que o fato de conhecermos a situação de funcionamento da máquina no instante t = 2 eleva a expectativa de que a máquina esteja funcionando entre 2,5 e 3 unidades de tempo. Por outro lado, se estivéssemos interessados na probabilidade da máquina estar funcionando num intervalo de 0,5 unidades de tempo após o instante 0 e após o instante 2, tendo notado que a máquina ainda não apresentou falha até o instante 2, chegaríamos aos mesmos resultados. 45 Estes exemplos nos mostram que uma v.a. com distribuição Exponencial não tem memória sobre as ocorrências do passado, ou seja, enquanto o evento de interesse não ocorrer, a probabilidade de ocorrência futura deste evento é a mesma que aquela que seria calculada considerando-se o instante 0 como referência. Por esta razão a v.a. com distribuição Exponencial é dita sem memória. Perceba que temos a mesma denominação dada á variável com distribuição Geométrica, o que faz sentido, pois podemos dizer que a Geométrica é a versão discreta da Exponencial. Outros exercícios para casa 1) Estude o Exemplo 1.12 na página 15 da apostila e, por indução, a partir dos resultados P[k = 0], P[k = 1], P[k = 2] e P[k = 3], comprove a validade da expressão para a função densidade de probabilidade da distribuição Binomial apresentada no slide 23 do Capítulo 2. 2) Sabendo que a estatura dos alunos do Inatel segue uma distribuição Gaussiana de média 1,65 m e desvio padrão de 0,1 m, determine a probabilidade de um estudante escolhido aleatoriamente ter estatura maior ou igual a 1,90 m. 3) Esboce, utilizando uma FDP Gaussiana f X (x), os significados dos cálculos realizados pelas funções erfc(u), Φ(u) e Q(u) em termos de área sob f X (x). 4) Dada a FDP conjunta abaixo, onde X e Y são v.a. contínuas independentes, determine f X (x). Dica: para resolver a integral que faz parte da solução do problema, reescreva-a utilizando a última diretiva do Apêndice A.5 da apostila, página 236. 2 2 2 2 1 ( ) ( ) ( , ) exp 2 2 X Y XY x y f x y µ µ πσ σ ( − + − = − ( ¸ ¸ 5) Duas linhas de produção fabricam certo tipo de peça. A capacidade de produção em qualquer dia é de 5 peças na linha I e de 3 peças na linha II. O número de peças realmente produzido em cada dia pelas duas linhas é uma v.a., onde (X,Y) representa o número de peças produzidas pela linha I e pela linha II, conjuntamente. A tabela a seguir fornece a distribuição de probabilidades conjunta de (X,Y). Calcule as probabilidades marginais e esboce as correspondentes FMPs. A título de curiosidade, veja como ficaria a FMP conjunta para o problema em questão: 46 6) As v.a. X e Y têm FDP conjunta dada pela expressão a seguir. Pede-se: a) determine as FDPs marginais de X e de Y. b) com base nos resultados obtidos, responda: as v.a. em questão são independentes? Justifique. Dica: utilize como auxílio a 4ª diretiva de integrais indefinidas do Apêndice A.4 da apostila, página 235. ( ) , 0, 0 ( , ) 0, caso contrário x y XY e x y f x y λ µ λµ − + ¦ ≥ ≥ = ´ ¹ 7) Seja X uma v.a Gaussiana com FDP dada pela expressão abaixo. Pede-se: a) determine a FDP de Y = aX + b. b) a partir do resultado obtido, determine µ Y e σ Y por comparação com a expressão de f X (x). 2 2 1 ( ) ( ) exp 2 2 X X X X x f x µ σ πσ ( − = − ( ¸ ¸ 8) As variáveis aleatórias R e Θ têm a FDP conjunta dada a seguir. Utilizando as relações entre as variáveis X, Y, R e Θ também dadas abaixo, determine a FDP conjunta de X e Y, pede-se: a) determine as FDPs marginais de X e de Y. b) responda: X e Y são ou não são v.a. independentes? Justifique. 2 2 2 ( , ) exp 2 2 R r r f r θ πσ σ Θ ( = − ( ¸ ¸ ( ) 2 2 arctan / cos R X Y Y X X R = + Θ = = Θ 9) Seja X uma v.a. Gaussiana com FDP dada pela expressão abaixo e seja Y = (X – µ)/σ. Mostre que f Y (y) é uma v.a. Gaussiana de média 0 e desvio padrão 1. 2 2 2 1 ( ) ( ) exp 2 2 X x f x µ σ πσ ( − = − ( ¸ ¸ 10) Para melhor fixar os conceitos, refaça os exemplos da apostila e dos slides, referentes aos assuntos estudados no Capítulo 2. FIM DA AULA 47 Aula nº Data Tema Médias estatísticas - 1 Conteúdo Médias Estatísticas de Variáveis Aleatórias: média de variáveis aleatórias discretas e contínuas, média de funções de variáveis aleatórias, média da soma e do produto de variáveis aleatórias, momentos. Objetivos Ao final da aula os alunos deverão ser capazes de: 1) conceituar o significado de média de uma v.a. discreta ou contínua. 2) calcular a média para v.a. discretas ou contínuas. 3) calcular a média da soma e do produto de v.a. discretas ou contínuas. 4) calcular os momentos de ordem n de uma v.a. discreta ou contínua. 5) interpretar os momentos de 1ª e 2ª ordens para v.a. de tensão ou de corrente. 6) aplicar os conceitos acima em cálculos de probabilidade. Conceito de média de uma variável aleatória A importância deste conceito reside no fato de que um determinado experimento aleatório não permite que conheçamos um resultado futuro qualquer, mas, se conhecemos algum comportamento de tendência média referente a este experimento é melhor que não conhecer nada. Em outras palavras, fenômenos aleatórios não permitem que tenhamos conhecimento preciso sobre um valor futuro, mas, felizmente, permite que tenhamos um conhecimento sobre seu comportamento médio. Seja uma v.a. X que pode assumir K valores x 1 , ..., x K . Suponha que o experimento foi repetido N vezes, sendo m 1 , ..., m K o número de tentativas favoráveis aos resultados x 1 , ..., x K , respectivamente. Então o valor médio de X é dado por: ( ) 1 2 1 1 2 2 1 2 1 K K K K m m m X m x m x m x x x x N N N N = + + + = + + + ⋯ ⋯ No limite, quando N → ∞, m i /N tende à probabilidade de ocorrer x i . Portanto tem-se: 1 ( ) K i X i i X x p x = = ∑ O valor médio de uma v.a. é muitas vezes denominado de valor esperado e é representado pelo operador E[X], onde se lê: média de X, valor esperado de X, ou ainda esperança de X. A letra grega µ µµ µ (mu) também é muito utilizada para identificar a média de uma variável aleatória. A média indica, em grande parte dos casos, a região da FDP ou da FMP com valores mais prováveis para a v.a. em questão. Excluem-se desta interpretação as variáveis aleatórias com distribuição uniforme e outras cuja densidade ou a função massa de probabilidade não sejam maiores em torno da média. Exemplo – Usando o histograma a seguir, estime o valor médio da v.a. Binomial X com parâmetros n = 10 e p = 0,2. Compare com o cálculo exato de E[X], lembrando que a FMP Binomial é dada por: ( ) (1 ) x n x X n p x p p x − | | = − | \ ¹ 48 Realizando o cálculo aproximado teremos: 0 11.000 1 27.000 2 31.000 3 20.000 1 [ ] 4 8.000 5 2.500 6 200 0 0 0 0 100.000 [ ] 1, 947 E X E X × + × + × + × | | ≅ | + × + × + × + + + + \ ¹ ≅ Realizando o cálculo exato a partir da FMP Binominal teremos: 10 10 10 0 0 10 [ ] ( ) 0, 2 0,8 2 x x x x E X xp x x x − = = | | = = = | \ ¹ ∑ ∑ Como conclusão, observamos que o cálculo por meio do histograma se aproximou muito do cálculo exato da média da v.a. Binomial em questão. Exemplo – Sendo x 1 correspondente ao valor 1 da v.a. Binomial, ou seja x 1 = 1, calcule a probabilidade P[X = x 1 ] e compare com o valor m 1 /N estimado a partir do histograma do exemplo anterior. Realizando o cálculo aproximado pela definição de probabilidade por freqüência relativa, teremos: 27.000 [ 1] 0, 27 100.000 P X = ≅ = . Realizando o cálculo exato a partir da FMP Binomial teremos: 1 10 1 10 [ 1] 0, 2 0,8 0, 268 1 P X − | | = = = | \ ¹ Mais uma vez observamos a similaridade entre os resultados obtidos por meio do cálculo aproximado e do cálculo teórico. 49 Média de uma variável aleatória discreta e de uma função de uma v.a. discreta Os exemplos anteriores são, nitidamente, exemplos associados a v.a. discretas. Então podemos formalizar os resultados obtidos afirmando que a média de uma v.a. discreta qualquer pode ser calculada por: 1 [ ] ( ) K i X i i X E X x p x = = = ∑ Se a variável em questão é função de uma outra variável, ou seja, se Y = g(X), á média é calculada por meio de: Média de uma variável aleatória contínua e de uma função de uma v.a. contínua [ ] ( ) X X E X x f x ∞ −∞ = = ∫ Se a variável em questão é função de uma outra variável, ou seja, se Y = g(X), á média é calculada por meio de: x Exemplo – Calcular a média de uma v.a. contínua com distribuição Uniforme entre –q/2+µ e +q/2+µ. Média da soma de variáveis aleatórias A média da soma de variáveis aleatórias é igual à soma das médias individuais. Para duas v.a. teremos: 50 [ ] [ ] [ ] E X Y E X E Y + = + Exemplo – Sejam dois conjuntos de blocos de madeira. A altura dos blocos do primeiro conjunto é uma v.a. X e a altura dos blocos do segundo conjunto é uma v.a. Y, cujas médias são E[X] e E[Y]. Suponha agora que colocamos, um a um, os blocos do segundo conjunto sobre os blocos do primeiro. A altura dos blocos compostos será uma v.a. Z = X + Y, cuja média será, obviamente, E[Z] = E[X + Y] = E[X] + E[Y]. Média do produto de variáveis aleatórias independentes Se as v.a. são independentes, a média do produto destas variáveis é igual ao produto das médias individuais. Para duas variáveis teremos: [ ] [ ] [ ] E XY E X E Y = Exemplo – Suponha que o seguinte jogo seja inventado: lança-se uma moeda 3 vezes por rodada, definindo-se a v.a. X como sendo o número de caras obtido a cada rodada. Os possíveis valores desta v.a. serão x i = 0, 1, 2 e 3. Faz-se a mesma coisa com outra moeda, agora associada à v.a. Y. Ganha o jogo quem acertar o número de caras do evento combinado W = XY. Para aumentar suas chances de ganhar você poderia apostar no valor E[XY]. Então vejamos: calcule este valor para: a) moedas justas e b) moedas com probabilidade de cara p = 0,4. c) interprete os resultados e a influência da probabilidade de cara ou coroa de cada moeda na sua aposta. Nitidamente as v.a. em questão são independentes, pois o lance de uma moeda não influencia o lance da outra. Então, E[XY] = E[X]E[Y]. Adicionalmente, percebemos que cada v.a. conta o número de sucessos (caras) em n = 3 experimentos de Bernoulli. Portanto, X e Y são v.a. Binomiais. Assim teremos: a) Obviamente E[Y] terá o mesmo valor. Então E[W] = E[X]E[Y] = 2,25 b) Para este caso, [W] = E[X]E[Y] = 1,44 51 c) Observe que os valores das médias individuais e da média de W não são números inteiros, ou seja, neste caso as médias não representam os valores mais prováveis, dado que não é possível que o número de caras seja 1.5, 2.25, 1.2 ou 1.44. Para uma análise mais aprofundada, em sendo independentes os eventos em questão, a densidade de probabilidade conjunta é o produto das densidades individuais. Para o problema teremos o produto de duas Binomiais com n = 3 e p = 0,5 para o item “a” e n = 3 e p = 0,4 para o item “b”. A seguir têm-se as distribuições de probabilidade p XY (x,y), para x = 0, 1, 2 e 3 e y = 0, 1, 2 e 3. Observe que para p = 0,5 os valores mais prováveis são 1 e 2, tanto para X quanto para Y. Portanto, apostar nos resultados 1, 2 ou 4 para o produto você teria a mesma chance de ganhar. Observe agora que para p = 0,4 os valores mais prováveis são 1 para X e para Y. Portanto, apostar no resultado 1 para o produto aumentará sua chance de ganhar. p = 0,5 p = 0,4 Como complemento, veja as correspondentes FMPs. As barras de maior amplitude (em vermelho) indicam os valores mais prováveis para o experimento. p = 0,5 p = 0,4 Momentos para uma variável aleatória A média de uma v.a. não tem somente o significado estudado até aqui. Se modificarmos uma v.a., por exemplo elevando-a a um expoente inteiro, definimos um outro tipo de média cujo significado físico dependerá da natureza da v.a. em questão. Médias calculadas desta maneira são genericamente 52 denominadas de momentos. Mais adiante veremos alguns significados físicos de interesse para o nosso curso, quando as v.a. sob análise são obtidas a partir de sinais aleatórios de tensão ou de corrente. O n-ésimo momento de uma v.a. X é definido como o valor esperado da n-ésima potência de X: [ ] ( ) n n X E X x f x dx ∞ −∞ = ∫ O n-ésimo momento central de uma v.a. X é seu momento ao redor de seu valor médio m, e é dado por: [( ) ] ( ) ( ) n n X E X X x X f x dx ∞ −∞ − = − ∫ O segundo momento central de uma v.a. X é chamado de variância e é calculado por meio de: 2 2 2 var[ ] [( ) ] ( ) ( ) X X X E X X x X f x dx σ ∞ −∞ = − = = − ∫ Observe que o cálculo do valor esperado de uma v.a. contínua corresponde à integral do produto da sua FDP pelo argumento A do operador E(A), substituindo as v.a. em letra maiúscula pela variável minúscula correspondente. Para v.a. discreta faz-se observação análoga. Vamos agora expandir a expressão de definição da variância: ( ) [ ] [ ] [ ] 2 2 2 2 2 2 2 2 [ ] 2 [ ] [ ] 2 [ ] X E X E X E X XE X E X E X E X E X E E X E X E X σ ( ( = − = − + ¸ ¸ ¸ ¸ ( ( ( = − + = − ¸ ¸ ¸ ¸ ¸ ¸ De onde tiramos o importante resultado: 2 2 2 [ ] [ ] X E X E X σ = − Exemplo – Usando o resultado anterior vamos determinar a variância de uma variável aleatória Gaussiana. Encontraremos como resultado: [ ] ( ) 2 2 2 2 2 2 var( ) X E X E X σ µ µ σ ( = − = + − = ¸ ¸ . Propriedades da variância A variância de uma constante é nula: se X = a sempre, var[X] = var[a] = 0. A variância independe da média: Se Y = X + b, var[Y] = var[X] + var[b] = var[X]. Se Y = aX, var[Y] = a 2 var[X]. 53 Alguns significados físicos para os momentos Considere um sinal aleatório de tensão ou corrente X(t) e suas possíveis realizações X(t,ζ 1 )... X(t,ζ 4 ), conforme ilustração a seguir. Se amostrarmos este conjunto de formas de onda em t 1 e t 2 , o conjunto de amostras comporá as variáveis aleatórias X(t 1 ), ou simplesmente X 1 e X(t 2 ), ou simplesmente X 2 , com valores x 1 e x 2 . Suponha adicionalmente que as características estatísticas de X 1 e X 2 não dependem dos valores específicos de t 1 e t 2 , mas dependem somente do intervalo t 2 − t 1 . Poderemos ter os seguintes significados físicos envolvendo X, se o sinal amostrado for um sinal aleatório de tensão: FIM DA AULA 54 Aula nº Data Tema Médias estatísticas - 2 Conteúdo Médias Estatísticas de Variáveis Aleatórias – continuação: momentos conjuntos, variáveis aleatórias descorrelacionadas, ortogonais e independentes, coeficiente de correlação. Objetivos Ao final da aula os alunos deverão ser capazes de: 1) conceituar momentos conjuntos, especialmente o primeiro momento conjunto (correlação) e o primeiro momento conjunto central (covariância). 2) realizar, na prática, estimativas de um momento qualquer a partir de amostras. 3) conceituar o significado do coeficiente de correlação, calcular seu valor e interpretar o resultado. 4) conceituar o significado de variáveis aleatórias descorrelacionadas, ortogonais e independentes. Momentos conjuntos Os momentos conjuntos para um par de variáveis aleatórias são definidos por: Os momentos conjuntos centralizados (desconsiderando-se as médias) são definidos por: Como estimar na prática os momentos de uma variável aleatória Em grande parte dos problemas práticos não temos conhecimento prévio das densidades de probabilidade das variáveis aleatórias envolvidas, o que nos impede de realizar os cálculos exatos dos momentos de interesse. Ainda assim, se tivermos um número suficientemente grande de amostras das v.a. sob análise podemos estimar seus momentos e, utilizando histogramas, estimar até suas densidades de probabilidade para que cálculos futuros ou a comprovação das estimativas possam ser realizados. Pois bem, inicialmente perceba que todos os momentos estudados têm em sua definição um cálculo de valor esperado do tipo E[Y] = E[g(X)]. Recorde agora que o valor esperado nada mais é do que a média da v.a. definida segundo o argumento g(X). Então, se tivermos uma grande quantidade de amostras da v.a. original X, podemos aplicar a eles a transformação dada por g(X) e tentar realizar um cálculo tão próximo quanto possível de: 1 1 1 1 [ ] [ ( )] lim lim ( ) N N i i N N i i E Y E g X y g x N N →∞ →∞ = = = = = ∑ ∑ Exemplo – Vamos estimar alguns momentos para uma v.a. X para a qual foram obtidas as amostras x i , i = 1, 2... 100, mostradas no quadro a seguir. Suponha que tais amostras foram obtidas a partir da medida da estatura de 100 alunos do Inatel. 55 Média = primeiro momento: 100 1 1 [ ] 1, 663 100 X i i E X x µ = = ≅ = ∑ Valor quadrático médio = segundo momento: 100 2 2 1 1 [ ] ( ) 2, 773 100 i i E X x = ≅ = ∑ Variância = segundo momento central: 100 2 2 3 1 1 [( ) ] var[ ] ( ) 7, 255 10 100 X i X i E X X x µ µ − = − = ≅ − = × ∑ Desvio padrão = raiz quadrada da variância: 3 var[ ] 7, 255 10 0, 085 X X σ − = = × ≅ Cálculo alternativo da variância: 2 2 2 2 [ ] [ ] 2, 773 1, 663 X E X E X σ = − = − = 3 7, 255 10 − × 1.729 1.753 1.662 1.738 1.638 1.785 1.705 1.674 1.575 1.671 1.623 1.671 1.718 1.520 1.676 1.687 1.834 1.696 1.758 1.596 1.569 1.589 1.722 1.631 1.673 1.585 1.708 1.744 1.628 1.628 1.736 1.536 1.813 1.520 1.655 1.677 1.817 1.565 1.689 1.784 1.752 1.612 1.671 1.627 1.794 1.672 1.662 1.651 1.701 1.646 1.744 1.688 1.532 1.572 1.740 1.561 1.787 1.664 1.618 1.717 1.629 1.660 1.629 1.659 1.599 1.692 1.915 1.635 1.786 1.540 1.691 1.623 1.587 1.680 1.577 1.654 1.608 1.620 1.764 1.557 1.693 1.638 1.672 1.799 1.830 1.555 1.579 1.640 1.543 1.640 1.750 1.559 1.476 1.775 1.444 1.561 1.631 1.606 1.753 1.676 Abaixo se tem o histograma para a v.a. em questão e uma função densidade de probabilidade gaussiana sobreposta. Embora possamos supor que tal v.a. tem distribuição Gaussiana, apenas um número bastante elevado de amostras permitiria que o histograma convergisse, em formato, para a FDP procurada. Talvez chegássemos à conclusão que tal v.a. não é Gaussiana... Correlação entre variáveis aleatórias A correlação entre duas v.a. é dada pelo primeiro momento conjunto destas variáveis, ou seja: 56 A correlação entre duas variáveis aleatórias oferece uma informação sobre a tendência de uma variável em função da tendência de outra. Por exemplo, se o valor de uma v.a. cresce, o valor da outra tem grande chance de crescer se a correlação entre tais variáveis for elevada. Covariância entre variáveis aleatórias A covariância entre duas v.a. é dada pelo primeiro momento central conjunto destas variáveis, ou seja: A covariância tem o mesmo significado da correlação, mas elimina a influência da média destas variáveis nos cálculo. Por esta razão pode nos dar uma informação mais precisa sobre a tendência de uma v.a. em relação à outra, o que poderia ser “camuflado” pelo cálculo de correlação se as v.a. envolvidas tiverem médias elevadas. Coeficiente de correlação entre variáveis aleatórias O grau de correlação entre duas variáveis aleatórias X e Y pode ser medido pelo coeficiente de correlação: XY XY X Y K ρ σ σ = Sua faixa de valores vai de –1 a +1. Uma interpretação para este coeficiente sugere que ele nos oferece uma medida da quantidade de informação que ganhamos sobre Y ao observar X e vice-versa. Por exemplo, ρ XY > 0 sugere que se X tem valor elevado em relação à sua média, Y também terá. Quando X é baixo é provável que Y também o seja. Quando ρ XY < 0 temos o comportamento inverso, ou seja, se X tem valor alto em relação à sua média, Y terá valor baixo e vice-versa. Exemplo – preço da saca de café e a cotação da Bolsa de New York: suponha que queiramos investigar a influência da cotação da Bolsa de New York (v.a. X) no preço da saca de café (v.a. Y) aqui no Brasil na semana seguinte. Para resolvermos este problema devemos ter, obviamente, um histórico que mostre como a Bolsa e o preço da saca variaram num período passado tão grande quanto possível. Suponhamos que as variações observadas em 10 semanas tenham o aspecto ilustrado a seguir: 57 Por observação percebemos que não há grande influência da cotação de um no preço do outro. Se utilizarmos o cálculo de correlação entre as correspondentes v.a. poderemos ter a informação falsa de que as cotações são correlacionadas, pois os valores médios de ambas as v.a. são elevados, o que possivelmente elevará o valor estimado para a correlação. Entretanto, se utilizarmos o coeficiente de correlação, que depende da covariância (correlação entre as v.a. sem levar em conta as médias), teremos a informação precisa sobre a correlação que queremos conhecer. Para o gráfico exemplificado, é bem provável que tenhamos um valor baixo para ρ XY . Variáveis aleatórias descorrelacionadas Duas variáveis aleatórias são ditas descorrelacionadas se sua covariância ou seu coeficiente de correlação são nulos. Neste caso a correlação entre tais variáveis pode ser calculada pelo produto das suas médias. Variáveis aleatórias descorrelacionadas ⇒ K XY = 0 ⇒ E[XY] = E[X]E[Y] Variáveis aleatórias ortogonais Duas variáveis aleatórias são ditas ortogonais se sua correlação é nula. Observando a expressão do cálculo da covariância percebemos que para que a correlação seja nula a covariância deve ser nula (devem ser descorrelacionadas) e a média de uma das v.a. ou de ambas deve ser nula. Variáveis aleatórias ortogonais ⇒ E[XY] = 0 ⇒ K XY = 0 e uma ou as duas médias nula Variáveis aleatórias independentes Recordando, duas ou mais variáveis aleatórias são ditas independentes se a FDP ou a FDC conjuntas puder ser calculada pelos produtos das FDPs ou FDCs de cada uma das v.a. envolvidas: Variáveis aleatórias independentes ⇒ F XY (x,y) = F X (x)F Y (y), f XY (x,y) = f X (x)f Y (y) Adicionalmente teremos: E[XY] = E[X]E[Y] K XY = 0 var[X + Y] = var[X] + var[Y] E[X | Y = y] = E[X] e E[Y | X = x] = E[Y] -------------------------------------------------------------------------------------------------------------- FIM DA AULA 58 Aula nº Data Tema Médias estatísticas - 3 Conteúdo Médias Estatísticas de Variáveis Aleatórias – Função característica para variáveis aleatórias e para a soma de variáveis aleatórias independentes. Objetivos Ao final da aula os alunos deverão ser capazes de: 1) determinar a aplicação da função característica de uma variável aleatória. 2) determinar a aplicação da função característica da soma de v.a. independentes. 3) realizar cálculos de momentos de uma v.a. a partir da função característica. Função Característica para variáveis aleatórias O cálculo de momentos na forma direta, como definido anteriormente, às vezes é bastante complexo e em certos casos intratável matematicamente. Nestes casos tem-se como opção o uso da função característica. Conceitualmente, operar com a função característica é análogo a operar no domínio da freqüência quando os cálculos no domínio do tempo são complexos ou intratáveis. A função característica de uma variável aleatória X é definida como a média estatística: ( ) [ ] ( ) j X j x X j E e e f x dx ω ω ψ ω ∞ −∞ ≡ ∫ ≜ Pode-se ver a função característica como uma “transformada de Fourier” da FDP da v.a. em questão. Portanto é possível obter a FDP a partir da função característica, usando a transformada inversa: 1 ( ) ( ) 2 j x X f x e j d ω ψ ω ω π ∞ − −∞ = ∫ A grande aplicação da função característica consiste no fato de se observar que a sua derivada n-ésima avaliada no ponto ω = 0 fornece o n-ésimo momento da v.a. X, o que leva ao chamado Teorema do Momento: 0 ( ) [ ] ( ) n n n n d j E X j d ω ψ ω ω = = − Portanto podemos usar a função característica para determinar os momentos de uma v.a. quando o cálculo destes momentos a partir da definição for mais complicado. Exemplo – Vamos determinar a média e a variância de uma v.a. Exponencial cuja FDP é dada a seguir. Use o conceito de função característica. , 0 ( ) 0 , 0 x X e x f x x λ λ − ¦ ≥ = ´ < ¹ ( ) ( ) 0 0 0 ( ) [ ] ( ) j X j x x j x j x j x X j E e e f x dx e e dx e dx e j j ω ω λ ω λ ω λ ω λ λ ψ ω λ λ λ ω λ ω ∞ ∞ ∞ ∞ − − − − − −∞ ( ≡ = = = = − = ¸ ¸ − − ∫ ∫ ∫ 59 [ ] 2 0 0 0 /( ) ( ) 1 [ ] ( ) [ ] ( ) n n n n d j d j j E X j E X j j d d j ω ω ω λ λ ω ψ ω λ ω ω λ ω λ = = = − ( = − ⇒ = − = − = ( − ¸ ¸ [ ] 2 2 2 2 2 3 2 0 0 2 2 2 2 2 /( ) 2 2 [ ] ( ) ( ) ( ) 2 1 1 Var[ ] [ ] [ ] d j E X j j d j X E X E X ω ω λ λ ω λ ω λ ω λ λ λ λ = = − ( − = − = − = ( − ¸ ¸ = − = − = Como exercício, refaça os cálculos por meio dos conceitos de média e de variância e compare os resultados com aqueles obtidos via função característica. Função Característica para a soma de v.a. independentes Em muitos problemas práticos estamos interessados em analisar o resultado da soma de v.a. independentes. Mais uma vez a função característica se mostra ser uma ferramenta bastante útil à simplificação dos cálculos. Sejam as variáveis aleatórias X i , i = 1, 2, ..., n, independentes entre si e seja Y formada a partir da soma destas v.a.: 1 n i i Y X = = ∑ A função característica para este caso é dada pelo produto das funções características de cada uma das variáveis X i , ou seja: 1 ( ) ( ) i n Y X i j j ω ω = Ψ = Ψ ∏ Função Característica para a soma de v.a. independentes e identicamente distribuídas (i.i.d.) Adicionalmente, se as. v.a. em questão forem identicamente distribuídas, a função característica da soma destas v.a. é igual à n-ésima potência da função característica de uma delas: [ ] ( ) ( ) n Y X j j ω ω Ψ = Ψ Então, para determinarmos a FDP da soma de v.a. i.i.d. basta fazer a transformada inversa do resultado obtido a partir da expressão anterior. Caso tomássemos o caminho de calcular a FDP diretamente, teríamos que fazer n convoluções entre as FDPs de cada uma das v.a. X i , o que poderá ser bem mais complexo. ---------------------------------------------------------------------------------------------------------------------------- FIM DA AULA 60 Aula nº Data Tema Exercícios de fixação Conteúdo Exercícios de fixação sobre médias estatísticas de variáveis aleatórias. Objetivos Permitir que os alunos revisitem os conceitos teóricos e conheçam exemplos de aplicação destes conceitos na solução de problemas. 1) Calcule, usando as correspondentes definições, a média e a variância para a v.a. X que tem FDP: 2 1 ( ) exp 1 4 4 X x f x x π ( = − + − ( ¸ ¸ Como exercício para casa, calcule a variância para a v.a. X. Dica: use 2 2 Var[ ] [ ] [ ] X E X E X = − . ---------------------------------------------------------------------------------------------------------------------------- 2) Sabe-se que o erro de quantização uniforme entre um sinal de voz (por exemplo) e o sinal quantizado tem distribuição Uniforme entre –q/2 e +q/2, onde q é o passo de quantização ou resolução do quantizador. Pede-se calcular e interpretar os resultados solicitados a seguir: a) A variância do ruído de quantização. b) Supondo que o sinal de voz tem distribuição de Laplace com média zero e parâmetro α = 1, determine seu valor quadrático médio. c) Determine a expressão de cálculo da relação sinal-ruído de quantização para esta situação. d) Sabendo que o sinal de voz é limitado em ±v volts, reescreva a expressão encontrada no item 3 em função de v e do número de bits do quantizador, N. e) Para v = 5 V, determine o número de bits do quantizador para que RSR q ≥ 90 dB. O erro de quantização é definido da maneira ilustrada pela figura a seguir: 61 Solução a: Como a média do ruído de quantização é nitidamente nula (se quiser, faça o cálculo para comprovar), a variância assume o significado de potência total média deste ruído, pois, lembrando P AC = P Tot – P DC ou var[X] = E[X 2 ] – E 2 [X]. Solução b: O valor quadrático médio encontrado representa a potência média total de sinal. Solução c: A relação sinal-ruído de quantização será então: RSR q = 2/(q 2 /12) = 24/q 2 . Solução d: Como visto no início do exercício, o passo de quantização é dado por q = 2v/(2 N – 1), onde ±v corresponde aos limites do sinal de voz de entrada do quantizador e N é o número de bits deste quantizador. Veja ilustração a seguir para N = 3 bits. 62 Então a relação sinal-ruído de quantização será RSR q = 24/q 2 = 24/[2v/(2 N – 1)] 2 = ( ) 2 6 2 1 N v ( − ¸ ¸ . Observe que aumentando o número de bits do quantizador (conversor analógico/digital) aumenta-se a RSR q , como esperado. Solução e: Faça como exercício para casa. ---------------------------------------------------------------------------------------------------------------------------- 3) Uma aplicação do uso de médias estatísticas ocorre na análise de jogos de azar. Por exemplo, no jogo de Roleta há 38 resultados igualmente prováveis. Um apostador que aposta em um único número e acerta, recebe 35 vezes o valor da aposta, mais o valor apostado de volta. Calcule o valor médio de lucro resultante da aposta de $1 em um único número. L médio = −$1×(37/38) + $35×(1/38) = −$0,0526 Assim, um apostador espera perder, em média, −$0,0526 a cada $1 apostado. Em outras palavras, na média a “casa” ganha $0,0526 por aposta em um único número. Em jogos de azar, quando o valor esperado do lucro para o apostador é igual a zero (ele não ganha e nem perde, em média), diz-se que o jogo em questão é justo. ---------------------------------------------------------------------------------------------------------------------------- 4) Existem outras médias estatísticas além dos momentos estudados, com aplicações específicas. Faça uma pesquisa e defina os conceitos de MODA e de MEDIANA, citando uma aplicação para cada uma destas médias. ---------------------------------------------------------------------------------------------------------------------------- 5) Determinar a FDP da v.a 1 S i i Y X = = ∑ , onde X i = R i 2 , onde R i tem FDP 2 2 exp , 0 ( ) 0 , 0 i i i i R i i r r r f r r ¦ | | − > ¦ | = Ω Ω ´ \ ¹ ¦ ≤ ¹ e onde X i são variáveis aleatórias independentes e identicamente distribuídas (i.i.d.). Caso queira associar este exercício com uma aplicação em telecomunicações, estude o exemplo apresentado ao final dos slides do Capítulo 3 (slides 27-34). Passos para solução: a) encontre a FDP de X i por transformação da FDP de R i : ( ) | | ( ) | | i i R i i X i i f r dr f x dx = ; b) Encontre a função característica de X, dada por: 63 ( ) ( ) j x X X j e f x dx ω ω ∞ −∞ Ψ = ∫ ; c) Sabendo que as v.a são i.i.d, determine a função característica de Y por meio de: [ ] ( ) 1 ( ) ( ) 1 S Y X S j j j ω ω ω Ψ = Ψ = − Ω ; d) Finalmente, encontre f Y (y) por meio da transformada inversa da função característica, ou seja: ( ) 1 1 ( ) 2 1 j y Y S f y e d j ω ω π ω ∞ − −∞ = − Ω ∫ ---------------------------------------------------------------------------------------------------------------------------- 6) Calcular a média e o valor quadrático médio da v.a. Gaussiana X, cuja FDP é dada por: A resolução deste exercício é bastante similar à resolução do exercício 1 e, por esta razão, ele é deixado proposto para que você o resolva em casa. ---------------------------------------------------------------------------------------------------------------------------- 7) As tabelas a seguir apresentam 100 valores para cada uma de duas variáveis aleatórias: X representa a cotação da saca de café (US Dollar) obtida em 100 dias úteis consecutivos e Y representa a cotação da Bolsa de NY (volume de pontos negociados), também obtida em 100 dias úteis consecutivos. Pede-se: a) Estime a média, a variância, e o 2º momento para as variáveis aleatórias em questão. b) Estime a correlação entre X e Y. c) Estime a covariância entre X e Y. d) Estime o coeficiente de correlação entre X e Y. e) Se você tivesse que tomar decisões sobre vender ou não vender seu estoque de café num determinado dia, poderia tomar a cotação da Bolsa de NY como referência? Justifique. f) Verifique se as v.a. X e Y são ortogonais, descorrelacionadas ou independentes. g) Faça histogramas para X e Y e sugira FDPs para representá-las, não se esquecendo de determinar os parâmetros das FDPs sugeridas. Sugestão: faça os cálculos por computador usando, por exemplo: Excel, Mathcad ou Matlab. Isto facilitará os cálculos, evitará erros e tornará o processo mais rápido. Valores de X 103 100 102 108 99 99 119 98 94 92 98 85 104 85 108 83 86 98 88 88 97 104 115 96 120 109 109 90 109 94 102 95 114 89 97 95 118 98 92 105 98 98 101 88 103 90 107 93 101 90 107 96 85 118 104 112 96 82 92 101 88 125 102 92 96 89 98 105 107 115 88 105 93 111 88 106 106 92 90 102 100 112 108 90 100 101 104 116 95 101 99 91 119 105 99 92 102 99 103 104 64 Valores de Y 64080 50460 51858 39682 48308 52654 52846 57635 53347 51904 44796 53025 66087 50035 51642 45370 51301 51892 47067 42859 46069 45692 49684 45753 50100 51099 53043 45920 46629 57238 51098 46240 52957 41834 50989 50382 50692 55374 56924 42253 44355 57226 48398 46604 52469 55984 52124 65964 48246 49163 44727 41056 50876 48261 52639 50935 60812 51555 49420 54409 43682 50468 48305 46321 51802 44650 45323 55115 46890 51920 52418 48200 50848 45794 43510 52829 48762 54778 40825 47765 57259 45158 49284 50983 49550 49833 53183 45777 52950 46808 51945 50495 45480 43774 59169 55923 55935 45682 48602 50394 Solução: A seguir são apresentados os cálculos solicitados a partir das tabelas fornecidas. Média 1 N 0 N 1 − i X i = ⋅ 99.836 = 1 N 0 N 1 − i Y i = ⋅ 50204 = 2º momento 1 N 0 N 1 − i X i ( ) 2 = ⋅ 1.005 10 4 × = 1 N 0 N 1 − i Y i ( ) 2 = ⋅ 2.546 10 9 × = 1 N 0 N 1 − i X i µ X − ( ) 2 = ⋅ 85.277 = 1 N 0 N 1 − i Y i µ Y − ( ) 2 = ⋅ 2.521 10 7 × = Variância 1 N 0 N 1 − i X i Y i ⋅ = ⋅ 5.012 10 6 × = Correlação Covariância 1 N 0 N 1 − i X i µ X − ( ) Y i µ Y − ( ) ⋅ = ⋅ 105.874 − = Coeficiente de correlação 1 N 0 N 1 − i X i µ X − ( ) Y i µ Y − ( ) ⋅ = ⋅ σ X σ Y ⋅ 0 − = Com relação ao item “e”, como o coeficiente de correlação é nulo significa que não há nenhuma “amarração” estatística entre a cotação do café e a cotação da Bolsa de NY. Em outras palavras, se a cotação da Bolsa subir, não podemos utilizar esta informação com precisão para decidirmos se vamos ou não vamos colocar à venda nosso estoque de café. Adicionalmente, perceba que se utilizarmos a correlação como parâmetro de decisão, diríamos que X e Y têm grande “amarração” estatística, pois o valor encontrado é elevado. Contudo, este valor elevado é conseqüência dos altos valores das médias das v.a. envolvidas e, portanto, a correlação não se presta à decisão em questão. 65 Com relação ao item “f”, como a correlação não é nula as v.a. não são ortogonais. Como a covariância não é nula, podemos dizer que as v.a. são aproximadamente descorrelacionadas, mas esta afirmativa seria mais precisa se analisássemos o coeficiente de correlação, o qual nos diz que as v.a. são descorrelacionadas. Ainda com relação ao item “f”, para determinarmos precisamente se as v.a. são independentes, precisaríamos conhecer a FDC conjunta ou a FDP conjunta e verificar se elas são o resultado da multiplicação das FDCs ou FDPs de cada uma das v.a. Entretanto, podemos supor que tais v.a. são independentes pela natureza até certo ponto independente dos fenômenos que elas representam. Adicionalmente verificaríamos as propriedades: E[XY] = E[X]E[Y] K XY = 0 var[X + Y] = var[X] + var[Y] E[X | Y = y] = E[X] e E[Y | X = x] = E[Y] ---------------------------------------------------------------------------------------------------------------------------- 7) Suponha que cada chamada telefônica para transmissão de voz custe $0,20 e para transmissão de dados custe $0,30. A probabilidade de ocorrência de uma chamada de voz é P[V] = 0,6; para uma chamada de dados P[D] = 0,4. Seja C o custo da chamada. Pede-se: a) Encontra a FMP de C. b) Calcule E[C], o custo médio de uma chamada. Solução a: Solução b: E[C] = $0,20×0,6 + $0,30×0,4 = $0,24 ---------------------------------------------------------------------------------------------------------------------------- 8) Num determinado jogo de “raspadinha”, suponha que a chance de obter uma cartela premiada seja de uma em mil. Suponha ainda que uma pessoa compre uma cartela por dia durante 50 anos. Pede-se: a) Qual o número esperado de cartelas premiadas nestes 50 anos? b) Se cada cartela premiada lhe paga $1.500, qual a sua receita média? c) Se cada cartela custa ao apostador $2, qual o seu lucro esperado? O número de cartelas compradas em 50 anos é de 50×365 = 18.250. Solução a: O evento correspondente a uma cartela estar ou não estar premiada está associado a uma v.a. de Bernoulli com probabilidade de sucesso p = 0,001. Portanto, a variável aleatória correspondente ao número de cartelas premiadas em n = 18.250 é uma v.a. Binomial P com média E[P] = np = 18.250×0,001 = 18,25. Solução b: 66 Seja a v.a. receita R = $1.500×P . Então E[R] = E[$1.500×P] = $1.500×E[P] = $27.375. Solução c: L = R – 18.250×2. Então E[L] = E[R] – 36.500 = − $9.125. Ou seja, sua persistência em apostar, em 50 anos, dará um lucro médio de $9.125 para a casa. ---------------------------------------------------------------------------------------------------------------------------- 9) Refaça os exemplos da apostila referentes à média de variáveis aleatórias e também os exercícios propostos da apostila (1, 2, 5-10, 13, 15, 17-20) e dos livros complementares sugeridos, de acordo com as recomendações registradas no Portal Universitário. ---------------------------------------------------------------------------------------------------------------------------- FIM DA AULA 67 Aula nº Data Tema Geração de números aleatórios Conteúdo Métodos de geração de números aleatórios: Resíduos de potência, Transformada, Rejeição e Box Muller. Objetivos Ao final da aula os alunos deverão ser capazes de implementar os seguintes métodos computacionais para geração de números aleatórios: Método dos Resíduos de potência, Método da Transformada, Método da Rejeição e Método Box Muller. Atividades de pesquisa e desenvolvimento de produtos ou processos da Engenharia demandam, por questões de otimização na utilização dos recursos, que os modelos sistêmicos de tais produtos ou processos sejam simulados por computador. Entretanto, muitas das situações reais de funcionamento destes produtos e processos estão associadas a fenômenos de entrada e/ou saída, ou até mesmo internos, que são inerentemente aleatórios. Daí a necessidade de saber como estes fenômenos podem ser simulados. Nesta aula estudaremos alguns dos métodos mais simples e utilizados para geração de variáveis aleatórias. São eles: Resíduos de potência, Transformada, Rejeição e Box Muller. Para melhor aproveitamento deste estudo, recomenda-se que ele seja efetuado com o auxílio de alguma ferramenta computacional de cálculo, como por exemplo o Mathcad ou o Matlab, ou mesmo o Excel. Método dos Resíduos de Potência Este método é utilizado para gerar números aleatórios com distribuição Uniforme, os quais são, muitas vezes, base para geração de v.a. com outras distribuições. O método opera a partir de fórmulas recursivas como a que segue: 1 mod k k Z Z M α − = onde α é inteiro entre 0 e M, e M é um número primo p ou uma potência inteira de p, ou seja p m . Z 0 é denominado de semente ou valor inicial (seed value) e α determina se o comprimento da seqüência gerada será máximo ou não. Em sendo máximo este período vale M – 1 e a seqüência terá, num perído, todos os valores inteiros entre 1 e M – 1. Por esta razão estas seqüências são denominadas pseudo- aleatórias. Em outras palavras, quando escolhemos um valor de M estamos escolhendo o comprimento da seqüência que queremos gerar. Entretanto, somente alguns valores de α permitirão que o comprimento máximo M – 1 seja conseguido. A operação mod M, que significa módulo M, nada mais é que o resto da divisão em inteiros do resultado da operação realizada, qualquer que seja esta operação, pelo valor de M. Por exemplo: 4×7 mod 5 = resto de 28/5 = 3; 3×4 mod 6 = resto de 12/6 = 0; 2×4 mod 10 = resto de 8/10 = 8; 8/2 mod 6 = resto de 4/6 = 4. ---------------------------------------------------------------------------------------------------------------------------- Exemplo: Vamos encontrar a seqüência gerada para M = 11, α = 7 e Z 0 = 1. Como exercício, escolha um valor diferente de α e verifique se será gerada uma seqüência de comprimento máximo. 68 ---------------------------------------------------------------------------------------------------------------------------- Várias combinações dos parâmetros do método foram estudadas e, dentre as encontradas, a seguinte combinação apresenta bons resultados: M = 2 31 – 1, α = 7 5 . A seqüência gerada tem período igual a 2.147.483.646, valor suficientemente alto para a maior parte das aplicações. Em outras palavras, com este comprimento a seqüência gerada talvez não se repita antes que o experimento simulado termine. É comum necessitarmos de números aleatórios entre 0 e 1. Neste caso, basta dividir os números gerados pelo método dos resíduos pelo valor máximo M – 1. O valor mínimo não será realmente 0, mas quanto mais longa a seqüência, mais o valor mínimo se aproximará de 0. Por exemplo, para a seqüência com M = 2 31 – 1, o máximo valor será 1 e o mínimo será 1/(2 31 – 1), que será praticamente igual a 0. Método da Transformada O método da transformada consiste em se gerar números com distribuição Uniforme, U, entre 0 e 1 e, conhecendo-se a FDC da v.a. X que se deseja gerar, encontrar-se o valor de X responsável por gerar o valor de U. A v.a. X terá a distribuição desejada. Veja a ilustração a seguir. Em resumo tem-se: 69 ---------------------------------------------------------------------------------------------------------------------------- Exemplo: vamos gerar uma v.a. X com distribuição exponencial utilizando o método da transformada. Para a distribuição Exponencial sabemos que F X (x) = 1 – e –λx . Então fazemos: 1 1 1 ln(1 ) ln(1 ) ln(1 ) x u e u x x u X U λ λ λ λ − = − ⇒ − = − ⇒ = − − ⇒ = − − . Em resumo, geramos U e, aplicando 1 ln(1 ) X U λ = − − obtemos a v.a. X desejada, com FDP exponencial. ---------------------------------------------------------------------------------------------------------------------------- Exemplo: como um outro exemplo, vamos agora gerar uma v.a. discreta a partir de uma v.a. Uniforme em (0, 1]. O método da transformação se aplica de forma bastante simples. Vamos criar tantos pontos de comparação quantos sejam os possíveis valores da v.a. desejada e seguir a regra: X = x 0 se U < p(x 0 ) X = x 1 se p(x 0 ) ≤ U < p(x 1 ) X = x 2 se p(x 1 ) ≤ U < p(x 2 ) e assim por diante até X = x n se U ≥ p(x n-1 ) Como exemplo, vamos gerar uma v.a. Binomial com n = 5 e p = 0,5. A FDC e os pontos de comparação são ilustrados na figura a seguir. Como exemplo, a v.a X terá valor 2 para todos os valores da v.a. U entre 0,2 e 0,5 aproximadamente. ---------------------------------------------------------------------------------------------------------------------------- Método da Rejeição Este método é implementado da seguinte maneira: 1 - Gere uma variável aleatória U com distribuição Uniforme em (0, 1]. 2 - Faça X = F −1 (U), onde F −1 (U) é o valor de x quando F X (x) = U . 70 ---------------------------------------------------------------------------------------------------------------------------- Exemplo: vamos gerar uma v.a. que tenha a FDP f U (u) ilustrada na figura a seguir. Nesta figura está também ilustrada uma possível FDP escalonada, Kf X (x), que envolve completamente a FDP desejada. Seguindo os passos citados anteriormente, vamos encontrar uma FDP escalonada que envolva a FDP desejada. Esta FDP pode ser uma Exponencial com λ = 0.45, deslocada de 2 para a direita e multiplicada pela constante K = 3. Como resultado teremos a FDP escalonada ilustrada na figura anterior, dada por Kf X (x) = 3λe –λ(x – 2) . A variável aleatória exponencial correspondente poderá ser gerada pelo método da transformada, como descrito anteriormente, ou seja: 1 ln(1 ) 2 X U λ = − − + , onde U é uma v.a. com distribuição Uniforme, gerada, por exemplo, a partir do método dos resíduos de potência. Assim, o algoritmo a seguir poderá ser utilizado para gerar a v.a. com a distribuição f U (u) desejada: 1 - Configure o número desejado de valores para a v.a. em questão: N 2 - Para i variando de 0 a N – 1: 3 - Gere U entre 0 e 1. 4 - Gere 1 ln(1 ) 2 0.45 X U = − − + . 1 - Escolha uma FDP f X (x) de tal sorte que K f X (x) envolva a FDP desejada f U (u) completamente. 2 - Gere uma variável aleatória X com a FDP f X (x), usando qualquer método. 3 - Calcule o valor B(X) = K f X (X). 4 - Gere uma variável aleatória Y com distribuição Uniforme em (0, B(X)]. 5 - Se Y ≤ f U (X), aceite X como valor válido para a v.a. desejada. Caso contrário rejeite X e retorne ao passo 2. 71 5 - Calcule B(X) = K f X (X). 6 - Gere a v.a. Uniforme Y entre 0 e B(X). 7 - Se Y ≤ f U (X), D i ← X e retorne ao passo 2, caso contrário retorne ao passo 3. 8 - D é o vetor que conterá os valores da v.a. desejada. ---------------------------------------------------------------------------------------------------------------------------- O método da rejeição tem a grande vantagem de gerar uma v.a. com praticamente qualquer FDP, o que o torna bastante versátil. Entretanto, como pode ser observado no algoritmo anterior, ao menos duas v.a. intermediárias deverão ser geradas, o que pode tornar o processo computacionalmente lento para algumas aplicações. Método Box Muller O método de Box Muller pode gerar duas v.a. Gaussianas a partir de duas v.a. Uniformes U 1 e U 2 , no intervalo (0, 1]. Teremos como resultado as v.a. Gaussianas X e Y com médias µ X e µ Y e desvios padrão σ X e σ Y , respectivamente dadas por: 2 1 2 cos(2 ) 2 ln( ) X X X U U π σ µ = − + 2 1 2 cos(2 ) 2 ln( ) Y Y Y U U π σ µ = − + Dada a importância das variáveis aleatórias Gaussianas à representação de grande parte dos fenômenos aleatórios reais e também de vários fenômenos aleatórios encontrados em Telecomunicações, o método Box Muller terá grande aplicação prática. O método em questão é bastante rápido em termos de cálculo, pois envolve operações que são executadas de forma rápida nos computadores de hoje, além de envolver variáveis aleatórias com distribuição Uniforme, as quais podem ser geradas facilmente via método dos resíduos de potência. Exercícios de fixação 1 – Implementar uma rotina no Mathcad ou Matlab, ou um sistema em blocos no VisSim/Comm capaz de gerar uma variável aleatória U com distribuição uniforme no intervalo (0,1], usando o método dos resíduos de potência com semente aleatória (random seed). Faça uma descrição detalhada da sua implementação. 2 – Implementar uma rotina no Mathcad, ou um sistema em blocos no VisSim/Comm, capaz de gerar uma variável aleatória B com distribuição Binomial com parâmetro n = 3 e com parâmetro p configurável. Faça uma descrição detalhada da sua implementação. 3 – Utilizando o método da rejeição, implementar uma rotina no Mathcad capaz de gerar uma variável aleatória X com a distribuição dada abaixo. Faça uma descrição detalhada da sua implementação. 72 1/ 6, 0 1 ( ) 1/ 2, 1 2 1/ 3, 2 3 X x f x x x ≤ < ¦ ¦ = ≤ < ´ ¦ ≤ ≤ ¹ 4 – Utilizando o método da transformada, gere uma seqüência de bits “0” e “1” com P[0] = P[1] = 0,5. 5 – Suponha que você queira simular o funcionamento de um sistema de comunicação digital. Para isto você irá gerar símbolos −1 e +1 que representarão os bits 0 e 1, respectivamente, contaminará estes símbolos com ruído e tomará a decisão sobre o bit recebido. Então fará a comparação do símbolo recebido com o símbolo transmitido, contará os erros e os bits gerados e, por freqüência relativa, estimará a probabilidade de erro de bit. Implemente esta simulação utilizando o algoritmo a seguir. Faça uma descrição detalhada de cada passo, de forma a permitir que você entenda a simulação. 1 – inicialize a variável que determinará quantos erros de bit você aguardará ocorrer: N = 100. 2 – inicialize a variável que determinará a variância de ruído: σ = 1. 3 – inicialize o contador de bits gerados: N b = 0. 4 – inicialize o contador de bit errados: N e = 0. 5 – enquanto N e < N: 6 – gere um valor de uma v.a. U com distribuição Uniforme entre 0 e 1. 7 – se u > 0,5, faça o símbolo s = 1; faça s = −1 caso contrário. Faça N b ← N b + 1. 8 – gere um valor de uma v.a. G com distribuição Gaussiana, média 0 e variância σ 2 . 9 – faça r = s + g. 10 – se r > 0, faça s r = 1; caso contrário faça s r = −1. 11 – se s r ≠ s, faça N e ← N e + 1; caso contrário N e ← N e . 12 – calcule a probabilidade de erro de bit P e = N e /N b . 13 – mostre o valor de P e . 5 – Fazer uma rotina para aplicar a operação módulo M ao resultado de uma operação matemática qualquer. ---------------------------------------------------------------------------------------------------------------------------- FIM DA AULA 73 Aula nº Data Tema Soma de variáveis aleatórias - 1 Conteúdo Análise estatística da soma de variáveis aleatórias: média e variância, função densidade de probabilidade e função geratriz de momentos. Objetivos Ao final da aula os alunos deverão ser capazes de: 1) realizar cálculos de média e variância da soma de variáveis aleatórias. 2) encontrar a função densidade de probabilidade da soma de variáveis aleatórias via convolução ou via função geratriz de momentos. 3) calcular momentos de uma variável aleatória via função geratriz de momentos. Média de variância da soma de variáveis aleatórias Para qualquer conjunto de variáveis aleatórias X 1 , ..., X n o valor esperado da soma W = X 1 + X 2 + ... + X n é dado pela soma dos valores esperados de cada uma das v.a. somadas, ou seja: 1 2 [ ] [ ] [ ] [ ] n E W E X E X E X = + + + ⋯ A variância da soma W = X 1 + X 2 + ... + X n é dada por: 1 1 1 1 var[ ] var[ ] 2 cov[ , ] n n n i i j i i j i W X X X − = = = + = + ∑ ∑ ∑ Exemplo: vamos encontrar a média e a variância de Z = X + Y: [ ] [ ] [ ] [ ] E Z E X Y E X E Y = + = + 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 var[ ] [( [ ]) ] [ ] 2 [ ] [ ] [ ] [ ] [( ) ] [ ] [ ] 2 [ ] [ ] ( [ ] [ ]) [ ] 2 [ ] [ ] [ ] 2 [ ] [ ] [ ] { [ ] [ ]} { [ ] [ ]} 2{ [ ] [ ] [ ]} var[ ] var[ Z E Z E Z E Z E Z E Z E Z E Z E X Y E X Y E X E XY E Y E X E Y E X E XY E Y E X E X E Y E Y E X E X E Y E Y E XY E X E Y X Y = − = − + = − = + − + = + + − + = + + − − − = − + − + − = + ] 2cov[ , ] X Y + Variância da soma de variáveis aleatórias independentes Se as variáveis aleatórias são independentes, a covariância entre elas é nula. Então, a partir da expressão anterior teremos: 1 var[ ] var[ ] n i i W X = = ∑ 74 Média e variância da soma de variáveis aleatórias Gaussianas independentes Para um conjunto de variáveis aleatórias Gaussianas e independentes X 1 , ..., X n a soma W = X 1 + X 2 + ... + X n será também Gaussiana com valor esperado e com variância dados por: 1 2 [ ] [ ] [ ] [ ] n E W E X E X E X = + + + ⋯ 1 var[ ] var[ ] n i i W X = = ∑ Função densidade de probabilidade da soma de variáveis aleatórias Encontrar a FDP da soma de variáveis aleatórias pode ser uma problema bastante complexo dependendo das FDPs das v.a. somadas e do número de v.a. somadas. Para duas variáveis aleatórias somadas temos: se W = X + Y, então ( ) ( , ) ( , ) W XY XY f w f x w x dx f w y y dy +∞ +∞ −∞ −∞ = − = − ∫ ∫ ou seja, tomamos a integral da FDP conjunta, substituindo uma das variáveis em função da soma realizada: se W = X + Y substituímos y por w – x e integramos f XY (x, w – x) em x; ou substituímos x por w – y e integramos f XY (w – y, y) em y. Função densidade de probabilidade da soma de variáveis aleatórias independentes Genericamente, a FDP da soma de n v.a. independentes é a convolução entre as n FDPs. Como exemplo, para duas variáveis aleatórias somadas temos que se W = X + Y, então ( ) ( ) ( ) ( ) ( ) ( ) ( ) W X Y X Y X Y f w f x f y f w y f y dy f x f w x dx +∞ +∞ −∞ −∞ = ∗ = − = − ∫ ∫ Função geratriz de momentos O processo de convolução mencionado acima pode se tornar complexo para certas FDPs e/ou para n elevado, o que dificultará a obtenção dos momentos da soma de variáveis aleatórias. Como solução pode-se usar a multiplicação das transformadas, por meio da Função Geratriz de Momentos (FGM), similar conceitualmente à Função Característica já estudada. A Função Geratriz de Momentos (FGM) é, por definição: ( ) sX X s E e φ ( = ¸ ¸ Para variáveis aleatórias contínuas tem-se: ( ) ( ) sx X X s e f x dx φ ∞ −∞ = ∫ 75 Para variáveis aleatórias discretas tem-se: ( ) ( ) i i i sy X Y i y S s e p y φ ∈ = ∑ Assim como a função característica, a FGM tem a propriedade de gerar momentos de ordem n para uma variável aleatória qualquer por meio da derivada de ordem n da FGM em relação a s, para s = 0: 0 ( ) [ ] n n X n s d s E X ds φ = = ---------------------------------------------------------------------------------------------------------------------------- Exemplo: vamos determinar, via FGM, os momentos de uma v.a. Exponencial cuja FDP é: , 0 ( ) 0 , 0 x X e x f x x λ λ − ¦ ≥ = ´ < ¹ Teremos a FGM: 0 ( ) ( ) sx sx x X X s e f x dx e e dx s λ λ φ λ λ ∞ ∞ − −∞ = = = − ∫ ∫ Primeiro momento: Segundo momento: Terceiro momento: Por indução podemos verificar que o n-ésimo momento da v.a. em questão será: ---------------------------------------------------------------------------------------------------------------------------- 76 Propriedades da FGM O conhecimento sobre a aplicação das propriedades da FGM pode facilitar a solução de problemas. Vejamos algumas destas propriedades e como utilizá-las: Para se verificar se uma determinada FGM é válida, pode-se testar se: 0 ( ) 1 X s s φ = = A FGM da v.a. modificada Y = aX + b é dada por: ( ) ( ) sb Y X s e as φ φ = ---------------------------------------------------------------------------------------------------------------------------- Exemplo: vamos calcular a FGM da v.a. Y = 2X + 3, onde X é uma v.a. exponencial. Do exemplo anterior temos ( ) X s s λ φ λ = − . Para determinar a FGM de Y basta substituir s por as na FGM de X e multiplicar o resultado por e sb , ou seja: 3 ( ) 2 sb s Y s e e as s λ λ φ λ λ = = − − ---------------------------------------------------------------------------------------------------------------------------- Para qualquer conjunto de variáveis aleatórias independentes X 1 , ..., X n a FGM da soma W = X 1 + X 2 + ... + X n é dada pelo produto das FGMs de cada v.a. somada, ou seja: 1 ( ) ( ) i n W X i s s φ φ = = ∏ Se além de independentes as variáveis aleatórias somadas forem identicamente distribuídas (i.i.d), a FGM da v.a. correspondente à soma é dada pelo produto de n FGMs idênticas, ou seja: [ ] ( ) ( ) n W X s s φ φ = Esta propriedade e a anterior são de grande utilidade quando estamos interessados em calcular os momentos de uma variável aleatória resultante da soma de outras variáveis aleatórias. Como propriedade adicional, a FGM de uma v.a. Gaussiana X de média µ e variância σ 2 é dada por: ( ) 2 2 1 2 ( ) exp X s s s φ µ σ = + 77 Exercícios de fixação 1 – Seja {X i }, i = 1, 2, ..., n, um conjunto de variáveis aleatórias independentes e identicamente distribuídas (i.i.d.) com médias µ X idênticas e variâncias σ X 2 também idênticas. Calcule a média e a variância da variável aleatória S definida por: 1 2 n i X i X X n S n µ σ = − = ∑ Solução Se as variáveis aleatórias são independentes, a covariância entre elas é nula e, desta forma, a variância da soma é igual à soma das variâncias. Então teremos: 2 1 2 2 2 2 2 1 1 1 1 1 var[ ] var var var 0 var[ ] 1 n i n n X i i i X i i X X X X X X n S X X n n n n n n µ σ σ σ σ σ σ = = = ( ( ( ( = + − = − = = = ( ( ( ¸ ¸ ( ( ¸ ¸ ( ¸ ¸ ∑ ∑ ∑ 1 2 2 2 2 2 2 1 1 [ ] [ ] 0 n i n X X X X i i i X X X X X X X n n n n E S E E E X n n n n n n µ µ µ µ σ σ σ σ σ σ = = ( ( ( = + − = − = − = ( ( ( ( ¸ ¸ ( ¸ ¸ ∑ ∑ ---------------------------------------------------------------------------------------------------------------------------- 2 – Seja X uma variável aleatória Geométrica com Função Massa de Probabilidade dada por: 1 (1 ) , 1, 2,... ( ) 0, caso contrário x X p p x f x − ¦ − = = ´ ¹ Mostre que a Função Geratriz de Momentos para esta variável pode ser escrita como: ( ) 1 (1 ) s X s pe s p e φ = − − . Dado: 0 1 Se , então 1 1 1 k k k k a a ar ar ar a r r r ∞ ∞ = = = = − = − − − ∑ ∑ 78 Solução 1 1 1 1 1 ( 1) 1 1 1 1 1 ( ) [ ] ( ) (1 ) (1 ) [ (1 )] (1 ) (1 ) (1 ) [ (1 )] usando a expressão de série dada (1 ) X sx sX sx sx x s x X X s x S x x s x x s s x x s s s s x x x s s x s x e s E e e f x e p p e p p e e p pe e p pe e p pe e p pe e p e p φ ∞ ∞ − − ∈ = = ∞ ∞ ∞ − − − = = = ∞ = = = = − = − − ( = − = − = ¸ ¸ − = − ∴ − ∑ ∑ ∑ ∑ ∑ ∑ ∑ tem-se: (1 ) ( ) , CQD (1 ) 1 (1 ) 1 (1 ) s s s X s s s pe e p pe s e p e p p e φ − = = − − − − − ---------------------------------------------------------------------------------------------------------------------------- 3 – Fazer exercícios adicionais recomendados no plano desta aula publicado no Portal Universitário, principalmente os exercícios 6.1.1 a 6.4.6 marcados como EASY no livro do Yates/Goodman. ---------------------------------------------------------------------------------------------------------------------------- FIM DA AULA 79 Aula nº Data Tema Soma de variáveis aleatórias - 2 Conteúdo Análise estatística da soma de variáveis aleatórias: o Teorema do Limite Central. Objetivos Ao final da aula os alunos deverão ser capazes de: 1) conceituar o Teorema do Limite Central (TLC). 2) conceituar a aproximação Gaussiana de uma v.a. segundo o TLC. 3) explicar algumas aplicações do TLC. 4) realizar cálculos envolvendo a aplicação do TLC. O Teorema do Limite Central (TLC), em termos gerais, diz que se somarmos um número suficientemente grande de variáveis aleatórias independentes, quaisquer que sejam suas distribuições individuais, a variável aleatória correspondente à soma terá distribuição aproximadamente Gaussiana. Como veremos mais adiante, este teorema encontra aplicações nas mais variadas áreas do conhecimento, em particular na área de Telecomunicações. Exemplo: A seguir temos quatro figuras e em cada uma delas duas FDPs: em linha cheia temos a FPD resultante da convolução de n FDPs Uniformes no intervalo (20, 32], com média 25.5 e variância 12. Esta é a FDP da soma de n v.a. independentes e com distribuição Uniforme. Em linha tracejada temos uma FDP Gaussiana de média 25.5n e variância 12n. As quatro figuras correspondem a n = 1, 2, 3 e 10, respectivamente. Observe que à medida que o número de v.a. somadas aumenta a FDP da soma tende a uma FDP Gaussiana, conforme prevê o Teorema do Limite Central. n = 1 n = 2 n = 3 n = 10 80 Teorema do Limite Central De forma genérica, matematicamente podemos enunciar o TLC assim: seja X 1 , X 2 , ..., X n um conjunto de n variáveis aleatórias independentes, tendo cada v.a. X i uma distribuição de probabilidades qualquer, média µ i e variância σ i 2 . A variável normalizada 1 1 2 1 n n i i i i n i i X Z µ σ = = = − = ∑ ∑ ∑ tem, no limite ou para n suficientemente elevado, uma função de distribuição cumulativa (FDC) que se aproxima da FDC de uma Gaussiana Normal N(0,1), ou seja, a FDP de Z se aproxima de uma FDP Gaussiana com média nula e variância unitária. Se as variáveis aleatórias somadas têm médias e variâncias iguais, a variável 1 1 n i i Z X n = = ∑ será, no limite ou para n suficientemente elevado, uma variável aleatória Gaussiana com média µ Z = µ X e variância 2 2 / Z X n σ σ = . Como exercício, mostre que as médias e as variâncias para as duas variáveis Z definidas acima têm os valores mencionados no texto. Aproximação para o Teorema do Limite Central Sabemos que a função de distribuição cumulativa (FDC) para uma v.a. N(0,1) pode ser escrita como 2 1 ( ) ( ) exp 2 2 x X u F x x du π −∞ | | = Φ = − | \ ¹ ∫ , para a qual se apresenta uma tabela de valores no ANEXO destas notas de aula. A seguir tem-se uma ilustração da função Φ(x) = F X (x). 81 Seja W = X 1 + X 2 +...+ X n uma soma de variáveis aleatórias independentes e identicamente distribuídas (i.i.d.) com E[X i ] = µ X e var[X i ] = σ X 2 . À medida que n aumenta a FDC de W se aproxima de 2 ( ) W X W W X w w n F w n µ µ σ σ | | | | − − | ≈ Φ = Φ | | \ ¹ \ ¹ Chamamos esta aproximação de aproximação Gaussiana para a v.a. W ou, de forma equivalente, de aproximação Gaussiana para a soma de n variáveis aleatórias i.i.d. Aplicações do Teorema do Limite Central Aproximação Gaussiana para a distribuição Binominal Sabemos que uma v.a. Binomial corresponde ao número de sucessos em n testes de Bernoulli que têm probabilidade de sucesso p. Então uma v.a. Binominal é de fato a soma do resultado de n v.a. de Bernoulli e, portanto, para n elevado pode ser aproximada por uma Gaussiana pelo Teorema do Limite Central. Recordando, uma v.a. Binomial X tem FMP dada por [ ] (1 ) x n x n P X x p p x − | | = = − | \ ¹ Como a média de uma v.a. de Bernoulli é p e a variância é p(1 – p), a v.a. Binomial terá média é np e que a variância é np(1 – p), o que levará à aproximação Gaussiana para X: 2 2 2 2 1 ( ) 1 ( ) [ ] exp exp 2 2 (1 ) 2 (1 ) 2 X X X x x np P X x np p np p µ σ π πσ ( ( − − = ≅ − = − ( ( − − ¸ ¸ ¸ ¸ Como ilustração desta aproximação, vejamos que acontece se p ≠ 0,5 e n é pequeno. A figura a seguir ilustra esta situação para p = 0,8 e n = 10. Observe que o formato assimétrico da FMP Binomial não se aproxima do formato da FDP Gaussiana de mesma média e mesmo desvio padrão. 82 Vejamos que acontece com p = 0,5 e n ainda pequeno. A figura a seguir ilustra esta situação para n = 10. Observe que o formato simétrico da FMP Binomial se aproxima naturalmente do formato da FDP Gaussiana de mesma média e mesmo desvio padrão. Agora vamos ver o que acontece se p ≠ 0,5 e n é elevado. A figura a seguir ilustra esta situação para p = 0,8 e n = 1.000. Observe que o formato assimétrico da FMP Binomial não se manifesta sobremaneira, o que faz com que ele se aproxime muito do formato da FDP Gaussiana de mesma média e mesmo desvio padrão, conforme prevê o Teorema do Limite Central. Aproximação Gaussiana para a interferência de múltiplo acesso em sistemas celulares CDMA A figura a seguir ilustra, na parte da esquerda, um típico cenário de comunicação entre os terminais celulares e a estação radio-base em um sistema celular CDMA (Code Division Multiple Access). Neste sistema todos os usuários compartilham a mesma banda de freqüências e podem transmitir simultaneamente. Suponha que a estação radio-base esteja demodulando o sinal do usuário em destaque na figura. Então S será o sinal desejado e I 1 + I 2 + ... + I n comporá a interferência de múltiplo acesso, a MAI (Multiple Access Interference). Se n é elevado, pelo Teorema do Limite Central podemos dizer que a MAI é uma variável aleatória Gaussiana de média nµ I e variância nσ I 2 . Na parte da direita da figura em questão ilustra-se o comportamento da probabilidade de erro de bit P e no sistema, em função da relação entre a potência de sinal e a potência de ruído + interferência, S/(N+I). Devido à MAI, mesmo aumentando-se a relação entre a potência de sinal e a potência de ruído S/N, a partir de um ponto a MAI passa a ficar muito maior que o ruído e, portanto, causará um patamar de erro de bit irredutível. É por esta razão que sistemas CDMA convencionais têm forte limitação do número de usuários ativos numa célula. Quanto maior este número, maior a MAI e pior a qualidade da comunicação em termos de taxa de erro de bit. 83 O Teorema do Limite Central auxiliará no modelamento da interferência e, portanto, dará subsídios ao dimensionamento do sistema para que uma sobracarga não ocorra. Aproximação Gaussiana para o sinal recebido em um ambiente de propagação por multipercurso Em um ambiente de comunicação móvel urbano típico, reflexão, difração e espalhamento fazem com que a onda eletromagnética transmitida pela estação raio-base (ERB) chegue ao terminal móvel (TM) por infinitos percursos de propagação. A figura a seguir ilustra este conceito. Admitindo a transmissão de um sinal que possa ser representado na forma complexa, com certa magnitude e fase, o TLC diz que a soma dos sinais dos infinitos percursos de propagação forma uma variável aleatória complexa Rexp(−jΘ) com FDP conjunta Gaussiana dada por: 84 ( ) 2 2 2 2 2 2 é Rayleigh 1 arctan / é Uniforme ( , ) exp , onde 2 2 sin é Gaussiana cos é Gaussiana XY R X Y x y Y X f x y Y R X R πσ σ ¦ = + ¦ ( + ¦Θ = = − ´ ( ¸ ¸ = Θ ¦ ¦ = Θ ¹ Em outras palavras, sendo independentes as partes real e imaginária dos infinitos sinais que chegam à antena receptora, a soma destes sinais terá parte real e imaginária que se aproximam de variáveis aleatórias Gaussianas. Numa etapa mais avançada do curso de Engenharia de Telecomunicações você verá como o TLC será aplicado para caracterizar e dimensionar sistemas de comunicação para operar em ambientes de propagação por múltiplos percursos. A disciplina que trata desse assunto é chamada de Comunicações Móveis. Exemplos de cálculo envolvendo a aproximação Gaussiana postulada pelo Teorema do Limite Central Exemplo 1 Amostras independentes de uma forma de onda são digitalizadas e geram uma variável aleatória X com distribuição Uniforme na faixa (V – 0,5 mV) < X < (V + 0,5 mV), onde V é o valor exato da forma de onda no instante de cada amostragem. Para melhorar a precisão das amostras digitalizadas, cada conjunto de 8 amostras gera uma média, formando a variável aleatória W. Utilizando o TLC, pede-se calcular a probabilidade do erro |W – V| ser maior que 0,05 mV. Solução A variável aleatória X terá FDP: Como W está sendo aproximada por uma Gaussiana pela aplicação do Teorema do Limite Central, a probabilidade procurada corresponde ao dobro a área à direita do valor E[W] + 0,05, para uma Gaussiana de média E[W] e variância var[W], conforme ilustração: 85 Assim, 2 [ ] 0,05 1 ( [ ]) [| | 0, 05] 2 exp 2var[ ] 2 var[ ] E W u E W P W V du W W π ∞ + ( − − > = − ( ¸ ¸ ∫ Agora temos que calcular a média E[W] e a variância var[W]: 8 1 8 8 1 1 2 2 8 8 8 2 1 1 1 1 8 1 1 1 [ ] [ ] 8 8 8 8 1 1 1 1 8 1 1 var[ ] var var var[ ] 8 mV 8 64 64 64 12 64 12 96 i i i i i i i i i i i i W X E W E X E X V V q W X X X = = = = = = = ( = = = = ( ¸ ¸ | | ( ( = = = = = = | ( ( ¸ ¸ ¸ ¸ \ ¹ ∑ ∑ ∑ ∑ ∑ ∑ Então: 2 0,05 2 0,05 1 ( [ ]) [| | 0, 05] 2 exp 2var[ ] 2 var[ ] 1 ( [ ]) 0, 05 [ ] 2 1 exp 2 1 2var[ ] 2 var[ ] var[ ] 0, 05 0, 05 2 1 2 1 1/ 96 1/ 96 V V u E W P W V du W W u E W V E W du W W W V V π π ∞ + + −∞ ( − − > = − ( ¸ ¸ ( ¦ ¹ | | ( − + − ¦ ¦ = − − = − Φ ( | ´ ` ( ¦ ¦ ¸ ¸ ( ¹ ) \ ¹ ¸ ¸ ( + − | | | = − Φ = − Φ ( | \ ¹ \ ¸ ¸ ∫ ∫ ( ) ( ) ( ) 0, 05 2 1 2 1 0, 49 1/ 96 2 0, 49 do ANEXO: 0, 49 0, 312 [| | 0, 05] 2 0, 312 0, 624 P W V ( ( | | | = − Φ = − Φ ( ( ( | | ¸ ¸ ¹ \ ¹ ¸ ¸ ¸ ¸ = Φ − ∴ Φ − = ⇒ − > = × ≅ ---------------------------------------------------------------------------------------------------------------------------- Exemplo 2 Um modem transmite 1.000.000 de bits. Cada bit é 0 ou 1 com a mesma probabilidade. Estime a probabilidade de ocorrência de ao menos 502.000 uns num bloco de 1.000.000 de bits. O número de uns em um bloco de 1.000.000 de bits é nitidamente uma v.a. Binomial que, para n elevado, se aproxima de uma Gaussiana pelo Teorema do Limite Central. Lembrando que a média de uma v.a. Binomial é np e que a sua variância é np(1 – p), a v.a. Gaussiana resultante terá média E[W] = np = 1.000.000×0,5 = 500.000 e variância var[W] = np(1 – p) = 1.000.000×0,5 2 = 250.000, o que leva a σ W = 500. Então 502.000 500.000 [ 502.000] 1 [ 502.000] 1 1 1 (4) 500 W W w P W P W µ σ | | − − | | ≥ = − < = − Φ = − Φ = − Φ | | \ ¹ \ ¹ Pela tabela de Φ(x) no ANEXO temos Φ(− 4) = 1 – Φ(4) = 3,1671×10 −5 . Então, 86 5 [ 502.000] 1 [ 502.000] 1 (4) 3,1671 10 P W P W − ≥ = − < = − Φ = × ---------------------------------------------------------------------------------------------------------------------------- FIM DA AULA 87 Aula nº Data Tema Média amostral - 1 Conteúdo A média amostral: desigualdade de Chebyshev, definição de média amostral, média amostral de uma grande quantidade de números. Objetivos Ao final da aula os alunos deverão ser capazes de: 1) interpretar o conceito da probabilidade estimada via desigualdade de Chebyshev. 2) interpretar o conceito de média amostral e da influência do número de amostras no valor estimado da média e na variância deste valor estimado. 3) realizar cálculos de média amostral e analisar os resultados em termos de média e de variância. Muitos experimentos aleatórios não possuem, a priori, modelos probabilísticos conhecidos, o que nos impede de prever um determinado resultado. Entretanto, padrões de comportamento médios previsíveis emergem quando coletamos mais e mais dados sobre o experimento sob análise. A média amostral é a ferramenta que nos permite conhecer estes padrões de comportamento e nos prepara para uma justificativa matemática formal para a definição de probabilidade por freqüência relativa. Desigualdade de Chebyshev Seja uma variável aleatória X com média E[X] e variância var[X] finita. A desigualdade de Chebyshev diz que para todo número positivo c tem-se: 2 var[ ] [| [ ] | ] X P X E X c c − ≥ ≤ Nesta desigualdade lê-se: a probabilidade de um valor da v.a. X estar distante de pelo menos c unidades do valor médio desta v.a. é sempre menor ou igual a var[X]/c 2 . A figura a seguir ilustra o conceito desta probabilidade estimada via desigualdade de Chebyshev. Note que o cálculo envolvendo esta desigualdade necessita de apenas dois parâmetros: var[X] e próprio valor de c. Portanto esta desigualdade permite que calculemos estimativas de probabilidades envolvendo a v.a. sob análise sem que tenhamos que conhecer a distribuição de probabilidades desta variável. Esta é justamente a grande aplicação da desigualdade de Chebyshev: permitir estimativas de probabilidades sem que conheçamos a real distribuição de probabilidades da v.a. sob análise. 88 Esta desigualdade é válida para v.a. com quaisquer distribuições, mas fornece estimativas até certo ponto “folgadas”, ou seja, via de regra a probabilidade P[| X – µ X | ≥ c] real será bastante menor que var[X]/c 2 . A média amostral – definição A média amostral é definida como a média aritmética entre as variáveis aleatórias independentes e identicamente distribuídas X 1 , X 2 , ... X n , ou seja: 1 2 1 1 ( ) n n n i i X X X M X X n n = + + + = = ∑ ⋯ Como os valores de cada uma das variáveis aleatórias é aleatório, M n (X) é também uma variável aleatória com média e variância dadas respectivamente por: [ ( )] [ ] n E M X E X = var[ ] var[ ( )] n X M X n = Vejamos as provas: ( ) 1 2 1 2 1 2 ( ) [ ( )] 1 [ ] [ ] [ ] 1 [ ] [ ( )] [ ] n n n n n n X X X M X n X X X E M X E n E X E X E X n nE X E M X E X n + + + = + + + ( = ( ¸ ¸ = + + + = ⇒ = ⋯ ⋯ ⋯ [ ] 2 1 2 1 2 2 1 2 2 2 var[ ] var[ ] var[ ( )] var var var[ ] var[ ] var[ ] var[ ] var[ ] var[ ( )] n n n n n aY a Y X X X M X n X X X n X X X n n X X M X n n = + + ( = ( ¸ ¸ + + = + + + = = ⇒ = ⋯ ⋯ ⋯ Existe uma associação entre a média amostral e o Teorema do Limite Central, fato que ocorre quando o número de amostras processadas pela média amostral tende a infinito ou é suficientemente elevado. Neste caso, e somente neste caso, a média amostral M n (X) se aproximará de uma v.a. Gaussiana de média E[X] e variância tendendo a zero à medida que n aumenta. ---------------------------------------------------------------------------------------------------------------------------- Exemplo: Seja n = 10.000 variáveis aleatórias i.i.d. com FDP Gaussiana, média E[X i ] = E[X] = µ X = 50 e variância var[X i ] = var[X] = σ X 2 = 277. Para 10 realizações de cada uma das variáveis a média amostral poderia ter os seguintes valores: [ ] ( ) = 50,1 50,4 50,0 50,0 50,0 49,7 50,4 50,0 49,9 50,1 n M X 89 Sendo var[X] = 277, var[M n (X)] será 277/10.000 = 0,03. Isto significa que quanto maior o valor de n, mais os valores de M n (X) convergem para a média E[X] = 50. No limite, para n → ∞ teríamos: lim ( ) =50= [ ] n n M X E X →∞ { } lim var[ ( )] =0 n n M X →∞ Por este exemplo conclui-se que a média amostral é um estimador não polarizado para a média de uma variável aleatória qualquer. Em outras palavras, quanto maior o número de valores analisado, mais M n (X) se aproximará de E[X]. Ainda, com o aumento de n, M n (X) não se aproximará de nenhum outro valor que não seja E[X]. Quando estudamos o conceito de momentos de uma v.a. utilizamos a média amostral para a estimação destes momentos a partir de um conjunto de n amostras da v.a. sob análise. Portanto, agora estamos simplesmente formalizando o tratamento desta ferramenta com o objetivo de extrair dela a maior quantidade de informação possível acerca da v.a. sob avaliação. ---------------------------------------------------------------------------------------------------------------------------- Exemplo: Seja X a v.a. Gaussiana com valor esperado E[X] = µ = 50, correspondente às notas dos alunos do Inatel. Quantas amostras são necessárias para garantir que a variância da média amostral seja menor ou igual a 0,5 pontos 2 ? Se X é uma v.a. Gaussiana, sabemos que aproximadamente 99,73% dos seus valores estarão no intervalo µ − 3σ a µ + 3σ. A interpretação desta afirmação é ilustrada a seguir: Então, considerando-se notas de 0 a 100 temos que 3σ = 50 ⇒ σ = 50/3 ⇒ var[X] = σ 2 = 277,778. Logo, sabendo que var[M n (X)] = var[X]/n, serão necessárias n ≥ 277,778/0,5 ≅ 556 amostras para garantir que var[M n (X)] seja menor ou igual a 0,5 pontos 2 . ---------------------------------------------------------------------------------------------------------------------------- A média amostral de uma grande quantidade de números Recordando, a desigualdade de Chebyshev diz que para uma v.a. X com valor esperado E[X] e variância var[X], para todo número positivo c tem-se: [ ] 2 var[ ] | [ ] | X P X E X c c − ≥ ≤ Aplicando-se esta desigualdade à v.a. Y = M n (X) tem-se que, para qualquer constante c, a média amostral M n (X) satisfaz às expressões a seguir, para as quais se tem a interpretação ilustrada pela figura que vem em seguida. 90 [ ] 2 var[ ] | ( ) | n X X P M X c nc µ α − ≥ ≤ = ⇒ [ ] 2 var[ ] | ( ) | 1 1 n X X P M X c nc µ α − < ≤ − = − Os parâmetros α e (1 – α) serão definidos mais adiante, quando estudarmos o conceito de intervalo de confiança. Estes resultados afirmam que com o aumento de n a FDC da média amostral se aproxima de um degrau unitário em x = µ X . Esta proximidade, no intervalo µ X ± c, é governada pelo valor de P[|M n (X) – µ X | ≥ c] ≤ var[X]/nc 2 . A figura a seguir ilustra este conceito: quanto maior o valor de n, mais M n (X) se aproximará de uma Gaussiana de média µ X e variância nula. Desta forma a FDC de M n (X) se aproximará cada vez mais de um degrau unitário em x = µ X . Em outras palavras, quanto maior o valor de n, maior a probabilidade de um valor específico da média amostral estar no intervalo µ X ± c. Vamos agora analisar a média amostral em termos da probabilidade de um valor desta média estar distante de k desvios padrão ou mais da média real µ X . Para fazer esta análise basta fazer M n (X) = Y e c = kσ Y em P[|M n (X) – µ X | ≥ c] ≤ var[X]/nc 2 , levando a: P[|Y – µ Y | ≥ kσ Y ] ≤ σ Y 2 /(kσ Y ) 2 = 1/k 2 ---------------------------------------------------------------------------------------------------------------------------- Exemplo: explorando o conceito anterior, se k = 2 significa que a probabilidade da média amostral se encontrar distante de mais de 2 desvios padrão de seu valor esperado real é menor que α = 1/k 2 = 1/2 2 = 0,25. Pode-se também dizer que no mínimo 100(1–α)% = 75% dos valores estimados da média amostral vão estar no intervalo (µ X – 2σ Y , µ X + 2σ Y ). FIM DA AULA 91 Aula nº Data Tema Exercícios de fixação Conteúdo Exercícios de fixação sobre geração de números aleatórios, soma de variáveis aleatórias e média amostral. Objetivos Permitir que os alunos revisitem os conceitos teóricos e conheçam exemplos de aplicação destes conceitos na solução de problemas. A seguir são propostos e solucionados alguns exercícios sobre parte do conteúdo acima. Estes exercícios não cobrem completamente todo este conteúdo, pois complementam aqueles já considerados nas aulas anteriores sobre o mesmo assunto. Exercícios de fixação 1 – Vamos retomar um exemplo de exercício dado na aula 41: amostras independentes de uma forma de onda são digitalizadas e geram uma variável aleatória X com distribuição Uniforme na faixa (V – 0,5 mV) < X < (V + 0,5 mV), onde V é o valor exato da forma de onda no instante de cada amostragem. Para melhorar a precisão das amostras digitalizadas, cada conjunto de 8 amostras gera uma média (média amostral), formando a variável aleatória W. Utilizando a desigualdade de Chebyshev, pede-se estimar a probabilidade do erro |W – V| ser maior ou igual a 0,05 mV. Solução Como W não está sendo aproximada por uma Gaussiana, o que foi feito no exemplo original pela aplicação do Teorema do Limite Central, agora a probabilidade desejada será calculada via desigualdade de Chebyshev: [ ] 2 var[ ] | ( ) | n X X P M X c nc µ α − ≥ ≤ = ⇒ 2 var[ ] [| | 0, 05] 8 0, 05 X P W V − ≥ ≤ × Agora temos que calcular a variância var[X]: 2 2 1 var[ ] mV 12 12 q X = = Então: 2 1 [| | 0, 05] 4, 2 12 8 0, 05 P W V − ≥ ≤ = × × Perceba que este resultado é absurdo, já que tem um valor maior que 1. Entretanto ele ainda pode ser utilizado para analisarmos três possíveis situações que surgem quando aplicamos a desigualdade de Chebyshev: A desigualdade de Chebyshev sendo um limitante, valores extremos fazem parte dos possíveis resultados; O valor encontrado para o limitante dista muito do valor real, 0.624, o que acontece normalmente com a desigualdade de Chebyshev; O valor elevado do limitante nos dá um indício de que a probabilidade real procurada pode não ser pequena, o que é verdade neste exemplo, dado que aproximadamente 62,4% dos valores de erro de digitalização estarão acima de 0,05 mV. ---------------------------------------------------------------------------------------------------------------------------- 92 2 – Um modem transmite 1.000.000 de bits. No receptor a probabilidade de erro de decisão pelos bits transmitidos é de 1×10 −3 . Estime a probabilidade de ocorrência de ao menos 1.100 bits errados a cada bloco de 1.000.000 de bits transmitidos. Solução O número de erros em um bloco de 1.000.000 de bits é uma v.a. Binomial que, para n elevado, se aproxima de uma Gaussiana pelo Teorema do Limite Central. Lembrando que a média de uma v.a. Binomial é np e que a sua variância é np(1 – p), a v.a. Gaussiana resultante terá média E[W] = np = 1.000.000×1×10 −3 = 1.000 e variância var[W] = np(1 – p) = 1.000.000×1×10 −3 (1 – 1×10 −3 ) = 999, o que leva a σ W ≅ 31,61. Então 1.100 1.000 [ 1.100] 1 [ 1.100] 1 1 1 (3,16) 31, 61 W W w P W P W µ σ | | − − | | ≥ = − < = − Φ = − Φ = − Φ | | \ ¹ \ ¹ Pela tabela de Φ(x) no ANEXO temos Φ(− 3,16) = 1 – Φ(3,16) = 7,88845×10 −4 . Então, 4 [ 1.100] 1 [ 1.100] 1 (3,16) 7,88845 10 P W P W − ≥ = − < = − Φ = × é a probabilidade de ocorrência de ao menos 1.100 bits errados a cada bloco de 1.000.000 de bits transmitidos. ---------------------------------------------------------------------------------------------------------------------------- 3 – O tempo médio de resposta e o desvio padrão em um sistema de computadores multi-usuário são, respectivamente, 15 segundos e 3 segundos. Estime a probabilidade do tempo de resposta estar 5 segundos acima ou abaixo do tempo médio. Solução Usando a desigualdade de Chebyshev tem-se: [ ] [ ] 2 2 2 var[ ] 3 | | | 15| 5 0, 36 5 X X P X c P X c µ − ≥ ≤ ⇒ − ≥ ≤ = ---------------------------------------------------------------------------------------------------------------------------- 4 – Seja uma v.a. X com média µ X e variância σ X 2 . Determine a probabilidade de um valor desta v.a. estar distante da sua média de ao menos 2 desvios padrão: a) usando a desigualdade de Chebyshev e b) sabendo que X é uma v.a. Gaussiana. Comente sobre os resultados. Solução Usando a desigualdade de Chebyshev: [ ] [ ] 2 2 2 2 var[ ] 1 1 | | | | 2 0, 25 2 X X X X X X P X k P X k k µ σ µ σ σ − ≥ ≤ = ⇒ − ≥ ≤ = 93 Sabendo que X é Gaussiana: [ ] [ ] ( ) | | 1 | | 1 2 1 2 2 2 ( 2) 2 0, 0228 0, 0456 X X X X k P X k P X k σ µ σ µ σ σ | | − ≥ = − − < = − Φ = − Φ = Φ − ≅ × = | \ ¹ Observe que a probabilidade estimada via desigualdade de Chebyshev (0,25) é bem maior que a probabilidade real (0,0456). Este exercício mostra que para certas v.a. a desigualdade de Chebyshev pode levar a limitantes bem “folgados” para a probabilidade estimada. Entretanto, se não conhecemos a distribuição de probabilidades da v.a. sob análise, a desigualdade de Chebyshev ainda pode ser útil. ---------------------------------------------------------------------------------------------------------------------------- 5 – Deseja-se gerar uma v.a. que tenha a FDP f U (u) dada a seguir, usando o método da rejeição. Na figura a seguir, além da FDP desejada está também ilustrada uma possível FDP escalonada, Kf X (x), que envolve completamente a FDP desejada. 2 (4 ) , 2 5 ( ) 3 0, caso contrário U u u f u ¦ − < < ¦ = ´ ¦ ¹ Vamos inicialmente encontrar uma FDP f X (x) escalonada que envolva a FDP desejada. Esta FDP pode ser uma Exponencial com λ = 0,45, deslocada de 2 para a direita e multiplicada pela constante K = 3. a) Determine Kf X (x) Sabendo que a v.a. Exponencial deslocada de 2 para a direita tem FDP f X (x) = λe –λ(x – 2) , então Kf X (x) = 3λe –λ(x – 2) . b) Determine a expressão de geração de X pelo método da transformada. Sabendo que a v.a. Exponencial deslocada tem FDC F X (x) = 1 – e –λ(x – 2) , fazemos: ( 2) 1 1 1 ln(1 ) ( 2) ln(1 ) 2 ln(1 ) 2 x u e u x x u X U λ λ λ λ − − = − ⇒ − = − − ⇒ = − − + ⇒ = − − + . c) Determine a expressão de geração de U entre 0 e 1 pelo método dos resíduos de potência. Determine U 1 , o segundo valor gerado de U, para M = 2 31 – 1, α = 7 5 e semente igual a 30.000. 5 31 1 1 31 mod (7 30.000) mod(2 1) 0, 235 1 2 2 k k U M U U M α − × − = ⇒ = = − − 94 d) Calcule B(X) = K f X (X) e gere o segundo valor para a v.a. Uniforme Y entre 0 e B(X) usando o método dos resíduos com M = 2 31 – 1, α = 7 5 e semente igual a 10.000. B(X) = K f X (X), onde 1 1 ln(1 ) 2 ln(1 0, 235) 2 2, 595 0, 45 X U λ = − − + = − − + = . Então, ( ) 0,45(2,595 2) ( ) 3 2, 595 3 0, 45 1, 033 X B X f e − − = = × × = Gerando Y via método dos resíduos tem-se: 5 31 1 1 31 mod (7 10.000) mod(2 1) ( ) 1, 033 0, 081 1 2 2 k k Y M Y B X Y M α − × − = ⇒ = × ≅ − − e) Faça o teste de rejeição ou não rejeição de X. Se Y ≤ f U (X), devemos aceitar X como valor válido para a v.a. desejada. Para o valor de X = 2,595 encontrado no item anterior, f U (2,595) ≅ 0,658. Portanto, como 0,081 < 0,658 aceitaremos a amostra X = 2,595 como um valor válido para a variável aleatória desejada. Retornando ao item “c” e usando os valores anteriores das v.a. Uniformes como a semente para gerar os próximos, repetimos o processo até que tenhamos o número desejado de valores da v.a. de interesse. ---------------------------------------------------------------------------------------------------------------------------- FIM DA AULA 95 Aula nº Data Tema Média amostral - 2 Conteúdo A média amostral: Intervalo e Coeficiente de Confiança com a Desigualdade de Chebyshev. Objetivos Ao final da aula os alunos deverão ser capazes de: 1) conceituar a influência do intervalo de confiança e do coeficiente de confiança na análise da precisão na estimativa de uma média via média amostral. 2) realizar cálculos envolvendo a análise da precisão na estimativa de uma média via média amostral, utilizando os conceitos de intervalor de confiança e coeficiente de confiança. O estudo do Intervalo e do Coeficiente de Confiança tem grande aplicação em estatística e basicamente tem por objetivo quantificar o grau de precisão para a estimativa do valor esperado de uma variável aleatória, realizada via média amostral. Abordaremos o assunto a partir de duas vertentes: 1) Se a média amostral M n (X) tem FDP desconhecida, seja devido a um número pequeno de amostras utilizadas ou à dificuldade de obtenção de parâmetros de uma FDP conhecida, utilizaremos a desigualdade de Chebyshev como base de cálculo. Como resultado, teremos cálculos não muito precisos devido ao fato do limitante de probabilidade de Chebyshev ser bastante “folgado”. 2) Utilizaremos cálculos bastante precisos se a média amostral M n (X) for Gaussiana por natureza ou for obtida por meio de um grande número de amostras a ponto de podermos aproximá-la por uma Gaussiana pelo Teorema do Limite Central. O uso desta aproximação será possível se pudermos calcular a média e a variância de M n (X). Intervalo e Coeficiente de Confiança com a Desigualdade de Chebyshev Como estudamos em aulas anteriores, aplicando-se a desigualdade de Chebyshev à média amostral M n (X) tem-se que, para qualquer constante c: [ ] 2 var[ ] | ( ) | n X X P M X c nc µ α − ≥ ≤ = ⇒ [ ] 2 var[ ] | ( ) | 1 1 n X X P M X c nc µ α − < ≤ − = − cuja interpretação, também já estudada, é revisitada por meio da figura a seguir e pode ser enunciada como: a probabilidade de um valor da v.a. M n (X) estar distante de pelo menos c unidades do valor médio desta v.a. é sempre menor ou igual a var[X]/nc 2 . A inequação | M n (X) – µ X | < c significa que a média amostral dista do valor esperado de no máximo c (para mais ou para menos). O comprimento do intervalo, 2c, é denominado de intervalo de confiança. A inequação P[| M n (X) – µ X | < c] ≥ 1 − α significa que a probabilidade da média amostral estar no intervalo de confiança é de pelo menos 1 − α. O valor (1 − α), ou 100(1 − α)%, é chamado de 96 coeficiente de confiança ou coeficiente de segurança. Se o coeficiente de confiança é grande, podemos ter grande segurança de que a média amostral M n (X) estará no intervalo (µ X – c, µ X + c). Em uma aplicação prática, c indica a precisão desejada de uma estimativa para µ µµ µ X , 100(1− −− −α αα α)% indica a confiança que temos de ter alcançado esta precisão e n nos diz quantas amostras foram necessárias para alcançar o valor desejado de precisão. Vamos, a partir deste ponto, analisar vários exemplos por meio de estudos de casos. Estes exemplos nos permitirão construir uma interpretação mais completa acerca do intervalo de confiança, do coeficiente de confiança e da aplicação destes na solução de problemas estatísticos reais. ---------------------------------------------------------------------------------------------------------------------------- Exemplo: suponha que queremos estimar a estatura média de uma população por meio de uma média amostral, de tal forma que nossa estimativa não fique distante de mais de 1 cm da média real, com ao menos 90% de probabilidade. Em outras palavras, se fizermos várias estimativas da estatura média utilizando vários conjuntos diferentes com n pessoas, queremos que ao menos 90% dos valores estimados estejam distantes de no máximo 1 cm da estatura média real, a qual não conhecemos. Vejamos quantas amostras precisamos: Temos que [ ] 2 var[ ] | ( ) | 1 1 n X X P M X c nc µ α − < ≤ − = − . Para o problema o coeficiente de confiança é 1 – α = 0,9 e o intervalo de confiança é 2c = 2 cm. Vamos fazer uma estimativa da variância da estatura colhendo 20 amostras, por exemplo: 1.55 1.66 1.51 1.61 1.43 1.49 1.55 1.68 1.72 1.53 1.54 1.63 1.54 1.49 1.55 1.64 1.65 1.46 1.33 1.59 Antes, porém, precisamos realizar uma estimativa da média E[X]: 1 1 ˆ 1, 56 m N X i i X N µ = = ≅ ∑ , então ( ) 2 2 2 1 1 ˆ ˆ 0, 01 m N X i X i X N σ µ = = − ≅ ∑ . Assim, voltando à desigualdade de Chebyshev, teremos: 2 0, 01 1 0, 9 1.000 0, 01 n n − = ⇒ = . 97 Então, se fizermos sucessivas médias amostrais para estimar a estatura da população, cada média realizada com 1.000 amostras, garantiremos que o valor estimado estará distante da média real de no máximo 1 cm em ao menos 90% das médias obtidas. A figura a seguir mostra o resultado de 50 médias amostrais com 1.000 amostras cada. Tais amostras foram geradas por computador, com média 1,60 e variância 0,01. Observe que praticamente todos os valores de média amostral, e não apenas os 90% previstos, estão confinados no intervalo de confiança. Este exemplo mostra o quão o intervalo de confiança obtido a partir da desigualdade de Chebyshev pode ser folgado. Vale ainda mencionar que no início da solução deste problema fizemos uma estimativa de média e de variância com apenas 20 amostras. Se o valor estimado de variância fosse de 0,005, em vez de 0,01, diríamos que 500 amostras seriam suficientes. Felizmente a folga na desigualdade de Chebyshev pode permitir que tenhamos análises satisfatórias mesmo com erros como este. Ficaríamos livres deste problema se estivéssemos interessados em um intervalo de confiança relativo, correspondente a um determinado número de desvios padrão à esquerda e à direita da média real, por exemplo. ---------------------------------------------------------------------------------------------------------------------------- Exemplo: suponha que queremos agora estimar a estatura média de uma população por meio de uma média amostral, de tal forma que nossa estimativa não fique distante de mais de 0,1 desvios padrão da média real, com ao menos 90% de probabilidade. O coeficiente de confiança continua sendo 1 – α = 0.9, mas o intervalo de confiança passa a ser 2c = 2(0,1σ X ). Aplicando estes valores à desigualdade de Chebyshev, teremos: 2 2 2 1 0, 9 1.000 0,1 X X n n σ σ − = ⇒ = . Então, se fizermos sucessivas médias amostrais para estimar a estatura da população, cada média realizada com 1.000 amostras, garantiremos que o valor estimado estará distante de no máximo 0,1 desvios padrão da estatura média real em ao menos 90% das médias obtidas. ---------------------------------------------------------------------------------------------------------------------------- Exemplo: vamos comentar a afirmação tipicamente ouvida ou lida em épocas de eleições no Brasil: 98 “Com base em uma amostra de 1.103 eleitores, coletada em 8 capitais brasileiras, a porcentagem de pessoas que apóiam o candidato Marcos Fernandes é de 58%, com precisão de ±3 pontos percentuais.” O que esta afirmação NÃO significa é justamente a interpretação que nós, enquanto leigos sobre o assunto, atribuiríamos a ela: diríamos que a afirmação significa que (58 ± 3)% ou que (58 ± 1,74)% dos eleitores consultados apóiam o candidato Marcos Fernandes. Em ambas as interpretações a estimativa realizada nos parece ser bastante precisa. Na verdade o valor 58% ou 0,58 é apenas um dos possíveis valores da média amostral M n (X) para n = 1.103. Vejamos outros valores de M n (X) que poderiam ser obtidos consultando 10 grupos diferentes de 1.103 eleitores, nas mesmas cidades: [ ] ( ) 0,568 0,603 0,591 0,597 0,597 0,568 0,585 0,610 0,580 0,576 n M X = M n (X) foi obtida da seguinte maneira: definem-se as v.a. X i , tal que X i = 1 se um eleitor apóia o candidato e X i = 0 caso contrário, i = 1, 2, ..., n. As 1.103 amostras de X i geraram, por exemplo, a média amostral: [ ] 1+1+0+0+0+1+1+0+1+...+0 ( ) 0, 58 1.103 n M X = = As v.a. X i então possuem distribuição de Bernoulli com P[X i = 1] = p i = P[apoiar o candidato]. Como não há como conhecer a priori a intenção de voto de cada eleitor, vamos definir a intenção de voto média em favor do candidato Marcos Fernandes como 1 1 N k k p p N = = ∑ onde N é o número TOTAL de eleitores. Então a v.a. X terá distribuição de Bernoulli com média E[X] = p e variância var(X) = p(1–p). A probabilidade de M n (X) estar distante de p de no máximo ±0,03, que é o significado real dos ±3 pontos percentuais enunciados no exemplo, é: 2 2 var[ ] (1 ) [| ( ) | 0, 03] 1 1 1 (0, 03) (0, 03) n X p p P M X p n n α − − < ≥ − = − = − Observe que o coeficiente de confiança depende de p, mas não conhecemos este parâmetro. Queremos ter confiança no resultado da forma mais independentemente possível do valor de p. Vejamos, por meio da figura a seguir, como varia o valor p(1–p) em função de p. 99 Analisando a curva p(1 – p) observamos que para qualquer valor de p teremos var[X] = p(1 – p) ≤ 0,25, o que nos permite afirmar que o coeficiente de confiança terá seu menor valor justamente quando p(1 – p) = 0,25. Então podemos escrever: 2 0, 25 277, 778 (1 ) 1 1 0, 75 (0, 03) n n α − ≥ − ≅ − ≅ Isto significa que ao menos 75% dos valores estimados de M n (X) estarão contidos no intervalo (p ± 0,03). Isto significa também que a probabilidade do valor M n (X) = 0,58 estar distante de ±0,03 do valor correto das intenções de voto é de no mínimo 0,75. Para aumentar este coeficiente de confiança devemos aumentar o número de amostras, n, ou permitir maior intervalo de confiança, 2c. Se a intenção média de voto se confirmar nas eleições como sendo p = 0,27, por exemplo, o valor do coeficiente de confiança será 2 0, 27(1 0, 27) (1 ) 1 0,19 1.103(0, 03) α − − = − ≅ e poderemos dizer que ao menos 19% dos valores estimados de M n (X) estarão na faixa de (0,27 ± 0,03), o que representa uma pobre estimativa, mesmo com um intervalo de confiança pequeno. ---------------------------------------------------------------------------------------------------------------------------- FIM DA AULA 100 Aula nº Data Tema Média amostral - 3 Conteúdo A média amostral: Intervalo e Coeficiente de Confiança com a Desigualdade de Chebyshev (finalização). Intervalo e Coeficiente de Confiança com a aproximação Gaussiana pelo TLC. Lei dos grandes números. Objetivos Ao final da aula os alunos deverão ser capazes de: 1) conceituar as diferenças nas abordagens utilizadas na análise do intervalo de confiança pela Desigualdade de Chebyshev e pela aproximação pelo Teorema do Limite Central. 2) realizar cálculos envolvendo a análise da precisão na estimativa de uma média via média amostral, utilizando os conceitos de intervalo de confiança e coeficiente de confiança via Desigualdade de Chebyshev e via aproximação pelo Teorema do Limite Central. Nesta aula complementaremos a análise do intervalo e do coeficiente de confiança obtidos com a Desigualdade de Chebyshev e analisaremos o intervalo e o coeficiente de confiança obtidos por meio da aproximação Gaussiana para a média amostral. Faremos este estudo basicamente através de exemplos. ---------------------------------------------------------------------------------------------------------------------------- Exemplo: neste exemplo vamos realizar a análise do intervalo de confiança em uma aplicação muito comum à nossa área de formação: a estimativa de taxa de erro de bit em sistemas de comunicação digital. Muitas vezes, seja na simulação de sistemas de comunicação ou em sistemas reais, necessitamos estimar a probabilidade de erro de bit, P b , no receptor, posto que este fator de mérito está diretamente ligado à inteligibilidade da informação que se deseja recuperar no receptor. Para realizar esta estimativa utilizamos o conceito de probabilidade por freqüência relativa: contamos o número de bits errados, n E , e dividimos o resultado pelo número de bits transmitidos, n. Obviamente esta estimativa será tão mais precisa quanto maior o número de bits transmitidos, ou seja: lim E b n n P n →∞ = Tipicamente a estimativa da probabilidade de erro de bit é denominada de taxa de erro de bit e é representada pela sigla BER (Bit Error Rate). Então podemos escrever simplesmente: BER E n n = Apenas para se ter uma noção de ordem de grandeza da BER, na prática valores úteis de taxa de erro de bit são normalmente pequenos, tipicamente menores que 1×10 −3 , ou seja, em média um bit errado a cada 1.000 bits transmitidos ou menos que isto. 101 Uma regra empírica diz que se n E = 100 teremos uma “boa” estimativa de BER. O objetivo deste exemplo é melhorar esse julgamento subjetivo, à luz da análise do intervalo de confiança e do coeficiente de confiança. Uma medida usual da confiabilidade de uma estimativa realizada via média amostral é o chamado erro padrão normalizado, definido por: var[ ( )] ( ) n X X X M X σ ε µ µ µ = = onde σ é o desvio padrão da estimativa, ou seja, é o desvio padrão da média amostral M n (X). Sabendo que os erros de bit em um bloco têm distribuição Binomial, onde p é a própria probabilidade de erro de bit média, tem-se: var[ ( )] (1 ) / var[ ]/ (1 ) ( ) n M X p p n X n p p p p p np ε − − = = = = Como na prática p é pequena, ou seja, valores úteis de probabilidade de erro de bit são normalmente pequenos, podemos simplificar o resultado acima: 2 1 1 ou n p np ε ε = = Como afirmado anteriormente, a regra empírica diz que se contarmos 100 erros em um bloco de tamanho n teremos uma “boa” estimativa de p, ou seja, teremos uma boa estimativa da BER. Ter-se 100 erros em um bloco de n bits significa que, a partir da expressão anterior, a média para a v.a. Binomial correspondente vale np = 1/ε 2 = 100, o que leva a ε = 0,1 ou σ = 0,1p. Vejamos o impacto deste valor no intervalo de confiança calculado pela desigualdade de Chebyshev, verificando a que distância do valor médio os limites deste intervalo se situam: ( ) ( ) 2 2 2 2 0,1 var[BER] 1 1 [| BER | ] 1 (1 ) (1 ) 1 1 ( 0,1 ) var[BER] p P p k k k p k k σ α α α − < ≥ − = − ⇒ − = − = − ⇒ = Interpretando este resultado podemos afirmar: dado um coeficiente de confiança 1 − α, calculamos k e então podemos dizer que ao menos 100(1 − α)% dos valores de BER estimados estarão dentro do intervalo de confiança de (p – 0,1kp , p + 0,1kp). A figura a seguir se refere ao resultado de estimação da BER por simulação de Monte Carlo (veja definição mais à frente) de um sistema de comunicação digital, para relação sinal-ruído (RSR) variável. Para um coeficiente de confiança 1 − α = 0,90 temos k ≅ 3,2. Podemos então dizer que no mínimo 90% dos valores de BER estimados estarão no intervalo de confiança de ±3,2σ = ± 0,32p, o que corresponde ao intervalo de confiança (p – 0,32p , p + 0,32p). 102 Percebe-se pela figura em questão que tal intervalo de confiança é bastante “folgado”, o que era esperado, dado que o mesmo deriva-se da desigualdade de Chebyshev: todos os valores de média amostral estão confinados dentro dos limites do intervalo de confiança e não apenas os 90% especificados. Um método de Monte Carlo (MC) é qualquer método de estimativa em que os parâmetros aleatórios do problema são gerados por computador e as ocorrências dos eventos de interesse, associadas a v.a. de Bernoulli, são contadas para posterior obtenção de estimativas das probabilidades de ocorrência destes eventos por média amostral. Sendo assim, o método MC permite a estimação do parâmetro de interesse por meio da freqüência relativa de ocorrência dos eventos de interesse. Em seu algoritmo o método MC faz grande uso de números aleatórios e suas aplicações vão desde integração numérica e solução de problemas matemáticos complexos, passando pela análise de desempenho de sistemas de comunicação, finanças, engenharia de trânsito, problemas de física e química, e muito mais... Para conhecer mais curiosidades e especificidades do método MC, vale uma visita ao site da Wikipedia: http://en.wikipedia.org/wiki/Monte_carlo_method . ---------------------------------------------------------------------------------------------------------------------------- Intervalo e Coeficiente de Confiança obtidos com a aproximação Gaussiana pelo TLC Se a média amostral M n (X) for Gaussiana por natureza ou for obtida por meio de um grande número de amostras a ponto de podermos aproximá-la por uma Gaussiana pelo Teorema do Limite Central, a análise estatística nos fornecerá intervalos de confiança mais justos ou realistas que aqueles proporcionados pela desigualdade de Chebyshev. ---------------------------------------------------------------------------------------------------------------------------- 103 Exemplo: Vamos retomar o exemplo das eleições: se as v.a. indicadoras da intenção de voto, X i , possuem distribuição de Bernoulli, a média amostral M n (X) = 1 i n i X ∑ possuirá distribuição Binominal que, para n elevado, se aproximará de uma Gaussiana de média e variância dadas por: 2 2 1 1 (1 ) (1 ) p p np p np p n n n µ σ − = = = − = Suponha que o valor real da média que representa as intenções de voto seja de fato p = 0,58. Como resultado obteremos a FDP Gaussiana ilustrada na figura a seguir. Como bem sabemos, aproximadamente 99,73% dos valores de uma v.a. Gaussiana estarão no intervalo µ − 3σ a µ + 3σ. Então, para o problema em questão, praticamente todos os valores de M n (X) estariam contidos no intervalo (0,58 ± 0,045). Para realizarmos uma comparação com a análise feita via desigualdade de Chebyshev, vamos determinar os limites do intervalo de confiança para um coeficiente de confiança de 0,75. A figura a seguir ilustra o valor de c que queremos calcular. ( ) (0, 58 ) 0, 58 0, 75 1 2 0, 75 1 2 0, 75 1 2 0, 015 0, 58(1 0, 58) /1.103 0,125 de uma tabela da função : 1,15 0, 017 0, 015 0, 015 z c c c c x c µ σ | | − − − | | | | = − Φ ⇒ = − Φ ⇒ = − Φ − | | | | − \ ¹ \ ¹ \ ¹ | | ⇒Φ − = ∴ Φ − = − ⇒ ≅ | \ ¹ 104 Perceba então que 75% dos valores da média amostral estariam no intervalo (0,58 ± 0,017) e não no intervalo (0,58 ± 0,03) previsto pela desigualdade de Chebyshev. Perceba mais uma vez a “folga” estabelecida por esta desigualdade na análise do intervalo de confiança. Vamos agora calcular qual seria de fato o coeficiente de confiança para o intervalo de confiança analisado originalmente no problema das eleições, ou seja, 2c = 2×0,03: ( ) (0, 58 0, 03) 0, 58 (1 ) 1 2 1 2 2 1 2 0, 023 0, 954 0, 58(1 0, 58) /1.103 α | | − − − = − Φ = − Φ − = − × ≅ | | − \ ¹ Ou seja, 95,4% dos valores de média amostral estimados estarão no intervalo (0,58 ± 0,03), bem mais que os 75% previstos via desigualdade de Chebyshev. ---------------------------------------------------------------------------------------------------------------------------- Exemplo: vamos repetir a análise de um dos problemas da estimativa da estatura de uma população, feita na aula anterior via desigualdade de Chebyshev, porém agora utilizando a aproximação Gaussiana para a média amostral. Relembrando, queremos estimar a estatura média de uma população por meio de uma média amostral, de tal forma que nossa estimativa não fique mais de 0,1 desvios padrão (da estatura) distante da média real, com ao menos 90% de probabilidade. O coeficiente de confiança é 1 – α = 0.9 e o intervalo de confiança é 2c = 2(0,1σ X ). Então, usando a aproximação Gaussiana para a média amostral teremos: ( ) ( ) 2 ( 0,1 ) 0, 9 1 2 1 2 0,1 0,1 0, 05 / Da tabela da função ( ) : 0,1 1, 64 269 X X X X n n n x n n µ σ µ σ | | − − | = − Φ = − Φ − ⇒Φ − = | \ ¹ Φ − = − ⇒ ≅ Então, se fizermos sucessivas médias amostrais para estimar a estatura da população, cada média realizada com 269 amostras, garantiremos que o valor estimado estará distante de no máximo 0,1 desvios padrão da estatura média real em ao menos 90% das médias obtidas. Veja mais uma vez o quanto o intervalo de confiança usando a desigualdade de Chebyshev é folgado. Antes havíamos estimado que seriam necessárias 1.000 amostras para atender ao coeficiente de confiança e ao intervalo de confiança especificados; agora verificamos que de fato precisamos de apenas 269 amostras. A figura a seguir mostra o resultado de 50 médias amostrais com 269 amostras cada. As amostras, com distribuição Gaussiana de média 1,60 e variância 0,01 foram geradas por computador. 105 Observe que alguns valores de média amostral não estão confinados no intervalo de confiança, pois o coeficiente de confiança é de 90% e não de 100%. Este exemplo mostra o quão o intervalo de confiança obtido a partir da aproximação Gaussiana para a média amostral pode ser mais justo e mais coerente que aquele obtido a partir da desigualdade de Chebyshev. ---------------------------------------------------------------------------------------------------------------------------- Lei dos grandes números A lei dos números grandes é invocada nas situações em que se deseja dar a noção de que mesmo os eventos muito improváveis podem ocorrer quando um número suficientemente grande de chances é dado. Sabe-se que a Estatística deriva-se da teoria de probabilidade e, em Estatística, a lei dos números grandes significa que com uma grande amostra é mais provável que se manifestem as características do espaço amostral (população) do que com uma pequena amostra. Esta lei diz ainda que M n (X) converge para o valor de µ com probabilidade 1, o que significa que não há convergência da média amostral para outro valor que não seja µ. Isto justifica a interpretação intuitiva de que o valor esperado de uma v.a. pode ser estimado por meio de uma média com n suficientemente grande. A figura a seguir mostra, no eixo vertical, o valor estimado da probabilidade de um dado apresentar o valor 3, por freqüência relativa, M n (X), e o valor esperado, µ X . No eixo horizontal a figura mostra o número acumulado de jogadas do dado, n. À medida que n aumenta M n (X) converge para µ X . 106 ---------------------------------------------------------------------------------------------------------------------------- FIM DA AULA 107 Aula nº Data Tema Exercícios de fixação Conteúdo Exercícios de fixação sobre: intervalo e coeficiente de confiança com a Desigualdade de Chebyshev, intervalo e coeficiente de confiança com a aproximação Gaussiana pelo TLC e sobre a Lei dos grandes números. Objetivos Permitir que os alunos revisitem os conceitos teóricos e conheçam exemplos de aplicação destes conceitos na solução de problemas. 1 – Refaça a análise do problema da estimativa probabilidade de erro de bit, feita anteriormente via desigualdade de Chebyshev, agora utilizando a aproximação Gaussiana para a média amostral. Pede-se: a) Calcule o novo intervalo de confiança para um coeficiente de confiança de 0.9, conservadas iguais as demais condições do problema. Interprete o resultado. b) Mantendo o intervalo de confiança de (p – 0,32p , p + 0,32p), qual a porcentagem dos valores BER estimados se espera que estejam dentro do intervalo de confiança? Solução a) Vimos na aula passada que com 100 erros em um bloco de n bits, a média para a v.a. Binomial correspondente vale np = 1/ε 2 = 100, o que leva a ε = 0,1 ou σ = 0,1p. Vejamos o impacto deste valor no intervalo de confiança calculado agora via aproximação Gaussiana para a média amostral, verificando a que distância do valor médio exato os limites deste intervalo se situam: ( ) ( ) 0, 90 1 2 0, 90 1 2 0, 90 1 2 0,1 0,1 0, 05 de uma tabela da função : 1, 64 0,16 0,1 0,1 z p kp p k p k k x k µ σ | | − − − | | | | = − Φ ⇒ = − Φ ⇒ = − Φ − | | | \ ¹ \ ¹ \ ¹ | | ⇒Φ − = ∴ Φ − = − ⇒ ≅ | \ ¹ Interpretando este resultado podemos afirmar que no mínimo 90% dos valores de BER estimados estarão no intervalo de confiança de ± 0,16p, o que corresponde ao intervalo de confiança (p – 0,16p , p + 0,16p), onde p é o valor exato da probabilidade de erro de bit. A figura a seguir se refere ao resultado de estimação da BER por simulação de Monte Carlo de um sistema de comunicação digital, para relação sinal-ruído (RSR) variável. Nela estão registrados os intervalos de confiança obtidos via desigualdade de Chebyshev e via aproximação Gaussiana. Como esperado, perceba que o intervalo de confiança obtido via aproximação Gaussiana é mais preciso que aquele obtido via desigualdade de Chebyshev. 108 Solução b) Mantendo o intervalo de confiança igual ao calculado via desigualdade de Chebyshev, ou seja (p – 0,32p , p + 0,32p), vamos calcular o novo coeficiente de confiança utilizando a aproximação Gaussiana para a média amostral. ( ) ( ) 4 ( 0, 32 ) 0, 32 (1 ) 1 2 (1 ) 1 2 1 2 3, 2 0,1 0,1 De uma tabela da função : (1 ) 1 2 6,87 10 0, 9986 p p p p x α α α − | | − − | | − = − Φ ⇒ − = − Φ − = − Φ − | | \ ¹ \ ¹ Φ − = − × × = Este resultado significa que, se aguardarmos a ocorrência de 100 erros de bit, aproximadamente 99,87% dos valores de média amostral (BER) estimados vão estar no intervalo de confiança (p – 0,32p , p + 0,32p), onde p é o valor exato da probabilidade de erro de bit. ---------------------------------------------------------------------------------------------------------------------------- 2 – Realizamos n tentativas independentes de um experimento e estamos interessados em estimar a probabilidade de um evento A ocorrer. Vamos calcular o menor valor de n tal que nossa estimativa esteja em um intervalo de confiança igual a 0.02, com coeficiente de confiança igual a 0.999. Solução Vamos fazer a variável indicadora X = 1 quando o evento A ocorrer e X = 0 em caso contrário. Podemos utilizar a média amostral M n (X) como estimativa da probabilidade do evento A ocorrer. Vamos denominar esta estimativa de P’[A]. X é uma variável aleatória de Bernoulli com valor esperado E[X] = p = probabilidade do evento A ocorrer = P[A]. Sabemos que 2 var[ ] [| ( ) | ] 1 (1 ) n X X P M X c nc µ α − < ≥ − = − 109 Então teremos [ ] 2 [ ](1 [ ]) | '[ ] [ ] | 1 P A P A P P A P A c nc − − < ≥ − De resultados obtidos em aulas anteriores, p(1 − p) ≤ 0,25. Logo: [ ] 2 1 | '[ ] [ ] | 1 4 P P A P A c nc − < ≥ − Como queremos um intervalo de confiança de 0,02, temos c = 0,01. Como queremos um coeficiente de segurança de 0.999, então: 6 min 2 1 1 0, 999 2, 5 10 tentativas. 4 (0, 01) n n − = ⇒ = × ---------------------------------------------------------------------------------------------------------------------------- 3 – Realizamos n tentativas independentes de um experimento e queremos estimar a probabilidade de um evento A ocorrer. Calcular o menor valor de n tal que a probabilidade da estimativa diferir em mais de 10% do valor da probabilidade P[A] seja no máximo 0,001. Solução [ ] [ ] 2 2 2 2 [ ](1 [ ]) | '[ ] [ ] | [ ](1 [ ]) 1 [ ] | '[ ] [ ] | 0,1 [ ] (0,1) [ ] (0,1) [ ] P A P A P P A P A c nc P A P A P A P P A P A P A n P A n P A − − ≥ ≤ − − − ≥ ≤ = Como 1 – P[A] é menor ou igual a 1, teremos: [ ] 2 1 [ ] 1 100 100 100 | '[ ] [ ] | 0,1 [ ] (0,1) [ ] 0, 01 [ ] [ ] [ ] 0.001 [ ] P A P P A P A P A n n P A n P A nP A nP A P A α − − ≥ ≤ ≤ = ⇒ = ⇒ = Logo, o número de tentativas necessárias varia inversamente com a probabilidade do evento, P[A] e diretamente proporcional ao coeficiente de confiança. Portanto, podemos concluir que se desejamos fazer uma boa estimativa de um evento raro A, o número de chances para que A ocorra deve ser suficientemente grande. Compare esta conclusão com uma das interpretações da Lei dos Grandes Números. ---------------------------------------------------------------------------------------------------------------------------- FIM DA AULA 110 Aula nº Data Tema Processos Estocásticos - 1 Conteúdo Processos estocásticos: Processo Aleatório – definição. Processo aleatório estacionário. Média de um processo estocástico. Função de auto-correlação de um processo estocástico. Principais propriedades da função de auto-correlação. Objetivos Ao final da aula os alunos deverão ser capazes de: 1) conceituar Processos Estocásticos e citar exemplos de p.a. discretos no tempo e discretos nos valores; discretos no tempo e contínuos nos valores; continuos no tempo e discretos nos valores e contínuos no tempo e contínuos nos valores. 2) conceituar a média e a função de auto-correlação de um processo aleatório. 3) associar a função de autocorrelação com a taxa de variação de um processo aleatório ao longo do tempo. 4) realizar cálculos de média e de auto-correlação de um processo aleatório, seja pela definição estatística ou por aproximação via média amostral. A natureza aleatória de muitos fenômenos observados em Engenharia se manifesta temporal ou espacialmente. Uma família de variáveis aleatórias que se manifesta desta maneira recebe o nome de processo estocástico ou simplesmente processo aleatório (p.a.). Deste ponto em diante no nosso curso utilizaremos os conceitos já estudados para caracterizar e analisar processos aleatórios comumente encontrados em problemas de Telecomunicações. Devido à grande importância dos conceitos sobre processos estocásticos no estudo desta área, várias partes destas notas foram baseadas na referência: HAYKIN, Simon, Communication Systems, 4th Edition, John Wiley and Sons, Inc.: New York, USA, 2001, Capítulo 1. Versão em Português disponível. Sendo assim, recomenda-se fortemente que esta referência seja incluída como material de estudo. Processo Aleatório - definição Como exemplo, seja um sinal aleatório de tensão ou corrente e o conjunto de suas possíveis realizações X(t, ζ 1 ) ... X(t, ζ 4 ) ilustradas na figura a seguir. A um conjunto como este se dá o nome de processo aleatório X(t) ou processo estocástico X(t). A cada uma das realizações citadas dá-se o nome de função amostra x(t) do processo X(t). Se amostrarmos X(t) em, por exemplo, t 1 e t 2 , o conjunto de amostras comporá as variáveis aleatórias X(t 1 ) ≡ X 1 e X(t 2 ) ≡ X 2 com valores x 1 e x 2 . 111 A seguir têm-se algumas observações sobre a definição de processos aleatórios: Um processo aleatório é um conjunto de valores aleatórias indexados temporal ou espacialmente. Em outras palavras, um p.a. pode ser visto como um conjunto de variáveis aleatórias cujos valores específicos surgem ao longo do tempo ou em diferentes pontos do espaço. Por exemplo, um sinal de voz é um processo aleatório com variações temporais. Já o ângulo de inclinação de um edifício quando sujeito a ação do vento é um processo aleatório que se manifesta espacialmente. Se o índice mencionado é discreto tem-se um processo aleatório discreto; se o índice é contínuo tem-se um processo contínuo. Os possíveis valores do processo aleatório também podem ser discretos ou contínuos. Tem-se então quatro combinações: 1) p.a. discreto no tempo e discreto nos valores; 2) p.a. discreto no tempo e contínuo nos valores; 3) p.a. continuo no tempo e discreto nos valores e 4) p.a. contínuo no tempo e contínuo nos valores; No caso de uma v.a. o resultado de cada experimento aleatório é um número chamado amostra. Para um processo estocástico o resultado de cada experimento é uma “forma de onda” chamada função amostra. O número de formas de onda no conjunto pode ser finito ou infinito. ---------------------------------------------------------------------------------------------------------------------------- Exemplo: A saída de um gerador de pulsos binários de duração T, se analisada em períodos de 10T, é um conjunto com 2 10 possíveis formas de onda. A figura a seguir ilustra quatro realizações deste conjunto. Neste caso temos um exemplo em que o número de formas de onda no conjunto é finito, da forma como o processo aleatório foi definido. 112 Se analisássemos trechos de duração equivalente em um sinal de saída de transmissor ao longo da transmissão de um programa de rádio qualquer, perceberíamos infinitas possibilidades para as funções amostra observadas. Neste caso temos um exemplo em que o número de formas de onda no conjunto é infinito. ---------------------------------------------------------------------------------------------------------------------------- Processo aleatório estacionário Em sendo aleatório, um processo estocástico é analisado com ferramentas estatísticas. Sendo assim, ao analisarmos um p.a., obtemos dele propriedades estatísticas. Um processo aleatório é dito estacionário se possuir propriedades estatísticas independentes do instante de tempo em que a observação do processo se inicia. Isto significa que se um processo aleatório é dividido em várias seções, estas seções exibirão propriedades estatísticas idênticas. Normalmente um processo aleatório estacionário origina-se de fenômenos físicos estáveis, como na maior parte dos casos que encontraremos em Telecomunicações. ---------------------------------------------------------------------------------------------------------------------------- Exemplo: Seja determinar a probabilidade de se obter uma função amostra x(t) de um p.a. X(t) que passe pelas janelas de amplitude mostradas na figura a seguir. Isto equivale a se determinar a probabilidade do evento conjunto: A = {a i < X(t i ) ≤ b i }, para i = 1, 2, 3. 113 Se o p.a. X(t) em questão for estacionário, a probabilidade do suas funções amostra passarem pelas janelas de amplitude na parte (a) da figura a seguir é igual à probabilidade de suas funções amostra passarem pelas janelas de amplitude na parte (b) desta figura. ---------------------------------------------------------------------------------------------------------------------------- Como estamos tratando de processos aleatórios, as ferramentas que utilizaremos para analisá-los nos fornecerão informações estatísticas e não determinísticas. Dentre estas informações destacam-se as médias estatísticas, as quais já foram estudadas no contexto de variáveis aleatórias. Vamos a seguir estudar as principais médias estatísticas de análise de um processo aleatório. Média de um processo estocástico A média de um processo aleatório X(t) observado no instante t i é dada por: ( ) ( ) [ ( )] ( ) i X i i X t t E X t xf x dx µ ∞ −∞ = = ∫ Interpreta-se esta expressão da seguinte maneira: a média de um processo aleatório X(t) observado no instante t i é a média da variável aleatória obtida pela amostragem do processo X(t) no instante t i . A função densidade de probabilidade desta v.a. é ( ) ( ) i X t f x . Para um processo aleatório estacionário a média independe de t, ou seja: 114 ( ) para qualquer X X t t µ µ = Isto significa que se amostrarmos um processo aleatório em qualquer instante de tempo, teremos variáveis aleatórias sempre com a mesma média. A média pode ser estimada via média amostral se colhermos um número suficientemente grande de amostras do p.a. analisado. Em outras palavras, a média pode ser determinada por meio de: 1 1 ( ) lim ( ) N X i j i N j t X t N µ →∞ = = ∑ onde X j (t i ) é o valor da amostra da j-ésima função-amostra no instante de tempo t i . As estatísticas de primeira ordem, ou seja, aquelas que envolvem apenas uma variável aleatória obtida a partir de amostras um processo aleatório, podem não ser suficientes para caracterizá-lo. Como exemplo, o p.a. Y(t) ilustrado na figura a seguir é simplesmente o p.a. X(t) comprimido no tempo. Ambos têm a mesma FDP (de primeira ordem), mas Y(t) tem componentes de freqüência mais elevadas, pois varia mais rapidamente. Como podemos levar isso em conta nas estatísticas do processo? A resposta reside no estudo de estatísticas de segunda ordem, aquelas que envolvem duas variáveis aleatórias obtidas a partir de amostras do processo aleatório sob análise em dois instantes de tempo quaisquer. A função de auto-correlação, que é o nosso próximo assunto, é a estatística de segunda ordem de maior interesse no estudo de processos estocásticos comumente encontrados em Telecomunicações. Função de auto-correlação de um processo estocástico A função de auto-correlação de um p.a. X(t) é o valor esperado do produto de duas v.a. X(t 1 ) e X(t 2 ), obtidas pela observação do p.a. nos instantes t 1 e t 2 , respectivamente, ou seja: 115 1 2 1 2 1 2 1 2 ( ), ( ) 1 2 1 2 ( , ) [ ( ) ( )] ( , ) X X t X t R t t E X t X t x x f x x dx dx ∞ ∞ −∞ −∞ = = ∫ ∫ Trata-se de uma função, pois o valor específico da correlação entre as variáveis aleatórias correspondentes depende dos instantes de tempo em que foram geradas. Perceba que a função de auto-correlação revela a taxa de variação de um processo aleatório, posto que se o processo é “lento”, amostras espaçadas de um determinado intervalo levarão a valores de correlação maiores entre as v.a. correspondentes que aqueles obtidos a partir de amostras de um processo “rápido”, para o mesmo espaçamento entre tais amostras. A função de auto-correlação também pode ser estimada via média amostral se colhermos um número suficientemente grande de amostras do p.a. analisado, ou seja: 1 2 1 2 1 1 ( , ) lim ( ) ( ) N X j j N j R t t X t X t N →∞ = = ∑ Para um processo estocástico estacionário a função de auto-correlação independe do momento em que as amostras são colhidas, dependendo somente do espaçamento temporal entre elas. Assim teremos: 1 2 2 1 ( , ) ( ) ( ) X X X R t t R t t R τ = − = 1 2 para qualquer valor de e de t t Principais propriedades da função de auto-correlação A função de auto-correlação é uma função par: ( ) ( ) X X R R τ τ = − . O seu máximo valor ocorre em τ = 0, ou seja: | ( ) | (0) X X R R τ ≤ . O valor quadrático médio do p.a. é dado por: 2 [ ( )] (0) X E X t R = . A figura a seguir ilustra estas propriedades e mostra que a função de auto-correlação de um processo aleatório está intimamente ligada com o conteúdo de freqüências deste processo. Um p.a. que tem flutuações mais rápidas e que, portanto, tem componentes de freqüência mais elevadas, tem uma função de auto-correlação mais “aberta”. Um p.a. que tem flutuações mais lentas e que, portanto, não tem componentes de freqüências altas, tem uma função de auto-correlação mais “estreita”. Veremos mais adiante no nosso curso que, de fato, a forma como as componentes de freqüência de um sinal aleatório de tensão se distribuem será determinada pela Transformada de Fourier da função de auto- correlação do processo aleatório correspondente. 116 ---------------------------------------------------------------------------------------------------------------------------- Exemplo: A função amostra x(t) dada na figura a seguir pertence ao p.a. X(t) referente a uma seqüência binária aleatória tal que: bit 1 ⇒ +A, bit 0 ⇒ −A. Os pulsos não são sincronizados: o instante de início td do primeiro bit completo pode estar entre 0 e T com FDP uniforme. Bits consecutivos têm valores 0 ou 1 igualmente prováveis ⇒ E[X(t)] = 0, e cada bit tem seu valor independente de qualquer valor anterior ou posterior. Vamos determinar a função de auto-correlação do p.a. X(t). Inicialmente vamos considerar | t k – t i | ≥ T. Neste caso X(t k ) e X(t i ) ocorrem em diferentes intervalos de pulso e são, portanto, independentes: [ ( ) ( )] [ ( )] [ ( )] 0, | | k i k i k i E X t X t E X t E X t t t T = = − ≥ Agora vamos considerar |t k – t i | < T, com t i < t k . Neste caso X(t k ) e X(t i ) vão ocorrer no mesmo intervalo de pulso somente se t d < T – |t k – t i |. Então: 2 , | | [ ( ) ( )| ] 0, caso contrário d k i k i d A t T t t E X t X t t ¦ < − − = ´ ¹ Para eliminar o condicionamento ao valor de t d aplicamos a Lei da Esperança Total que diz que: { } [ ] [ | ] E X E E X Y = Assim, realizando a média sobre todos os possíveis valores de t d , obtemos: 117 2 | | | | 2 2 0 0 | | [ ( ) ( )] ( ) 1 k i k i d T t t T t t k i k i T d d d A t t E X t X t A f t dt dt A T T − − − − − | | = = = − | \ ¹ ∫ ∫ E finalmente, fazendo τ = t k – t i tem-se a função de auto-correlação desejada 2 | | 1 ( ) , | | 0, | | X A R T T T τ τ τ τ ¦ | | − ¦ | = < \ ¹ ´ ¦ ≥ ¹ , cujo esboço é mostrado na figura a seguir. ---------------------------------------------------------------------------------------------------------------------------- Na prática muitas vezes é suficiente verificar se somente as estatísticas de primeira e de segunda ordem não variam com o tempo. Um p.a. cuja média independe do tempo e a função de auto-correlação depende somente da diferença entre os instantes de observação, não do valor específico destes instantes, é denominado processo aleatório estacionário no sentido amplo (Wide-Sense Stationary, WSS), ou simplesmente estacionário. ---------------------------------------------------------------------------------------------------------------------------- FIM DA AULA 118 Aula nº Data Tema Processos Estocásticos - 2 Conteúdo Processos estocásticos: Função de correlação cruzada para dois processos estocásticos estacionários. Função de auto-covariância de um processo estocástico. Função de covariância cruzada para dois processos estocásticos estacionários. Processos estocásticos ergódicos. Objetivos Ao final da aula os alunos deverão ser capazes de: 1) identificar processos aleatórios ortogonais e descorrelacionados a partir de análise das funções de correlação cruzada e de auto-covariância. 2) determinar as funções de correlação cruzada e de auto-covariância de processos aleatórios, seja pela definição estatística ou por aproximação via média amostral. 3) conceituar processos estocásticos ergódicos e sua importância em termos de simplificação na estimativa de suas médias estatísticas em termos de médias temporais. 4) realizar cálculos de médias estatísticas de processos aleatórios ergódicos por meio de médias temporais. Função de correlação cruzada para dois processos estocásticos estacionários A função de correlação cruzada para os processos estocásticos estacionários X(t) e Y(t) é: ( ) [ ( ) ( )] e ( ) [ ( ) ( )] XY YX R E X t Y t R E Y t X t τ τ τ τ = + = + Esta função é par e mede a correlação entre a variável aleatória gerada por amostragem do processo X(t) em um instante t qualquer e a variável aleatória gerada por amostragem do processo Y(t) em um instante t + τ. Sua principal aplicação reside na verificação do grau de ortogonalidade entre processos aleatórios: dois processos estocásticos são ditos ortogonais se a função de correlação cruzada é nula. ---------------------------------------------------------------------------------------------------------------------------- Exemplo: Em sistemas de comunicação é comum encontrarmos o que é chamado de modulação em quadratura. Neste tipo de modulação tem-se 1 ( ) ( ) cos(2 ) c X t I t f t π = + Θ e 2 ( ) ( )sin(2 ) c X t Q t f t π = + Θ , onde I(t) e Q(t) são sinais relacionados à informação que se deseja transmitir e Θ é uma fase aleatória uniformemente distribuída em (0, 2π]. Vamos determinar a função de correlação cruzada entre os processos X 1 (t) e X 2 (t): 12 1 2 1 2 1 2 ( ) [ ( ) ( )] [ ( ) ( ) cos(2 )sin(2 2 )] [ ( ) ( )] [cos(2 )sin(2 2 )] ( ) [sin(4 2 2 ) sin(2 )] ( )sin(2 ) c c c c c c IQ c c c IQ c R E X t X t E I t Q t f t f t f E I t Q t E f t f t f R E f t f f R f τ τ τ π π π τ τ π π π τ τ π π τ π τ τ π τ = − = + + Θ − + Θ = + + Θ − + Θ = − + Θ − = − 119 onde fizemos o uso do fato que Θ é independente de I(t) e Q(t) e da identidade sin(a)cos(b) = ½sin(a – b) + ½sin(a + b). Note que para τ = 0 teremos R 12 (τ) = 0. Isto significa que se os processos X 1 (t) e X 2 (t) forem amostrados simultaneamente, serão obtidas variáveis aleatórias ortogonais. De um ponto de vista mais relacionado às telecomunicações, isto significa ainda que os sinais I(t) e Q(t) não se interferirão quando transmitidos por portadoras em quadratura. ---------------------------------------------------------------------------------------------------------------------------- Função de auto-covariância para um processo estocástico A função de auto-covariância de um p.a. X(t) é a covariância das v.a. X(t 1 ) e X(t 2 ), obtidas pela observação do p.a. nos instantes t 1 e t 2 , respectivamente. Pode ser interpretada como a função de auto- correlação do processo centralizado (retirando-se a média) e é definida por: [ ][ ] { } 1 2 1 1 2 2 1 2 1 2 ( , ) ( ) ( ) ( ) ( ) ( , ) ( ) ( ) X X X X X X K t t E X t t X t t R t t t t µ µ µ µ = − − = − Para um p.a. estacionário, a função de auto-covariância vale: 2 1 2 2 1 ( , ) ( ) X X X K t t R t t µ = − − Fazendo t 2 – t 1 = τ, podemos escrever: 2 ( ) ( ) X X X K R τ τ µ = − Se a função de auto-covariância de um processo aleatório é nula, significa que as variáveis obtidas por amostragem deste processo nos instantes t 1 e t 2 são descorrelacionadas. Neste caso a correlação entre estas variáveis passará a ser determinada pelo produto das médias do processo em questão, avaliadas nos instantes t 1 e t 2 . Da mesma forma que no estudo de variáveis aleatórias, a covariância é uma medida da “amarração estatística” entre os processos aleatórios analisados. Assim, se a função de auto-covariância tem um valor elevado a um dado τ = t 2 – t 1 , as estatísticas obtidas da variável aleatória X(t 1 ) têm grande probabilidade de ser observadas também na variável aleatória X(t 2 ). Como exemplo, se X(t 1 ) tem média elevada, X(t 2 ) provavelmente o terá. Função de covariância cruzada para dois processos estocásticos estacionários Em se tratando de dois processos aleatórios, pode-se definir a função de covariância cruzada que, para processos estacionários, vale: ( ) ( ) XY XY X Y K R τ τ µ µ = − 120 Se os processos X(t) e Y(t) são descorrelacionados, K XY (τ) = 0 e a função de correlação cruzada entre os processos passa a ser determinada pelo produto das suas médias, ou seja: ( ) XY X Y R τ µ µ = Observe que para processos ortogonais R XY (τ) = 0. Estes processos serão também descorrelacionados se a média µ X ou a média µ Y for nula, ou ambas forem nulas. Processos estocásticos ergódicos O conceito de processos estocásticos ergódicos é um dos mais úteis ao estudo de sistemas de comunicação e, por esta razão, daremos a este estudo uma grande importância. As médias de um p.a. são, por definição, médias estatísticas tomadas “através” do processo, ou seja, operando no conjunto de funções amostra. Para os processos ergódicos, as médias estatísticas podem ser obtidas por meio de medias temporais realizadas a partir de uma única função amostra, ou seja, “ao longo” do processo. Felizmente, em telecomunicações os processos aleatórios podem ser considerados, em sua maioria, ergódicos. A classe de processos ergódicos compreende uma classe especial de processos aleatórios estacionários. A figura a seguir, praticamente uma réplica daquela utilizada quando definimos processos aleatórios, ilustra o conceito de obtenção de amostras “através” e “ao longo” de um processo aleatório. Para um processo ergódico X(t), considere um intervalo de observação T de uma de suas funções amostra, x(t). A média e a função de auto-correlação podem ser determinadas pelas médias temporais: 121 / 2 / 2 1 ( ) ( ) T X T T x t dt T µ − = ∫ / 2 / 2 1 ( , ) ( ) ( ) T X T R T x t x t dt T τ τ − = + ∫ [ ] [ ] { } lim ( ) lim var ( ) 0 X X T X T T T µ µ µ →∞ →∞ = = [ ] [ ] { } lim ( , ) ( ) lim var ( , ) 0 X X T X T R T R R T τ τ τ →∞ →∞ = = Em termos da função de correlação cruzada, para dois processos aleatórios ergódicos teremos: / 2 / 2 1 ( , ) ( ) ( ) T XY T R T x t y t dt T τ τ − = + ∫ [ ] [ ] { } lim ( , ) ( ) lim var ( , ) 0 XY XY T XY T R T R R T τ τ τ →∞ →∞ = = Em outras palavras, se o processo aleatório é ergódico, as médias estatísticas podem ser calculadas temporalmente, ou seja, em vez de realizar os cálculos “através” do processo, por meio do operador E[⋅ ⋅⋅ ⋅], realizam-se os cálculos “ao longo” de uma única função amostra do processo, por meio de médias temporais. As expressões complementares envolvendo limites significam que à medida que o intervalo de observação T aumenta, maior a convergência da média temporal em relação ao valor real da média estatística e menor é a variância da média temporal em relação ao valor real da média estatística. As médias temporais pressupõem o conhecimento da representação matemática para x(t). Entretanto, como x(t) é aleatório, na prática as integrais que fazem parte da definição da média e da função de auto- correlação de um p.a. ergódico são aproximadas por somatórios das amostras de uma função amostra do processo sob análise. Em outras palavras, em situações práticas as médias temporais de processos estocásticos ergódicos podem ser estimadas por meio de médias amostrais dos processos em questão: 1 1 ( ) ( ) N X i i N x t N µ = = ∑ 1 1 ( , ) ( ) ( ) N X i i i R N x t x t N τ τ = = + ∑ [ ] [ ] { } lim ( ) lim var ( ) 0 X X N X N N N µ µ µ →∞ →∞ = = [ ] [ ] { } lim ( , ) ( ) lim var ( , ) 0 X X N X N R N R R N τ τ τ →∞ →∞ = = Em termos da função de correlação cruzada, para dois processos aleatórios ergódicos teremos: 1 1 ( , ) ( ) ( ) N XY i i i R N x t y t N τ τ = = + ∑ 122 [ ] [ ] { } lim ( , ) ( ) lim var ( , ) 0 XY XY N XY N R N R R N τ τ τ →∞ →∞ = = ---------------------------------------------------------------------------------------------------------------------------- Exercício de fixação Suponha que um dado gerador de forma de onda aleatória possa ser programado para gerar diferentes tipos de processos aleatórios. Utilizando este gerador, pede-se: a) Proponha um experimento que lhe permita estimar a média e a função de auto-correlação de um p.a. qualquer de saída. b) Proponha um experimento que lhe permita determinar se o processo aleatório de saída do gerador é ou não é ergódico. c) Sabendo que os p.a. gerados são ergódicos, proponha um experimento que lhe permita estimar a média e a função de auto-correlação de um p.a. qualquer de saída. d) Sabendo que os p.a. gerados são ergódicos, proponha um experimento que lhe permita determinar de forma aproximada a função densidade de probabilidade de um p.a. qualquer de saída do gerador. ---------------------------------------------------------------------------------------------------------------------------- FIM DA AULA 123 Aula nº Data Tema Processamento de sinais aleatórios - 1 Conteúdo Processamento de sinais aleatórios: Principais médias estatísticas envolvendo sistemas lineares. Densidade espectral de potência (DEP) de um processo aleatório. Algumas propriedades da DEP. Objetivos Ao final da aula os alunos deverão ser capazes de: 1) calcular a média e determinar a função de autocorrelação do processo aleatório de saída de um sistema linear inveriante no tempo. 2) conceituar densidade espectral de potência. 3) realizar cálculos de densidade espectral de potência via transformada de Fourier de uma função de auto-correlação. 4) realizar cálculos simplificados de densidade espectral de potência de processos aleatórios que correspondam a seqüências binárias bipolares. No estudo de sistemas de comunicação é comum encontrarmos problemas que envolvem a passagem de sinais aleatórios por sistemas lineares, tais como filtros de transmissão e recepção, multiplicadores, integradores, etc. Nesta parte do curso utilizaremos de forma combinada os conceitos sobre processos aleatórios e sobre sistemas lineares, objetivando caracterizar os processos aleatórios de entrada e de saída destes sistemas. Mais uma vez, devido à grande importância dos conceitos sobre processos estocásticos no estudo de sistemas de comunicações, várias partes destas notas foram baseadas na referência: HAYKIN, Simon, Communication Systems, 4th Edition, John Wiley and Sons, Inc.: New York, USA, 2001, Capítulo 1. Sendo assim, recomenda-se fortemente que esta referência seja incluída como material de estudo. ---------------------------------------------------------------------------------------------------------------------------- Principais médias estatísticas envolvendo sistemas lineares A figura a seguir mostra um sistema linear invariante no tempo com resposta ao impulso h(t), tendo como entrada o processo aleatório X(t) e como saída o processo Y(t). O processo aleatório de saída do sistema linear, embora não possa ser determinado em termos de uma expressão matemática, continua sendo dado pela convolução do processo de entrada com a resposta ao impulso do sistema, ou seja: ( ) ( ) ( ) ( ) ( ) ( ) ( ) Y t X t h t h u X t u du X u h t u du ∞ ∞ −∞ −∞ = ∗ = − = − ∫ ∫ A média do processo aleatório de saída é dada por: ( ) [ ( )] ( ) [ ( )] ( ) ( ) Y X t E Y t h u E X t u du h u t u du µ µ ∞ ∞ −∞ −∞ = = − = − ∫ ∫ 124 Se o processo X(t) for estacionário, teremos como média de saída: 2 0 ( ) ( ) (0) j ft Y X X X f h t dt h t e dt H π µ µ µ µ ∞ ∞ − −∞ −∞ = = = = ∫ ∫ A função de auto-correlação do processo de saída é dada por: ( , ) [ ( ) ( )] ( ) ( ) ( ) ( ) ( ) ( ) [ ( ) ( )] Y R t E Y t Y t E h u X t u du h v X t v dv h u h v E X t u X t v dudv τ τ τ τ ∞ ∞ −∞ −∞ ∞ ∞ −∞ −∞ ( = + = − + − ( ¸ ¸ = − + − ∫ ∫ ∫ ∫ Se o processo X(t) for estacionário, teremos como função de auto-correlação do processo de saída: ( ) ( ) ( ) ( ) Y X R h u h v R v u dudv τ τ ∞ ∞ −∞ −∞ = − + ∫ ∫ Esta expressão, embora de resolução difícil razoavelmente, permite que a função de auto-correlação do processo de saída do sistema linear seja determina conhecendo-se a resposta ao impulso do sistema e a função de auto-correlação do processo de entrada. Densidade espectral de potência (DEP) de um processo aleatório A densidade espectral de potência descreve como a potência de um sinal X(t), seja ele aleatório ou determinístico, se distribui na freqüência e, por esta razão, é medida em watts/Hertz (W/Hz). Trata-se de um parâmetro de extrema importância no estudo de sistemas de comunicação, pois permite que conheçamos o conteúdo de freqüência de um sinal qualquer. Quando temos um sinal determinístico, o conteúdo de freqüências pode ser determinado por meio da conhecida transformada de Fourier. Entretanto, com processos aleatórios não é possível realizar o cálculo teórico da transformada, posto que tais processos não podem ser descritos com expressões matemáticas determinísticas. Felizmente existe uma forma simples de contornar este problema, utilizando a função de auto-correlação do processo estocástico sob análise. A densidade espectral de potência e a função de auto-correlação de um p.a. estacionário formam um par na transformada de Fourier, ou seja: 2 ( ) ( ) j f X X S f R e d π τ τ τ ∞ − −∞ = ∫ 2 ( ) ( ) j f X X R S f e df π τ τ ∞ −∞ = ∫ Algumas propriedades da DEP O valor quadrático médio, ou segundo momento de um p.a. é dado pela área sob a curva de densidade espectral de potência: 125 2 ( ) (0) [ ( )] X X S f df R E X t ∞ −∞ = = ∫ Em outras palavras, se estivermos analisando um sinal de tensão, a potência média deste sinal, dada pelo valor quadrático médio, poderá ser determinada pela integral da função que descreve a DEP do sinal. A densidade espectral de potência é uma função par, ou seja: ( ) ( ) X X S f S f = − . ---------------------------------------------------------------------------------------------------------------------------- Exemplo: Retornemos ao exemplo referente a uma seqüência binária aleatória, apresentado na primeira aula sobre processos estocásticos, de onde obtivemos a função de auto-correlação: 2 | | 1 , | | ( ) 0, | | X A T R T T τ τ τ τ ¦ | | − < ¦ | = \ ¹ ´ ¦ ≥ ¹ De uma tabela de transformada de Fourier podemos obter: 2 Transformada de Fourier 2 | | 1 , | | sin ( ) ( ) 0, | | t t T fT T T fT t T π π ¦ − < ¦ ←→ ´ ¦ ≥ ¹ Então, a DEP de uma seqüência binária aleatória de pulsos de duração T e amplitudes {± A} será: [ ] 2 2 2 2 2 sin ( ) ( ) ( ) sinc ( ) ( ) X X fT S f R A T A T fT fT π τ π = ℑ = = A DEP em questão é mostrada na figura a seguir em escala linear (linha cheia) e em escala logarítmica (linha tracejada). Em telecomunicações é comum o uso de escala logarítmica para que, visualmente, as grandes discrepâncias entre baixas e altas intensidades sejam diminuídas. Perceba que o uso deste recurso nos permitirá vozualizar com maior precisão lóbos espectrais de intensidade bastante pequena. 126 Vamos estimar o valor quadrático médio E[X 2 (t)] por meio da área sob S X ( f ) e comparar com R X (0). Podemos fazer isto calculando de forma aproximada a área do lóbo principal, posto que ela nitidamente é maior que a área dos demais lóbos. Aproximando-a pela área de um triângulo de base 2/T e altura A 2 T, temos que E[X 2 (t)] ≅ A 2 , que é de fato o valor da função de auto-correlação para τ = 0, R X (0). ---------------------------------------------------------------------------------------------------------------------------- O valor de S X ( f ) encontrado no exemplo anterior pode ser escrito envolvendo a densidade espectral de energia (DEE) de um pulso g(t) retangular, de amplitude A e duração T. A DEE de um pulso g(t) nada mais é que o módulo ao quadrado da transformada de Fourier de g(t). Assim teremos: 2 ( ) | ( ) | ( ) g X f G f S f T T = = E que para o exemplo anterior vale 2 2 2 2 2 ( ) sinc ( ) / sinc ( ) X S f A T fT T A T fT = = . Este importante resultado pode ser generalizado: uma onda binária aleatória composta por pulsos +g(t) e − −− −g(t) tem densidade espectral de potência S X (f) dada pela divisão da densidade espectral de energia E EE E g (f) do pulso “formatador” g(t) pela duração do pulso, T. ---------------------------------------------------------------------------------------------------------------------------- Desafio: Como desafio para casa, determinar a densidade espectral de potência para a seqüência binária aleatória x(t) ilustrada a seguir, correspondente a uma função amostra do processo X(t). O formato de pulso g(t) é um semi-ciclo senoidal de amplitude unitária e duração T. 127 ---------------------------------------------------------------------------------------------------------------------------- Exemplo: Uma situação que ocorre tipicamente em sistemas de comunicação é o processo de modulação de uma portadora por um sinal de informação aleatório, conforme abaixo: ( ) ( ) cos(2 ) c Y t X t f t π = + Θ onde Y(t) é o p.a. modulado, X(t) é o p.a. modulador associado à informação e cos(2πf c t + Θ) é o p.a. correspondente à portadora de freqüência f c e fase aleatória Θ uniformemente distribuída em (0, 2π]. Seja determinar a DEP do sinal modulado Y(t) a partir da DEP do sinal modulador X(t). Inicialmente identificamos que o sinal modulador X(t) é independente da fase da portadora, Θ. Então podemos escrever: ( ) [ ( ) ( )] [ ( ) cos(2 ) ( ) cos(2 2 )] [ ( ) ( )] [cos(2 ) cos(2 2 )] Y c c c c c c R E Y t Y t E X t f t X t f t f E X t X t E f t f t f τ τ π τ π π τ τ π π π τ = + = + Θ + + + Θ = + + Θ + + Θ Usando a identidade cos(a)cos(b) = ½cos(a – b) + ½cos(a + b), tem-se: 1 2 1 2 ( ) ( ) [cos(2 ) cos(4 2 2 )] ( ) cos(2 ) Y X c c c X c R R E f f t f R f τ τ π τ π π τ τ π τ = + + + Θ = Tomando a transformada de Fourier de ambos os lados e sabendo que a transformada de um produto de funções no tempo é a convolução das correspondentes transformadas, tem-se: [ ] { } [ ] 1 1 1 2 2 2 1 4 ( ) ( ) ( ) ( ) ( ) ( ) Y X c c X c X c S f S f f f f f S f f S f f δ δ = ∗ − + + = − + + De acordo com este resultado, para determinarmos a DEP de um sinal modulado Y(t) basta replicar a DEP S X ( f ) do sinal modulador X(t) em torno de ± ±± ± f c e multiplicar o resultado por ¼. ---------------------------------------------------------------------------------------------------------------------------- FIM DA AULA 128 Aula nº Data Tema Processamento de sinais aleatórios - 2 Conteúdo Processamento de sinais aleatórios: Estimando a DEP de um processo aleatório ergódico. Objetivos Ao final da aula os alunos deverão ser capazes de: 1) conceituar a dificuldade de obtenção da densidade espectral de potência de um processo aleatório qualquer. 2) realizar estimativas da DEP de um processo aleatório qualquer por meio de estimativas da função de auto-correlação do processo. 3) conceitura o processo de estimação da DEP de um processo aleatório ergódico via transformada discreta de Fourier. Estimando a DEP de um processo aleatório ergódico Estimar a DEP de um processo aleatório nem sempre é uma tarefa fácil, na maior parte das vezes por dificuldade de tratamento matemático na obtenção da função de auto-correlação. Uma tentativa de driblar este problema poderia fazer uso de estimativas aproximadas desta função. Vamos analisar este problema à luz de um exemplo. ---------------------------------------------------------------------------------------------------------------------------- Exemplo: Vimos que a densidade espectral de potência para um processo aleatório estacionário X(t) pode ser determinada pela transformada de Fourier do processo, ou seja: 2 ( ) ( ) j f X X S f R e d π τ τ τ ∞ − −∞ = ∫ Vários livros trazem expressões para as funções de auto-correlação para processos aleatórios conhecidos. Nestes casos torna-se bastante simples obter a DEP para estes processos, pois nos restará “apenas” fazer um cálculo de transformada de Fourier. Vamos supor que temos um processo aleatório ergódico para o qual a função de auto-correlação não é encontrada nos livros e o cálculo exato desta é complexo. Vamos verificar como faríamos para estimar a função de auto-correlação do processo sob análise para posteriormente estimarmos a sua DEP. Recordando, a função de auto-correlação de um processo X(t) é dada por: ( ) [ ( ) ( )] X i i R E X t X t τ τ = + para qualquer t i se o p.a. for estacionário. Vamos analisar o processo de estimação de R X (τ) por média amostral. Teríamos que calcular: 1 1 ( , ) ( ) ( ) N X i i i R N x t x t N τ τ = = + ∑ , fazendo N tão grande quanto possível para que a estimativa convirja para R X (τ). Para tanto colheríamos N amostras de uma função amostra do processo sob análise, mais N amostras espaçadas de τ das 129 primeiras, multiplicaríamos cada par de amostras, somaríamos os N resultados e dividiríamos por N. Teríamos que fazer isto para um conjunto de espaçamentos τ que fosse suficiente para que tivéssemos uma boa estimativa de R X (τ). Isto corresponderia a um trabalho imenso! Imagine agora que o processo não fosse ergódico. Teríamos que realizar as médias com amostras tomadas “através” de N funções amostra do processo, o que dificultaria ainda mais nossa tarefa. ---------------------------------------------------------------------------------------------------------------------------- Então, por dificuldade de tratamento matemático na obtenção da função de auto-correlação de um processo aleatório específico, algumas vezes temos que nos contentar com estimativas da DEP obtidas pela observação de uma função amostra do processo aleatório em um intervalo T, assim como fazemos para obter médias estatísticas de um processo ergódico por meio de médias temporais. Nestes casos teremos: 2 1 ( ) lim ( , ) X T S f E X f T T →∞ ( = ¸ ¸ onde |X( f,T )| é a magnitude da transformada de Fourier de uma função amostra observada em T segundos. Diz-se que tal função amostra foi “janelada”. Na prática diferentes tipos de janela e diferentes formas de cálculo de média são empregados. Tais janelas são chamadas de window type e as médias são muitas vezes associadas a certo tipo de alisamento (smoothing) do resultado. Na figura a seguir temos um exemplo de como o aplicativo VisSim/Comm trata esta questão de estimativa da DEP de um processo aleatório. Esta figura corresponde a uma cópia da tela do aplicativo. Segue a descrição sucinta dos principais blocos da figura: 1 – O bloco random binary wave gera uma função amostra do processo correspondente a uma seqüência binária aleatória. Outro tipo de p.a. poderia ser gerado para análise. 2 – O bloco trigger apenas habilita o início de cálculo da DEP do sinal sob análise. 3 – É neste bloco que a estimativa da DEP é realizada por meio da última expressão dada. O cálculo de |X( f,T )|, a magnitude da transformada de Fourier de uma função amostra observada em T segundos, é realizado por meio da chamada transformada rápida de Fourier (FFT – Fast Fourier Transform) que opera em um vetor com as amostras do sinal colhidas no intervalo T. Esta transformada nada mais é do que uma versão discreta da transformada de Fourier que permite que se obtenha o resultado da transformada sem que se tenha que operar com uma expressão matemática do sinal analisado. 4 – O resultado da estimativa da magnitude da DEP é então apresentado num gráfico, tendo a freqüência como variável no eixo das abscissas e a DEP, em dBm/Hz, no eixo das ordenadas. O bloco 3 da figura em questão tem como principais parâmetros: a – O tipo de janela (window type) é escolhido aqui. Na janela retangular (rectangular) determina-se apenas o tamanho do intervalo em que as amostras do p.a. sob análise serão coletadas para cálculo da FFT. Nos outros tipos as amostras da parte mais externa da janela são 130 ponderadas de acordo com regras específicas que estão além do escopo deste texto. Cada janela tem suas vantagens e desvantagens em termos da precisão na estimativa da DEP, um assunto abordado de forma aprofundada no estudo de processamento digital de sinais aleatórios. b – O intervalo de observação é traduzido em um número de amostras processadas pela FFT, número este que é determinado pela divisão do intervalo T pelo inverso da freqüência de simulação (freqüência de amostragem) utilizada pelo aplicativo. Para o exemplo o número de amostras é de 2k = 2.048. c – É aqui que se configura como o operador E[.] é processado no aplicativo. Para o caso ele corresponde à média aritmética entre 10 resultados de estimativa de DEP, obtidos em 10 intervalos consecutivos contendo 2.048 amostras cada um. d – Este parâmetro especifica a resistência de carga simulada, de tal sorte que os valores de DEP sejam corretamente determinados. e – Aqui se especifica que unidade se deseja para a representação da DEP, sendo a última (dBm/Hz) a mais utilizada tanto em cálculos teóricos como em equipamentos de análise espectral. A teoria que acaba de ser descrita e exemplificada é uma forma muito usual de se estimar a DEP de um processo aleatório e é adotada em muitos softwares de simulação ou de cálculo matemático e analisadores de espectro digitais, nos quais se opera com amostras do processo aleatório analisado de forma muito similar àquela ilustrada na figura anterior. ---------------------------------------------------------------------------------------------------------------------------- FIM DA AULA 131 Aula nº Data Tema Processamento de sinais aleatórios - 3 Conteúdo Processamento de sinais aleatórios: DEP na entrada e na saída de um sistema linear. Densidades espectrais cruzadas para p.a. estacionários. Processo aleatório Gaussiano. Objetivos Ao final da aula os alunos deverão ser capazes de: 1) determinar a densidade e espectral de potência (DEP) de saída de um sistema linear em função da DEP do processo de entrada e da resposta em freqüência do sistema. 2) determinar a DEP da soma de dois processos aleatórios estacionários e analisar nesta DEP a influência das densidades cruzadas. 3) conceituar um processo aleatório Gaussiano e a passagem deste por um sistema linear. 4) conceituar um processo aleatório Gaussiano complexo. DEP na entrada e na saída de um sistema linear Seja um processo estocástico estacionário X(t) aplicado à entrada de um sistema linear invariante no tempo cuja resposta em freqüência é H(f). A densidade espectral de potência do processo aleatório de saída Y(t) é determinada por meio de: 2 ( ) ( ) ( ) Y X S f S f H f = ---------------------------------------------------------------------------------------------------------------------------- Exemplo: A magnitude da resposta em freqüência de um filtro passa-baixas tipo RC é dada por: 2 1 | ( ) | 1 (2 ) H f fRC π = + , À entrada deste filtro aplica-se um processo aleatório X(t) cuja densidade espectral de potência é constante e vale S X (f) = 1×10 –3 watts/Hz. Vamos calcular a potência média do processo aleatório Y(t) de saída deste filtro, dado que R = 5 kΩ, C = 1 µF e 1 2 2 1 1 tan x dx a x a a − | | = | + \ ¹ ∫ . 132 2 3 2 3 2 3 3 2 2 2 2 2 2 2 2 2 2 2 2 1 ( ) ( ) | ( ) | 1 10 | ( ) | 1 10 1 (2 ) Escrevendo esta integral na forma da diretiva dada, temos: 1 10 1 1 10 1 = 1 4 4 1 4 2 Y Y X Y P S f df S f H f df H f df df fRC P df R C R C f f R C RC π π π π π ∞ ∞ ∞ ∞ − − −∞ −∞ −∞ −∞ − − ∞ −∞ − = = = × = × + × × = | | + + | \ ¹ ∫ ∫ ∫ ∫ ∫ 3 1 2 2 2 3 3 3 2 2 2 3 6 1 10 que resolvendo resulta em: = 2 tan (2 ) 4 1 10 1 10 1 10 2 0,1watts 4 2 2 2 2 5 10 1 10 Y Y df P RC fRC R C RC P R C RC π π π π π π π ∞ ∞ − ∞ − −∞ − − − − × ( × ¸ ¸ × × × ( | | = + = = ⇒ = | ( × × × × \ ¹ ¸ ¸ ∫ ---------------------------------------------------------------------------------------------------------------------------- Densidades espectrais cruzadas para p.a. estacionários Embora tenham significados menos intuitivos que a DEP de um único p.a., as densidades espectrais cruzadas estabelecem certa dependência entre as componentes de freqüência de processos X(t) e Y(t) quaisquer. Elas são definidas por: 2 2 ( ) ( ) e ( ) ( ) j f j f XY XY YX YX S f R e d S f R e d π τ π τ τ τ τ τ ∞ ∞ − − −∞ −∞ = = ∫ ∫ Um exemplo pode melhor ilustrar uma aplicação do conhecimento das densidades espectrais cruzadas. ---------------------------------------------------------------------------------------------------------------------------- Exemplo: Suponha que os processos X(t) e Y(t) têm média nula e são individualmente estacionários. Seja o p.a. Z(t) = X(t) + Y(t), para o qual se deseja determinar a densidade espectral de potência. ( ) [ ( ) ( )] {[ ( ) ( )][ ( ) ( )]} [ ( ) ( )] [ ( ) ( )] [ ( ) ( )] [ ( ) ( )] ( ) ( ) ( ) ( ) Z X XY YX Y R E Z t Z t E X t Y t X t Y t E X t X t E X t Y t E Y t X t E Y t Y t R R R R τ τ τ τ τ τ τ τ τ τ τ τ = + = + + + + = + + + + + + + = + + + Tomando a transformada de Fourier de ambos os lados, tem-se: ( ) ( ) ( ) ( ) ( ) Z X XY YX Y S f S f S f S f S f = + + + Desse resultado concluímos que as densidades espectrais cruzadas S XY (f) e S YX (f) representam as componentes de freqüência que precisam ser adicionadas às DEPs dos processos X(t) e Y(t) para que a DEP da soma Z(t) = X(t) + Y(t) seja corretamente obtida. 133 Observe que se os processos X(t) e Y(t) forem ortogonais as correlações cruzadas serão nulas e neste caso teremos, como esperado: ( ) ( ) ( ) Z X Y S f S f S f = + , ou seja, se os processos X(t) e Y(t) forem ortogonais, a DEP da soma destes processos será igual à somas de suas DEPs. Assim podemos interpretar as densidades cruzadas como parcelas da DEP que levam em conta o grau de ortogonalidade entre os processos aleatórios envolvidos. ---------------------------------------------------------------------------------------------------------------------------- Processo aleatório Gaussiano Em uma forma simples de definição, um processo aleatório é dito Gaussiano se a função densidade de probabilidade (FDP) de uma variável aleatória gerada por amostragem do citado processo for Gaussiana. Se o processo em questão for ergódico, tais amostras podem ser coletadas temporalmente, ou seja, ao longo de uma das funções amostra do processo, em vez de colhidas através do processo, envolvendo as suas várias funções amostra. Numa definição mais formal e estatisticamente mais correta, seja uma variável aleatória Y definida a partir de uma relação funcional linear com um processo aleatório X(t), conforme expressão a seguir, onde g(t) é uma função qualquer e T é um intervalo de observação arbitrário: 0 ( ) ( ) T Y g t X t dt = ∫ Se a v.a. Y é Gaussiana independente da escolha da função g(t) e do intervalo de tempo T na relação funcional dada, dizemos que o p.a. X(t) é Gaussiano. Em outras palavras, se um processo aleatório X(t) for processado linearmente segundo a expressão acima e se Y for uma v.a. Gaussiana independentemente da escolha arbitrária de g(t), dizemos então que X(t) é um p.a. Gaussiano. Perceba que se revisitarmos a expressão de convolução de um processo aleatório de entrada de um sistema linear com sua resposta ao impulso, visualizaremos um exemplo de relação funcional. Então, desta definição formal de um processo Gaussiano obtemos o importante resultado: Um processo aleatório Gaussiano, ao atravessar um sistema linear, gera como saída um processo aleatório também Gaussiano. ---------------------------------------------------------------------------------------------------------------------------- Exemplo: Em receptores de sistemas de comunicação é usual que seja inserido logo na entrada um filtro de recepção, cujo objetivo é reduzir a influência do ruído na recuperação da informação transmitida. Como veremos mais adiante, este ruído é normalmente um p.a. Gaussiano. Portanto, na saída do filtro de recepção teremos também um p.a. Gaussiano, o que nos permitirá analisar matematicamente o comportamento do sinal a partir do qual recuperaremos a informação. Esta conclusão é extensivamente utilizada na concepção e no projeto de receptores em sistemas de comunicação sujeitos à influência desse ruído. 134 ---------------------------------------------------------------------------------------------------------------------------- Exemplo: Sistemas celulares, por exemplo, fazem parte de uma família mais abrangente de sistemas que englobam todos os tipos de sistemas de comunicação móvel. Em um sistema como este, devido à mobilidade relativa entre transmissor e receptor, o sinal recebido sofre variações de fase e de magnitude, às quais damos o nome de desvanecimento. Experimentos demonstram que a magnitude R(t) e a fase Θ(t) do desvanecimento em um canal de comunicação móvel são processos aleatórios que tipicamente variam com distribuição de Rayleigh e Uniforme, respectivamente. Podemos então definir o chamado processo Gaussiano Complexo R(t)e jΘ(t) , no qual a parte real X(t) e a parte imaginária Y(t) são p.a. Gaussianos de média nula. Tal processo gaussiano pode ser obtido por meio de: 2 2 ( ) ( ) ( ) R t X t Y t = + [ ] ( ) arctan ( ) ( ) t Y t X t Θ = Sendo assim, se quisermos gerar este p.a. Gaussiano complexo por simulação, com o atributo de permitir o ajuste da velocidade de variação do desvanecimento, poderemos implementar o esquema da figura seguinte. Nele, filtros controlam a taxa de variação dos processos Gaussianos componentes e, assim, controlam a taxa de variação da magnitude e da fase do desvanecimento. A freqüência de corte desses filtros é diretamente proporcional à velocidade relativa entre o transmissor e o receptor que se deseja simular. Em outras palavras, quanto mais lento se desejar o desvanecimento, mais lentamente deverão variar os processos Gaussianos componentes X(t) e Y(t). Isto é conseguido estreitando-se a largura de faixa dos citados filtros. Numa simulação, X(t) e Y(t) poderiam ser gerados pelo método de Box-Muller, por exemplo, e filtrados utilizando-se modelos matemáticos de filtros digitais. As figuras a seguir ilustram o aspecto das variações de magnitude do sinal recebido por um terminal móvel para duas diferentes velocidades de movimento. 135 A título de complementação ou de curiosidade, faça uma breve pesquisa procurando entender como se implementa um modelo de um filtro digital, como funciona a estrutura correspondente e como amostras de um sinal aleatório ou determinístico são processadas por este filtro digital. ---------------------------------------------------------------------------------------------------------------------------- FIM DA AULA 136 Aula nº Data Tema Ruído Conteúdo Ruído. Ruído térmico. Ruído branco. Largura de faixa equivalente de ruído. Correlação entre o ruído branco e uma portadora co-senoidal. Objetivos Ao final da aula os alunos deverão ser capazes de: 1) conceituar ruído, ruído impulsivo e , principalmente ruído térmico. 2) conceituar ruído branco e interpretar seu modelo matemático em termos de densidade espectral de potência e função de auto-correlação. 3) conceituar a definição de largura de faixa equivalente de ruído. 4) determinar o resultado da correlação entre o ruído branco e uma portadora co- senoidal e conceituar a aplicação desta correlação. 5) realizar exercícios relacionados ao processamento de sinais aleatórios, ao ruído branco e à largura de faixa equivalente de ruído. Ruído Em sistemas de comunicação damos o nome de ruído a qualquer sinal aleatório indesejado que comprometa a transmissão e o processamento de recepção da informação. Dentre os tipos mais comuns destacam-se o ruído impulsivo e o ruído térmico. Daremos mais atenção ao ruído térmico, devido à sua presença em todos os sistemas de comunicação e à sua importância para o correto dimensionamento destes sistemas. O ruído impulsivo, embora menos freqüente, pode ser muito danoso, por exemplo, em sistemas de recepção de TV Digital. Já o ruído térmico é o grande limitador de desempenho de qualquer sistema de comunicação, principalmente quando a intensidade do sinal recebido é pequena, ou seja, quando o sistema opera com baixa relação sinal-ruído. Ruído térmico O ruído térmico é causado pelo movimento aleatório dos elétrons em um condutor qualquer. Pode-se mostrar que o valor quadrático médio da tensão V TN do ruído térmico nos terminais de um resistor, medido em uma banda de B Hertz, é: 2 2 4 volts TN E V kTBR ( = ¸ ¸ onde k é a constante de Boltzmann, que vale 1,38×10 −23 Joules/ºKelvin (J/K), T é a temperatura absoluta em graus Kelvin (K) e R é a resistência em ohms (Ω). A figura a seguir apresenta o circuito equivalente de Thévenin para este processo de geração do ruído térmico. 137 Na condição de máxima transferência de potência a carga conectada aos terminais do circuito dado deve ter resistência igual a R. Neste caso a potência média de ruído térmico sobre esta carga será: ( ) ( ) 2 2 2 [ ] 2 4 2 watts TN E V kTBR N kTB R R = = = Sendo grande o número de elétrons em um resistor, com movimentos aleatórios independentes, o teorema do limite central indica que o ruído térmico é Gaussiano de média nula. Em outras palavras, o movimento aleatório e independente de um número muito elevado de elétrons, em direções também aleatórias, produz um efeito conjunto de ruído que, pelo teorema do limite central, terá FDP Gaussiana de média nula. Ruído branco Em sistemas de comunicação o ruído térmico tem a seguinte forma idealizada: sua densidade espectral de potência é constante para qualquer freqüência. Daí o nome ruído branco, em alusão à composição da luz branca por componentes de freqüência correspondentes a toda faixa espectral da luz. O processo aleatório ruído branco W(t), de função amostra w(t), tem então uma densidade espectral de potência bilateral constante com componentes em −∞ ≤ f ≤ +∞ , ou seja: 0 ( ) W/Hz 2 W N S f = onde N 0 = kT e é a densidade espectral de potência de ruído produzida na entrada do receptor de um sistema de comunicação cuja temperatura equivalente de ruído é T e . Esta temperatura equivalente de ruído é a temperatura a que um resistor deve ser submetido para que, ao conectá-lo à entrada de uma versão sem ruído do sistema, produza a mesma potência média de ruído que aquela produzida por todas as fontes de ruído do sistema real. A temperatura equivalente de ruído T e depende somente dos parâmetros e componentes do sistema, ou seja, o que vai determinar na prática a intensidade do ruído térmico é a temperatura (obviamente) e a qualidade do projeto do sistema e de seus componentes, almejando reduzir a potência de ruído gerada pelo movimento aleatórios dos elétrons dos condutores do sistema. O ruído branco se manifesta de forma aditiva ao contaminar um sinal e, por esta razão, poderá ser denominado daqui em diante de ruído aditivo Gaussiano branco (AWGN – Additive White Gaussian Noise). Como a densidade espectral de potência e a função de auto-correlação de um processo aleatório se relacionam através da transformada de Fourier, para o ruído branco temos que: 0 0 ( ) ( ) ( ) 2 2 W W N N S f R τ δ τ = ⇒ = 138 A densidade espectral de potência e a função de auto-correlação para o ruído branco são ilustradas nas figuras a seguir. Perceba que este modelo idealizado do ruído branco é a “última palavra” em termos de aleatoriedade, ou seja, duas amostras de W(t) tomadas em instantes diferentes, não importando o quão próximas estejam no tempo, têm correlação nula. O ruído branco tal como foi definido é um modelo fisicamente irrealizável, pois sua potência média, que é a integral de S W (f), é infinita. Entretanto, pode-se modelar o ruído como sendo aproximadamente branco sempre que a largura de faixa de ruído for significativamente maior que a largura de faixa do sistema sob análise e, nesta faixa, a DEP do ruído for aproximadamente plana. ---------------------------------------------------------------------------------------------------------------------------- Exemplo: Seja o ruído branco W(t) aplicado a um filtro passa-baixas ideal de banda B Hz e de magnitude da resposta em freqüência unitária. A DEP do ruído N(t) de saída será então: 0 0 0 ( ) exp( 2 ) , ( ) 2 2 sinc(2 ) 0, | | B N B N N N R j f df B f B S f N B B f B τ π τ τ − ¦ = − < < ¦ = ⇒ ´ ¦ = > ¹ ∫ As figuras a seguir ilustram a densidade espectral de potência e a função de auto-correlação para o ruído de saída do filtro em questão. Perceba que a ação do filtro de reduzir a banda do processo aleatório de entrada é refletida tanto pelo “estreitamento” da DEP do processo de saída quanto pelo “alargamento” da função de auto-correlação deste processo. Isto fará com que o processo aleatório de saída tenha variações mais lentas que o processo de entrada. A figura a seguir ilustra o efeito de filtragem de um processo aleatório Gaussiano correspondente ao ruído branco. Perceba que, sendo W(t) um p.a. Gaussiano, N(t) também o será, mas o processo de saída terá variações mais suaves ou lentas que o processo de entrada. 139 Neste exemplo, se N(t) é amostrado a 2B amostras por segundo, tais amostras serão Gaussianas, mas terão correlação nula, conforme se pode notar na função de auto-correlação obtida. As amostras em questão terão média µ Y = µ X H(0) = 0 e variância igual a N 0 B. Este último valor correspondente ao segundo momento de um processo aleatório de média nula. O valor N 0 B também corresponde a R N (0), conforme função de auto-correlação obtida. Adicionalmente, como a covariância 2 ( ) ( ) Y Y Y K R τ τ µ = − , seu valor será também nulo. Portanto, as amostras em questão serão descorrelacionadas. Por fim, tais variáveis ainda serão estatisticamente independentes, pois a FDP conjunta será o produto das suas FDPs marginais. ---------------------------------------------------------------------------------------------------------------------------- Largura de faixa equivalente de ruído Em grande parte dos problemas envolvendo sistemas de comunicação é preciso considerar o ruído como sendo branco na faixa de operação do sistema, mas muitas vezes tal sistema não pode ser considerado com tendo resposta em freqüência ideal, ou seja, banda B Hz e |H( f )| constante. A solução consiste em considerar o ruído como sendo branco numa largura de faixa equivalente de ruído. Isto é feito substituindo-se a resposta em freqüência do filtro ou sistema por uma resposta ideal de tal forma que ambas produzam e mesma potência média de ruído em suas saídas. Vejamos como isto é feito. Considere as respostas dos filtros real e ideal mostradas na figura a seguir. A potência média do ruído de saída do filtro real será: 0 2 2 0 2 0 | ( ) | | ( ) | N N H f df N H f df ∞ ∞ −∞ = = ∫ ∫ Para o mesmo ruído conectado à entrada de um filtro ideal de banda B Hz e |H( f )| constante, teremos: 0 2 2 (0) 2 N N H B = 140 Igualando-se os dois resultados anteriores, temos: 2 2 0 0 0 | ( ) | (0) 2 2 N N H f df H B ∞ = ∫ de onde obtém-se a largura de faixa equivalente de ruído: 2 0 2 | ( ) | (0) H f df B H ∞ = ∫ Correlação entre o ruído branco e uma portadora co-senoidal de energia unitária Seja o ruído branco W(t) de densidade espectral de potência N 0 /2 W/Hz aplicado a um CORRELATOR que efetua a correlação entre W(t) e uma portadora co-senoidal de energia unitária. Este dispositivo tem utilização muito freqüente em receptores de sistemas de comunicação, dando importância ao seu estudo no contexto de processos aleatórios. A estrutura de um correlator é mostrada na figura a seguir. Inicialmente vamos comprovar o valor de energia unitária para a portadora co-senoidal: 2 2 2 1 1 2 2 0 0 0 cos (2 ) cos(4 ) 1, CQD. T T T c c T T E f t dt dt f t dt π π ( = = + = ( ¸ ¸ ∫ ∫ ∫ onde admitiu-se que a freqüência da onda co-senoidal é um múltiplo inteiro de 1/T, o que levou a integral da direita na expressão anterior a se anular. De acordo com a definição de processo estocástico Gaussiano, o processo de saída N(t) é Gaussiano, pois estamos aplicando um processo Gaussiano W(t) à entrada de um sistema que estabelece uma relação funcional de W(t) com a função cos(2πf c t). Revisite a definição de um processo aleatório Gaussiano para relembrar este conceito. Amostrando o processo N(t) em t = T tem-se: 2 0 ( ) ( ) cos(2 ) T c T N T W t f t dt π = ∫ Portanto N(T) é uma v.a. Gaussiana com média E[N(T)] = 0 e variância calculada por meio de: 141 ( ) 2 2 ( ) [ ( )] E N T E N T σ ( = − ¸ ¸ Desenvolvendo a expressão da variância obtemos: ( ) 2 2 2 0 2 0 0 2 0 0 2 0 0 ( ) cos(2 ) ( ) cos(2 ) ( ) cos(2 ) [ ( ) ( )]cos(2 ) cos(2 ) ( , ) cos(2 ) cos(2 ) T c T T T c c T T T c c T T T W c c T E W t f t dt E W t f t W u f u dtdu E W t W u f t f u dtdu R t u f t f u dtdu σ π π π π π π π ( = ( ¸ ¸ ( = ( ¸ ¸ = = ∫ ∫ ∫ ∫ ∫ ∫ ∫ , onde foi feito o uso da função de auto-correlação do ruído branco: 0 ( , ) ( ) 2 W N R t u t u δ = − . Então: 0 2 0 0 ( ) cos(2 ) cos(2 ) T T N c c T t u f t f u dtdu σ δ π π = − ∫ ∫ A propriedade sifiting (ou sampling) da função δ(t) diz que 0 0 ( ) ( ) ( ) x t t t dt x t δ ∞ −∞ − = ∫ . Aplicando esta propriedade à presente análise teremos: [ ] [ ] 0 0 0 0 2 0 0 2 0 1 1 2 2 2 0 ( ) cos(2 ) cos(2 ) cos (2 ) cos(4 ) 0 T T N c c T T N c T T N N T c T T t u f t f u dtdu f t dt f t dt σ δ π π π π = − = = + = + ⇒ ∫ ∫ ∫ ∫ 2 0 2 N σ = Este é um importante resultado que diz que se aplicarmos ruído branco de densidade espectral de potência N 0 /2 W/Hz a um correlator alimentado com uma portadora co-senoidal de energia unitária, obteremos como resultado um processo de saída cujas amostras terão variância N 0 /2. Como os processos de entrada e de saída têm média nula, então podemos dizer que a potência média de ruído contida nas amostras do processo de saída do correlator é igual a N 0 /2 watts. Este resultado será extensivamente utilizado no estudo de sistemas de comunicação em períodos posteriores a este. ---------------------------------------------------------------------------------------------------------------------------- FIM DA AULA 142 Aula nº Data Tema Exercícios de fixação Conteúdo Exercícios de fixação sobre processos aleatórios, processamento de sinais aleatórios e ruído. Objetivos Permitir que os alunos revisitem os conceitos teóricos e conheçam exemplos de aplicação destes conceitos na solução de problemas. 1 – Sejam os p.a. contínuos X(t) e V(t), onde X(t) = 10 + V(t). Encontre a média e a variância da variável aleatória N T definida a seguir, para T = 5 e para T = 100. Dados: E[V(t)] = 0 e R V (τ) = 2δ(τ). Solução A média é independente de T e vale E[N T ] = 10. A variância para T = 5 será 1/5 e para T = 100 será 1/100. Perceba que a variância é reduzida com o aumento de T, algo esperado, pois quanto maior T, mais a média amostral definida para N T se aproximará da média real. ---------------------------------------------------------------------------------------------------------------------------- 2 – Seja um ruído branco W(t) com densidade espectral de potência N 0 /2 watts/Hz aplicado a um filtro passa-baixas ideal de banda B Hz e de magnitude da resposta em freqüência unitária. Pede-se: 143 a) Calcule e esboce S N (f), a densidade espectral de potência do ruído N(t) de saída do filtro. ( ) 0 2 0 , ( ) ( ) ( ) 1 2 2 0, | | N W B f B N B f B N S f S f H f f B − ≤ ≤ ¦ − ≤ ≤ ¦ = = × = ´ ¦ > ¹ b) Calcule e esboce R N (τ), a função de auto-correlação do processo N(t) de saída do filtro. 0 0 ( ) ( ) exp( 2 ) exp( 2 ) sinc(2 ) 2 B N N B N R S f j f df j f df N B B τ π τ π τ τ ∞ −∞ − = = = ∫ ∫ c) Calcule N, a potência do ruído de saída do filtro. 0 ( ) (0) watts N N N S f df R N B ∞ −∞ = = = ∫ ---------------------------------------------------------------------------------------------------------------------------- 3 – Seja um p.a. estacionário Z(t) = Acos(2πf c t + Θ), correspondente a uma portadora co-senoidal de amplitude A, freqüência f c e fase aleatória Θ uniformemente distribuída em (0, 2π]. Pede-se: a) Determine e esboce a função de auto-correlação R Z (τ). 2 ( ) [ ( ) ( )] [ cos(2 ) cos(2 2 )] [ ] [cos(2 2 ) cos(2 )] Z c c c c c c R E Z t Z t E A f t A f t f E A E f t f f t τ τ π π π τ π π τ π = + = + Θ + + Θ = + + Θ + Θ Usando a identidade cos(a)cos(b) = ½cos(a – b) + ½cos(a + b), tem-se: 144 2 2 ( ) [cos(2 ) cos(4 2 2 )] 2 cos(2 ) 2 Z c c c c A R E f f t f A f τ π τ π π τ π τ = + + + Θ = b) Determine e esboce a densidade espectral de potência S Z ( f). A densidade espectral de potência é a transformada direta de Fourier da função de auto- correlação, ou seja: 2 2 2 ( ) { ( )} cos(2 ) ( ) ( ) 2 4 4 Z Z c c c A A A S f R f f f f f τ π τ δ δ ¦ ¹ = ℑ = ℑ = − + + ´ ` ¹ ) c) Calcule o valor quadrático médio E[Z 2 (t)]. 2 2 [ ( )] [ ( ) ( )] (0) 2 Z A E Z t E Z t Z t R = = = . Um cálculo alternativo seria: 2 2 2 2 2 2 2 2 [ ( )] [ cos (2 )] [cos (2 )] 1 1 1 cos(4 2 ) 0 2 2 2 2 c c c E Z t E A f t A E f t A A E f t A π π π = + Θ = + Θ ( ( = + + Θ = + = ( ( ¸ ¸ ¸ ¸ d) Sendo Z(t) independente de um processo aleatório X(t), determine a função de auto-correlação do processo Y(t) = X(t)Z(t). e) Determine S Y ( f ), a densidade espectral de potência de Y(t). Compare o resultado com aquele obtido no exemplo de modulação de uma portadora por um sinal aleatório. ( ) Z R τ S Z (f) 145 f) Esboce S Y ( f ), considerando que X(t) é uma seqüência binária aleatória de pulsos equiprováveis de duração T e amplitudes {±1}. ---------------------------------------------------------------------------------------------------------------------------- 4 – A figura ao lado mostra a magnitude da resposta em freqüência de um filtro passa-baixas RC, dada por: 2 1 | ( ) | 1 (2 ) H f fRC π = + , onde R = 5 kΩ e C = 1 µF. À entrada deste filtro aplica-se um ruído Gaussiano branco com densidade espectral de potência de N 0 /2 = 1×10 –3 watts/Hz. Pede-se: a) Calcule a largura de faixa equivalente de ruído para o filtro em questão, dado que: 1 2 2 1 1 tan x dx a x a a − | | = | + \ ¹ ∫ 2 2 2 0 0 2 2 2 0 2 2 2 2 2 2 2 0 0 2 2 2 2 2 1 2 2 2 2 2 2 0 1 | ( ) | 1 (2 ) 1 (0) (0) 1 (2 ) 1 1 1 1 1 4 4 1 4 2 1 1 Da integral dada: 2 tan (2 ) 2 0 4 4 2 Entã df H f df fRC B df H H fRC df df R C R C f f R C RC RC fRC RC R C R C π π π π π π π π π π π π ∞ ∞ ∞ ∞ ∞ ∞ − ( ( + ( ¸ ¸ = = = + = = | | + + | \ ¹ ( ( × = − ¸ ¸ ( ¸ ¸ ∫ ∫ ∫ ∫ ∫ 3 6 1 1 o: 50Hz 4 4 5 10 1 10 B RC − = = = × × × × b) Calcule a potência média do ruído de saída deste filtro. 2 1 0 0 2 2 2 3 0 0 2 2 2 3 6 1 ( ) | ( ) | 2 tan (2 ) 2 2 4 1 1 1 2 1 10 0,1watts 2 4 2 2 2 2 2 5 10 1 10 N N N N S f df H f df RC fRC R C N N RC N R C RC π π π π π π π ∞ ∞ ∞ − −∞ −∞ −∞ − − ( = = = × ¸ ¸ ( | | = + ⇒ = = × = | ( × × × × \ ¹ ¸ ¸ ∫ ∫ Vejamos outra solução, levando em conta o conceito de largura de faixa equivalente de ruído: 146 2 2 0 0 3 0 0 ( ) | '( ) | (0) 2 2 2 10 50 0,1watts 2 B N B B B N N N S f df H f df H df N df N B ∞ ∞ −∞ −∞ − − − = = = = = = × × = ∫ ∫ ∫ ∫ c) Sobre a figura dada, esboce a magnitude da resposta em freqüência de um filtro ideal que forneça em sua saída a mesma potência média de ruído calculada no item “b”. De acordo com o conceito de largura de faixa equivalente de ruído, o filtro ideal terá banda B = 50 Hz e H 2 (0) = 1. Veja esboço na figura. ---------------------------------------------------------------------------------------------------------------------------- 5 – Determine e esboce a densidade espectral de potência do código de linha Manchester mostrado na figura a seguir, gerado pela seqüência de bits aleatória também mostrada na figura. Dica: interprete o código Manchester como uma seqüência de pulsos ±g(t). Apenas a título de curiosidade, o código Manchester é utilizado em redes locais de computadores com fio, tais com as que temos no Inatel. ---------------------------------------------------------------------------------------------------------------------------- 6 – Suponha que um ruído Gaussiano branco, após filtrado por um filtro passa-baixas ideal de banda B Hz, seja amostrado a uma taxa de 2B amostras por segundo: a) Justifique porque as amostras resultantes serão Gaussianas. b) Justifique porque a correlação entre tais amostras será nula. c) Justifique porque a média da variável aleatória composta por essas amostras será nula. d) Justifique porque a variância da variável aleatória composta por essas amostras será N 0 B. e) Justifique porque a covariância para essa variável aleatória será também nula. f) Justifique porque tais amostras serão descorrelacionadas. g) Em que condições tais amostras também serão estatisticamente independentes? ---------------------------------------------------------------------------------------------------------------------------- FIM DA AULA 147 Aula nº Data Tema Cadeias de Markov - 1 Conteúdo Processos de Markov. Cadeias de Markov. Cadeias de Markov de tempo discreto. Probabilidades de transição homogêneas. Objetivos O final da aula o aluno deverá ser capaz de: 1) conceituar um processo de Markov e verificar se um dado processo é ou não é um processo de Markov. 2) conceituar uma cadeia de Markov. 3) conceituar as as cadeias de Markov de tempo discreto e probabilidades de transição homogêneas. 4) determinar o diagrama de estados e a matriz de probabilidades de transição de estados de uma cadeia de Markov. Vamos iniciar nosso estudo com um simples exemplo, o qual contém vários conceitos e notações que utilizaremos nesta parte do curso. ---------------------------------------------------------------------------------------------------------------------------- Exemplo: Suponha que o gato Tom e o rato Jerry estão em um ambiente com 6 compartimentos interconectados conforme ilustra a figura a seguir. Jerry pode percorrer os mais variados caminhos que o levarão de um compartimento a outro. Neste exemplo, Tom está preso no compartimento 5 e Jerry, se chegar a este compartimento, terá 100 % de chance de ser capturado, pois as portas somente de entrada deste compartimento o manterão lá, cara a cara com Tom. Suponha ainda que a probabilidade de Jerry permanecer em outro compartimento qualquer seja nula. Vamos iniciar nossa análise definindo um diagrama de estados que represente o movimento de Jerry (transições) ao longo dos compartimentos (estados). A figura a seguir mostra tal diagrama, no qual as transições estão rotuladas com as probabilidades de chegada e de saída de e para cada estado. 148 Vamos agora registrar todas as probabilidades de transição de estados em uma matriz à qual, por razões óbvias, denominaremos matriz de transições. Nesta matriz, p ij é a probabilidade de transição do estado i para o estado j, sedo i = 0, 1, ..., 5 e j = 0, 1, ..., 5 neste exemplo. 1 1 2 2 00 01 02 03 04 05 1 1 2 2 10 11 12 13 14 15 1 1 1 3 3 3 20 21 22 23 24 25 1 1 1 3 3 3 30 31 32 33 34 35 1 1 2 2 40 41 42 43 44 45 50 51 52 53 54 55 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p ( ( ( ( ( ( ( ( = = ( ( ( ( ( ( ( ( ¸ ¸ ¸ ¸ P Observe que a soma das probabilidades nas linhas da matriz de transições é igual a 1, o que tem que ocorrer em qualquer matriz deste tipo. Observe também que, para este exemplo, a probabilidade de transição no estado 5 é unitária, ou seja, tendo chegado ao compartimento 5 o rato será inevitavelmente capturado. Observe ainda que o menor número de passos (transições de estados) necessário para que Jerry chegue ao compartimento 5 é igual a 3, valor que pode ser obtido diretamente do diagrama de estados: por exemplo, Jerry parte do estado 0, vai para o estado 3, depois vai para o estado 4 e em seguida vai para o estado 5. Este é um exemplo típico de processo de Markov. No nosso estudo aprenderemos como obter várias informações estatísticas de fenômenos aleatórios como este, modelados a partir de um diagrama de estados e de uma matriz de transições. ---------------------------------------------------------------------------------------------------------------------------- Processos de Markov Muitas vezes temos que lidar com processos aleatórios associados a variáveis aleatórias dependentes. O estudo dos processos aleatórios de Markov permitirá descrever estatisticamente de maneira simples a dependência entre estas variáveis, seja em regime transitório ou em regime permanente. Tal assunto tem grande aplicação no estudo de Sistemas com Filas e em Redes de Telecomunicações, em cálculos como a duração média de uma conexão, o número de usuários ativos em um sistema, o tempo de ocupação e de serviço e a probabilidade de bloqueio de chamadas, apenas para citar alguns exemplos. Em um processo de Markov tem-se a seguinte propriedade: o futuro, dado o presente, independe do passado. Se um processo aleatório de Markov X(t) assume valores discretos, matematicamente podemos escrever a frase em destaque como: 1 1 1 1 1 1 1 1 [ ( ) | ( ) , ( ) , , ( ) ] [ ( ) | ( ) ] n n n n n n n n n n P X t x X t x X t x X t x P X t x X t x + + − − + + = = = = = = = … Esta expressão pode ser interpretada da seguinte maneira: a probabilidade do processo aleatório assumir o valor x n + 1 no instante de tempo discreto futuro t n + 1 , dado que tal processo apresentou os valores x n , x n – 1 , ..., x 1 no instante de tempo presente t n e nos instantes de tempo passados t n – 1 , ..., t 1 , respectivamente, depende somente do valor x n do processo no instante de tempo presente, t n . 149 Se o processo aleatório X(t) assume valores contínuos, para que seja um processo de Markov ele deve atender a: 1 1 1 1 1 1 [ ( ) | ( ) , ( ) , , ( ) ] [ ( ) | ( ) ] n n n n n n n n P a X t b X t x X t x X t x P a X t b X t x + − − + < ≤ = = = = < ≤ = … cuja interpretação é análoga àquela dada à expressão para o caso discreto. Quando um processo aleatório X(t) é discreto, ele é definido somente nos instantes de tempo discretos t n , para n inteiro, ou seja, X(t n ) significa que estamos nos referindo ao processo no instante de tempo discreto t n . Neste instante o valor do processo é x n . Neste caso, por razões de simplificação na notação, podemos denominar o processo simplesmente de X n . ---------------------------------------------------------------------------------------------------------------------------- Exemplo: Considere o processo discreto Y n definido a seguir, correspondente a uma filtragem do tipo média móvel (moving average) realizada nas amostras do processo discreto X n : ( ) 1 1 2 n n n Y X X − = + A média móvel, como o nome indica, realiza, neste exemplo, a média aritmética entre duas amostras consecutivas do processo de entrada, da seguinte maneira: o valor Y 1 é a média aritmética entre os valores X 1 e X 0 ; o valor Y 2 é a média aritmética entre os valores X 2 e X 1 ; o valor Y 3 é a média aritmética entre os valores X 3 e X 2 , e assim por diante. Perceba que podemos analisar a média móvel como uma “janela” de 2 amostras (neste exemplo) que vai se movendo ao longo da seqüência de amostras de X n e realizando a média entre os valores destas amostras. O filtro de média móvel é bastante utilizado na prática, em Processamento Digital de Sinais (DSP – Digital Signal Processing). Neste exemplo os valores do processo X n são uma seqüência de variáveis aleatórias independentes de Bernoulli ∈{0, 1} com probabilidade de sucesso p = ½. As duas figuras a seguir ilustram o processo de média móvel referente a este exemplo, para uma seqüência de Bernoulli com 50 amostras. 150 A título de complementação, as duas figuras a seguir ilustram o processo de média móvel referente à filtragem de uma seqüência de 100 amostras com distribuição Uniforme entre –1 e +1, utilizando um filtro de média móvel com janela de 10 amostras, ou seja, com 10 amostras operadas na média. Com este exemplo é mais fácil verificar visualmente o efeito de filtragem: perceba que a seqüência de amostras de Y n tem variações mais “suaves” que as variações da seqüência de amostras de X n . Voltando à análise do exemplo inicial, nosso objetivo é verificar se o processo Y n = ½(X n + X n–1 ) é ou não é um processo Markoviano. Perceba que seríamos induzidos a afirmar que se trata de um processo de Markov, pois observando a expressão de definição de Y n , concluímos que um valor do processo num instante futuro n somente depende da amostra futura X n e da amostra presente X n – 1 . Mas para testarmos se o processo é Markoviano, o que temos que verificar é se um valor futuro de Y n depende ou não depende somente do valor presente Y n – 1 , não dependendo do valor passado Y n – 2 . Se X n pode assumir os valores 0 ou 1, os possíveis resultados para os valores de Y n são: 0 (quando X n e X n – 1 são nulos), 1/2 (quando X n ou X n – 1 são nulos) e 1 (quando X n e X n – 1 têm valor 1). Então a função massa de probabilidade (FMP) de Y n vale: Vamos agora considerar um cálculo de probabilidade envolvendo um valor futuro (instante n) e um valor presente (instante n – 1) de Y n . Por exemplo, vamos calcular P[Y n = 1 | Y n – 1 = ½], fazendo uso da relação entre probabilidade conjunta e probabilidade condicional 151 P[A | B] = P[A , B]/P[B]. Suponha agora que temos conhecimento adicional sobre o passado. Por exemplo, sabemos que Y n – 2 = 0 e queremos calcular P[Y n = 1 | Y n – 1 = ½ , Y n – 2 = 0]: Pelos resultados obtidos constatamos que Y n não é um processo de Markov, pois: . Em palavras, o evento futuro Y n = 1, dado o presente Y n – 1 = ½, depende do passado Y n – 2 = 0, pois, caso contrário, o conhecimento deste passado não alteraria o resultado de cálculo da probabilidade de ocorrência do evento futuro Y n = 1. ---------------------------------------------------------------------------------------------------------------------------- Cadeias de Markov Um processo de Markov que assume somente valores inteiros é chamado de Cadeia de Markov. A partir deste ponto nos concentraremos neste tipo de processo de Markov. Se X(t) é uma cadeia de Markov, a FMP conjunta para três instantes de tempo arbitrários é assim determinada: 3 3 2 2 1 1 3 3 2 2 1 1 2 2 1 1 3 3 2 2 2 2 1 1 3 3 2 2 2 2 1 1 1 1 [ ( ) , ( ) , ( ) ] [ ( ) | ( ) , ( ) ] [ ( ) , ( ) ] [ ( ) | ( ) ] [ ( ) , ( ) ] [ ( ) | ( ) ] [ ( ) | ( ) ] [ ( ) ] P X t x X t x X t x P X t x X t x X t x P X t x X t x P X t x X t x P X t x X t x P X t x X t x P X t x X t x P X t x = = = = = = = = = = = = = = = = = = = = onde se fez uso da propriedade de um processo de Markov que diz: o futuro, dado o presente, independe do passado, em termos matemáticos. Em geral, a FMP conjunta para (n + 1) instantes de tempo arbitrários é dada por: 152 1 1 1 1 1 1 1 1 2 2 1 1 1 1 [ ( ) , ( ) , , ( ) ] [ ( ) | ( ) ] [ ( ) | ( ) ] [ ( ) | ( ) ] [ ( ) ] n n n n n n n n n n n n P X t x X t x X t x P X t x X t x P X t x X t x P X t x X t x P X t x + + + + − − = = = = = = = = = = = … ⋯ Deste resultado podemos concluir que a FMP conjunta de X(t) em instantes de tempo arbitrários é dada pelo produto da FMP para o instante de tempo inicial, P[X(t 1 ) = x 1 ], pelas probabilidades de transição de estado subseqüentes, P[X(t i+1 ) = x i+1 | X(t i ) = x i ], i = 1, 2, ..., n. Estas probabilidades de transição de estado determinam o comportamento estatístico da cadeia de Markov e podem ser escritas de maneira sintetizada como: [ ] 1 | n n ij P X j X i p + = = = Cadeia de Markov de tempo discreto Seja X n uma cadeia de Markov de tempo discreto, ou seja, as transições de estado ocorrem somente em instantes de tempo discretos, começando, por exemplo, em n = 0. Para esta cadeia de Markov, a FMP conjunta para os primeiros n + 1 valores do processo é dada por: 1 1 0 0 1 1 1 1 2 2 1 1 0 0 0 0 [ ( ) , ( ) , , ( ) ] [ ( ) | ( ) ] [ ( ) | ( ) ] [ ( ) | ( ) ] [ ( ) ] n n n n n n n n n n n n P X t x X t x X t x P X t x X t x P X t x X t x P X t x X t x P X t x − − − − − − − − = = = = = = = = = = = … ⋯ ⋯ Probabilidades de transição homogêneas A cadeia de Markov X n tem probabilidades de transição homogêneas se as probabilidades de transição para um passo são fixas e não variam com o tempo, isto é, as probabilidades de transição de um estado i para um estado j independem do instante de observação da cadeia. [ ] 1 | , n n ij P X j X i p n + = = = ∀ Neste contexto, o termo passo está associado ao número de transições intermediárias entre dois estados quaisquer. Por exemplo, P[X n+3 = j | X n = i] significa a probabilidade de transição do estado i para o estado j realizando-se três passos (três transições). Vamos usar a seguinte notação para a FMP do instante inicial: 0 (0) [ ], 0, 1, 2, ... j p P X j j = = ≜ Assim, a FMP conjunta para os primeiros n + 1 valores do processo, para cadeias de Markov com probabilidades de transição homogêneas, é dada por: [ ] 1 0 1 0 1 1 0 0 , , , , , (0) n n n n n n i i i i i P X i X i X i p p p − − − = = = = … ⋯ 153 Desta forma, X n é completamente especificado pela FMP inicial p i (0) e pela matriz de probabilidades de transição de um passo, P, dada por: 00 01 02 10 11 12 1,0 1,1 1,2 ,0 ,1 ,2 i i i i i i p p p p p p p p p p p p − − − ( ( ( ( = ( ( ( ( ¸ ¸ P ⋯ ⋯ ⋮ ⋮ ⋮ ⋯ ⋯ ⋯ ⋮ ⋮ ⋮ ⋯ Para esta matriz P a soma de cada linha deve ser igual a 1, ou seja: 1 [ | ] 1, n n ij j j P X j X i p i + = = = = ∀ ∑ ∑ ---------------------------------------------------------------------------------------------------------------------------- Exemplo: Cadeias de Markov de dois estados são bastante úteis para modelar sistemas que alternam entre dois estados, como ON e OFF, por exemplo. Como exemplo, um modelo de Markov para transmissão de voz por pacotes assume que se o n-ésimo pacote contém silêncio, a probabilidade de silêncio no próximo pacote é (1 − α) e a probabilidade do próximo pacote conter atividade de voz é α. Similarmente, se o n-ésimo pacote contiver atividade de voz, a probabilidade de o próximo pacote conter voz é (1 − β) e a probabilidade de silêncio é β. Apenas em caráter informativo, este ciclo de atividade/silêncio é utilizado também em sistemas CDMA (Code- Division Multiple Access) na redução de potência média de transmissão e em sistemas TDMA (Time- Division Multiple Access) na chamada multiplexação estatística de voz, para o aumento da capacidade do sistema. A transmissão por pacotes tem como exemplo o modo GPRS (General Packet Radio Service) do padrão celular GSM (Global System for Mobile communications). Vamos construir a cadeia de Markov para este problema e determinar a matriz de transição correspondente: Supondo que X n seja a função indicadora da atividade da voz em um determinado pacote no instante n, então X n é uma cadeia de Markov com diagrama de dois estados e com matriz de probabilidades de transição como mostrado a seguir: 1 1 α α β β − ( = ( − ¸ ¸ P ---------------------------------------------------------------------------------------------------------------------------- FIM DA AULA 154 Aula nº Data Tema Cadeias de Markov - 2 Conteúdo Cadeias de Markov: Probabilidades de transição para 2 passos. Probabilidades de transição para n passos. Objetivos O final da aula o aluno deverá ser capaz de: 1) determinar e interpretar probabilidades de transição de n passos para uma cadeia de Markov. 2) realizar cálculos de probabilidade envolvendo uma matriz de probabilidades de transição de n passos. Probabilidades de transição para 2 passos Para determinar a FMP conjunta em instantes de tempo quaisquer, necessitamos conhecer as transições de probabilidade para um número qualquer de passos. Então, vamos definir P(n) como sendo a matriz de probabilidades de transição para n passos, com elementos {p ij (n)} tais que: [ ] ( ) | , , , 0 ij n k k p n P X j X i n i j + = = = ≥ onde lê-se: p ij (n) é a probabilidade de transição do estado i para o estado j em n passos, ou seja, é a probabilidade de transição do estado i para o estado j realizando-se n transições de estado intermediárias. Note que [ ] [ ] 0 | | , , 0 n k k n P X j X i P X j X i n k + = = = = = ∀ ≥ , pois as probabilidades de transição não dependem do tempo. Em outras palavras, a probabilidade de transição de um estado i para um estado j em n passos independe do instante de tempo em que se observa a cadeia. Considere agora a probabilidade de sair do estado i em t = 0 e chegar ao estado j em t = 2, passando pelo estado intermediário k em t = 1. Para esta situação podemos escrever: 2 1 0 2 1 0 0 2 1 0 1 0 0 2 1 1 0 0 0 2 1 1 0 [ , , ] [ , | ] [ ] [ | , ] [ , ] [ ] [ | ] [ | ] [ ] [ ] [ | ] [ | ] (1) (1) kj ik P X j X k X i P X j X k X i P X i P X j X k X i P X k X i P X i P X j X k P X k X i P X i P X i P X j X k P X k X i p p = = = = = = = = = = = = = = = = = = = = = = = = = = = = Note que p ik (1) e p kj (1) são componentes de P, a matriz de transição de um passo. Obtemos p ij (2), a probabilidade de ir do estado i em t = 0 para o estado j em t = 2, realizando a soma sobre todos os possíveis estados intermediários k, ou seja: 155 (2) (1) (1) , , ij ik kj k p p p i j = ∀ ∑ O conjunto de equações que compõem os resultados da expressão anterior leva à seguinte notação matricial: 2 (2) (1) (1) = = P P P P ou seja, a matriz de probabilidades de transição de 2 passos é igual ao quadrado da matriz de probabilidades de transição de um passo. Probabilidades de transição para n passos Por meio dos mesmos argumentos apresentados anteriormente para as probabilidades de transição de dois passos, podemos escrever por indução: ( ) ( 1) (1) ( 1) n n n = − = − P P P P P Assim, a matriz de probabilidades de transição de n passos será a n-ésima potência da matriz de probabilidades de transição de um passo, ou seja: ( ) n n = P P ---------------------------------------------------------------------------------------------------------------------------- Exemplo: Para o exemplo de transmissão de voz por pacotes, seja α = 1/10 e β = 1/5. Vamos encontrar P(n) para n = 2, 4, 8 e 16, lembrando que a matriz de transição de um passo é: 1 1 α α β β − ( = ( − ¸ ¸ P 2 2 0.9 0.1 0.83 0.17 0.2 0.8 0.34 0.66 ( ( = = ( ( ¸ ¸ ¸ ¸ P 4 4 0.9 0.1 0.7467 0.2533 0.2 0.8 0.5066 0.4934 ( ( = = ( ( ¸ ¸ ¸ ¸ P 8 8 0.9 0.1 0.6859 0.3141 0.2 0.8 0.6282 0.3718 ( ( = = ( ( ¸ ¸ ¸ ¸ P 16 16 0.9 0.1 0.6678 0.3322 0.2 0.8 0.6644 0.3356 ( ( = = ( ( ¸ ¸ ¸ ¸ P Observe que à medida que n → ∞ há uma tendência para: 2/ 3 1/ 3 2/ 3 1/ 3 n ( = ( ¸ ¸ P , 156 ou seja, quando o sistema se encontra em regime permanente as probabilidades de transição na cadeia tendem para os valores dados por P n , para n → ∞. Para o exemplo em questão isto significa que, em regime permanente, a probabilidade de a voz estar em estado de não atividade (estado 0) é de 2/3 e a probabilidade de a voz estar em estado de atividade (estado 1) é de 1/3. ---------------------------------------------------------------------------------------------------------------------------- Exemplo: Em uma casa há duas lâmpadas de reserva. A probabilidade de ser necessária uma nova lâmpada durante o dia n é p e a probabilidade de não ser necessária uma nova lâmpada neste dia é q = 1 – p. Seja Y n o número de lâmpadas de reserva existentes na casa ao final do dia n., considerando n = 0 como sendo o dia inicial de análise. O processo Y n é uma cadeia de Markov para o qual o diagrama de estados e a matriz de probabilidades de transição são dados a seguir: 1 0 0 0 0 p q p q ( ( = ( ( ¸ ¸ P A matriz de probabilidades de transição para n passos, P(n), é obtida elevando-se a matriz P à n-ésima potência, o que leva a: 1 1 1 0 0 ( ) 1 0 1 n n n n n n n q q q npq npq q − − ( ( = − ( − − ( ¸ ¸ P Fazendo-se n → ∞ em P(n) obtém-se: 1 0 0 ( ) 1 0 0 1 0 0 n n →∞ ( ( = ( ( ¸ ¸ P Como em regime permanente a probabilidade do estado 0 é unitária, isto significa que no final das contas (para n elevado) é certo que ficaremos sem lâmpadas de reserva. Abaixo se têm algumas matrizes de transição de n passos para vários valores intermediários de n, considerando que a probabilidade de uma lâmpada queimar em um dia qualquer é p = 0,1. 1 0 0 (2) 0.19 0.81 0 0.01 0.18 0.81 ( ( ≅ ( ( ¸ ¸ P 1 0 0 (20) 0.878 0.122 0 0.608 0.27 0.122 ( ( ≅ ( ( ¸ ¸ P -4 -3 -4 1 0 0 (50) 0.999 6.2 10 0 0.995 4.9 10 6.3 10 ( ( ≅ × ( × × ( ¸ ¸ P 0 1 2 p p q = 1 – p 1 q = 1 – p 157 Perceba que após cerca de 50 dias, a probabilidade de não haver mais lâmpadas de reserva na casa é maior que 0.99, ou seja, a chance de não termos mais lâmpadas de reserva após 50 dias é praticamente igual a 100%. ---------------------------------------------------------------------------------------------------------------------------- Exemplo: Retomando o exemplo do Tom e Jerry, suponha que você queira “dar uma mão” ao Tom, colocando uma ratoeira em um dos compartimentos, exceto no compartimento 5, pois não é necessário. A regra é: se Jerry for apanhado nesta ratoeira após passar por três compartimentos (três transições de estado) você poderá dá-lo de presente ao Tom. Qual seria o melhor local a se colocar a ratoeira? Para responder à questão vamos elevar a matriz de transições à terceira potência, o que resultará em: 0 0.35 0 0.43 0 0.22 0.35 0 0.35 0 0.14 0.17 0 0.23 0 0.29 0 0.48 (3) 0.29 0 0.29 0 0.15 0.28 0 0.14 0 0.22 0 0.64 0 0 0 0 0 1 ( ( ( ( = ( ( ( ( ¸ ¸ P Perceba que a probabilidade p 03 (3) = 0.43, que é o maior valor da matriz P(3), excetuando alguns valores referentes às transições para o quinto compartimento. Então, nada mais sensato que colocar a ratoeira no compartimento 3. Suponha agora que você queira analisar a convergência da matriz de probabilidades de transição para n → ∞. Por exemplo, para n = 300 a matriz P(300) = P 300 será aproximadamente dada por: 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 (300) 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 ( ( ( ( ≅ ( ( ( ( ¸ ¸ P Em poucas palavras pode-se dizer que após um longo intervalo de tempo (n elevado) a chance de Jerry ter chegado ao estado 5 e, portanto, ser capturado por Tom, é praticamente 100%. ---------------------------------------------------------------------------------------------------------------------------- FIM DA AULA 158 Aula nº Data Tema Cadeias de Markov - 3 Conteúdo Cadeias de Markov: Probabilidades dos estados. Probabilidades em regime permanente. Exercícios de fixação. Objetivos O final da aula o aluno deverá ser capaz de: 1) determinar e interpretar probabilidades transitórias e em regime permanente para os estados de uma cadeia de Markov. 2) realizar exercícios envolvendo todos os assuntos estudados sobre processos e cadeias de Markov. Probabilidades dos estados A probabilidade de estado é a probabilidade de uma cadeia de Markov se encontrar em um de seus estados, ou seja, é a probabilidade do processo de Markov correspondente apresentar um de seus possíveis valores. Assim, a probabilidade da cadeia de Markov estar em um estado j corresponde à soma de todas as probabilidades conjuntas referentes a se estar em um estado i num determinado instante de tempo e se estar no instante j num instante posterior. ---------------------------------------------------------------------------------------------------------------------------- Exemplo: A probabilidade do estado 3 na cadeia de Markov referente ao exemplo do Tom e do Jerry, de acordo com a definição dada logo acima e com o diagrama de estados reapresentado a seguir é: [ ] [ ] [ ] [ ] 1 1 1 3 3, 0 3, 2 3, 4 n n n n n n n P X P X X P X X P X X − − − = = = = + = = + = = ---------------------------------------------------------------------------------------------------------------------------- Matematicamente, seja p(n) o vetor transposto (matriz linha) de probabilidades dos estados no instante n, com elementos {p j (n)} dados por: [ ] [ ] [ ] [ ] 1 1 1 ( ) , | ( 1) j n n n i n n n ij i i i p n P X j P X j X i P X j X i P X i p p n − − − = = = = = = = = = = − ∑ ∑ ∑ De onde se pode escrever: ( ) ( 1) n n = − p p P 159 Similarmente, entendendo que as probabilidades de se estar em cada um dos estados podem ser determinadas envolvendo quaisquer estados anteriores, pode-se escrever p j (n) em função do estado inicial da cadeia, ou seja: [ ] [ ] [ ] 0 0 0 ( ) , | ( ) (0) j n i n ij i i i p n P X j X i P X j X i P X i p n p = = = = = = = = ∑ ∑ ∑ que em notação matricial resulta em: ( ) (0) ( ) (0) n n n = = p p P p P onde p(0) é a FMP inicial dos estados da cadeia de Markov. Em palavras, a função massa de probabilidade (FMP) dos estados no instante n é obtida multiplicando-se a FMP do instante inicial pela n-ésima potência da matriz de probabilidades de transição de um passo. ---------------------------------------------------------------------------------------------------------------------------- Exemplo: Retornando ao exemplo da transmissão de voz por pacotes, sejam as probabilidades iniciais dos estados dadas por: 0 0 0 1 0 [ 0] (0) [ 1] (0) 1 (0) P X p P X p p = = = = = − . Vamos encontrar as probabilidades dos estados à medida que n → ∞. O vetor que contém estas probabilidades dos estados no instante n é: [ ] 0 0 ( ) (0) (0) 1 (0) n n n p p = = − p p P P À medida que n → ∞ tem-se que: [ ] [ ] 0 0 2/ 3 1/ 3 ( ) (0) 1 (0) 2/ 3 1/ 3 2/ 3 1/ 3 n p p ( = − × = ( ¸ ¸ p De onde se conclui que as probabilidades dos estados não dependem das probabilidades do estado inicial à medida que n → ∞. Em outras palavras, a probabilidade do processo aleatório estar em um determinado estado, em regime permanente, independe do estado inicial do processo. ---------------------------------------------------------------------------------------------------------------------------- Probabilidades em regime permanente Diz-se que uma cadeia de Markov está em equilíbrio ou em regime permanente quando, à medida que n → ∞, a sua matriz das probabilidades de transição aproxima-se de uma matriz em que todas as linhas são iguais, ou seja: 160 ( ) , ij j p n i π → ∀ onde π j são os elementos de cada uma das linhas. Estas linhas iguais determinam as probabilidades de estado em regime permanente, cujos valores são independentes do tempo e das probabilidades de estado iniciais. Na análise de probabilidades dos estados vimos que: ( ) ( 1) j ij i i p n p p n = − ∑ À medida que n → ∞, p j (n) → π j e p i (n – 1) → π i . Assim, podemos reescrever a equação acima como: j ij i i p π π = ∑ que em notação matricial pode ser escrita como: = π πP Esta equação tem em geral (n – 1) equações linearmente independentes. A equação adicional que permitirá compor um sistema de equações de fácil solução é: 1 i i π = ∑ A matriz π ππ π é chamada de FMP estacionária dos estados da cadeia de Markov, ou simplesmente FMP em regime permanente. Se iniciarmos a cadeia de Markov com FMP inicial p(0) = π ππ π, combinando as equações p(n) = p(0)P n e π ππ π = π ππ πP teremos: ( ) , n n n = = ∀ p πP π Note que as probabilidades dos estados em regime permanente são sempre as mesmas, independentemente do número de transições efetuadas e das probabilidades de estado iniciais. ---------------------------------------------------------------------------------------------------------------------------- Exemplo: Vamos encontrar a FMP de regime permanente da cadeia de Markov do exemplo da transmissão de voz por pacotes, para α = 0.1 e β = 0.2, lembrando que: 1 1 α α β β − ( = ( − ¸ ¸ P Assim teremos: 161 [ ] [ ] 0 1 0 1 1 1 α α π π π π β β − ( = ⇒ = × ( − ¸ ¸ π πP de onde obtemos as equações: π 0 = (1 – α)π 0 + βπ 1 π 1 = απ 0 + (1 – β)π 1 Da 1ª equação: απ 0 = βπ 1 . Como π 0 + π 1 = 1, απ 0 = β(1 – π 0 ) ⇒ (α + β)π 0 = β ⇒ π 0 = β/(α + β). Como απ 0 = βπ 1 , tem-se que π 1 = απ 0 /β = αβ/β(α + β) = α/(α + β). Então, para α = 0.1 e β = 0.2, teremos: 0 2 3 β π α β = = + 1 1 3 α π α β = = + ---------------------------------------------------------------------------------------------------------------------------- Exemplo: Um apostador vai a um cassino e participa de um jogo de apostas que aparentemente é justo. Em tal jogo as apostas são de valor 10 e a probabilidade de ganhar é ½. Admite-se que a quantidade de recursos financeiros do cassino é infinita ou é muito maior que a quantidade de recursos do apostador. Construa o diagrama de estados para a cadeia de Markov correspondente e interprete o resultado. Para o jogo de apostas em questão, enquanto o apostador tiver recursos ele pode continuar apostando e, portanto, a cadeia de Markov não tem fim. Por esta razão a matriz de probabilidades de transição terá um número de linhas e de colunas infinito. Se o apostador tiver apenas o valor 10 e perder, não mais poderá apostar, ou seja, a probabilidade de permanecer nesse estado é unitária. Devido ao fato da matriz P não ter número finito de linhas e colunas, não é possível, com os conceitos estudados até aqui, determinar as probabilidades dos estados em regime permanente. Entretanto, se compararmos o diagrama de estados deste exercício com aquele construído para o exemplo do Tom e Jerry, podemos verificar que ambos possuem um estado “sem volta”. A este estado dá-se o nome de estado absorvente. Sempre que uma cadeia de Markov tiver um estado absorvente significa que, após um grande número de passos (n → ∞), o estado do processo convergirá para o estado absorvente com probabilidade 1, independente do estado inicial. Para o exemplo em questão, inevitavelmente, em termos probabilísticos, o apostador ficará sem dinheiro. Perceba que, embora o jogo pareça justo, a diferença na quantidade de recursos iniciais coloca o apostador em desvantagem em termos probabilísticos. 162 Exercícios de fixação ---------------------------------------------------------------------------------------------------------------------------- 1 – Uma máquina de uma linha de produção possui várias peças idênticas que falham com certa freqüência devido ao desgaste excessivo. O Gerente de Produção, procurando evitar que a máquina pare por um tempo maior que aquele necessário para a substituição de uma peça danificada, solicita que sejam mantidas 2 peças de reserva no almoxarifado. Dados do fabricante da máquina indicam que a probabilidade de uma peça falhar em um dia qualquer é p = 0,1 e a probabilidade de não falhar é q = 1 – p. Considera-se ainda que probabilidade de mais de uma peça falhar num mesmo dia é praticamente nula. Então, seja Z n a variável aleatória correspondente ao número de peças sobressalentes restantes no almoxarifado ao final do dia n. Então Z n forma a uma cadeia de Markov para a qual se pede: a) Desenhe o diagrama de estados. Observação: se considerássemos a possibilidade de serem retiradas duas peças simultaneamente do almoxarifado, este evento corresponderia à pane em duas peças da máquina, simultaneamente. Então existiria uma transição do estado 2 para o estado 0, com probabilidade de transição p 20 = p 2 . Neste caso a probabilidade p 22 seria igual a 1 – (p + p 2 ), ou seja, a probabilidade de não ser retirada nenhuma peça do almoxarifado seria igual a P(nenhuma pane) = 1 – [P(pane em uma peça) + P(pane em duas peças)] = 1 – (p + p 2 ). b) Determine a matriz de probabilidades de transição, P. 1 0 0 0 0 p q p q ( ( = ( ( ¸ ¸ P c) A matriz P(n) a seguir corresponde à matriz de transições de estado de n passos. Complete os espaços da matriz com as probabilidades de transição correspondentes. 1 0 0 ( ) 1 0 1 n n n n n q q npq q − ( ( = − ( − − ( ¸ ¸ P ⇒ 1 1 1 0 0 ( ) 1 0 1 n n n n n n n q q q npq npq q − − ( ( = − ( − − ( ¸ ¸ P 0 1 2 p p q = 1 – p 1 q = 1 – p 163 d) Determine a matriz P(n) em regime permanente. Em regime permanente basta fazer n → ∞ na matriz P(n) acima, o que leva a: 1 0 0 ( ) 1 0 0 1 0 0 n n →∞ ( ( = ( ( ¸ ¸ P Alternativamente se pode encontrar as probabilidades dos estados em regime permanente, π ππ π, e repeti-las em todas as linhas da matriz P. e) Determine a probabilidade [ ] 2 0 | 2 , k k P Z Z k + = = ∀ . Basta substituir n = 2, p = 0,1 e q = 0,9 na matriz P(n) do item “c” ou elevar a matriz P do item “b” ao quadrado, obtendo: 2 1 0 0 (2) 0,19 0,81 0 0, 01 0,18 0,81 ( ( = = ( ( ¸ ¸ P P , de onde se obtém [ ] 2 20 0 | 2 , (2) 0, 01 k k P Z Z k p + = = ∀ = = f) Calcule as probabilidades dos estados em regime permanente, utilizando π ππ π = π ππ πP e Σπ i = 1. Construindo e resolvendo o sistema de equações, teremos: [ ] [ ] [ ] [ ] 0 1 2 0 1 2 0 1 0 1 1 2 1 2 1 1 2 1 2 2 2 1 0 2 1 0 1 2 1 0 0 0 0 0 (1 ) 0 0 1 1 Então, finalmente: 1 0 0 p q p q p p q p p q p q π π π π π π π π π π π π π π π π π π π π π π π π π π π π ( ( = ⇒ × = ⇒ ( ( ¸ ¸ + = ⇒ = + = ⇒ = − = ⇒ = = ⇒ = ⇒ = ⇒ = − − = = = πP π π g) Interprete o resultado obtido no item “f”. Como em regime permanente a probabilidade do estado 0 é unitária, isto significa que no final das contas (para n elevado) é certo que ficaremos sem peças reservas e que, portanto, a máquina irá parar de funcionar por um tempo maior que o permitido. ---------------------------------------------------------------------------------------------------------------------------- 164 2 – Mostre que P(n) é dada pela matriz a seguir, onde P é também dada a seguir. Dica: obtenha P 2 , depois P 3 , depois P 4 e tente, por indução, obter a forma genérica para P(n) = P n . 1 0 0 0 0 p q p q ( ( = ( ( ¸ ¸ P 1 1 1 0 0 ( ) 1 0 1 n n n n n n n q q q npq npq q − − ( ( = − ( − − ( ¸ ¸ P ---------------------------------------------------------------------------------------------------------------------------- 3 – Seja S n um processo de Markov referente a um processo de contagem Binomial formado pela soma de variáveis aleatórias de Benoulli com probabilidade de sucesso p. Em um determinado instante de tempo discreto n, S n pode se manter com o mesmo valor ou ser incrementado de 1. O processo S n poderia, por exemplo, representar o número de lâmpadas queimadas em uma residência até o dia n, sendo p a probabilidade de uma lâmpada queimar num dia qualquer. Pede-se: a) Verificar se S n é realmente um processo de Markov. b) Desenhar o diagrama de estados e a matriz de probabilidades de transição. Dica: ver livro do Leon Garcia, página 463. Observação complementar: O processo S n é uma típica cadeia de Markov que não converge para um comportamento estável, pois cresce cada vez mais á medida que n → ∞. ---------------------------------------------------------------------------------------------------------------------------- 4 – Um apostador vai a um cassino e participa de um jogo de apostas que aparentemente é justo. Em tal jogo as apostas são de valor 1 e a probabilidade de ganhar é ½. Admite-se que a quantidade de recursos do apostador é menor ou igual a 3 e que a quantidade máxima paga pelo cassino neste tipo de jogo é de 4. Pede-se: a) Construa o diagrama de estados para a cadeia de Markov correspondente. b) Determine a matriz de probabilidades de transição para n → ∞ e interprete o resultado supondo que o apostador iniciou o jogo de posse dos valores 1, 2 ou 3. Observação complementar: Este exercício se refere a uma cadeia de Markov na qual as probabilidades dos estados em regime permanente depende do estado inicial. Neste caso a matriz P(n) para n → ∞ não terá todas as linhas iguais. ---------------------------------------------------------------------------------------------------------------------------- FIM DA AULA 165 Aula nº Data Tema Teoria de filas - 1 Conteúdo Noções sobre a Teoria de Filas: Modelo de um sistema de filas. A fórmula de Little. Objetivos Ao final da aula os alunos deverão ser capazes de: 1) conceituar um modelo de filas, citando exemplos reais que se encaixam neste modelo. 2) realizar cálculos em sistemas de filas utilizando a fórmual de Little. A teoria que permite o estudo do comportamento das filas é chamada de teoria de filas (queueing theory). Trata-se de uma aplicação das cadeias de Markov (ou processos de Markov discretos). Sua importância reside no dimensionamento e análise de sistemas de filas quaisquer, como em bancos e em sistemas semelhantes, em servidores ou em processadores em sistemas de computação, em comutadores, em roteadores e no controle de erros em redes de telecomunicações, apenas para citar alguns exemplos. Modelo de um sistema de filas Seja um exemplo de um sistema de filas e o seu correspondente modelo genérico onde, em estado permanente, as taxas de chegada e de atendimento são constantes e valem λ e µ clientes por segundo, respectivamente. A figura a seguir ilustra este modelo genérico. Em notação simplificada tal modelo pode ser representado por meio da figura a seguir. Nele, as chegadas ou solicitações de serviço são encaminhadas a uma memória (buffer), a qual representa a fila. O número de clientes na fila é N Q e o tempo de permanência de um cliente na fila é T Q . Os clientes são atendidos por m servidores, onde cada servidor atende apenas a um cliente por vez. O tempo de permanência de um cliente em atendimento é T S e o número de clientes em atendimento é N S . Após o atendimento os clientes saem do sistema sendo que, em regime permanente, a taxa de saída é igual à taxa de entrada no sistema. O tempo total de permanência no sistema é T = T Q + T S e o número total de clientes no sistema é N = N Q + N S . Em sistemas de filas reais os termos genéricos “cliente”, “fila” e “servidor” assumem nomenclaturas mais específicas e adequadas a cada situação. Por exemplo, se estivermos analisando um sistema de comutação de pacotes em sistemas de telecomunicações, o termo cliente estará associado ao pacote de 166 bits de informação, a fila estará associada a uma memória de armazenamento temporário conhecida como buffer e os servidores estarão associados a comutadores que darão destino aos pacotes na rede. As chegadas e saídas dos clientes podem ser modeladas como processos de contagem (tipicamente processos de Poisson). Estas chegadas e saídas podem ser denotadas por A(t) e D(t), onde os valores de A(t) e D(t) se referem ao número de chegadas e de saídas no intervalo [0, t], respectivamente. A figura a seguir ilustra um comportamento típico das chegadas e saídas de clientes em um sistema de fila. Note na figura em questão que A(t) ≥ D(t) para qualquer instante de tempo, pois não se pode atender um cliente que ainda não chegou à fila Note ainda que o tempo que cada cliente permanece no sistema é a diferença entre o instante de chagada e o subseqüente instante de saída do servidor. A fórmula de Little Seja t i , i = 1, 2, 3, ... o tempo de permanência no sistema para a i-ésima chegada. Se A(t) é o número de chegadas no intervalo [0, t], o tempo médio de permanência de um cliente no sistema de fila, calculado neste intervalo de observação [0, t], pode ser determinado por: 167 ( ) 1 1 ( ) A t i i t t A t = = ∑ Perceba que a expressão anterior nada mais é que uma estimativa, por média amostral, do tempo médio de permanência de um cliente no sistema, calculado pela soma dos tempos de permanência de cada um dos clientes pelo número total de clientes que chegaram até o instante t. De maneira análoga, a taxa média de chegada de clientes no sistema, medida em clientes por unidade de tempo, pode também ser estimada a partir do intervalo de observação [0, t] por: ( ) A t t λ = Um outro parâmetro de importância, o número médio de clientes no sistema, pode ser medido pela divisão do tempo total de permanência no sistema para todos os clientes, medido no intervalo [0, t], pela duração do intervalo, t, ou seja: ( ) 1 1 A t i i n t t t λ = = = ∑ Da teoria das médias amostrais, sabemos que à medida que o número de amostras aumenta uma média amostral tende à média estatística. No presente contexto, um maior número de ocorrências de um evento (chegada ou saída, por exemplo) corresponde a um intervalo de análise [0, t] maior, para o qual teremos as médias amostrais se aproximando dos valores esperados, ou seja: λ λ → [ ] t E T → [ ] n E N → Combinando estes resultados com o resultado anterior, teremos uma importante expressão denominada de Fórmula de Little: [ ] [ ] E N E T λ = ---------------------------------------------------------------------------------------------------------------------------- Exemplo: Na tabela a seguir têm-se os dados de uma fila com disciplina FIFO (first-in-first-out) com variáveis: t A = instante de tempo de chegada, t Q = intervalo de permanência na fila, t S = intervalo de permanência no servidor e t D = instante de tempo de saída. Seja calcular n , o número médio de clientes no sistema de fila. Para facilitar a análise e interpretação dos dados e dos resultados, vamos, a partir da tabela dada, construir o gráfico que mostra a evolução das chegadas e das saídas ao longo do tempo. A figura a seguir corresponde a este gráfico, no qual alguns valores estão em destaque e correspondem aos valores marcados na tabela anterior. No gráfico a seguir, observe especificamente como o tempo de permanência do cliente 7 no sistema é dividido entre o tempo de permanência na fila mais o tempo de permanência no servidor: ele chega ao 168 sistema no instante 11.3 minutos e neste instante entra na fila. Após 0.2 minutos, no instante 11.5 minutos, o cliente 6 sai do sistema, o que significa que um servidor se tornou vago para atender o cliente 7. Tal atendimento dura até que este cliente saia do sistema, o que acontece no instante 13.1 minutos. Assim, o tempo em serviço é de 13.1 – 11.5 = 1.6 minutos. O tempo de permanência total no sistema para o cliente 7 é, portanto, 0.2 + 1.6 = 1.8 minutos. Para termos maior precisão nas nossas estimativas, vamos considerar o intervalo de observação como sendo o intervalo [0, t] = [0, 20.7]. De acordo com a tabela anterior, quando t = 20.7, A(t) = i = 10, o que nos permite escrever: ( ) 10 clientes/min 20.7 A t t λ = = ( ) 1 1 2 3.4 4.8 3.7 4 1.5 1.8 2.3 2.7 5.2 31.4 min ( ) 10 10 A t i i t t A t = + + + + + + + + + = = = ∑ 10 31.4 1.52 clientes 20.7 10 n t λ = = = ---------------------------------------------------------------------------------------------------------------------------- FIM DA AULA 169 Aula nº Data Tema Teoria de filas - 2 Conteúdo Noções sobre a Teoria de Filas: Notação A/S/m para nomear as filas. Processo de nascimento e morte. Equação de balanço global. Fila M/M/1. Objetivos Ao final da aula o aluno deverá ser capaz de: 1) dar o significado dos termos na notação A/S/m para as filas. 2) conceituar um processo de nascimento e morte. 3) conceituar a equação de balanço global. 4) conceituar o modelo de fila M/M/1 e citar exemplos de casos reais que se encaixem em neste modelo. Notação A/S/m para identificar as filas Existem várias formas de identificar uma fila por meio de notações até certo ponto padronizadas. Normalmente esta identificação é feita por meio de um conjunto de letras e números, sendo que cada uma destas letras e números representa uma característica particular da fila em questão. Utilizaremos neste nosso estudo introdutório a notação simplificada A/S/m, na qual a letra na posição “A” descreve a dinâmica das chegadas ao sistema, a letra na posição “S” descreve a dinâmica utilizada pelos servidores para atender os clientes e o número na posição “m” representa o número de servidores. Adicionalmente, admite-se que as chegadas e os atendimentos no sistema de fila são independentes, exceto pelo fato de que não se pode atender um cliente que ainda não chegou à fila. Nesta notação o número de estados da cadeia da Markov correspondente é igual ao número de clientes no sistema, considerando os clientes na fila mais os clientes em atendimento. Estudaremos como exemplo os sistemas de fila M/M/1 e M/M/m, os quais possuem dinâmica de entrada referente a processos Markovianos com distribuição de Poisson, dinâmica de atendimento Exponencial (tempo de serviço Exponencial), tendo 1 e “m” servidores, respectivamente. Antes, porém, vamos definir um processo que se manifesta nestas filas: o processo de nascimento e morte. Processo de nascimento e morte Trata-se de um caso especial de uma cadeia de Markov de tempo contínuo no qual transições de estado ocorrem apenas entre estados adjacentes, ou seja, a probabilidade de transição entre estados não- vizinhos é nula ou é desprezível. Em telecomunicações, processos de nascimento e morte são úteis para modelar alterações na quantidade de usuários em um sistema de filas. Assim, um estado S k nesta cadeia está associado à quantidade k de usuários no sistema. A figura a seguir mostra um diagrama de estados para uma cadeia de Markov referente ao processo de nascimento e morte. Como estamos agora nos referindo a uma cadeia de Markov de tempo contínuo, em vez de probabilidades de transição temos taxas de chegada e de saída para os estados: Se o sistema se encontra no estado S k no instante t, a probabilidade de transição para o estado S k+1 no instante (t + ∆t) será λ k ∆t. Referimos-nos a λ k como a taxa de nascimento (chegada) referente ao estado S k+1 . Se o sistema se encontra no estado S k no instante t, a probabilidade de transição para o estado S k–1 no instante (t + ∆t) será µ k ∆t. Referimos-nos a µ k como a taxa de morte (saída) para estado S k–1 . 170 O sistema de filas discutido no exemplo dado anteriormente é um processo de nascimento e morte. Equação de balanço global À medida que t → ∞, as probabilidades dos estados em uma cadeia de Markov convergem para uma FMP que não dependente das condições iniciais. Este é um comportamento típico de sistemas que alcançam uma condição de equilíbrio ou regime permanente. Para tais sistemas, em cada estado, o somatório dos fluxos de entrada é igual ao somatório dos fluxos de saída, ou seja: fluxo saída fluxo entrada = ∑ ∑ Esta equação tem grande aplicação no estudo da teoria de filas. Logo adiante veremos casos onde tal aplicação estará presente. Fila M/M/1 Na fila M/M/1 o número de servidores é m = 1, as dinâmicas de entrada e de saída são processos de Markov com distribuição de Poisson, com taxa de entrada constante com valor λ e taxa de saída constante de valor µ. A dinâmica de atendimento é um processo Markoviano com distribuição Exponencial. Em outras palavras, a dinâmica de entrada é tipicamente aquela em que as chegadas ocorrem segundo a distribuição de Poisson, para a qual o intervalo de tempo entre os eventos de chegada tem distribuição Exponencial. A dinâmica de atendimento é aquela na qual o tempo de serviço (atendimento a cada cliente) é também uma variável aleatória com distribuição Exponencial. Para recordar, uma variável aleatória X com distribuição Exponencial possui função densidade de probabilidade e média dadas respectivamente por: , 0 , 0 ( ) 0 , 0 x X e x f x x λ λ λ − ¦ ≥ > = ´ < ¹ 1 [ ] E X λ = Sendo assim, o intervalo entre as chegadas ao sistema de filas terá distribuição Exponencial com média 1/λ e o intervalo entre as saídas do sistema de fila terá distribuição Exponencial com média 1/µ. O intervalo de atendimento ou de serviço também terá distribuição Exponencial. A figura a seguir ilustra o diagrama de estados para a cadeia de Markov em tempo contínuo referente à fila M/M/1. Vale lembrar que o número de estados é igual ao número de clientes no sistema, levando em conta os clientes na fila e o cliente em atendimento no servidor. 171 Vimos na definição da equação de balanço global que, para sistemas em equilíbrio, o somatório do fluxo de entrada é igual ao somatório do fluxo de saída. O fluxo de saída de um determinado estado pode ser determinado pelo produto da probabilidade de ocorrência do estado pela soma de seus fluxos de saída. Por exemplo, o fluxo de saída do estado S 3 pode ser determinado por p 3 (λ + µ), onde p 3 é a probabilidade do sistema estar no estado 3. Então a equação de balanço global pode ser adaptada a um processo de nascimento e morte qualquer (ver diagrama de estados no item anterior), formando as novas equações de balanço global: ( ) 0 0 1 1 1 1 1 1 , 0 , 1 k k k k k k k p p k p p p k λ µ λ µ λ µ − − + + = = + = + ≥ onde p k é a probabilidade do sistema estar no estado k ou, em outras palavras, é a probabilidade de existirem k usuários no sistema (fila mais em serviço). Então, utilizando as novas equações de balanço global e definindo ρ = λ/µ como o fator de utilização do sistema de fila M/M/1, podemos escrever as relações: ( ) ( ) 0 1 1 0 2 1 0 2 2 0 3 2 1 3 3 0 p p p p p p p p p p p p p p λ µ ρ λ µ λ µ ρ λ µ λ µ ρ = ⇒ = + = + ⇒ = + = + ⇒ = ⋮ de onde pode-se obter, por indução: 0 j j p p ρ = Adicionalmente, sabendo que a soma das probabilidades dos estados é unitária, ou seja, 0 1 j j p ∞ = = ∑ , tem-se: 0 0 1 j j p ρ ∞ = = ∑ onde identifica-se a progressão geométrica 0 1 1 j j ρ ρ ∞ = = − ∑ Então, 172 0 0 1 1 1 1 p p ρ ρ = ⇒ = − − que levando à expressão p j = ρ j p 0 resulta em: (1 ) j j p ρ ρ = − Entendendo que o número médio de clientes no sistema pode ser calculado por meio de 0 [ ] j j E N jp ∞ = = ∑ , tem-se: 2 0 0 [ ] (1 ) (1 ) (1 ) (1 ) j j j j E N j j ρ ρ ρ ρ ρ ρ ρ ∞ ∞ = = = − = − = − − ∑ ∑ o que resulta em: [ ] (1 ) E N ρ ρ = − Observe na figura a seguir que, como esperado, à medida que o fator de utilização do sistema ρ = λ/µ cresce, o número de clientes (na fila e no servidor) aumenta, com aumentos drásticos quando ρ está próximo de 1. Usando a fórmula de Little, o tempo médio de permanência no sistema de fila M/M/1 será: [ ] [ ] (1 ) E N E T ρ λ λ ρ = = − o que resulta em: 1 [ ] E T µ λ = − 173 A figura a seguir ilustra o comportamento do tempo médio de permanência no sistema de fila M/M/1, normalizado em relação ao intervalo médio entre as chegadas com distribuição de Poisson, 1/λ. De forma similar ao número médio de clientes no sistema, à medida que o fator de utilização ρ = λ/µ cresce, o tempo médio de permanência (na fila e no servidor) aumenta, com aumentos mais pronunciados quando ρ está próximo de 1. Em caráter complementar, na análise de algum problema ainda podemos querer conhecer a probabilidade do número de clientes no sistema de fila exceder um dado valor ou a probabilidade do tempo de permanência no sistema exceder um dado valor. Estas probabilidades são dadas respectivamente por: [ ] (1 ) L L N L N N P N N ρ ρ ∞ = ≥ = − ∑ ( ) 1 [ ] exp [ ] L L S T P T T E T ρ − ( > = − ( ¸ ¸ ---------------------------------------------------------------------------------------------------------------------------- FIM DA AULA 174 Aula nº Data Tema Teoria de filas - 3 Conteúdo Fila M/M/m sem buffer e a Fórmula Erlang-B. Exercícios de fixação sobre a teoria de filas. Objetivos Permitir que os alunos revisitem os conceitos teóricos e conheçam exemplos de aplicação destes conceitos na solução de problemas. Ao final da aula os alunos deverão ser capazes de: 1) entender a dedução da fórmula Erlang-B a partir da fila M/M/m. 2) realizar cálculos com os modelos de fila M/M/1 e M/M/m, epecialmente aqueles que envolvam a fórmula Erlang-B. Fila M/M/m sem buffer e a Fórmula Erlang-B Estudaremos o sistema de fila M/M/m sem buffer por meio de um estudo de caso que levará à dedução da fórmula Erlang-B, um dos resultados mais úteis no dimensionamento de sistemas de telecomunicações com comutação de circuitos, os quais possuem as seguintes características em comum: Chegadas (chamadas) com distribuição de Poisson. Tempo de serviços (atendimento) com distribuição Exponencial, sem fila (sem buffer). Sistema com comutação de circuitos para o qual um circuito servidor (canal) se mantém ocupado durante o tempo de conexão. Uma chamada é encaminhada ao destino se há algum servidor (canal) ocioso; se não há, a chamada é bloqueada. O sistema aloca um canal por chamada completada. Cálculos de interesse com a fórmula Erlang-B que será deduzida: Probabilidade de bloqueio de uma chamada em função do número de canais, para um determinado tráfego oferecido ou fator de utilização do sistema. Número de canais necessários em função da probabilidade de bloqueio desejada e do tráfego oferecido ao sistema. A figura a seguir apresenta o diagrama de estados para a cadeia de Markov referente a um sistema de fila M/M/m sem buffer. Perceba que se não há fila, o número máximo de clientes no sistema é igual ao número de servidores e, portanto, o número de estados da cadeia é igual a m. Adicionalmente, se o processo de chegada segue uma distribuição de Poisson, a taxa de chegadas é constante e tem valor λ. Em outras palavras, o incremento do número de usuários no sistema tem taxa fixa λ. Finalmente, como há m servidores no sistema e não há fila de espera, a taxa de atendimento será tanto maior quanto mais clientes estiverem sendo atendidos. Por esta razão a taxa de saída em cada estado é proporcional ao estado, sendo µ a taxa de atendimento quando houver apenas um cliente no sistema. Aplicando as equações de balanço global ao modelo em questão, pode-se escrever: 175 1 0 2 2 0 3 3 0 2 3 2 p p p p p p ρ ρ ρ = = = ⋅ ⋮ de onde pode-se obter, por indução: 0 ! j j p p j ρ = Como se sabe: 0 1 j j p ∞ = = ∑ Então, combinando as duas últimas expressões obtém-se: 1 0 0 ! j j p j ρ − ∞ = | | = | \ ¹ ∑ Combinando os dois resultados anteriores que estão em destaque, tem-se finalmente: 1 0 ! ! j j j j p j j ρ ρ − ∞ = | | = | \ ¹ ∑ A probabilidade dos m canais estarem ocupados, que correspondente à probabilidade de bloqueio de novas solicitações de chamada, é dada pela expressão de p j fazendo j = m, ou seja: 1 0 [ ] ! ! m j m m j P B p m j ρ ρ − = | | = = | \ ¹ ∑ onde ρ = λ/µ é o fator de utilização do sistema ou, no presente contexto, é a quantidade de tráfego oferecida ao sistema. Esta quantidade de tráfego é medida em Erlangs (Er), em homenagem ao matemático francês que a desenvolveu. A quantidade de tráfego pode ser determinada por o c c N τ ρ τ = onde N c é o número de chamadas de duração média τ c no intervalo de observação τ o . ---------------------------------------------------------------------------------------------------------------------------- 176 Exemplo: Para termos noção da ordem de grandeza da quantidade de tráfego correspondente a 1 Erlang, vamos analisar o seguinte exemplo: suponha que uma central de comutação receba 120 solicitações de chamadas telefônicas num intervalo de observação de 1 hora e que a duração média das chamadas completadas seja de 2 minutos. O tráfego oferecido à central é dado por: 0 120 2 4 Er 60 c c N τ ρ τ × = = = e o tráfego médio gerado por usuário é de 4/120 ≅ 0,033 Er. Por este exemplo é possível verificar que a intensidade de tráfego de 1 Erlang é um valor bastante elevado quando se refere ao tráfego gerado por um único usuário. ---------------------------------------------------------------------------------------------------------------------------- Na figura a seguir são apresentadas várias curvas para a probabilidade de bloqueio em função da intensidade de tráfego oferecida ao sistema, onde m é o número de canais (servidores) disponíveis. Valores práticos de probabilidade de bloqueio normalmente se situam na faixa de 0,01 a 0,05. Por esta razão, na tabela a seguir são apresentados vários valores para a probabilidade de bloqueio em função do número de canais e da intensidade de tráfego oferecida ao sistema de filas M/M/m. ---------------------------------------------------------------------------------------------------------------------------- Exemplo: Vamos determinar o número de canais necessários em um sistema de comutação de circuitos de tal forma que a probabilidade de bloqueio esteja por volta de 1% e que o número de assinantes atendidos seja 1.000, sabendo que a intensidade de tráfego gerada por usuário é de 0,02 Er. A intensidade de tráfego total oferecida será de 1.000 × 0,02 = 20 Er. Pela tabela dada anteriormente percebe-se que o número necessário de canais está por volta de 30. Desta forma, com 30 canais será possível atender a 1.000 assinantes, sendo que a probabilidade de uma solicitação de chamada ser bloqueada será de apenas 0,008. 177 ---------------------------------------------------------------------------------------------------------------------------- Número de canais 10 20 30 40 50 60 70 80 90 100 5 0.018 10 0.215 0.002 15 0.410 0.046 20 0.538 0.159 0.008 25 0.622 0.280 0.053 0.002 30 0.681 0.380 0.132 0.014 35 0.725 0.459 0.220 0.054 0.003 40 0.758 0.521 0.299 0.116 0.019 45 0.784 0.571 0.367 0.185 0.054 0.005 50 0.805 0.612 0.425 0.250 0.105 0.022 0.003 55 0.822 0.646 0.473 0.308 0.161 0.053 0.007 60 0.837 0.674 0.515 0.360 0.216 0.096 0.024 0.002 65 0.849 0.699 0.550 0.406 0.267 0.144 0.052 0.009 70 0.859 0.720 0.581 0.445 0.314 0.192 0.090 0.025 0.003 75 0.869 0.738 0.608 0.480 0.356 0.237 0.131 0.051 0.011 80 0.877 0.754 0.632 0.511 0.393 0.279 0.173 0.084 0.026 0.004 85 0.884 0.768 0.653 0.539 0.427 0.317 0.213 0.121 0.050 0.012 90 0.890 0.781 0.672 0.564 0.457 0.352 0.251 0.158 0.080 0.027 I n t e n s i d a d e d e t r á f e g o , E r 95 0.896 0.792 0.689 0.586 0.484 0.384 0.287 0.195 0.112 0.049 ---------------------------------------------------------------------------------------------------------------------------- Exemplo: Vamos calcular o número de usuários que poderia ser suportado por cada um de dois sistemas celulares em uma determinada área, para uma probabilidade de bloqueio de 1% e tráfego médio gerado por usuário de 0,03 Er. O sistema A contém uma única célula com 100 canais e o sistema B contém 5 células com 20 canais cada. A área atendida pelos dois sistemas é a mesma. Vamos ainda tentar justificar os resultados obtidos. Realizando os cálculos com e fórmula Erlang-B, temos: Sistema A: 100, [ ] 0, 01 84 Er. Sistema B: 20, [ ] 0, 01 12 Er =5 12= 60 Er. Agora vamos calcular o número de usuários suportado: Sistema A: A B A m P B m P B U ρ ρ ρ = = ⇒ ≅ = = ⇒ ≅ ⇒ × / 84/ 0, 03 2800 usuários. Sistema B: / 60/ 0, 03 2000 usuários. A U B B U U ρ ρ ρ ρ = = = = = = ---------------------------------------------------------------------------------------------------------------------------- Probabilidade de bloqueio 178 Exercícios de fixação ---------------------------------------------------------------------------------------------------------------------------- 1 – Um nó de uma rede de comutação de pacotes de dados recebe em média 480 pacotes por minuto (segundo uma distribuição de Poisson), comutados para uma das suas linhas de saída a uma taxa de 64 kbps. A distribuição do tamanho da mensagem é Exponencial com um tamanho médio de 4.000 bits. Considerando o buffer do comutador infinito, calcule: a) O tempo de serviço. b) O fator de utilização do sistema. c) O número médio de pacotes na fila (sem incluir o que está em transmissão) d) O tempo médio que um pacote fica retido no comutador. e) A probabilidade do tempo de permanência no sistema ultrapassar 3 vezes o seu valor médio. f) A probabilidade de que 10 ou mais mensagens estejam esperando para serem transmitidas. g) Recalcule tudo considerando que a carga subiu para 864 pacotes por minuto. ---------------------------------------------------------------------------------------------------------------------------- 2 – Um PABX possui 4 troncos e atende a 20 ramais. A taxa de geração de chamada de cada ramal é de 3 chamadas por hora, cada uma com um tempo médio de duração de 3 minutos. Calcule a probabilidade de bloqueio. ---------------------------------------------------------------------------------------------------------------------------- 3 – Um PABX atende a 40 ramais, cada um gerando em média 4 chamadas por hora, cada uma com um tempo médio de duração de 3 minutos. Deseja-se que a probabilidade de bloqueio seja menor ou igual a 1%. Quantos troncos são necessários? ---------------------------------------------------------------------------------------------------------------------------- 4 – Suponha que a probabilidade de bloqueio encontrada no exercício 3 seja inaceitavelmente alta. Como paliativo, instalou-se no PABX um circuito que permite que duas chamadas permaneçam em espera caso todos os troncos estejam ocupados. Desenhe o diagrama de estado deste novo sistema. Determine a probabilidade associada a cada estado (em função de p 0 ). Com os dados do exercício 3 calcule a probabilidade de bloqueio. ---------------------------------------------------------------------------------------------------------------------------- 5 – Calcular o número de usuários que poderia ser suportado por cada um de dois sistemas celulares em uma determinada área, para uma probabilidade de bloqueio de 2% e tráfego médio gerado por usuário de 0,05 Er. O sistema A contém uma única célula com 100 canais e o sistema B contém 5 células com 20 canais cada. A área atendida pelos dois sistemas é a mesma. Comentar sobre os resultados obtidos. ---------------------------------------------------------------------------------------------------------------------------- 6 – Qual o número de canais necessários em um sistema de comutação de circuitos de tal forma que a probabilidade de bloqueio esteja por volta de 2% e que o número de assinantes atendidos seja 2.000, sabendo que a intensidade de tráfego gerada por usuário é de 0,03 Er? 179 ---------------------------------------------------------------------------------------------------------------------------- Desafio - Outra aplicação das cadeias de Markov ocorre na simulação de um canal de comunicação móvel em modelo discreto. Sabe-se que num canal deste tipo o desvanecimento tem sua magnitude e sua fase com distribuições de Rayleigh e Uniforme, respectivamente. Realize uma pesquisa com o objetivo de entender como se aplica o modelo discreto de Gilbert para o canal de comunicação móvel. Procure encontrar informações que permitam que você possa comparar os modelos contínuo e discreto em termos de facilidade de implementação e de precisão. Faça uma dissertação sobre as suas conclusões, usando aproximadamente 4 páginas A4, caractere Times New Roman, 12 pontos, espaçamento simples, margens de 2 cm. ---------------------------------------------------------------------------------------------------------------------------- FIM DA AULA & FIM DO CURSO 180 Apêndice Identidades trigonométricas 181 Derivadas 182 183 Integrais indefinidas 184 185 Integrais definidas 186 Propriedades da transformada de Fourier 187 Pares de transformada de Fourier 188 Variáveis aleatórias discretas Bernoulli Binomial Geométrica 2 189 Geométrica 2 Poisson 190 Variáveis aleatórias contínuas Uniforme Exponencial Gaussiana 191 Gama Chi-quadrada Rayleigh Laplace 192 Valores da FDC para uma variável aleatória N NN N(0,1) 2 1 ( ) ( ) exp 2 2 x X u F x x du π −∞ | | = Φ = − | \ ¹ ∫ 193 194 ---------------------------------------------------------------------------------------------------------------------------- 195 Referências 1. Leon-Garcia, Alberto. Probability and Random Processes for Electrical Engineering. Addison- Wesly, 2nd edition, July 1993. 2. Roy Yates and David J. Goodman. Probability and Sthocastic Processes: A Friendly Introduction for Electrical & Computer Engineers. John Wiley, August 1998. 3. Sheldon M Ross. Introduction to Probability Models. AP Professional, 7 th Edition, February 2000. 4. Samuel Karlin and Howard M. Taylor. An Introduction to Stochastic Modeling. Academic Press, 3 rd edition, February 1998. 5. Henry Stark and John W. Woods, Probability and Random Processes with Applications to Signal Processing, Prentice Hall, 3 rd edition, July 2001. 6. Sheldom M. Ross. Stochastic Processes. John Wiley & Sons, 2 nd edition, January 1996. 7. John G. Proakis, Digital Communication, MC Graw Hill Series in Electronic and Computer Engineering; 3 rd Edition, 1995. 8. John E. Freund. Modern Elementary Statistic, Prentice Hall International Editions, 1988. 9. Simon Haykin. Communication Systems, John Wiley & Sons Inc, 4 th Edition, 2001. 10. Murray R. Spiegel. Probabilidade e Estatística, Mc Graw Hill, 1978. 11. Bernard Sklar. Digital Communications Fundamentals and Applications, Prentice Hall Inc, 2 nd Edition, 2001. ..12. José M. C. Brito. Notas de aula, exercícios e slides sobre Probabilidade, Estatística e Processos Estocásticos. Inatel, 2007. ..13. Estevan M. Lopes. Notas de aula, exercícios e slides sobre Probabilidade, Estatística e Processos Estocásticos. Inatel, 2007. ..14. Carlos A. Ynoguti. Apostila sobre Probabilidade, Estatística e Processos Estocásticos. Inatel, 2007. ----------------------------------------------------------------------------------------------------------------------------