Análise de Variância e planeamentos experimentais (2)

Análise de VáriánciáProjeto Final – UC Estatística I Carla Noronha aluna nº 1002152 MBB- Mestrado em Bioestatística e Biometria Este documento é apenas um breve resumo do que é a Análise de variância e as suas aplicações nas diferentes áreas das ciências, exatas e não exatas. Tentámos mostrar alguns exemplos e expor alguns dos seus modelos e pressupostos. Embora limitados pelo número de páginas, abordámos aquilo que considerámos ser o essencial desta temática. Dados adicionais foram colocados no powerpoint anexo. 17-06-2012 INDICE página 1.Breve história da Análise de Variância …………………………………………………………………………………… 2 2.O que é então á ánálise de váriânciá? ……………………………………………………………………………………… 5 2.1.Pressupostos da Anova …………………………………………………………………………………………….. 6 2.1.1. Independênciá dos erros ………………………………………………………………………………… 6 2.1.2. Normálidáde dos erros …………………………………………………………………………………… 6 2.1.3. Homogeneidáde dá váriânciá ………………………………………………………………………….. 7 3.Análise de variância a um fator e efeitos fixos ………………………………………………………………………… 7 3.1 Modelo …………………………………………………………………………………………………………………… 7 3.2. Pressupostos………………………………………………………………………………………………………….. 8 3.3. Hipóteses á testár…………………………………………………………………………………………………… 8 3.4. Representáção ………………………………………………………………………………………………………. 8 3.5. Tomádá de decisão ………………………………………………………………………………………………… 9 4. Análise de Variância a um fator e efeitos áleátórios ………………………………………………………………. 9 4.1. Modelo ………………………………………………………………………………………………………………….. 9 4.2. Pressupostos……………………………………………………………………………………….………………….. 9 4.3. Hipóteses á testár…………………………………………………………………………………………………... 10 4.4. Representáção……………………………………………………………………………………………………….. 10 4.5. Tomádá de decisão………………………………………………………………………………………………… 11 5. Análise de Váriânciá á dois fáctores………………………………………………………………………………………. 11 5.1. Modelo de efeitos fixos – umá observáção por célulá ……………………………………………….. 11 5.1.1. Modelo ………………………………………………………………………………………………………… 11 5.1.2. Pressupostos.………………………………………………………………………………………………… 11 6. Teste de Comparação Múltipla (testes post-hoc)……………………………………………………………………. 11 6.1. Breve história dos testes post-hoc ………………………………………………………………………….. 12 6.2. As distribuições por detrás dos testes post-hoc ………………………………………………………. 12 6.3. Noção de contráste………………………………………………………………………………………………… 13 6.4. Teste de Neumán Keuls………………………………………………………………………………………….. 14 6.5. Teste de Tukey Honestly Significant Difference (HSD ou Tukey)……………………………… 14 6.6. Teste LSD de Fisher ………………………………………………………………………………………………. 15 6.7. Teste de Dunnett…………………………………………………………………………………………………… 16 6.8. Teste de Scheffè……………………………………………………………………………………………………... 16 6.9. Teste de Benferroni……………………………………………………………………………………………….. 17 7. Áreás de Aplicáção dá Análise de váriânciá ………………………………………………………………………….. 17 7.1. Anová e ágriculturá ………………………………………………………………………………………………. 17 7.2. Anová e Psicologiá ………………………………………………………………………………………………… 18 7.3. Anová e Ecologiá …………………………………………………………………………………………………… 18 7.4. Outrás…………………………………………………………………………………………………………………… 18 7.5. Exemplos de áplicáção dá Análise de Váriânciá ………………………………………………………. 18 8. Conclusão …………………………………………………………………………………………………………………………… 24 9. Bibliográfiá e Webgráfiá……………………………………………………………………………………………………….. 25 1 em 1918. as quais são consideradas as suas maiores contribuições à Estatística. De acordo com Cochran (1980). As suas ideias sobre esse assunto encontram-se em suas duas obras: Statistical Methods for Research Workers. pois foi usada apenas uma única estimativa do erro experimental para todas as comparações.1. segundo Yates (1964b). É interessante observar que Fisher empregou primeiramente o modelo multiplicativo como mais apropriado. continha erros. Para ele. usou também o 2 . Fisher ainda não havia dominado completamente as normas da análise de variância. G. essas ideias tiveram maior avanço e pleno desenvolvimento. especialmente na experimentação agrícola. e uma prova formal mais completa foi dada por Cochran (1934). (1935). no qual mostra que as correlações encontradas entre parentes podem ser explicadas pelo mecanismo da herança mendeliana. Ainda de acordo com Fisher. mas não um teorema matemático. utilizando um planeamento do tipo split plot. especialmente por George Waddel Snedecor (1881 – 1974). pela casualização (por um mecanismo objetivo de sorteio) nenhum tratamento seria continuamente favorecido ou desfavorecido nas sucessivas repetições por alguma fonte estranha de variação. Tratando-se de uma exposição histórica. (1925) e The Design of Experiments. sua análise denominada Analysis of Variation e não variance. segundo suás pálávrás. de 1919 a 1933. no seu artigo póstumo Fisher and the Analysis of Variance. sendo nada mais que um modo conveniente de “arranging the arithmetic”. graças à sua disseminação foram devidamente interpretadas. A título de rigor histórico. deve ser mencionado que a ideia de comparar a variação entre grupos com a variação dentro de grupos como teste de homogeneidade foi primeiramente estudada por Wilhelm Lexis (1837 – 1914) na Alemanha. Lexis criou um critério de dispersão (o termo variância não era conhecido na época). Um tratamento matemático elementar encontra-se em Irwin (1931).Uma breve história da Análise de Variância A Análise de Variância (Anova) é. Embora destinadas aos pesquisadores das áreas biológica e agrónoma. A terminologia por ele criada bem reflete essa influência. O seu desenvolvimento e muitas das suas aplicações originaram-se no período em que Fisher trabalhou na Estação Experimental de Rothamsted. com sua assistente Miss Winifred A. no final do século XIX. vistos por ele como dois aspectos do mesmo todo. Na verdade. sejam tratados conjuntamente. num artigo . mas não pode ser considerada uma análise de variância como essa veio a ser conhecida. inteiramente sua. somente gráçás áos trábálhos de Fisher. autor do livro (Snedecor. L.o método estatístico de maior repercussão na pesquisa científica. Entretanto. em 1843. uma brilhante inspiração. que já vai para a sétima edição. de onde surgiu como uma das muitas provas do génio de Fisher. a maior e mais antiga das instituições britânicas de pesquisa agrícola onde eram conduzidos ensaios com fertilizantes químicos desde sua fundação. Para isso. Cochran como co-autor. Trata-se da análise estatística de uma experiência realizada em Rothamsted em 1922. O termo variância foi cunhado por Fisher. 1923).. com relação à amostragem de atributos homógrados. a casualização garantiria a validez da estimativa do erro e possibilitaria a aplicação dos testes de significância para se verificar o efeito dos tratamentos. previamente demonstrados. provavelmente . tendo W. a análise de variância pode ser considerada um método estatístico. é baseada em teoremas matemáticos. A novidade introduzida por Fisher foi o princípio da casualização. onde ν é o número de gráus de liberdáde. Nesse mesmo artigo. como outrás invenções lógicas. Ela era necessária para que as variações que contribuem para o erro experimental fossem convertidas em variáveis aleatórias. Segundo ele. Náturálmente. 1937). Neste trabalho foi apresentada uma decomposição percentual da variância total em suas respectivas causas. também chamado razão de Lexis. não são de fácil leitura. é natural que a análise de variância e os planeamentos experimentais. Contudo. O primeiro artigo sobre esse tópico apareceu num artigo de Fisher. ligádo áo χ2 pela relação χ2 /ν = L2. Mackenzie (Fisher & Mackenzie. As ideias nunca surgem de modo pronto e definitivo. Durante quase 90 anos antes da chegada de Fisher. usando todos os tipos de fertilizante disponíveis simultaneamente em várias parcelas de terreno vizinhas. Ex. os primeiros passos são oscilantes. i. conhecido por seu teste de homogeneidade de variâncias (Bartlett. ao publicar Statistical Methods for Research Workers. em 1937. ao envolver-se na experimentação de campo. A análise de variância. Fisher havia percebido seu erro e apresentou então uma análise estatística correta no parágrafo 42. 2 anos depois. que o próprio Student. As técnicas de estimação de parcelas perdidas (missing plot). principalmente na competição de variedades de cevada em larga escala. Entretanto. obedecendo antes a um processo de desenvolvimento que se aperfeiçoa com tentativas e com hesitações. Independentemente de Fisher. em caso contrário. áqui. segundo padrão simples. É pena que a Anova seja estudada atualmente apenas dentro da teoria dos modelos lineares. por motivos de trabalho na Cervejaria Guinness. ele chegara à estimativa do erro para a comparação de variedades. Yates ainda não tinha conhecimento da correspondência entre Fisher e Gosset. iniciadas com Allan & Wishart (1930). completamente desligada de sua origem histórica. Em 1923. tornar-se-á necessário usar o princípio clássico dos mínimos quadrados para se estimarem os parâmetros. Isso constituiu ponto de discórdia entre Student e Fisher. a casualização foi usada como rotina em todos os planos experimentais realizados em Rothamsted. Deve ser dito. Entretanto.. também. nada mais são que recursos para restaurar a ortogonalidade. que continuou a preferir em trabalhos posteriores. deu preferência aos arranjos equilibrados sistemáticos. acima referida. 41. pela sedução de sua elegância. (A história das ideias está cheia de verdades estéreis e erros férteis). pois que o processo criativo é formado de conjecturas da imaginação e não uma dedução lógica dos conhecimentos anteriores.e. estudando a colheita desse ano. ele tinha completo domínio sobre o assunto. a derivação do procedimento usado na análise de variância em blocos casualizados por meio do ajustamento de constantes para blocos e para tratamentos pelo método clássico dos mínimos quadrados. Fisher deu preferência à apresentação da análise aritmética da decomposição da soma dos quadrados. Esse exemplo serve para comprovar. 1965). como sempre. como a chuva e a temperatura. provavelmente pela maior facilidade de manipulação. utilizando. Naquela época. Não demorou para que esse método fosse utilizado em planeamentos não equilibrados e estendido a problemas de regressão múltipla. Fisher mostrou. na sua correspondência com Gosset. desde que não fosse elevado a um ritual cego. pois. nas palavras de Maurice Stevenson Bartlett (1910 – 2002). a partir de 1925. á fráse do escritor Arthur Koestler “The history of ideas is filled with barren truths and fertile errors”. essa simplicidade de cálculos depende do facto de a experiência ter sido delineada para ser ortogonal. embora não tenha causado qualquer inimizade entre ambos. usando um único fertilizante no campo agrícola durante um ano inteiro e fazendo medições com alterações das outras variáveis. As ideias de Fisher foram finalmente vitoriosas e. que permaneceram amigos até a morte de Student. mais uma vez. tornando assim possível a análise de variância. a Estação experimental de Rothamsted vinha a experimentar diferentes tipos de fertilizantes. O primeiro reconhecimento ostensivo de que um modelo linear analisado pelo método dos mínimos quadrados era mais fundamental do que uma análise intuitiva baseada no desdobramento da soma dos quadrados deve-se a Yates (1933). argumentando que a casualização causa um aumento da variabilidade. com 3 . em 1925. pois comparava os efeitos de mais do que um fertilizante num único ano. O que Fisher fez foi revolucionar a forma como as experiências eram realizadas. sua originalidade que Fisher mostrou ser algebricamente equivalente à análise de variância. Naquela época. Isso representou um ganho prático enorme. que. na abertura de novos caminhos.modelo aditivo. Embora essa tenha sido a primeira abordagem da análise de variância. Cabe. cuja simplicidade tornou-a acessível aos pesquisadores menos versados em teoria estatística. permitir que os efeitos sejam capazes de uma estimação direta e separada. onde foi responsável pela formação académica de mais de uma geração de ilustres estatísticos. em Statistical Methods for Research Workers. ele distingue o Modelo I ou de efeitos fixos. assim. Fisher (1926). sacrificando-se deliberadamente a informação de certas interações. ele percebeu as dificuldades práticas para um grande número de fatores. Tudo isso era bem conhecido até o fim da 2ª Guerra Mundial. elegante e relativamente simples. Nesse artigo. o leitor é introduzido à Análise de Variância nesse contexto. depois desse período surgiu novo conceito introduzido por Churchill Eisenhart (1913 – 1994) num artigo sobre pressuposições em que se baseia a análise de variância. pela primeira vez. Realce-se que. As experiências fatoriais e as técnicas de confundimento foram posteriormente desenvolvidos por Frank Yates (1902 – 1994) e estão expostos em sua monografia The Design and Analysis of Factorial Experiments (1937). Uma vez estendida a experiências mais complexas. e o Modelo II ou de efeitos aleatórios. se os tratamentos são deliberadamente escolhidos. Aliás. nas sucessivas edições de seu livro. Este último é a forma original da análise de variância. em que alguns efeitos são fixos e outros aleatórios. considerado o precursor de seu livro The Design of Experiments. em geral. passaram a constituir o instrumental básico para a interpretação dos resultados das experiências controladas. mas em muitos casos essas estimativas tornavam-se necessárias. assistente de Fisher desde 1928. Yates foi para Rothamsted. a estimação das componentes de variância era irrelevante. Contudo. um modelo é de efeitos fixos. permitindo. o uso de experiências fatoriais e suas vantagens. esse método constituía grande simplificação. A análise estatística é a mesma nos diferentes modelos. Um exemplo de sua cooperação com Fisher. tendo sido depois acrescentado o modelo misto. Fisher mostra. No supracitado artigo. confundindo-as com as diferenças entre blocos. de acordo com a expectância dos quadrados médios. declara. A Anova difundiu-se rapidamente entre os pesquisadores. Esta técnica é a ANOVA (análise de variância) e 4 . que não se deve levar em conta o aforismo de se perguntar à natureza apenas uma questão de cada vez. naquele período. Eisenhart (1947). No seu artigo. segundo o autor. é a publicação de Fisher & Wishart (1930). à qual deve ser acrescentada sua extensa lista de trabalhos sobre blocos incompletos. que mostra a preocupação de ambos em divulgar os novos métodos ao alcance dos pesquisadores. ou é de efeitos aleatórios (também chamado de componentes de variância) se é feita uma seleção aleatória dos tratamentos. cada bloco não seria mais uma repetição completa. como também produziu a técnica estatística para analisar os dados obtidos. a forma da análise de variância apropriada à correlação intra-classe ou a qualquer classificação hierárquica requer ampliação para ser usada nas classificações cruzadas da análise de experiências. Fisher achou que a distribuição do coeficiente de correlação intra-classe era essencialmente equivalente à da razão de variâncias. além de fornecer as estimativas dos erros e os testes de significância dos vários efeitos. Certamente. Em 1931.a análise de covariância. a recuperação da informação sobre as interações confundidas. mas o interesse do pesquisador não se restringe apenas a eles. também por ele desenvolvida. Esse artifício técnico foi denominado confundimento (confouding). como 2% ou 1%. Ele nunca se preocupou de tratar a correlação intra-classe separadamente da análise de variância. mas os testes de significância diferem. consideradas pouco importantes. conforme as interações estejam completamente confundidas ou apenas em parte. sua preferência por um nível de significância de 5% revelando que talvez outros preferissem um nível mais rigoroso. advogando. Para muitos deles. como alternativa à correlação intra-classe e que. em substituição a John Wishart (1898 – 1956). peremptoriamente. a Anova permitiu estimar as componentes de variância atribuídas às diferentes classes de efeito. Assim. Na prática. pois muitas vezes ela se recusa a responder até que outro fator seja acrescentado. Entretanto. tendo mostrado que essas dificuldades poderiam ser evitadas incluindo-se num bloco apenas uma parte de todas as combinações possíveis. que pode ser total ou parcial. assim. que saíra naquele ano para lecionar na Universidade de Cambridge. não só Fisher inventou um procedimento experimental poderoso. Evidentemente só fará sentido considerar tal fator se se puder garantir a homogeneidade das populações em relação a todos os outros factores que poderiam ser relevantes para a explicação do fenómeno (iremos alargar-nos sobre as condições de aplicabilidade da Anova adiante). Neste nosso exemplo. Neste caso estamos perante uma análise de variância com efeitos aleatórios. falamos em Análise de variância a um fator (One way Anova). os grupos podem ser retirados aleatoriamente de entre um conjunto alargado de possibilidades. Em muitas situações há mais do que um fator a influenciar os resultados das observações . as observações registadas são provenientes de grupos classificados através apenas de um fator – a doença – neste caso. 2. Por outro lado dizemos que a análise de variância tem tantos níveis ou efeitos quantos grupos distintos se considerem.O que é então a Análise de Variância? Em atividades anteriores neste MBB já tivemos a oportunidade de estudar a forma de comparar duas médias populacionais através da utilização da inferência estatística. caso se identifiquem diferenças entre as mesmas. o que é a Anova. Em alternativa. 5 . Desta forma será possível comparar a eficácia dos 5 medicamentos de uma só vez e. poderei eu afirmar que o novo medicamento é mais eficaz dos que os demais existentes já no mercado? A análise de variância procura dar resposta a esta pergunta através da comparação efectuada pela dispersão presente no conjunto de dados – daí o nome Análise de Variância.Por vezes usamos a expressão tratamento em vez de grupo Na maior parte dos casos. Mas podemos ter necessidade de comparar mais do que um par de médias. Como fazê-lo? Hipótese número um : constituir pares com os vários medicamentos – obteremos então 5C2= 10 pares que poderemos então analisar usando testes paramétricos. Pensando ainda no nosso exemplo. 3 outros já existentes no mercado e um placebo. falamos em Anova a 2 fatores (Two way Anova). A título de exemplo consideremos a situação em que queremos testar a eficácia de um novo medicamento no tratamento de determinada patologia através da administração de 5 tratamentos diferentes : o novo medicamento. essa técnica fantástica que nos permite efectuar tal estudo e poupar tempo na comparação de scores de dados? A ANOVA é uma técnica estatística que foi desenvolvida por Fisher (tal como referido no capitulo anterior) e que permite então a comparação simultânea de k médias com recurso à distribuição F de Fisher.neste caso. essas poderão ser detectadas com maior rigor recorrendo aos testes de comparação múltipla.também a ANCOVA (análise de covariância)! Fisher estabeleceu estas técnicas analíticas que se tornaram a base de todos os currículos dos cursos com investigação nas ciências sociais e comportamentais. Hipótese número dois: conduzir uma análise de variância (ANOVA) na qual intervêm todos os medicamentos em simultâneo. Se existirem mais do que dois fatores a condicionar os resultados também podemos falar em Anova a 3 fatores (Three way Anova) ou multifatorial. os grupos são determinados à partida – dizemos então que estamos perante uma Anova com efeitos fixos. Então. a menos que o 6 . porque os dados que estão a ser recolhidos demasiado próximos uns dos outros no tempo. possivelmente indicando uma descoberta casual. as variâncias nos vários níveis dos grupos da variável independente são iguais Embora possamos discutir cada um destes pressupostos em separado. Este fato seria indicativo de uma relação entre os erros e as observações. pode produzir componentes de erro residual que não são independentes uns dos outros.2.1.Pressupostos da Anova Antes de conduzir uma análise de variância (Anova) . na prática. os erros distribuem-se normalmente 3. que são. 2. insuficiência do participante em seguir as instruções. por vezes referida como autocorrelação. a saber: 1. um terceiro tipo de situação de dependência ocorre quando a componente de erro de cada observação cai num padrão cíclico tipicamente devido aos participantes. 2. na prática eles estão interligados de tal forma que a violação de qualquer um deles afeta os outros. muitas vezes encontramos variáveis dependentes que não são perfeitas na sua forma. Os outliers são casos em que surgem valores extremos de uma determinada variável. A dependência pode ocorrer quando um Yi contem informação acerca de outro. codificação de erro. as componentes do erro associadas à variável dependente são independentes 2.Normalidade dos erros A curva normal é conhecida pela sua tradicional curva em sino que mostra distribuições simétricas e que produz o mesmo valor de média.1. Figura 1 – curva Normal A Anova assume que o erro residual associado aos registos de Yi distribuem-se normalmente. mas é o mais provável é ser indicativo de erro experimental (por exemplo.Os Outliers devem ser eliminados. Esta proximidade dos casos uns aos outros no tempo. Que formas de dependência podem ocorrer e devidas a que tipo de factores? Pois bem.2. Contudo.1. por fim.Independência dos erros A primeira assumpção por detrás da Anova é que o resíduo da componente Yi ( a diferença entre as observações e a média do grupo) é aleatória e independente nas observações individuais.1. os investigadores devem assegurar-se que se verificam os pressupostos inerentes a este tipo de estudo. Uma segunda fonte de ocorrência de dependência pode ocorrer se os participantes num estudo puderem comunicar entre si sobre a tarefa que irão executar e. fadiga). uma importante fonte de dependência pode surgir se os participantes num tratamento forem testados em pequenos grupos ou entrarem num tratamento com afiliações prévias que afetam a forma como se farão as medições da variável dependente. as crianças que não cooperam ou ratos. moda e mediana. habitualmente para 0.3.Modelo Yij = µi + εij = µ + τi + εij Em que µi . com N= k.representa o parâmetro único para o tratamento i (efeito do i-ésimo tratamento) 7 . com i= 1. consequência desta falta de normalidade é a perda da robustez da Anova . Uma das formas de corrigir esta situação é a eliminação dos outliers ou dos últimos 5% e os primeiros 5% da distribuição.…k . 2. 3. a violação deste principio não constitui razão para o investigador abandonar os seus dados. Terceiro. A heterogeneidade pode tornar-se um problema sério com amostras de tamanhos desiguais.representa a média de todos os grupo (média global) εij – representa o erro aleatório de cada observação.2.Ora.1. Ainda assim. robustez essa que é parte fundamental do teorema do limite central. sendo estes erros independentes entre si τi .3. tal consegue-se usando a função arcoseno e atinge-se assim a normalidade e reduz-se a heterogeneidade. por vezes.3…ni N – total de observações . uma manipulação experimental de uma variável independente pode incentivar os participantes a comportarem-se de forma mais semelhante ou diferente do que a condição de controlo.Homogeneidade da variância É necessário garantir a homocedasticidade. o que constitui a motivação para participar no estudo. Desta forma o erro tipo I vai manter-se abaixo dos 5%. Primeiro.representa a média de cada grupo µ .ni 3. produzindo assim diferenças de desvios do grupo.2.025 . Em segundo lugar. E a segunda consiste em transformar os dados iniciais.1. as variáveis independentes de classificação. Existem fundamentalmente duas formas de corrigir a heterogeneidade da variância.pesquisador os considere para ser verdadeiramente uma pequena parte da população em estudo. a variabilidade de algumas variáveis dependentes pode estar relacionada com o tamanho do grupo. A violação deste principio tem pelo menos 3 causas (Keppel & Wickens. utilizando por exemplo a a raiz quadrada ou o logaritmo. como género ou etnia podem ter variações únicas associadas com as observações da variável dependente. j=1.2004). A distribuição dos erros de cada grupo tem que ter variâncias iguais.ANÁLISE DE VARIÂNCIA A UM FATOR E EFEITOS FIXOS Em experiências com um fator os dados consistem em k grupos/tratamentos independentes de amostras e em cada grupo são feitas ni medições. A primeira passa pela redução do nível do coeficiente alfa. Se todas as amostras tiverem o mesmo número de medições (a mesma dimensão) dizemos que se trata de um caso equilibrado Ao longo deste trabalho iremos adotar a seguinte notação : Yij – Resposta observada para cada tratamento. 2. A variância das populações deve ser a mesma (homocedastecidade) 3. i=1.2. Temos k grupos/tratamentos de observações independentes. n= ∑ A Soma de Quadrados Total . sendo os grupos independentes entre si 2. Cada grupo de observações deve provir de uma distribuição Normal 3.j) Yio →somá totál dás observáções do i-ésimo tratamento Yi●→médiá dás observáções do i-ésimo tratamento y●●→médiá globál dás observáções Assim.Pressupõe-se que εij  N(0. y●● = .Pressupostos 1. temos que Yio= ∑ Yoo=∑ ∑ . mas todos com a mesma variância.Hipóteses a testar H0 : µ1= µ2= …= µk = µ 3.3. Yi● = . temos que SQT= ∑ ∑ A variabilidade total pode ser expressa como uma partição: ∑ ∑ ●● = ∑ ∑ ● ●● + ∑ ∑ SQT Em que    = SQA + SQE SQT representa a soma de quadrados total SQA representa a soma de quadrados entre amostras (devido aos tratamentos) SQE representa a soma de quadrados no erro/resíduo Para podermos efectuar o estudo da Anova com maior facilidade é habitual representarmos todos os dados numa tabela Anova como a que se segue: 8 . 3.Representação vs H1 : µi≠ µj para pelo menos um par (i. SQT . pelo que Yij  N(µi. Assim.σ2) .k . mede a variabilidade global dos dados.4.σ2) Isto significa que cada grupo provém de uma população Normal com uma certa média µi.…. representa a média de todos os grupo (média global) εij – representa o erro aleatório de cada observação. em que t é o número áleátório de níveis/tratamentos e r a dimensão das amostras Yij – Respostá observádá párá cádá trátámento. 4. pelo que deverá proceder a uma selecção aleatória de alguns.Origem de variação Entre tratamentos Entre erros total Graus de Liberdade k-1 n-k n-1 Soma de Quadrados SQA SQE SQT Quadrados Médios QMA= QME= Razão de Variância 3. j=1.2. sendo estes erros independentes entre si τi . então a variância de qualquer observação pode ser expressa por : V(yij)= em que é denominada componente e variância. se F0 > Fk-1. r . A regra da decisão que devemos adotar é Rejeitar a hipótese nula ao nível de significância α.2.Pressupostos 9 .4.3. j= 1. com i= 1.2. com k-1.3…ni µ . Mas pode haver necessidade de realizar experiências em que estão envolvidos um grande número de níveis ou tratamentos. i= 1.Tomada da decisão: Ao calcularmos a razão de variâncias . 4.1.…t .….ANÁLISE DE VARIÂNCIA A UM FATOR E EFEITOS ALEATÓRIOS Já percebemos como se realiza a Anova One-way de efeitos fixos.…k . é possível extrapolar as conclusões para a população.Modelo Yij = µ + τi + εij . esta terá distribuição F de Fisher- Snedecor. torna-se impossível para o investigador estudá-los todos.n-k (α%) 4. Este é o modelo de efeitos aleatórios.2. Como a selecção é feita aleatoriamente. n-k graus de liberdade. Nesse caso. F0= ⁄ ⁄ = .representa o parâmetro único para o tratamento i (efeito do i-ésimo tratamento) Se representarmos por á váriânciá de τi e se τi for independente de εij .2. Hipóteses a testar H0 : = 0 (não há variabilidade entre tratamentos) (há variabilidade entre tratamentos) vs H1 : 4. Assim.Representação Yio →somá totál dás observáções do i-ésimo tratamento Yi●→médiá dás observáções do i-ésimo tratamento y●●→médiá globál dás observáções Assim. temos que Yio= ∑ Yoo=∑ ∑ .….2.k . independentes e com médiá 0 e váriânciá σ2 τi e εij são independentes 4. independentes e com média 0 e variância εij . Yi● = . i=1. a razão de variâncias pode ser definida por .3.τi – Normal e identicamente distribuídos. SQT . temos que SQT= ∑ ∑ A variabilidade total pode ser expressa como uma partição: ∑ ∑ ●● = ∑ ∑ ● ●● + ∑ ∑ SQT = SQA + SQE F 0= ⁄ ⁄ Neste caso. y●● = . mede a variabilidade global dos dados.4.Normál e identicámente distribuídos. modelo desta forma: Origem de variação Entre tratamentos Entre erros total Graus de Liberdade t-1 n-t n-1 Soma de Quadrados SQA SQE SQT = e o quadro resumo deste Quadrados Médios QMA= QME= Razão de Variância 10 . n= ∑ A Soma de Quadrados Total . k Yij –observação do i-ésimo nível do fator L e j-ésimo nível do fator C µ . estaremos na presença de um estudo de análise da variância a dois(ou mais) fatores. Pode ser de interesse do investigador estudar a influência dos mesmos nas diferenças possivelmente encontradas.2.n-k (α%) Se observarmos com atenção. se F0 > Fk-1. j= 1. procurándo diferençás ássináláveis entre colunás e támbém entre linhás.Tomada da decisão: A regra da decisão que devemos adotar é Rejeitar a hipótese nula ao nível de significância α. os resultados que aqui obtivermos serão extrapolados para toda uma população.Pressupostos Os mesmos que os assumidos para o modelo de análise a um fator Neste modelo é evidente que é de interesse do investigádor compárár não só ás médiás de τ como támbém de β.…r . Desta forma teremos a disposição habitual das observações conforme a figura Fator C 1 Y11 Y21 … … 2 Y12 … … … … … … … k Y1k … … yrk 1 2 … r 6.1. No entanto.1.Modelo Yij = µ + τi + βj + εij .5.constantes desconhecidas representativas do efeito principal do i-ésimo nível do fator L (linha i) βj – constantes desconhecidas representativas do efeito principal do j-ésimo nível do fator C (coluna j) 5. Nestes casos. sendo estes erros independentes entre si τi .ANÁLISE DE VARIÂNCIA A DOIS FATORES Não são raras as vezes em que as diferenças existentes entre tratamentos se devem não unicamente a um fator mas a vários outros.representa a média de todos os grupo (média global) εij – representa o erro aleatório de cada observação.2.4.1. podemos constatar que os procedimentos da Anova de efeitos fixos e aleatórios são bastante semelhantes.1. 5. realçamos a importância das interpretações dos resultados neste segundo caso.MODELO DE EFEITOS FIXOS – UMA OBSERVAÇÃO POR CÉLULA 5.2.Testes de Comparação Múltipla (testes post-hoc) 11 Fator L .…. uma vez que. i= 1. 5. se tivéssemos que o fazer entre 5 médias.1977) 6. áceitá-se a existência de efeitos diferenciados para. épocas de amostragem). os testes de comparação múltipla permaneceram adormecidos até 1950. pelo menos dois tratamentos. quando ocorreu a verdadeira explosão de ideias: o procedimento de Duncan (1955). Muitos autores defendem que. coeficiente de distribuição Student máximo e distribuição F. Depois. Num contexto de teste post-hoc. até que. As primeiras comparações múltiplas surgem quando a LSD foi proposta por Fisher (1935).2. utiliza-se a análise de regressão para o estudo do efeito dos tratamentos na variável resposta. níveis de irrigação. 1975. a ser necessário. 6. o teste LSD só deve ser aplicado para poucas comparações. 1960.Quando o resultado do teste de F da Análise de Variância é significativo. Deste modo. O teste LSD (Least Significance Difference) de Fisher (1935) utilizá estes testes sem correcção párá α. Welsh. A proposta seguinte foi a SNK de Newman em 1939. existem evidências para a não aceitação de H0 como verdádeirá. este teste sería aplicado a um par de médias. Este estudo será feito através das médias dos tratamentos obtidas nas experiências. A segunda onda do seu desenvolvimento ocorreu por volta dos anos de 1950. isto é. O próximo passo será a identificação das diferenças existentes entre os tratamentos. em 1960 surgem os procedimentos REGW e que se estendem no tempo até aos anos 70 (Ryan. Einot e Gabriel . em 1952). a verdade é que respeitados estatísticos e educadores manifestam preferências por dois ou três sobre todos os outros. sem este tipo de protecção para o erro Tipo I. b) distribuição gama Student 12 . o ritmo de conceção de novos testes abrandou. o método de Dunnett (1955) e uma outra proposta de SNK (Keuls. 1995). Kirk estimou que existem cerca de 30 testes de comparação múltipla apresentados em literatura profissional. isso conduzir-nos-ía a 10 t-testes. Sendo uma variável quantitativa (doses de adubo.1. Os estudos sobre as médias dos tratamentos levam em conta o tipo de fator que está a ser estudado: se o fator em estudo é uma variável qualitativa (variedades. E uma vez mais. tipos de adubos. podemos então definir 4 categorias: a distribuição t-Student. diferentes dietas alimentares) o procedimento apropriado é o das comparações entre as médias dos tratamentos através de testes de comparações múltiplas. Alguns destes testes são datados dos anos 30 quando a Anova ficou popularizada.Breve história dos testes post-hoc Em 1995. Independentemente desse fato. o teste de contrastes de Scheffé (1953). espaçamentos. distribuição gama Student. a) a distribuição t-Student É de fato possível usar um t-test para efectuar uma comparação entre duas médias. sob pena do teste devolver um falso positivo para a decisão. áo nível α% de probábilidáde.As Distribuições por detrás dos testes Post-Hoc Uma forma de categorizar as diferenças entre os testes de comparação múltipla é atentar às distribuições por detrás deles (Kirk. Ainda assim. o HSD de Tuckey. Esta abordagem originou algumas variações : o teste HSD(Honestly Significance Difference) de Tuckey. O valor de q tem uma fórmula associada proposta por Hayes(1981) : ̅ √ Em que se utiliza a maior e a menor média a comparar e QMA é obtido a partir da própria tabela Anova. no entanto teve também a contribuição de outros estatísticos. o coeficiente de distribuição Student máximo é aplicável a grupos de tamanho diferente. por exemplo. t. podemos dizer que é possível determinar quanto da diferença das médias necessita ser atingida para alcançar significância estatística para um dado alfa. o SNK( StudentNewman-Keuls) apenas aos pares de médias que diferem mais entre si. Kirk (1995) diz-nos que.Noção de contraste Uma comparação entre médias de tratamentos é denominada contraste quando puder ser expressa por uma função linear destas médias: Y1 = c1y1 + c2y2 + … + cIyI em que ∑ sendo ri é o número de repetições do tratamento i. ̅ c) coeficiente de distribuição Student máximo Baseado nas pesquisas de Sidàk (1967) e na estatística gama Student e corresponde a trabalhos em variações do t-test. Se os tratamentos têm o mesmo número de repetições J. é realmente possível utilizar a estatística F para comparar médias. em grupos com o mesmo tamanho. aplica a distância critica a todos os parese de médias e. A chave para esta determinação reside em obter uma estatística intermédia denominada q que poderá então ser utilizada para alcançar a diferença de médias pretendida. Apesar da gama Student assumir a presunção que as amostras têm o mesmo tamanho.Tem a sua origem nos trabalhos de Gosset. d) Estatistica F De fato. a condição é ∑ São vários os testes de comparação múltipla que podem ser utilizados após a não aceitação de H 0 como verdadeira : ●Student Neuman Keuls (SNK) 13 .q e F estão relacionados da seguinte forma: √ √ 6.3. De forma simplificada. Teste de Neuman Keuls Por que se recomenda que não se use o teste de comparação múltipla de Newman-Keuls? O teste de Newman-Keuls (também chamado de Student-Newman-Keuls) compara todos os pares de médias. É difícil articular exatamente qual a hipótese nula do teste de Newman-Keuls. 6. seguindo-se a uma ANOVA. Porque o teste de Newman-Keuls funciona de uma forma sequencial. fazemos aqui uma pequena incursão nos seus prós e contras. O aumento de erro de Tipo I ocorre apenas com quatro ou mais grupos). Por vezes. em português). que se torna difícil de interpretar seus resultados.4. que devolve a maior 14 . Mas esta energia extra tem um preço. tentaremos aqui evidenciar os testes mais utilizados e as circunstâncias da sua utilização. Em alguns casos.Teste de Tukey Honestly Significant Difference (HSD ou Tukey) Uma técnica de comparação fácil e frequentemente usada em pares de médias foi desenvolvida por Tukey sob a designação de HSD (diferença honestamente significativa. a possibilidade de um erro deste tipo pode ser maior do que 5%. na verdade. de facto o teste de Newman-Keuls não o faz. Tem mais poder do que o teste de Tukey. (O teste de Newman-Keuls funciona bem com três grupos. 6. embora seja premissa dos testes de comparação múltipla manter a possibilidade de um erro do Tipo I em qualquer comparação. não pode produzir intervalos de confiança de 95% para cada diferença..●Tukey Honestly Significant Difference (HSD ou Tukey) ●Fisher Protected Least Significant Difference (LSD) ●Duncan Multiple Range Test (Duncan) ●Teste de Ryan ●Teste de Peritz ●Teste de Scheffé ●Teste de Dunnett ●Correcção de Bonferroni sequencial ●Teste T3 de Dunnet (rank based) ●Teste C de Dunnet (rank based) ●Teste de Games Howell (rank based) Estes testes diferem entre si no rigor. poder t DUNCAN SNK SCOTT-KNOTT TUKEY BONFERRONI SCHEFFÈ rigor Figura 4 – comparação entre os testes Mesmo correndo o risco de alguns dos testes ficarem excluídos . no poder e também na sua aplicação. A principal ideia é calcular a diferença entre duas médias usando a distribuição de Student.5. Sugere-se que se evite este teste porque. Deste modo. os testes são tão complexos. podemos achar que a diferença entre os dois grupos é "estatisticamente significativa" em alguns casos onde o teste de Tukey iria concluir que a diferença "não é estatisticamente significativa". por forma a não exceder os 5%. a taxa de erro da experiência pode ser máior que α. Para tamanhos de amostras iguais (dados equilibrados). No entanto.diferença entre um conjunto de médias provenientes da mesma população. cada diferença de par é testada por um teste t com nível α de significância. Se o teste F não é significativo. o que torna este método bastante conservador. cada um ao nível de significância α . caso contrário.6. Esse procedimento usa a estatística para testar H0 : µi =µj em que √ ̅ ̅̅̅ ( ) O procedimento de Fisher consiste em realizar testes t múltiplos. 15 . o teste de Fisher considera duas médias significativamente diferentes se o valor absoluto de suas diferenças amostrais ultrapassar √ e para tamanhos de amostras diferentes (dados não equilibrados) √ ( ) em que t é um valor tabelado (ver tabela Teste Fisher) que depende do número de graus de liberdade dos erros (N-k). o procedimento termina sem precisar fazer inferências detalhadas nas diferenças dos pares das médias. Este pode ser visto como um procedimento de duas etapas em que a hipótese nula H0 é testada no primeiro passo por um teste F de nível α. em outras configurações (hipóteses) de médias verdadeiras.somente se o teste F preliminar for significánte áo nível α. |̅ Erro Padrão =√( )( ̅| ) √( )( ) Decisão : aceita-se H0 quando HSDcritico > HSDentre grupos 6. Todas as diferenças são avaliadas por meio de uma distribuição de amostragem. más não controlá á táxá de erro dá experiênciá. Esse procedimento é chamado de teste da diferença mínima significativa (least significant difference (LSD) test). O LSD controla a taxa de erro da experiência ao nível α sobre H0 devido a "proteção" fornecida para essa hipótese pelo teste F preliminar.Teste LSD de Fisher O método de Fisher para comparar todos pares de médias controla a taxa de erro ao nível de significânciá α párá cádá compáráção dois á dois. ou seja..Teste de Scheffè O teste de Scheffè pode ser empregue para testar qualquer tipo de contraste não sendo. o controle pode ser um placebo.j-1.. no entanto. quando um controle está presente.Por outras palavras.…. rejeitamos a igualdade entre a média do nível i e a média do nível j se | ̅ ̅̅̅| Em alguns estudos.μj-1 são as médias dos novos tratamentos e μj é a média do controle. Suponhamos que μ1.Teste de Dunnett ̅̅̅| Este é um teste em que se comparam médias com um controle ou com um valor referência Dunnett (1955) foi pioneiro no conceito de que.. Por exemplo. a natureza dos tratamentos permite a composição de grupos de tratamentos similares e o interesse maior poderá estar na comparação entre estes grupos.n-k) (α) o válor tábeládo dá distribuição F com (k-1. rejeitamos a igualdade entre as médias dos dois níveis se | ̅ 6. um tratamento "padrão". 6. A menor diferença significativa neste caso é dada por √ √ para dados equilibrados ( ) para dados não equilibrados em que é um valor tabelado proposto por Dunnet (ver Tabela do Teste de Dunnett). a diferença entre cada nova média de tratamento μi e a média do controle μj. Quando realizamos comparações múltiplas com um controle.7. A estatística para o teste de Scheffè é dada por: |̂ √ ( ̂ | ) Em que sendo F(k-1.n-k) √ gráus de liberdáde e nível de significânciá (α) As hipóteses nulas 16 . recomendado para testar contraste de duas médias por ser muito pouco conservador. as comparações de interesse preliminar podem ser as comparações de cada novo tratamento com o controle. os parâmetros de interesse primários são μi-μj párá i=1.2. Se tomarmos o nível j como controle. ou qualquer outro tratamento específico (como uma nova droga).8. que depende do número de níveis (k) e dos graus de liberdade dos erros (N-k).. queremos testar as hipóteses H0 : µi = µj H1 : µi ≠ µj O método de Dunnett é uma modificação do teste t usual. Temos assim que a margem de erro da equação anterior depende do número de comparações.php?option=com_article&access=standard&Itemid=129&url=/articles/forest/abs/1999/05/AFS_00034312_1999_56_5_ART0008/AFS_0003-4312_1999_56_5_ART0008. o teste de Bonferroni considera duas médias significativamente diferentes se o valor absoluto de suas diferenças amostrais ultrapassar √ e para tamanhos de amostras diferentes (dados não equilibrados) √ ( ) em que ⁄ e c é o número de comparações duas a duas (ou também podemos dizer que é o número de intervalos em estudo). 7. a taxa de erro da família de testes (FWER) é muito menor do que o nível de significância α estabelecido. isto é. consiste na realização de um teste t para cada par de médias a uma taxa de erro por comparação (TPC) de . sendo baseado em uma aproximação conhecida como primeira desigualdade de Bonferroni.html 7. o nível de significância da família é no ( ) máximo α. De seguida apresento alguns exemplos de estudos que foram realizados em diferentes campos científicos. sendo que.Anova e Agricultura http://www. Isso ilustra a taxa de erro conhecida como taxa de erro por família. Não é um teste exato. o teste de Bonferroni mostra ser bastante "conservativo" (fraco). Anova e Psicologia 17 . muitas delas são do âmbito do nosso MBB. Áreas de aplicação da Análise de Variância A Anova é um procedimento estatístico com múltiplas aplicações em diferentes áreas. Dessa forma.2. O teste de Bonferroni pode ser usado para quaisquer que sejam os dados equilibrados ou não.org/index. Para a família de todas as comparações duas a duas. Usando esse teste.1. com recurso à Análise de Variância 7. O quantil é da distribuição de probabilidade t-Student com parâmetro N-K ver Tabela do Teste de Bonferroni .afsjournal. temos que o teste de Bonferroni protege a taxa de erro da família dos testes. para qualquer configuração (formação) das médias da população. Em algumas situações.Teste de Bonferroni Outro dos métodos de comparação múltipla proposto por Fisher e usualmente chamado de teste ou procedimento de Bonferroni.Ho : são rejeitadas quando TS > √ 6.9.Para tamanhos de amostras iguais (dados equilibrados). irá produzir intervalos de confiança maiores que o teste de Tukey ou Tukey-Kramer. Eis o que me pareceu um exemplo engraçado: eu dou explicações de 8 disciplinas a alunos da Universidade Católica Portuguesa.3. 7. desde a antropologia.Exemplos de aplicação da Análise de Variância Conforme nos é pedido neste trabalho. recorrendo ao software R. matemáticas e afins. exatas ou não.txt que tinha colocado no meu desktop: > valores=read. mas estes que aqui referencio. medicina e ciências da saúde.locaweb. A resposta mais adequada a esta questão passa por efectuar uma análise de variância com um fator (aluno) e efeitos fixos. meteorologia. são apenas alguns que posso exemplificar.Outros Evidentemente. Mecânica e Biomédica. Esta técnica estatística é transversal a quase todas as áreas das ciências.br/boletim/arquivos/15/Boletim_15_Artigo02.http://www. os 3 alunos que escolhi para realizar este estudo.com.table('C:/Users/Carlinha/Desktop/alunos. tentei realizar um estudo de Análise de Variância sobre um tema relacionado com o meu trabalho habitual.pdf 7. seria impossível apresentar um estudo para cada área de aplicação da Anova. ecologia.pdf 7. permiti o acesso do programa aos dados via importação de um ficheiro formato . são de 3 cursos de engenharia diferentes: Informática. têm explicações com a mesma pessoa.Anova e Ecologia http://www.4. psicologia. etc. pareceu-me ser extremamente interessante avaliar os seus resultados recorrendo a uma Anova realizada com o auxilio do R.br/pdf/ptp/v25n2/a11v25n2.melloleitao.scielo. o que pretendo saber? A questão que se coloca é se os 3 alunos apresentam um comportamento distinto em relação aos resultados obtidos nas 8 disciplinas.txt'. Dado que os 3 frequentam a mesma universidade. Recorrendo então ao R.header=T) > valores 18 .5. têm aulas com os mesmos professores e nas mesmas condições. Desta forma. apresento de seguida os dados de que disponho: AM1 Aluno1 Aluno2 Aluno3 13 15 14 AM2 16 16 14 AM3 15 13 12 AM4 16 11 11 AN 12 10 15 FIS1 16 13 18 FIS2 17 17 16 PE 18 15 14 Então. existem diferenças entre os resultados dos 3 alunos # disciplinas 10 12 14 16 18 a1 a2 ALUNOS a3 > amostra=stack(valores) > amostra values ind 1 2 3 4 5 6 13 a1 16 a1 15 a1 16 a1 12 a1 16 a1 7 8 9 10 11 12 17 a1 18 a1 15 a2 16 a2 13 a2 11 a2 13 14 15 16 17 18 10 a2 13 a2 17 a2 15 a2 14 a3 14 a3 19 20 21 22 23 24 12 a3 11 a3 15 a3 18 a3 16 a3 14 a3 19 ."yellow".750 14.a1 a2 a3 1 2 3 4 13 15 14 16 16 14 15 13 12 16 11 11 5 12 10 15 6 16 13 18 7 17 17 16 8 18 15 14 > attach(valores) > colMeans(valores) # calculo as médias dos 3 alunos # a1 a2 a3 15. à primeira vista.col=c("blue".995531 2.250 > sapply(valores.xlab='ALUNOS'."pink")) # o traçar de boxplots paralelos irá auxiliar-me para perceber se.187628 > boxplot(valores.375 13.sd) # e as suas variâncias # a1 a2 a3 1.ylab='disciplinas'.434866 2. 2616.9623. O teste adequado é o de Shapiro-Wilk (a dimensão das amostras é <20) > shapiro. ao nível de significância de 0.8774 O valor devolvido permite-nos concluir que sim. Eis o exemplo que descobri: 20 .test(resid(exemplo)) Shapiro-Wilk normality test data: resid(exemplo) W = 0. decidi procurar um outro exemplo.8988 F value 1. uma vez que tais só são necessários quando realizamos uma Anova e rejeitamos a hipótese nula (as médias são iguais).05 aceitar a hipótese de que as amostras são provenientes de uma população aproximadamente Normal.data=amostra) Bartlett test of homogeneity of variances data: values by ind Bartlett's K-squared = 0.> exemplo=lm(values~ind. o que não aconteceu. após a formulação das hipóteses: H0: os alunos apresentam comportamentos idênticos quanto aos resultados nas disciplinas H1: pelo menos um dos alunos apresenta comportamento distinto quanto aos resultados em relação aos restantes > anova(exemplo) Analysis of Variance Table Response: values Df ind Residuals 2 21 Sum Sq 11.4856 o que nos permite.875 Mean Sq 5.data=amostra) É agora necessário averiguar se cada uma das amostras pose ser considerada proveniente de uma amostra normal. com aplicabilidade na área de competências do MBB e no qual se necessitasse recorrer aos ditos testes de comparação múltipla.1312 Pr(>F) 0. p-value = 0.3415 A observação do output da tabela Anova permite-nos concluir que os resultados dos alunos são idênticos ao nível de significância de 5%.083 102.Ora este exemplo que utilizei não permitiu o uso de testes de comparação múltipla.05) Por fim a realização da Anova a um fator. De seguida é necessário averiguar a homogeneidade das variâncias das amostras e decidi fazê-lo recorrendo ao teste de Bartlett: > bartlett. existe homogeneidade das variâncias (p-value > 0. p-value = 0. Como tal.test(values~ind. df = 2.4856 O p-value que o teste devolve é 0.5417 4. 78 6.86 6."aquamarine1")) 21 .86 7.col=c("cyan".90 7.59 > valores=read.90 7.7183036 0.45 7.26 6.82 8.table('C:/Users/Carlinha/Desktop/Livro1.20 9.20 8.43 D 9.Uma experiência foi realizada para se estudar a Diabetes Gestacional.78 8.30 7.header=T) # permitir o acesso ao ficheiro de dados # > valores N TD D 6 6.26 6.09 8.45 10.42 7.64 9.20 7.50 8. com tolerância diminuída (TD) e diabéticas(D).17 8.82 8.sd) # cálculo da variância # N TD D 0.ylab='HbA'. Escolheram-se 10 gestantes de cada tipo e mediram-se os seus níveis HbA.38 6.xlab='gestantes'. os resultados encontramse na tabela em anexo: N 7.63 TD 6.25 8.64 > attach (valores) > colMeans(valores) # cálculo da média # N TD D 7.82 7.75 9.67 8.8468530 0.67 9.86 7.25 4 7. Desejava-se avaliar o comportamento da Hemoglobina (HbA) em gestantes normais (N).63 7.50 6.50 9.273 > sapply(valores.08 9."deeppink".43 9.30 7.97 9.75 7.23 10.txt'.446 9.38 7.82 9.50 8.67 7 6.23 8 7.08 3 6.90 9.90 8.7614175 > boxplot(valores.20 5 8.67 2 6.86 6.09 6.59 1 7.43 9.42 8.97 10 8.43 9 7.356 7.17 6. 64 D 26 9.59 D > exemplo=lm(values~ind. De seguida é necessário averiguar a homogeneidade das variâncias das amostras e decidi fazê-lo recorrendo ao teste de Bartlett: > bartlett. p-value = 0.test(values~ind.23 D 28 10.09 TD 16 6.data=amostra) Bartlett test of homogeneity of variances 22 .63 N 11 6.17 N 6 6.30 N 8 7.86 N 2 6.50 TD 14 6.20 TD 12 7.82 TD 18 7.38 N 3 6.97 D 30 9.50 TD 15 8.9317.test(resid(exemplo)) Shapiro-Wilk normality test data: resid(exemplo) W = 0.90 N 4 7.05438 O p-value que o teste devolve é 0.67 D 22 8.90 TD 17 7.86 N 9 7.05438 o que nos permite.45 TD 19 7.HbA 7 8 9 10 N TD gestantes D > amostra=stack(valores) > amostra values ind 1 7.25 D 24 8.data=amostra) > shapiro.42 N 10 8.82 TD 13 8.75 TD 20 7.08 D 23 9.20 D 25 8. ao nível de significância de 0.05 aceitar a hipótese de que as amostras são provenientes de uma população aproximadamente Normal.26 N 7 6.78 N 5 8.43 TD 21 9.43 D 29 9.67 D 27 9. 1 ‘ ’ 1 2 27 Sum Sq 23. após a formulação das hipóteses: H0: as gestantes apresentam comportamentos idênticos quanto aos valores de HbA H1: pelo menos um dos tipos de gestante apresenta comportamento distinto quanto ao nível de HbA em relação aos restantes > anova(exemplo) Analysis of Variance Table Response: values Df ind Residuals --Signif.316 Mean Sq 11. existe homogeneidade das variâncias (p-value > 0. df = 2.ordered=TRUE) Tukey multiple comparisons of means 95% family-wise confidence level factor levels have been ordered Fit: aov(formula = exemplo) $ind diff TD-N 0.05) Por fim a realização da Anova a um fator. > hb.7719621 1.917 lwr -0.aov<-aov(exemplo) > TukeyHSD(hb. p-value = 0.’ 0. pelo que será conveniente proceder a um teste de comparação múltipla para tentar perceber onde se encontram as principais diferenças.9519621 2.01 ‘*’ 0. Tal como era expectável.364 Pr(>F) 6. codes: 0 ‘***’ 0.078e-06 *** A observação do output da tabela Anova permite-nos concluir que os níveis de HbA não são idênticos ao nível de significância de 5%.05 → rejeitár H0 ).0000223 23 .7789621 p adj 0.data: values by ind Bartlett's K-squared = 0.05 ‘.6043 F value 19.886 O valor devolvido permite-nos concluir que sim.9637780 0.090 D-N 1.aov.0550379 upr 0.403 16.001 ‘**’ 0. (p-válue <0.2422. os níveis de HbA diferem nos 3 tipos de gestante.7015 0. O software R é realmente muito potente e fiável. numa tese de Mestrado.5 1. Permite-nos analisar cada questão até à exaustão. ou de Doutorámento…um diá! 24 .ordered=TRUE)) 95% family-wise confidence level TD-N D-TD D-N -0. Efetuámos em R dois estudos com a aplicação da Anova e num deles recorremos também às comparações múltiplas. Conclusão Tentámos no decorrer deste trabalho explicar de forma sucinta o que é a Análise de Variância.aov. assim seja o limite que nos impomos a nós mesmos. Ainda assim. Fizémos também um breve resumos dos testes de comparação múltipla. que tornaria o nosso trabalho muito mais extenso.5 0. Um dos exemplos foi de aplicação numa das principais áreas do meu trabalho.0000445 > plot(TukeyHSD(hb. conforme solicitado.9650379 2. dada a sua extensão. pôde perceber-se que a aplicabilidade da Anova é imensa e a sua utilização é transversal a quase todas as ciências.6889621 0. explicando de forma sucinta alguns deles.D-TD 1.0 0. Da realização deste trabalho.05) 8.0 1.827 0.5 Differences in mean levels of ind Tanto o gráfico como a tabela mostram onde se registam as maiores diferenças: os pares com diferenças mais significativas são aqueles que apresentam limites inferiores (lwr) positivos.0 2. retivemos algumas ideias principais: A Análise de variância é uma técnica estatística que visa comparar várias médias de diferentes amostras sem que se tenha que recorrer à comparação parwise. Expusemos alguns dos seus modelos apesar de não ser possível explicá-los todos. podemos afirmar que os pares D-N e D-TD apresentam diferenças significativas ao nível de 5% (p-value <0. quais as suas aplicações e pressupostos.5 2. mas muitos ficaram por mencionar. Muito ficou por dizer neste trabalho – quem sabe. Neste caso. . Glenn. Estatística Aplicada. Analysis of Variance Designs. 2008 [4] Dean. 2011 [9] Provete. Diogo Borges. Estatística aplicada à ecologia usando o R. Brasil. Estatística Computacional usando R.ib.usp.pt/2011/03/r-tutorial-series-anova-pairwise. Teresa Paula C. Voss.php?id=start (10 junho 2012) [14] http://www. 2010-2011 [6] Ross. 2006 [7] Ferreira. Guarino.blogspot. Sheldon. Fernando Rodrigues.br/bie5782/doku.com/watch?v=g7yvBYzAIho (30 maio 2012) [12] http://www.ca/peter/s2ma3/s2ma3_0102/classnotes/notes20020328. Tese de Mestrado. Brasil. Universidade Aberta.portalaction.math. Introdução ao uso do programa R. Silva.mcmaster.9. Design and Analysis of experiments. Helga.html (28maio 2102) [11] http://www. Angela. Victor Lemes. Daniel Furtado. Anova na Educação. Douglas. Cambridge.br (02 junho 2012) [13] http://ecologia. Universidade Aberta. Meyers. Simulation. 2008 [8] Landeiro. Lawrence.1999 [5] Correia. 5th Edition. 1997 [3] Gamst.html (10 junho 2012) 25 .2011 Webgrafia [10] http://rtutorialseries. Design and Analysis of Experiments. 2002 [2] Montgomery.youtube. Daniel. AJ.com. Bibliografia [1] Oliveira.

Análise de Variância e planeamentos experimentais (2)

Comments

Description