Psicometria - Anotações importantes.doc

May 12, 2018 | Author: Robson Araujo | Category: Intelligence Quotient, Psychological Testing, Psychology & Cognitive Science, Behavior, Learning


Comments



Description

PRINCIPAIS CONTEÚDOS SOBRE TESTAGEM & AVALIAÇÃOFonte principal: Anatasi, Anne & Urbina, S. (2000). Testagem Psicológica. Artmed: São Paulo. Capítulo 1 1. Usos e tipos de testes psicológicos a. Medir a diferença entre os indivíduos e as reações do mesmo indivíduo em diferentes circunstâncias; b. Um dos primeiros problemas que estimulou o desenvolvimento de testes foi: a identificação das pessoas mentalmente retardadas; c. Testes servem para o uso clínico no exame de pessoas com transtornos emocionais graves e outros tipos de problemas comportamentais; d. Necessidade de avaliação na educação (classificação pela habilidade, lentidão ou rapidez de aprendizagem, aconselhamento educacional e ocupacional no ensino médio e na universidade, e a seleção de candidatos para as escolas profissionalizantes); e. Necessidades de avaliação na Indústria (seleção e classificação de pessoal, resolvendo questões como admissão, atribuição de função, transferência, promoção ou demissão — nos casos de cargos mais importantes, a avaliação deve ser feita com a combinação mais apropriada de técnicas de acompanhamento). f. Uso em pesquisa básica (natureza e extensão das diferenças individuais, organização dos traços psicológicos, diferenças grupais, fatores biológicos e culturais associados às diferenças comportamentais) 2. O que é um teste psicológico? a. Amostra comportamental; b. Padronização; c. Mensuração objetiva de dificuldade; d. Fidedignidade; e. Validade 3. Amostra comportamental a. Medida objetiva e padronizada do comportamento; b. O valor diagnóstico ou preditivo de um teste depende do grau em que ele serve como um indicador de uma área relativamente ampla e significativa do comportamento; i. Os itens sozinhos são irrelevantes, mas podem servir se for comprovado que eles estão associados ao êxito em algo mais geral; 1 ii. Os itens não precisam se assemelhar exatamente ao comportamento que o teste deve predizer. Precisa apenas que seja demonstrada uma correspondência empírica; 4. Padronização a. Uniformidade de procedimentos (aplicação e pontuação) b. O construtor do teste fornece as informações detalhadas (materiais exatos utilizados, limites de tempo, instruções orais, demonstrações preliminares, maneiras de manejar as perguntas). c. Estabelecimento de Normas padronizadas (normatização – os testes psicológicos não têm padrões predeterminados de aprovação e reprovação, o desempenho em cada teste é avaliado com base em dados empíricos); d. Padronização do tipo de escore bruto (respostas certas, tempo de uma tarefa, número de erros); e. As normas são estabelecidas da mesma maneira para os testes de personalidade e de aptidão. Entretanto, a norma para um teste de personalidade não é necessariamente o desempenho mais desejado, assim como um escore perfeito ou sem erros é para os testes de aptidões. Em ambos, a norma corresponde ao desempenho de pessoas típicas ou na média. 5. Mensuração objetiva de dificuldade a. A aplicação, pontuação e a interpretação dos escores são procedimentos objetivos, na medida em que são independentes do julgamento subjetivo do examinador; b. A determinação do nível de dificuldade de um item ou de um teste completo baseia-se em procedimentos objetivos empíricos (ipso facto); 6. Fidedignidade (consistência) a. Teste – reteste ou testes paralelos; b. Mesmos testandos avaliados em momentos diferentes, com conjuntos diferentes de itens, com diferentes examinadores ou avaliadores; c. A origem sócio-demográfica da amostra deve ser informada, ou se ela é representativa da população alvo; d. Com essas informações se determina o grupo em que os testes avaliarão com maior ou menor grau de confiança, ou confiabilidade. 7. Validade a. O Grau que o teste mede aquilo que ele se propõe a medir; 2 b. Depende de critérios externos (ex.: Teste de aptidão médica que indique sucesso no curso de medicina Correlação= Coeficiente de Validade); c. Margem de erro determinável; d. Validade diz o que o teste está medindo; e. A validade dos testes seria mais clara e menos ambígua se os testes fossem nomeados em termos das relações empíricas que foram validados; 8. Por que controlar o uso dos testes psicológicos a. Para garantir que o teste será aplicado por um examinador qualificado e que os escores serão adequadamente utilizados; b. Para evitar uma familiaridade geral com o conteúdo do teste, o que o invalidaria; c. Examinador Qualificado: i. Seleção do teste (conhecimento da padronização, fidedignidade e validade) ii. Aplicação e pontuação (se inexata, anula o valor do escore) iii. Interpretação dos escores (Conhecimento do teste, do testando e das condições situacionais da avaliação; condições incomuns; alterações do estado emocional ou físico dos testandos; extensão de experiências anteriores). d. Papel do usuário de testes: i. A maioria das críticas aos testes não é dirigida às suas características intrínsecas, mas a usos inadequados dos resultados de testes por usuários inadequadamente qualificados; ii. Alguns usos indevidos originam-se de um “desejo” de encontrar atalhos, respostas rápidas e soluções rotineiras simples para problemas de vida real. iii. A pressão de tempo, quando existe sobrecarga de trabalho, pode encorajar o emprego destes expedientes; iv. Mas a causa mais freqüente de usos inadequados de testes provavelmente é um conhecimento insuficiente ou falho a respeito da testagem. e. Segurança do conteúdo do teste e comunicação das informações do Teste: i. Se um sujeito conhecer previamente o conteúdo de um teste, sua avaliação perderá todo o sentido, o conteúdo do 3 teste, tem de ser restrito, a fim de impedir tentativas deliberadas de falsificar escores; ii. Em outros casos, o efeito da familiaridade pode ser menos óbvio, como na tentativa de uma professora de preparar alguém para testes de inteligência com problemas especiais; iii. Garantir a segurança do conteúdo de um teste, não deve interferir na comunicação efetiva das informações sobre a testagem dirigida a testandos, profissionais envolvidos e ao público em geral. Essa comunicação tem vários objetivos: 1. Primeiro: Desfazer mistérios associados a testagem, corrigindo concepções errôneas sobre para que servem os testes e o que significam seus escores; 2. Segundo: Esclarecer procedimentos técnicos por meio dos quais determinados testes foram “construídos e avaliados” (fidedignidade e validade, etc.) 3. Terceiro: Familiarizar os testandos com os procedimentos de testagem, desfazer a ansiedade e assegurar que cada um terá um desempenho de acordo com sua habilidade máxima. 4. Quarto: Dar um feedback ao testando em relação ao seu desempenho em qualquer teste que tenha feito. 9. Aplicação dos testes a. Quaisquer influências que são específicas da situação de teste constituem variância de erro e reduzem a validade do teste: b. Preparação antecipada dos examinadores; i. Memoriza as instruções verbais exatas, no caso de testagem individual; ii. Ter familiaridade prévia das instruções a serem lidas, no caso de testagem em grupo; iii. Preparação dos materiais de teste; iv. Familiarização completa com os procedimentos específicos de testagem (tempo, observações, etc.) c. Condições de testagem; i. Salas livres de ruídos e distrações indevidos. Devem ter iluminação, ventilação, cadeiras e espaço de trabalho adequado para os testandos. ii. Sem interrupções durante a avaliação, (avisos, fechar a porta, ou funcionário para impedir a entrada de retardatários, no caso de avaliações coletivas, etc.) 4 d. Instrução em habilidades cognitivas amplas (Intelectuais. Sofisticação em testes (aumenta os escores mesmo em formas alternadas. ou de muito conteúdo emocional) pode dar escores diferenciados em testagens em grupo e individuais. treinamento e experiência. hábito com o tipo de padronização) c. obter cooperação e encorajá-los a responder de maneira adequada. d. i. 10. sem qualquer censura ou seleção de conteúdo.iii. Uma visão da perspectiva do testando a. Ansiedade de teste. estratégias de resolução de problemas) 5 . O tipo de teste (movimentos repetitivos. Relacionamento Interpessoal “amigável” versus “frio”. Profecia auto-realizadora  expectativas do examinador 11. Inventários de personalidade de auto-relato exigem respostas francas e honestas. Idade. iv. pela falta de controle das mesmas variáveis dos sujeitos. instruções dadas ao testando. O que pensam sobre testagem. sexo. características de personalidade e aparência  Embora tenham relações significativas. Apresentando o teste: Rapport e Orientação do Testando i. conduta “rígida” versus “natural” (mesmo examinador com diferentes testandos). ii. etnia. c. Sobre os objetivos iii. status profissional ou socioeconômico. Sujeitos treinados para o teste (reduzem o valor diagnóstico do teste) b. iii. b. ii. Variáveis situacionais do examinador a. Testes projetivos exigem o relato completo das associações evocadas pelos estímulos. Outras reações a testagem (geral). b. Como lidam com o resultado ou diagnóstico 12. hábitos de trabalho. Efeitos do Treinamento (dos sujeitos) sobre o desempenho no teste a. objetivo da testagem. Natureza do teste. Motivação. interesse dos testandos pelo teste. Testes de habilidade têm que ter cuidadosa concentração e esforço máximo. os resultados são inconclusivos ou enganadores. então. Existem repetidos relatos do sistema de exames no serviço civil utilizado no império chinês por aproximadamente dois mil anos consecutivos.HISTÓRICO DA TESTAGEM MODERNA: Uma breve revisão dos antecedentes e das origens históricas da testagem psicológica ajuda a entender os testes atuais 14.Capítulo 2 13. 15. as universidades européias utilizavam exames formais para conceder graus e honras. Antes do séc. Ele salientou que existem muitos graus de retardo mental. o ridículo e inclusive a tortura eram o destino comum dos indivíduos mentalmente retardados. 16. Para isso. Embora as raízes da testagem estejam na antiguidade. i. e concluiu que o uso que cada 6 . observou-se a necessidade de critérios uniformes para identificar e criar esses casos. os desenvolvimentos mais importantes que moldaram a testagem contemporânea aconteceram a partir do século XIX. Com o cuidado social das pessoas com problemas mentais. Criaram-se. b. XIX. primeiro diferenciou-se os insanos dos mentalmente retardados. Insanos: manifestavam transtornos emocionais que poderiam ou não ser acompanhados pela deteriorização intelectual de um nível inicialmente normal. O estudo que tratou de “retardo mental” foi o do médico francês Esquirol (1838).O interesse inicial pela classificação e pelo treinamento das pessoas mentalmente retardadas a. c. a negligência. Desde o início da idade média. Entre os antigos Gregos a testagem era um adjunto estabelecido para o processo educacional (foram utilizados testes para avaliar a maestria de habilidades físicas e intelectuais). Entretanto. Mentalmente retardados: caracterizados por um defeito intelectual presente desde o nascimento ou surgido muito cedo na infância. variando ao longo de um contínuo que vai da normalidade à “idiota de qualidade inferior”. padrões de admissão e um sistema objetivo de classificação para dar-lhes o devido tratamento institucional. ii. d. foi o pioneiro no tratamento de pessoas mentalmente retardadas. ao invés de exatas. o que o levou a estudar as pessoas de acordo com seu grau de parentesco.Os primeiros Psicólogos experimentais a. Os primeiros experimentos psicológicos criaram a necessidade de um rigoroso controle das condições em que as observações eram feitas. Seu principal interesse era pela hereditariedade humana. 7 .indivíduo faz da linguagem proporciona o critério mais confiável de seu nível intelectual. b. 18.Contribuições de Francis Galton a. e. devido à influência da fisiologia e da física. Seguin (1866/1907) experimentou durante muitos anos o que chamava de método fisiológico de treinamento. Preocupava-se com descrições generalizadas do comportamento. tornava as generalizações aproximadas. c. ou variabilidade individual. Alguns desses procedimentos foram incorporados posteriormente aos testes de desempenho ou testes não-verbais de inteligência. auditivos e outros estímulos sensoriais. f. O que influenciou o curso da evolução da testagem. Eram as uniformidades e não as diferenças no comportamento que constituíam o foco de atenção nos estudos. O que influenciou os primeiros testes psicológicos. d. Outro médico francês. o que o levou a elaborar muitas técnicas de treinamento dos sentidos (descriminação sensória) e dos músculos (controle motor). f. em grande parte. As diferenças individuais eram ignoradas ou consideradas como erro. o psicólogo francês Alfred Binet. A presença de erro. Os estudos eram. Seguin. e ao tempo de reação simples. 17. Mais de meio século depois. sobre sensibilidade aos estímulos visuais. incentivou a opção de “classes especiais” para as crianças mentalmente retardadas. Tendo rejeitado a noção predominante de incurabilidade do retardo mental. e. Foi o principal responsável pelo lançamento do movimento da testagem. e pouca ou nenhuma relação com estimativas independentes de nível 8 . Sob a orientação de Wundt. os testes de discriminação sensorial podiam servir como um meio de avaliar o intelecto de uma pessoa. c. em seu doutorado. realizou uma dissertação sobre o tempo de reação. c. acuidade visual e auditiva. o mais famoso foi Karl Pearson. mas seu interesse pela mensuração das diferenças individuais foi pelo contato com Galton em 1888. medindo alguns traços físicos e associando com testes de acuidade visual e auditiva. Entretanto observara-se que o desempenho do indivíduo apresentava pouca correspondência de um teste para outro. força muscular. porque “(. d. o termo “teste mental” foi utilizado pela primeira vez na literatura psicológica. b. sensibilidade à dor.. quando selecionou e adaptou algumas técnicas previamente derivadas por matemáticos.b. 19. maior é o campo em que o nosso julgamento e inteligência podem agir”. Viveu em uma época que se preferia testes discriminação sensorial e tempo de reação em lugar do desenvolvimento de medidas objetivas para as funções mais complexas. Para Galton. Assim ele estendeu imensamente a aplicação dos procedimentos estatísticos à análise dos dados de testes.Cattell e os Primeiros “Testes Mentais” a. apitos para discriminação auditiva e séries graduadas de pesos para discriminação cinestésica) d. Em um artigo seu. discriminação de peso. Esse artigo descrevia uma série de testes aplicados individualmente a universitários medindo medidas de força muscular. (São exemplos de testes de Galton: Barra para discriminação visual. no uso de técnicas de associação livre e também no uso de técnicas estatísticas. tempo de reação..) quanto mais os sentidos percebem as diferenças. Criou o primeiro grande banco de dados sistemáticos sobre as diferenças individuais em processos psicológicos simples. o que parecia uma tarefa quase sem esperança. Foi pioneiro no uso de métodos de escala de avaliação e questionário. velocidade do movimento. deixando muitos alunos. entre outros. memória. em 1890. deixando-as acessíveis para o uso na pesquisa. tempo de reação e outras funções sensório-motoras simples. foram experimentadas muitas abordagens. que consistia em 30 problemas ou testes organizados em ordem crescente de dificuldade. 20. O que deu origem ao desenvolvimento das famosas escalas Binet de inteligência. Completar sentenças foi o único que demonstrou uma clara correspondência com o desempenho escolar da criança. e a análise da caligrafia. Em seguida. Binet e Henri criticaram a maioria das séries de testes existentes como sendo excessivamente sensoriais e indevidamente centradas em habilidades simples. imaginação. b. Assim. incluindo até a mensuração da forma craniana. foi proposta uma lista extensa e variada de testes. Argumentaram que na mensuração de habilidades mais complexas não é necessária grande precisão. aplicou testes de cálculo aritmético. e. planejados para cobrir uma ampla variedade de 9 . a memória e a suscetibilidade à fadiga e à distração. sugestionabilidade. g. facial e da mão. ainda que imperfeita era a mais promissora. intervalo de memória e conclusão de sentenças a crianças em idade escolar. Ainda assim. Outro psicólogo alemão.Binet e o Surgimento dos Testes de Inteligência a. que estava interessado principalmente no exame clínico de pacientes psiquiátricos. Em um artigo publicado na França. f. A principal demanda para isso foi a nomeação de Binet para uma comissão do Ministério da Educação Pública francês para estudar procedimento a serem usados na educação de crianças retardadas. abrangendo funções como memória. Mas os resultados levaram a uma crescente convicção de que a mensuração direta das funções intelectuais complexas. apreciação estética etc. quando Kraepelin (1895). Ebbinghaus (1897). h. algumas séries de testes montadas por psicólogos europeus buscavam funções um pouco mais complexas. Daí surgiu a primeira Escala Binet-Simom (1905). especializadas. atenção. preparou uma longa série de testes para medir (fatores básicos na caracterização dos indivíduos) operações aritméticas e seus efeitos práticos. compreensão.intelectual baseadas nas avaliações dos professores ou notas acadêmicas. uma vez que as diferenças individuais são maiores nessas funções. os inviabiliza para o uso em grupo. a escala de Binet-Simon foi superada pela StanfordBinet. ou a razão entre a idade mental e a idade cronológica. principalmente um teste de inteligência grupal não-publicado. desenvolvida por L.A. Em pouco tempo. que trazia uma grande contribuição: itens de múltipla escolha e outros tipos de itens “objetivos”. como também usavam instruções e procedimentos de aplicação simplificados. entram na 1ª Guerra. preparado por Arthur S. o que. depois da liberação dos testes para uso civil. Terman (1916). os quais Binet considerava componentes essenciais da inteligência. exigindo um mínimo de treinamento por parte do examinador. quando os E. Inicialmente dois testes foram desenvolvidos: O Army Alpha (testagem geral de rotina) e o Army Beta (testagem não-verval para analfabetos e estrangeiros). lançaram mão de todo material disponível. Otis. d. Estes testes não só permitiam um exame simultâneo de grandes grupos. o que ajudou a popularizar a testagem da inteligência. mais extensa e psicometricamente refinada. foi usada pela primeira vez. c. d.funções com ênfase especial em julgamento. compreensão e raciocínio. c. através de um comitê chefiado por Robert Yerkes.U. e. o que os fizeram passar por várias revisões e versões. Posteriormente este termo foi substituído por idade mental por ser de mais fácil compreensão. b. M. Professores passaram a aplicar testes de 10 . alguns exigindo a cronometragem de tempo de resposta. Até então os testes eram aplicados individualmente.Testagem em Grupo a. de pré-escolares até a universidade. A partir daí. a American Psychological Association. O escore das crianças passou a ser expresso como um nível mental correspondente à idade das crianças normais cujo desempenho ela tinha igualado. pois requeriam respostas verbais e a manipulação de materiais. Em 1917. 21. além de exigir um examinador altamente treinado. Foi neste teste que o quociente de inteligência (QI). estavam sendo desenvolvidos testes de inteligência grupais para todas as idades e todos os tipos de pessoas. Os testes Binet-Simon atraíram uma grande atenção entre os psicólogos do mundo todo. pode ter feito tanto para retardar quanto para acelerar o progresso da testagem psicológica. Universitários eram rotineiramente examinados antes da admissão. f. o que fez o QI se popularizar rapidamente. No uso exacerbado de alguns testes. figuras e diagramas geométricos) as pessoas podem variar em suas respostas dependendo do seu domínio. O que poderia ser corrigido retestando os indivíduos com os mesmos testes ou com formas paralelas. d. Diante desse panorama de inter-correlações entre os escores obtidos por muitas pessoas em uma ampla variedade de diferentes 11 . artística e para atividades de escritório. e. Um ponto que chamou a atenção dos pesquisadores foi que um teste contendo vários conteúdos (numérico. passaram a ser chamados de testes de aptidão escolar. musical. verbal. os testes não foram elaborados para tais análises diferenciais de aptidões.inteligência em seus alunos. Nem todas as funções importantes estavam representadas. logo ficou claro que estes testes eram bastante limitados em seu alcance.Testagem de Aptidões a. c. o que poderia gerar resultados instáveis com relação às habilidades específicas. como prisioneiros. uma vez que media as habilidades exigidas e favorecidas pelo trabalho acadêmico. Especialmente nos testes grupais que normalmente se dividiam em subtestes homogêneos em conteúdo. Estudaram grupos especiais de adultos. etc. 22. Assim. O que não diminuiu sua importância na cultura para a qual eles foram planejados. b. Embora os testes de inteligência tenham sido originalmente planejados para experimentar uma variedade ampla de funções a fim de estimar o nível intelectual geral do indivíduo. Portanto. a explosão da testagem da década de 20. f. o que contribuiu para o descrédito de toda a testagem. Entretanto. tais intercomparações passaram a ser utilizadas pelos psicólogos para compreender melhor a constituição psicológica do indivíduo. A exemplo dos testes aptidão mecânica.. prezava-se pouco por seu aprimoramento. Verificou-se posteriormente a necessidade de testes de aptidões específicas para suplementar os testes globais de inteligência. raciocínio aritmético e velocidade perceptual. Com os testes de realização padronizados. A partir de 1845. 1927) passou a desenvolver progressos metodológicos para solucionar esses problemas de análise. 23. Os exames escritos colocavam todos os alunos em uma situação uniforme. operadores de rádio. b. d. telemetristas. é obtido uma medida da posição do indivíduo em cada um de vários traços.Testes de Realização Padronizados a. a exemplo das baterias construídas para pilotos.testes. h. g. c. aptidão numérica. Um dos principais resultados práticos da análise fatorial foram as baterias de aptidões múltiplas. devido ao trabalho dos psicólogos durante a 2ª Guerra. Hoje em dia. reduziam o elemento de acaso na escolha das perguntas e eliminavam a possibilidade de favoritismo por parte do examinador (note a semelhança com os argumentos de Construção versus Escolha). além das evidências da falta de concordância entre as notas atribuídas a esse tipo de exame. pegando carona no desenvolvimento da testagem. Em lugar de um escore total ou QI. i. o psicólogo inglês Charles Spearman (1904. artilheiros. especialmente na Aeronáutica. 1947) passou a se chamar análise fatorial. visualização espacial. permitiam que um conteúdo mais amplo fosse coberto. houve uma crescente ênfase no planejamento de itens para testar o entendimento e a aplicação do conhecimento e outros objetivos educacionais amplos. elas se estenderam ao uso em aconselhamento educacional e vocacional e na seleção e classificação de pessoal. quando os interrogatórios orais foram substituídos por exames escritos. Posteriormente. As baterias de aptidões múltiplas apareceram em 1945. etc. o uso de “novos tipos” de itens objetivos foi adotado. ao mesmo tempo em que se verificou que os testes dissertativos exigiam muito tempo do examinador e dos examinandos. Esse tipo de teste também provocou um progresso notável no 12 . os exames escolares também foram sofrendo melhorias técnicas. como compreensão verbal. O que depois dos trabalhos dos psicólogos americanos Kelley (1928) e Thurstone (1938. chegando a conclusão que estes agentes aumentam a freqüência relativa das associações superficiais. e. d. Kraepelin (1892) também empregou essa técnica para estudar os efeitos psicológicos da fadiga. “teste de personalidade” refere-se a medidas de características tais como. 24.estabelecimento de programas de testagem estaduais. embora muitos prefiram usar o termo “personalidade” em um sentido mais amplo. motivação. onde o examinando recebe palavras estímulo especialmente selecionadas e é solicitado a responder a cada uma com a primeira palavra que lhe vier à mente. da fome e das drogas. Exemplos de tentativas de subdividir o ajustamento emocional em formas mais específicas são: ajustamento em casa. f. relações interpessoais. Os testes de realização são utilizados não apenas para fins educacionais como também na seleção de candidatos a empregos industriais e governamentais.Avaliação da Personalidade a. Esse modelo serviu para a maioria dos inventários subseqüentes de ajustamento emocional. As contribuições de Galton. Pearson e Cattell no desenvolvimento das técnicas de questionários padronizados foram muito úteis para a construção de alguns dos tipos mais comuns de testes de personalidade atuais: o inventário de auto-relato. Serviu para outras áreas mais estreitas de comportamento ou de distinção 13 . e. Caracteriza-se pela preocupação com os aspectos afetivos ou nãointelectuais do comportamento. O primeiro nesse formato foi o Personal Data Sheet desenvolvido por Woodworth durante a 1ª Guerra. regionais e nacionais de educação. c. g. para se referir ao indivíduo completo. estados emocionais. Um precursor inicial da testagem de personalidade é ilustrado pelo uso do teste de associação livre com pacientes psiquiátricos (por Kraepelin). b. na escola e ajustamento vocacional. interesses e atitudes. Para a testagem psicológica. este foi planejado como um instrumento de avaliação genérica para identificar homens seriamente perturbados que não estariam qualificados para o serviço militar. A distinção tradicional entre os dois tipos traços está começando a ser reconhecida como artificialmente imposta por conveniência na descrição e mensuração de diferentes aspectos do comportamento. Também são mais ou menos disfarçadas em seu propósito. Entretanto. A interpretação das respostas era relativamente subjetiva. tanto práticas quando teóricas. Todos os tipos disponíveis de testes de personalidade apresentam certas dificuldades. Avaliam os adultos em seus comportamentos sociais e emocionais relativamente complexos e sutis. j. i.social com dominação-submissão nos contatos interpessoais. h. Serviu para quantificar a expressão de atitudes e interesses. A maioria desses testes simula as situações da vida cotidiana de forma muito aproximada. Finalmente. Exemplos: desenhar. Outra abordagem de mensuração da personalidade é através da aplicação de testes de desempenho ou situacionais. as técnicas projetivas representam uma terceira abordagem ao estudo da personalidade que teve um crescimento fenomenal. duas tendências unificadoras e significativas estão indicando a influência mútua entre traços afetivos (“personalidade”) e cognitivos (“habilidades”). e exigem instalações elaboradas e pessoal treinado para a sua aplicação. Nesses o examinando tem de realizar uma tarefa cujo propósito muitas vezes está disfarçado. 14 . o brincar dramático improvisado e interpretar figuras ou manchas de tinta. arranjar brinquedos para criar uma cena. A suposição subjacente a tais métodos é que o indivíduo projetará seus modos característicos de resposta nessa tarefa. reduzindo as chances do respondente criar uma impressão desejada. tanto no desempenho de tarefas quanto no comportamento. A pesquisa nessa área atingiu seu apogeu nos anos 50. Nestes testes o cliente recebe uma tarefa relativamente não estruturada que permite uma grande variação em sua solução. especialmente entre os clínicos (os testes de associação livre foram os primeiros). As dificuldades especiais encontradas na mensuração da personalidade humana explicam os lentos avanços. Testes de Realização: Natureza e usos a. Alguns testes são planejados para a predição e classificação em ambientes educacionais específicos 27. personalidade). o termo Habilidade é atualmente mais utilizado em vez de aptidão ou realização. ou para predizer a qualidade de sua realização em uma nova situação. os testes de aptidão medem o efeito da aprendizagem em condições relativamente não-controladas e desconhecidas. Assim. g. ocorridos em condições parcialmente conhecidas e controladas.Capítulo 17 25. 15 . Ou seja. É comum sua comparação com os testes de aptidões c. os testes de realização medem os efeitos de conjuntos de experiências relativamente padronizadas. Testagem Ocupacional c. Perguntas dissertativas: respondidas oralmente ou por escrito. h.Principais contextos do uso atual dos testes a.Testagem Educacional a. Os testes de aptidão servem para predizer o desempenho subseqüente. trigonometria ou programação de computador. A diferença básica entre a realização e a aptidão é no grau de uniformidade da experiência antecedente relevante d. Testagem em Psicologia Clínica e Aconselhamento 26. aptidões especiais e múltiplas. São planejados para medir os efeitos de um programa de instrução ou de treinamento específico b. ou seja. Os testes de aptidão medem a influência cumulativa de uma multiplicidade de experiências na vida cotidiana f. ao passo que os testes de realização medem os efeitos da aprendizagem. Testagem Educacional b. estimar a extensão que um indivíduo vai lucrar com um curso de treinamento específico. A ênfase é naquilo que o indivíduo é capaz de fazer no momento. francês elementar. b. Os testes de realização servem para avaliação terminal do status do indivíduo no treinamento. e. i. Assim. Todos os tipos de testes podem ser utilizados (inteligência. Construção versus Escolha a. tais como. 28. longitudinais) b. é mais fácil preparar itens que requerem a lembrança de fatos simples. tais como redação ou qualquer atividade um processo em que o progresso pode ser documentado.vestibular) e. estadual e municipal do governo e nas diferentes divisões das forças armadas utilizam quase todos os tipos de testes disponíveis na tomada de decisão de pessoal. Testagem diagnóstica e prognostica (examina as forças e fraquezas de uma pessoa dentro de um domínio de assunto para sugerir causas para as suas dificuldades) g.Testagem Ocupacional a. Testes de competência mínima em habilidade básicas (informações baseadas na competência. Tipos de testes Educacionais a. b. Período probatório (brevidade e conhecimento). Decisões institucionais relativas à seleção e classificação de pessoal. b. Baterias de Realização Geral (comparações verticais – isto é. integração de fatos diferentes ou aplicação de princípios a novas situações). d. transversais – e horizontais – isto é. c. 31. leitura. d. incluindo aconselhamento individual. Nunca é completamente semelhante ao trabalho em si. do que planejar itens que exigem a avaliação crítica. Também se utiliza para o Licenciamento e na Certificação de pessoas qualificadas. Admissão à pós-graduação (GRE) f. As organizações nos setores empresariais. ou nos níveis federal. 29. Decisões ocupacionais. linguagem e matemática aplicada). Testes para o Nível universitário (SAT e ACT – tentam assegurar a predição do ensino médio . combinações) c. c. Baterias de aptidão múltipla e testes de aptidão especial foram muitas vezes desenvolvidos para fins ocupacionais. Procedimentos Globais para a Avaliação de Desempenho a. Perguntas objetivas: escolha de uma resposta a partir do contraste entre opções (vários tipos: múltipla escolha. V ou F.b. e. 16 . Testes de sala de aula criados pelo professor (é mais fácil preparar itens objetivos. Portfólio: registro cumulativo de amostras de trabalho em áreas específicas. Avaliação na educação da infância inicial 30. d. Validação Sintética – Baseia-se na premissa de que é possível identificar habilidades. American College Testing Program. discriminação visual. psicomotor. que podem ser ensinadas por um período razoável de tempo. Amostras de trabalho (uniformidade para os candidatos. associadas a categorias. Afirmações comportamentais específicas estão. Técnicas dos centros de avaliação (utilizadas no nível de gerência e aplicação. d. 32. ou habilidade de trabalhar sob pressão). ou construtos. 72 escalas. b. 33. Diferenciar os melhores trabalhos dos piores através da análise comportamental. por exemplo. opiniões de peritos). Trata-se de um pacote coordenado de instrumentos para: (1) perfil e análise de função. referem-se à motivação. envolve múltiplas avaliações de assessores e pares. (2) avaliação de níveis de habilidade. Outro Sistema Work Key. registros de desempenhos e. conhecimentos e outros requerimentos de desempenhos comuns a muitas funções diferentes.c. conjunto bem mais reduzido de habilidades genéricas. geralmente. tais como “localizar informações”. testes padronizados para habilidade de escritório como datilografar e operar máquinas). c. representatividade da amostra de trabalho e a exatidão com que a amostra duplica as condições de trabalho. 50 cobrem habilidades de cuidadosamente definidas nos domínios cognitivo. e a maioria delas está vinculada a testes existentes. teste da cesta. destreza das mãos e dos braços. mais amplas (exatidão de cálculo. Identificar os requerimentos que diferenciam uma determinada função de outras (Manuais de treinamento e de operação publicados. (análise 17 . 20 referem-se aos domínios Interpessoal / Social e de Conhecimento / Habilidades e ainda estão em desenvolvimento). Simulação (simuladores para engenheiros de locomotiva e para pilotos de avião). habilidades interpessoais e outras características de personalidade). Work Keys. Predição do Desempenho na Função a. Análise de Função do Método de Elemento da Função a. (3) feedback para indivíduos. e. educadores e empregadores e (4) apoio instrucional na implementação de treinamentos ou currículos educacionais. testes de direção. espacialmente. físico e sensório/perceptual. e. Nem sempre estão claras as linhas de demarcação entre conhecimento. b. Testes de Integridade (depois da proibição de polígrafos) c. Estudo dos determinantes que implicam no bom desempenho da função b. Generalização da validade – Consiste na aplicação de achados de validade anteriores a uma nova situação. O Critério de Desempenho da Função a. habilidades e traços de personalidade. 35. d. História de caso. produtividade e utilidade. A adequação do uso de testes na decisão de pessoal não pode ser considerada à parte dos objetivos. Teste de aptidão especial (habilidade mecânica. d. Sobre o uso ocupacional dos testes a. e. Estuda também os componentes da função em si (tarefas). Pensar no comportamento no trabalho como habilidade de resposta. das situações e das populações específicas envolvidas em um determinado contexto. c. sua efetividade. capacidades. 34. Observação. e. Bateria de Aptidão para Programas Especiais (Cortes múltiplos em aptidões necessárias para grupos de funções homogêneos. por meio técnicas de meta-análise. Liderança d. épocas e estágios da vida). Em geral derivam de pesquisas metodologicamente sofisticadas (Big-Five) b. Uso de Testes. Rapport. 18 . determinação da validade de cada teste para cada função – regressão múltipla). perceptual e psicomotora). b.detalhada da função. Testagem da Personalidade no Local de Trabalho a. análise e estudo empírico. c. Avaliação Psicológica a. Entrevista. b. por exemplo) 36. Instrumentos (empregos de altos níveis de segurança X inventário de auto-relato) 37. O papel da Inteligência (diferentes culturas. Generalização da validade através dos escores de três medidas compostas: cognitiva. b. essas pistas qualitativas não podem ser 19 . c. diagnóstico de dano cerebral. forma e conteúdo das respostas. descreveram os padrões de escores baixos e altos em subtestes. auto-referência excessiva (podem indicar transtornos de personalidade). em virtude de sua natureza “idiossincrática”. d. respostas emocionais e a atitude em relação ao examinador). como também combinações desses subtestes que caracterizam estes outros transtornos. e outros. Em um nível puramente qualitativo outras fontes de informações que podem sugerir caminhos a serem explorados pelo psicólogo. dispersão global de vários subtestes). são: qualquer irregularidade de desempenho. Pode-se avaliar o nível geral de funcionamento intelectual. Como regra. Wechsler. Análise de perfil englobam basicamente. culpabilidade).  Tudo isso envolve em julgamento profissional baseado num conhecimento dos problemas e nas populações em questão. ele certamente ficará sabendo mais sobre essa pessoa. análise dos erros ou das respostas corretas (indicam formas de solucionar problemas. dificuldades de aprendizagem ou estados de ansiedade). fala. Os testes de Inteligência no Contexto da Avaliação Individual a. análise de perfil em busca de forças e fraquezas significativas. recomendações de tratamento. a doença de Alzheimer. (um psicólogo clínico atento e bem treinado. não tendo aplicado o teste). desenvolvimento conceitual ou estilos cognitivos) e comportamentos do examinado durante a aplicação (atividades motoras. como fonte de informação. do que aquele psicólogo que só usa o escore do QI. g.f. Testes como as escalas Wechsler e o Stanford-Binet são fundamentalmente instrumentos individuais. Tomada de decisões (diagnóstico diferencial. por exemplo. dados de índice de base (freqüência ou raridade desses aspectos dentro do grupo normativo) e padrões de escores associados a determinadas síndromes clínicas (como. 38. quando mantém contato suficiente com um examinando para lhe aplicar um teste. seleção de carreira. por exemplo. três procedimentos: avaliação da quantidade de dispersão (Ex: diferenças de QI Verbal e de Desempenho. ou outro escore isolado. clínicos. e diversas formas de psicopatologias que afetam diferentemente o funcionamento intelectual. validadas por métodos quantitativos adaptados à mensuração de tendências grupais. 20 . c. norma. É aí que entram os conceitos estatísticos (Média. e aos vários tipos de conteúdos específico que se pode observar. mediana. normas específicas e grupos de referência fixo. Para isso. salienta-se: as normas desenvolvimentais. h. Para cada tipo de normas poderá se ter uma visão relativa de sua interpretação dependendo de fatores ligados a comparações interteste. Dentre os tipos de normas.Normas Desenvolvimentais Os escores desse tipo de normas tendem a ser imperfeitos. a. a maioria atinge a maturidade). Na ausência de dados interpretativos adicionais. Os escores brutos são convertidos de várias maneiras cuja informação será ou para determinar o nível de desenvolvimento atingido ou a posição relativa dentro de um grupo especificado. No entanto. Idade mental versus idade basal: devido à amplitude de experiências ser menor à medida que há um aumento da idade mental (pois depois de um certo ponto. g. pois são vulneráveis ao estágio de desenvolvimento do indivíduo seja relativo a sua experiência de vida. 40. as normas intragrupo.Algumas observações sobre Normas e Significado dos Escores a. elas têm uma considerável importância para a descrição. b. Os escores de testes psicológicos são mais comumente interpretados por referência a normas que representam o desempenho da amostra de padronização no teste. d. pesquisa e para o estudo clínico intensivo dos indivíduos. f. e. a amostra normativa. um escore bruto em qualquer teste psicológico não tem significado.Capítulo 3 39. o escore bruto de um indivíduo é então situado na distribuição dos escores obtidos pela amostra de padronização. a normas de âncora nacionais. o nível de dificuldade dos itens que constituem um teste determinará o significado do escore. Sendo assim. variância e desvio padrão) para nos dar um maior entendimento de como os indivíduos reagem aos estímulos apresentados pelo teste. para descobrir-se onde ele se localiza na distribuição. e que não se pode simplesmente considerar que uma criança vai obter um desenvolvimento intelectual contínuo a 21 . ou ao seu nível de escolaridade. ponto de uma vez detectado um retardo mental de um ano. 41. São muito fáceis de calcular e podem ser claramente compreendidos. c. Escores padrão: Expressam a distância do indivíduo em relação à média em termos de desvio-padrão da distribuição e em geral são expressos como o escore z (com média = 0 e DP = 1). na tentativa de corrigir essa falha. Equivalente de série escolar: Os escores de realização escolar muitas vezes são interpretados em termos de equivalentes de série escolar. Percentis: Indicam a posição relativa do indivíduo na amostra de padronização. mas sua unidade possui uma acentuada desigualdade. onde P60 significa que o escore da pessoa está num ponto onde 60% da amostra de padronização obteve um escore menor. deficiências ligadas ao conteúdo da instrução que varia necessariamente de uma série para outra e essa variação pode ocorrer em diferentes momentos também de uma turma para outra. criou-se a idéia de observar a idade mental (a equiparação do escore de um indivíduo em relação a uma faixa de idade específica cuja maioria teve o mesmo desempenho) junto com a idade basal (a equiparação das respostas de um indivíduo sem que ele tenha obtido nenhum erro em comparação a uma faixa de idade específica). b. QI de desvio: (QI = 100 x IM / IC) Os QIs de desvio de diferentes testes só são comparáveis quando empregam os mesmos valores ou valores muito semelhantes para o DP em tais testes. especialmente nos extremos da distribuição. Assim.Normas Intragrupo a. Estas 22 . discriminação sensória. São mais preciso do que os percentis. b. comunicação lingüística e formação dos conceitos que foram padronizados através de observações empíricas dos bebês e das crianças pequenas. mas por possuírem números decimais são mais tendenciosos ao erro por parte dos avaliadores. Outras variações de escores padrão são o escore T (M= 50 e DP = 10) e o QI de desvio (M = 100 e DP = 15). esse diagnóstico permaneça nas fases seguintes de seu desenvolvimento. além dos motivos já citados anteriormente. Isso nos leva a encontrar. c. Escalas ordinais: Trata-se da descrição do comportamento típico de idades sucessivas em funções como locomoção. Normas Âncora Nacionais: Trata-se do uso de um teste-âncora para se gerar uma tabela de equivalência para testes diferentes. está restrita à população normativa específica da qual foi derivada. sempre deve ser acompanhado pelo nome do teste em que foi obtido devido às várias características que fazem nosso julgamento sobre as normas ser diferenciado. b. d. ou qualquer outro escore. as unidades da escala e a amostra de padronização). Assim se poderia ter uma idéia dos escores esperados mesmo em diferentes testes. O teste-âncora serve para escalonar até novos testes. a. Amostra normativa: qualquer norma. d. para se tentar generalizar uma determinada norma para esta população. c. As normas são ajustes feitos nos escores-padrão para que os mesmos representem uma curva normal ideal. Assim. familiaridade e facilidade de desenvolver normas com base neles. 42.Relatividade das Normas Um QI. O objetivo é poder comparar os escores de um indivíduo em diferentes testes considerando justamente as “diferenças normais” entre estes testes.informações devem necessariamente constar dos manuais dos testes. Podem ser utilizadas normas 23 . a forma exata pela qual os escores são relatados deve ser considerada pela conveniência. Comparações interteste: existem três razões principais que explicam as variações sistemáticas entre os escores obtidos pelo mesmo indivíduo em testes diferentes (o conteúdo. Portanto. escolhidas de forma a se ajustar aos objetivos específicos de cada teste. independente de como é expressa. Normas específicas: Uso dessas normas é mais específico no que diz respeito a padronização de testes para populações mais limitadamente definidas. é necessário que haja representatividade da amostra de padronização em relação à população. Inter-relações dos escores do grupo: É possível trabalhar com a conversão de escores desde que se faça uso das técnicas adequadas para cada tipo considerado. e é por essa razão que os escores só devem ser normalizados quando oriundos de amostras grandes e representativas e quando tivermos razões para acreditar que o desvio em relação à normalidade resulta de defeitos no teste e não de características da amostra e de outros fatores que afetam o comportamento em consideração. ou seja. Testagem da maestria: alguns educadores argumentam que. Necessidade práticas e Armadilhas (uso de escores mínimos em variáveis críticas necessárias para o desempenho de certas funções  cuidado com os erros de julgamento) b. dados tempo suficiente e métodos instrucionais adequados. interpretação narrativa. Para avaliar o nível pré-estabelecido de maestria. mesmo com o avanço e a sofisticação dos testes. Grupo de referência fixo: Na tentativa de garantir a comparabilidade e a continuidade dos escores os pesquisadores descobriram que. Significado do conteúdo: o foco está naquilo que os testandos podem e sabem fazer. por exemplo). era necessário utilizar as informações das normas anteriores se quisessem comparar mais justamente os testandos. como acontece na testagem educacional tradicional. Testagem referenciada no critério (domínio) b. e. validade e outras propriedades técnicas do sistema). 43. 44. sem compará-los com os outros.Interpretação de testes referenciadas nos domínio a. sistemas interativos). Riscos e Orientações (comparabilidade dos escores e interpretações narrativas associadas com a fidedignidade. mas comparados com a tarefa que eles “deveriam” desempenhar.de subgrupo sob enfoque ou principalmente normas locais. As diferenças individuais manifestar-seiam assim no tempo de aprendizagem e não na realização final. Apresentam um desenvolvimento técnico (pontuação por computador. b. optaram por manter a continuidade da escala dos testes desde sua criação original para poder ter uma boa idéia do desempenho de qualquer outros sujeitos que se submetesse a eles em qualquer época. Tabelas de Expectativa (resultados esperados na combinação entre diferentes aptidões  envolvem uso de correlação e análises multivariadas.Qualificações mínimas e pontos de corte a.Os computadores e a interpretação dos escores a. duas questões são importantes: Quantos itens? Que proporção de acerto? 45. quase todo mundo pode atingir a maestria completa dos objetivos instrucionais escolhidos. c. quando a comparação com uma norma nacional não é necessária. 24 . 60 ± 0. Com o qual podemos predizer o intervalo total de flutuação que provavelmente ocorrerá no escore de um indivíduo em resultado de fatores casuais irrelevantes ou desconhecidos. a. em geral.. 25 .40 ± 0. ou sob outras condições variáveis de exame. Tem sido utilizada para abranger vários aspectos da consistência dos escores: i.00 ± 0. Entretanto.Instruções .Características do próprio teste ⇒ Coeficiente de correlação (Pearson) ± 1. ou seja. A significância depende do número de sujeitos (grau de liberdade). Em sentido amplo: indica a extensão em que as diferenças individuais nos escores de teste são atribuíveis a diferenças “verdadeiras” nas características sob consideração e a extensão em que elas são atribuíveis a erros causais.Ambiente T=V+E . Em termos mais técnicos: possibilita que proporção da variância total dos escores de teste é uma variância de erro (atribui-se o termo erro às variabilidade dos escores das pessoas que não são controladas) ⇒ Relembrando.80 ± 0. .Tipo de Amostra . b.Tempo . ter pelo menos uma p ≤ 0. Enfatiza o cálculo do erro de mensuração de um único escore.05 (5%) de serem dadas ao acaso. para que as correlações sejam consideradas conforme indicado ao lado.20 Correlação Perfeita ” ” ” ” Alta Moderada Baixa Fraca Na Psicologia..Capítulo 4 46. esses são os rótulos atribuídos aos coeficientes de correlação. ii. elas precisam ser significativas.Rapport (Fontes de erro) .FIDEDIGNIDADE – Definição: Fidedignidade ou Confiabilidade refere-se à consistência dos escores obtidos pelas mesmas pessoas quando elas são reexaminadas com o mesmo teste em diferentes ocasiões. ou com diferentes conjuntos de itens equivalentes. (isso implicaria em testes repetidos em vários dias) b. É o método mais óbvio para descobrirmos a fidedignidade dos escores de teste  repetição em uma segunda ocasião. tensão emocional . fadiga.90. etc. O intervalo sempre deve ser relatado (dias.⇒ Coeficiente de Fidedignidade A mensuração da fidedignidade é representada pela aplicação do coeficiente de correlação quando se comparam. e não a todo o domínio de comportamento avaliado vi. 47. Experiências intervenientes (durante o tempo entre a 1 a e a 2a testagem) devem ser informadas (Treinamento específico. Convém observar que diferentes funções do comportamento podem variar na extensão da flutuação diária que apresentam.ruídos súbitos ou outras distrações . Entretanto. Teste-reteste (rtt) i. Terapia. a firmeza dos movimentos delicados dos dedos é indubitavelmente mais suscetível a leves mudanças na condição da pessoa do que a compreensão verbal.) v. Aconselhamento. doenças.Tipos de Fidedignidade a. meses. semanas. os escores de uma amostra de 104 sujeitos em dois testes equivalentes. Por exemplo. A variância de erro corresponde às flutuações aleatórias de desempenho de uma sessão de teste para outra. Forma-alternada 26 . experiências recentes (boas ou ruins) iii. ii.8 ou 0. que em parte podem ser atribuídas a: .mudanças das condições meteorológicas . o coeficiente de fidedignidade que é normalmente exigido deve atingir aproximadamente 0. O Conceito de Fidedignidade fica restrito a mudanças a curto prazo e aleatórias.condições de testagem não controladas . no desempenho do teste. por exemplo. anos  o ideal é até 6 meses) iv. Educação. Profissional.preocupação.lápis quebrado. A natureza e o nível de dificuldade dos itens . quanto da consistência da resposta a diferentes amostras de itens (ou formas de teste). aborrecimento e quaisquer outros fatores variando progressivamente do início ao final do teste. ii. precisam ter dificuldade semelhantes.i. respondendo as seguintes questões: .e também os efeitos cumulativos de aquecimento. Implica no conceito de amostragem de itens. dois escores para cada pessoa: um pra cada metade) ii. podem ser alternativas que justifiquem honestidade dependendo do arranjo dos itens (dificuldade crescente.Teste alternados apesar de conteúdos de itens diferentes. Neste caso a fidedignidade é uma medida tanto de estabilidade temporal.Em que extensão os escores dependem de fatores específicos da seleção dos itens? . abrangência do conteúdo para cada metade) d. A partir de uma única aplicação de um teste. A estabilidade temporal dos escores não entra nesta fidedignidade. assim como os outros tipos de fidedignidade adiante. iv. Combinando assim dois tipos de fidedignidade. ou amostragem de conteúdo. Kuder-Richardson e Coeficiente alfa (consistência inter-item) (para escalas 0-1) (para escalas 1-5) i. Método das Metades (split-half) i. é possível chegarmos a uma medida de fidedignidade por meio da 27 .Em que extensão os escores neste teste dependem de fatores específicos daquela determinada seleção de itens? . Dividir os itens aleatoriamente ou entre ímpares e pares. fadiga. O primeiro problema é como dividir o teste de modo a obter as metades mais perfeitamente equivalentes. iii. é possível chegarmos a uma medida de fidedignidade por meio de vários procedimentos de dividir o teste pela metade (portanto. A partir de uma única aplicação de um teste. prática. Deve ser considerado: . c. e possui alguns muito difíceis. pois seria impossível saber quão mais elevado o escore do sujeito teria sido se houvessem mais itens. ii. 28 . Ao contrário.amostragem de conteúdo (como na forma alternada e no método das metades) .consistência de respostas a todos os itens do teste (consistência inter-item). Têm um limite de tempo suficiente para ser respondido por completo. bem dentro do nível de habilidade das pessoas alvo. O limite de tempo é tão curto que ninguém consegue terminar. A testagem de maestria foge a essa regra. Um teste de rapidez puro é aquele em que as diferenças individuais dependem inteiramente da velocidade do desempenho i. É influenciada por duas fontes de variância de erro: . O escore reflete apenas a velocidade. ii. ii. Os itens são de dificuldade uniformemente baixa. d. b. Testes de criatividade e projetivos de personalidade dependem do julgamento de um avaliador. 48. A correlação entre as avaliações independentes de dois psicólogos dá a idéia do quanto de erro pode ocorrer dessas avaliações. por que é referenciada no domínio. Ambos são planejados para evitar a obtenção de escores perfeitos (responder todas as questões corretamente). maior a consistência inter-item) e. A dificuldade dos itens aumenta gradualmente. ou itens mais difíceis. ii. c. iii. testes de habilidade pura: i.Fidedignidade dos testes de rapidez a. Fidedignidade do Avaliador i.Heterogeneidade do domínio comportamental amostrado (quando mais homogêneo o domínio. Variabilidade i. consistência interitens). Como opção. No caso das duas metades. ao 29 . O coeficiente de fidedignidade também varia em função do nível médio de habilidade do grupo. ii. Essa combinação tende a equilibrar os efeitos cumulativos da prática. iii. ou o método das metades aplicado para partes do teste cronometradas separadamente. E essas diferenças só são passíveis de verificação através de prova empírica do teste em grupos que se diferenciem em idade ou comprovadamente em nível de habilidade. f. b. Se não for possível. com relação à idade. A Homogeneidade ou Heterogeneidade da amostra influencia igualmente a correlação. uma vez que seus escores são indevidamente influenciados pelo “chute” ou pela adivinhação. a comparação desses escores com outros resultados seria mais restrita. A fidedignidade pode ser relativamente baixa para grupos mais jovens e menos capazes. ii. iii. na construção. pode-se usar teste-reteste. Em testes de rapidez. Uma prática desejável e comum. Se todos os membros de um grupo possuem escores muito semelhantes. o coeficiente de fidedignidade deve ser novamente determinado nessa amostra. Qualquer coeficiente de correlação é afetado pelo intervalo total das diferenças individuais no grupo. é fracionar a amostra em grupos mais homogêneos. coeficientes de fidedignidade de tentativa única não podem ser aplicados (duas metades. a velocidade de execução seria diferente entre duas metades.Dependências dos Coeficientes de Fidedignidade na amostra a. da fadiga e de outros fatores. Quando um teste vai ser utilizado para discriminar diferenças individuais dentro de uma amostra mais homogênea do que o grupo de padronização. pode-se dividir o tempo total em quartas partes. g. pois se baseiam no número de erros. Assim: o coeficiente de fidedignidade só é aplicável em amostras similares àquela em que foi calculado iv. 49.e. Nível de habilidade i. onde os sujeitos assinalariam qual item estão trabalhando no momento em que o examinador der um sinal. . Validade de Conteúdo b. Exame completo e sistemático do conteúdo dos livros didáticos e programas dos cursos. Exemplo 2: Testes de matemática ou mecânica podem ser indevidamente influenciados pela habilidade de compreender instruções verbais ou pela velocidade de realização da tarefa.Tópicos de conteúdo (segundo sua importância e fonte) . A amostragem adequada do universo de itens é uma tarefa difícil Exemplo1: um teste com mais itens objetivos pode conter só os conteúdos que facilitaram a elaboração desses itens. podendo ficar de fora conteúdos que não são passíveis serem avaliados por esse formato de itens. instruções utilizadas com eles e a concordância deles entre os conteúdos) . Descrever esses procedimentos no manual. relatando no manual cada coeficiente para esses subgrupos. Procedimentos Específicos a.Tipos de Validade a.Número de peritos envolvidos (sua formação profissional ou acadêmica. iii.Validade de Conteúdo Natureza a. b. além de informar: .Importância de áreas ou tópicos de conteúdos individuais. ao nível escolar. .sexo. Validade de Construto 51. à ocupação. Escolha de itens apropriados para os testes educacionais i. Validade de Critério (ou Preditiva) c. Comparação dos resultados entre diferentes séries (itens e escores-totais) 30 . Capítulo 5 50.Áreas ou tópicos do conteúdo.Objetivos ou processos a serem testados. Exame sistemático do conteúdo do teste para determinar se ele abrange uma amostra representativa do domínio do comportamento medido. Desenvolver as “especificações de teste”: . como também a consulta a peritos. Procedimentos estatísticos i.Datas da elaboração das questões e da revisão dos peritos b. . etc. ii. NÃO totalmente adequada para Testes de Aptidão e Personalidade: é geralmente enganadora. das relações públicas e da aceitabilidade em geral do testes.Análise dos processos envolvido na hora da resposta. Não é validade no sentido técnico b.Definição operacional . c. Técnicas de ajudam a melhorar o conteúdo desses testes: . Os procedimentos de validação de critério indicam a efetividade de um teste para predizer o desempenho de um indivíduo em atividades especificadas. pode-se ter uma idéia da validade aparente).Validade de Critério (ou Preditiva) a. É aquilo que superficialmente o teste parece medir (Através do rapport.(validade concorrente ou validade preditiva) c. Rapidez iv. 31 . 52. Correlação entre o escore do teste e escore de compreensão de leitura Aplicações a. pois é praticamente impossível determinar as funções psicológicas medidas pelos testes a partir da inspeção de seu conteúdo. Validade aparente a.Análise de juízes segundo a definição operacional . pedindo aos sujeitos para “responderem pensando em voz alta”. Adequada para Testes de Realização (amostra representativa do comportamento e conhecimento / Influência indevida de variáveis irrelevantes) b. Adequada para Testes de Referência no Domínio c. Essa medida pode ser obtida no mesmo tempo que os escores do teste ou após um intervalo determinado. A validade aparente muitas vezes pode ser melhorada simplesmente reformulando-se os itens de teste em termos que pareçam relevantes e plausíveis no ambiente específico que serão usados. Adequada para Testes Ocupacionais utilizados na Seleção e Classificação (amostra das tarefas / análise de função) d.ii. As informações fornecidas pela validação preditiva são extremamente relevantes para os testes usados na seleção e na classificação de pessoal (contratar candidatos a emprego. Análise dos erros e observação dos métodos de trabalho (pensar em voz alta) iii. b. A distinção lógica entre a validação concorrente e a preditiva não está baseada no tempo e sim nos objetivos da testagem. Medidas de Critério Qualquer método de avaliação do comportamento. Como solução. Os empregadores e professores ansiosos para tomarem decisões práticas com base nos resultados nem sempre esperam pelos resultados de validade de um teste para poder utiliza-lo. e. Tal conhecimento poderia influenciar a nota dada ao aluno ou a avaliação referente ao empregado. Trata-se de uma fonte de erro na validação do teste. d. 32 . em decorrência da inviabilidade de mensurar o critério ao longo do tempo. e não para a predição de futuros resultados. Ocorre quando o avaliador do critério toma conhecimento dos escores de teste (baixos ou altos) dos sujeitos.2: Smith apresenta os pré-requisitos para se tornar um piloto satisfatório? Exige Validação Preditiva Contaminação do Critério a. b. A Validade concorrente é relevante para os testes empregados para o diagnóstico do status existente.: alunos universitários com a média cumulativa das notas na época da testagem. Outros exemplos são o uso de testes para excluir candidatos que provavelmente desenvolverão transtornos emocionais em ambientes estressantes e o uso de testes para identificar pacientes psiquiátricos que provavelmente terão benefícios com uma determinada terapia. c. designar militares para treinamento ocupacional). Ex. Esta influência aumentaria a correlação entre os escores de teste e o critério de uma maneira inteiramente falsa ou artificial.selecionar estudante para Universidade. Ex.1: Smith se qualifica como um piloto satisfatório? Exige Validação concorrente. d. ou escores de empregados em comparação com seu desempenho atual na empresa. Em muitos casos a validação concorrente é empregada apenas como um substituto para a preditiva. pode-se aplicar os testes a um grupo para o qual já existam dados de critério (Ex. Cursos de Escolas de Direito. ponderada pelo número de créditos em cada disciplina. A maioria das medidas de desempenho na função podem ser bons critérios. Conclusão de Treinamento i. Métodos de Grupos Comparados (Grupos Critério) i. etc. ” de Aptidão e Personalidade Índices escolares: . c. Cursos de Escolas de Comércio. Realização Acadêmica i. a. Baseia-se na idéia de separar as pessoas pelo seu melhor ou seu pior desempenho em uma medida de critério. Testes de Inteligência ii. iii. ii. Cursos de Oficina (mecânica) ii. Cursos de Escolas de Música ou Arte iv. Testes de realização aplicados na conclusão do treinamento. b. avaliações dos instrutores.Os objetivos da testagem determinam o método de avaliação do critério. a nota média em todas as disciplinas. durante o período de um ano. Datilografia ou Contabilidade iii. e. Esse critério tem sido um pouco utilizado na validação de testes de inteligência geral e de personalidade. e amplamente na validação de testes de aptidão especial.Registros de Promoções e Graduação . conclusão com sucesso do treinamento. Odontologia. pode-se diferenciar registros de treinamento como medidas de critério entre critérios intermediários e critérios finais. Medicina. e devem ser preferidas em relação aos registros de treinamento. sendo escolhidos simplesmente em função dos extremos da distribuição dessa medida. Desempenho no Trabalho i. Principalmente os testes feitos para funções específicas.Notas escolares . - 33 . d. notas dadas formalmente. serve como critério de realização acadêmica.Honrarias e Prêmios Especiais . Engenharia.Escores em testes de realização . Desempenho em Treinamento Especializado i. ii.Avaliação “de Inteligência” pelo professor Exemplo: para universitários. De uma maneira geral. atualmente reconhece-se que a validade de um teste pode ser efetivamente investigada investigando-se os principais construtos no desempenho em uma determinada função e depois escolhendose ou desenvolvendo-se testes cujos escores avaliam os construtos necessários. tanto em testes ocupacionais quanto educacionais. Generalização de Validade a. Constituem. quando um novo teste é uma forma abreviada dou simplificada de um teste de desempenho mais elaborado e consumidor de mais tempo. Meta-Análise a. estudos envolvendo habilidades ocupacionais mais especializadas mostraram que os resultados de validade podem ser confiáveis. Um teste pode ser um bom critério. porque a distinção gradual dos indivíduos se deve a ação das múltiplas demandas da vida cotidiana. ii. b. Trata-se de procedimentos estatísticos empregados na investigação de generalização da validade.ii. Correlações de um novo teste com testes previamente disponíveis i. Entretanto. É bastante usado na validação de testes de personalidade f. Portanto. cuja validade tenha sido previamente estabelecida. c. pois nem sempre qualquer amostra possui características para tanta generalização. Diagnóstico Psiquiátrico i. essencialmente uma maneira de integrar os achados de diferentes 34 . Desde que feitos sob uma observação prolongada e uma história de caso detalhada. pode ser utilizado também para validação de testes de personalidade. Deve-se ter cuidado com a ampla variabilidade de coeficientes de validade que se pode produzir. nos dá uma boa indicação da condição emocional do indivíduo (este método só deverá ser utilizado como critério se não apresentar problemas de validade de conteúdo). Têm-se observado que as amostras industriais e educacionais disponíveis para validação de testes geralmente são pequenas demais para produzir uma estimativa estável entre preditor e critério. De uma maneira geral. iii. É um critério bem mais complexo e menos claramente definível do que os outros. g. Cada construto é desenvolvido para explicar e organizar consistências de resposta observadas.estudos combinando dados de pesquisas passadas e presentes. no Technical Recomendations for Psychological Tests and Diagnostic Techniques (APA. ansiedade etc). Mudanças Desenvolvimentais a) Um critério importante empregado na validação de muitos testes tradicionais de inteligência é a diferenciação por idade. d) Se por um lado. ele tem um uso limitado. d. quando aplicável. Focalizou a atenção no papel dos testes e na necessidade de formularmos hipóteses que podem ser provadas ou refutadas no processo de validação. Trata-se da extensão em que podemos dizer que o teste mede um construto teórico ou um traço (aptidão escolar. f. pelo menos até a maturidade. Requer acumulação gradual de informações de várias fontes. h. compreensão mecânica. b. b) O próprio conceito de uma escala de inteligência. por exemplo. a diferenciação por idade é uma condição necessária. neuroticismo. 1954). velocidade do caminhar. fluência verbal. como proposto originalmente por Binet. os escores de um teste não melhoram com a idade indicam que o teste não é uma medida válida das 35 . c. mas não suficiente para a validade. baseia-se na suposição de que a “inteligência” aumenta com a idade. c) Na área de mensuração da personalidade. Estimulou a busca de novas maneiras de coletar dados de validade. que consistiu na primeira edição do Livro Padrões de Testagem de 1985. 53. e. Qualquer dado que lance luz sobre a natureza do traço sob consideração que afetam seu desenvolvimento e suas manifestações representa uma evidência apropriada para sua validação.Validade de Construto a. de estudos realizados em diferentes lugares. g. Deriva-se de inter-relações estabelecidas entre medidas comportamentais. ou de informações disponíveis em estudos publicados. O termo “Validade de Construto” foi oficialmente introduzido no léxico psicométrico em 1954. juntamente com outros testes. uma vez que culturas diferentes podem estimular e favorecer o desenvolvimento de características diferentes de comportamento (o que aumenta a vinculação desse critério com a amostra de padronização). juntamente com o peso ou a carga de cada fator e a correlação do teste com cada fator. provar que um teste mede alguma coisa que aumenta com a idade não define com muita precisão a área coberta pelo teste. essas correlações devem ser moderadamente altas. por ser uma técnica estatística refinada para tratar das inter-relações de dados comportamentais. são citadas às vezes como evidência de que o novo teste mede aproximadamente a mesma área geral de comportamento. b) Ao passo que deve apresentar correlações fracas com testes que avaliam conteúdos distintos (servem para controlar fatores irrelevantes). b) Deve ser utilizada inicialmente com muitos itens para cara construto teórico (fator) que se pretende avaliar no teste. e) Avaliações e outras medidas de critério podem ser utilizadas. para verificar a composição fatorial de um determinado teste e para definir os traços comuns que ele mede. sem vantagens extras como brevidade ou facilidade de aplicação. mas não altas demais.habilidades que deveria amostrar. Diferentemente das correlações encontradas na validade de predição do critério. c) O número de sujeitos deve ser de pelo menos 10 sujeitos para cada item utilizado na análise. é especialmente relevante para os procedimentos de validação de construto. d) Em síntese. Se o novo teste apresenta uma correlação muito alta com um teste já existente. o novo teste representa uma duplicação desnecessária. Por outro lado. 36 . Análise Fatorial a) Desenvolvida como um meio de identificar traços psicológicos. f) A correlação do teste com cada fator também é chamada de validade fatorial. Correlações com outros testes a) Correlações com um novo teste ou testes semelhantes antigos de mesmo nome. e) Não se pode supor que o critério de diferenciação por idade seja universal. esta técnica serve para caracterizar em cada teste quais os principais fatores que determinam seus escores. b) Correlações baixas ou ausência de correlações com variáveis das quais o teste deveria diferir. por exemplo. A lógica de tal teste exige escores baixos no pré-teste. que é essencialmente a avaliação de dois ou mais traços por dois ou mais métodos. c) Portanto. observando-se se os escores de teste elevam-se significativamente no reteste. pode-se fazer um exame em condições distrativas e estressantes. Os escores do teste inicial podem então ser correlacionados com índices fisiológicos e outros índices de expressão de ansiedade durante e depois do exame. aplicado antes da instrução relevante. d) As correlações de consistência interna. Elas têm certa relevância apenas para a validade de construto. quer baseadas em itens ou subtestes. por exemplo. c) Para medir a tendência a ansiedade. não possuem dados de comparação externos ao teste. Intervenções experimentais a) Trata-se de experimentos sobre o efeito de variáveis selecionadas sobre os escores de teste.Consistência interna a) Método de grupos comparados b) Correlação bisserial entre “acerto-erro” em cada item e o escore total do teste. são essencialmente medidas de homogeneidade. com o objetivo de combinar suas correlações a fim de verificar dimensões semelhantes e diferentes além de métodos de observação diferentes. b) Para verificar a validade de teste em um programa instrucional individualizado. uma técnica chamada matriz multitraçomultimétodo. pois ajudam a caracterizar o domínio de comportamento ou traço amostrado pelo teste. e escores altos no pós-teste. uma abordagem é por meio da comparação de escores de pré-teste e pós-teste (O1 X O2 – onde O = observação ou avaliação e X = intervenção ou instrução). Uma hipótese diferente relativa a um teste de ansiedade poderia ser avaliada aplicando-se o teste antes e depois de uma experiência provocadora de ansiedade. 37 . c) Correlação entre escores de subteste e o escore total. Validação convergente e discriminante a) Correlações altas com outras variáveis que o teste deveria possuir. c) Surgiu para suprir as fraquezas de se utilizar a correlações juntamente com delineamentos experimentais denominados de momentos cruzados (cross-lagged). escolarização. 38 .Modelagem de Equação Estrutural a) Trata-se de um avanço na validação de testes por considerar as relações entre o construto e o caminho por maio do qual um construto afeta o desempenho de critério. medidas da atitude em relação à matemática e do desempenho em matemática poderiam ser obtidas em dois momentos do tempo.) e não entre variáveis específicas (escores isolados de um teste). para analisar a influência causal recíproca entre atitude de um aluno em relação à matemática e seu desempenho em matemática.: motivação que pode ser medida por vários indicadores como interesse. as desconsiderações: (1) das correlações entre as variáveis iniciais e entre as variáveis subseqüentes.. (3) da possível contribuição das variáveis não medidas. tais como idade. Essencialmente. orientação para objetivo. autoconceito etc. e entre desempenho em matemática no Momento 1 e atitude em relação à matemática no Momento 2. d) Por exemplo. através do planejamento de um modelo das relações causais que será base para a coleta e a interpretação dos dados da testagem g) Nesse modelo as correlações são realizadas entre os construtos (por ex. f) A Modelagem de Equação Estrutural oferece maneiras de evitar essas dificuldades. e) Entre as fontes de erro dos procedimentos de momentos cruzados estão. Então poderia ser encontrada a correlação de momentos cruzados entre atitude em relação à matemática no Momento 1 e o desempenho em matemática no Momento 2. etc. uma vez que na estatística elementar sabemos que correlação não indica causalidade. b) É realizada através de análises estatísticas cada vez mais sofisticadas como Path Analysis (Análise dos Caminhos) e Structural Equating Modeling (Modelagem de Equação Estrutural). (2) da fidedignidade das variáveis e sua estabilidade ao longo do tempo. ela faz isso ao usar equações de regressão para predizer as variáveis dependentes a partir das variáveis independentes nos modelos de momentos cruzados ou em outros modelos causais. o objetivo da representação do construto é o de identificar componentes específicos do processamento da informação e dos repertórios de conhecimento necessários para realizar as tarefas determinadas pelos itens do teste. Por outro lado. os psicólogos cognitivos começaram a aplicar os conceitos de processamento da informação ao estudo da resolução de problemas em seres humanos. em contraste com a tradicional concentração nos produtos finais do pensamento na pesquisa psicométrica. Elas centraram claramente a atenção nos processos de resposta. c) As variáveis identificadas incluem processos (habilidade procedurais) e conhecimento declarativo (fatos e informações). insto refere-se ao desempenho do teste dentro de uma “rede nomotética” de outras variáveis. a maneira pela qual os processos são organizados. e) Em última análise. embora ainda em um estágio exploratório. 39 . a utilização de procedimentos como decomposição da tarefa. as abordagens de processamento da informação contribuíram com conceitos heurísticos para orientar novas pesquisas. o repertório de conhecimentos relevantes. e outras informações complementares para se descobrir mais sobre o construto investigado. análise do protocolo . e como esse conhecimento é representado na memória e recuperado quando necessário. d) Um pesquisador chamado Embretson. que está começando a produzir contribuições significativas para um entendimento dos construtos avaliados pelos testes de inteligência e por outras aptidões amplamente definidas. É no intervalo nomotético. os modelos cognitivos especificam os processos intelectuais usados para realizar a tarefa.Contribuições da Psicologia Cognitiva a) A década de 70 testemunhou a aproximação entre a psicologia experimental e a psicometria. propôs dois aspectos principais na validação de teste: (1) representação do construto e (2) intervalo nomotético. a partir das contribuições da psicologia cognitiva. Ou seja. Assim. o que levou a identificar variáveis que ajudam no entendimento do construto. b) Desde a década de 50. Alguns programas que simulam o desempenho de pessoas em diferentes níveis de habilidade são possíveis graças a esses estudos de Inteligência Artificial (IA). que a validação tradicional relacionada ao construto tem-se centrado. Validade Diferencial c. Abordagem básica b.Análises Estatísticas do Viés do Teste a.Combinando informações de testes diferentes a. Magnitude de um coeficiente de validade 56. VALIDADE: Mensuração e interpretação Os usuários de testes preocupam-se com a validade de testes em dois estágios: Primeiro: Quando consideram a adequação de um teste para suas finalidades. eles examinam os dados de validade disponíveis apresentados no manual de teste ou em outros relatos publicados. 55. Viés de declividade c.Validade de Teste e Teoria da Decisão a. Equação de regressão múltipla b. Análise de perfil e pontos de corte 58.Uso de Testes para Decisões de Classificação a. A natureza da Classificação b. Variáveis moderadoras 57. O problema b. Predição de resultados c. Modelos de decisão para uso justo dos testes. Relação da validade com a produtividade d.Coeficiente de Validade e Erro de Estimativa a. Viés de Intersecção d. O conceito de utilidade na teoria da decisão e. Maximizando a utilização do talento 59. Condições que afeta os coeficientes de validade b. Estratégias seqüenciais e tratamentos adaptativos f.Capítulo 6 54. 40 . Funções discriminantes múltiplas d. Tanto os itens que ninguém acerta. 50 X 50 ou 2. 61. aumentarmos sua validade e fidedignidade.Análise de itens a. eles não contribuem para a fidedignidade ou para a validade do teste. pois. Devido à possibilidade do “chute”. Temos então. iii.500 comparações emparelhadas. Quanto mais a dificuldade de um item se aproxima de 1. mas com uma dificuldade média de 0. devido à homogeneidade do teste. mais diferenciações o item pode fazer. Os itens podem ser analisados qualitativamente em termos de conteúdo e forma. de modo que os testandos começam com itens relativamente fáceis e prosseguem para itens de dificuldade crescente. Este arranjo deixa os testandos mais confiantes em realizar o teste e também reduz a probabilidade de perderem muito tempo com itens muito além da sua habilidade.Capítulo 7 60. em itens de múltipla escolha essa proporção média de itens deverá ser um pouco maior: aproximadamente 0. uma vez que não afetam a variabilidade dos escores.50. Inversamente. ao mesmo tempo. Os itens. menos informações diferenciais sobre os testandos ele oferece. A análise de itens possibilita encurtarmos um teste e.69. especificamente no tocante a mensuração da sua dificuldade e da sua discriminação. são arranjados em ordem de dificuldade. em geral.00 (100% de acerto) ou 0 (0% de acerto).50. ou fragmentos de informações diferenciais. A dificuldade de um item é definida em termos da porcentagem (ou da proporção) das pessoas que o respondem corretamente. Em virtude das intercorrelações dos itens.Dificuldade dos itens a. 41 . Porcentagem que acerta i. iv. Este item nos permite diferenciar cada um dos que acertaram e dos que erraram. b. em termos de suas propriedade estatísticas. quanto os que todos acertam não precisam compor um teste. ii. v. vi. é melhor selecionar itens com uma moderada extensão de dificuldade. e quantitativamente. quanto mais o nível de dificuldade se aproxima de 0. é claro. muitas pessoas com escores próximos de zero. ii. Somente a inclusão de novos itens. iii. se o empilhamento de escores for na extremidade inferior diz-se que o teste possui um solo alto demais para o grupo em consideração. Resultado. geralmente se espera que os escores se situem aproximadamente em uma curva de distribuição normal). ou seja. quando a amostra de padronização produz uma distribuição acentuadamente não-normal em um teste. No caso das distribuições não-normais (assimétrica ou enviesada). poderá aproximar novamente o nível de dificuldade de uma curva normal. um escore de 50% pode parecer escandalosamente baixo.b. v. com várias pessoas obtendo escores quase perfeitos (em geral. Ambas as conclusões. sugere um teto de teste insuficiente. o nível de dificuldade deste geralmente é modificado. certamente. obviamente. amostras selecionadas de universitários ou formandos produzem este resultado). Distribuição dos escores de teste i. Para alguém que não está familiarizado com os métodos de construção dos testes psicológicos. A dificuldade do teste como um todo. 42 . iv. mais fáceis ou mais difíceis. oferecida pela distribuição dos escores totais (se a amostra de padronização é um corte transversal ou um perfil representativo de tal população. depende diretamente da dificuldade dos seus itens. às vezes objeta-se que o examinador estabeleceu um padrão de aprovação baixo demais no teste. Se o empilhamento for na extremidade superior. Com base nisso. Com tal teste é impossível medir diferenças individuais entre os sujeitos mais capazes do grupo. Assim. Ou se conclui que o grupo testado é um grupo particularmente incapaz. não possuindo um número suficiente de itens fáceis para discriminar adequadamente na extremidade inferior do intervalo. Uma verificação cuidadosa da dificuldade total do teste para a população para qual o teste foi planejado é. são totalmente sem significado quando consideradas à luz dos procedimentos seguidos no desenvolvimento de testes psicológicos. iv. são mantidos aqueles que melhor diferenciam as pessoas classificadas em diferentes categorias de critério. iii. um programa de treinamento ou um tipo de trabalho. Assim. Freqüentemente. ii. 43 .62. exceto em comparação com o status de critério das pessoas que dão essa resposta). que tipicamente abrangem uma coleção heterogênea de fatos de background sobre o indivíduo (onde não existe nenhuma base a priori para classificar uma resposta como certa ou errada. a discriminação dos itens usualmente é investigada em comparação com o escore total no próprio teste. Este procedimento tem sido seguido especialmente no desenvolvimento de certos testes de personalidade e de interesse. Em outros tipos de testes de realização. ou para escolher itens para inventários biográficos. Na testagem de maestria referenciada no domínio.Discriminação dos Itens a. Quando um teste como um todo vai ser avaliado por meio de validação relacionada ao critério. v. não existe um critério externo. Para os testes de realização educacional. costumeiramente. Escolha do Critério i. os itens podem ser avaliados e selecionados com base em sua relação discriminatória com o mesmo critério. Para os testes de aptidão. A discriminação dos itens refere-se ao grau em que um item diferencia corretamente os testandos no comportamento que o teste pretende medir. ou para atribuir a ela um peso ou uma pontuação. a ênfase crescente na validação de construto torna o escore total um critério apropriado para a seleção dos itens. os que receberam mais instrução). como em muitos de aptidão. os itens podem ser avaliados comparando-se o desempenho em cada item apresentado por indivíduos com instrução variada nas funções relevantes (os que receberam menos instrução vs. tais como várias ocupações ou síndromes psiquiátricas. vi. os grupos de critério consistem em sucessos e fracassos em um curso acadêmico. de um grupo inicial de itens. Existem mais de 50 índices estatísticos diferentes de discriminação para serem usados na construção de testes. Apesar das diferenças de procedimento e suposição. Quando é medido ao longo de uma escala contínua. Se examinarmos melhor as implicações da escolha de itens com base em um critério externo tende a maximizar a validade do teste. o critério também pode ser dicotômico (sucesso vs. dos registros de produção ou dos escores no teste. a variação dos dados de discriminação dos itens de amostra para amostra geralmente é maior do que aquela entre os métodos diferentes. os grupos de critério superior (S) e inferior (I) são selecionados dos extremos da distribuição. c. a maioria dos índices de discriminação dos itens proporciona resultados bem semelhantes. quando é de certo/errado) e uma variável contínua (o critério). ii. Embora os valores dos itens possam diferir. os itens que são mantidos e aqueles que são rejeitados com base em índices diferentes de discriminação são os mesmos. ou em função de sua dificuldade. b. Uso de grupos extremos i. Entretanto. o que os diferencia é a sua aplicabilidade a medidas dicotômicas ou contínuas. A mensuração da discriminação dos itens usualmente envolve uma variável dicotômica (o item. fracasso) ou dicotomizado para fins de análise. enquanto que escolher itens com base no escore total tende a maximizar a consistência interna ou a homogeneidade do teste. onde o traço subjacente em que a dicotomia foi imposta deveria ser distribuído normalmente). Uma prática comum na análise de itens é comparar a proporção de casos que acertam um item em grupos de critério contrastantes. ii. ou em função de sua distribuição contínua e normal (mesmo nos casos de variáveis dicotomizadas artificialmente. como no caso das notas no curso. De fato. iii. Índices estatísticos da discriminação dos itens i.vii. das avaliações no trabalho. 44 . se todos os membros do grupo I e nenhum do grupo S o acertaram. . Uma vez que a análise de itens é freqüentemente realizada com grupos pequenos. a diferença entre essas duas porcentagens oferece um índice da discriminação dos itens que pode ser interpretado independentemente do tamanho da amostra em que foi obtido. O índice de discriminação (índice D) i. uma sala de aula. v. Se todos os membros do grupo S e nenhum do grupo I acertaram um item. vamos considerar primeiro um procedimento simples especialmente adequado para esta situação. Uma medida da dificuldade de item pode ser obtida com os mesmos dados somando-se o número que acertou cada item em todos os três (S + M + I) e. Inversamente. Agora temos três grupos de provas que podemos chamar de grupo Superior (S). Suponhamos que em uma classe de 60 alunos nós escolhemos os 20 alunos (33%) com os escores de teste mais altos e os 20 com os escores de teste mais baixos. como por exemplo 10% inferiores e superiores. Médio (M) e Inferior (I).iii.Mas o uso de grupos muito extremos. Em grupos pequenos. 45 . Distribuição mais achatada = ± 33%. iv. Análise Simples com Pequenos Grupos i. ii. como os alunos que fizeram um teste em sala de aula. ii. D é igual a 100. o erro de amostragem da estatística dos itens é tão grande que só podemos obter resultados aproximados. reduziria a confiabilidade dos resultados em virtude do pequeno número de casos utilizado. por exemplo. Um índice aproximado do valor discriminativo de cada item pode ser encontrado subtraindo-se o número de pessoas que responderam corretamente no grupo I do número que o respondeu corretamente no grupo S (S – I) iii. vi. . Este índice pode ter qualquer valor entre + 100 e – 100. d. Distribuição normal = 27%.Se os números de pessoas que acertam cada item nos grupos de critério S e I forem expressos como porcentagens. assim em qualquer número entre 25% e 33% serviria bem. alguns testandos com escores baixos tendem a se apressar no teste. Independentemente de quão fácil é o item. Assim. f. Convém lembrar que os dados de análise de itens obtidos com testes de rapidez são suspeitos e exigem um escrutínio cuidadoso. h. ele era respondido corretamente. e produzia uma correlação item-critério mais elevada. iii. os índices de discriminação dos itens tendem a ser superestimados para aqueles itens que não foram atingidos por todos os testandos. mas são tendenciosos em favor dos níveis intermediários de dificuldade. 63. marcando itens quase aleatoriamente em seu esforço para tentar todos os itens dentro do tempo permitido. d. c. Da mesma forma. g. ele parecerá difícil. Se as porcentagens de acerto em ambos os grupos são iguais. e. Quando o mesmo item ocorria mais tarde em um teste de rapidez. Essa tendência é muito menos comum entre os testando com escores altos. Exceto para os itens que todos ou quase todos os examinandos tiveram tempo de tentar. os índices dos itens encontrados a partir de um teste de rapidez vão refletir a posição do item no teste e não sua dificuldade intrínseca ou seu poder discriminativo. Os resultados mostraram claramente que a posição de um item nos testes de rapidez afetava seus índices de dificuldade e de discriminação. se ele ocorre tardiamente em um teste de rapidez.Análise de itens em testes de rapidez a. os valores de D não são independentes da dificuldade dos itens. Por exemplo. mas com a seqüência invertida. 46 . por uma porcentagem maior daqueles que o tentavam.D é igual a – 100. D será zero. b. Em um estudo controlando condições de velocidade e de habilidade com duas formas de testes. os índices dos itens calculados a partir de um teste de rapidez podem ser enganadores. Como acontece em vários índices de discriminação dos itens. Quer a velocidade seja ou não relevante para a função que está sendo medida. foram possíveis várias comparações entre as formas e as condições de tempo. que tinham os mesmo itens.
Copyright © 2024 DOKUMEN.SITE Inc.