Metodologia de La Investigacion Fisterra
Comments
Description
Fisterra: Metodología de la investigaciónGuías Clínicas Ayuda en consulta Medicamentos Formación Biblioteca virtual Tienda Formación - Metodología de la Investigación Metodología de la Investigación Mapa Buscador Avanzado 1. Elementos básicos en el diseño de un estudio Actualizada el 26/03/2006. "La medicina es una ciencia de probabilidades y el arte de manejar la incertidumbre..." Dificultades de los médicos para la realización de 2. estudios clínicoepidemiológicos Dificultades de la 3. Investigación en Atención Primaria Medidas de frecuencia de 4. enfermedad: incidencia y prevalencia 5. 6. 7. Cálculo de probabilidades: nociones básicas Determinación de factores de riesgo Determinación de factores pronósticos Presentación La realización de estudios clínico epidemiológicos precisa no solo de tiempo y entusiasmo dirigido a responder una pregunta, sino de conocimiento metodológico. La estadística y la epidemiología clínica proporcionan los instrumentos metodológicos adecuados para dicha carrera de obstáculos en la que habitualmente se convierte la realización y publicación de un trabajo. Los trabajos aquí presentados pretenden proporcionar los principios básicos de diseño, análisis e interpretación de los resultados que capaciten al lector para entender e incluso realizar dichos estudios. Pretendemos abordar conjuntamente aspectos metodológicos, estadísticos y epidemiológicos ya que todos ellos se precisan para interpretar y realizar un estudio. Más... Más en Fisterra Principios éticos para las investigaciones médicas en seres humanos (Declaración de Helsinki) Programas estadísticos para análisis de datos en Internet Número necesario de 8. pacientes a tratar para reducir un evento (NNTs) 9. Tipos de estudios clínico epidemiológicos 10. Estudios experimentales en la práctica clínica. Investigación terapéutica. Ensayos Clínicos El consentimiento 11. informado en los Ensayos Clínicos 12. Determinación del tamaño muestral Más en otros sitios Bioestadística: métodos y aplicaciones (Universidad de Málaga) Material docente de la Unidad de Bioestadística Clínica (Hospital Ramón y Cajal) - MetaDiSc Páginas sobre bioestadística (SEH-LELHA) Redes Centinelas Sanitarias en A.P. Revista Investigación Clínica y Farmacéutica A New View of Statistics The Little Handbook of Statistical Practice 12.1. Cálculo del tamaño muestral para la determinación de factores pronósticos 12.2. Cálculo del tamaño muestral en estudios de casos y controles http://www.fisterra.com/mbe/investiga/index.asp (1 of 3)22/04/2006 1:18:08 PM Fisterra: Metodología de la investigación 12.3. Determinación del tamaño muestral para calcular la significación del coeficiente de correlación lineal 13. 14. 15. Cálculo del poder estadístico de un estudio Significancia estadística y relevancia clínica Estadística descriptiva de los datos Representación gráfica en el análisis de datos 16. La Distribución Normal 17. Métodos paramétricos para 18. la comparación de dos medias. t de Student 19. Relación entre variables cuantitativas Asociación de variables 20. cualitativas: Test de Chi-cuadrado Asociación de variables cualitativas: test exacto 21. de Fisher y test de McNemar 22. 23. Técnicas de regresión. Regresión lineal simple Técnicas de regresión. Regresión lineal múltiple Medidas de concordancia: El índice Kappa 24. Análisis de supervivencia 25. 26. Pruebas diagnósticas 27. Curvas ROC 28. Investigación cuantitativa y cualitativa 29. La fiabilidad de las mediciones clínicas: el análisis de concordancia para variable numéricas 30. Revisiones sistemáticas y metaanálisis 31. Revisiones sistemáticas y metaanálisis (II) http://www.fisterra.com/mbe/investiga/index.asp (2 of 3)22/04/2006 1:18:08 PM Fisterra: Metodología de la investigación Salvador Pita Fernández Médico de Familia Profesor de la Universidad de A Coruña (España) [ Correo de contacto ] Arriba © 2006 fisterra.com Mis Datos | Contacto-Sugerencias | FAQ's | Condiciones de uso | Política de privacidad http://www.fisterra.com/mbe/investiga/index.asp (3 of 3)22/04/2006 1:18:08 PM Elementos básicos en el diseño de un estudio Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 08/01/01 Elementos básicos en el diseño de un estudio Pita Fernández, S. [ Correo de contacto ] Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña (España) Cad Aten Primaria 1996; 3: 83-85. La investigación se debe entender como el proceso dedicado a responder a una pregunta. Dicha respuesta lo que pretender es aclarar la incertidumbre de nuestro conocimiento. No se trata de almacenar datos de forma indiscriminada sino que se define como un proceso sistemático, organizado y objetivo destinado a responder a una pregunta. La palabra "sistemático" significa que a partir de la formulación de una hipótesis u objetivo de trabajo se recogen unos datos según un plan preestablecido que, una vez analizados e interpretados, modificarán o añadirán nuevos conocimientos a los ya existentes (Tabla 1) (1,2). El método científico parte de la observación de una realidad, se elabora una hipótesis explicativa, se contrastan las hipótesis y dicha hipótesis se acepta se realizan proposiciones que forman la teoría científica. TABLA 1. Esquema general del planteamiento de un estudio. q q q q q q q q Contenido Planteamiento de un estudio Elementos de la inferencia estadística Utilidad de la revisión bibliográfica Criterios de una buena pregunta Bibliografía Hipótesis de trabajo Objetivos Diseño de estudio Selección de variables Definición de variables Escala de medida Protocolo de recogida de datos Selección de la muestra ¿Cuántos? ¿Quiénes? Recogida de datos Automatización de los datos Depuración de los datos Análisis Resultados Conclusiones r r Documento en PDF (86 Kb) ¿Problemas con PDF? q q q q q q La epidemiología y la estadística son instrumentos indispensables para la realización de este proceso. En general podemos decir lo que habitualmente sucede es que de una población se extrae una muestra, sobre la que se realiza un experimento o medición y los resultados del mismo se extrapolan nuevamente a la población realizando una estimación con una seguridad definida completando así la inferencia (Tabla 2) (3,4). http://www.fisterra.com/mbe/investiga/1diseno/1diseno.htm (1 of 4)22/04/2006 1:18:26 PM Elementos básicos en el diseño de un estudio Tabla 2. ELEMENTOS DE LA INFERENCIA ESTADÍSTICA La definición del objetivo es el eje en torno al cual se construye la estructura del estudio. Si este objetivo no está claramente definido será difícil tomar decisiones sobre el tipo de estudio más apropiado, sobre la selección de la muestra, sobre el tamaño muestral, sobre las variables a medir y sobre el análisis estadístico a realizar. El problema a investigar debe entenderse como la incertidumbre sobre algún hecho o fenómeno que el investigador desea resolver realizando mediciones en los sujetos del estudio. En este proceso es fundamental la realización de la revisión bibliográfica que como se señala en la tabla 3 presenta importantes utilidades y por consiguiente es imprescindible (5). Tabla 3. UTILIDAD DE LA REVISIÓN BIBLIOGRÁFICA q q q q q q q q Fuente de ideas susceptibles de investigación. Valoración de los conocimientos actuales sobre el tema. Valoración sobre la pertinencia y viabilidad del proyecto. Provisión del marco conceptual para la investigación. Ayuda en la delimitación del objetivo específico. Información sobre aspectos concretos del diseño: r Estrategias r Procedimientos r Pautas de seguimiento r Criterios de selección r Determinación del tamaño de la muestra r Definición de variables r Instrumentos de medición r Prevención de problemas r Análisis estadístico Comparación de los propios resultados con estudios similares. Contribución a la valoración de la validez extrema. Fuente: Argimón Pallas J.M., Jiménez Villa J. (5) La pregunta a investigar debe reunir en definitiva una serie de características que se señalan en la tabla 4 y que se resumirían diciendo que debe ser factible, interesante, http://www.fisterra.com/mbe/investiga/1diseno/1diseno.htm (2 of 4)22/04/2006 1:18:26 PM Elementos básicos en el diseño de un estudio novedosa, ética y relevante (2). Tabla 4. CRITERIOS DE UNA BUENA PREGUNTA A INVESTIGAR q q q FACTIBLE r Número adecuado de individuos r Experiencia técnica adecuada r Abordable en cuanto a tiempo y dinero r Manejable en cuanto al alcance INTERESANTE PARA EL INVESTIGADOR. NOVEDOSA r Confirma o refuta hallazgos previos r Amplia hallazgos previos r Proporciona nuevos resultados ÉTICA Y RELEVANTE r Para el conocimiento científico r Para la política clínica sanitaria r Para líneas de investigación futuras Fuente: Stephen B. Hulley, Steven R. Cummings (2) La falta de claridad en nuestra pregunta no nos permitirá entre otras cosas poder calcular el tamaño muestral de nuestro estudio, donde precisaremos conocer la seguridad de nuestra estimación, la precisión de nuestra inferencia, el poder estadístico o la capacidad para detectar diferencias si es que existen. Si estos pasos han sido solucionados, debemos decidir a la vez que tipo de estudio epidemiológico vamos a realizar. Los estudios epidemiológicos clásicamente se dividen en experimentales y no experimentales. En los estudios experimentales (ensayos clínicos, ensayos de campo, ensayos comunitarios) se produce una manipulación de una exposición determinada en un grupo de individuos que se compara con otro grupo en el que no se intervino, o al que se expone a otra intervención. Cuando el experimento no es posible se diseñan estudios no experimentales que simulan de alguna forma el experimento que no se ha podido realizar (estudios ecológicos, estudios de prevalencia, estudios de casos y controles, estudios de cohortes o de seguimiento) (6,7). Tras decidir el tipo de estudio habrá que tener en consideración las amenazas o riesgos que dicho estudio lleva implícitos; en particular debemos reflexionar sobre los sesgos del estudio. En el sesgo de selección los grupos no son comparables debido a como fueron seleccionados los pacientes (elección inadecuada del grupo control, elección inadecuada del espacio muestral, pérdidas de seguimiento y supervivencia selectiva), en el sesgo de información los grupos no son comparables debido a como se obtuvieron los datos (instrumento de medida no adecuado, diagnóstico incorrecto, omisiones, imprecisiones, vigilancia desigual en expuestos y no expuestos, errores de clasificación, errores en los cuestionarios o procedimientos…) y finalmente en el sesgo de confusión existe una mezcla de efectos debido a una tercera o más variables. Esta variable está asociada con la exposición a estudio e independientemente de la exposición es un factor de riesgo para la enfermedad. La confusión puede ser controlada en el diseño del estudio y en el análisis del mismo con lo cual nuestro estudio podría ser válido. La presencia de sesgos de selección e información podrían ser cuantificados en algunas ocasiones pero invalidarían el estudio (8). Podemos afirmar sin lugar a dudas que realizar un estudio es una carrera de obstáculos que aún no siendo infranqueables, permanentemente están presentes y dificultan a la vez http://www.fisterra.com/mbe/investiga/1diseno/1diseno.htm (3 of 4)22/04/2006 1:18:26 PM Elementos básicos en el diseño de un estudio que hacen atractivo la realización de cualquier trabajo de investigación. M. Susser en sus reflexiones sobre causalidad (9) señalaba "cuando hay minas por todas partes no debe uno aventurarse sin un detector de minas". El conocimiento de la metodología y su aplicación a la práctica clínica debemos considerarla como un elemento útil, necesario y atractivo pues nos va a permitir aumentar nuestra capacidad para responder a preguntas a la vez que incrementará nuestra capacidad crítica para discriminar lo seguro y correcto de lo que no lo es tanto. Bibliografía 1. Contandriopoulos AP. Champagne F. Potvin L, Denis JL, Boyle P. Preparar un proyecto de investigación. Barcelona: SG Editores; 1991. 2. Stephen B. Hulley, Steven R. Cummings. Diseño de la investigación clínica. Un enfoque epidemiológico. Barcelona: Doyma; 1993. 3. Beth Dawson-sauders, Robert G. Trapp. Bioestadística Médica México, D.F.: Editorial el Manuel Moderno; 1993. 4. J.S. Milton, J.O. Tsokos. Estadistica para biología y ciencias de la salud. Madrid: Interamericana-McGraw Hill; 1989. 5. Argimón Pallas J.M. Jimenez Villa J. Métodos de Investigación aplicados a la atención primaria de salud. Barcelona: Ediciones Doyma; 1991. 6. Hennekens CH, Buring JE. Epidemioloy in Medicine. Boston: Little Brown and Company; 1987. 7. Kelsey JL, Thompson WD, Evans AS. Methods in Observational Epidemiology. New York: Oxford University Press; 1986. 8. Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic research. Principles and Quantiative Methods. Belmont. California: Lifetime Learning Publications; 1982. 9. Susser M. Conceptos y estrategias en epidemiología. El pensamiento causal en ciencias de la salud. México: Biblioteca de la Salud; 1991. Arriba | Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/1diseno/1diseno.htm (4 of 4)22/04/2006 1:18:26 PM Dificultades de los médicos para la realización de estudios clínico-epidemiológicos Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 15/01/01 Dificultades de los médicos para la realización de estudios clínico-epidemiológicos Pita Fernández, S. [ Correo de contacto ] Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña (España) Ponencia: Congreso Galego de Estadística e Investigación de Operacións. Santiago de Compostela, A Coruña (España). 11-13 Novembre-1999 La práctica médica diaria requiere la toma de decisiones sobre actividades preventivas, diagnósticas, terapéuticas y pronósticas basadas en cálculo de probabilidades que pretenden delimitar la incertidumbre que envuelve la práctica de la medicina. Con frecuencia existen dificultades para trasladar los resultados de una investigación a la práctica clínica por la forma en que habitualmente se presentan los resultados en términos de: p<0.05, p<0.01, riesgo relativo, odds ratio, reducción absoluta del riesgo, reducción relativa del riesgo, fracción atribuible poblacional o fracción etiológica. A este lenguaje con el que muchos profesionales sanitarios no están familiarizados y tienen dificultades para su compresión (1,2) se suma el hecho que además los resultados de un estudio pueden ser estadísticamente significativos y no ser clínicamente relevantes (3). Contenido Planteamiento de un estudio Dificultades en relación a la viabilidad y pertinencia de un estudio Problemas estadísticos de los ensayos clínicos Bibliografía El método científico parte de la observación de una realidad, se elabora una hipótesis explicativa, se contrastan las hipótesis y si dicha hipótesis es aceptada se realizan proposiciones que forman la teoría científica. Dicho procedimiento requiere un proceso sistemático, organizado y objetivo destinado a responder a una pregunta (Tabla 1) (4,5) que los profesionales sanitarios perciben como una carrera infinita de obstáculos. En este contesto de dificultad muchos profesionales sanitarios acuden a los epidemiólogos y estadísticos solicitando diferentes tipo de ayudas. Así algunos acuden solamente para que se les calcule una "p", otras acuden porque quieren cruzar variables, otros a que le "echen los números", otros a que se les calcule el tamaño de la muestra y otros cada vez más numeroso a que se les ayude a diseñar el estudio desde el principio. TABLA 1. Esquema general del planteamiento de un estudio. Documento en PDF (54 Kb) ¿Problemas con PDF? http://www.fisterra.com/mbe/investiga/2dificultades/2dificultades.htm (1 of 6)22/04/2006 1:18:47 PM Dificultades de los médicos para la realización de estudios clínico-epidemiológicos q q q q q q q q Hipótesis de trabajo Objetivos Diseño de estudio Selección de variables Definición de variables Escala de medida Protocolo de recogida de datos Selección de la muestra ¿Cuántos? ¿Quiénes? Recogida de datos Automatización de los datos Depuración de los datos Análisis Resultados Conclusiones r r q q q q q q Las dificultades que presentan los médicos para entender el lenguaje y/o metodología de los estadísticos y epidemiólogos radica fundamentalmente y entre otras razones en que ambos trabajan en escenarios diferentes. Los clínicos y los epidemiólogos/estadísticos deben de resolver problemas diferentes. El clínico trabaja con un paciente que conoce por nombre y apellidos, sabe sus antecedentes y hasta conoce a su familia, los estadísticos estudian a los pacientes de cien en cien o de mil en mil y siempre le dicen al clínico que tiene pocos pacientes. El clínico desea realizar un diagnóstico concreto a un paciente determinado y el estadístico le habla de curvas ROC, valores predictivos, sensibilidad, especificidad.... El clínico quiere concretar la causa de la enfermedad y el estadístico le calcula un OR (odds ratio) un RR (riesgo relativo), 95% intervalos de confianza y gradientes biológicos controlando eso sí por confusión con técnicas de regresión múltiple. El clínico desea conocer la mejor terapéutica y el estadístico le calcula reducciones relativas de riesgo, reducciones absolutas y número necesario de pacientes a tratar para prevenir un evento. El clínico desea conocer el pronóstico de un paciente determinado y el estadístico le habla de Kaplan-Meier, de asunción de riesgos proporcionales y de regresiones de Cox. Ambos abordan problemas en escenarios diferentes de los cuales ambos logran objetivos diferentes, el clínico se centra en el paciente y los estadísticos y epidemiólogos se centran en la enfermedad (6,7). A parte de los problemas estrictamente metodológicos los profesesionales sanitarios deben a su vez afrontar problemas en relación con la viabilidad y pertinencia de los diferentes estudios como se indican en la tabla 2. El disponer del tiempo, independientemente del conocimiento metodológico, es uno de los importantes problemas que todos los profesionales sanitarios acusan como muy importante. TABLA 2. Dificultades en relación a la viabilidad y pertinencia de un estudio. http://www.fisterra.com/mbe/investiga/2dificultades/2dificultades.htm (2 of 6)22/04/2006 1:18:47 PM Dificultades de los médicos para la realización de estudios clínico-epidemiológicos q Viabilidad Disponibilidad de tiempo Conocimiento metodológico r Disposición de grupos de apoyo metodológico, estadístico, informático r Disponibilidad de número de pacientes suficientes r Utilización de variables que puedan medirse y cuantificarse r Colaboración con otros profesionales, equipos o centros r Disponibilidad de recursos económicos r Consideraciones ético-legales r Experiencia del investigador Pertinencia r r r q r La pregunta planteada no ha sido contestada, lo ha sido de forma contradictoria o se requiere adecuarla a la propia práctica Importancia del problema: Frecuencia Gravedad s Interés social s Beneficios que pueden derivarse de los resultados s Importancia de su valor teórico Los resultados espereables compensan los recursos utilizados s s r Los problemas que presentas los clínicos para la ejecución de diferentes tipos de estudios clínico epidemiológicos no son solo puramente estadísticos como lo muestra el resultado de la evaluación de los 454 ensayos clínicos evaluados por el comité ético de ensayos clínicos de la Comunidad Autónoma de Galicia que siguiendo los procedimientos normalizados de trabajo se presentan en la tabla 3 (8). La causa más frecuente de valoración positiva condicional o negativa han sido los aspectos éticos entendiendo como tales y por orden de frecuencia: la información al paciente/consentimiento informado, póliza de seguros/indemnización, consideraciones éticas generales y contenidos del presupuesto económico. Los problemas de análisis estadístico figuran en último lugar. Es evidente que este hallazgo refleja la realidad de que el aspecto cuantitativo del ensayo este diseñado por grupos de expertos conocedores la metodología cuantitativa que la industria farmacéutica posee. TABLA 3. Dictamen final de todos los ensayos clínicos evaluados por el Comité Etico de investigación Clínica de Galicia (Octubre/1996 a Octubre/1999). N Procedentes Procedente condicionado No procedente Retirado Otros TOTAL Causas de valoración positiva condicional o negativa Aspectos éticos Investigador Principal (falta de firma del proyecto...) Selección de los pacientes Justificación y objetivos 49.1 % 8.4 % 8.3 % 6.8 % 337 61 43 12 1 454 % 74.2 13.4 9.5 2.6 0.2 100 http://www.fisterra.com/mbe/investiga/2dificultades/2dificultades.htm (3 of 6)22/04/2006 1:18:47 PM Dificultades de los médicos para la realización de estudios clínico-epidemiológicos Consideraciones prácticas Tipo de ensayo clínico y diseño del mismo Descripción del tratamiento Desarrollo del ensayo y evaluación de la respuesta Análisis estadístico Otras causas 5.6 % 5.6 % 3.6 % 3.4 % 2.4 % 6.8 % Los problemas estrictamente estadísticos de los ensayos clínicos han sido por otra parte señalados por Pocock (9) y se resumen en la tabla 4. Tabla 4. Problemas estadísticos de los ensayos clínicos q q q q q q q q q q q Múltiples "end points". Los resultados de objetivos secundarios deben presentarse como datos exploratorios. Si no hay suficiente poder estadístico los análisis de subgrupos deben evitarse. Los ensayos con medidas repetidas en el tiempo requieren un abordaje estadístico de análisis diferente y los test estadísticos repetidos en cada punto en el tiempo deben evitarse. En ensayos con más de dos tratamientos el tratamiento primario de contraste debe claramente indicarse y enfatizarse en el informe. Limitar el número de test estadísticos realizados. Poner el valor exacto de la p, indicar la magnitud del efecto del tratamiento y sus intervalos de confianza. El tamaño muestral y su justificación deben indicarse en el diseño. Los análisis y frecuencia de análisis intermedios a realizar deben estar claramente definidos. La decisión de parar el estudio debe basarse en criterios estadísticos claramente definidos e indicados en el diseño. El resumen mencionará la magnitud del efecto del tratamiento más que su significancia estadística. Una parte importante de la investigación que se realiza en el ámbito de la atención primaria en nuestro país se presenta en los congresos nacionales de Medicina Familiar y Comunitaria. En el año 1993 nosotros pusimos en marcha un sistema de evaluación de las comunicaciones que se presentan en los congresos nacionales de esta especialidad (10). Dicho sistema pretende identificar las causas de denegación de los trabajos que se rechazan considerando las normas de presentación, la originalidad, el interés y la metodología. En dicho año se aceptaron 358 comunicaciones (54.9%) de un total de 652, siendo las causas de exclusión las que se resumen en la tabla 5. En dicho análisis se objetivó que los problemas más frecuentemente detectados han sido la falta de originalidad, resúmenes mal estructurados que no aportaban elementos de valoración, conclusiones que no se derivaban del estudio y estudios no apropiados para alcanzar los objetivos del mismo. En las fases de una investigación clinico-epidemiológoica la colaboración del bioestadístico con los profesionales sanitarios consideramos que es de suma utilidad para activamente participar en apartados como: selección de la variable respuesta, definición de los criterios de selección de la población de estudio, elección de la técnica de selección de los sujetos, cálculo del número de sujetos necesarios, selección de las variables que deben ser medidas, estimación de la magnitud del efecto o respuesta observada, control de factores de confusión e interpretación de los resultados. Señalábamos inicialmente que los problemas que presentan los profesionales sanitarios http://www.fisterra.com/mbe/investiga/2dificultades/2dificultades.htm (4 of 6)22/04/2006 1:18:47 PM Dificultades de los médicos para la realización de estudios clínico-epidemiológicos para la ejecución de estudios clínico-epidemiológicos son múltiples y como hemos indicado no solo se limitan a problemas estrictamente metodológicos y estadísticos sino que se deben abordar además problemas éticos y problemas de originalidad entre otros. La estadística y el método epidemiológico consideramos que pretenden aportar más ciencia al arte de la medicina y es por ello que la colaboración de expertos en metodología, bioestadísticos y los clínicos deben conjuntamente colaborar para en un esfuerzo conjunto reducir la variabilidad que rodea al ejercicio de la medicina que es una ciencia de probabilidades y un arte de manejar la incertidumbre. TABLA 5. Causas de denegación de comunicaciones. XIII Congreso Nacional de Medicina Familiar y Comunitaria (9) Presentación n 17 % 5.8 No cumple las normas de aceptación Ilegible Tachaduras o erratas graves Abreviaturas no explicadas Originalidad 112 38.1 Tema reiteradamente expuesto Interés para la atención primaria 14 4.8 El tema de investigación no está, o lo está escasamente relacionado con la Atención Primaria Metodología 36 79 19 13 49 12 35 26 31 14 80 83 12.2 26.9 6.5 4.4 16.7 4.1 11.9 8.8 10.5 4.8 27.2 28.2 Objetivos mal definidos El tipo de estudio no es apropiado para alcanzar los objetivos del estudio Selección de muestra inadecuada Tamaño de muestra inadecuada Presencia de sesgos de selección información o confusión que invalidan el estudio La inferencia es incorrecta Resultados no cuantificados Análisis incorrecto del estudio Presentación inadecuada de resultados No hay conclusiones Las conclusiones no se derivan del estudio realizado o de los resultados obtenidos Trabajo invalorable pues no aporta elementos Bibliografía 1. Greenwood M. The statistician and medical research. BMJ 1948; 2:467-8. 2. Berwick DM, Fineberg HV, Weinstein MC. When doctors meet numbers. Am J Med 1981; 71:991-998. [Medline] 3. Laupacis A, Sackett DI, Roberts RS. An assesment of clinically useful measures of the consequences of treatment. N. Engl J Med 1988; 318: 1728-1733. [Medline] 4. Contandripoulos AP, Champagne F. Potvin L, Denis JL, Boyle P. Preparar un proyecto de investigación. Barcelona: SG Editores; 1991. 5. StephenB. Hulley, Steven R. Cummings. Diseño de la investigación clínica. Un http://www.fisterra.com/mbe/investiga/2dificultades/2dificultades.htm (5 of 6)22/04/2006 1:18:47 PM Dificultades de los médicos para la realización de estudios clínico-epidemiológicos enfoque epidemiológico. Barcelon. Doyma; 1993. 6. Jenicek M. Cléroux R. Epidemiología. Principios-Técnicas-Aplicaciones. Barcelona; Salvat; 1988. 7. Sackett DL, Haynes RB , Guyatt GH, Tugwell P. Epidemiología clínica. Ciencias básicas para la medicina clínica, 2ª ed. Madrid: Editorial Médica Panamericana; 1994. 8. Memoria. Comité Etico de investigación Clínica de Galicia 1996-1999. División de Farmacia e Productos Sanitarios. Santiago: Xunta de Galicia, Servicio Galego de Saude; 1999. 9. Pocock SJ. Hughes MD, Lee RJ. Statistical Problemas in the reporting of clinical trials. A survey of Three Meical Journals. N Eng J Med 1987; 317: 426-32. [Medline] 10. Pita Fernández S. Evaluación de comunicaciones del XIII Congreso de Medicina Familiar y Comunitaria (La Coruña). Aten Primaria 1994; 13: 150-152. [Medline] Arriba | Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/2dificultades/2dificultades.htm (6 of 6)22/04/2006 1:18:47 PM Dificultades de la Investigación en A.P. Guías Clínicas Ayuda en consulta Medicamentos Formación Biblioteca virtual Tienda Formación - MBE - Metodología de la Investigación Metodología de la Investigación Autores: Mapa Buscador Avanzado Dificultades de la investigación en Atención Primaria Salvador Pita Fernández , Sonia Pértega Díaz (1) Médico de Familia. Centro de Salud de Cambre (A Coruña). (2) Unidad de Epidemiología Clínica y Bioestadística. Complejo Hospitalario Juan Canalejo (A Coruña). Actualizada el 30/04/2005. Tabla de contenidos: Tablas (1) (2) Tabla 1. Dificultades para la investigación en Atención Primaria Tabla 2. Principales dificultades para la investigación en A.P. Tabla 3. Aspectos positivos para hacer investigación en A.P. Tabla 4. Condiciones para mejorar la investigación en A.P. Bibliografía Imprimir documento [145 Kb] ¿Problemas con PDF? ----------------------Figura 1. Nº de comunicaciones presentadas a Congresos nacionales semFYC Figura 2. Comunidades autónomas según su producción científica por 100.000 habitantes. Período 1990-1997. Figura 3. Comunidades autónomas según su producción científica por 100 facultativos. Período 1990-1997. Figuras La medicina es una ciencia de probabilidades y un arte de manejar la incertidumbre. Dicha incertidumbre invade la práctica clínica que realizamos diariamente cuando ponemos en marcha actividades preventivas, diagnósticas, terapéuticas y pronosticas. Es por ello que el buscar respuestas a dicha incertidumbre es una fuente inagotable de investigación. La atención sanitaria junto con la docencia y la investigación son a su vez actividades cotidianas en atención primaria. Inicialmente la investigación se producía en los ámbitos hospitalarios y universitarios considerándose la atención primaria como incapaz de realizar este tipo de actividad (1). Aunque se ha producido un incremento sustancial en el número de publicaciones en el ámbito de la atención primaria no se ha alcanzado el grado de desarrollo que le corresponde en relación con la importancia de la misma (2). Según el informe bibliométrico del Fondo de Investigaciones Sanitarias (3) la práctica totalidad de la producción científica reunida bajo el epígrafe "Centros Sanitarios" http://www.fisterra.com/mbe/investiga/difInvestAP/difInvesAP.asp (1 of 8)22/04/2006 1:18:55 PM Dificultades de la Investigación en A.P. proviene de la firma de centros hospitalarios. Los documentos citables provenientes de centros de asistencia primaria sólo constituyen el 0.4% del total de este sector institucional. Es evidente que existen dificultades importantes para la realización de investigación en nuestro ámbito de trabajo derivadas de la dispersión en el trabajo, el exceso de tareas a realizar, excesiva presión asistencial y por tanto falta de tiempo, falta de incentivos profesionales, falta de formación, falta de estructuras de apoyo y necesidad de favorecer la coordinación de las iniciativas investigadoras (Tabla 1) (4-6). Estas dificultades no solo las presentan los profesionales de nuestro país sino que también están presentes en profesionales de otros países como el Reino Unido donde un 92% identifica la falta de tiempo como barrera principal (7). La presión asistencial y la falta de tiempo son hallazgos por otro lado constantemente presentes para realizar actividades investigadoras en diferentes publicaciones y en diferentes países (8,9). Los identificados como principales motivos para la realización de investigación en atención primaria en nuestro país se muestran en la Tabla 2 (10, 11). La falta de tiempo secundaria a la enorme presión asistencial hace que la investigación en atención primaria aún teniendo conocimientos metodológicos sea una misión imposible. Tabla 1. Dificultades para la investigación en Atención Primaria. q q q q q q q q q Importante presión asistencial. Falta de tiempo. Falta de conocimiento metodológico. Dispersión en el trabajo. Falta de reconocimiento: r No figura dentro de los objetivos de gestión en Atención Primaria. r No valorada adecuadamente en los baremos. r No existe carrera profesional que la contemple. Falta de motivación. Falta de estructuras de apoyo. Dificultades de financiación. Escasa tradición investigadora. Tabla 2. Principales dificultades para la investigación en Atención Primaria. http://www.fisterra.com/mbe/investiga/difInvestAP/difInvesAP.asp (2 of 8)22/04/2006 1:18:55 PM Dificultades de la Investigación en A.P. Principales dificultades (10) q q q Falta de tiempo. Ausencia de motivación. Falta de formación y recursos. Estudios con técnicas multivariadas (11) identifican y asocian la investigación con: q q q La formación. El trabajo en unidades docentes. El trabajar en centros con mayor número de profesionales. A su vez han sido identificados la existencia de problemas metodológicos en los trabajos publicados por dichos profesionales como estudio de muestras de tamaño reducido, procedentes casi exclusivamente de la población demandante y insuficiente uso de técnicas de muestreo aleatorio (12). Independientemente del incremento de comunicaciones a los congresos nacionales de la SEMFYC (Figura 1) diferentes razones han sido identificadas para excluir trabajos en congresos nacionales por falta de originalidad, interés para la atención primaria o causas metodológicas (13). Figura 1. Número de comunicaciones presentadas a Congresos Nacionales semFYC http://www.fisterra.com/mbe/investiga/difInvestAP/difInvesAP.asp (3 of 8)22/04/2006 1:18:55 PM Dificultades de la Investigación en A.P. A pesar de las dificultades existentes y del reducido porcentaje relativo de la producción científica respecto a otros ámbitos, la producción científica en la atención primaria experimenta un incremento progresivo. En el período 19901997 se produjo un incremento de la producción científica de los profesionales de atención primaria ,a juzgar por los artículos recuperables por MEDLINE. Dicho incremento alcanza el 73.7% de los artículos publicados en la revista Atención Primaria, el 22.6% en otras revistas nacionales y el 3.7% en revistas extranjeras (14). Por otra parte existen a su vez desigualdades en la producción científica en el ámbito de la atención primaria en diferentes autonomías como se objetiva en la Figura 2 y figura 3 (14). En atención primaria como en otros ámbitos asistenciales hay falta de evidencias y dado que la atención medica de calidad debe basarse en el conocimiento la investigación es irrenunciable (15). Hemos además de tener en consideración que la atención primaria tiene unas características propias que la identifican como son, la atención continua a los pacientes y que por tanto nos permite tener una visión muy precisa de la historia natural de la enfermedad. A su vez la accesibilidad que por una lado sobrecarga o puede sobrecargar nuestra labor asistencial nos permite tener acceso a una población que de otra forma no sería tan accesible. La incertidumbre en la práctica clínica es por otro lado una constante y el conocerla, delimitarla y reducirla a la mínima expresión posible es un reto de nuestra actividad (Tabla 3). Tabla 3. Aspectos positivos para realizar investigación en Atención Primaria. q q q q q q q q q La Atención Primaria dispone de un campo específico de conocimientos. Se atienden estadios más precoces de la enfermedad que en otros ámbitos especializados. Se puede investigar en salud. Existe una relación continua con los pacientes. Situación de privilegio para el estudio natural de la enfermedad. Mayor facilidad de acceso a la población. En Atención Primaria es donde se atienden las patologías más prevalentes. Existe inquietud entre los profesionales. Existe incertidumbre: r ¿Se puede evitar la aparición de la enfermedad? r ¿La detección precoz mejora el pronóstico? http://www.fisterra.com/mbe/investiga/difInvestAP/difInvesAP.asp (4 of 8)22/04/2006 1:18:55 PM Dificultades de la Investigación en A.P. q ¿Cuál es el diagnóstico? r ¿Qué prueba diagnóstica debería pedir? r ¿Qué tratamiento es el mejor para el paciente? r ¿Cómo será la evolución tras el tratamiento? Existe gran variabilidad en la práctica clínica entre los profesionales que debe ser investigada. r A pesar de las dificultades que hacen que hacen aún teniendo conocimientos metodológicos, el realizar investigación en atención primaria sea una misión imposible, como previamente hemos señalado, no quiero terminar dando un mensaje de pesimismo ya que entre otras razones los profesionales sanitarios debemos ser dispensadores de esperanza. Es posible realizar investigación en atención primaria pues la evidencia científica y la producción científica en otras autonomías y en otros países así lo han demostrado. Para ello hay que establecer las condiciones mínimas que realmente lo permitan como son que las Gerencias crean en ella, que forme parte de sus objetivos, que pongan los recursos necesarios para su realización y que se incentive a los profesionales (Tabla 4). Tabla 4. Condiciones para mejorar la investigación en Atención Primaria q q q q q q q q q q Debe formar parte de los objetivos de gestión en Atención Primaria. Establecer por parte de la Administración líneas prioritarias de investigación. Potenciación de las actividades científicas. Promover la existencia de grupos multicéntricos. Incentivar a los profesionales de Atención primaria: r Profesionalmente. r Formativamente. r Económicamente. Formación en Metodología de la investigación. Apoyo estadístico y metodológico a grupos de investigadores. Proporcionar tiempo dentro de la jornada laboral para realizar dicha actividad. Evaluar la producción científica de los profesionales. Introducción de la Atención Primaria/Medicina de Familia como área de conocimiento en la http://www.fisterra.com/mbe/investiga/difInvestAP/difInvesAP.asp (5 of 8)22/04/2006 1:18:55 PM Dificultades de la Investigación en A.P. q Universidad. Creación de departamentos de Medicina de Familia en la Universidad. La finalidad de la investigación en medicina debe ser el análisis del proceso de enfermar y como enfrentarse a él. Por tanto es primordial enfocar la investigación hacia la eficacia clínica. Las sociedades científicas, las unidades docentes, las unidades de investigación, las redes de investigación, los departamentos universitarios deben procurar estructuras organizativas diferenciadas que favorezcan la obtención de recursos para seguir potenciando la investigación y por tanto permitan el ejercicio de la medicina y de la práctica clínica basada en el conocimiento. Dicha actividad no solo proporcionará una atención médica de calidad a los pacientes objetivo principal de nuestro trabajo sino que será un incentivo de satisfacción profesional para los que la ejecuten. Figura 2. Comunidades autónomas según su producción científica por 100.000 habitantes. Período 1990-1997. Figura 3. Comunidades autónomas según su producción científica por 100 facultativos. Período 1990-1997. http://www.fisterra.com/mbe/investiga/difInvestAP/difInvesAP.asp (6 of 8)22/04/2006 1:18:55 PM Dificultades de la Investigación en A.P. Bibliografía 1. Martín Zurro A. Investigación en atención primaria. En: Argimón Pallás JM, Jiménez Villa J, eds. Métodos de investigación aplicados a la atención primaria de salud. Barcelona: Doyma, 1991. 2. Jiménez Villa J. Investigación y atención primaria. Aten primaria 1999; 23 [Supl. 1]: 66-70. [Medline] 3. Camí J, Suñen E, Carbó JM, Coma L. Producción Científica Española en Biomedicina y Ciencias de la Salud (1994-2000). [Internet]. Informe del Instituto de Salud Carlos III-Fondo de Investigación Sanitaria. [Acceso 20 de Abril de 2005]. Disponible en: http://www.isciii.es/sgis/mapa 4. Fernández Fernández I. ¿Investigación en atención primaria? Aten Primaria 2003; 31(5): 281-4. [Medline] [Texto completo] 5. Vega Cubillo E, García Sánchez JA, García Ortega P, Carvajal A. La investigación en atención primaria debe ser potenciada. Aten Primaria 2002; 30(3): 97. [Medline] [Texto completo] 6. de la Fuente JA, Mercader J, Borrell C, Martín C, Birules M, Marcos L, Fernández de Sanmamed MJ. Factores relacionados con la actividad investigadora de los médicos de atención primaria. Aten Primaria. 1997; 19(6): 283-9. [Medline] [Texto completo] 7. Jowett SM, Macleod J, Wilson S, Hobbs FD. Research in primary care: extent of involvement and perceived determinants among practitioners http://www.fisterra.com/mbe/investiga/difInvestAP/difInvesAP.asp (7 of 8)22/04/2006 1:18:55 PM Dificultades de la Investigación en A.P. 8. 9. 10. 11. 12. 13. 14. 15. from one English region. Br J Gen Pract. 2000; 50(454): 387-9. [Medline] Falk WA.Research in general practice. Can Med Assoc J. 1979; 120(10): 1198-200. [Medline] Culpepper L, Franks P. Family medicine research. Status at the end of the first decade. JAMA. 1983; 249(1): 63-8. Llovera Canaves J. Reflexionando sobre los obstáculos en la investigación de atención primaria. Opinión de los investigadores. En: Documentos de trabajo sobre investigación en Atención Primaria. FIS; 1996. Fernández de Sanmamed MJ, De la Fuente JA, Mercader J, Borrel C, Martín C, Birulés M, Marcos L. Factores relacionados con la actividad investigadora de los médicos de atención primaria. Aten Primaria 1997; 19: 283-289. [Medline] [Texto completo] López Fernández LA, Martínez Millán JI, García Calvente MM, March Cerdá JC. La investigación en atención primaria en España. Revisiones en Salud Pública 1993;.3:.135-154. Pita Fernández S. Evaluación de las comunicaciones del XIII Congreso de Medicina Familiar y Comunitaria (La Coruña). Aten Primaria 1994; 13 (3): 150-2. [Medline] Simo Miñana J, Gaztambide Ganuza M, Latour Pérez J. Producción científica de los profesionales españoles de atención primaria (19901997). Un análisis bibliométrico a partir de MEDLINE. Aten Primaria 1999; 23 [Supl. 1]: 14-28. [Medline] Gómez de la Cámara A. La investigación en atención primaria. El ensayo clínico y los estudios observacionales de productos farmacéuticos. Aten Primaria 1999; 24: 431-435. [Medline] [Texto completo] Arriba © 2006 fisterra.com Mis Datos | Contacto-Sugerencias | FAQ's | Condiciones de uso | Política de privacidad http://www.fisterra.com/mbe/investiga/difInvestAP/difInvesAP.asp (8 of 8)22/04/2006 1:18:55 PM Medidas de frecuencia de enfermedad: incidencia y prevalencia Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 20/04/04 Medidas de frecuencia de enfermedad Pita Fernández S (1) [ Correo de contacto ], Pértegas Díaz S (1), Valdés Cañedo F (2) (1) Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario-Universitario Juan Canalejo. A Coruña (España). (2) Servicio de nefrología. Complexo Hospitalario-Universitario Juan Canalejo. A Coruña (España). La epidemiología tiene entre uno de sus objetivos primordiales el estudio de la distribución y los determinantes de las diferentes enfermedades. La cuantificación y la medida de la enfermedad o de otras variables de interés son elementos fundamentales para formular y testar hipótesis, así como para permitir comparar las frecuencias de enfermedad entre diferentes poblaciones o entre personas con o sin una exposición o característica dentro de una población determinada. La medida más elemental de frecuencia de una enfermedad, o de cualquier otro evento en general, es el número de personas que la padecen o lo presentan (por ejemplo, el número de pacientes con hipertensión arterial, el número de fallecidos por accidentes de tráfico o el número de pacientes con algún tipo de cáncer en los que se ha registrado una recidiva). Sin embargo, dicha medida por sí sola carece de utilidad para determinar la importancia de un problema de salud determinado, pues debe referirse siempre al tamaño de la población de donde provienen los casos y al periodo de tiempo en el cual estos fueron identificados. Para este propósito, en epidemiología suele trabajarse con diferentes tipos de fracciones que permiten cuantificar correctamente el impacto de una determinada enfermedad: a. Proporción: es un cociente en el que el numerador está incluido en el denominador. Por ejemplo, si en una población de 25.000 habitantes se diagnostican 1.500 pacientes con diabetes, la proporción de diabetes en esa población es de 1.500/25.000 = 0.06 (6%). El valor de una proporción puede variar así de 0 a 1, y suele expresarse como un porcentaje. b. Razón: En este cociente el numerador no forma parte del denominador. En el ejemplo anterior, la razón entre la población con diabetes y la población no diabética es de 1.500/23.500 = 3/47 =0,064. Cuando, como en el caso del ejemplo, la razón se calcula entre la probabilidad de que ocurra un evento y la probabilidad de que éste no ocurra, la razón recibe también el nombre de odds. En el ejemplo, la odds de diabetes es de 0,06, es decir, en el área de estudio por cada 1/0,064 = 16,7 pacientes no diabéticos hay 1 que sí lo es. El valor de una odds puede ir de 0 a infinito. El valor 0 corresponde al caso en que la enfermedad nunca ocurre, mientras que el valor infinito correspondería teóricamente a una enfermedad que esté siempre presente. En realidad, una proporción y una odds miden el mismo evento pero en escalas diferentes, y pueden relacionarse mediante las Contenido Proporción Razón - Tasa Prevalencia - Prevalencia de periodo Incidencia - Incidencia acumulada - Tasa de incidencia (densidad de incidencia) Relación entre incidencia y prevalencia Bibliografía Tablas y Figuras Figura 1. Documento en PDF (52 Kb) ¿Problemas con PDF? http://www.fisterra.com/mbe/investiga/medidas_frecuencia/med_frec.htm (1 of 8)22/04/2006 1:19:08 PM Medidas de frecuencia de enfermedad: incidencia y prevalencia fórmulas siguientes: c. Tasa: El concepto de tasa es similar al de una proporción, con la diferencia de que las tasas llevan incorporado el concepto de tiempo. El numerador lo constituye la frecuencia absoluta de casos del problema a estudiar. A su vez, el denominador está constituido por la suma de los períodos individuales de riesgo a los que han estado expuestos los sujetos susceptibles de la población a estudio. De su cálculo se desprende la velocidad con que se produce el cambio de una situación clínica a otra. En epidemiología, las medidas de frecuencia de enfermedad más comúnmente utilizadas se engloban en dos categorías Prevalencia La prevalencia (P) cuantifica la proporción de individuos de una población que padecen una enfermedad en un momento o periodo de tiempo determinado. Su cálculo se estima mediante la expresión: 7 1-6 : Prevalencia e Incidencia. Para ilustrar su cálculo, consideremos el siguiente ejemplo: en una muestra de 270 habitantes aleatoriamente seleccionada de una población de 65 y más años se objetivó que 111 presentaban obesidad (IMC≥30). En este caso, la prevalencia de obesidad en ese grupo de edad y en esa población sería de: Como todas las proporciones, la prevalencia no tiene dimensión y nunca toma valores menores de 0 ó mayores de 1, siendo frecuente expresarla en términos de porcentaje, en tanto por ciento, tanto por mil,... en función de la “rareza” de la enfermedad estudiada. La prevalencia de un problema de salud en una comunidad determinada suele estimarse a partir de estudios transversales para determinar su importancia en un momento concreto, y no con fines predictivos. Además, es evidente que el cálculo de la prevalencia será especialmente apropiado para la medición de procesos de carácter prolongado, pero no tendrá mucho sentido para valorar la importancia de otros fenómenos de carácter más momentáneo (accidentes de tráfico, apendicitis, infarto de miocardio,...). Otra medida de prevalencia utilizada en epidemiología, aunque no con tanta frecuencia, es la llamada prevalencia de periodo, calculada como la proporción de personas que http://www.fisterra.com/mbe/investiga/medidas_frecuencia/med_frec.htm (2 of 8)22/04/2006 1:19:08 PM Medidas de frecuencia de enfermedad: incidencia y prevalencia han presentado la enfermedad en algún momento a lo largo de un periodo de tiempo determinado (por ejemplo, la prevalencia de cáncer en España en los últimos 5 años). El principal problema que plantea el cálculo de este índice es que la población total a la que se refiere puede haber cambiado durante el periodo de estudio. Normalmente, la población que se toma como denominador corresponde al punto medio del periodo considerado. Un caso especial de esta prevalencia de periodo, pero que presenta importantes dificultades para su cálculo, es la llamada prevalencia de vida, que trata de estimar la probabilidad de que un individuo desarrolle una enfermedad en algún momento a lo largo de su existencia. Incidencia La incidencia se define como el número de casos nuevos de una enfermedad que se desarrollan en una población durante un período de tiempo determinado. Hay dos tipos de medidas de incidencia: la incidencia acumulada y la tasa de incidencia, también denominada densidad de incidencia. La incidencia acumulada ( IA) es la proporción de individuos sanos que desarrollan la enfermedad a lo largo de un período de tiempo concreto. Se calcula según: 8 La incidencia acumulada proporciona una estimación de la probabilidad o el riesgo de que un individuo libre de una determinada enfermedad la desarrolle durante un período especificado de tiempo. Como cualquier proporción, suele venir dada en términos de porcentaje. Además, al no ser una tasa, es imprescindible que se acompañe del periodo de observación para poder ser interpretada. Por ejemplo: Durante un período de 6 años se siguió a 431 varones entre 40 y 59 años sanos, con colesterol sérico normal y tensión arterial normal, para detectar la presencia de cardiopatía isquémica, registrándose al final del período l0 casos de cardiopatía isquémica. La incidencia acumulada en este caso sería: en seis años La incidencia acumulada asume que la población entera a riesgo al principio del estudio ha sido seguida durante todo un período de tiempo determinado para observar si se desarrollaba la enfermedad objeto del estudio. Sin embargo, en la realidad lo que sucede es que: a. Las personas objeto de la investigación entran en el estudio en diferentes momentos en el tiempo. b. El seguimiento de dichos sujetos objeto de la investigación no es uniforme ya que de algunos no se obtiene toda la información. http://www.fisterra.com/mbe/investiga/medidas_frecuencia/med_frec.htm (3 of 8)22/04/2006 1:19:08 PM Medidas de frecuencia de enfermedad: incidencia y prevalencia c. Por otra parte, algunos pacientes abandonan el estudio y sólo proporcionan un seguimiento limitado a un período corto de tiempo. Para poder tener en consideración estas variaciones de seguimiento existentes en el tiempo, una primera aproximación sería limitar el cálculo de la incidencia acumulada al período de tiempo durante el cual la población entera proporcionase información. Esto de todos modos haría que perdiésemos información adicional del seguimiento disponible en alguna de las personas incluidas. La estimación más precisa es la que utiliza toda la información disponible es la denominada tasa de incidencia o densidad de incidencia (DI). Se calcula como el cociente entre el número de casos nuevos de una enfermedad ocurridos durante el periodo de seguimiento y la suma de todos los tiempos individuales de observación: El total de personas-tiempo de observación (suma de los tiempos individuales de observación) es la suma de los períodos de tiempo en riesgo de contraer la enfermedad correspondiente a cada uno de los individuos de la población. La suma de los períodos de tiempo del denominador se mide preferentemente en años y se conoce como tiempo en riesgo. El tiempo en riesgo para cada individuo objeto de estudio es el tiempo durante el cual permanece en la población de estudio y se encuentra libre de la enfermedad, y por lo tanto en riesgo de contraerla. La densidad de incidencia no es por lo tanto una proporción, sino una tasa, ya que el denominador incorpora la dimensión tiempo. Su valor no puede ser inferior a cero pero no tiene límite superior. Para ilustrar su cálculo consideremos el siguiente ejemplo: En un estudio de seguimiento durante 20 años de tratamiento hormonal en 8 mujeres postmenopáusicas se observó que se presentaron 3 casos de enfermedad coronaria. Con estos datos, la incidencia acumulada sería de un 3/8 = 0,375 ⇒ 37,5% durante los 20 años de seguimiento. Sin embargo, tal y como se muestra en la Figura 1, el tiempo de seguimiento no es el mismo para todas las pacientes. Mientras que, por ejemplo, la paciente A ha sido observada durante todo el periodo, la paciente D ha comenzado el tratamiento más tarde, una vez comenzada la investigación, y ha sido seguida sólo durante 15 años. En otros casos, como la paciente C, han abandonado el tratamiento antes de finalizar el estudio sin presentar ninguna afección coronaria. En total se obtienen 84 personas-año de observación. La tasa de incidencia resultó por tanto ser igual a: personas por año Esto es, la densidad de incidencia de enfermedad coronaria en esa población es de 3,6 nuevos casos por cada 100 personas-año de seguimiento. La elección de una de las medidas de incidencia (incidencia acumulada o densidad de http://www.fisterra.com/mbe/investiga/medidas_frecuencia/med_frec.htm (4 of 8)22/04/2006 1:19:08 PM Medidas de frecuencia de enfermedad: incidencia y prevalencia incidencia) dependerá, además del objetivo que se persiga, de las características de la enfermedad que se pretende estudiar. Así, la incidencia acumulada se utilizará generalmente cuando la enfermedad tenga un periodo de latencia corto, recurriéndose a la densidad de incidencia en el caso de enfermedades crónicas y con un periodo de latencia mayor. En cualquier caso, debe tenerse en cuenta que la utilización de la densidad de incidencia como medida de frecuencia de una enfermedad está sujeta a las siguientes condiciones: a. El riesgo de contraer la enfermedad es constante durante todo el periodo de seguimiento. Si esto no se cumple y, por ejemplo, se estudia una enfermedad con un periodo de incubación muy largo, el periodo de observación debe dividirse en varios subperiodos. b. La tasa de incidencia entre los casos que completan o no el seguimiento es similar. En caso contrario se obtendría un resultado sesgado. c. El denominador es adecuado a la historia de la enfermedad. Además, en el cálculo de cualquier medida de incidencia han de tenerse en consideración otros aspectos. En primer lugar, no deben incluirse en el denominador casos prevalentes o sujetos que no estén en condiciones de padecer la enfermedad a estudio. El denominador sólo debe incluir a aquellas personas en riesgo de contraer la enfermedad (por ejemplo, la incidencia de cáncer de próstata deberá calcularse en relación a la población masculina en una comunidad y no sobre la población total), aunque también es cierto que en problemas poco frecuentes la inclusión de casos prevalentes no cambiará mucho el resultado. En segundo lugar, además, es importante aclarar, cuando la enfermedad pueda ser recurrente, si el numerador se refiere a casos nuevos o a episodios de una misma patología. Relación entre incidencia y prevalencia Prevalencia e incidencia son conceptos a su vez muy relacionados. La prevalencia depende de la incidencia y de la duración de la enfermedad. Si la incidencia de una enfermedad es baja pero los afectados tienen la enfermedad durante un largo período de tiempo, la proporción de la población que tenga la enfermedad en un momento dado puede ser alta en relación con su incidencia. Inversamente, si la incidencia es alta y la duración es corta, ya sea porque se recuperan pronto o fallecen, la prevalencia puede ser baja en relación a la incidencia de dicha patología. Por lo tanto, los cambios de prevalencia de un momento a otro pueden ser resultado de cambios en la incidencia, cambios en la duración de la enfermedad o ambos. Esta relación entre incidencia y prevalencia puede expresarse matemáticamente de un modo bastante sencillo . Si se asume que las circunstancias de la población son estables, entendiendo por estable que la incidencia de la enfermedad haya permanecido constante a lo largo del tiempo, así como su duración, entonces la prevalencia tampoco variará. Así, si el número de casos prevalentes no cambia, el número de casos nuevos de la enfermedad ha de compensar a aquellos individuos que dejan de padecerla: Nº de casos nuevos de la enfermedad = Nº de casos que se curan o fallecen (1) 4,7,9 http://www.fisterra.com/mbe/investiga/medidas_frecuencia/med_frec.htm (5 of 8)22/04/2006 1:19:08 PM Medidas de frecuencia de enfermedad: incidencia y prevalencia Si se denota por N al total de la población y E al número de enfermos en la misma, N-E será el total de sujetos sanos en esa población. Durante un periodo de tiempo t, el número de gente que contrae la enfermedad viene dado entonces por: (2) donde DI denota a la densidad de incidencia. Por otro lado, el número de enfermos que se curan o fallecen en ese periodo puede calcularse como: (3) donde D es la duración media de la enfermedad objeto de estudio. Combinando (2) y (3) en (1) se obtiene que: (4) El cociente E/N-E es el cociente entre los individuos enfermos y los no enfermos, o equivalentemente, entre la prevalencia y su complementario, P/1-P (lo que habíamos denominado odds), de modo que la expresión (4) puede escribirse equivalentemente como: (5) En el caso además en el que la prevalencia de la enfermedad en la población sea baja, la cantidad 1 - P es aproximadamente igual a 1 y la expresión (5) quedaría finalmente: (6) Es decir, si se asume que las circunstancias de la población son estables y la enfermedad es poco frecunente, la prevalencia es proporcional al producto de la densidad de incidencia (DI) y el promedio de duración de la enfermedad (D). De las consideraciones anteriores se deduce que la prevalencia carece de utilidad para confirmar hipótesis etiológicas, por lo que resulta más adecuado trabajar con casos incidentes. Los estudios de prevalencia pueden obtener asociaciones que reflejen los determinantes de la supervivencia y no las causas de la misma, conduciendo a conclusiones erróneas. No obstante, su relación con la incidencia permite que en ocasiones pueda utilizarse como una buena aproximación del riesgo para evaluar la asociación entre las causas y la enfermedad. También es cierto que en otras aplicaciones distintas a la investigación etiológica, como en la planificación de recursos o las http://www.fisterra.com/mbe/investiga/medidas_frecuencia/med_frec.htm (6 of 8)22/04/2006 1:19:08 PM Medidas de frecuencia de enfermedad: incidencia y prevalencia prestaciones sanitarias, la prevalencia puede ser una mejor medida que la incidencia ya que nos permite conocer la magnitud global del problema. Bibliografía 1. Kark SL. Epidemiology and community medicine. Nueva York: Appleton-Century-Crofts; 1975. p.19-21. 2. Kleimbaum D, Kupper I, Morgenstern H. Epidemiologic Research. Belmont: Lifetime Learning Publications; 1982. 3. Mausner J, Kramer S. Epidemiology: an introductory text. 2ª ed. Filadelfia: WB Saunders Company; 1985. 4. Rothman KJ. Modern Epidemiology. Boston: Little, Brown & Co; 1986. 5. Colimón KM. Fundamentos de epidemiología. 2ª ed. Madrid: Díaz de Santos; 1990. 6. Argimón Pallás JM, Jiménez Villa J. Métodos de Investigación Clínica y Epidemiológica. 2ª ed. Madrid: Harcourt; 2000. 7. Tapia Granados JA. Medidas de prevalencia y relación incidencia-prevalencia. Med Clin (Barc) 1995; 105: 216-218. [Medline] 8. Tapia Granados JA. Incidencia: concepto, terminología y análisis dimensional. Med Clin (Barc) 1994; 103: 140-142. [Medline] 9. Freeman J, Hutchinson GB. Prevalence, incidente and duration. Am J Epidemiol 1980; 112: 707-723. [Medline] Figura 1. Ejemplo de cálculo de la densidad de incidencia: estudio de seguimiento de una cohorte de mujeres postmenopáusicas con tratamiento hormonal. http://www.fisterra.com/mbe/investiga/medidas_frecuencia/med_frec.htm (7 of 8)22/04/2006 1:19:08 PM Medidas de frecuencia de enfermedad: incidencia y prevalencia Paciente A B C D E F G H Seguimiento (años) 20 10 15 15 4 6 7 7 Enfermedad coronaria No Sí No No Sí No No Sí Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/medidas_frecuencia/med_frec.htm (8 of 8)22/04/2006 1:19:08 PM Cálculo de probabilidades: nociones básicas Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 28/06/04 Cálculo de probabilidades: nociones básicas Pértegas Díaz S (1), Pita Fernández S (1) [ Correo de contacto ], (1) Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario-Universitario Juan Canalejo. A Coruña (España). La estadística, junto con la epidemiología, es un instrumento indispensable en el proceso de investigación en medicina. Formalmente, se puede clasificar la estadística en descriptiva, cuando se utiliza simplemente para la presentación y síntesis de la información recogida en un estudio, e inferencial, que tiene por objetivo generalizar la información obtenida en una muestra a resultados válidos para la población de la que procede . Supongamos, por ejemplo, que nos interesa comparar dos fármacos A y B y determinar cuál de ellos es más eficaz para el tratamiento de una determinada enfermedad. Para ello, se diseña un estudio distribuyendo 100 enfermos en dos grupos, cada uno de los cuales recibe uno de los dos tratamientos. Al cabo de 1 mes, la tasa de curación en cada grupo es del 80% y del 70%, respectivamente. Ante esta información, ¿es correcto suponer que el tratamiento A es mejor que el tratamiento B para esta enfermedad en concreto? La respuesta a esta pregunta, como a la mayor parte de problemas que pueden plantearse en medicina, está sujeta a un cierto grado de incertidumbre que hacen muy complicado tomar una decisión al respecto. En la respuesta de un paciente al tratamiento pueden influir diversos factores, entre los que se incluye el azar, que pueden provocar una gran variabilidad en los resultados. La aplicación de los principios de la estadística a la clínica permite reducir y cuantificar dicha variabilidad y ayudar a la toma de decisiones. En particular, el cálculo de probabilidades suministra las reglas apropiadas para cuantificar esa incertidumbre y constituye la base para la estadística inductiva o inferencial. 1 Contenido El concepto de probabilidad Probabilidades condicionadas Teorema de las Probabilidades totales Teorema de Bayes Bibliografía Tablas y Figuras Tabla 1. Asociación entre el hábito tabáquico y el desarrollo de una enfermedad. Documento en PDF (56 Kb) ¿Problemas con PDF? El objetivo de este trabajo consiste en introducir algunos de los conceptos básicos del cálculo de probabilidades, así como las reglas necesarias para el desarrollo de la inferencia estadística en medicina. Una exposición más detallada de estos y otros conceptos puede encontrarse en referencias más especializadas 2-8 . El concepto de probabilidad resulta familiar a cualquier profesional del ámbito sanitario, pero una definición más precisa exige considerar la naturaleza matemática de dicho concepto. La probabilidad de ocurrencia de un determinado suceso podría definirse como la proporción de veces que ocurriría dicho suceso si se repitiese un experimento o una observación en un número grande de ocasiones bajo condiciones similares. Por definición, entonces, la probabilidad se mide por un número entre cero y uno: si un suceso no ocurre nunca, su probabilidad asociada es cero, mientras que si ocurriese siempre su probabilidad sería igual a uno. Así, las probabilidades suelen venir expresadas como decimales, fracciones o porcentajes. La definición anterior de probabilidad corresponde a la conocida como definición frecuentista. Existe otra descripción más formal desde el punto teórico que permite definir el concepto de probabilidad mediante la verificación de ciertos axiomas a partir de los que se deducen todas http://www.fisterra.com/mbe/investiga/probabilidades/probabilidades.htm (1 of 7)22/04/2006 1:19:20 PM Cálculo de probabilidades: nociones básicas las demás propiedades del cálculo de probabilidades . En otros contextos, se ha defendido una interpretación más amplia del concepto de probabilidad que incluye las que podemos denominar probabilidades subjetivas o personales, mediante las cuales se expresa el grado de confianza o experiencia en una proposición. Esta definición constituye la base de los llamados métodos bayesianos, que se presentan como alternativa a la estadística tradicional centrada en el contraste de hipótesis . No obstante, y en relación con el propósito de este trabajo, bastará con considerar la definición frecuentista anterior. Así, a partir de una población con N elementos, de los cuales k presentan una característica A, se estimará la probabilidad de la característica A como P(A) = k/N. Así, por ejemplo, en una población de 100 pacientes, 5 de los cuales son diabéticos, la probabilidad de padecer diabetes p(Diabetes) se estimará como el cocient:e 5/100= 0.5. Es conveniente conocer algunas de las propiedades básicas del cálculo de probabilidades: q 2 9-11 Para un suceso A, la probabilidad de que suceda su complementario (o equivalentemente, de que no suceda A) es igual a uno menos la probabilidad de A: donde q denota al suceso contrario o suceso complementario de A. Si un fenómeno determinado tiene dos posibles resultados A y B mutuamente excluyentes (es decir, que no pueden darse de forma simultánea, como ocurre en el lanzamiento de una moneda al aire), la probabilidad de que una de esas dos posibilidades ocurra se calcula como la suma de las dos probabilidades individuales: (1) La extensión de la ley aditiva anterior al caso de más de dos sucesos mutuamente excluyentes A, B, C... indica que: Consideremos, como ejemplo, un servicio de urología en el que el 38,2% de los pacientes a los que se les practica una biopsia prostática presentan una hiperplasia benigna (HB), el 18,2% prostatitis (PR) y en un 43,6% el diagnóstico es de cáncer (C). La probabilidad de que en un paciente que se somete a una biopsia de próstata no se confirme el diagnóstico de cáncer prostático será igual a: Es decir, en un 56,4% de los casos se logra descartar un diagnóstico maligno. De modo equivalente, la probabilidad anterior podría haberse calculado como la probabilidad del suceso contrario al del diagnóstico de cáncer: http://www.fisterra.com/mbe/investiga/probabilidades/probabilidades.htm (2 of 7)22/04/2006 1:19:21 PM Cálculo de probabilidades: nociones básicas Nótese la importancia del hecho de que los sucesos anteriores sean mutuamente excluyentes. Sin esta condición, la ley de adición no será válida. Por ejemplo, se sabe que en una determinada Unidad de Cuidados Intensivos (UCI) el 6,9% de los pacientes que ingresan lo hacen con una infección adquirida en el exterior, mientras que el 13,7% adquieren una infección durante su estancia en el hospital. Se conoce además que el 1,5% de los enfermos ingresados en dicha unidad presentan una infección de ambos tipos. ¿Cuál será entonces la probabilidad de que un determinado paciente presente una infección de cualquier tipo en UCI? Para realizar el cálculo, si se suman simplemente las probabilidades individuales (0,069 +0,137) la probabilidad de un suceso doble (infección comunitaria y nosocomial) se estará evaluando dos veces, la primera como parte de la probabilidad de padecer una infección comunitaria y la segunda como parte de la probabilidad de adquirir una infección en la UCI. Para obtener la respuesta correcta se debe restar la probabilidad del doble suceso. Así: q Si un fenómeno determinado tiene dos posibles resultados A y B, la probabilidad de que una de esas dos posibilidades ocurra viene dada, en general, por la expresión: Por lo tanto, si dos o más sucesos no son mutuamente excluyentes, la probabilidad de que ocurra uno de ellos o ambos se calcula sumando las probabilidades individuales de que ocurra una de esas circunstancia, pero restando la probabilidad de que ocurra la común. Resulta evidente que, para el caso de procesos mutuamente excluyentes, obtiene (1). y se En el ejemplo anterior, la probabilidad de infección en UCI vendrá dada, por lo tanto, como: Es decir, 19 de cada 100 enfermos registrará alguna infección (ya sea de tipo comunitario o nosocomial) durante su ingreso en la citada unidad. A veces, la probabilidad de que un determinado suceso tenga lugar depende de que otro suceso se haya producido o no con anterioridad. Esto es, en ocasiones el hecho de que se produzca un determinado fenómeno puede hacer más o menos probable la aparición de otro. Este tipo de probabilidades se denominan probabilidades condicionadas, y se denotará por a la probabilidad condicionada del suceso A suponiendo que el suceso B haya ocurrido ya. q La ley multiplicativa de probabilidades indica que la probabilidad de que dos sucesos A y B ocurran simultáneamente es igual a: (3) La ley multiplicativa anterior se utiliza también con el fin de determinar una probabilidad condicional a partir de los valores de y : http://www.fisterra.com/mbe/investiga/probabilidades/probabilidades.htm (3 of 7)22/04/2006 1:19:21 PM Cálculo de probabilidades: nociones básicas (4) Supongamos, por ejemplo, que queremos estudiar la incidencia del hecho de ser fumador como factor de riesgo en el desarrollo de una enfermedad en una determinada población. Para ello se diseñó un estudio prospectivo y, tras seleccionar una muestra de 180 sujetos, los resultados son los que se muestran en la Tabla 1. Considerando toda la muestra, la probabilidad de desarrollar la enfermedad (E) en la población de estudio es: Mientras que la probabilidad de padecer la enfermedad un fumador (F) es: Y un no fumador: Teniendo en cuenta que: Podría haberse aplicado la fórmula (4) para obtener cualquiera de las dos probabilidades condicionadas anteriores, resultando idénticos valores: En el ejemplo, se constata por lo tanto que la incidencia de la enfermedad es diferente en la población fumadora que en la no fumadora (85,7% vs 18,2%). Así pues, la probabilidad de desarrollar la enfermedad depende de si se es o no fumador. En otras ocasiones, sin embargo, sucede que la ocurrencia o no de un determinado fenómeno B no influye en la ocurrencia de otro suceso A. Se dice entonces que los sucesos A y B son independientes y se verificará que: (5) Sustituyendo (5) en (3) se obtiene entonces que: http://www.fisterra.com/mbe/investiga/probabilidades/probabilidades.htm (4 of 7)22/04/2006 1:19:21 PM Cálculo de probabilidades: nociones básicas Es decir, en caso de independencia, la probabilidad de que ocurran dos sucesos de forma simultánea es igual al producto de las probabilidades individuales de ambos sucesos.Así, dos sucesos son independientes, si el resultado de uno no tiene efecto en el otro; o si el que ocurra el primero de ellos no hace variar la probabilidad de que se de el segundo. Obviamente, en la práctica, y debido a las variaciones en el muestreo, será extremadamente difícil encontrar una muestra que reproduzca de forma exacta las condiciones de independencia anteriores. El determinar si las diferencias observadas son o no compatibles con la hipótesis de independencia constituye uno de los principales problemas que aborda la estadística inferencial. q Si se considera un fenómeno con k resultados posibles, mutuamente excluyentes, B1, B2,...,Bk y se conoce la probabilidad de cada uno de ellos, el llamado Teorema de las Probabilidades Totales permite calcular la probabilidad de un suceso A a partir de las probabilidades condicionadas: Utilizando la expresión para el cálculo de la probabilidad de la intersección de dos sucesos se tiene que y, por lo tanto: En el ejemplo anterior, podría aplicarse este resultado para el cálculo de la incidencia de la enfermedad en la población de estudio: Las leyes aditiva y multiplicativa, junto con la noción de probabilidades condicionadas y el teorema de las probabilidades totales se han empleado para desarrollar el llamado Teorema de Bayes, de indudable interés en la aplicación de la estadística al campo de la medicina. Si se parte de la definición de probabilidad condicionada (4): ó siempre que se llega a que: y . Aplicando además el teorema de las probabilidades totales El diagnóstico médico constituye un problema típico de aplicación del Teorema de Bayes en http://www.fisterra.com/mbe/investiga/probabilidades/probabilidades.htm (5 of 7)22/04/2006 1:19:21 PM Cálculo de probabilidades: nociones básicas el campo médico, puesto que permite el cálculo de la probabilidad de que un paciente padezca una determinada enfermedad una vez dados unos síntomas concretos. La capacidad predictiva de un test o de una prueba diagnóstica suele venir dada en términos de su sensibilidad y especificidad . Tanto la sensibilidad como la especificidad son propiedades intrínsecas a la prueba diagnóstica, y definen su validez independientemente de cuál sea la prevalencia de la enfermedad en la población a la cual se aplica. Sin embargo, carecen de utilidad en la práctica clínica, ya que sólo proporcionan información acerca de la probabilidad de obtener un resultado concreto (positivo o negativo) en función de si un paciente está realmente enfermo o no. Por el contrario, el concepto de valores predictivos, a pesar de ser de enorme utilidad a la hora de tomar decisiones clínicas y transmitir información sobre el diagnóstico, presenta la limitación de que dependen en gran medida de lo frecuente que sea la enfermedad a diagnosticar en la población objeto de estudio. El Teorema de Bayes permite obtener el valor predictivo asociado a un test al aplicarlo en poblaciones con índices de prevalencia muy diferentes. Consideremos como ejemplo un caso clínico en el que una gestante se somete a la prueba de sobrecarga oral con 50 gramos de glucosa para explorar la presencia de diabetes gestacional, obteniéndose un resultado positivo. Es sabido que dicho test presenta unos valores aproximados de sensibilidad y especificidad en torno al 80% y al 87%, respectivamente. Si se conoce además que la prevalencia de diabetes gestacional en la población de procedencia es aproximadamente de un 3%, por medio del teorema de Bayes podemos conocer la probabilidad de que el diagnóstico sea correcto o, equivalentemente, el valor predictivo positivo: 12 Se puede concluir por lo tanto que, a pesar de obtener un resultado positivo en la prueba, existe sólo una probabilidad de un 15,9% de que la paciente padezca diabetes gestacional. Supongamos que además dicha paciente tiene más de 40 años de edad. Se sabe que en grupos de edad más avanzada la prevalencia de diabetes gestacional entre las gestantes llega a aumentar hasta aproximadamente un 8%. En este caso, el valor predicativo positivo asociado vendrá dado por: En este caso las posibilidades de un diagnóstico de diabetes gestacional aumentan hasta un 34,86%. En un caso como este, en que se realiza una prueba para obtener información sobre un http://www.fisterra.com/mbe/investiga/probabilidades/probabilidades.htm (6 of 7)22/04/2006 1:19:21 PM Cálculo de probabilidades: nociones básicas diagnóstico, suele hablarse de probabilidad a priori, que es la disponible antes de realizar la prueba (la prevalencia, en este caso) y probabilidad a posteriori, que es la obtenida después de realizarla (los valores predictivos). A su vez, se suele denominar verosimilitudes a las probabilidades de un suceso bajo distintas hipótesis. El teorema de Bayes permite así obtener los valores de las probabilidades a posteriori a partir de las probabilidades a priori mediante una multiplicación proporcional a las verosimilitudes. Tal y como se indicó al inicio del presente artículo, la teoría de la probabilidad constituye la base matemática para la aplicación de la estadística inferencial en medicina. El cálculo de probabilidades constituye una herramienta que permitirá hacer inferencia sobre distintos parámetros poblacionales a partir de los resultados obtenidos en una muestra, y después tomar decisiones con el mínimo riesgo de equivocación en situaciones de incertidumbre. Bibliografía 1. Argimón Pallás JM, Jiménez Villa J. Métodos de investigación clínica y epidemiológica. 2ª ed. Madrid: Harcourt; 2000. 2. Sentís J, Pardell H, Cobo E, Canela J. Bioestadística. 3ª ed. Barcelona: Masson; 2003. 3. Colton T. Estadística en medicina. Barcelona: Salvat; 1979. 4. Armitage P, Berry G. Estadística para la investigación biomédica. Barcelona: Doyma; 1992. 5. Departamento de Medicina y Psiquiatría. Universidad de Alicante. Tratado de Epidemiología Clínica. Madrid: DuPont Pharma; 1995. 6. Altman DG. Practical Statistics for Medical Research. London: Chapman & Hall; 2004. 7. Vélez R, Hernández V. Cálculo de Probabilidades I. Madrid: UNED; 1995. 8. Quesada V, García A. Lecciones de Cálculo de Probabilidades. Madrid: Díaz de Santos; 1988. 9. Silva LC, Benavides A. El enfoque bayesiano: otra manera de inferir. Gac Sanit 2001; 15(4): 341346. 10. Silva LC, Suárez P. ¿Qué es la inferencia bayesiana? JANO 2000; 58: 65-66. 11. Silva LC, Muñoz A. Debate sobre métodos frecuentistas vs bayesianos. Gac Sanit 2000; 14: 482494. 12. Pértega Díaz S, Pita Fernández S. Pruebas diagnósticas. Cad Aten Primaria 2003; 10: 120-124. [Texto completo] Tabla 1. Asociación entre el hábito tabáquico y el desarrollo de una enfermedad. Datos de un estudio de seguimiento en 180 individuos. Enfermos Fumador No fumador Total: 60 20 80 Sanos 10 90 100 Total: 70 110 180 Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/probabilidades/probabilidades.htm (7 of 7)22/04/2006 1:19:21 PM Determinación de factores de riesgo Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 19/10/02 Determinación de factores de riesgo Pita Fernández S, Vila Alonso MT, Carpente Montero J. [ Correo de contacto ] Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña (España) Cad Aten Primaria 1997; 4: 75-78. En cada sociedad existen comunidades, grupos de individuos, familias o individuos que presentan más posibilidades que otros, de sufrir en un futuro enfermedades, accidentes, muertes prematuras…, se dice que son individuos o colectivos especialmente vulnerables. A medida que se incrementan los conocimientos sobre los diferentes procesos, la evidencia científica demuestra en cada uno de ellos que: en primer lugar las enfermedades no se presentan aleatoriamente y en segundo que muy a menudo esa "vulnerabilidad" tiene sus razones. La vulnerabilidad se debe a la presencia de cierto número de características de tipo genético, ambiental, biológicas, psicosociales, que actuando individualmente o entre sí desencadenan la presencia de un proceso. Surge entonces el término de "riesgo" que implica la presencia de una característica o factor (o de varios) que aumenta la probabilidad de consecuencias adversas. En este sentido el riesgo constituye una medida de probabilidad estadística de que en un futuro se produzca un acontecimiento por lo general no deseado. El termino de riesgo implica que la presencia de una característica o factor aumenta la probabilidad de consecuencias adversas. La medición de esta probabilidad constituye el enfoque de riesgo (1-4). Un factor de riesgo es cualquier característica o circunstancia detectable de una persona o grupo de personas que se sabe asociada con un aumento en la probabilidad de padecer, desarrollar o estar especialmente expuesto a un proceso mórbido. Estos factores de riesgo (biológicos, ambientales, de comportamiento, socio-culturales, económicos..) pueden sumándose unos a otros, aumentar el efecto aislado de cada uno de ellos produciendo un fenómeno de interacción. Contenido Utilización del riesgo Cuantificación del riesgo - Riesgo absoluto - Riesgo relativo - Odds Ratio - Fracción y riesgo atribuible Intervalos de confianza para la estimación del riesgo Bibliografía Documento en PDF (54 Kb) ¿Problemas con PDF? UBC Clinical Significance Calculator UTILIZACIÓN DEL RIESGO El conocimiento y la información sobre los factores de riesgo tienen diversos objetivos (5): a. Predicción: La presencia de un factor de riesgo significa un riesgo aumentado de presentar en un futuro una enfermedad, en comparación con personas no expuestas. En este sentido sirven como elemento para predecir la futura presencia http://www.fisterra.com/mbe/investiga/3f_de_riesgo/3f_de_riesgo.htm (1 of 8)22/04/2006 1:19:29 PM Determinación de factores de riesgo de una enfermedad. b. Causalidad: La presencia de un factor de riesgo no es necesariamente causal. El aumento de incidencias de una enfermedad entre un grupo expuesto en relación a un grupo no expuesto, se asume como factor de riesgo, sin embargo esta asociación puede ser debida a una tercera variable. La presencia de esta o estas terceras variables se conocen como variables de confusión. Así por ejemplo el ejercicio físico se conoce como factor de protección asociado al infarto de miocardio. El efecto protector que pueda tener el ejercicio, se debe controlar por la edad de los pacientes, ya que la edad está asociada con el infarto de miocardio en el sentido de que a más edad más riesgo. Por otra parte la mayor dosis de ejercicio la realiza la gente más joven; por lo tanto parte del efecto protector detectado entre el ejercicio y el infarto de miocardio esta condicionado por la edad. La edad en este caso actúa como variable de confusión. c. Diagnóstico: La presencia de un factor de riesgo aumenta la probabilidad de que se presente una enfermedad. Este conocimiento se utiliza en el proceso diagnóstico ya que las pruebas diagnósticas tienen un valor predictivo positivo más elevado, en pacientes con mayor prevalencia de enfermedad. El conocimiento de los factores de riesgo se utiliza también para mejorar la eficiencia de los programas de cribaje, mediante la selección de subgrupos de pacientes con riesgo aumentado. d. Prevención: Si un factor de riesgo se conoce asociado con la presencia de una enfermedad, su eliminación reducirá la probabilidad de su presencia. Este es el objetivo de la prevención primaria. Así por ejemplo se relacionan la obesidad y la hipertensión, la hipercolesterolemia y la enfermedad coronaria, el tabaco y el cáncer de pulmón…. Cuantificación del riesgo El término de riesgo implica que la presencia de una característica o factor aumenta la probabilidad de consecuencias adversas. La cuantificación del grado de riesgo constituye un elemento esencial y fundamental en la formulación de políticas y prioridades que no deben dejar hueco a la intuición ni a la casualidad. Hay diferentes maneras de cuantificar ese riesgo (1,6): a. Riesgo Absoluto: Mide la incidencia del daño en la población total. b. Riesgo Relativo: Compara la frecuencia con que ocurre el daño entre los que tienen el factor de riesgo y los que no lo tienen (Tabla 1). TABLA 1.1. TABLA DE 2 x 2 PARA EL CALCULO DE LAS MEDIDAS DE ASOCIACIÓN EN UN ESTUDIO DE SEGUIMIENTO Enfermos Sanos Total http://www.fisterra.com/mbe/investiga/3f_de_riesgo/3f_de_riesgo.htm (2 of 8)22/04/2006 1:19:29 PM Determinación de factores de riesgo Expuestos No expuestos Total a c a+c b d b+d a+b c+d a+b+c+d TABLA 1.2. Expuestos TABLA DE 2 x 2 EN LOS ESTUDIOS DE CASOS Y CONTROLES Casos a c Odds ratio (razón de predominio, oportunidad relativa) Controles b d No expuestos El riesgo relativo mide la fuerza de la asociación entre la exposición y la enfermedad. Indica la probabilidad de que se desarrolle la enfermedad en los expuestos a un factor de riesgo en relación al grupo de los no expuestos. Su cálculo se estima dividiendo la incidencia de la enfermedad en los expuestos (Ie) entre la incidencia de la enfermedad en los no expuestos (Io). En la Tabla 2, exponemos los resultados de un estudio de seguimiento (7) donde 853 mujeres estuvieron pasivamente expuestas al humo del tabaco durante la gestación y 1620 no lo estuvieron, y su asociación con el bajo peso al nacer. TABLA 2. DISTRIBUCION DE GESTANTES SEGÚN EXPOSICIÓN PASIVA AL HUMO DE TABACO Y RECIEN NACIDOS SEGÚN BAJO PESO O PESO NORMAL (7) Tabaco Exposición pasiva Sí No Total X2 = 9.03; p = 0.00265 95% IC (1.38;5.34) Recien Nacido de Bajo peso Sí 20 14 34 No 833 1606 2439 Total 853 1620 2473 El riesgo relativo igual a 2.71 de la tabla 2, significa que las expuestas al factor x (exposición pasiva al tabaco) tienen 2,71 veces más probabilidades de tener niños de bajo peso que las no expuestas. http://www.fisterra.com/mbe/investiga/3f_de_riesgo/3f_de_riesgo.htm (3 of 8)22/04/2006 1:19:29 PM Determinación de factores de riesgo En los estudios de casos y controles, dado que la incidencia es desconocida, el método de estimación del riesgo relativo es diferente y se estima calculando el Odds ratio, traducida al castellano con múltiples nombres como (8,9,10,11): razón de productos cruzados, razón de disparidad, razón de predominio, proporción de desigualdades, razón de oposiciones, oposición de probabilidades contrarias, cociente de probabilidades relativas, oportunidad relativa. Su cálculo se indica en la tabla 1 y es: c. Fracción Atribuible y Riesgo Atribuible La Fracción atribuible: Estima la proporción de la enfermedad entre los expuestos que puede ser atribuible al hecho de estar expuestos. Esta medida la podemos calcular: a. en el grupo de expuestos y b. en la población. La fracción atribuible en el grupo expuesto (fracción etiológica, o porcentaje de riesgo atribuible en los expuestos), establece el grado de influencia que tiene la exposición en la presencia de enfermedad entre los expuestos. Su cálculo se realiza: Según los datos de la Tabla 2 la FAe sería: Lo que significa que el 63.14% del bajo peso en los expuestos se debe a la exposición. Si dividimos en numerador y el denomidador por la Io (Incidencia en los no expuestos), obtendremos una nueva fórmula que expresa la misma idea. Dado que en nuestro ejemplo previo el riesgo relativo era 2.71 el cálculo se podría expresar también como: http://www.fisterra.com/mbe/investiga/3f_de_riesgo/3f_de_riesgo.htm (4 of 8)22/04/2006 1:19:29 PM Determinación de factores de riesgo El Riesgo Atribuible en los expuestos se calcula: RAe = Ie – Io Su cálculo esta determinado por la diferencia entre la incidencia de expuestos y no expuestos. La diferencia entre ambos valores da el valor del riesgo de enfermedad en la cohorte expuesta, que se debe exclusivamente a la exposición. La Fracción Atribuible en la Población (FAP), muestra la proporción en que el daño podría ser reducido si los factores de riesgo causales desapareciesen de la población total. It = Incidencia en la población total Io = Incidencia en los no expuestos Si la prevalencia de la exposición en la población es disponible él calculo también se puede realizar del siguiente modo con esta fórmula alternativa: Pt = Prevalencia de la exposición (o factor de riesgo) en la población. La fracción atribuible en la población total es una medida de asociación influenciada por la prevalencia del factor de riesgo en la población total. Para el cálculo de la misma utilizaremos el ejemplo de la tabla 3 (1). Este valor, es el porcentaje de riesgo atribuible en la población para el factor de riesgo "sin control prenatal". El concepto que encierra es totalmente similar al de la FAe, con la salvedad de que es un parámetro que se refiere a toda la colectividad y no solamente a los expuestos. La fórmula alternativa previamente indicada permite objetivar como cambia el impacto de una intervención con la prevalencia de un factor de riesgo. En los estudios de casos y controles, en los cuales no se pueden obtener tasas reales de incidencia, uno puede usarla tomando la razón de productos cruzados, la razón de predominio, la oportunidad relativa, el OR en definitiva, como una aproximación para el riesgo relativo. http://www.fisterra.com/mbe/investiga/3f_de_riesgo/3f_de_riesgo.htm (5 of 8)22/04/2006 1:19:29 PM Determinación de factores de riesgo Tabla 3. MORTALIDAD PERINATAL SEGÚN LA PRESENCIA O AUSENCIA DE CONTROLES PRENATALES (1) Controles Prenatales 0 1 ó más Total Mortalidad perinatal Sí 2056 776 2832 No 25891 22387 48278 Total 27947 23163 51110 El Riesgo Atribuible en Población general se calcula: RAp = It – Io. Se podría definir como la cantidad de riesgo que sufre toda la población como consecuencia de la exposición. Representa lo mismo que el RAe, pero referido a la comunidad. Intervalos de confianza para la estimación del riesgo. Cuando calculamos el Riesgo Relativo debemos expresar sí dicho riesgo es diferente de 1. Si al construir el 95% intervalo de confianza el intervalo no incluye el valor 1 concluimos que el riesgo es estadísticamente significativo p<0.05. Si el 99% intervalo de confianza no incluye el valor 1, el riesgo relativo es significativo p<0.01. Si el riesgo relativo fuese menor de 1 y su intervalo de confianza también, estaríamos ante la presencia de un factor de protección. El cálculo de dicho 95% IC para el riesgo relativo se realiza del siguiente modo (12,13,14): (RR) exp [± 1.96 Error Estándar del Ln RR) donde: -RR es la estimación puntual del riesgo relativo -exp es la base del logaritmo natural elevada a la cantidad entre paréntesis - a,b,c y d representan los valores numéricos de la tabla de 2 x 2 Si utilizamos el ejemplo de la tabla 2 tendríamos: http://www.fisterra.com/mbe/investiga/3f_de_riesgo/3f_de_riesgo.htm (6 of 8)22/04/2006 1:19:29 PM Determinación de factores de riesgo 1. Logaritmo natural de 2.71 = 0.996 2. Error estándar = 3. El 95% intervalo de confianza del logaritmo de RR= 0.99 ± 1.96 * 0.34 = (0.319; 1.674) 4. El antilogaritmo de estos límites es: e 0.319 a e1.67 = (1.38 a 5.34) Por tanto en el ejemplo (tabla 2) el RR = 2.71 y el 95% Intervalo de confianza es: 1.38 a 5.34 El cálculo del 95% IC para el OR en un estudio de casos y controles seria: donde: q q q OR es la estimación puntual del Odds ratio exp es la base del logaritmo natural elevada a la cantidad entre paréntesis. a,b,c y d representan los valores numéricos de la tabla de 2 x 2 El cálculo del intervalo de confianza del riesgo relativo y del odds ratio es fundamental al realizar el análisis de cualquier estudio. Dicho cálculo nos indica no solo la dirección del efecto, sino la significancia estadística, si el intervalo no engloba el valor 1 y la precisión del intervalo que está directamente relacionada con el tamaño muestral del estudio. Estimado el riesgo de cada variable de forma independiente, se debe en un siguiente paso determinar el riesgo de dicha variable teniendo en cuenta las demás variables utilizando técnicas de regresión múltiples. BIBLIOGRAFÍA 1. Serie PALTEX para ejecutores de programas de salud Nº 7. Manual sobre el enfoque de riesgo en al atención materno-infantil. Washington: Organización Panamericana de la salud; 1986. 2. MacMahon, Trichopoulos D. Epidemiology: Principles and Methods. Second edition. Boston: Little Brown & Company; 1996. 3. Brownson R.C., Remington P.L., Davis J.R. Chronic disease epidemiology and control. Baltimore: American Public Health Association; 1993. 4. Lilienfeld D.E., Stolley P.D. Foundation of Epidemiology. 3 td. ed. New York: Oxford University Press; 1994. 5. Fletcher R.H., Fletcher S.W., Wagner E.H. Epidemiología clínica. Barcelona: Ediciones Consulta; 1989. 6. Pita Fernández S. Epidemiología. Conceptos básicos. En: Tratado de http://www.fisterra.com/mbe/investiga/3f_de_riesgo/3f_de_riesgo.htm (7 of 8)22/04/2006 1:19:29 PM Determinación de factores de riesgo 7. 8. 9. 10. 11. 12. 13. 14. epidemiología clínica. Madrid: DuPont Pharma; 1995. Martín TR, Bracken MB. Association of low birth weight with passive smoke exposure in pregnancy. Am J. Epidemiol 1986; 124: 633-642. [Medline] Rigau Pérez J.G. Traducción del término "odds ratio". Gac Sanit 1990; 16: 35. Becerra J.E. Traducción del término "odds ratio". Gac Sanit 1990; 16:36. Martín Moreno J.M. Oportunidad relativa; reflexiones en torno a la traducción del termino "odds ratio". Gac Sanit 1990; 16:37 Porta Serra M. Traducir o no traducir. ¿es esa la cuestión?. Gac Sanit 1990; 16: 38-39. Garb J.L. Understanding medical research. A practitioner´s guide. Boston: Little Brown and Company; 1996. Gardner M. J., Altman D.G. Confidence intervals rather than P values: estimation rather than hypothesis testing. Br Med J (Clin Res Ed) 1986; 292: 746-750. [Medline] Simon R. Confidence intervals for reportin results of clinical trials. Ann Intern Med 1986; 105: 429-435. [Medline] Arriba | Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/3f_de_riesgo/3f_de_riesgo.htm (8 of 8)22/04/2006 1:19:29 PM Determinación de factores pronósticos Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 18/01/01 Determinación de factores pronósticos Pita Fernández S, Valdés Cañedo FA [ Correo de contacto ] Cad Aten Primaria 1997; 4: 26-29. La actividad clínica diaria esta fundamentada en tres elementos: el juicio diagnóstico, el pronóstico y el tratamiento. Estas tres actividades están basadas en estudios probabilísticos. Tras el diagnóstico de una enfermedad se precisa conocer el pronóstico de la misma. La determinación de un pronóstico es estimar las probabilidades de los diversos modos de evolución; es predecir la evolución de una enfermedad en un paciente determinado. El conocimiento del pronóstico es una variable fundamental ya que en muchos casos decidirá el tratamiento (1). Por otra parte las actividades terapéuticas y preventivas pueden modificar él pronostico de una enfermedad. La historia natural de una enfermedad es la evolución sin intervención médica. El curso clínico describe la evolución de la enfermedad que se encuentra bajo atención médica(2). El pronóstico depende por tanto de la historia natural de la enfermedad y de su curso clínico. Dicho pronóstico no siempre cambia con la intervención médica. La incertidumbre sobre el futuro de una enfermedad, puede estimarse sobre la experiencia clínica y la información epidemiológica. Es evidente que la experiencia clínica individual aún siendo de gran valor, por si sola es inadecuada ya que esta basada en un conjunto mas o menos limitado de pacientes que no representan la totalidad de los mismos sobre los que se tiene además un seguimiento desigual. Diferencia entre riesgo y pronóstico Por otra parte debemos a su vez tener en cuenta la diferencia entre factores de riesgo y factores pronósticos. Los factores de riesgo son los que condicionan la probabilidad de presentar una enfermedad determinada. Dichos factores pueden estar presentes en población sana y aumentan el riesgo de tener la enfermedad. La identificación de los factores de riesgo son imprescindibles para la prevención primaria. Los factores pronósticos son aquellos que predicen el curso clínico de un padecimiento una vez que la enfermedad esta presente. La identificación de estos factores son de gran interés para la prevención secundaria y terciaria (2,3,4). Para la estimación del riesgo el suceso final que se busca es la presencia de una enfermedad específica. Para la estimación del pronóstico la variable final como elemento de interés para estudio puede ser: la muerte, la recurrencia del proceso, la invalidez, las complicaciones (5). Contenido Diferencia entre riesgo y pronóstico Parámetros de interés pronóstico Determinación de factores pronósticos: - Experiencia personal - Revisión de la literatura - Realización de estudios Errores en el estudio del curso clínico: - Sesgo de selección - Sesgo de pérdidas de seguimiento - Sesgo por errores de medición Bibliografía Documento en PDF (62 Kb) ¿Problemas con PDF? Existen a su vez marcadores de riesgo que son características de las personas que no son modificables (edad, sexo, estado socio-económico,…) y que determinan la probabilidad de presentar una enfermedad. Los marcadores de pronóstico son a su vez características no modificables del sujeto que tienen una probabilidad determinada de afectar el curso clínico de la enfermedad. http://www.fisterra.com/mbe/investiga/4f_pronosticos/4f_pronosticos.htm (1 of 7)22/04/2006 1:20:47 PM Determinación de factores pronósticos Hay factores de riesgo (edad, HTA,...) que cuando aparece la enfermedad (cardiopatía isquémica) a su vez son factores pronósticos para la presencia o no de muerte por dicha enfermedad (2), Tabla 1. Tabla 1. Diferencias entre Factores de Riesgo y Pronósticos en el Infarto agudo de miocardio (2) Factores de Riesgo q q q q q q q Factores Pronósticos q q q q q q q Edad Sexo masculino LDL elevado HDL descendido Tabaquismo HTA Sedentarismo Edad Sexo masculino Infarto previo Hipotensión Insuficiencia cardíaca congestiva Cardiomegalia Arritmia ventricular En la práctica clínica diaria es preciso tener un conocimiento del pronostico de un problema determinado para tomar decisiones respecto a exploraciones continuadas, ingresos hospitalarios, tratamientos específicos, que no modificando el pronóstico no podrían objetivamente ser justificados. Por otra parte se precisa conocer el curso clínico de la enfermedad para informar al paciente de su futuro. Parámetros de interés pronóstico Los parámetros de interés pronóstico dependen de la enfermedad que se estudie pero los de uso más frecuente son (2,6,7): a. Tasa de supervivencia a los cinco años. Porcentaje de pacientes que sobreviven cinco años a partir de algún momento en el curso de la enfermedad. b. Tasa de letalidad. Porcentaje de pacientes con una enfermedad que mueren a causa de ella. c. Tasa de respuesta. Porcentaje de pacientes que muestran alguna señal de mejoría después de una intervención. d. Tasa de remisiones. Porcentaje de pacientes que entran en una fase en la que la enfermedad deja de ser detectable. e. Tasa de recurrencia. Porcentaje de pacientes que vuelven a tener la enfermedad después de un período libre de ella. Determinación de los factores pronósticos. En la actividad diaria conoceremos el pronóstico de muchos de los pacientes por nuestra formación y experiencia previa. Las estrategias para conocer el pronóstico podrían resumirse en las siguientes posibilidades (3,7,8): 1. Experiencia personal: q q Consultar a otro compañero de trabajo. Consultar a un "experto" o especialista en el tema. http://www.fisterra.com/mbe/investiga/4f_pronosticos/4f_pronosticos.htm (2 of 7)22/04/2006 1:20:47 PM Determinación de factores pronósticos 2. Hacer una revisión de la literatura. 3. Realización de estudios: q q q q Revisión de casos. Estudios de casos y controles Estudios de cohortes Ensayos clínicos. 1. Experiencia personal. La experiencia personal, ya sea la de uno mismo o la de un experto, sin duda es muy valorable en todo el proceso clínico asistencial, sin embargo tiene limitaciones en relación con: a. Sesgos de selección de pacientes: El sesgo de selección viene determinado por la dificultad de haber tenido contacto con todos los tipos de pacientes de una determinada enfermedad. El lugar de trabajo condiciona la patología que sé diagnóstica y se trata. b. Sesgos de información: El sesgo de información nos lleva a valorar los factores acompañantes de pacientes que han presentado un excelente pronóstico o un fatal pronóstico. c. Falta de precisión: La falta de precisión viene determinada por el tamaño muestral de la casuística que si es reducida puede estar afectada por el azar. Por otra parte la identificación de factores de riesgo para la presencia de una enfermedad tampoco puede ser producto de la experiencia personal. Existen riesgos que pueden ser identificados fácilmente entre exposición y enfermedad (traumatismos por accidente de coche, intoxicación por sobredosis de fármacos…) pero en la mayoría de las enfermedades crónicas las relaciones entre exposición y enfermedad son menos aparentes. Las razones por las que la experiencia personal es insuficiente para establecer una relación entre una exposición y una enfermedad se señalan en la tabla 2 (2). Tabla 2. Situaciones en las que la experiencia personal es insuficiente para establecer una relación entre una exposición una enfermedad (2) q q q q q q Período de latencia largo entre la exposición y la enfermedad. Exposición frecuente al factor de riesgo. Incidencia baja de la enfermedad. Riesgo pequeño producido por la exposición. Enfermedad frecuente. Causas múltiples de enfermedad. 2. Revisión de la literatura. La revisión de la literatura es siempre recomendable. Un artículo aisladamente puede estar sesgado o limitado en sus conclusiones, es por ello aconsejable revisar la literatura buscando: a) artículos de revisión b) estudios de metanálisis. Los artículos de revisión discuten la información sobre el tema teniendo en cuenta aspectos metodológicos, concordancias y divergencias sobre diferentes trabajos que nos permitirán una información actualizada sobre el tema (9). El metanálisis ha sido definido por Jenicek como "una integración estructurada, con una revisión cualitativa y cuantitativa de los resultados de diversos estudios independientes acerca de un mismo tópico". El metanálisis desplazó de la literatura médica a la revisión por un experto. http://www.fisterra.com/mbe/investiga/4f_pronosticos/4f_pronosticos.htm (3 of 7)22/04/2006 1:20:47 PM Determinación de factores pronósticos El metanalisis como método ha generado reacciones muy diferentes en el campo de la ciencia médica. Dichas reacciones van desde un rechazo y escepticismo total (10) hasta un ferviente apoyo y entusiasmo (11). Los epidemiologos lo consideran una herramienta útil pero que hay que saber utilizar (12). Los objetivos del metanálisis son fundamentalmente dos (13): revisar con técnicas cuantitativas la situación actual de un tema que ha sido investigado previamente en múltiples o diversos trabajos. Esta revisión cuantitativa permitiría resumir los resultados de todos los estudios previos. En segundo lugar el metanálisis nos permite incrementar el poder estadístico para detectar diferencias entre variables. Claramente si podemos reunir en una misma tabla de contingencia diferentes estudios, el tamaño muestral de dicha tabla se incrementará y por tanto también lo hará nuestro poder estadístico para detectar diferencias. En definitiva la precisión del estudio mejora y la posibilidad de cometer errores de tipo II o beta (no detectar diferencias cuando realmente las hay) disminuye. Esta técnica es por tanto muy útil cuando estimamos incidencias o mortalidad de eventos muy poco frecuentes o cuando en un estudio de casos y controles la exposición de interés es muy rara o muy frecuente. 3. Realización de estudios. Existen diferentes diseños de investigación para conocer la historia natural y el curso clínico de la enfermedad: a. Revisión de casos: Permiten reconstruir retrospectivamente el curso clínico de una enfermedad. En estos estudios los sesgos de selección son muy frecuentes y no es aconsejable utilizarlos para hacer inferencias sobre el pronóstico. Estos estudios aunque son muy útiles para formular hipótesis, no sirven para evaluar o testar la presencia de una asociación estadística. La presencia de una asociación puede ser un hecho fortuito. La gran limitación de este tipo de estudios es en definitiva la ausencia de un grupo control. b. Estudio de casos y controles: Todos los pacientes en el estudio, tienen la enfermedad de interés. En este tipo de estudios los casos son pacientes que han fallecido en un período determinado de tiempo o presentaron la complicación de interés o la recurrencia. Los controles son pacientes que no han fallecido o no han tenido el evento de interés. El objetivo del estudio se centra en determinar que variables están asociadas con el hecho de pertenecer a uno u otro grupo. La estimación del efecto se determina por medio del calculo del odds ratio (Tabla 3). c. Estudio de cohortes: Estos estudios describen paso a paso la historia natural o el curso clínico de la enfermedad y calculan el riesgo relativo debido a un determinado factor pronóstico. Los integrantes de la cohorte de pacientes son todos los individuos afectados por la enfermedad. Tras el seguimiento de la cohorte durante un tiempo, se estudia la supervivencia, la presencia de complicaciones, la recurrencia.., en relación con diferentes variables de exposición (Tabla 3). Este tipo de estudio es el ideal para determinar factores pronósticos. Tabla 3.1. Expuestos No expuestos Tabla de 2 x 2 en los Estudios de Casos y Controles Casos a c Odds ratio (razón de predominio, oportunidad relativa) Controles b d Tabla 3.2. Tabla de 2 x 2 para el Cálculo de las medidas de asociación en un estudio de seguimiento para determinar pronóstico http://www.fisterra.com/mbe/investiga/4f_pronosticos/4f_pronosticos.htm (4 of 7)22/04/2006 1:20:47 PM Determinación de factores pronósticos Enfermos (fallecidos, recurrentes...) Expuestos No expuestos Total a c a+c Enfermos (no fallecidos...) b d b+d Total a+b c+d a+b+c+d d. Ensayos clínicos: Este tipo de estudios permiten estudiar las modificaciones del curso clínico de la enfermedad como respuesta a nuevas intervenciones terapéuticas. Los datos proporcionados por los estudios clínicos se expresan en múltiples ocasiones en términos de supervivencia. Este término no queda limitado a los términos de vida o muerte, sino a situaciones en las que se mide el tiempo que transcurre hasta que sucede el evento de interés, como puede ser tiempo de recurrencia, tiempo que dura la eficacia de una intervención, tiempo de un aprendizaje determinado etc. Por tanto, la supervivencia es una medida de tiempo a una respuesta, fallo, muerte, recaída o desarrollo de una determinada enfermedad o evento. El termino supervivencia se debe a que las primeras aplicaciones de este método de análisis utilizaba como evento la muerte de un paciente (14). La estimación de la supervivencia de una cohorte de pacientes se determina por técnicas paramétricas (distribución exponencial, Weibul, lognormal) o no parametricas (KaplanMeier, logrank, regresión de Cox). El método Kaplan-Meier calcula la supervivencia cada vez que un paciente muere (o se produce el evento de interés) (Fig 1). Figura 1. Supervivencia del Injerto renal. Hospital Juan Canalejo. 1981-1999. http://www.fisterra.com/mbe/investiga/4f_pronosticos/4f_pronosticos.htm (5 of 7)22/04/2006 1:20:47 PM Determinación de factores pronósticos La característica distintiva del análisis con este método es que la proporción acumulada que sobrevive, se calcula para el tiempo de supervivencia individual de cada paciente y no se agrupan los tiempos de supervivencia en intervalos (14). En los estudios de seguimiento no todos los pacientes presentan el evento tras un tiempo de seguimiento (observaciones censuradas). La técnica ideada por Cox (modelo de riesgo proporcional o regresión de Cox) es la proporcionada para realizar el análisis cuando hay observaciones censuradas que dependen del tiempo. Este modelo utiliza como variable dependiente el tiempo de supervivencia del paciente y como covariables variables independientes) que se modifican con el tiempo. Los coeficientes de regresión de Cox pueden usarse para determinar el riesgo relativo entre cada variable independiente y la variable respuesta, ajustado por el efecto de las demás variables en la ecuación (15). Errores frecuentes en el estudio del curso clínico Los errores más frecuentes en los estudios sobre el curso clínico de enfermedades, vienen determinados por los sesgos (estimaciones equivocadas del riesgo): de selección, de pérdidas de seguimiento, y de errores en la medición (3,5,7). a) Sesgo de selección: Este tipo de sesgo puede presentarse en cualquiera de los diseños previamente señalados y es muy frecuente. Los pacientes que acuden a centros hospitalarios, los candidatos a cirugía, son diferentes de los que no ingresan o no se operan por razones diferentes. Por tanto las conclusiones que se deriven del estudio de un grupo de ellos, no son representativas de todos los pacientes que tengan la enfermedad. Si no se dispone del seguimiento del paciente desde el inicio de la enfermedad o evento, el resultado sobre su pronóstico puede ser impredecible. Pueden fácilmente presentarse sesgos de supervivencia selectiva ya que aquellos que fallecieron antes o siguen vivos ahora (en el momento que se incorporan al estudio) son diferentes. Es por ello fundamental incorporar al estudio casos incidentes desde el inicio de la enfermedad o evento de interés. b) Sesgo por perdidas de seguimiento: Las pérdidas de seguimiento son frecuentes e los estudios de cohortes y ensayos clínicos. Si las perdidas son aleatorias y no se asocian con el evento de interés no se produce un sesgo. Debe ser un objetivo prioritario reducir al mínimo las perdidas con un cuidadoso seguimiento de todos los pacientes ya que de lo contrario pueden tener un efecto impredecible e invalidar las conclusiones del estudio. c) Sesgo por errores de medición: Se produce una estimación equivocada del riesgo por errores en la medición, siendo las fuentes más frecuentes de sesgo: un instrumento no adecuado de medida, un diagnóstico incorrecto, omisiones, imprecisiones, vigilancia desigual en expuestos y no expuestos, procedimientos de encuesta no validos, encuestadores no entrenados o conocedores de las hipótesis del estudio. Este tipo de sesgos pueden reducirse si se tienen en cuenta los siguientes conceptos básicos: a) los observadores (encargados de la medición o evaluación) deben ser ciegos al tipo de tratamiento que recibe el enfermo, b) las mediciones del proceso de interés han de desarrollarse en condiciones similares en ambos grupos con el mismo instrumento de medida y en los mismos momentos de seguimiento, y c) los criterios diagnósticos que señalen la presencia del evento de interés deben estar claramente definidos. http://www.fisterra.com/mbe/investiga/4f_pronosticos/4f_pronosticos.htm (6 of 7)22/04/2006 1:20:47 PM Determinación de factores pronósticos BIBLIOGRAFÍA 1. Sackett, D.L., Haynes, R.B., Guyatt, G.H., Tugwell, P. Epidemiología clínica. Ciencia básica para la medicina clínica. 2ª ed. Madrid: Editorial Médica Panamericana; 1994. 2. Fletcher, R.H., Fletcher S.W., Wagner E.H. Epidemiología clínica. Barcelona: Ediciones Consulta; 1989. 3. Moreno A., Cano V., García M. Epidemiología clínica. 2ª ed. México: Interamericana. McGraw-Hill; 1994. 4. Brownson R.C., Remigton P.L., Davis J.R. Chronic disease epidemiology and control. Baltimore: American Public Health Association; 1993. 5. Jenicek M., Cleroux R. Epidemiología. Principios-Técnicas-Aplicaciones. Barcelona: Salvat; 1987. 6. Barker D.J.P., Rose G. Epidemiología en la práctica médica 2ª Edición. Barcelona: Ediciones Científicas y Técnicas; 1992. 7. Alvarez Caceres R. El método científico en las ciencias de la salud. Las bases de la investigación biomédica. Madrid: Díaz de Santos; 1996. 8. Villagrasa F., Bañares J., Barona C., PLA E. El juicio pronóstico. En: Tratado de epidemiología clínica. Madrid: DuPont Pharma Madrid; 1995. p. 255-269. 9. Guyatt GH, Sackett DL, Cook DJ. Evidence-Based Medicine Working Group. Users´ guides to the medical literature.II. How to use an article about therapy or prevention. Are the result of the study valid? JAMA 1993; 270: 2598-2601. [Medline] 10. Goldman L., Feinstein AR. Anticoagulants and myocardial infarction. The problems of pooling, drowing and floating. Ann Intern Med 1979; 90: 92-94. [Medline] 11. Chalmers T.C., Matta R.J., Smith H Jr, Kunzler AM. Evidence of favoring the use of anticoagulants in the hospital phase of acute miocardial infarction. N. Engl J Med 1977; 297: 1091-1096. [Medline] 12. Abramson J.H. Meta-analysis: a review of pros and cons. Public Health Rev 1991; 18: 1-47. [Medline] 13. Delgado Rodríguez M., Sillero Arenas M., Gálvez Vargas R. Metaanalisis en epidemiología (primera parte): Características generales. Gac Sanit 1991; 5: 265-272. [Medline] 14. Pita Fernández S. Análisis de supervivencia. En: Tratado de epidemiología clínica. Madrid: DuPónt pharma Madrid; 1995. p.597-610. 15. Dawson S.B. Trapp R.G. Basic & Clínical Biostatistics. 2ºnd ed. New Jersey: Appleton & Lange; 1994. Arriba | Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/4f_pronosticos/4f_pronosticos.htm (7 of 7)22/04/2006 1:20:47 PM Número necesario de pacientes a tratar para reducir un evento Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 26/01/01 Número necesario de pacientes a tratar para reducir un evento Pita Fernández S, López de Ullibarri Galparsoro I. [ Correo de contacto ] Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña CAD ATEN PRIMARIA 1998; 96-98 (Actualizado 26/01/2001) La práctica clínica requiere la toma de decisiones sobre actividades preventivas, terapéuticas y pronósticas. Con frecuencia existen dificultades para trasladar los resultados de una investigación a la practica clínica por la forma en que habitualmente se presentan los resultados en términos de: p<0.05, p<0.001, riesgo relativo, odds ratio, reducción absoluta del riesgo, fracción atribuible poblacional o fracción etiológica. Por otra parte los resultados de un estudio pueden ser estadísticamente significativos y no ser clínicamente relevantes por lo que los médicos necesitamos instrumentos que nos permitan decidir si una actitud determinada o un tratamiento específico deben ser incorporados en la rutina diaria (1). La medicina basada en la evidencia incorpora la utilización de términos, como el número necesario de pacientes a tratar para reducir un evento (NNT) que cada vez se utiliza con más frecuencia (2,3). Una de las razones por la que se utiliza cada vez con más frecuencia se deriva de las deficiencias de expresiones alternativas y porque expresa de una manera muy evidente los beneficios de utilizar un tratamiento o actividad preventiva sobre un control, indicando por así decir "el precio a pagar para obtener un beneficio" (4,5). La práctica de la medicina basada en la evidencia considera el ensayo clínico aleatorizado como el estándar para valorar la eficacia de las tecnologías sanitarias y recomienda que las decisiones se tomen, siempre que se pueda, con opciones diagnósticas o terapéuticas de demostrada eficacia (6,7). La forma recomendada de presentar los resultados de un ensayo clínico aleatorizado y otros tipos de estudio debe incluir (1,2,6,8): La reducción relativa del riesgo (RRR), la reducción absoluta del riesgo (RAR) y el número necesario de pacientes a tratar para reducir un evento (NNT). Consideremos para su cálculo este ejemplo: Mueren 15% de pacientes en el grupo de intervención y mueren un 20% en el grupo control. El riesgo relativo, que es el cociente entre los expuestos al nuevo tratamiento o actividad preventiva y los no expuestos, es en este caso (0.15/0.20=0.75). El riesgo de muerte de los pacientes que reciben el nuevo tratamiento relativo al de los pacientes del grupo control fue de 0.75. La RRR es el complemento del RR, es decir, (1-0.75)* 100 = 25%. El nuevo http://www.fisterra.com/mbe/investiga/5nnt/5nnt.htm (1 of 4)22/04/2006 1:20:53 PM Contenido RR = Riesgo Relativo RRR = Reducción Relativa del Riesgo RAR = Reducción Absoluta del Riesgo NNT = Número necesario de pacientes a tratar para reducir un evento Cálculo del RR, RRR, RAR y NNT NNT para diferentes tratamientos Bibliografía Documento en PDF (35 Kb) ¿Problemas con PDF? Cálculos online Número necesario de pacientes a tratar para reducir un evento tratamiento reduce el riesgo de muerte en un 25% relativo al que ha ocurrido en el grupo control. La reducción absoluta del riesgo (RAR) sería: 0.20-0.15= 0.05 (5%). Podríamos decir por tanto que de cada 100 personas tratadas con el nuevo tratamiento podemos evitar 5 casos de muerte. La siguiente pregunta sería: si de cada 100 personas tratadas con el nuevo tratamiento podemos evitar 5 casos de muerte. ¿Cuántos tendríamos que tratar para evitar un solo caso de muerte?. En otras palabras ¿cuál es el NNT?. Su cálculo requiere una simple regla de tres que se resuelve dividiendo 1/RAR. En este caso 1/0.05 = 20. Por tanto la respuesta es que necesitamos tratar a 20 pacientes con el nuevo tratamiento para evitar un caso de muerte. Este modo de presentar los resultados nos cuantifica el esfuerzo a realizar para conseguir la reducción de un evento desfavorable. El presentar los resultados sólo como reducción porcentual del riesgo relativo (RRR), aunque es técnicamente correcto, tiende a magnificar el efecto de la intervención al describir del mismo modo situaciones muy dispares. Dicho efecto lo podemos objetivar en la tabla 1, donde se objetiva que la reducción del riesgo es igual pero el NNT es completamente diferente. Cambios pequeños en el riesgo basal absoluto de un hecho clínico infrecuente conducen a grandes cambios en el número de pacientes que necesitamos tratar con la intención de prevenir uno. Tabla 1. Cálculo de Riesgo relativo (RR), Reducción Relativa del Riesgo (RRR), Reducción Absoluta del Riesgo (RAR) y Número Necesario de Pacientes a Tratar para reducir un evento (NNT) en situaciones diferentes. Incidencia Incidencia en en No Expuestos Expuestos (Ie) 8% 0.8% (Io) 10 % 1% RR Ie/Io 0.8 0.8 RRR (1-RR) *100 20 % 20 % RAR Io-Ie 0.10-0.08 0.010.008 NNT 1/RAR 50 500 UBC Clinical Significance Calculator NNT/NNH Calculator Number Needed to Harm Multicalc Number Needed to Treat Multicalc Number Needed to Harm (NNH) from Odds Ratio (OR) and Patient Expected Event Rate (PEER) Number Needed to Treat (NNT) from Odds Ratio (OR) and Patient Expected Event Rate (PEER) Table of NNTs Bandolier El cálculo del NNT representa como ya hemos indicado el número de pacientes a tratar de manera experimental a fin de evitar que uno de ellos desarrolle un resultado negativo. Es por tanto una forma excelente de determinar la significancia clínica de un ensayo que además sea estadísticamente significativo. Cuanto más reducido es NNT el efecto de la magnitud del tratamiento es mayor. Si no se encontrase eficacia en el tratamiento la reducción absoluta del riesgo sería cero y el NNT sería infinito. Como sucede en las estimaciones de otros parámetros, se debe expresar el NNT con intervalos de confianza para estimar la incertidumbre que dicho parámetro presenta (9,10). En la tabla 2 se presentan algunos NNT para diferentes tratamientos (6). Tabla 2. NNT para tratamientos diferentes (6) Enfermedad Intervención Episodios que se previenen Tasa en el grupo control Tasa en el grupo experimental Duración del seguimiento NNT para evitar un episodio adicional http://www.fisterra.com/mbe/investiga/5nnt/5nnt.htm (2 of 4)22/04/2006 1:20:53 PM Número necesario de pacientes a tratar para reducir un evento Diabetes (DMID) (1) Regímenes intensivos de Insulina Regímenes intensivos de Insulina Estreptoquinasa y Aspirina Neuropatía Diabética Retinopatías Nefropatía Muerte a las 5 semanas Muerte a los 2 años Muerte, apoplejía o infarto de miocardio Permanencia en residencias por un largo período de tiempo Convulsiones recurrentes Muerte por cáncer de mama Aplplejía total o muerte Síndrome de distrés respiratorio 0.096 0.38 0.30 0.134 0.216 0.028 0.13 0.10 0.081 0.174 6.5 años 6 años 6 años 5 semanas 2 años 15 4 5 19 24 Diabetes (DMNID) (2) Infarto de Miocardio (3) Presión Arterial Diastólica 115-129 mmHg (4) Fármacos antihipertensivos 0.0545 0.0467 5.5 años 128 Personas mayores independientes (5) Mujeres embarazadas con eclampsia (6) Mujeres sanas de edad 50-69 años (7) Estenosis grave sintomática de la arteria (8) Niños prematuros (9) (1) (2) (3) (4) (5) (6) (7) (8) (9) (9) Estudio geriátrico exhaustivo MgSO4 iv (vs Diacepan) Exploración de mamas además de mamografía Endarterectomía Corticosteroides prenatales 0.10 0.04 3 años 17 0.279 0.132 Horas 7 0.00345 0.00252 9 años 1075 0.181 0.08 2 años 10 0.23 0.13 Días 11 Ann Intern Med 1995; 122: 561-8; EBM 1995;1:9 Diabetes Res Clín Pract 1995; 28: 103-17 Lancet 1988; 2: 349-60 JAMA 1967; 202: 116-22 BMJ 1985; 291: 97-104 N Engl J Med 1995; 333: 1184-9; EBM 1996;1:44 Lancet 1995; 345: 1455-63; EBM 1996; 1:44 Lancet 1993; 341: 973-8 N Engl J Med 1991; 325: 445-53 Am J Obstet Gynecol 1995; 173: 322-35; EBM 1996; 1: 92 La creciente demanda de este tipo de información se puede obtener en Internet en el Centro de Medicina Basada en la Evidencia que existe en Oxford, Inglaterra en la dirección: http://cebm.jr2.ox.ac.uk. El cálculo de NNT con sus intervalos de confianza se puede realizar de manera automática con programas disponibles al efecto en la dirección: http://www.healthcare. ubc.ca/calc/clinsig.html El cálculo del NNT proporciona a los clínicos un excelente instrumento en relación a las decisiones de incorporar prácticas en la actividad clínica diaria. Proporciona una manera http://www.fisterra.com/mbe/investiga/5nnt/5nnt.htm (3 of 4)22/04/2006 1:20:53 PM Número necesario de pacientes a tratar para reducir un evento clara y útil de medir el esfuerzo para conseguir un beneficio y es una excelente herramienta que la medicina basada en la evidencia nos proporciona y que debe ser utilizada en la toma de decisiones. Tabla de NNTs de Bandolier en http://www.jr2.ox.ac.uk/bandolier/band50/b50-8.html Bibliografía 1. Laupacis A, Sackett DL, Roberts RS: An assesment of clinically useful measures of treatment. N Engl J Med 1988; 318: 1728-1733. [Medline] 2. Guyatt GH, Sackett DL, Cook DJ. Users´ guides to the medical literature. II. How to use an article about therapy or prevention. B. What were the results and will they help in caring for my patients? Evidence Based Medicine Working Group. JAMA 1994; 271: 59-63. [Medline] 3. Cordell WH. Number Needed to treat (NNT). Ann Emerg Med 1999; 33: 433-436. [Medline] 4. Chatellier G, Zapletal E. Lemaitre D. Menard J. Degoulet P. The number needed to treal: A clinically useful nomogram in its proper context. BMJ 1996; 312: 426-429. . [Medline] [Texto completo] 5. McQuay HJ, Moore A. Using numerical result from systematic reviews in clinical practice. Ann Intern Med 1997; 126: 712-720. [Medline] 6. Sackett DL, Richarson WS, Rosenberg W, Hynes RB. Evidence-based medicine: how to practice and teach EBM. London: Churchill-livingstone; 1997. 7. Guyatt GH, Sackett DL, Cook DJ. Users´guides to the medical literature. II. How to use an articie about therapy or prevention. A. Are the results of the study valid? Evidence-Based Medicine Working Group. JAMA 1993; 270: 2598-2601. [Medline] 8. Cook RJ, Sackett DL. The number needed to treal: a clincally useful measure of treatment effect. BMJ 1995; 310: 452-454. [Medline] [Texto completo] 9. Altman DG. Confidence intervals for the nember needed to treat. BMJ 1998; 317: 1309-1312. [Medline] [Texto completo] 10. Daly LE. Confidence limits made easy: interval estimation using a subsitution method. Am J Epidemiol 1998; 147: 783-90. [Medline] Arriba | Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/5nnt/5nnt.htm (4 of 4)22/04/2006 1:20:53 PM Tipos de estudios clínico epidemiológicos Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 28/02/01 Tipos de estudios clínico epidemiológicos Pita Fernández S. [ Correo de contacto ] Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña Pita Fernández, S. Epidemiología. Conceptos básicos. En: Tratado de Epidemiología Clínica. Madrid; DuPont Pharma, S.A.; Unidad de epidemiología Clínica, Departamento de Medicina y Psiquiatría. Universidad de Alicante: 1995. p. 25-47. (Actualizado 28/02/2001) Los estudios epidemiológicos clásicamente se dividen en Experimentales y No experimentales. En los estudios experimentales se produce una manipulación de una exposición determinada en un grupo de individuos que se compara con otro grupo en el que no se intervino, o al que se expone a otra intervención. Cuando el experimento no es posible se diseñan estudios no experimentales que simulan de alguna forma el experimento que no se ha podido realizar (1-5). En la Tabla 1 se resumen los diferentes tipos de estudios. Si ha existido manipulación pero no aleatorización se habla de estudios Cuasi-experimentales. Existen diferentes clasificaciones de los diferentes estudios y así también algunos autores describen los estudios como se señalan en la Tabla 2. (6) Tabla 1. Tipos de Estudios Epidemiológicos I Experimentales q q q q Contenido Tipos de estudios Estudios descriptivos Estudios analíticos Estudios experimentales Sesgos. La precisión y validez de un estudio Bibliografía No Experimentales q q Ensayo clínico Ensayo de campo Ensayo comunitario de intervención q Estudios ecológicos Estudios de prevalencia Estudios de casos y controles Estudios de cohortes o de seguimiento Documento en PDF (75 Kb) ¿Problemas con PDF? Cálculos online UBC Clinical Significance Calculator NNT/NNH Calculator Tabla 2. Tipos de Estudios Epidemiológicos II DESCRIPTIVOS q q En Poblaciones r Estudios ecológicos En Individuos r A propósito de un caso r Series de casos r Transversales / Prevalencia ANALÍTICOS http://www.fisterra.com/mbe/investiga/6tipos_estudios/6tipos_estudios.htm (1 of 13)22/04/2006 1:21:02 PM Tipos de estudios clínico epidemiológicos q q Observacionales r Estudios de casos y controles r Estudios de cohortes (retrospectivos y prospectivos) Intervención r Ensayo clínico r Ensayo de campo r Ensayo comunitario Las diferentes estrategias de los diferentes estudios han hecho que en la literatura científica exista una proliferación de nombres y sinónimos cuando se hace referencia a los estudios epidemiológicos. Resumimos en la Tabla 3 alguno de estos sinónimos. Tabla 3. Sinónimos y nombre en inglés de los diferentes tipos de estudios. Estudio Experimental Ensayo clínico Ensayo de campo Estudio de Observación Estudios de Cohortes Sinónimos: (Experimental study) (Clinical Trial) (Field trial) (Observational study) (Cohort study) Estudio prospectivo Prospective study Estudio de Seguimiento - Follow-up study Estudio concurrente Concurrent study Estudio de incidencia Incidence study Estudio Longitudinal Longitudinal study (Historical cohort study) Estudio prospectivo no concurrente Nonconcurrent prospective study Estudio de seguimiento retrospectivo - Prospective study in retrospect Ensayo comunitario de intervención (Community intervention trial) Estudio de Cohortes histórico Sinónimos: http://www.fisterra.com/mbe/investiga/6tipos_estudios/6tipos_estudios.htm (2 of 13)22/04/2006 1:21:02 PM Tipos de estudios clínico epidemiológicos Estudios de Casos y Controles Sinónimos: (Case control-study) Retrospective study Case comparison study Case history study Case compeer study Case referent study Trohoc study (Cross-sectional study) Estudio de prevalencia Prevalence study Disease frequencie study Estudio de morbilidad Morbidity survey Encuesta de salud Health survey Estudio Transversal Sinónimos: Dado el objetivo introductorio de este apartado presentamos muy brevemente las características fundamentales de los diferente tipos de estudios. ESTUDIOS DESCRIPTIVOS. Estos estudios describen la frecuencia y las características más importantes de un problema de salud. Los datos proporcionados por estos estudios son esenciales para los administradores sanitarios así como para los epidemiólogos y los clínicos. Los primeros podrán identificar los grupos de población más vulnerables y distribuir los recursos según dichas necesidades y para los segundos son el primer paso en la investigación de los determinantes de la enfermedad y la identificación de los factores de riesgo (5,6). Los principales tipos de estudios descriptivos son: los estudios ecológicos, los estudios de series de casos y los transversales o de prevalencia. Estudios ecológicos: Estos estudios no utilizan la información del individuo de una forma aislada sino que utilizan datos agregados de toda la población. Describen la enfermedad en la población en relación a variables de interés como puede ser la edad, la utilización de servicios, el consumo de alimentos, de bebidas alcohólicas, de tabaco, la renta per cápita… Un ejemplo de este estudio sería correlacionar la mortalidad por http://www.fisterra.com/mbe/investiga/6tipos_estudios/6tipos_estudios.htm (3 of 13)22/04/2006 1:21:02 PM Tipos de estudios clínico epidemiológicos enfermedad coronaria con el consumo per cápita de cigarrillos. Estos estudios son el primer paso en muchas ocasiones en la investigación de una posible relación entre una enfermedad y una exposición determinada. Su gran ventaja reside en que se realizan muy rápidamente, prácticamente sin coste y con información que suele estar disponible. Así por ejemplo los datos demográficos y el consumo de diferentes productos se pueden correlacionar con la utilización de servicios sanitarios, con registros de mortalidad y registros de cáncer. La principal limitación de estos estudios es que no pueden determinar si existe una asociación entre una exposición y una enfermedad a nivel individual. La falacia ecológica consiste precisamente en obtener conclusiones inadecuadas a nivel individual basados en datos poblacionales. Otra gran limitación de los estudios ecológicos es la incapacidad para controlar por variables potencialmente confusoras. La asociación o correlación que encontremos entre dos variables puede ser debida a una tercera variable que a su vez esté asociada con la enfermedad y la exposición objeto de estudio. Series de casos: Estos estudios describen la experiencia de un paciente o un grupo de pacientes con un diagnóstico similar. En estos estudios frecuentemente se describe una característica de una enfermedad o de un paciente, que sirven para generar nuevas hipótesis. Muchas veces documentan la presencia de nuevas enfermedades o efectos adversos y en este sentido sirven para mantener una vigilancia epidemiológica. Estos estudios aunque son muy útiles para formular hipótesis, no sirven para evaluar o testar la presencia de una asociación estadística. La presencia de una asociación puede ser un hecho fortuito. La gran limitación de este tipo de estudios es en definitiva la ausencia de un grupo control. Estudios transversales: Este tipo de estudios denominados también de prevalencia, estudian simultáneamente la exposición y la enfermedad en una población bien definida en un momento determinado. Esta medición simultánea no permite conocer la secuencia temporal de los acontecimientos y no es por tanto posible determinar si la exposición precedió a la enfermedad o viceversa. La realización de este tipo de estudios requiere definir claramente: a. La población de referencia sobre la que se desea extrapolar los resultados. b. La población susceptible de ser incluida en nuestra muestra delimitando claramente los que pueden ser incluidos en dicho estudio. c. La selección y definición de variables por las que se va a caracterizar el proceso. d. Las escalas de medida a utilizar. e. La definición de "caso" Los estudios transversales se utilizan fundamentalmente para conocer la prevalencia de una enfermedad o de un factor de riesgo. Esta información es de gran utilidad para valorar el estado de salud de una comunidad y http://www.fisterra.com/mbe/investiga/6tipos_estudios/6tipos_estudios.htm (4 of 13)22/04/2006 1:21:02 PM Tipos de estudios clínico epidemiológicos determinar sus necesidades. Así mismo sirven como todos los estudios descriptivos para formular hipótesis etiológicas. ESTUDIOS ANALÍTICOS. Estudio de casos y controles: Este tipo de estudio identifica a personas con una enfermedad (u otra variable de interés) que estudiemos y los compara con un grupo control apropiado que no tenga la enfermedad. La relación entre uno o varios factores relacionados con la enfermedad se examina comparando la frecuencia de exposición a éste u otros factores entre los casos y los controles (5,6) . A este tipo de estudio que es de los más utilizados en la investigación se le podría describir como un procedimiento epidemiológico analítico, no experimental con un sentido retrospectivo, ya que partiendo del efecto, se estudian sus antecedentes, en el que se seleccionan dos grupos de sujetos llamados casos y controles según tengan o no la enfermedad. En los estudios de casos y controles (Tabla 4) tenemos casos expuestos (a), casos no expuestos (c), controles expuestos (b) y controles no expuestos (d). En este estudio la frecuencia de exposición a la causa entre los casos (a/c) se compara con la frecuencia de exposición en una muestra que represente a los individuos en los que el efecto no se ha producido y entre los que la frecuencia de exposición es (b/d). TABLA 4. Expuestos No expuestos Tabla de 2 x 2 en los estudios de Casos y Controles Casos a c Controles b d Odds ratio (razón de predominio, oportunidad relativa) Si la frecuencia de exposición a la causa es mayor en el grupo de casos de la enfermedad que en los controles, podemos decir que hay una asociación entre la causa y el efecto. La medida de asociación que permite cuantificar esta asociación se llama "odds ratio" (razón de productos cruzados, razón de disparidad, razón de predominio, proporción de desigualdades, razón de oposiciones, oposición de probabilidades contrarias, cociente de probabilidades relativas, oportunidad relativa) y su cálculo se estima: Los grandes temas que se deben abordar al realizar un estudio de casos y controles son después de la definición de caso, la selección de los controles y las fuentes de http://www.fisterra.com/mbe/investiga/6tipos_estudios/6tipos_estudios.htm (5 of 13)22/04/2006 1:21:02 PM Tipos de estudios clínico epidemiológicos información sobre la exposición y la enfermedad . No es el objetivo de este apartado realizar una revisión exhaustiva del diseño de este tipo de estudios por lo que resumiremos diciendo que la selección de los casos debe: a. Establecer de forma clara y explícita la definición de la enfermedad y los criterios de inclusión. b. Los casos deben ser incidentes ya que los casos prevalentes: 1. Cambian sus hábitos en relación con la exposición. 2. Los casos prevalentes pueden ser los sobrevivientes de casos incidentes y la supervivencia puede estar relacionada con la exposición. La selección del grupo control debe tener en cuenta: a. La función del grupo control es estimar la proporción de exposición esperada en un grupo que no tiene la enfermedad. b. Los controles deben ser representativos de la población de donde provienen los casos. Los casos y los controles no deben entenderse como dos grupos representativos de dos poblaciones distintas, sino como dos grupos que proceden de una misma población. Los controles deben ser comparables a los casos en el sentido de haber tenido la misma probabilidad de haber estado expuestos. Estudio de cohortes (o de seguimiento): En este tipo de estudio los individuos son identificados en función de la presencia o ausencia de exposición a un determinado factor. En este momento todos están libres de la enfermedad de interés y son seguidos durante un período de tiempo para observar la frecuencia de aparición del fenómeno que nos interesa. Si al finalizar el período de observación la incidencia de la enfermedad es mayor en el grupo de expuestos, podremos concluir que existe una asociación estadística entre la exposición a la variable y la incidencia de la enfermedad. La cuantificación de esta asociación la podemos calcular construyendo una razón entre la incidencia del fenómeno en los expuestos a la variable (le) y la incidencia del fenómeno en los no expuestos (lo). Esta razón entre incidencias se conoce como riesgo relativo y su cálculo se estima como (Tabla 5): Tabla 5. Tabla de 2 x 2 en los estudios de Cohortes Enfermos Expuestos No expuestos Total a c a+c Sanos b d b+d Total a+b c+d a+b+c+d http://www.fisterra.com/mbe/investiga/6tipos_estudios/6tipos_estudios.htm (6 of 13)22/04/2006 1:21:02 PM Tipos de estudios clínico epidemiológicos En este tipo de estudio como quiera que los participantes están libres de la enfermedad al inicio del seguimiento, la secuencia temporal entre exposición y enfermedad se puede establecer más claramente. A su vez este tipo de estudio permite el examen de múltiples efectos ante una exposición determinada. Las ventajas y limitaciones de este tipo de estudio y de los diferentes tipos de estudios se resumen en la Tabla 6 (6). Los estudios de cohortes pueden ser prospectivos y retrospectivos dependiendo de la relación temporal entre el inicio del estudio y la presencia de la enfermedad. En los retrospectivos tanto la exposición como la enfermedad ya han sucedido cuando el estudio se inició. En los prospectivos la exposición pudo haber ocurrido o no, pero desde luego lo que aún no ha sucedido es la presencia de la enfermedad. Por tanto se requiere un período de seguimiento en el futuro para determinar la frecuencia de la misma. Tabla 6. Ventajas y limitaciones de los diferentes estudios epidemiológicos Ensayos Clínicos Ventajas q q Limitaciones q q q Mayor control en el diseño. Menos posibilidad de sesgos debido a la selección aleatoria de los grupos. Repetibles y comparables con otras experiencias. q Coste elevado. Limitaciones de tipo ético y responsabilidad en la manipulación de la exposición. Dificultades en la generalización debido a la selección y o a la propia rigidez de la intervención. Estudios de Cohortes Ventajas q q Limitaciones q q q Estiman incidencia. Mejor posibilidad de sesgos en la medición de la exposición. q q q Coste elevado. Dificultad en la ejecución. No son útiles en enfermedades raras. Requieren generalmente un tamaño muestral elevado. El paso del tiempo puede introducir cambios en los métodos y criterios diagnósticos. Posibilidad de pérdida en el seguimiento. Estudios de Casos y Controles Ventajas Limitaciones http://www.fisterra.com/mbe/investiga/6tipos_estudios/6tipos_estudios.htm (7 of 13)22/04/2006 1:21:02 PM Tipos de estudios clínico epidemiológicos q q q q Relativamente menos costosos que los estudios de seguimiento. Corta duración. Aplicaciones para el estudio de enfermedades raras. Permite el análisis de varios factores de riesgo para una determinada enfermedad. q q q No estiman directamente la incidencia. Facilidad de introducir sesgos de selección y/o información. La secuencia temporal entre exposición y enfermedad no siempre es fácil de establecer. Estudios Transversales Ventajas q q Limitaciones q q q q q Fáciles de ejecutar. Relativamente poco costosos. Se pueden estudiar varias enfermedades y/o factores de riesgo a la vez. Caracterizan la distribución de la enfermedad respecto a diferentes variables. Precisan poco tiempo para su ejecución. Útiles en la planificación y Administración Sanitaria (Identifican el nivel de salud, los grupos vulnerables y la prevalencia). q q Por sí mismos no sirven para la investigación causal. No son útiles en enfermedades raras ni de corta duración. Posibilidad de sesgos de información y selección. Este tipo de estudios son de la suficiente complejidad para requerir, no sólo un equipo multidisciplinario que los aborde sino una cantidad de recursos suficientes para mantenerlos a lo largo del tiempo. ESTUDIOS EXPERIMENTALES. En los estudios experimentales el investigador manipula las condiciones de la investigación. Este tipo de estudios se utilizan para evaluar la eficacia de diferentes terapias, de actividades preventivas o para la evaluación de actividades de planificación y programación sanitarias. Como en los estudios de seguimiento los individuos son identificados en base a su exposición, pero a diferencia de estos, en los estudios experimentales es el investigador el que decide la exposición. El gran control que se tiene sobre el diseño facilita la interpretación de las asociaciones como causales . Para el médico clínico es de gran interés poder realizar inferencias causales en medio de la incertidumbre que rodea la practica clínica ya sea en actividades de prevención, de diagnóstico o terapéuticas (7,8). Los estudios experimentales pueden ser considerados: 1. Terapéuticos (o prevención secundaria) se realizan con pacientes con una http://www.fisterra.com/mbe/investiga/6tipos_estudios/6tipos_estudios.htm (8 of 13)22/04/2006 1:21:02 PM Tipos de estudios clínico epidemiológicos enfermedad determinada y determinan la capacidad de un agente o un procedimiento para disminuir síntomas, para prevenir la recurrencia o para reducir el riesgo de muerte por dicha enfermedad. 2. Los preventivos (o prevención primaria) evalúan si una agente o procedimiento reduce el riesgo de desarrollar una enfermedad. Por ello los estudios experimentales preventivos se realizan entre individuos sanos que están a riesgo de desarrollar una enfermedad. Esta intervención puede ser sobre una base individual o comunitaria a toda una población determinada. Ensayo clínico: Es el estudio experimental más frecuente. Los sujetos son pacientes y evalúa uno o más tratamientos para una enfermedad o proceso. La validez de este estudio radica fundamentalmente en que el proceso aleatorio haga los grupos comparables en las variables más relevantes en relación al problema a estudiar. El diseño del estudio debe contemplar básicamente: a. b. c. d. e. f. g. h. La ética y justificación del ensayo. La población susceptible de ser estudiada. La selección de los pacientes con su consentimiento a participar. El proceso de aleatorización. La descripción minuciosa de la intervención. El seguimiento exhaustivo que contemple las pérdidas y los no cumplidores. La medición de la variable final. La comparación de los resultados en los grupos de intervención y control. Ensayos de campo: Tratan con sujetos que aún no han adquirido la enfermedad o con aquéllos que estén en riesgo de adquirirla y estudian factores preventivos de enfermedades como pueden ser la administración de vacunas o el seguimiento de dietas. Ensayos comunitarios: Incluyen intervenciones sobre bases comunitarias amplias. Este tipo de diseños suelen ser cuasiexperimentales (existe manipulación pero no aleatorización), en los que una o varias comunidades recibirán la intervención, mientras que otras servirán como control. Los estudios experimentales si tienen un diseño cuidadoso con un tamaño muestral suficiente, un proceso de aleatorización adecuado, una intervención y un seguimiento perfectamente controlados pueden proporcionar evidencias muy fuertes que nos permitan emitir juicios sobre la existencia de relaciones causales entre variables. SESGOS. LA PRECISIÓN Y VALIDEZ DE UN ESTUDIO. Independientemente del tema y los objetivos de un estudio, que pueden ser de mayor o menor interés para el lector o para la comunidad científica, lo que siempre se debe perseguir es que el estudio sea preciso y válido. Todo estudio debe ser entendido como un ejercicio de medida en cada uno de los apartados de planificación, ejecución e interpretación. Es por tanto necesario formular http://www.fisterra.com/mbe/investiga/6tipos_estudios/6tipos_estudios.htm (9 of 13)22/04/2006 1:21:02 PM Tipos de estudios clínico epidemiológicos unos objetivos de forma clara y cuantitativa para dejar muy bien sentado desde el principio que es lo que se quiere medir. Si este primer paso es deficiente o poco claro la calidad de un estudio se tambalea. (9-11) La meta fundamental que todo estudio epidemiológico debe perseguir es la agudeza en la medición. Por ello, que todo lo que amenace esta correcta medición debe ser identificado y corregido. Los elementos que amenazan estas mediciones son: El Error Aleatorio y el Error Sistemático. La carencia de error aleatorio se conoce como precisión y se corresponde con la reducción del error debido al azar. Para reducir este error el elemento más importante del que disponemos es incrementar el tamaño de la muestra y con ello aumentamos la precisión. Los intervalos de confianza y el error estándar se reducen al aumentar el tamaño muestral. Es por tanto necesario desde un principio preocuparse por el tamaño muestral del estudio que vamos a realizar definiendo la precisión y la seguridad del mismo. La precisión también se puede mejorar modificando el diseño del estudio para aumentar la eficiencia de la información que obtengo de los sujetos del estudio. La carencia del error sistemático se conoce como validez. Esta validez tiene dos componentes: La validez interna, que es la validez de las inferencias a los sujetos reales del estudio y la validez externa o generalización en tanto se aplica a individuos que están fuera de la población del estudio. La validez interna es por tanto un prerrequisito para que pueda darse la extrema. La validez interna que es la que implica validez de inferencia para los propios sujetos de estudio. Se ve amenazada por varios tipos de sesgos. Entendemos por sesgos los errores sistemáticos en un estudio epidemiológico que producen una estimación incorrecta de asociación entre la exposición y la enfermedad. En definitiva producen una estimación equivocada del efecto. Cuando realizamos un estudio o interpretamos los resultados del mismo nos podemos preguntar: ¿Podrían los resultados deberse a algo que los autores no han tenido en consideración?, como por ejemplo: a. Los grupos del estudio no son comparables debido a como fueron seleccionados los pacientes (sesgos en la selección). b. Los grupos de pacientes del estudio no son comparables debido a como se obtuvieron los datos (sesgos en la información). c. Los autores no han recogido información (o la han obtenido pero no la han utilizado) sobre un factor que se relaciona a la vez con la exposición y con el efecto estudiados (factor de confusión). Los principales sesgos que comentaremos son los sesgos de selección, observación e información. SESGO DE SELECCIÓN http://www.fisterra.com/mbe/investiga/6tipos_estudios/6tipos_estudios.htm (10 of 13)22/04/2006 1:21:02 PM Tipos de estudios clínico epidemiológicos Este sesgo hace referencia a cualquier error que se deriva del proceso de identificación de la población a estudiar. La distorsión resulta de la forma en que los sujetos han sido seleccionados. Estos sesgos se pueden cometer: a. b. c. d. Al seleccionar el grupo control. Al seleccionar el espacio muestral donde se realizará el estudio. Por pérdidas en el seguimiento. Por la presencia de una supervivencia selectiva. Los sesgos de selección pueden presentarse también en los estudios de casos y controles, cuando el procedimiento utilizado para identificar el status de enfermedad (sesgo diagnóstico) varía o se modifica con el status exposición. Este sesgo se llama "sesgo de detección". Los sesgos de selección son un problema fundamental en los estudios de casos y controles y en los estudios de cohortes retrospectivos donde la exposición y el resultado final ya han ocurrido en el momento que los individuos son seleccionados para el estudio. Los sesgos de selección son poco probables en los estudios de cohortes prospectivos porque la exposición se determina antes de la presencia de enfermedad de interés. En todos los casos, cuando el sesgo de selección ocurre, el resultado produce una relación entre exposición y enfermedad que es diferente entre los individuos que entraron en el estudio que entre los que pudiendo haber sido elegidos para participar, no fueron elegidos. La evitación de los sesgos de selección depende en gran medida de que el investigador conozca las fuentes de sesgo potenciales. En los estudios de casos y controles para evitar sesgos de selección, se recomienda al menos teóricamente, ya que desde el punto de vista práctico es muy costoso, utilizar dos grupos control. Uno de ellos una muestra poblacional, lo que posibilita el detectar el posible sesgo de selección al hacer estimaciones del efecto por separado. Si obtenemos la misma estimación del efecto en los controles poblacionales que con los otros controles podremos asumir que no hay sesgos en la selección de los mismos. A pesar de todo siempre existe la posibilidad remota de que las dos estimaciones tuviesen el mismo grado de sesgo. Otra recomendación es utilizar muchas patologías como grupo control en lugar de pocas patologías y comprobar que las frecuencias de exposición son similares entre los diferentes grupos diagnosticados en los controles. En los estudios de seguimiento se debe asegurar un seguimiento completo en ambos grupos. SESGO DE INFORMACIÓN U OBSERVACIÓN. Este sesgo incluye cualquier error sistemático en la medida de información sobre la exposición a estudiar o los resultados. Los sesgos de observación o información se derivan de las diferencias sistemáticas en las que los datos sobre exposición o resultado final, se obtienen de los diferentes grupos. El rehusar o no responder en un estudio puede introducir sesgos si la tasa de respuesta está relacionada con el status de exposición. El sesgo de información es por tanto una distorsión en la estimación del efecto por errores de medición en la exposición o enfermedad o en la clasificación errónea de los sujetos. Las fuentes de sesgo de información más frecuentes son: http://www.fisterra.com/mbe/investiga/6tipos_estudios/6tipos_estudios.htm (11 of 13)22/04/2006 1:21:02 PM Tipos de estudios clínico epidemiológicos a. b. c. d. e. f. Instrumento de medida no adecuado. Criterios diagnósticos incorrectos. Omisiones. Imprecisiones en la información. Errores en la clasificación. Errores introducidos por los cuestionarios o las encuestadoras. Los errores de clasificación son una consecuencia directa del sesgo de información. Esta clasificación puede ser "diferencial" si el error de clasificación es independiente para ambos grupos o "no diferencial" si el error de clasificación es igual para ambos grupos de estudio, produciéndose una dilución del efecto con una subestimación del mismo. Los encuestadores pueden introducir errores de clasificación "diferencial" si conocen las hipótesis del estudio y la condición del entrevistado. Este tipo de problema se puede controlar por medio de: a. b. c. d. e. Desconocimiento del entrevistado. Desconocimiento de las hipótesis de estudio. Utilización de cuestionarios estructurados. Tiempos de ejecución de la entrevista definitiva. Utilización de pocos entrevistadores. La prevención y control de sesgos potenciales debe prevenirse durante el diseño del estudio ya que en el análisis no va a ser posible solucionar los sesgos de selección e información. Por el contrario los factores de confusión sí pueden ser controlados en el análisis. Dichos factores de confusión van a producir una distorsión en la estimación del efecto, en el sentido de que el efecto observado en a población en estudio es una mezcla de los efectos debidos a una tercera (o más) variables. Los sesgos, el azar y la presencia de variables confusoras deben finalmente siempre, tenerse en cuenta, como explicación posible de cualquier asociación estadística ya sea esta positiva, negativa o no existente; Y es que como señalaba M. Susser en sus reflexiones sobre causalidad "cuando hay minas por todas partes no debe uno aventurarse sin un detector de minas" (12). Bibliografía 1- MacMahon B., Trichopoulos D. Epidemiology: Principles and Methods. 2nd ed. Boston: Lippincott Williams & Wilkins; 1996. [editor] 2- Jenicek M., Cleroux R. Epidemiología: la lógica de la medicina moderna. Barcelona: Masson; 1996. 3- Armijo R.R. Epidemiología básica en Atención primaria de salud. Madrid: Díaz de Santos; 1993. http://www.fisterra.com/mbe/investiga/6tipos_estudios/6tipos_estudios.htm (12 of 13)22/04/2006 1:21:02 PM Tipos de estudios clínico epidemiológicos 4- Rothman K.J. Epidemiología Moderna. Madrid: Ediciones Días de Santos; 1987. 5- Kelsey JL., Thompson WD., Evans AS. Methods in Observational Epidemiology. New York: Oxford University Press; 1986. [Amazon] 6- Hennekens CH., Buring JE. Epidemiology in Medicine Boston: Litte, Brown and Company; 1987. 7- Sackett DL., Haynes RB., Guyatt GH., Tugwell P. Epidemiología clínica. Ciencia básica para la medicina clínica. 2ª ed. Madrid: Editorial Médica Panamericana; 1994. 8- Fletcher RH., Fletcher SW., Wagner EH. Epidemiología clínica. 2ª ed. Barcelona: MassonWilliams & Wilkins; 1998. 9- Kleinbaum DG., Kupper LL., Morggenstern H. Epidemiologic Research. Principles and Quantitative Methods. Belmont, California: John Wiley & Sons; 1982. 10- Miettinem OS. Theoretical Epidemiology. New York: Jhon Wiley & Sons; 1985. 11- Rothman KJ. (ed). Causal Inference. Chesnut Hill: Epidemiology Resources Inc; 1988. 12- Susser M. Conceptos y estrategias en epidemiología. El pensamiento causal en ciencias de la salud. México: Biblioteca de la Salud; 1991. Arriba | Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/6tipos_estudios/6tipos_estudios.htm (13 of 13)22/04/2006 1:21:02 PM Estudios experimentales en la Práctica Clínica: los Ensayos clínicos Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 28/02/01 Estudios experimentales en la práctica clínica. Investigación terapéutica. Ensayos clínicos. Pita Fernández S. [ Correo de contacto ] Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña (España) Pita Fernández, S. Estudios experimentales en la práctica clínica. Investigación terapéutica. Ensayos clínicos. En: Gómez de la Cámara, A. ed. Manual de Medicina Basada en la Evidencia. Elementos para su desarrollo y aplicación en Atención Primaria. Madrid: Jarpyo Editores; 1998. p. 147-163. (Actualización 28/02/2001) ¿Qué es un ensayo clínico? Un ensayo clínico es una evaluación experimental de un producto, sustancia, medicamento, técnica diagnóstica o terapéutica que a través de su aplicación a seres humanos pretende valorar su eficacia y seguridad (1-3) Diferentes grupos han propuesto que en la práctica médica diaria se empleen sólo los medicamentos y procedimientos que hayan demostrado mayor eficacia y eficiencia sobre la salud de la población (4). En la práctica médica actual un ensayo clínico aleatorio controlado de una terapéutica contra otra es la norma aceptada por la cual se juzga la utilidad de un tratamiento. El diseño del estudio debe contemplar básicamente: 1. 2. 3. 4. 5. 6. 7. 8. La ética y justificación del ensayo. La población susceptible de ser estudiada. La selección de los pacientes con su consentimiento a participar. El proceso de aleatorización. La descripción minuciosa de la intervención. El seguimiento exhaustivo que contemple las pérdidas y los no cumplidores. La medición de la variable final. La comparación de los resultados en los grupos de intervención y control. Contenido Qué es un Ensayo Clínico Consideraciones metodológicas Protocolo de un Ensayo Clínico - Justificación y Objetivos - Tipo de Ensayo Clínico - Selección de los sujetos - Descripción del Tratamiento - Desarrollo del ensayo y evaluación de la respuesta Acontecimientos adversos - Aspectos éticos Consideraciones prácticas Bibliografía Consideraciones metodológicas El protocolo del ensayo debe estar claramente desarrollado y escrito antes del proceso de selección de los pacientes. Los elementos básicos de dicho protocolo se indican en la tabla 1 (5). http://www.fisterra.com/mbe/investiga/7ensayos/7ensayos.htm (1 of 9)22/04/2006 1:21:08 PM Documento en PDF (55 Kb) ¿Problemas con PDF? Estudios experimentales en la Práctica Clínica: los Ensayos clínicos Cálculos online Todos los detalles de cómo se realizarán cada una de las actividades del ensayo no es necesario que se incluyan en el protocolo siempre y cuando exista un manual del investigador y unos procedimientos normalizados de trabajo en que sí se incluyan. A continuación revisaremos alguno de los aspectos metodológicos más relevantes en el diseño de un ensayo clínico (1,5-7) Tabla 1. Apartados del protocolo de un Ensayo Clínico q q q UBC Clinical Significance Calculator NNT / NNH Calculator Real Decreto 223/2004, por el que se regulan los ensayos clínicos con medicamentos Resumen Índice Información general: Título del ensayo Identificación del promotor r Investigador/es principal/es r Centros en los que se prevé realizar el ensayo r Fase del ensayo Justificación y objetivos Tipo de ensayo y diseño del mismo Selección de sujetos Descripción del tratamiento Desarrollo del ensayo y evaluación de la respuesta Acontecimientos adversos Aspectos ético-legales: r r q q q q q q q q q q Consentimiento informado Póliza de seguros r Indemnización Consideraciones prácticas Análisis estadístico Documentación complementaria: r r q q q Contratos relacionados con el ensayo clínico Presupuesto r Distribución de gastos Cuaderno de recogida de datos Manual del investigador Procedimientos normalizados de trabajo: r r r r r r r r Identificación y calificación del equipo investigador Procedimiento de archivo de la documentación Procedimientos de monitorización Regulación de los procedimientos de suministro Procedimiento de notificación de acontecimientos adversos graves e inesperados Procedimiento para proporcionar información adecuada al sujeto y consentimiento informado Justificación y objetivos En este apartado se debe indicar toda la información relevante y las evidencias científicas que apoyen la realización del estudio. Es evidente que el ensayo depende de la pregunta a investigar, que debe ser científica y médicamente relevante. El tamaño muestral dependerá del objetivo principal, que debe estar claramente definido. Si existiesen objetivos debe quedar claramente de manifiesto y se pretende valorar la eficacia, la seguridad, la farmacocinética o la búsqueda de dosis de un fármaco. http://www.fisterra.com/mbe/investiga/7ensayos/7ensayos.htm (2 of 9)22/04/2006 1:21:08 PM Estudios experimentales en la Práctica Clínica: los Ensayos clínicos Tipo de ensayo clínico La integridad científica del ensayo y la credibilidad de los datos obtenidos en el mismo dependen sustancialmente del diseño. En este apartado se debe incluir: q q q Descripción del tipo de ensayo que se va a realizar (como, por ejemplo: doble ciego, controlado con placebo, cruzado o paralelo…). Tipo de control (placebo u otros). Descripción detallada del proceso de aleatorización (procedimiento y consideraciones prácticas). Selección de los sujetos q q q q q q q Criterios de inclusión y exclusión. Criterios diagnósticos para las patologías en estudio. Número de sujetos previstos (totales y por centros sí procede) y justificación de dicho tamaño muestral. Variables que se estudiarán en cada sujeto, con su escala de medida y calendario de recogida. Criterios de retirada y análisis previsto de las retiradas y los abandonos. Tratamiento de las pérdidas pre-randomización. Duración aproximada del periodo de reclutamiento en función del número de pacientes disponibles. Descripción del tratamiento q q q q q q q Descripción de la dosis, intervalo, vía y forma de administración y duración del tratamiento a ensayo. Criterios de modificación de pautas a lo largo del ensayo. Tratamientos concomitantes permitidos y prohibidos. Especificación de la "medicación de rescate" en los casos en que proceda. Normas especiales del manejo de fármacos en estudio. En caso de tratamientos no permitidos, especificar el período de tiempo mínimo transcurrido desde su suspensión hasta que el sujeto pueda ser incluido en el estudio. Medidas para valorar el cumplimiento terapéutico. Desarrollo del ensayo y evaluación de la respuesta q q q q Enfermedad o trastorno a estudio. Variable principal de valoración. Número y tiempo de las visitas durante el mismo, especificando las pruebas o exploraciones que se realizarán para la valoración de la respuesta. Descripción de los métodos (radiológicos, de laboratorio…) utilizados para la valoración de la respuesta y control de calidad de los mismos. Acontecimientos adversos http://www.fisterra.com/mbe/investiga/7ensayos/7ensayos.htm (3 of 9)22/04/2006 1:21:08 PM Estudios experimentales en la Práctica Clínica: los Ensayos clínicos q q q q Indicación de la información mínima que se deberá especificar para los acontecimientos adversos (descripción, gravedad, duración, secuencia temporal, método de detección, tratamiento administrado en su caso; causas alternativas, factores predisponentes…). Indicar criterios de imputabilidad que se van a utilizar. Indicar los procedimientos para la notificación inmediata de los acontecimientos adversos graves o inesperados. Incluir un modelo de hoja de notificación de acontecimientos adversos a las autoridades sanitarias. Principios éticos para las investigaciones médicas en seres humanos (Declaración de Helsinki) Aspectos éticos. q q q q q Consideraciones generales: aceptación de las normas nacionales e internacionales al respecto Principios de Buena Práctica Clínica (Declaración de Helsinki). Normas de buena Comité ético de Investigación Clínica de Galicia práctica clínica [anexo I]. Información que será proporcionada a los pacientes y tipo de consentimiento que será solicitado en el ensayo clínico. Especificación de quién tendrá acceso a los datos, con el fin de garantizar su confidencialidad. Contenidos del presupuesto del ensayo clínico (compensación para los pacientes del ensayo, investigadores…) que deben ser comunicados al comité ético de investigación clínica correspondiente. Garantía de la existencia de una póliza de seguro o indemnización suscrita y característica de la misma. Consideraciones prácticas q q q q Especificar las responsabilidades de todos los participantes en el ensayo clínico. Especificar las condiciones de archivo de datos, su manejo, procesamiento y correcciones. Identificación de las muestras de investigación clínica y responsables de su suministro y conservación, así como del etiquetado de las mismas. Condiciones de publicación. Valoración de un ensayo La valoración de un ensayo se debe contemplar teniendo en cuenta dos aspectos diferentes: por un lado, lo que deben contemplar los comités de investigación clínica para evaluar un ensayo y, por otro lado, cómo evaluar un artículo sobre terapéutica. La valoración que de un ensayo clínico deben contemplar los comités de investigación clínica comprende los siguientes criterios: 1. Evaluación de la idoneidad del protocolo en relación con los objetivos del estudio, su eficiencia científica o la posibilidad de alcanzar conclusiones válidas, con la menor exposición posible de sujetos y la justificación de los riesgos y molestias http://www.fisterra.com/mbe/investiga/7ensayos/7ensayos.htm (4 of 9)22/04/2006 1:21:08 PM Estudios experimentales en la Práctica Clínica: los Ensayos clínicos 2. 3. 4. 5. previsibles, ponderadas en función de los beneficios esperados para los sujetos y la sociedad. Evaluación de la idoneidad del/de los equipos investigadores para el ensayo clínico propuesto. En este apartado hay que tener en cuenta la experiencia y capacidad investigadora para llevar a cabo el estudio. Evaluación de la información escrita sobre las características del ensayo clínico que se dará a los posibles sujetos de la investigación, la forma en que dicha información será proporcionada y el tipo de consentimiento que va a obtenerse. Comprobación de la previsión de la compensación y tratamiento que se ofrecerá a los sujetos participantes en caso de lesión o de muerte atribuible al ensayo clínico y del seguro o indemnización para cubrir las responsabilidades especificadas por la legislación. Conocimiento y evaluación del alcance de las compensaciones que se ofrecerán a los investigadores y a los sujetos de la investigación por su participación. Para la evaluación de un artículo sobre terapéutica siguiendo las recomendaciones de "The Evidence-Based Medicine Working Group" (8,9) debemos tener en cuenta las siguientes consideraciones: q Son válidos los resultados del estudio. ¿ Fue aleatoria la asignación de los pacientes al tratamiento? r ¿ Se ha tenido en cuenta en las conclusiones a todos los pacientes correctamente incluidos, en cuanto a su número y a sus características? r ¿Se realizó un enmascaramiento de los pacientes, los médicos y del personal del estudio? r Aparte de la intervención experimental del estudio ¿fueron ambos grupos igualmente tratados? ¿Cuáles fueron los resultados del estudio? r q q ¿Cuál fue la magnitud del efecto terapéutico? ¿Cuál ha sido la precisión en la estimación del efecto? r ¿Cuál fue la magnitud del efecto terapéutico? r ¿Cuál ha sido la precisión en la estimación del efecto? ¿Los resultados del estudio son útiles para mis pacientes? r r r r r ¿Puedo aplicar estos resultados a mis pacientes? ¿Se han considerado todos los resultados clínicamente importantes? Los beneficios terapéuticos ¿compensan los riesgos potenciales y los costes? Aunque los investigadores tienen la obligación de revisar críticamente el estudio y sus hallazgos y presentar suficiente información para que el lector pueda evaluar adecuadamente el ensayo, los lectores deben tener la suficiente capacidad crítica para discriminar la calidad de la mejor evidencia. Consideramos que el conocimiento metodológico de los diferentes aspectos de un ensayo clínico ayudan a valorar la calidad de la evidencia científica y, en definitiva, ayudan a mejorar el cuidado de los pacientes, que es el objetivo fundamental de nuestro trabajo. http://www.fisterra.com/mbe/investiga/7ensayos/7ensayos.htm (5 of 9)22/04/2006 1:21:08 PM Estudios experimentales en la Práctica Clínica: los Ensayos clínicos Un ejemplo Un ejemplo de la estructura de un artículo sobre terapéutica para que el lector realice su propio análisis crítico podría venir dado por la pregunta frecuente de considerar el tratamiento de un paciente con cardiopatía isquémica y concentraciones elevadas de colesterol en sangre. Se pretende buscar información científica sobre la eficacia del tratamiento hipolipemiante. La búsqueda bibliográfica aporta el siguiente artículo y se realiza una valoración crítica detenida ponderando el beneficio del tratamiento sobre tanto la reducción relativa como la absoluta del riesgo y verificando fácilmente el esfuerzo a realizar según el número de sujetos a tratar por cardiopatía isquémica para evitar un caso de muerte o de infarto de miocardio Randomised trial of cholesterol lowering in 4444 patients with coronary heart disease: the Scandivarian Simvastatin Survival Study (4S). Lancet 1994; 334: 13831389. Objetivo: evaluar la eficacia de la disminución de colesterol con simvastatina en la reducción de la mortalidad y morbilidad en pacientes con enfermedad coronaria (EC). Diseño: ensayo clínico controlado, aleatorizado en dos ramas, a doble ciego con placebo y un seguimiento medio de 5,4 años. Ámbito: pacientes procedentes de 95 centros médicos de Escandinavia. Sujetos de estudio: 4.444 pacientes de entre 35 y 70 años, 81% hombres, 51% mayores de 60 años, con antecedentes de infarto de miocardio previo a angina de pecho, colesterol sérico de 5,5 a 8,8 mmol/l, concentraciones medias de HDL de 1,18 mmol/l, LDL 4,87 mmol/l, triglicéridos 1,50 mmol/l y dieta hipolipemiante concurrente. Intervención: a 2.223 sujetos se les administraron 20 mgr de simvastatina y a 2.221 el correspondiente placebo. Parámetros principales de eficacia: mortalidad total, mortalidad de causa coronaria, infarto de miocardio no letal probable o definitivo verificado. Resultados principales: durante los 5,4 años en promedio de seguimiento la simvastatina produjo unos cambios medios de colesterol total, LDL colesterol y HDL colesterol de – 25%, -35% y +8%, respectivamente. Doscientos cincuenta y seis (12%) sujetos en el grupo de placebo murieron en comparación con 182 (8%) en el grupo de simvastatina. Hubo 189 muertes de origen coronario en el grupo de placebo y 111 en el de simvastatina y 49 y 46 muertes de origen no cardiovascular en dichos grupos, respectivamente. Seiscientos veintidós sujetos (28%) en el grupo con placebo y 431 (19%) en el de simvastatina tuvieron uno o más incidentes coronarios mayores (tabla II). Conclusiones: la disminución de la concentración de colesterol con simvastatina reduce la mortalidad total y la incidencia de incidentes cardiovasculares mayores. http://www.fisterra.com/mbe/investiga/7ensayos/7ensayos.htm (6 of 9)22/04/2006 1:21:08 PM Estudios experimentales en la Práctica Clínica: los Ensayos clínicos Tabla 2. Simvastatina vs Placebo. Resultados a los 5.4 años de seguimiento RRR RAR NNT Número que se necesita tratar Simvastatina Placebo Reduccción Reducción Absoluta Relativa del Riesgo del Riesgo TEE Tasa de Episodios en el grupo Experimental % TEC Tasa de Episodios en el grupo Control % TEC-TEE / TEC TEC-TEE 1 / RAR Mortalidad total Incidentes coronarios mayores 8% 19 % 12 % 28 % 12-8 / 12 = 33% 28-19 / 28 = 32% 12-8 = 4% 28-19 = 9% 1/4 = 25 pacientes 1/9 = 11 pacientes Bibliografía 1. Friedman LM, Furberg CD, DeMets DL. Fundamentals of clinical trials. 3 rd. ed. New York: Springer Verlag; 1998. 2. Hennekens CH, Buring JE. Epidemiology in Medicine. Boston: Little Brown; 1987. 3. Hulley SB, Cummings Sr. Designing clinical research. 2 nd. ed. Baltimore: Lippincott Williams and Wilkins; 2001. 4. Evidence-Based Medicine Working Group. Evidence Based medicine. A new approach to teaching the practice of medicine. JAMA 1992; 268: 2420-5. [Medline] 5. Procedimientos normalizados de trabajo del Comité ético de investigación clínica (CEIC) de la Comunidad Autónoma de Galicia. Santiago de Compostela: Consellería de Sanidade, Servicio Galego de Saúde; 1996. [Texto complementario] 6. Sacket DL, Haynes RB, Cuyatt GH, Tugwell P. Epidemiología clínica. Ciencia básica para la medicina clínica. 2ª ed. Madrid: Médica Panamericana; 1994. 7. Fletcher RH, Fletcher SW, Wagner EH. Clinical Epidemiology. The Essentials. 3 rd. ed. Baltimore: Williams and Wilkins; 1996. 8. Evidence-Based Medicine Working Group. User´Guides to the Medical Literature. II How to Use an Article About Therapy or Prevention. A. Are the results of the study valid? JAMA 1993; 270: 2598-2601. [Medline] 9. Evidence-Based Medicine Working Group. User´ Guides to the Medical Literature. II How to Use an Article About Therapy or Prevention. B. What were the results and will they help me in caring for my patients? JAMA 1994; 271: 59-63. [Medline] http://www.fisterra.com/mbe/investiga/7ensayos/7ensayos.htm (7 of 9)22/04/2006 1:21:08 PM Estudios experimentales en la Práctica Clínica: los Ensayos clínicos 10. Real Decreto 561/1993 de 16 de abril por el que se establecen requisitos para la realización de Ensayos clínicos con Medicamentos (Boletín Oficial del Estado, nº114, del 13 de mayo de 1993). 11. Directiva 91/507/CEE de 19 de julio sobre Normas y Protocolos Analíticos, Toxifarmacológicos y Clínicos en materia de medicamentos (DOCE ,nº L 270, 26 de septiembre de 1991). Anexo I Principios de Buena práctica clínica y garantía de calidad De acuerdo con la legislación del Estado (R.D. 561/1993)10 y de la Directiva Comunitaria (91/507/CEE)11, todos los ensayos clínicos en todas sus fases, incluyendo aquellos de biodisponibilidad y bioequivalencia, se realizarán según las normas de buena práctica clínica. Las normas de buena práctica clínica (BPC) son una ayuda para asegurar que la investigación clínica se lleva a cabo según los más elevados estándares de calidad, siguiendo los criterios éticos (basados en la Declaración de Helsinki y desarrollos ulteriores) y con un equipo médico de garantía. En este sentido, las normas de BPC constituyen una norma para el diseño, dirección, realización, cumplimiento, monitorización, auditoría, registro, análisis e información de ensayos clínicos que asegura que los datos y resultados obtenidos son correctos y creíbles y que se protegen los derechos, integridad y confidencialidad de los sujetos del ensayo. Los principios de la BPC (buena práctica clínica) son los siguientes: 1. Los ensayos clínicos deben ser realizados de acuerdo con los principios éticos que tienen su origen en la Declaración Helsinki, los cuales son consistentes con la BPC y los requisitos reguladores pertinentes. 2. Antes de iniciar un ensayo, deben considerarse las inconveniencias y riesgos previsibles en relación con el beneficio previsto paras el sujeto individual del ensayo y para la sociedad. Un ensayo debe ser iniciado y continuado sólo si los beneficios previstos justifican los riesgos. 3. Los derechos, seguridad y bienestar de los sujetos del ensayo son las consideraciones más importantes y deben prevalecer sobre los intereses de la ciencia y la sociedad. 4. La información clínica y no clínica disponible sobre un producto en investigación debe ser adecuada para respaldar el ensayo clínico propuesto. 5. Los ensayos clínicos deben ser científicamente razonables y estar descritos en un protocolo claro y detallado. 6. Un ensayo debe ser realizado de acuerdo con el protocolo, que ha recibido una revisión previa y una opinión favorable/aprobación de un Consejo Institucional de Revisión (CIR) / Comité Ético Independiente (CEI). 7. El cuidado médico que reciben los sujetos y las decisiones médicas que afectan a http://www.fisterra.com/mbe/investiga/7ensayos/7ensayos.htm (8 of 9)22/04/2006 1:21:08 PM Estudios experimentales en la Práctica Clínica: los Ensayos clínicos 8. 9. 10. 11. 12. los mismos deben ser siempre responsabilidad de un médico cualificado o, en su caso de un odontólogo cualificado. Cada individuo implicado en la realización de un ensayo debe ser cualificado, por educación, formación y experiencia, para realizar su labor. Se debe obtener un consentimiento informado, dado libremente, de cada sujeto, previamente a su participación en el ensayo clínico. Toda la información del ensayo clínico debe ser registrada, manejada y almacenada de forma que permita su comunicación, verificación e interpretación exactas. Debe protegerse la confidencialidad de los registros que pudieran identificar a los sujetos, respetando la privacidad y las normas de confidencialidad de acuerdo con los requisitos reguladores pertinentes. Los productos en investigación deben ser fabricados, manejos y almacenados de acuerdo con las normas de buena práctica de fabricación pertinentes y se deben utilizar de acuerdo con el protocolo aprobado. Se deberán llevar a cabo los sistemas y procedimientos que aseguren la calidad de cada aspecto del ensayo. Arriba | Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/7ensayos/7ensayos.htm (9 of 9)22/04/2006 1:21:08 PM El Consentimiento Informado en los Ensayos Clínicos Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 29/03/01 El Consentimiento Informado en los ensayos clínicos Lamas Meilán, Manuel María* Pita Fernández, Salvador** [ Correo de contacto ] * Doctor en Derecho ** Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña (España) Cad Aten Primaria 1998; 5: 99-103. Un ensayo clínico es una evaluación experimental de un producto, sustancia, medicamento, técnica diagnóstica o terapéutica que a través de su aplicación a seres humanos pretende evaluar su eficacia y seguridad (1-3). Diferentes grupos han propuesto que en la práctica médica diaria se empleen solo los medicamentos y procedimientos que hayan demostrado mayor eficacia y eficiencia sobre la salud de la población (4). En la práctica médica actual un ensayo clínico aleatorio controlado de una terapéutica contra otra es la norma aceptada por la cual se juzga la utilidad de un tratamiento. El diseño del estudio debe contemplar básicamente: a. b. c. d. e. f. g. h. La ética y justificación del ensayo. La población susceptible de ser estudiada. La selección de los pacientes con su consentimiento a participar. El proceso de aleatorización. La descripción minuciosa de la intervención. El seguimiento exhaustivo que contemple las perdidas y los no cumplidores. La medición de la variable final. La comparación de los resultados en los grupos de intervención y control. Contenido Criterios de los Evaluadores de los comités éticos Requisitos para la realización de Ensayos Clínicos con medicamentos (R.D. 561/1993) Bibliografía Documento en PDF (52Kb) ¿Problemas con PDF? Tablas Tabla 1. Apartados del Protocolo de un Ensayo Clínico Tabla 2. Modelo de Consentimiento Informado Real Decreto 223/2004, por el que se regulan los ensayos clínicos con medicamentos El protocolo del ensayo debe estar claramente desarrollado y escrito antes del proceso de selección de los pacientes. Los elementos básicos de dicho protocolo se indican en la tabla 1 (5). La evaluación y valoración del protocolo del ensayo clínico se llevará a cabo por evaluadores de los comités éticos correspondientes según los siguientes criterios (6,7): 1. Evaluación de la idoneidad del protocolo en relación a los objetivos del estudio, su eficiencia científica o la posibilidad de alcanzar conclusiones válidas, con la menor exposición posible de sujetos y la justificación de los riesgos y molestias previsibles, ponderadas en función de los beneficios esperados para los sujetos y la http://www.fisterra.com/mbe/investiga/8consentimiento/consentimiento_ensayos.htm (1 of 9)22/04/2006 1:21:16 PM El Consentimiento Informado en los Ensayos Clínicos 2. 3. 4. 5. sociedad. Evaluación de la idoneidad del/de los equipos investigador/es para el ensayo clínico propuesto. Se tendrá en cuenta la experiencia y capacidad investigadora para llevar adelante el estudio, en función de sus obligaciones asistenciales y de los compromisos previamente adquiridos con otros protocolos de investigación. Evaluación de la información escrita sobre las características del ensayo clínico que se dará a los posibles sujetos de la investigación, o en su defecto, a su representante legal, la forma en que dicha información será proporcionada y el tipo de consentimiento que va a obtenerse. Comprobación de la previsión de la compensación y tratamiento que se ofrecerá a los sujetos participantes en caso de lesión o de muerte atribuibles al ensayo clínico, y del seguro o indemnización para cubrir las responsabilidades especificadas por la legislación. Conocimiento y evaluación del alcance de las compensaciones que se ofrecerán a los investigadores y a los sujetos de la investigación por su participación. La valoración del consentimiento informado debe contemplar los apartados que se señalan en la tabla 2, según el Real Decreto 561/93 (6). Real Decreto 561/1993, de 16 de abril, por el que se establecen los requisitos para la realización de ensayos clínicos con medicamentos. [ texto completo ] Aquí analizaremos su art.12, en el cual se regula el consentimiento informado en estos procedimientos. Artículo 12. Consentimiento informado. 1. Es imprescindible que el sujeto otorgue libremente su consentimiento informado antes de poder ser incluido en un ensayo clínico. Imprescindible: pese a comenzar el párrafo 1º de este artículo con el término imprescindible, en el apartado 6º se regula cuando "excepcionalmente se puede prescindir de este requisito". Sujetos: Las personas sanas o enfermas, con o sin interés terapéutico particular. Los menores o incapaces sólo podrán ser sujetos de ensayos clínicos sin interés terapéutico particular si el Comité Etico de Investigación Médica determina que se cumple todo lo siguiente : a) Adopción de las medidas necesarias que garanticen que el riesgo sea mínimo ; b) Las experiencias a que van a ser sometidos son equivalentes a las que correspondan a su situación médica, psicológica, social o educacional ; c) Del ensayo se obtendrán conocimientos relevantes sobre la enfermedad o situación objeto de investigación, de vital importancia para entenderla, paliarla o curarla ; d) Estos conocimientos no pueden ser obtenidos de otro modo. Las mujeres gestantes o en período de lactancia sólo podrán realizar ensayos clínicos sin finalidad terapéutica cuando el Comité Etico de Investigación Clínica concluya que no supone ningún riesgo previsible para su salud ni para la del feto o niño y se obtendrán conocimientos útiles y relevantes http://www.fisterra.com/mbe/investiga/8consentimiento/consentimiento_ensayos.htm (2 of 9)22/04/2006 1:21:16 PM El Consentimiento Informado en los Ensayos Clínicos sobre el embarazo o la lactancia (art. 11 apartados 1, 2, 3 y 4 del mencionado Real Decreto (R.D.). Resulta evidente que los grupos de sujetos objeto de especial protección como los menores, incapaces, mujeres gestantes... a los que se les someta a un ensayo clínico sin beneficio directo para su salud, el Comité deberá actuar muy diligentemente toda vez que los requisitos que se establecen " riesgos mínimos, no solo útiles, sino relevantes, que no se puedan obtener de otro modo" conlleva un análisis exhaustivo previo de dicho ensayo lo que implicará una revisión amplia y actualizada de toda la literatura científica relacionada con dicho estudio. Libre: Ha de ser emitido sin vicios que lo invaliden. 2. Todas las personas implicadas en un ensayo clínico evitarán cualquier influencia sobre el sujeto participante en el ensayo. Influencia: Entendemos que una información objetiva de los riesgos que se asuman así como de los beneficios esperados y una compensación económica moderada en los ensayos clínicos sin beneficio directo para la salud de los sujetos participantes, evidencian una falta de influencia. Ya que pese a la fuerte carga de subjetividad del término influencia, esta última como todo hecho subjetivo se demuestra mediante hechos objetivos. Así contribuiremos a no inducir al sujeto participante a hacerlo por motivos que no sean beneficio directo para su salud o interés por el avance científico tal y como se establece en el art. 11 de este R.D. 3. El consentimiento informado es el procedimiento que garantiza que el sujeto ha expresado voluntariamente su intención de participar en el ensayo clínico, después de haber comprendido la información que se le ha dado acerca de los objetivos del estudio, beneficios, incomodidades y riesgos previstos, alternativas posibles, derechos y responsabilidades, tal como se recoge en el anexo 6, apartado 1. El documento de consentimiento informado (anexo 6, apartado 2 ó 3) acredita que dicho consentimiento ha sido otorgado. La jurisprudencia entiende que el compromiso que asume el médico con el paciente es solo de medios, no de resultados, si bien en la denominada medicina voluntaria (cirugía estética, ensayos clínicos, medios profilácticos), se exige un mayor rigor en la obligación de informar. 4. El sujeto expresará su consentimiento preferiblemente por escrito (anexo 6, apartado 2), en su defecto, de forma oral ante testigos independientes del equipo investigado que lo declaran por escrito bajo su responsabilidad (anexo 6, apartado http://www.fisterra.com/mbe/investiga/8consentimiento/consentimiento_ensayos.htm (3 of 9)22/04/2006 1:21:16 PM El Consentimiento Informado en los Ensayos Clínicos 3). En aquellos ensayos sin interés terapéutico particular para el sujeto, su consentimiento constará necesariamente por escrito. Deberá el médico y no el sujeto del ensayo, probar que existió el consentimiento. La carga de la prueba corresponderá en estos supuestos al facultativo. 5. En los casos de menores de edad e incapaces, el consentimiento lo otorgará siempre por escrito su representante legal (anexo 6, apartado 4), tras haber recibido y comprendido la información mencionada. Cuando las condiciones del sujeto lo permitan y, en todo caso, cuando el menor tenga doce o más años, deberá prestar además su consentimiento (anexo 6, apartado 2) para participar en el ensayo, después de haberle dado toda la información pertinente adaptada a su nivel de entendimiento. El consentimiento del representante legal y del menor, en su caso, será puesto en conocimiento del Ministerio Fiscal, previamente a la realización del ensayo. El Estatuto Orgánico del Ministerio Fiscal, en su art. 3 apartado 7 (8). atribuye al Fiscal la defensa y la representación de los intereses de los menores e incapaces. En estos supuestos, el Ministerio Fiscal actuará como garante de los derechos de estos sujetos objeto de especial protección, velando para que la información recibida por los destinatarios sea lo más detallada e inequívoca haciendo especial hincapié en que se minimicen los riesgos y que se obtenga un beneficio directo para la salud del menor o incapaz, debiendo actuar con gran rigor profesional cuando el ensayo no represente un beneficio directo para la salud de estos sujetos, exigiendo que se cumpla todo lo preceptuado en el art. 11 párrafo 3 del Reglamento tras haberlo así determinado previamente el Comité Etico de Investigación Clínica. 6. En el caso excepcional en que por la urgencia de la aplicación del tratamiento no fuera posible disponer del consentimiento del sujeto o de su representante legal en el momento de su inclusión en el ensayo clínico, este hecho será informado al Comité Etico de Investigación Clínica y al promotor por el investigador, explicando las razones que ha dado lugar al mismo. En cualquier caso, esta situación estará prevista en el protocolo del ensayo clínico aprobado por el correspondiente Comité Etico de Investigación Clínica, y únicamente procederá cuando tenga un específico interés terapéutico particular para el paciente. El sujeto o su representante legal será informado en cuanto sea posible y otorgará su consentimiento para continuar en el ensayo si procediera. Esta circunstancia excepcional sólo podrá aplicarse a ensayos clínicos con interés terapéutico particular para el paciente. Dada la media excepcional que regula esta apartado, el Comité antes de aprobar el protocolo deberá acreditar que la urgencia en la aplicación del tratamiento en este tipo de supuestos no es tan solo una manifestación del equipo investigador, sino una realidad objetivable y como únicamente procederá cuando tenga un específico interés terapéutico http://www.fisterra.com/mbe/investiga/8consentimiento/consentimiento_ensayos.htm (4 of 9)22/04/2006 1:21:16 PM El Consentimiento Informado en los Ensayos Clínicos particular para el paciente, este interés habrá de poder cuantificarlo ya sea para compararlo con otra alternativa terapéutica al objeto de poder demostrar esta notable mejora que justifique su aplicación sin contar con el consentimiento del paciente o bien acreditar la ausencia de alternativa y las razones que hagan prever que reportará un específico interés terapéutico particular para el sujeto. Entre otras por las siguientes razones: a. La directiva 91/507/C.E.E. de 19 de julio, (9) nos dice que todos los ensayos clínicos en todas las fases se realizarán según las normas de buena práctica clínica. Estas normas pretenden garantizar que los ensayos clínicos sean diseñados, realizados y comunicados de modo que aseguren que los datos sean fiables y que se protejan los derechos de los sujetos. Si bien el orden de los factores no altera el producto, consideramos poco acertado comenzar hablando antes de la eficiencia científica que de los derechos de los sujetos. b. En el art. 43 de la Constitución Española, (10) se reconoce el derecho a la protección a la salud. Todo lo anterior es una lógica consecuencia del derecho a la vida y a la integridad física, el derecho en abstracto a la vida se concreta en el derecho a la protección a la salud. Por tanto, cuando al negar el derecho a la protección de la salud se pusiera en peligro la vida o la integridad física de las personas, nos encontraríamos en presencia de un ataque al derecho a la vida, derecho fundamental, en todas sus consecuencias. c. Los poderes públicos garantizarán la defensa de los consumidores y usuarios, protegiendo mediante procedimientos eficaces, la seguridad, la salud y los legítimos intereses económicos de los mismos, art. 51 de la Constitución. (10). d. Nuestro ordenamiento jurídico sanitario se basa en el principio de autonomía del paciente, lo que supone un cambio cultural en las relaciones médico-paciente regidas ayer y todavía hoy en gran medida por el principio de beneficencia. La cristalización de ese gran cambio cultural en la relaciones usuario-facultativo, se manifiesta bajo la forma de "consentimiento informado" , art. 10 de la Ley General de Sanidad en los apartados 5 y 6, (11) que no es otra cosa que la manifestación del respeto debido a la dignidad humana, reconociendo su derecho a tomar sus propias decisiones y garantizando su libertad en algo tan fundamental como es su propia salud. e. La lex artis, consiste en dar al enfermo los cuidados conscientes, atentos y, salvo circunstancias excepcionales, con arreglo a los datos y conclusiones actuales de la ciencia. Lo anterior tiene su origen en el art. 1.104 del Código Civil (12) cuando alude a la "diligencia que exija la naturaleza de la obligación y corresponda a las circunstancias de la persona, del tiempo y del lugar..... y cuando la obligación no exprese la diligencia que ha de presentarse en su cumplimiento, se exigirá la que correspondería a un buen padre de familia...". f. En el ensayo clínico el fin que se persigue es fundamentalmente investigador, pero no sería posible oponer el interés de la ciencia como justificación para llevar a http://www.fisterra.com/mbe/investiga/8consentimiento/consentimiento_ensayos.htm (5 of 9)22/04/2006 1:21:16 PM El Consentimiento Informado en los Ensayos Clínicos cabo los experimentos frontalmente contra la vida o la integridad física de las personas, so pena de convertir al ser humano en una cobaya. 7. El sujeto participante en un ensayo clínico o su representante podrán revocar su consentimiento en cualquier momento, sin expresión de causa y sin que por ello se derive para él responsabilidad ni perjuicio alguno. Bibliografía 1- Friedman LM, Furberg CD, DeMets DL. Fundamentals of clinical trials. 3 rd. ed. New York: Springer Verlag; 1998. 2- Hennekens CH., Buring JE. Epidemiology in Medicine. Boston : Little Brown and Company; 1987. 3- Hulley SB, Cummings Sr. Designing clinical research. 2 nd. ed. Baltimore: Lippincott Williams and Wilkins; 2001. 4- Evidence-Based Medicine Working Group. Evidence based medicine. A new approach to teaching the practice of medicine. JAMA 1992 ; 268: 2420-5. [Medline] 5- Procedimientos normalizados de trabajo del Comité Etico de Investigación Clínica. (CEIC) de la Comunidad Autónoma de Galicia. Santiago de Compostela: Servicio Galego de Saude, Consellería de Sanidade; 1996. 6- Real Decreto 561/1993 de 16 de abril por el que se establecen requisitos para la realización de Ensayos clínicos con Medicamentos (Boletín Oficial del Estado, nº114, del 13 de mayo de 1993). 7- Real Decreto 32/1996, de 25 de enero, sobre Ensayos Clínicos en Galicia. Diario Oficial de Galicia, 26 de 6 de febrero de 1996. 8- Ley 50/81, de 30 de diciembre por la que se regula el Estatuto Orgánico del Ministerio Fiscal, art. 3. 9- Directiva de la Comisión de 19 de julio de 1991 por la que se modifica el Anexo de la Directiva 75/318/CEE del Consejo relativa a la aproximación de las legislaciones de los Estados miembros sobre normas y protocolos analíticos, toxicofarmacológicos y clínicos en materia de pruebas de medicamentos (91/507/ CEE). 10- Constitución Española. Aprobada por las Cortes en Sesiones Plenarias del Congreso de los Diputados y del Senado celebradas el 31 de Octubre de 1978. [texto completo] 11- Ley 14/1986, de 25 de Abril, General de Sanidad. [texto completo] http://www.fisterra.com/mbe/investiga/8consentimiento/consentimiento_ensayos.htm (6 of 9)22/04/2006 1:21:16 PM El Consentimiento Informado en los Ensayos Clínicos 12- Código Civil. Real Orden de 29 de Julio de 1889, por la que se significa el real agrado a los miembros de la sección primera de la Comisión General de Codificación que redactaron las enmiendas y adiciones de la edición reformada del Código Civil, y por la que se dispone la publicación en la Gaceta de Madrid de la "Exposición" en la que se expresan los fundamentos de las mismas. Arriba Tabla 1. Apartados del Protocolo de un Ensayo Clínico. q q q Resumen Índice Información general: Título del ensayo Identificación del promotor r Investigador/res principal/es r Centros en los que se prevee realizar el ensayo r Fase del ensayo Justificación y Objetivos Tipo de ensayo y diseño del mismo Selección de sujetos Descripción del tratamiento Desarrollo del ensayo y evaluación de la respuesta Acontecimientos adversos Aspectos ético-legales: r r q q q q q q q q q q Consentimiento informado Póliza de seguros r Indemnización Consideraciones prácticas Análisis estadísticos Documentación complementaria: r r q q q Contratos relacionados con el ensayo clínico Presupuesto r Distribución de gastos Cuaderno de recogida de datos Manual del investigador Procedimientos normalizados de trabajo r r r r r r r r Identificación y calificación del equipo investigador Procedimiento de archivo de la documentación Procedimientos de monitorización Regulación de los procedimientos de suministros Procedimiento de notificación de acontecimientos adversos, graves e inesperados Procedimiento para proporcionar información adecuada al sujeto y consentimiento informado. Arriba http://www.fisterra.com/mbe/investiga/8consentimiento/consentimiento_ensayos.htm (7 of 9)22/04/2006 1:21:16 PM El Consentimiento Informado en los Ensayos Clínicos Tabla 2. Consentimiento informado (anexo 6 Real Decreto 561/93) 1. Hoja de información para el posible participante Es el documento escrito, específico para cada ensayo clínico, que se entregará al posible participante antes de que este otorgue su consentimiento para ser incluido en el mismo. Contendrá información referente a los siguientes aspectos del ensayo clínico: 1. Objetivo 2. Metodología empleada 3. Tratamiento que puede serle administrado, haciendo referencia al placebo si procede. 4. Beneficios derivados del estudio. 5. Incomodidades y riesgos derivados del estudio (número de visitas, pruebas complementarias a que se someterá...). 6. Posibles acontecimientos adversos. 7. Tratamientos alternativos disponibles. 8. Carácter voluntario de su participación, así como posibilidad de retirarse del estudio en cualquier momento, sin que por ello se altere la relación médico-enfermo ni se produzca perjuicio en su tratamiento. 9. Personas que tendrán acceso a los datos del voluntario y forma en que se mantendrá la confidencialidad. 10. Modo de compensación económica y tratamiento en caso de daño o lesión por su participación en el ensayo, tal como consta en la Ley de medicamento. 11. Investigador responsable del ensayo y de informar al sujeto y contestar a sus dudas y preguntas, y modo de contactar con él en caso de urgencia. 2. Modelo de Consentimiento por escrito Título del ensayo.............................................................................................. Yo .................................................... (Nombre y apellidos)................................ He leído la hoja de información que se me ha entregado. He podido hacer preguntas sobre el estudio. He recibido suficiente información sobre el estudio. He hablado con..................... (Nombre del investigador)................................... Comprendo que mi participación es voluntaria. Comprendo que puedo retirarme del estudio: 1. Cuando quiera 2. Sin tener que dar explicaciones http://www.fisterra.com/mbe/investiga/8consentimiento/consentimiento_ensayos.htm (8 of 9)22/04/2006 1:21:16 PM El Consentimiento Informado en los Ensayos Clínicos 3. Sin que esto repercuta en mis cuidados médicos Presto libremente mi conformidad para participar en el ensayo Fecha Firma del participante Arriba | Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/8consentimiento/consentimiento_ensayos.htm (9 of 9)22/04/2006 1:21:16 PM Determinación de tamaño muestral Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 06/03/01 Determinación del tamaño muestral Pita Fernández S. [ Correo de contacto ] Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña CAD ATEN PRIMARIA 1996; 3: 138-14. Todo estudio epidemiológico lleva implícito en la fase de diseño la determinación del tamaño muestral necesario para la ejecución del mismo (1-4). El no realizar dicho proceso, puede llevarnos a dos situaciones diferentes: primera que realicemos el estudio sin el número adecuado de pacientes, con lo cual no podremos ser precisos al estimar los parámetros y además no encontraremos diferencias significativas cuando en la realidad sí existen. La segunda situación es que podríamos estudiar un número innecesario de pacientes, lo cual lleva implícito no solo la pérdida de tiempo e incremento de recursos innecesarios sino que además la calidad del estudio, dado dicho incremento, puede verse afectada en sentido negativo. Para determinar el tamaño muestral de un estudio, debemos considerar diferentes situaciones (5-7): A. Estudios para determinar parámetros. Es decir pretendemos hacer inferencias a valores poblacionales (proporciones, medias) a partir de una muestra (Tabla 1). B. Estudios para contraste de hipótesis. Es decir pretendemos comparar si las medias o las proporciones de las muestras son diferentes. Tabla 1. Elementos de la Inferencia Estadística Contenido Estudios para determinar parámetros - Estimar una proporción - Estimar una media [Seguridad Precisión Proporción esperada] [Población infinita Población finita] Estudios para contraste de hipótesis - Comparación de dos proporciones - Comparación de dos medias Tamaño muestral ajustado a las pérdidas Valores de Z y α Z más β frecuentes Bibliografía Documento en PDF (95 Kb) ¿Problemas con PDF? http://www.fisterra.com/mbe/investiga/9muestras/9muestras.htm (1 of 8)22/04/2006 1:21:27 PM Determinación de tamaño muestral A. Estudios para determinar parámetros Con estos estudios pretendemos hacer inferencias a valores poblacionales (proporciones, medias) a partir de una muestra. A.1. Estimar una proporción: Si deseamos estimar una proporción, debemos saber: a) El nivel de confianza o seguridad (1-α ). El nivel de confianza prefijado da lugar a un coeficiente (Zα ). Para una seguridad del 95% = 1.96, para una seguridad del 99% = 2.58. b) La precisión que deseamos para nuestro estudio. c) Una idea del valor aproximado del parámetro que queremos medir (en este caso una proporción). Esta idea se puede obtener revisando la literatura, por estudio pilotos previos. En caso de no tener dicha información utilizaremos el valor p = 0.5 (50%). Ejemplo: ¿A cuantas personas tendríamos que estudiar para conocer la prevalencia de diabetes? Seguridad = 95%; Precisión = 3%: Proporción esperada = asumamos que puede ser próxima al 5%; si no tuviésemos ninguna idea de dicha proporción utilizaríamos el valor p = 0,5 (50%) que maximiza el tamaño muestral: donde: q Z α 2 = 1.962 (ya que la seguridad es del 95%) q q q p = proporción esperada (en este caso 5% = 0.05) q = 1 – p (en este caso 1 – 0.05 = 0.95) d = precisión (en este caso deseamos un 3%) Si la población es finita, es decir conocemos el total de la población y deseásemos saber cuántos del total tendremos que estudiar la respuesta seria: http://www.fisterra.com/mbe/investiga/9muestras/9muestras.htm (2 of 8)22/04/2006 1:21:27 PM Determinación de tamaño muestral donde: q q q q q N = Total de la población Zα2 = 1.962 (si la seguridad es del 95%) p = proporción esperada (en este caso 5% = 0.05) q = 1 – p (en este caso 1-0.05 = 0.95) d = precisión (en este caso deseamos un 3%). ¿A cuántas personas tendría que estudiar de una población de 15.000 habitantes para conocer la prevalencia de diabetes? Seguridad = 95%; Precisión = 3%; proporción esperada = asumamos que puede ser próxima al 5% ; si no tuviese ninguna idea de dicha proporción utilizaríamos el valor p = 0.5 (50%) que maximiza el tamaño muestral. Según diferentes seguridades el coeficiente de Zα varía, así: q q q q Si la seguridad Zα fuese del 90% el coeficiente sería 1.645 Si la seguridad Zα fuese del 95% el coeficiente sería 1.96 Si la seguridad Zα fuese del 97.5% el coeficiente sería 2.24 Si la seguridad Zα fuese del 99% el coeficiente sería 2.576 A.2. Estimar una media: Si deseamos estimar una media: debemos saber: a. El nivel de confianza o seguridad (1-α ). El nivel de confianza prefijado da lugar a un coeficiente (Zα ). Para una seguridad del 95% = 1.96; para una seguridad del 99% = 2.58. b. La precisión con que se desea estimar el parámetro (2 d es la amplitud del intervalo de confianza). c. Una idea de la varianza S2 de la distribución de la variable cuantitativa que se supone existe en la población. * http://www.fisterra.com/mbe/investiga/9muestras/9muestras.htm (3 of 8)22/04/2006 1:21:27 PM Determinación de tamaño muestral Ejemplo: Si deseamos conocer la media de la glucemia basal de una población, con una seguridad del 95 % y una precisión de ± 3 mg/dl y tenemos información por un estudio piloto o revisión bibliográfica que la varianza es de 250 mg/dl Si la población es finita, como previamente se señaló, es decir conocemos el total de la población y desearíamos saber cuantos del total tendríamos que estudiar, la respuesta sería: B. Estudios para contraste de hipótesis: Estos estudios pretenden comparar si las medias o las proporciones de las muestras son diferentes. Habitualmente el investigador pretende comparar dos tratamientos. Para el cálculo del tamaño muestral se precisa conocer: a. Magnitud de la diferencia a detectar que tenga interés clínicamente relevante. Se pueden comparar dos proporciones o dos medias. b. Tener una idea aproximada de los parámetros de la variable que se estudia (bibliografía, estudios previos). c. Seguridad del estudio (riesgo de cometer un error α) d. Poder estadístico (1 - β) (riesgo de cometer un error β) e. Definir si la hipótesis va a ser unilateral o bilateral. q q Bilateral: Cualquiera de los dos parámetros a comparar (medias o proporciones) puede ser mayor o menor que el otro. No se establece dirección. Unilateral: Cuando se considera que uno de los parámetros debe ser mayor que el otro, indicando por tanto una dirección de las diferencias. La hipótesis bilateral es una hipótesis más conservadora y disminuye el riesgo de cometer un error de tipo I (rechazar la H0 cuando en realidad es verdadera). B.1. Comparación de dos proporciones: Donde: q q q n = sujetos necesarios en cada una de las muestras Zα = Valor Z correspondiente al riesgo deseado Zβ = Valor Z correspondiente al riesgo deseado http://www.fisterra.com/mbe/investiga/9muestras/9muestras.htm (4 of 8)22/04/2006 1:21:27 PM Determinación de tamaño muestral q p1 = Valor de la proporción en el grupo de referencia, placebo, control o tratamiento habitual. p2 = Valor de la proporción en el grupo del nuevo tratamiento, intervención o técnica. p = Media de las dos proporciones p1 y p2 q q Los valores Zα según la seguridad y Zβ según el poder se indican en la Tabla 2 (8). B.2. Comparación de dos medias: Donde: q q q q q n = sujetos necesarios en cada una de las muestras Zα = Valor Z correspondiente al riesgo deseado Zβ = Valor Z correspondiente al riesgo deseado S2 = Varianza de la variable cuantitativa que tiene el grupo control o de referencia. d = Valor mínimo de la diferencia que se desea detectar (datos cuantitativos) Los valores Zα según la seguridad y Zβ según el poder se indican en la Tabla 2 (8). Tabla 2. Valores de Z y Z más frecuentemente utilizados α β Zα α 0.200 0.150 0.100 0.050 0.025 0.010 Test unilateral 0.842 1.036 1.282 1.645 1.960 2.326 Potencia β (1-β) Zβ Test bilateral 1.282 1.440 1.645 1.960 2.240 2.576 http://www.fisterra.com/mbe/investiga/9muestras/9muestras.htm (5 of 8)22/04/2006 1:21:27 PM Determinación de tamaño muestral 0.01 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.99 0.95 0.90 0.85 0.80 0.75 0.70 0.65 0.60 0.55 0.50 2.326 1.645 1.282 1.036 0.842 0.674 0.524 0.385 0.253 0.126 0.000 Ejemplo de comparación de dos medias: Deseamos utilizar un nuevo fármaco antidiabético y consideramos que seria clínicamente eficaz si lograse un descenso de 15 mg/dl respecto al tto. Habitual con el antidiabético estándar. Por estudios previos sabemos que la desviación típica de la glucemia en pacientes que reciben el tratamiento habitual es de 16 mg/dl. Aceptamos un riesgo de 0.05 y deseamos un poder estadístico de 90% para detectar diferencias si es que existen. precisamos 20 pacientes en cada grupo. Ejemplo de comparación de dos proporciones: Deseamos evaluar si el Tratamiento T2 es mejor que el tratamiento T1 para el alivio del dolor para lo que diseñamos un ensayo clínico. Sabemos por datos previos que la eficacia del fármaco habitual está alrededor del 70% y consideramos clínicamente relevante si el nuevo fármaco alivia el dolor en un 90%. Nuestro nivel de riesgo lo fijamos en 0.05 y deseamos un poder estadístico de un 80%. http://www.fisterra.com/mbe/investiga/9muestras/9muestras.htm (6 of 8)22/04/2006 1:21:27 PM Determinación de tamaño muestral n = 48 pacientes. En cada grupo precisamos 48 pacientes. El tamaño muestral ajustado a las pérdidas: En todos los estudios es preciso estimar las posibles perdidas de pacientes por razones diversas (pérdida de información, abandono, no respuesta….) por lo que se debe incrementar el tamaño muestral respecto a dichas pérdidas. El tamaño muestral ajustado a las pérdidas se puede calcular: Muestra ajustada a las pérdidas = n (1 / 1–R) q q n = número de sujetos sin pérdidas R = proporción esperada de pérdidas Así por ejemplo si en el estudio anterior esperamos tener un 15% de pérdidas el tamaño muestral necesario seria: 48 (1 / 1-0.15) = 56 pacientes en cada grupo. Bibliografía 1 - Contandriopoulos AP, Champagne F, Potvin L, Denis JL, Boyle P. Preparar un proyecto de investigación. Barcelona: SG Editores ; 1991. 2 - Hulley SB, Cummings SR. Diseño de la investigación clínica. Un enfoque epidemiológico. Barcelona: Doyma; 1993. 3 – Cook TD., Campbell DT. Quasi-Experimentation. Design & Analysis Issues for Field Settings. Boston: Houghton Mifflin Company; 1979. 4 - Kleinbaum DG., Kupper LL., Morgenstern H. Epidemiologic Research. Principles and Quantitative Methods. Belmont, California: Lifetime Learning Publications. Wadsworth; 1982. 5 – Dawson-Saunders B, Trapp RG. Bioestadística Médica . 2ª ed. México: Editorial el Manual Moderno; 1996. 6 – Milton JS, Tsokos JO. Estadística para biología y ciencias de la salud. Madrid: Interamericana McGraw Hill; 2001. 7 - Martín Andrés A, Luna del Castillo JD. Bioestadística para las ciencias de la salud. 4ª ed. Madrid: NORMA; 1993. http://www.fisterra.com/mbe/investiga/9muestras/9muestras.htm (7 of 8)22/04/2006 1:21:27 PM Determinación de tamaño muestral 8 – Argimón Pallas J.M., Jiménez Villa J. Métodos de investigación aplicados a la atención primaria de salud. 2ª ed. Barcelona: Mosby-Doyma; 1994. Arriba | Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/9muestras/9muestras.htm (8 of 8)22/04/2006 1:21:27 PM Cálculo del tamaño muestral para la determinación de factores pronósticos Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 06/06/01 Cálculo del tamaño muestral para la determinación de factores pronósticos Pértegas Díaz, S. [ Correo de contacto ], Pita Fernández, S. [ Correo de contacto ] Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña (España) CAD ATEN PRIMARIA 2002; 9: 30-33. La identificación de factores capaces de influir en el pronóstico de una enfermedad es de suma importancia para la actividad clínica diaria. Por un lado, porque facilita la toma de decisiones en cuanto a procedimientos diagnósticos o tratamientos y, por otro, porque el conocer la posible evolución de un paciente concreto permitirá informarlo sobre el curso clínico de su enfermedad . La realización de estudios clínico-epidemiológicos es una de las principales vías de las que se dispone para conocer el pronóstico de una patología determinada. Aunque pueden utilizarse diferentes diseños de investigación, los estudios de seguimiento, ya sean prospectivos o retrospectivos, son los más adecuados para tratar de determinar factores pronóstico. En este tipo de trabajos, una vez identificada una cohorte de pacientes con una patología determinada, se realiza un seguimiento y se calcula el riesgo relativo asociado a un determinado factor . En múltiples ocasiones, además, los datos proporcionados por los estudios clínicos suelen venir expresados en términos de tiempo de supervivencia. Una de las características esenciales de los estudios de seguimiento donde se pretende objetivar la presencia de un evento es la posible presencia de datos censurados. El paciente censurado es el que durante este seguimiento no ha presentado el evento de interés. Esto puede suceder bien porque haya abandonado el estudio antes de fallecer, o bien porque éste termine sin que se haya producido la muerte o el evento estudiado. Esta circunstancia obliga a utilizar métodos estadísticos específicos que permitan manejar este tipo de observaciones. La regresión de Cox es el método apropiado para realizar el análisis cuando existen datos censurados permitiendo, a partir de los coeficientes estimados, calcular el riesgo relativo asociado a cada uno de los factores incluidos en el modelo . Todo estudio epidemiológico lleva implícita en la fase de diseño la determinación del tamaño muestral necesario para su ejecución . Existen fórmulas sencillas que permiten calcular el tamaño muestral necesario para la estimación de un RR cuando no se dispone del tiempo de seguimiento. Sin embargo, en estudios de supervivencia, las fórmulas para el cálculo del tamaño muestral suelen ser más complicadas y se utilizan con menor frecuencia. El presente trabajo tiene por objetivo describir algunas de las fórmulas existentes para calcular el tamaño de la muestra a estudiar cuando se quiere investigar la importancia de un nuevo factor sobre el pronóstico de una enfermedad. En primer lugar, http://www.fisterra.com/mbe/investiga/muestra_pronos/pronosti.htm (1 of 7)22/04/2006 1:21:35 PM Contenido Cálculo del tamaño de la muestra para la estimación de un riesgo relativo Cálculo del tamaño de la muestra en estudios de supervivencia Bibliografía 1 1,2 Documento en PDF (95 Kb) ¿Problemas con PDF? Cálculos online Cálculos del tamaño muestral factores pronósticos (Excel) 3 4 Cálculo del tamaño muestral para la determinación de factores pronósticos se describe cómo calcular el tamaño muestral mínimo necesario para detectar un determinado riesgo relativo cuando se dispone de información acerca del estatus final del paciente pero no de su tiempo de seguimiento. A continuación, se presentan dos formas sencillas de calcular el tamaño muestral en estudios de supervivencia cuando la importancia pronóstica del factor a estudio se investiga por medio de un modelo de regresión de Cox. Se distingue el caso en el que se hace un análisis univariante de aquel en el que en el que el efecto del nuevo factor se estudia controlando por otras covariables. Cálculo del tamaño de la muestra para la estimación de un riesgo relativo El riesgo relativo mide la fuerza de la asociación entre la exposición a un factor y la presencia del evento estudiado (muerte, complicaciones, recidiva, etc.). Se calcula dividiendo la probabilidad de presentar dicho evento entre los expuestos (por ejemplo, la probabilidad de muerte entre esos pacientes) y esa misma probabilidad entre los no expuestos . Si deseamos calcular el tamaño muestral mínimo necesario para detectar un determinado riesgo relativo, deberemos conocer: 1. Dos de los siguientes tres parámetros: r 1,2 r Una idea del valor aproximado del riesgo relativo que se desea estimar (RR). La proporción de expuestos al factor de estudio que presentaron el evento de interés (P1). La proporción de no expuestos que presentaron ese mismo evento (P2). r 2. El nivel de confianza o seguridad (1-α). Generalmente se trabajará con una seguridad del 95%. 3. La precisión relativa que se quiere para el estudio . Dicha precisión es la oscilación mínima con la que se quiere estimar el RR correspondiente, expresada como porcentaje del valor real esperado para ese riesgo. Con estos datos, el cálculo del tamaño muestral se puede realizar mediante la fórmula5: Ecuación 1 Donde el valor se obtiene de la distribución normal estándar en función de la seguridad (1-α) elegida para el estudio6. En particular, para una seguridad de un 95%, se tiene que . Ilustraremos con un ejemplo el uso de la fórmula anterior: supongamos que deseamos http://www.fisterra.com/mbe/investiga/muestra_pronos/pronosti.htm (2 of 7)22/04/2006 1:21:35 PM Cálculo del tamaño muestral para la determinación de factores pronósticos saber si existen diferencias entre dos terapias diferentes A y B utilizadas habitualmente para tratar un determinado tipo de cáncer. Para ello se planea realizar un estudio prospectivo en el que se recogerá el estatus de los pacientes (vivos/muertos) al cabo de un año de ser tratados ¿Cuántos pacientes deberán estudiarse con cada tratamiento si se desea calcular el riesgo relativo con una precisión del 50% de su valor real y una seguridad del 95%? De experiencias previas, se estima que el valor real del riesgo relativo es aproximadamente igual a 3 y la probabilidad de fallecer entre los pacientes tratados con el tratamiento A de un 20%. En este caso se tiene que: Aplicando la Ecuación 1: Es decir, se necesitaría en cada grupo una muestra de 38 pacientes. Si el tamaño del efecto a detectar fuese menor, el tamaño muestral necesario para llevar a cabo el estudio aumentará. Por ejemplo, si estimamos que el RR correspondiente al nuevo tratamiento es aproximadamente igual a 2 (P1=0.4) el tamaño necesario sería: Es decir, un total de 44 pacientes tratados con cada una de las dos terapias. Cálculo del tamaño de la muestra en estudios de supervivencia Supongamos ahora que, en el ejemplo anterior, se dispone de información no sólo acerca del estatus final de los pacientes en cada uno de los dos grupos, sino que además estamos en condiciones de conocer el tiempo de supervivencia de cada uno de ellos. En este caso, para conocer si el tratamiento A tiene un efecto beneficioso sobre la evolución de los enfermos, podremos utilizar un modelo de regresión de Cox en el que se ajuste por la variable tratamiento, y a partir de cuyos coeficientes podremos estimar el RR asociado a la terapia recibida. http://www.fisterra.com/mbe/investiga/muestra_pronos/pronosti.htm (3 of 7)22/04/2006 1:21:35 PM Cálculo del tamaño muestral para la determinación de factores pronósticos Si, con este procedimiento, deseamos calcular el tamaño muestral mínimo necesario para detectar un determinado riesgo relativo, deberemos conocer: a) Una idea del valor aproximado del riesgo relativo que se desea detectar (RR). b) La proporción de expuestos al factor de estudio (p), es decir, en nuestro caso, la proporción de enfermos habitualmente tratados con la terapia A. c) El porcentaje de observaciones censuradas muestra. d) El nivel de confianza o seguridad e) El poder que se espera en el total de la con el que se desea trabajar. que se quiere para el estudio. Con estos datos, el cálculo del tamaño muestral puede abordarse mediante la fórmula7: Ecuación 2 donde, de nuevo denota el -cuantil de la distribución normal estándar6. Siguiendo con el ejemplo anterior, supongamos que el primer tratamiento (A) suele aplicarse a un 70% de los pacientes que padecen ese tipo de cáncer, mientras que la otra terapia (B) es recibida sólo por un 30% de los enfermos. Si el efecto pronóstico del tratamiento recibido va a analizarse de modo univariado, la Ecuación 2 puede aplicarse para calcular el número necesario de pacientes a estudiar. Así, para detectar un riesgo relativo de 3, y trabajando con una seguridad del 95% y un poder del 80% se tendría: Esto es, se necesitaría recoger información de 31 pacientes en total para detectar un efecto de RR=3. Si el efecto fuese menor (RR=2), se necesitarían un total de 78 pacientes y si este riesgo incluso descendiese a RR=1.5, el tamaño aumentaría hasta 228 enfermos. Todo ello si se asume que no existirá censura. Si, por el contrario, se prevé que un 20% de los datos corresponderán a observaciones censuradas, el tamaño muestral obtenido deberá multiplicarse por , resultando en un total de 47 pacientes para detectar un RR=3, 117 para detectar un RR=2 ó 342 para un RR=1.5. http://www.fisterra.com/mbe/investiga/muestra_pronos/pronosti.htm (4 of 7)22/04/2006 1:21:35 PM Cálculo del tamaño muestral para la determinación de factores pronósticos La fórmula anterior por tanto nos permite calcular el n para detectar un efecto ante la presencia de una característica o exposición determinada. Si, como sucede habitualmente, deseamos controlar o tener en cuenta más variables, el tamaño de la muestra se debe modificar teniendo en cuenta esas posibles variables. En una situación como la del ejemplo anterior, el conocimiento apropiado del efecto pronóstico del tratamiento recibido casi siempre exige ajustar por diferentes covariables en un modelo de regresión de Cox. Intuitivamente, el tratar de ajustar un modelo más complejo (ie, con un mayor número de variables) con el mismo número de pacientes llevará consigo una pérdida de precisión en la estimación de los coeficientes y, con ello, del RR asociado a cada una de las variables incluidas en el modelo multivariante. En esta situación, es obvio, que se necesita realizar alguna corrección en la Ecuación 2 que permita adaptar el tamaño muestral calculado a las variables que se incluirán a posteriori en el modelo. En este supuesto, la fórmula para el cálculo del tamaño muestral vendrá dada por : 8 Ecuación 3 La Ecuación 3 es así idéntica a la Ecuación 2, salvo en el factor , normalmente llamado “factor de inflación de la varianza”, donde denota al coeficiente de correlación de Pearson entre el factor a estudio y aquella otra variable que incluiremos en el modelo. En el caso en el que se ajuste por más de otro factor en el modelo, lo más sencillo es considerar como el mayor coeficiente de correlación entre el factor a estudio y todas las variables incluidas. Este coeficiente de correlación, cuanto mayor sea, más incrementará el valor del factor de inflacción de la varianza y, por tanto, se incrementará el tamaño de la muestra a estudiar. Siguiendo con el ejemplo anterior, posiblemente el tratamiento aplicado a cada enfermo dependerá, como ya se apuntó, de las características clínicas particulares del mismo, y recibirá una u otra terapia en función, por ejemplo, del estadiaje del tumor. En términos estadísticos, podrá entonces decirse que el factor tratamiento se encuentra “correlacionado” con esta característica. Supongamos, por ejemplo, que la correlación existente entre el nuevo tratamiento y el estadiaje del tumor es de 0.25. Este dato lo podremos obtener a partir de un estudio piloto o de otros trabajos sobre el tema. En caso de desconocerse, deberemos asumir una correlación suficientemente alta para así asegurar un poder suficiente. Una correlación de 0.25 implica un factor de inflación de la varianza de muestral mínimo necesario de http://www.fisterra.com/mbe/investiga/muestra_pronos/pronosti.htm (5 of 7)22/04/2006 1:21:35 PM . Aplicando la Ecuación 3, se obtendría un tamaño pacientes para detectar un Cálculo del tamaño muestral para la determinación de factores pronósticos efecto de RR=3, de si se quiere detectar un efecto de RR=2 y para detectar un RR=1.5. De nuevo, deberemos ajustar el tamaño muestral a posibles pérdidas. Si se prevé, como antes, un 20% de censuras, el tamaño muestral será de 43 pacientes para detectar un RR=3, de 105 para detectar un RR=2 y de 305 enfermos para detectar un RR=1.5. El cálculo del tamaño muestral, por tanto, permite al investigador precisar el número de pacientes a estudiar para detectar como significativos efectos de una magnitud determinada. El no hacerlo, o el no conocer cuantos pacientes necesitamos para detectar un efecto como significativo podría llevarnos a cometer un error de tipo II, es decir, no encontrar diferencias cuando sí las hay. Es por ello recomendable, por tanto, no sólo tener una idea aproximada del número de pacientes sino además estimar los riesgos con su 95% intervalo de confianza para conocer la precisión y la dirección del efecto investigado. Bibliografía 1. Pita Fernández S, Valdés Cañedo FA. Determinación de factores pronósticos. Cad Aten Primaria 1997; 4: 26-29. [Texto completo] 2. Pita Fernández S, Vila Alonso MT, Carpente Montero J. Determinación de factores de riesgo. Cad Aten Primaria 1997; 4: 75-78. [Texto completo] 3. Lee ET. Statistical Methods for Survival Data Analysis. Belmont, California: Lifetime Learning Publications; 1980. 4. Pita Fernández S. Determinación del tamaño muestral. Cad Aten Primaria 1996; 3: 138-141. [Texto completo] 5. Lwanga SK, Lemeshow S. Determinación del tamaño muestral en los estudios sanitarios. Manual Práctico. Ginebra: O.M.S.; 1991. 6. Pértega Díaz S, Pita Fernández S. La distribución normal. Cad Aten Primaria 2001; 8: 268274. [Texto completo] 7. Schoenfeld DA. Sample-size formula for the proportional-hazard regression model. Biometrics 1983; 39: 499-503. [Medline] 8. Schmoor C, Sauerbrei W, Schumacher M. Sample size considerations for the evaluation of prognostic factors in survival analysis. Statistic Med 2000; 19: 441-452. [Medline] http://www.fisterra.com/mbe/investiga/muestra_pronos/pronosti.htm (6 of 7)22/04/2006 1:21:35 PM Cálculo del tamaño muestral para la determinación de factores pronósticos Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/muestra_pronos/pronosti.htm (7 of 7)22/04/2006 1:21:35 PM Cálculo del tamaño muestral en estudios de casos y controles Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 17/09/02 Cálculo del tamaño muestral en estudios de casos y controles Pértegas Díaz, S. [ Correo de contacto ], Pita Fernández, S. [ Correo de contacto ] Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña (España) CAD ATEN PRIMARIA 2002; 9: 148-150. Estimación del riesgo en los estudios de casos y controles. Los estudios de casos y controles son un tipo de diseño habitualmente empleado en investigaciones clínicas que tienen por objeto la identificación de factores de riesgo. Si bien los estudios de cohortes reúnen las características idóneas para llevar a cabo este tipo de análisis, los estudios de casos y controles cuentan con la ventaja de que suelen exigir menos tiempo y ser menos costosos que aquellos 1,2 Contenido Estimación del riesgo en los estudios de casos y controles Cálculo del tamaño muestral en los estudios de casos y controles Ejemplo Bibliografía . Una de las características esenciales de los estudios de casos y controles, y su principal diferencia con los estudios de cohortes, es la forma de selección de los sujetos de estudio. En un estudio de cohortes se selecciona a los sujetos en base a su exposición. Por el contrario, en un estudio de casos y controles, se identifica a un grupo de personas con una enfermedad (casos) y se les compara con un grupo apropiado que no tenga la enfermedad (controles). Ya que los individuos son seleccionados en función de la presencia o ausencia del evento de estudio y no por su exposición, no podrá estimarse directamente el riesgo de enfermar entre los sujetos expuestos y los no expuestos. La relación entre uno o varios factores y la presencia de la enfermedad deberá estudiarse comparando la frecuencia de exposición entre los casos y los controles. Si la frecuencia de exposición es mayor en el grupo de casos que en los controles, podremos decir que hay una asociación entre la causa y el efecto. Documento en PDF (119 Kb) ¿Problemas con PDF? Cálculos online Cálculos del tamaño muestral en estudios de casos y controles (Excel) En estudios de este tipo, la distribución de n sujetos estudiados según presenten o no la enfermedad y según su exposición a cada factor se puede mostrar en una tabla 2 x 2, similar a la Tabla 1: así, existirán en la muestra casos expuestos (a), casos no expuestos (c), controles expuestos (b) y controles no expuestos (d). Como medida de la frecuencia de exposición entre los casos se puede utilizar el cociente: http://www.fisterra.com/mbe/investiga/muestra_casos/casos_controles.htm (1 of 7)22/04/2006 1:21:44 PM Cálculo del tamaño muestral en estudios de casos y controles donde p es la probabilidad de exposición entre los casos. A partir de una muestra como la de 1 la Tabla1, Ω se puede estimar dividiendo los casos expuestos entre los casos no expuestos: 1 De modo similar, se valora la frecuencia de exposición entre los controles mediante el cociente: donde p2 es la probabilidad de exposición entre los controles. La medida más utilizada para cuantificar la asociación entre la exposición y la presencia de enfermedad es el "odds ratio" (OR) y su cálculo se estima mediante el cociente de las dos cantidades anteriores: La interpretación del OR es la siguiente: si el OR es igual a 1, la exposición no se asocia con la enfermedad, mientras que si el OR es menor de 1 la exposición tiene un efecto protector (es decir, la exposición disminuye la probabilidad de desarrollar la enfermedad). Por último, si el valor del OR es mayor de 1, la exposición aumenta las posibilidades de desarrollar la enfermedad. De cualquier modo, las estimaciones del OR se deben realizar con su 95% intervalo de confianza para poder confirmar o rechazar la asociación de la exposición con la enfermedad. Como se puede observar, el valor del OR puede obtenerse de la Tabla 1 multiplicando “en cruz” sus cuatro valores. De ahí que también reciba el nombre de “razón de productos cruzados”, o también “razón de ventajas”. Bajo suposiciones adecuadas, el OR puede ser un estimador adecuado de la razón de tasas de incidencia o del riesgo relativo, medidas habitualmente utilizadas para valorar la asociación entre una exposición y un evento. Cuando la frecuencia de exposición es reducida, el valor del OR y del riesgo relativo son muy similares. http://www.fisterra.com/mbe/investiga/muestra_casos/casos_controles.htm (2 of 7)22/04/2006 1:21:44 PM Cálculo del tamaño muestral en estudios de casos y controles Cálculo del tamaño muestral en estudios de casos y controles. Supongamos que se quiere llevar a cabo un estudio de casos y controles con el fin de determinar si existe una relación significativa entre la exposición a un factor y la presencia de una determinada enfermedad. A continuación se explica cómo calcular el tamaño de muestra necesario para contrastar la hipótesis de que el OR sea igual a 1. Si se conoce la probabilidad de exposición entre los controles p2, y se prevé que el OR asociado al factor de estudio es w, el valor de p , la frecuencia de exposición entre los casos, 1 puede obtenerse fácilmente: Así, el problema del cálculo del tamaño muestral podrá abordarse mediante las fórmulas habituales empleadas en la comparación de dos proporciones, asumiendo aquí que las proporciones esperadas son p y p2 . 1 3 Recurriendo a las fórmulas habituales para determinar el tamaño muestral mínimo necesario para la comparación de dos proporciones, se precisará conocer : a) La magnitud de la diferencia a detectar, que tenga interés clínicamente relevante. En este caso, como ya vimos, bastaría con conocer dos de los siguientes tres parámetros: q q 3 Una idea del valor aproximado del odds ratio que se desea estimar (w) La frecuencia de la exposición entre los casos (p ) 1 q La frecuencia de la exposición entre los controles (p2) b) La seguridad con la que se desea trabajar (α), o riesgo de cometer un error de tipo I. Generalmente se trabaja con una seguridad del 95% (α = 0,05). c) El poder estadístico (1-β) que se quiere para el estudio, o riesgo de cometer un error de tipo II. Es habitual tomar β = 0,2, es decir, un poder del 80%. Con estos datos, y para un planteamiento bilateral, para el cálculo del tamaño muestral se utilizará la expresión 4,5 : http://www.fisterra.com/mbe/investiga/muestra_casos/casos_controles.htm (3 of 7)22/04/2006 1:21:44 PM Cálculo del tamaño muestral en estudios de casos y controles Ecuación 1 donde y los valores y son valores que se obtienen de la distribución 6 normal estándar en función de la seguridad y el poder elegidos para el estudio . En particular, para una seguridad de un 95% y un poder estadístico del 80% se tiene que . Hasta ahora se ha asumido un tamaño muestral igual para casos y controles. En caso de que el número de casos y controles no esté balanceado, la expresión anterior deberá ser ligeramente modificada. Denotando ahora por n el número de casos y por m el número de controles la fórmula a aplicar sería : 4 y Ecuación 2 donde c = m/n es el número de controles por cada caso. Así, el número de controles vendría dado por m = c x n. Debe precisarse que en el presente trabajo se ha tratado de exponer del modo lo más sencillo posible el procedimiento a seguir en el cálculo del tamaño de la muestra en un estudio de casos y controles. No obstante, en ocasiones se utilizan para este cálculo expresiones más complejas basadas en un corrección de la fórmula del cálculo del tamaño muestral para la comparación de dos proporciones . Así mismo, existen fórmulas específicas para el cálculo del tamaño de la muestra en el caso de que el diseño corresponda a un estudio de casos y controles pareados 7,8 4 . Ejemplo del cálculo del tamaño muestral en un estudio de casos y controles. Como ejemplo, supongamos que se desea estudiar la existencia de una asociación entre el consumo de tabaco y el hecho de sufrir un infarto de miocardio. Para poner en evidencia dicha asociación y cuantificar su magnitud se diseña un estudio de casos y controles en el que se investigará el consumo de tabaco de una serie de pacientes que han padecido un infarto de miocardio (casos) y una serie de pacientes sanos (controles). Se cree que alrededor de un 40% http://www.fisterra.com/mbe/investiga/muestra_casos/casos_controles.htm (4 of 7)22/04/2006 1:21:44 PM Cálculo del tamaño muestral en estudios de casos y controles de los controles son fumadores y se considera como diferencia importante entre ambos grupos un odds ratio de 4. Con estos datos, podemos calcular el tamaño de muestra necesario en cada grupo para detectar un odds ratio de 4 como significativamente diferente de 1 con una seguridad del 95% y un poder del 80%. De acuerdo con lo expuesto con anterioridad, conocemos los siguientes parámetros: a. b. c. d. Frecuencia de exposición entre los controles: 40% Odds ratio previsto: 4 Nivel de seguridad: 95% Poder estadístico: 80% De acuerdo con estos datos, se estima que la frecuencia de exposición entre los casos vendrá dada por: Esto es, se estima que aproximadamente un 73% de los casos son fumadores. Aplicando la Ecuación 1, se obtiene: Es decir, se necesitaría estudiar a 35 sujetos por grupo (35 pacientes con infarto de miocardio y 35 controles) para detectar como significativo un valor del odds ratio de 4. Si se reduce el tamaño del efecto a detectar, asumiendo que el odds ratio es aproximadamente igual a 3, se obtiene: y, de acuerdo con la Ecuación 1, serían necesarios n=54 pacientes por grupo para llevar a cabo el estudio. En algunos estudios, el investigador reune un número mayor de controles que de casos con el objeto de incrementar el poder estadístico. Supongamos que en el presente ejemplo se planea obtener dos controles por caso, y se asume que el odds ratio a detectar es aproximadamente igual a 3. Aplicando la Ecuación 2: http://www.fisterra.com/mbe/investiga/muestra_casos/casos_controles.htm (5 of 7)22/04/2006 1:21:44 PM Cálculo del tamaño muestral en estudios de casos y controles Por tanto, se necesitaría un grupo de n=40 casos (pacientes con infarto de miocardio) y m=2x40=80 controles para llevar a cabo la investigación. El cálculo del tamaño de la muestra en los estudios de casos y controles debe formar parte del diseño metodológico del mismo, ya que la ejecución de este tipo de estudios es costosa. El iniciar un estudio sin conocer el poder estadístico y la seguridad para detectar diferencias, si es que existen, podría ser motivo de cometer un error de tipo II en el sentido de no detectar diferencias cuando realmente las hay. TABLA 1. Disposición de los sujetos incluidos en un estudio de casos y controles. Tabla de 2 x 2. Casos Expuestos No expuestos a c a+c Controles b d b+d a+b c+d n Bibliografía 1. Kelsey JL, Thompson WD, Evans AS. Methods in Observational Epidemiology. New York: Oxford University Press; 1986. 2. Hennekens CH, Buring JE. Epidemiology in Medicine Boston: Litte, Brown and Company; 1987. 3. Pita Fernández S. Determinación del tamaño muestral. Cad Aten Primaria 1996; 3: 138-141. [Texto completo] 4. Fleiss JL. Statistical methods for rates and proportions. 2nd edition. New York: John Wiley & Sons; 1981. 5. Lwanga SK, Lemeshow S. Determinación del tamaño de las muestras en los estudios sanitarios. Manual práctico. Ginebra: O.M.S.; 1991 6. Pértega Díaz S, Pita Fernández S. La distribución normal. Cad Aten Primaria 2001; 8: 268-274. [Texto completo] 7. Fleiss JL, Levin B. Sample size determination in studies with matched pairs. J Clin Epidemiol 1988; 41(8): 727-730. [Medline] 8. Schlesselman JJ. Case-Control Studies. New York: Oxford University Press; 1982. http://www.fisterra.com/mbe/investiga/muestra_casos/casos_controles.htm (6 of 7)22/04/2006 1:21:44 PM Cálculo del tamaño muestral en estudios de casos y controles Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/muestra_casos/casos_controles.htm (7 of 7)22/04/2006 1:21:44 PM Cálculo del tamaño muestral para calcular la significación del coeficiente de correlación lineal Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 18/11/02 Determinación del tamaño muestral para calcular la significación del coeficiente de correlación lineal Pértegas Díaz, S. [ Correo de contacto ], Pita Fernández, S. [ Correo de contacto ] Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña (España) CAD ATEN PRIMARIA 2001; 2002; 9: 209-211. El coeficiente de correlación lineal de Pearson En el análisis de estudios clínico-epidemiológicos con frecuencia interesa estudiar, a partir de los datos de un grupo de individuos, la posible asociación entre dos variables. En el caso de datos cuantitativos ello implica conocer si los valores de una de las variables tienden a ser mayores (o menores) a medida que aumentan los valores de la otra, o si no tienen nada que ver entre sí. La correlación es el método de análisis adecuado cuando se precisa conocer la posible relación entre dos variables de este tipo. Así, el grado de asociación entre dos variables numéricas puede cuantificarse mediante el cálculo de un coeficiente de correlación 1-5 Contenido El coeficiente de correlación lineal de Pearson Cálculo del tamaño muestral para calcular la significación del coeficiente de correlación lineal de Pearson Ejemplo Tabla 1 Tabla 2 Bibliografía . Debe entenderse, no obstante, que el coeficiente de correlación no proporciona necesariamente una medida de la causalidad entre ambas variables sino tan sólo del grado de relación entre las mismas . La medida más habitualmente utilizada para el estudio de la correlación es el coeficiente de correlación lineal de Pearson. El coeficiente de Pearson mide el grado de asociación lineal entre dos variables cualesquiera, y puede calcularse dividiendo la covarianza de ambas entre el producto de las desviaciones típicas de las dos variables1. Para un conjunto de datos, el valor r de este coeficiente puede 6 Documento en PDF (115 Kb) ¿Problemas con PDF? Cálculos online Cálculo del tamaño muestral para calcular la significación del coeficiente de correlación lineal (Excel) tomar cualquier valor entre –1 y +1. El valor de r será positivo si existe una relación directa entre ambas variables, esto es, si las dos aumentan al mismo tiempo. Será negativo si la relación es inversa, es decir, cuando una variable disminuye a medida que la otra aumenta. Un valor de +1 ó –1 indicará una relación lineal perfecta entre ambas variables, mientras que un valor 0 indicará que no existe relación lineal entre ellas. Hay que tener en consideración que un valor de cero no indica necesariamente que no exista correlación, ya que las variables pueden presentar una relación no lineal. Para un conjunto de datos cualquiera, y una vez calculado el coeficiente de correlación http://www.fisterra.com/mbe/investiga/pearson/pearson.htm (1 of 6)22/04/2006 1:21:53 PM Cálculo del tamaño muestral para calcular la significación del coeficiente de correlación lineal entre un par de variables X e Y, puede realizarse un sencillo test de hipótesis, basado en la distribución t de Student, para valorar la significación del coeficiente de correlación y confirmar si existe o no una asociación estadísticamente significativa entre ambas características. Estudiar la significación estadística del coeficiente de correlación es, en definitiva, determinar si r es estadísticamente diferente de cero. Así mismo, puede obtenerse un intervalo de confianza para el coeficiente de correlación en la población. Sin embargo, mientras que el valor del coeficiente de correlación de Pearson puede ser calculado para cualquier conjunto de datos, la validez del test de hipótesis sobre la correlación entre las variables requiere que al menos una de ellas tenga una distribución normal en la población de la cual procede la muestra. Para el cálculo del intervalo de confianza, se requiere además que ambas variables presenten una distribución normal. Aún bajo esta suposición, la distribución del coeficiente de correlación no será normal, pero puede transformarse para conseguir un valor de z que siga una distribución normal y calcular a partir de él su correspondiente intervalo de confianza2. Cálculo del tamaño muestral para calcular la significación del coeficiente de correlación lineal de Pearson. Supongamos que se quiere llevar a cabo un estudio con el fin de determinar si existe o no una relación significativa entre dos variables numéricas X e Y. Para llevar a cabo la investigación, se recoge una muestra de individuos en donde de cada uno de ellos se determina el valor que toma cada una de las dos variables. A continuación se muestra cómo calcular el tamaño de muestra necesario para contrastar la hipótesis de que el correspondiente coeficiente de correlación sea significativamente diferente de 0. Como se dijo anteriormente, la distribución muestral del coeficiente de Pearson no es normal, pero bajo la suposición de que las dos variables de estudio presentan una distribución gaussiana, el coeficiente de Pearson puede transformarse para conseguir un valor de z que sigue una distribución normal. Se suele considerar la transformación de Fisher: Siendo el error estándar de z aproximadamente igual a . Utilizando esta aproximación, se obtiene fácilmente una fórmula para el cálculo del http://www.fisterra.com/mbe/investiga/pearson/pearson.htm (2 of 6)22/04/2006 1:21:53 PM Cálculo del tamaño muestral para calcular la significación del coeficiente de correlación lineal número de sujetos necesarios en esta situación. Para su cómputo, se precisará conocer: q La magnitud de la correlación que se desea detectar (r). Esto es, se precisa tener una idea, a partir de publicaciones o estudios previos, del valor aproximado del coeficiente de correlación existente entre las dos variables a estudio. La seguridad con la que se desea trabajar, , o riesgo de cometer un error de ). q tipo I. Generalmente se trabaja con una seguridad del 95% ( q El poder estadístico, , que se quiere para el estudio, o riesgo de cometer un o, equivalentemente, un poder error de tipo II. Es habitual tomar estadístico del 80%. Se debe precisar además si el contraste de hipótesis se va a realizar con un planteamiento unilateral (el r calculado es mayor o menor de cero) o bilateral (el r calculado es diferente de cero) . Si se dispone de los datos anteriores, el cálculo del tamaño muestral con un planteamiento bilateral puede realizarse mediante la expresión7: donde los valores y se obtienen de la distribución normal estándar en función de la seguridad y el poder elegidos para el estudio. En particular, para una seguridad del y . En las Tablas 95% y un poder estadístico del 80% se tiene que 1 y 2 se muestran los valores de estos parámetros utilizados con mayor frecuencia en el cálculo del tamaño muestral, en función de la seguridad y el poder con los que se trabaje. Para un planteamiento unilateral, el razonamiento es análogo, llegando a la siguiente fórmula para el cálculo del tamaño muestral: http://www.fisterra.com/mbe/investiga/pearson/pearson.htm (3 of 6)22/04/2006 1:21:53 PM Cálculo del tamaño muestral para calcular la significación del coeficiente de correlación lineal donde ahora el valor se obtiene igualmente de la distribución normal estándar, . La Tabla 1 muestra los valores siendo para una seguridad del 95% igual a más frecuentemente utilizados en función de la seguridad elegida cuando se trabaja con un planteamiento unilateral. Como resulta habitual, las fórmulas anteriores pueden modificarse con el fin de ajustar el tamaño muestral previsto para el estudio a posibles pérdidas de información que se produzcan durante el desarrollo del mismo. Así, asumiendo un porcentaje de pérdidas L, el tamaño de la muestra a estudiar vendrá dado por: donde n denota el valor del tamaño muestral calculado por cualquiera de las dos fórmulas anteriores según el caso. Ejemplo del cálculo del tamaño muestral para el cálculo del coeficiente de correlación entre dos variables Supongamos que se desea estudiar la asociación entre la edad y el nivel de colesterol entre los pacientes que acuden a consulta en un determinado centro de salud. Para ello se diseña un estudio en el que se determinará mediante una analítica los valores de colesterol en una muestra aleatoria de los pacientes atendidos en ese centro durante un periodo de tiempo prefijado, de los que también se registrará su edad. Se cree que el valor del coeficiente de correlación lineal de Pearson entre los valores de la edad y el colesterol puede oscilar alrededor de r=0,4. Aplicando las fórmulas anteriores, con un planteamiento bilateral, una seguridad del 95% y un poder estadístico del 80%, se obtiene: Es decir, se necesitará estudiar a una muestra de 47 pacientes para detectar como significativo un valor del coeficiente de correlación de r=0,4. Como resulta habitual, si el tamaño del efecto a detectar es menor, asumiendo ahora que el valor del coeficiente de correlación es aproximadamente igual a r=0,3, se obtiene: http://www.fisterra.com/mbe/investiga/pearson/pearson.htm (4 of 6)22/04/2006 1:21:53 PM Cálculo del tamaño muestral para calcular la significación del coeficiente de correlación lineal En este caso, se necesitaría incluir a 85 pacientes para llevar a cabo el estudio. Si, además, en este último caso se prevé un 20% de posibles pérdidas de información durante la ejecución del estudio, el tamaño muestral debe recalcularse según la siguiente expresión: Es decir, se necesitaría una muestra de 107 pacientes para llevar a cabo la investigación. No debe olvidarse que el precisar convenientemente el tamaño de muestra necesario para la ejecución de un estudio permite al investigador conocer el número mínimo de pacientes a estudiar para detectar como significativos efectos de una magnitud determinada. El no hacerlo podría llevar a realizar el estudio con un número insuficiente de casos y a cometer un error de tipo II, es decir, a no detectar una correlación significativa entre las dos variables cuando realmente la hay. TABLA 1. Valores de y utilizados con mayor frecuencia en el cálculo elegida para el estudio. Prueba unilateral del tamaño muestral en función de la seguridad Prueba bilateral Seguridad α 80 % 85 % 90 % 95 % 97,5 % 99 % 0,200 0,150 0,100 0,050 0,025 0,010 1,282 1,440 1,645 1,960 2,240 2,576 0,842 1,036 1,282 1,645 1,960 2,326 TABLA 2. Valores de z 1-β utilizados con mayor frecuencia en el cálculo del tamaño muestral en función de el poder estadístico 1-β elegido para el estudio. http://www.fisterra.com/mbe/investiga/pearson/pearson.htm (5 of 6)22/04/2006 1:21:53 PM Cálculo del tamaño muestral para calcular la significación del coeficiente de correlación lineal Poder estadístico 99 % 95 % 90 % 85 % 80 % 75 % 70 % 65 % 60 % 55 % 80 % β 0,01 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45 0,5 z 1-β 2,326 1,645 1,282 1,036 0,842 0,674 0,524 0,385 0,253 0,126 0,000 Bibliografía 1. Pita Fernández S. Relación entre variables cuantitativas. Cad Aten Primaria 1997; 4: 141144. [Texto completo] 2. Altman D.G. Practical Statistics for Medical Research. London: Chapman&Hall, 1991. 3. Dawson-Saunders B, Trapp RG. Bioestadística Médica. 2ª ed. México: Editorial el Manual Moderno; 1996. 4. Milton JS, Tsokos JO. Estadística para biología y ciencias de la salud. Madrid: Interamericana McGraw Hill; 2001. 5. Armitage P, Berry G. Estadística para la investigación biomédica. Barcelona: Doyma; 1992. 6. Pita Fernández S. Correlación frente a causalidad. JANO 1996; (1774): 59-60. 7. Argimon Pallás J.M., Jiménez Villa J. Métodos de Investigación Clínica y Epidemiológica. 2ª ed. Madrid: Ediciones Harcourt, 2000. Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/pearson/pearson.htm (6 of 6)22/04/2006 1:21:53 PM Cálculo del poder estadístico de un estudio Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 20/01/03 Cálculo del poder estadístico de un estudio Pértegas Díaz, S. [ Correo de contacto ], Pita Fernández, S. [ Correo de contacto ] Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario-Universitario Juan Canalejo. A Coruña (España) Cad Aten Primaria 2003; 10: 59-63. Las pruebas de contraste de hipótesis y el concepto de poder estadístico. El análisis de estudios clínico-epidemiológicos con frecuencia exige la comparación entre varios tratamientos o entre diferentes grupos de sujetos con respecto a una respuesta de interés. Por ejemplo, puede interesarnos comparar la eficacia de un nuevo fármaco frente a la de otro estándar en el tratamiento de una determinada patología, o bien establecer la asociación entre la exposición a un factor de riesgo y el desarrollo de cierta enfermedad. Problemas de este tipo pueden plantearse como un contraste de hipótesis, de forma que la hipótesis que se contrasta es la de que no existen diferencias entre ambos grupos o tratamientos (hipótesis nula), frente a la hipótesis alternativa de que estos sean realmente diferentes. Una prueba de contraste de hipótesis o de significación estadística calcula la probabilidad de que los resultados obtenidos en una investigación puedan ser debidos al azar en el supuesto de que la hipótesis nula sea cierta, es decir, bajo el supuesto de que no existan diferencias entre ambos grupos. Esta probabilidad es el grado de significación estadística o valor de p. Basándose en esta probabilidad, se decidirá rechazar o no la hipótesis nula. Así, cuanto menor sea el valor de p, menor será la probabilidad de que los resultados obtenidos se deban al azar y mayor evidencia habrá en contra de la hipótesis nula. Si dicha probabilidad es menor que un valor de p fijado previamente (habitualmente se toma p<0,05), la hipótesis nula se rechazará. Así, cuando el valor de p está por debajo de 0,05, se dirá que el resultado es estadísticamente significativo y será no significativo en cualquier otro caso. Así pues, a partir de los resultados de un estudio, puede llegarse a diferentes conclusiones (Tabla 1). En primer lugar, puede concluirse que existen diferencias entre los grupos que se comparan cuando realmente las hay. Asimismo, puede concluirse que no hay diferencias cuando éstas no existen. En ambos casos, no se comete ningún error. Sin embargo, también se puede concluir que existen diferencias cuando de hecho no las hay. Es decir, puede rechazarse la hipótesis nula cuando en realidad es verdadera. Si esto ocurre, se comete un error de tipo I o error α. La probabilidad de cometer un error de este tipo es lo que mide precisamente el grado de significación p. Contenido Las pruebas de contraste de hipótesis y el concepto de poder estadístico Factores que influyen en el poder estadístico de un estudio Cálculo del poder estadístico de un estudio - Ejemplo 1 - Ejemplo 2 Bibliografía Tablas y Figuras Tabla 1. Posibles conclusiones tras una prueba estadística de contraste de hipótesis Tabla 2. Fórmulas para el cálculo del poder estadístico para diferentes tipos de diseño Tabla 3. Valores de z más frecuentemente utilizados http://www.fisterra.com/mbe/investiga/poder_estadistico/poder_estadistico.htm (1 of 10)22/04/2006 1:22:04 PM Cálculo del poder estadístico de un estudio En algunas ocasiones, por el contrario, los resultados de un estudio no son significativos. Se habla entonces de “estudios negativos”. No obstante, la ausencia de significación estadística no implica necesariamente que no exista relación entre el factor de estudio y la respuesta. Puede ocurrir, que aún existiendo tal asociación o una diferencia clínicamente relevante, el estudio haya sido incapaz de detectarla como estadísticamente significativa. En estudios de este tipo se concluirá que no existen diferencias cuando realmente sí las hay. Este error se conoce como error de tipo II. La probabilidad de cometer un error de este tipo suele denotarse por β y su complementario, 1-β, es lo que se conoce como poder estadístico o potencia estadística 1-3 Figura 1. Poder estadístico en función del tamaño muestral y la magnitud del efecto a detectar. Comparación de dos proporciones Figura 2. Poder estadístico en función del tamaño muestral y el número de controles por caso en un estudio de casos y controles . En definitiva, el poder estadístico representa la probabilidad de rechazar la hipótesis nula cuando es realmente falsa. Es decir, representa la capacidad de un test para detectar como estadísticamente significativas diferencias o asociaciones de una magnitud determinada. Factores que influyen en el poder estadístico de un estudio. El poder estadístico de un estudio depende de diferentes factores, como : q Documento en PDF (189 Kb) ¿Problemas con PDF? 3 Cálculo del poder estadístico (Excel) Comparación de q q q El tamaño del efecto a detectar, es decir, la magnitud mínima de la dos proporciones diferencia o asociación entre los grupos que se considera clínicamente Comparación de dos medias relevante. Cuanto mayor sea el tamaño del efecto que se desea detectar, Estimación de mayor será la probabilidad de obtener hallazgos significativos y, por lo un OR en tanto, mayor será el poder estadístico. estudios de La variabilidad de la respuesta estudiada. Así, cuanto mayor sea la Casos y variabilidad en la respuesta, más difícil será detectar diferencias entre los Controles grupos que se comparan y menor será el poder estadístico de la Para la estimación de investigación. De ahí que sea recomendable estudiar grupos lo más un RR homogéneos posibles. Para un El tamaño de la muestra a estudiar. Cuanto mayor sea el tamaño muestral, Coeficiente de mayor será la potencia estadística de un estudio. Es por ello que en los Correlación estudios con muestras muy grandes se detectan como significativas Lineal diferencias poco relevantes, y en los estudios con muestras menores es más fácil obtener resultados falsamente negativos. El nivel de significación estadística. Si se disminuye el valor de también se disminuye el poder de la prueba. Es decir, si disminuimos la probabilidad de cometer un error de tipo I aumentamos simultáneamente la probabilidad de un error de tipo II, por lo que se trata de encontrar un punto de “equilibrio” entre ), ambas. Habitualmente se trabaja con un nivel de significación del 95% ( por lo que el equilibrio hay que en encontrarlo finalmente entre el tamaño de la muestra que es posible estudiar y el poder que se quiere para el estudio. Los cuatro factores anteriores, junto con el poder estadístico, forman un sistema cerrado. http://www.fisterra.com/mbe/investiga/poder_estadistico/poder_estadistico.htm (2 of 10)22/04/2006 1:22:04 PM Cálculo del poder estadístico de un estudio De este modo, una vez fijados tres de ellos, el cuarto queda completamente determinado. Cálculo del poder estadístico de un estudio. A la hora de diseñar una investigación, es importante determinar si dicho estudio alcanzará una precisión suficiente. En anteriores trabajos se ha mostrado cómo calcular el tamaño muestral necesario para alcanzar un determinado poder estadístico en diferentes tipos de diseño . Generalmente, se suele trabajar con un poder en torno al 80% o al 90%. Con frecuencia, sin embargo, las condiciones en las que se lleva a cabo una investigación son diferentes de las que se habían previsto en un principio. En consecuencia, y a la vista de hallazgos no significativos, es recomendable evaluar de nuevo a posteriori su potencia con el fin de discernir si el estudio carece del poder necesario para detectar una diferencia relevante o bien si realmente puede no existir tal diferencia. En la Tabla 2 se muestran las fórmulas necesarias para el cálculo del poder estadístico en función de la naturaleza de la investigación. Estas fórmulas permiten obtener un valor a partir del cual se puede determinar el poder asociado recurriendo a las tablas de la distribución normal. En la Tabla 3 se muestra la correspondencia entre algunos valores de y el poder estadístico asociado. Sin embargo, y aunque dichas fórmulas nos permitirían analizar el poder estadístico en diferentes tipos de diseño, puede resultar más sencillo disponer de algún software específico con el que poder realizar dichos cálculos . Ejemplo 1. Ilustremos el proceso del cálculo de la potencia mediante un ejemplo. Supongamos que se quiere llevar a cabo un ensayo clínico para comparar la efectividad de un nuevo fármaco con la de otro estándar en el tratamiento de una determinada enfermedad. Al inicio del estudio, se sabe que la eficacia del tratamiento habitual está en torno al 40%, y se espera que con el nuevo fármaco la eficacia aumente al menos en un 15%. El estudio se diseñó para que tuviese un poder del 80%, asumiendo una seguridad del 95%. Esto implica que son necesarios 173 pacientes en cada uno de los grupos para llevar a cabo la investigación. Tras finalizar el estudio, sólo fue posible tratar con cada uno de los fármacos a 130 pacientes en cada grupo en lugar de los 173 pacientes estimados inicialmente. Al realizar el análisis estadístico, se objetivó que no hay diferencias significativas en la efectividad de ambos tratamientos. A partir de las fórmulas de la Tabla 2, podemos calcular cuál ha sido finalmente el poder del estudio. Aplicando la fórmula para el cálculo del poder estadístico de comparación de dos proporciones ante un planteamiento unilateral se obtiene: 8 4-7 http://www.fisterra.com/mbe/investiga/poder_estadistico/poder_estadistico.htm (3 of 10)22/04/2006 1:22:04 PM Cálculo del poder estadístico de un estudio A partir de la Tabla 3, podemos determinar que un valor de corresponde a un poder en torno al 65%-70%. Utilizando las tablas de la distribución normal, se sabe que el poder es del 68%, es decir, el estudio tendría un 68% de posibilidades de detectar una mejora en la eficacia del tratamiento del 15%. Utilizando la fórmula anterior, podría obtenerse un gráfico como en el que se muestra en la Figura 1, en la que, para este ejemplo, se estima el poder estadístico del estudio en función del tamaño de la muestra estudiada y la magnitud del efecto a detectar. Así, puede concluirse que de haber estudiado 130 pacientes por grupo, se obtiene una potencia de sólo el 36.6% para detectar una diferencia mínima del 10%, una potencia del 68% para detectar una diferencia del 15% y de un 90.2% para una diferencia del 20%. Este tipo de gráficos resulta muy útil tanto en la fase de diseño de un estudio como a la hora de valorar a posteriori el poder de una investigación. Ejemplo 2. De modo análogo, supongamos que se quiere llevar a cabo un estudio de casos y controles para estudiar la posible asociación entre la presencia de cardiopatía isquémica y el hábito de fumar. De acuerdo con estudios previos, se cree que la incidencia de cardiopatía puede ser hasta 2 veces más alta entre los fumadores, y se asume que la frecuencia de exposición entre los controles será de un 40%. Debido a ciertas limitaciones, sólo es posible para el investigador incluir en el estudio a 100 pacientes con cardiopatía isquémica (casos). Utilizando de nuevo las fórmulas de la Tabla 2, con un planteamiento bilateral y una seguridad del 95%: http://www.fisterra.com/mbe/investiga/poder_estadistico/poder_estadistico.htm (4 of 10)22/04/2006 1:22:04 PM Cálculo del poder estadístico de un estudio Recurriendo de nuevo a las tablas de la distribución normal, se obtiene para un valor un poder del 68.17%. Con el fin de mejorar el poder del estudio, los investigadores se plantean reclutar un mayor número de controles que de casos. En la Figura 2 se muestra para el ejemplo anterior el poder de la investigación en función del número de casos y controles estudiados. Como se puede observar, la ganancia en el poder disminuye rápidamente, y es prácticamente nula cuando la relación entre el número de controles y casos es 4:1. Esto se verifica en cualquier estudio de casos y controles . En particular, para el ejemplo previo, si se estudiasen 100 casos y 200 controles se alcanzaría un poder del 80.28%. Si se incluyesen 100 casos y 300 controles, el poder sería de un 84.69%. Con 400 controles el poder aumentaría sólo a un 86.89% y con 500 a un 88.19%. Con lo cual claramente es ineficiente el incluir más de 4 controles por caso ya que no lograríamos un incremento relevante del poder estadístico. El análisis adecuado del poder estadístico de una investigación, que es en definitiva la capacidad que tiene el estudio para encontrar diferencias si es que realmente las hay, es un paso fundamental tanto en la fase de diseño como en la interpretación y discusión de sus resultados. A la hora del diseño, por tanto, debe establecerse la magnitud mínima de la diferencia o asociación que se considere de relevancia clínica, así como el poder estadístico que se desea para el estudio y, de acuerdo con ello, calcular el tamaño de la muestra necesaria. Tras realizar el análisis estadístico, cuando se dice que no existe evidencia de que A se asocie con B o sea diferente de B, deberemos cuestionarnos antes de nada si la ausencia de significación estadística indica realmente que no existe una diferencia o asociación clínicamente relevante, o simplemente que no se dispone de suficiente número de pacientes para obtener hallazgos significativos. Tanto si los hallazgos son estadísticamente significativos como si no lo son, la estimación de intervalos de confianza pueden también facilitar la interpretación de los resultados en términos de magnitud y relevancia clínica, proporcionándonos una idea de la precisión con la que se ha efectuado al estimación, de la magnitud y de la dirección del efecto http://www.fisterra.com/mbe/investiga/poder_estadistico/poder_estadistico.htm (5 of 10)22/04/2006 1:22:04 PM 3 9-10 . Cálculo del poder estadístico de un estudio De este modo, los intervalos de confianza nos permiten tener una idea acerca del poder estadístico de un estudio y, por tanto, de la credibilidad de la ausencia de hallazgos significativos. Bibliografía 1. Altman D.G. Practical Statistics for Medical Research. London: Chapman & Hall; 1991. 2. Kelsey J.L., Whittemore A.S., Evans A., Thompson W.D. Methods in Observational Epidemiology. 2nd ed. New York: Oxford University Press; 1996. 3. Argimon Pallás J.M., Jiménez Villa J. Métodos de investigación clínica y epidemiológica. 2ª ed. Madrid: Ediciones Harcourt; 2000. 4. Pita Fernández S. Determinación del tamaño muestral. Cad Aten Primaria 1996; 3: 138-141. [Texto completo] 5. Pértega Díaz S, Pita Fernández S. Cálculo del tamaño muestral para la determinación de factores pronósticos. Cad Aten Primaria 2002; 9: 30-33. [Texto completo] 6. Pértega Díaz S, Pita Fernández S. Cálculo del tamaño muestral en estudios de casos y controles. Cad Aten Primaria 2002; 9:148-150. [Texto completo] 7. Pértega Díaz S, Pita Fernández S. Determinación del tamaño muestral para calcular la significación del coeficiente de correlación lineal. Cad Aten Primaria 2002; 9: 209-211. [Texto completo] 8. Thomas L, Krebs CJ. A review of Statistical power analysis software. Bulletin of the Ecological Society of America 1997; 78 (2): 126-139. 9. Braitman LE. Confidence intervals assess both clinical significance and statistical significance. Ann Intern Med. 1991; 114 (6): 515-7. [Medline] 10. Argimon JM. El intervalo de confianza: algo más que un valor de significación estadística. Med Clin (Barc) 2002; 118(10): 382-384. [Medline] Tabla 1. Posibles conclusiones tras una prueba estadística de contraste de hipótesis. Resultado de la prueba Asociación o diferencia significativa Existe asociación o diferencia No existe asociación o diferencia α = probabilidad de cometer un error de tipo I. β = probabilidad de cometer un error de tipo II. No error (1) Asociación o diferencia no significativa Error de tipo II Realidad β No error (1) Error de tipo I Tabla 2. Fórmulas para el cálculo del poder estadístico para diferentes tipos de diseño. http://www.fisterra.com/mbe/investiga/poder_estadistico/poder_estadistico.htm (6 of 10)22/04/2006 1:22:04 PM Cálculo del poder estadístico de un estudio Test unilateral Comparación de dos proporciones Comparación de dos media Test bilateral Estimación de un OR en estudios de casos y controles Estimación de un RR Estimación de un coeficiente de correlación lineal q n = Tamaño muestral. En un estudio de casos y controles, n es el número de casos. = En un estudio transversal o de cohortes, proporción de expuestos que desarrollan la enfermedad. En un estudio de casos y controles, proporción de casos expuestos. = En un estudio transversal o de cohortes, proporción de no expuestos que desarrollan la enfermedad. En un estudio de casos y controles, proporción de controles expuestos. q q q q q q q q q q d = Valor mínimo de la diferencia a detectar entre dos medias S2 = Varianza en el grupo control o de referencia c = Número de controles por caso m = En un estudio de casos y controles, número de controles OR = Valor aproximado del odds ratio a detectar RR = Valor aproximado del riesgo relativo a detectar r = Magnitud del coeficiente de correlación a detectar Tabla 3. Valores de , y más frecuentemente utilizados. http://www.fisterra.com/mbe/investiga/poder_estadistico/poder_estadistico.htm (7 of 10)22/04/2006 1:22:04 PM Cálculo del poder estadístico de un estudio Seguridad 80 % 85 % 90 % 95 % 97,5 % 99 % Poder estadístico 99 % 95 % 90 % 85 % 80 % 75 % 70 % 65 % 60 % 55 % 50 % α 0,200 0,150 0,100 0,050 0,025 0,010 Test unilateral Test bilateral 0,842 1,036 1,282 1,645 1,960 2,326 1,282 1,440 1,645 1,960 2,240 2,576 0,99 0,95 0,90 0,85 0,80 0,75 0,70 0,65 0,60 0,55 0,50 0,01 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50 2,326 1,645 1,282 1,036 0,842 0,674 0,524 0,385 0,253 0,126 0,000 Figura 1. http://www.fisterra.com/mbe/investiga/poder_estadistico/poder_estadistico.htm (8 of 10)22/04/2006 1:22:04 PM Cálculo del poder estadístico de un estudio Figura 2. http://www.fisterra.com/mbe/investiga/poder_estadistico/poder_estadistico.htm (9 of 10)22/04/2006 1:22:04 PM Cálculo del poder estadístico de un estudio Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/poder_estadistico/poder_estadistico.htm (10 of 10)22/04/2006 1:22:04 PM Significancia estadística y relevancia clínica Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 19/09/01 Significancia estadística y relevancia clínica Pita Fernández, S. [ Correo de contacto ], Pértega Díaz, S. [ Correo de contacto ], Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña (España) CAD ATEN PRIMARIA 2001; 8: 191-195. La realización de cualquier estudio clínico-epidemiológico pretende poner de manifiesto al final del mismo si existe o no asociación entre diferentes variables. Esta asociación puede ser resultado de que realmente exista la asociación indicada, pero esta asociación también puede ser producto del azar, de la presencia de sesgos o de la presencia de variables de confusión. Una de las aplicaciones de la estadística es hacer inferencias a poblaciones, a partir de muestras ( ). En la realización de este proceso inferencial, siempre existe el riesgo de error o imprecisión ya sea por el azar o la variabilidad biológica del fenómeno a estudiar. La carencia de error aleatorio debido al azar se conoce como precisión. Cuanto más grande es el tamaño muestral, mayor es la precisión y la variabilidad explicada por el azar disminuye. Esta posibilidad de error o falta de precisión, siempre que no existan sesgos o variables de confusión, se corrige aumentando el tamaño de la muestra. De cualquier manera el papel del azar debe ser siempre contemplado, evaluado y medido, realizando test de hipótesis o construyendo intervalos de confianza para conocer la precisión de nuestra estimación dentro de una seguridad previamente definida. Desde el punto de vista clínico la significación estadística no resuelve todos los interrogantes que hay que responder ya que la asociación estadísticamente significativa puede no ser clínicamente relevante y además la asociación estadísticamente significativa puede no ser causal. En definitiva podemos encontrar asociaciones "estadísticamente posibles y conceptualmente estériles" ( ). 2 1 Contenido Significancia estadística - Ho (hipótesis nula) - Ha (hipótesis alternativa) - Error de tipo I (a) (falso positivo) - Error de tipo II (b) (falso negativo) Relevancia clínica - RRR Reducción Relativa del Riesgo - RAR Reducción Absoluta del Riesgo - NNTs - Nº Necesario de pacientes a Tratar para reducir un evento Bibliografía Significación estadística A pesar de las limitaciones de la estadística, el término "estadísticamente significativo" invade la literatura médica y se percibe como una etiqueta que indicase "garantía de calidad". El considerar el término significativo implica utilizar términos comparativos de dos hipótesis. Los test de hipótesis son test de significación estadística que cuantifican hasta que punto la variabilidad de la muestra puede ser responsable de los resultados de un estudio en particular. La Ho (hipótesis nula) representa la afirmación de que no hay asociación entre las dos variables estudiadas y la Ha (hipótesis alternativa) afirma que hay algún grado de relación o asociación entre las dos variables. Nuevamente la estadística nos muestra su utilidad ya que nos ayuda a tomar la decisión de que hipótesis debemos elegir. Dicha decisión puede ser afirmada con una seguridad que nosotros previamente decidimos. El nivel de significación se estableció siguiendo los comentarios del estadístico Fisher que señaló "...es conveniente trazar una línea de demarcación a partir de la cual podamos decir: o bien hay algo en el tratamiento..." ( ). El mecanismo de los diferentes test se realiza aunque con matices siempre de la siguiente forma: En primer lugar se mira la magnitud de la diferencia que hay entre los grupos a comparar (A y B). Si esta magnitud o valor absoluto es mayor que un error estándar definido multiplicado por una seguridad definida, concluimos que la diferencia es significativa entre A y B. Por tanto aceptamos la hipótesis alternativa y rechazamos la hipótesis nula. 3 Documento en PDF (64 Kb) ¿Problemas con PDF? Más... Número Necesario de pacientes a tratar para reducir un evento (fisterra) Table NNTs Bandolier Cálculos online NNT/NNH Calculator http://www.fisterra.com/mbe/investiga/signi_estadi/signi_estadi.htm (1 of 8)22/04/2006 1:22:28 PM Significancia estadística y relevancia clínica Ejemplo: Disponemos de 2 tratamientos ( A y B). El tratamiento A lo reciben 25 pacientes y el tratamiento B otros 25 pacientes. 15 pacientes responden favorablemente al tratamiento A y 20 al tratamiento B. ¿Existe diferencia significativa entre ambos tratamientos? Ho (hipótesis nula) = No hay diferencia entre ambos tratamientos. Ha (hipótesis alternativa) = Sí existe diferencia. Tratamiento A B N 25 25 Porcentaje de respuesta 15/25 = 0.60 20/25 = 0.80 Si es mayor que el producto de 1.96 * el error estándar, concluímos que la diferencia es significativa. Error estándar = = 0.1296 Error estándar * 1.96 = 0.1296 * 1.96 = 0.25 Como quiera que la diferencia = no supera el valor 0.25 concluimos que la diferencia entre 0.60 y 0.80 no es estadísticamente significativa. A la vista de los resultados no podemos aceptar la Ha (hipótesis alternativa). El proceso de aceptación o rechazo de la hipótesis lleva implícito un riesgo que se cuantifica con el valor de la "p", que es la probabilidad de aceptar la hipótesis alternativa como cierta, cuando la cierta podría ser la hipótesis nula. El valor de "p" que indica que la asociación es estadísticamente significativa ha sido arbitrariamente seleccionado y por consenso se considera en 0.05. Una seguridad del 95% lleva implícito una p < de 0.05 y una seguridad del 99% lleva implícita una p < 0.01. Cuando rechazamos la Ho (hipótesis nula) y aceptamos la Ha (hipótesis alternativa) como probablemente cierta afirmando que hay una asociación, o que hay diferencia, estamos diciendo en otras palabras que es muy poco probable que el azar fuese responsable de dicha asociación. Del mismo modo si la p>0.05 decimos que el azar no puede ser excluido como explicación de dicho hallazgo y no rechazamos la Ho (hipótesis nula) que afirma que http://www.fisterra.com/mbe/investiga/signi_estadi/signi_estadi.htm (2 of 8)22/04/2006 1:22:28 PM Significancia estadística y relevancia clínica ambas variables no están asociadas o correlacionadas ( ). Conviene por otra parte considerar que la significación estadística entre dos variables depende de dos componentes fundamentales. El primero es la magnitud de la diferencia a testar. Cuanto más grande sea la diferencia entre las dos variables, más fácil es demostrar que la diferencia es significativa. Por el contrario si la diferencia entre ambas variables es pequeña, las posibilidades de detectar diferencias entre las mismas se dificulta. El segundo componente fundamental a tener en cuanta al testar diferencias entre dos variables es el tamaño muestral. Cuanto más grande sea dicho tamaño muestral más fácil es detectar diferencias entre las mismas. Pequeñas diferencias se pueden detectar con grandes tamaños muestrales y grandes diferencias entre variables necesitan muchos menos pacientes o individuos a ser estudiados. Cualquier diferencia puede ser estadísticamente significativa si se dispone del suficiente número de pacientes. Ejemplo: En el ejemplo anterior objetivamos que no hay diferencia entre 60% y 80%. Supongamos que realizamos ahora el estudio con 900 pacientes en cada grupo: Si es mayor que el producto de 1.96 * el error estándar, 4 concluimos que la diferencia es significativa. Error estándar = = 0.0216 Error estándar * 1.96 = 0.0216 * 1.96 = 0.042 Como quiera que la diferencia = supera el valor 0.0423 concluimos que la diferencia entre 0.60 y 0.80 sí es estadísticamente significativa. A la vista de los resultados por tanto rechazamos la Ho (hipótesis nula) y aceptamos la Ha (hipótesis alternativa) como probablemente cierta. Como podemos objetivar en este segundo ejemplo ahora, si podemos decir que la diferencia entre 60% y 80% es estadísticamente significativa (p< 0.05). El tamaño muestral afecta a la probabilidad de la significación estadística a través del error estándar que se hace más pequeño cuantos más pacientes tenga el estudio. Así pues el valor de la "p" es función de la magnitud de la diferencia entre los dos grupos o dos variables y del tamaño de la muestra. Por esta razón una pequeña diferencia puede ser estadísticamente significativa si disponemos de un tamaño muestral lo suficientemente grande y por el contrario un efecto o diferencia relativamente grande puede http://www.fisterra.com/mbe/investiga/signi_estadi/signi_estadi.htm (3 of 8)22/04/2006 1:22:28 PM Significancia estadística y relevancia clínica no alcanzar la significación estadística si la variabilidad es grande debida a un pequeño tamaño muestral. Por estas razones los valores de la "p" deben ser considerados solo como una guía y no como base de conclusiones definitivas e irrevocables. Error de tipo I (α) Al realizar el test estadístico, podríamos correr el riesgo de equivocarnos al rechazar la hipótesis nula. La probabilidad de rechazar la hipótesis nula cuando en realidad es verdadera (error de tipo I) se le denomina nivel de significación y es la "p". Esta probabilidad de rechazar la hipótesis nula cuando es verdadera se le conoce también como error alfa. La "p" no es por tanto un indicador de fuerza de la asociación ni de su importancia. La significación estadística es por tanto una condición resultante del rechazo de una hipótesis nula mediante la aplicación de una prueba estadística de significación. El nivel de significación es el riesgo o la probabilidad que voluntariamente asume el investigador de equivocarse al rechazar la hipótesis nula, cuando en realidad es cierta. Este riesgo se establece normalmente en 0.05 ó 0.01. El proceso de poner a prueba una hipótesis involucra una toma de decisiones para rechazar o no la hipótesis nula. Aunque los valores de la "p" son los de una variable continua, se utiliza para forzar una decisión cualitativa, tomando partido por una u otra hipótesis. Si p < 0.05 se considera significativo, en cuyo caso se rechaza la hipótesis nula y no significativo si p> 0.05 en cuyo caso no se rechaza. Una "p" pequeña significa que la probabilidad de que los resultados obtenidos se deban al azar es pequeña. Los sinónimos de la expresión estadísticamente significativos se muestran en la Tabla 1 ( ). Error de tipo II (β) 5 El riesgo alfa α ("p") indica la probabilidad de cometer un error de tipo I (falso positivo). El error de tipo I, es por lo tanto rechazar la Ho cuando en realidad es verdadera. Se podría considerar que para evitar este tipo de error deberíamos de elegir un nivel de confianza más elevado, sin embargo al aumentar el nivel de confianza aumenta la probabilidad de cometer el error de tipo II. El error de tipo II consiste en aceptar la hipótesis nula cuando es falsa y esto se conoce como el error de tipo II o Beta (β ) (falso negativo) ( ) (Tabla 2). En la ejecución de un estudio determinado no es posible saber si estamos cometiendo el error de tipo I o error de tipo II, sin embargo hay una serie de recomendaciones que podríamos seguir para disminuir dichos errores. Recomendaciones para disminuir el error de tipo I: q 6 q q q q Disponer de una teoría que guíe la investigación, evitando el "salir de pesca" con el ordenador buscando asociaciones entre variables. Disminuir el número de test estadísticos llevados a cabo en el estudio. Depurar la base de datos para evitar errores de valores extremos que puedan producir hallazgos significativos. Utilizar valores de alfa más reducidos (0.01 ó 0.001). Reproducir el estudio. Si al reproducir el estudio se obtienen resultados similares, estaremos más seguros de no estar cometiendo el error de tipo I. Recomendaciones para disminuir el error de tipo II: q q Incrementar el tamaño de la muestra. Estimar el poder estadístico del estudio. http://www.fisterra.com/mbe/investiga/signi_estadi/signi_estadi.htm (4 of 8)22/04/2006 1:22:28 PM Significancia estadística y relevancia clínica q q q Incrementar el tamaño del efecto a detectar. Incrementar el valor de alfa. Utilizar test paramétricos (más potentes) en lugar de test no paramétricos. Relevancia clínica La relevancia clínica de un fenómeno va más allá de cálculos aritméticos y está determinada por el juicio clínico. La relevancia depende de la magnitud de la diferencia, la gravedad del problema a investigar, la vulnerabilidad, la morbimortalidad generada por el mismo, su coste y por su frecuencia entre otros elementos. La reducción relativa del riesgo relativo es una medida de utilidad en el cálculo de la relevancia clínica. Reducciones del riesgo relativo de 50% casi siempre y de 25% con frecuencia, son consideradas como clínicamente relevantes ( ) independientemente de la significación estadística. La práctica de la medicina basada en la evidencia considera el ensayo clínico aleatorizado como el estándar para valorar la eficacia de las tecnologías sanitarias y recomienda que las decisiones se tomen, siempre que se pueda, con opciones diagnósticas o terapéuticas de demostrada eficacia ( 8,9) 7 . La forma recomendada de presentar los resultados de un ensayo clínico aleatorizado y otros tipos de estudio debe incluir ( , , , ): La reducción relativa del riesgo (RRR), la reducción absoluta del riesgo (RAR) y el número necesario de pacientes a tratar para reducir un evento (NNT). Consideremos para su cálculo este ejemplo: Mueren 15% de pacientes en el grupo de intervención y mueren un 20% en el grupo control. El que la diferencia entre ambos sea significativa dependerá del tamaño muestral. El riesgo relativo, que es el cociente entre los expuestos al nuevo tratamiento o actividad preventiva y los no expuestos, es en este caso (0.15/0.20=0.75). El riesgo de muerte de los pacientes que reciben el nuevo tratamiento relativo al de los pacientes del grupo control fue de 0.75. La RRR es el complemento del RR, es decir, (1-0.75)* 100 = 25%. El nuevo tratamiento reduce el riesgo de muerte en un 25% relativo al que ha ocurrido en el grupo control. La reducción absoluta del riesgo (RAR) sería: 0.200.15= 0.05 (5%). Podríamos decir por tanto que de cada 100 personas tratadas con el nuevo tratamiento podemos evitar 5 casos de muerte. La siguiente pregunta sería: si de cada 100 personas tratadas con el nuevo tratamiento podemos evitar 5 casos de muerte. ¿Cuántos tendríamos que tratar para evitar un solo caso de muerte?. En otras palabras ¿cuál es el NNT?. Su cálculo requiere una simple regla de tres que se resuelve dividiendo 1/RAR. En este caso 1/0.05 = 20. Por tanto la respuesta es que necesitamos tratar a 20 pacientes con el nuevo tratamiento para evitar un caso de muerte. Este modo de presentar los resultados nos cuantifica el esfuerzo a realizar para conseguir la reducción de un evento desfavorable. El presentar los resultados sólo como reducción porcentual del riesgo relativo (RRR), aunque es técnicamente correcto, tiende a magnificar el efecto de la intervención al describir del mismo modo situaciones muy dispares. Dicho efecto lo podemos objetivar en la tabla 3, donde se objetiva que la reducción del riesgo es igual pero el NNT es completamente diferente. Cambios pequeños en el riesgo basal absoluto de un hecho clínico infrecuente conducen a grandes cambios en el número de pacientes que necesitamos tratar con la intención de prevenir uno. El cálculo del NNT representa como ya hemos indicado el número de pacientes a tratar de manera experimental a fin de evitar que uno de ellos desarrolle un resultado negativo. Es por tanto una forma excelente de determinar la significación clínica de un ensayo que además sea estadísticamente significativo. Cuanto más reducido es NNT el efecto de la magnitud del tratamiento es mayor. Si no se encontrase eficacia en el tratamiento la reducción absoluta del riesgo sería cero y el NNT sería infinito. Como sucede en las estimaciones de otros parámetros, se debe expresar el NNT con intervalos de 8 10 11 12 http://www.fisterra.com/mbe/investiga/signi_estadi/signi_estadi.htm (5 of 8)22/04/2006 1:22:28 PM Significancia estadística y relevancia clínica confianza para estimar la incertidumbre que dicho parámetro presenta ( 13,14) . El test de significación estadística nos proporciona una "p" que nos permiten conocer la probabilidad de equivocarse si rechazamos la Ho, pero es evidente que la relevancia del fenómeno a estudiar es un elemento clave en la toma de decisiones. Por otro lado aún siendo estadísticamente significativo y clínicamente relevante no debemos olvidar que antes de poner en marcha una practica clínica debemos a su vez valorar la validez externa o generalización de los resultados al universo de pacientes que se pretende aplicar dicha práctica clínica. Tabla 1. Sinónimos de la expresión "Estadísticamente significativo" q q q q q q q q q Rechazo de la hipótesis nula Aceptación de la hipótesis alternativa Existe la suficiente evidencia para dudar de la hipótesis nula El resultado observado no es compatible con la hipótesis nula Es improbable obtener un resultado como el observado si la hipótesis nula es cierta Es improbable que el resultado observado sea debido al azar Las variaciones inherentes al muestreo no bastan para explicar el resultado observado p < 0.05 (si el nivel de significación fijado previamente es 0.05) Las muestras proceden de poblaciones diferentes Tabla 2. Error de tipo I y error de tipo II Realidad No existe diferencia (Ho cierta) Diferencia significativa (Rechazo de Ho) Diferencia no significativa (No rechazo de Ho) Error tipo I (α ) No error Existe diferencia (Ho falsa) No error Error tipo II (β ) Resultado de la prueba estadística Tabla 3. Cálculo de Riesgo relativo (RR), Reducción Relativa del Riesgo (RRR), Reducción Absoluta del Riesgo (RAR) y Número Necesario de Pacientes a Tratar para reducir un evento (NNT) en situaciones diferentes. http://www.fisterra.com/mbe/investiga/signi_estadi/signi_estadi.htm (6 of 8)22/04/2006 1:22:28 PM Significancia estadística y relevancia clínica Incidencia en Expuestos (Ie) 8% 0.8% Incidencia en No Expuestos (Io) 10 % 1% RR Ie/Io 0.8 0.8 RRR (1-RR)*100 20 % 20 % RAR Io-Ie 0.10-0.08 0.01-0.008 NNT 1/RAR 50 500 Bibliografía 1. Wassertheil-Smoller S. Biostatistics and Epidemiology. A primer for health professionals. Second edition. New York: Springer-Verlag; 1995. 2. Silva Ayçaguer LC. Cultura estadística e investigación científica en el campo de la salud: una mirada crítica. Madrid: Díaz de Santos; 1997. 3. Fisher R. The design of experiments. Londres: Oliver and Boyd; 1935. 4. Jekel JF, Elmore JG, Katz DL. Epidemiology Biostatistics and Preventive Medicine. Philadelphia: W.B. Saunders Company; 1996. 5. Daly L.E, Bourke G.J. Interpretation and Uses of Medical Statistics. Oxford: Blackwell Science Ltd; 2000. 6. Daly LE, Bourke GJ. Interpretation and uses of medical statistics. 5th ed.. Oxford: Blackwell science; 2000. 7. Sackett DL, Haynes RB , Guyatt GH, Tugwell P. Epidemiología clínica. Ciencias básicas para la medicina clínica, 2ª ed. Madrid: Editorial Médica Panamericana; 1994. 8. Sackett DL, Richarson WS, Rosenberg W, Hynes RB. Evidence-based medicine: how to practice and teach EBM. 2nd ed. London: Churchill-livingstone; 2000. 9. Guyatt GH, Sackett DL, Cook DJ. Users´guides to the medical literature. II. How to use an articie about therapy or prevention. A. Are the results of the study valid? Evidence-Based Medicine Working Group. JAMA 1993; 270: 2598-2601. 10. Laupacis A, Sackett DL, Roberts RS: An assesment of clinically useful measures of treatment. N Engl J Med 1988; 318: 1728-1733. 11. Guyatt GH, Sackett DL, Cook DJ. Users´ guides to the medical literature. II. How to use an article about therapy or prevention. B. What were the results and will they help in caring for my patients? Evidence Based Medicine Working Group. JAMA 1994; 271: 59-63. [Medline] 12. Cook RJ, Sackett DL. The number needed to treal: a clincally useful measure of treatment effect. BMJ 1995; 310: 452-454. [Texto completo] 13. Altman DG. Confidence intervals for the nember needed to treat. BMJ 1998; 317: 13091312. [Texto completo] 14. Daly LE. Confidence limits made easy: interval estimation using a subsitution method. Am J Epidemiol 1998; 147: 783-90. [Medline] http://www.fisterra.com/mbe/investiga/signi_estadi/signi_estadi.htm (7 of 8)22/04/2006 1:22:28 PM Significancia estadística y relevancia clínica Arriba | Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/signi_estadi/signi_estadi.htm (8 of 8)22/04/2006 1:22:28 PM Estadística descriptiva de los datos Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 06/03/01 Estadística descriptiva de los datos Pita Fernández S, Pértega Díaz, S. [ Correo de contacto ] Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña (España) Pita Fernández, S. Uso de la estadística y la epidemiología en atención primaria. En: Gil VF, Merino J, Orozco D, Quirce F. Manual de metodología de trabajo en atención primaria. Universidad de Alicante. Madrid, Jarpyo Editores, S.A. 1997; 115-161. (Actualizado 06/03/2001) Introducción Existen diferentes razones por las cuales los profesionales de la atención primaria deben conocer los fundamentos de la epidemiología y la estadística como instrumentos del trabajo cotidiano. Entre dichas razones señalamos las siguientes: los términos estadísticos y epidemiológicos invaden la literatura médica, la medicina es cada vez más cuantitativa, su conocimiento nos permitirá leer la bibliografía médica con más capacidad crítica para detectar errores potenciales y falacias. Nos será también útil para llegar a conclusiones correctas acerca de procedimientos para el diagnóstico y del resultado de las pruebas . Su conocimiento nos permitirá a su vez valorar protocolos de estudio e informes remitidos para su publicación y participar, en definitiva, en la investigación médica. Resulta imprescindible, por lo tanto, conocer los conceptos básicos de estadística que nos faciliten la realización de estudios y conocer las posibilidades a desarrollar con ayuda de profesionales estadísticos para mejorar dicho análisis. En este trabajo se pretende dar a conocer algunas nociones estadísticas que nos ayudarán a explorar y describir, en un primer momento, nuestros datos. Poblaciones y muestras Cuando se realiza un estudio de investigación, se pretende generalmente inferir o generalizar resultados de una muestra a una población. Se estudia en particular a un reducido número de individuos a los que tenemos acceso con la idea de poder generalizar los hallazgos a la población de la cual esa muestra procede. Este proceso de inferencia se efectúa por medio de métodos estadísticos basados en la probabilidad. La población representa el conjunto grande de individuos que deseamos estudiar y generalmente suele ser inaccesible. Es, en definitiva, un colectivo homogéneo que reúne unas características determinadas. 1,2 Contenido Introducción Poblaciones y Muestras Tipos de datos - Variables cuantitativas - Variables cualitativas Estadística descriptiva Medidas de tendencia central - Media, Mediana y Moda Medidas de dispersión - Varianza - Desviación típica - Coeficiente de variación Medidas de posición - Cuartiles y Percentiles Bibliografía Documento en PDF (46 Kb) ¿Problemas con PDF? http://www.fisterra.com/mbe/investiga/10descriptiva/10descriptiva.htm (1 of 7)22/04/2006 1:22:50 PM Estadística descriptiva de los datos La muestra es el conjunto menor de individuos (subconjunto de la población accesible y limitado sobre el que realizamos las mediciones o el experimento con la idea de obtener conclusiones generalizables a la población ). El individuo es cada uno de los componentes de la población y la muestra. La muestra debe ser representativa de la población y con ello queremos decir que cualquier individuo de la población en estudio debe haber tenido la misma probabilidad de ser elegido. Las razones para estudiar muestras en lugar de poblaciones son diversas y entre ellas podemos señalar : a. Ahorrar tiempo. Estudiar a menos individuos es evidente que lleva menos tiempo. b. Como consecuencia del punto anterior ahorraremos costes. c. Estudiar la totalidad de los pacientes o personas con una característica determinada en muchas ocasiones puede ser una tarea inaccesible o imposible de realizar. d. Aumentar la calidad del estudio. Al disponer de más tiempo y recursos, las observaciones y mediciones realizadas a un reducido número de individuos pueden ser más exactas y plurales que si las tuviésemos que realizar a una población. e. La selección de muestras específicas nos permitirá reducir la heterogeneidad de una población al indicar los criterios de inclusión y/o exclusión. Tipos de datos Lo que estudiamos en cada individuo de la muestra son las variables (edad, sexo, peso, talla, tensión arterial sistólica, etcétera). Los datos son los valores que toma la variable en cada caso. Lo que vamos a realizar es medir, es decir, asignar valores a las variables incluidas en el estudio. Deberemos además concretar la escala de medida que aplicaremos a cada variable. La naturaleza de las observaciones será de gran importancia a la hora de elegir el método estadístico más apropiado para abordar su análisis. Con este fin, clasificaremos las variables, a grandes rasgos, en dos tipos cualitativas. 3-5 3 : variables cuantitativas o variables a. Variables cuantitativas. Son las variables que pueden medirse, cuantificarse o expresarse numéricamente. Las variables cuantitativas pueden ser de dos tipos: q q Variables cuantitativas continuas, si admiten tomar cualquier valor dentro de un rango numérico determinado (edad, peso, talla). Variables cuantitativas discretas, si no admiten todos los valores intermedios en un rango. Suelen tomar solamente valores enteros (número de hijos, número de partos, número de hermanos, etc). b. Variables cualitativas. Este tipo de variables representan una cualidad o atributo que clasifica a cada caso en una de varias categorías. La situación más sencilla es aquella en la que se clasifica cada caso en uno de dos grupos (hombre/mujer, http://www.fisterra.com/mbe/investiga/10descriptiva/10descriptiva.htm (2 of 7)22/04/2006 1:22:50 PM Estadística descriptiva de los datos enfermo/sano, fumador/no fumador). Son datos dicotómicos o binarios. Como resulta obvio, en muchas ocasiones este tipo de clasificación no es suficiente y se requiere de un mayor número de categorías (color de los ojos, grupo sanguíneo, profesión, etcétera). En el proceso de medición de estas variables, se pueden utilizar dos escalas: q q Escalas nominales: ésta es una forma de observar o medir en la que los datos se ajustan por categorías que no mantienen una relación de orden entre sí (color de los ojos, sexo, profesión, presencia o ausencia de un factor de riesgo o enfermedad, etcétera). Escalas ordinales: en las escalas utilizadas, existe un cierto orden o jerarquía entre las categorías (grados de disnea, estadiaje de un tumor, etcétera). Estadística descriptiva Una vez que se han recogido los valores que toman las variables de nuestro estudio (datos), procederemos al análisis descriptivo de los mismos. Para variables categóricas, como el sexo o el estadiaje, se quiere conocer el número de casos en cada una de las categorías, reflejando habitualmente el porcentaje que representan del total, y expresándolo en una tabla de frecuencias. Para variables numéricas, en las que puede haber un gran número de valores observados distintos, se ha de optar por un método de análisis distinto, respondiendo a las siguientes preguntas: a. ¿Alrededor de qué valor se agrupan los datos? b. Supuesto que se agrupan alrededor de un número, ¿cómo lo hacen? ¿muy concentrados? ¿muy dispersos? a. Medidas de tendencia central Las medidas de centralización vienen a responder a la primera pregunta. La medida más evidente que podemos calcular para describir un conjunto de observaciones numéricas es su valor medio. La media no es más que la suma de todos los valores de una variable dividida entre el número total de datos de los que se dispone. Como ejemplo, consideremos 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60, 71, y 80. La media de edad de estos sujetos será de: http://www.fisterra.com/mbe/investiga/10descriptiva/10descriptiva.htm (3 of 7)22/04/2006 1:22:50 PM Estadística descriptiva de los datos Más formalmente, si denotamos por (X1, X2,...,Xn) los n datos que tenemos recogidos de la variable en cuestión, el valor medio vendrá dado por: Otra medida de tendencia central que se utiliza habitualmente es la mediana. Es la observación equidistante de los extremos. La mediana del ejemplo anterior sería el valor que deja a la mitad de los datos por encima de dicho valor y a la otra mitad por debajo. Si ordenamos los datos de mayor a menor observamos la secuencia: 15, 21, 32, 59, 60, 60,61, 64, 71, 80. Como quiera que en este ejemplo el número de observaciones es par (10 individuos), los dos valores que se encuentran en el medio son 60 y 60. Si realizamos el cálculo de la media de estos dos valores nos dará a su vez 60, que es el valor de la mediana. Si la media y la mediana son iguales, la distribución de la variable es simétrica. La media es muy sensible a la variación de las puntuaciones. Sin embargo, la mediana es menos sensible a dichos cambios. Por último, otra medida de tendencia central, no tan usual como las anteriores, es la moda, siendo éste el valor de la variable que presenta una mayor frecuencia. En el ejemplo anterior el valor que más se repite es 60, que es la moda. b. Medidas de dispersión Tal y como se adelantaba antes, otro aspecto a tener en cuenta al describir datos continuos es la dispersión de los mismos. Existen distintas formas de cuantificar esa variabilidad. De todas ellas, la varianza (S2) de los datos es la más utilizada. Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución. Esta varianza muestral se obtiene como la suma de las de las diferencias de cuadrados y http://www.fisterra.com/mbe/investiga/10descriptiva/10descriptiva.htm (4 of 7)22/04/2006 1:22:50 PM Estadística descriptiva de los datos por tanto tiene como unidades de medida el cuadrado de las unidades de medida en que se mide la variable estudiada. En el ejemplo anterior la varianza sería: Sx2= La desviación típica (S) es la raíz cuadrada de la varianza. Expresa la dispersión de la distribución y se expresa en las mismas unidades de medida de la variable. La desviación típica es la medida de dispersión más utilizada en estadística. Aunque esta fórmula de la desviación típica muestral es correcta, en la práctica, la estadística nos interesa para realizar inferencias poblacionales, por lo que en el denominador se utiliza, en lugar de n, el valor n-1. Por tanto, la medida que se utiliza es la cuasidesviación típica, dada por: Aunque en muchos contextos se utiliza el término de desviación típica para referirse a ambas expresiones. En los cálculos del ejercicio previo, la desviación típica muestral, que tiene como denominador n, el valor sería 20.678. A efectos de cálculo lo haremos como n-1 y el resultado seria 21,79. El haber cambiado el denominador de n por n-1 está en relación al hecho de que esta segunda fórmula es una estimación más precisa de la desviación estándar verdadera de la población y posee las propiedades que necesitamos para realizar inferencias a la población. Cuando se quieren señalar valores extremos en una distribución de datos, se suele utilizar la amplitud como medida de dispersión. La amplitud es la diferencia entre el valor mayor y el menor de la distribución. Por ejemplo, utilizando los datos del ejemplo previo tendremos 80-15 =65. http://www.fisterra.com/mbe/investiga/10descriptiva/10descriptiva.htm (5 of 7)22/04/2006 1:22:50 PM Estadística descriptiva de los datos Como medidas de variabilidad más importantes, conviene destacar algunas características de la varianza y desviación típica: q q q q Son índices que describen la variabilidad o dispersión y por tanto cuando los datos están muy alejados de la media, el numerador de sus fórmulas será grande y la varianza y la desviación típica lo serán. Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación típica. Para reducir a la mitad la desviación típica, la muestra se tiene que multiplicar por 4. Cuando todos los datos de la distribución son iguales, la varianza y la desviación típica son iguales a 0. Para su cálculo se utilizan todos los datos de la distribución; por tanto, cualquier cambio de valor será detectado. Otra medida que se suele utilizar es el coeficiente de variación (CV). Es una medida de dispersión relativa de los datos y se calcula dividiendo la desviación típica muestral por la media y multiplicando el cociente por 100. Su utilidad estriba en que nos permite comparar la dispersión o variabilidad de dos o más grupos. Así, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media es de 69,6 kg. y su desviación típica (s) = 10,44 y la TAS de los mismos (150, 170, 135, 180 y 195 mmHg) cuya media es de 166 mmHg y su desviación típica de 21,3. La pregunta sería: ¿qué distribución es más dispersa, el peso o la tensión arterial? Si comparamos las desviaciones típicas observamos que la desviación típica de la tensión arterial es mucho mayor; sin embargo, no podemos comparar dos variables que tienen escalas de medidas diferentes, por lo que calculamos los coeficientes de variación: CV de la variable peso = CV de la variable TAS = A la vista de los resultados, observamos que la variable peso tiene mayor dispersión. Cuando los datos se distribuyen de forma simétrica (y ya hemos dicho que esto ocurre cuando los valores de su media y mediana están próximos), se usan para describir esa variable su media y desviación típica. En el caso de distribuciones asimétricas, la mediana y la amplitud son medidas más adecuadas. En este caso, se suelen utilizar además los cuartiles y percentiles. Los cuartiles y percentiles no son medidas de tendencia central sino medidas de posición. El percentil es el valor de la variable que indica el porcentaje de una distribución que es igual o menor a esa cifra. Así, por ejemplo, el percentil 80 es el valor de la variable que es igual o deja por debajo de sí al 80% del total de las puntuaciones. Los cuartiles son los valores de la variable que http://www.fisterra.com/mbe/investiga/10descriptiva/10descriptiva.htm (6 of 7)22/04/2006 1:22:50 PM Estadística descriptiva de los datos dejan por debajo de sí el 25%, 50% y el 75% del total de las puntuaciones y así tenemos por tanto el primer cuartil (Q1), el segundo (Q2) y el tercer cuartil (Q3). Bibliografía 1. Sackett, D.L., Haynes, R.B., Guyatt, G.H., Tugwell, P. Epidemiología clínica. Ciencia básica para la medicina clínica. 2ª ed. Madrid : Médica Panamericana; 1994. 2. Fletcher RH., Fletcher SW., Wagner E.H. Epidemiología clínica. 2ª ed. Barcelona: Masson, Williams & Wilkins; 1998. 3. Dawson-Saunders B, Trapp RG. Bioestadística Médica . 2ª ed. México: Editorial el Manual Moderno; 1996. 4. Milton JS, Tsokos JO. Estadística para biología y ciencias de la salud. Madrid: Interamericana McGraw Hill; 2001. 5. Martín Andrés A, Luna del Castillo JD. Bioestadística para las ciencias de la salud. 4ª ed. Madrid: NORMA; 1993. Arriba | Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/10descriptiva/10descriptiva.htm (7 of 7)22/04/2006 1:22:50 PM La Distribución Normal Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 10/12/01 La distribución normal Pértegas Díaz, S. [ Correo de contacto ], Pita Fernández, S. [ Correo de contacto ] Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña (España) CAD ATEN PRIMARIA 2001; 8: 268-274. 1. Introducción Al iniciar el análisis estadístico de una serie de datos, y después de la etapa de detección y corrección de errores, un primer paso consiste en describir la distribución de las variables estudiadas y, en particular, de los datos numéricos. Además de las medidas descriptivas correspondientes, el comportamiento de estas variables puede explorarse gráficamente de un modo muy simple. Consideremos, como ejemplo, los datos de la Figura 1a, que muestra un histograma de la tensión arterial sistólica de una serie de pacientes isquémicos ingresados en una unidad de cuidados intensivos. Para construir este tipo de gráfico, se divide el rango de valores de la variable en intervalos de igual longitud, representando sobre cada intervalo un rectángulo con área proporcional al número de datos en ese rango1. Uniendo los puntos medios del extremo superior de las barras, se obtiene el llamado polígono de frecuencias. Si se observase una gran cantidad de valores de la variable de interés, se podría construir un histograma en el que las bases de los rectángulos fuesen cada vez más pequeñas, de modo que el polígono de frecuencias tendría una apariencia cada vez más suavizada, tal y como se muestra en la Figura 1b. Esta curva suave "asintótica" representa de modo intuitivo la distribución teórica de la característica observada. Es la llamada función de densidad. Una de las distribuciones teóricas mejor estudiadas en los textos de bioestadística y más utilizada en la práctica es la distribución normal, también llamada distribución gaussiana2, 3, 4, 5. Su importancia se debe fundamentalmente a la frecuencia con la que distintas variables asociadas a fenómenos naturales y cotidianos siguen, aproximadamente, esta distribución. Caracteres morfológicos (como la talla o el peso), o psicológicos (como el cociente intelectual) son ejemplos de variables de las que frecuentemente se asume que siguen una distribución normal. No obstante, y aunque algunos autores6, 7 han señalado que el comportamiento de muchos parámetros en el campo de la salud puede ser descrito mediante una distribución normal, puede resultar incluso poco frecuente encontrar variables que se ajusten a este tipo de comportamiento. Contenido Introducción La Distribución Normal - Sus propiedades Contrastes de Normalidad Recursos relacionados en Internet Bibliografía Documento en PDF (123 Kb) ¿Problemas con PDF? Tablas y Figuras Figura 1. Histogramas Fig. 2. Gráfica de una Distribución Normal Tabla 1. Áreas bajo la curva normal estándar Fig. 3. Ejemplos de distribuciones normales Fig. 4. Histogramas y gráfico Q-Q de probabilidad El uso extendido de la distribución normal en las aplicaciones estadísticas puede explicarse, además, por otras razones. Muchos de los procedimientos estadísticos habitualmente utilizados asumen la normalidad de los datos observados. Aunque muchas de estas técnicas no son demasiado sensibles a desviaciones de la normal y, en general, http://www.fisterra.com/mbe/investiga/distr_normal/distr_normal.htm (1 of 15)22/04/2006 1:23:35 PM La Distribución Normal esta hipótesis puede obviarse cuando se dispone de un número suficiente de datos, resulta recomendable contrastar siempre si se puede asumir o no una distribución normal. La simple exploración visual de los datos puede sugerir la forma de su distribución. No obstante, existen otras medidas, gráficos de normalidad y contrastes de hipótesis que pueden ayudarnos a decidir, de un modo más riguroso, si la muestra de la que se dispone procede o no de una distribución normal. Cuando los datos no sean normales, podremos o bien transformarlos8 o emplear otros métodos estadísticos que no exijan este tipo de restricciones (los llamados métodos no paramétricos). A continuación se describirá la distribución normal, su ecuación matemática y sus propiedades más relevantes, proporcionando algún ejemplo sobre sus aplicaciones a la inferencia estadística. En la sección 3 se describirán los métodos habituales para contrastar la hipótesis de normalidad. 2. La Distribución Normal La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre (1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más profundos y formuló la ecuación de la curva; de ahí que también se la conozca, más comúnmente, como la "campana de Gauss". La distribución de una variable normal está completamente determinada por dos parámetros, su media y su desviación estándar, denotadas generalmente por dada por la ecuación: y . Con esta notación, la densidad de la normal viene Ecuación 1: que determina la curva en forma de campana que tan bien conocemos (Figura 2). Así, se dice que una característica y se denota como sigue una distribución normal de media y varianza , , si su función de densidad viene dada por la Ecuación 1. Al igual que ocurría con un histograma, en el que el área de cada rectángulo es proporcional al número de datos en el rango de valores correspondiente si, tal y como se muestra en la Figura 2, en el eje horizontal se levantan perpendiculares en dos puntos a y b, el área bajo la curva delimitada por esas líneas indica la probabilidad de que la variable de interés, X, tome un valor cualquiera en ese intervalo. Puesto que la curva alcanza su mayor altura en torno a la media, mientras que sus "ramas" se extienden asintóticamente hacia los ejes, cuando una variable siga una distribución normal, será mucho más probable observar un dato cercano al valor medio que uno que se encuentre muy alejado de éste. Propiedades de la distribución normal: http://www.fisterra.com/mbe/investiga/distr_normal/distr_normal.htm (2 of 15)22/04/2006 1:23:35 PM La Distribución Normal La distribución normal posee ciertas propiedades importantes que conviene destacar: i. Tiene una única moda, que coincide con su media y su mediana. ii. La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor entre y es teóricamente posible. El área total bajo la curva es, por tanto, igual a 1. iii. Es simétrica con respecto a su media . Según esto, para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor. iv. La distancia entre la línea trazada en la media y el punto de inflexión de la curva es igual a una desviación típica ( ). Cuanto mayor sea , más aplanada será la curva de la densidad. v. El área bajo la curva comprendido entre los valores situados aproximadamente a dos desviaciones estándar de la media es igual a 0.95. En concreto, existe un 95% de posibilidades de observar un valor comprendido en el intervalo . vi. La forma de la campana de Gauss depende de los parámetros y (Figura 3). La media indica la posición de la campana, de modo que para diferentes valores de la gráfica es desplazada a lo largo del eje horizontal. Por otra parte, la desviación estándar determina el grado de apuntamiento de la curva. Cuanto , más se dispersarán los datos en torno a la media y la mayor sea el valor de curva será más plana. Un valor pequeño de este parámetro indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribución. Como se deduce de este último apartado, no existe una única distribución normal, sino una familia de distribuciones con una forma común, diferenciadas por los valores de su media y su varianza. De entre todas ellas, la más utilizada es la distribución normal estándar, que corresponde a una distribución de media 0 y varianza 1. Así, la expresión que define su densidad se puede obtener de la Ecuación 1, resultando: Es importante conocer que, a partir de cualquier variable X que siga una distribución , se puede obtener otra característica Z con una distribución normal estándar, sin más que efectuar la transformación: Ecuación 2: Esta propiedad resulta especialmente interesante en la práctica, ya que para una distribución existen tablas publicadas (Tabla 1) a partir de las que se puede obtener de modo sencillo la probabilidad de observar un dato menor o igual a un cierto http://www.fisterra.com/mbe/investiga/distr_normal/distr_normal.htm (3 of 15)22/04/2006 1:23:35 PM La Distribución Normal valor z, y que permitirán resolver preguntas de probabilidad acerca del comportamiento de variables de las que se sabe o se asume que siguen una distribución aproximadamente normal. Consideremos, por ejemplo, el siguiente problema: supongamos que se sabe que el peso de los sujetos de una determinada población sigue una distribución aproximadamente normal, con una media de 80 Kg y una desviación estándar de 10 Kg. ¿Podremos saber cuál es la probabilidad de que una persona, elegida al azar, tenga un peso superior a 100 Kg? Denotando por X a la variable que representa el peso de los individuos en esa población, ésta sigue una distribución . Si su distribución fuese la de una normal estándar podríamos utilizar la Tabla 1 para calcular la probabilidad que nos interesa. Como éste no es el caso, resultará entonces útil transformar esta característica según la Ecuación 2, y obtener la variable: para poder utilizar dicha tabla. Así, la probabilidad que se desea calcular será: Como el área total bajo la curva es igual a 1, se puede deducir que: Esta última probabilidad puede ser fácilmente obtenida a partir de la Tabla 1, resultando . Por lo tanto, la probabilidad buscada de que una persona ser elegida aleatoriamente de esa población tenga un peso mayor de 100 Kg , es de 1– 0.9772=0.0228, es decir, aproximadamente de un 2.3%. De modo análogo, podemos obtener la probabilidad de que el peso de un sujeto esté entre 60 y 100 Kg: De la Figura 2, tomando a=-2 y b=2, podemos deducir que: http://www.fisterra.com/mbe/investiga/distr_normal/distr_normal.htm (4 of 15)22/04/2006 1:23:35 PM La Distribución Normal Por el ejemplo previo, se sabe que . Para la segunda probabilidad, sin embargo, encontramos el problema de que las tablas estándar no proporcionan el valor de para valores negativos de la variable. Sin embargo, haciendo uso de la simetría de la distribución normal, se tiene que: Finalmente, la probabilidad buscada de que una persona elegida al azar tenga un peso entre 60 y 100 Kg., es de 0.9772-0.0228=0.9544, es decir, aproximadamente de un 95%. Resulta interesante comprobar que se obtendría la misma conclusión recurriendo a la propiedad (iii) de la distribución normal. No obstante, es fácil observar que este tipo de situaciones no corresponde a lo que habitualmente nos encontramos en la práctica. Generalmente no se dispone de información acerca de la distribución teórica de la población, sino que más bien el problema se plantea a la inversa: a partir de una muestra extraída al azar de la población que se desea estudiar, se realizan una serie de mediciones y se desea extrapolar los resultados obtenidos a la población de origen. En un ejemplo similar al anterior, supongamos que se dispone del peso de n=100 individuos de esa misma población, obteniéndose una media muestral de Kg, y una desviación estándar muestral Kg, querríamos extraer alguna conclusión acerca del valor medio real de ese peso en la población original. La solución a este tipo de cuestiones se basa en un resultado elemental de la teoría estadística, el llamado teorema central del límite. Dicho axioma viene a decirnos que las medias de muestras aleatorias de cualquier variable siguen ellas mismas una distribución normal con igual media que la de la población y desviación estándar la de la población dividida por entonces considerar la media muestral . En nuestro caso, podremos , con lo cual, a partir de la propiedad (iii) se conoce que aproximadamente un 95% de los posibles valores de caerían dentro del intervalo . Puesto que los valores de y son desconocidos, podríamos pensar en aproximarlos por sus análogos muestrales, resultando . Estaremos, por lo tanto, un 95% seguros de que el peso medio real en la población de origen oscila entre 75.6 Kg y 80.3 Kg. Aunque la teoría estadística subyacente es mucho más compleja, en líneas generales éste es el modo de construir un intervalo de confianza para la media de una población. http://www.fisterra.com/mbe/investiga/distr_normal/distr_normal.htm (5 of 15)22/04/2006 1:23:35 PM La Distribución Normal 3. Contrastes de Normalidad La verificación de la hipótesis de normalidad resulta esencial para poder aplicar muchos de los procedimientos estadísticos que habitualmente se manejan. Tal y como ya se apuntaba antes, la simple exploración visual de los datos observados mediante, por ejemplo, un histograma o un diagrama de cajas, podrá ayudarnos a decidir si es razonable o no el considerar que proceden de una característica de distribución normal. Como ejemplo, consideremos los histogramas que se muestran en la Figura 4a, correspondientes a una muestra de 100 mujeres de las que se determinó su peso y edad. Para el caso del peso, la distribución se asemeja bastante a la de una normal. P ara la edad, sin embargo, es claramente asimétrica y diferente de la gaussiana. Resulta obvio que este tipo de estudio no puede llevarnos sino a obtener una opinión meramente subjetiva acerca de la posible distribución de nuestros datos, y que es necesario disponer de otros métodos más rigurosos para contrastar este tipo de hipótesis. En primer lugar, deberemos plantearnos el saber si los datos se distribuyen de una forma simétrica con respecto a su media o presentan algún grado de asimetría, pues es ésta una de las características fundamentales de la distribución de Gauss. Aunque la simetría de la distribución pueda valorarse, de modo simple, atendiendo a algunas medidas descriptivas de la variable en cuestión8 (comparando, por ejemplo, los valores de media, mediana y moda), resultará útil disponer de algún índice que nos permita cuantificar cualquier desviación. Si se dispone de una muestra de tamaño n, X, se define el coeficiente de asimetría de Fisher como: de una característica a partir del cual podemos considerar que una distribución es simétrica ( =0), asimétrica hacia la izquierda ( <0) o hacia la derecha ( >0). En segundo lugar, podemos preguntarnos si la curva es más o menos "aplastada", en relación con el grado de apuntamiento de una distribución gaussiana. El coeficiente de aplastamiento o curtosis de Fisher, dado por: permite clasificar una distribución de frecuencias en mesocúrtica (tan aplanada como una normal, ), leptocúrtica (más apuntada que una normal, ) o platicúrtica http://www.fisterra.com/mbe/investiga/distr_normal/distr_normal.htm (6 of 15)22/04/2006 1:23:35 PM La Distribución Normal (más aplanada que una normal, ). Siguiendo con los ejemplos anteriores, y tal y como cabía esperar, el coeficiente de asimetría toma un valor mayor para la distribución de la edad ( ) que para el peso observado ( ). En cuanto a los niveles de curtosis, no hay apenas diferencias, siendo de –0.320 para el peso y de –0.366 para la edad. Los gráficos de probabilidad normal constituyen otra importante herramienta gráfica para comprobar si un conjunto de datos puede considerarse o no procedente de una distribución normal. La idea básica consiste en enfrentar, en un mismo gráfico, los datos que han sido observados frente a los datos teóricos que se obtendrían de una distribución gaussiana. Si la distribución de la variable coincide con la normal, los puntos se concentrarán en torno a una línea recta, aunque conviene tener en cuenta que siempre tenderá a observarse mayor variabilidad en los extremos (Figura 4a, datos del peso). En los gráficos P-P se confrontan las proporciones acumuladas de una variable con las de una distribución normal. Los gráficos Q-Q se obtienen de modo análogo, esta vez representando los cuantiles respecto a los cuantiles de la distribución normal. Además de permitir valorar la desviación de la normalidad, los gráficos de probabilidad permiten conocer la causa de esa desviación. Una curva en forma de "U" o con alguna curvatura, como en el caso de la edad en la Figura 4b, significa que la distribución es asimétrica con respecto a la gaussiana, mientras que un gráfico en forma de "S" significará que la distribución tiene colas mayores o menores que la normal, esto es, que existen pocas o demasiadas observaciones en las colas de la distribución. Parece lógico que cada uno de estos métodos se complemente con procedimientos de análisis que cuantifiquen de un modo más exacto las desviaciones de la distribución normal. Existen distintos tests estadísticos que podemos utilizar para este propósito. El test de Kolmogorov-Smirnov es el más extendido en la práctica. Se basa en la idea de comparar la función de distribución acumulada de los datos observados con la de una distribución normal, midiendo la máxima distancia entre ambas curvas. Como en cualquier test de hipótesis, la hipótesis nula se rechaza cuando el valor del estadístico supera un cierto valor crítico que se obtiene de una tabla de probabilidad. Dado que en la mayoría de los paquetes estadísticos, como el SPSS, aparece programado dicho procedimiento, y proporciona tanto el valor del test como el p-valor correspondiente, no nos detendremos más en explicar su cálculo. Existen modificaciones de este test, como el de Anderson-Darling que también pueden ser utilizados. Otro procedimiento muy extendido es también el test chi-cuadrado de bondad de ajuste. No obstante, este tipo de procedimientos deben ser utilizados con precaución. Cuando se dispone de un número suficiente de datos, cualquier test será capaz de detectar diferencias pequeñas aún cuando estas no sean relevantes para la mayor parte de los propósitos. El test de KolmogorovSmirnov, en este sentido, otorga un peso menor a las observaciones extremas y por la tanto es menos sensible a las desviaciones que normalmente se producen en estos tramos. Para acabar, observemos el resultado de aplicar el test de Kolmogorov-Smirnov a los datos de la Figura 4. Para el caso del peso, el valor del estadístico proporcionado por dicho test fue de 0.705, con un p-valor correspondiente de p=0.702 que, al no ser http://www.fisterra.com/mbe/investiga/distr_normal/distr_normal.htm (7 of 15)22/04/2006 1:23:35 PM La Distribución Normal significativo, indica que podemos asumir una distribución normal. Por otra parte, para el caso de la edad, en el que la distribución muestral era mucho más asimétrica, el mismo test proporcionó un valor de 1.498, con p=0.022, lo que obligaría a rechazar en este caso la hipótesis de una distribución gaussiana. Recursos relacionados en Internet q Normal Density Plotter (UCLA Department of Statistic) Página que permite obtener la representación gráfica de la densidad de una distribución normal de media y desviación estándar dados por el usuario. SurfStat Statistical Tables - Standard Normal Distribution (University of Newcastle) Página que permite calcular, a partir de una distribución normal estándar, la probabilidad acumulada hasta un cierto valor, o la probabilidad de tomar un valor en un intervalo. Así mismo, permite realizar los cálculos inversos, es decir, obtener el p-cuantil de una distribución normal estándar. Normal Density Calculator (UCLA Department of Statistic) Permite obtener, bajo una distribución normal, la probabilidad de observar un valor mayor o igual que uno dado. La ventaja es que permite hacerlo no sólo para la distribución normal estándar, sino para valores de la media y desviación estándar dados por el usuario. Matt's spiffy normal plot maker (UCLA Department of Statistic) Se introducen los datos de la variable de interes y produce el gráfico Q-Q de probabilidad normal correspondiente, que puede ser fácilmente exportado a otros programas. Calculation of 95% Confidence Interval on a Sample Mean (Arizona State University) A partir del valor de la media y la desviación estándar muestral, calcula el 95% intervalo de confianza para la media poblacional. q q q q Figura 1. Histograma de los valores de tensión arterial sistólica para dos muestras de pacientes isquémicos ingresados en una unidad de cuidados intensivos. Figura 1a.- Valores de tensión arterial sistólica en una muestra de 1000 pacientes isquémicos ingresados en UCI. http://www.fisterra.com/mbe/investiga/distr_normal/distr_normal.htm (8 of 15)22/04/2006 1:23:35 PM La Distribución Normal Figura 1b.- Valores de tensión arterial sistólica de una muestra de 5000 pacientes ingresados en UCI. Figura 2. Gráfica de una distribución normal y significado del área bajo la curva. http://www.fisterra.com/mbe/investiga/distr_normal/distr_normal.htm (9 of 15)22/04/2006 1:23:35 PM La Distribución Normal Tabla 1. Áreas bajo la curva normal estándar. Los valores de la tabla que no se muestran en negrita representan la probabilidad de observar un valor menor o igual a z. La cifra entera y el primer decimal de z se buscan en la primera columna, y el segundo decimal en la cabecera de la tabla. z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 0.00 .5000 .5398 .5793 .6179 .6554 .6915 .7257 .7580 .7881 .8159 .8413 .8643 .01 .5040 .5438 .5832 .6217 .6591 .6950 .7291 .7611 .7910 .8186 .8438 .8665 Segunda cifra decimal del valor .02 .03 .04 .05 .5080 .5120 .5160 .5199 .5478 .5517 .5557 .5596 .5871 .5910 .5948 .5987 .6255 .6293 .6331 .6368 .6628 .6664 .6700 .6736 .6985 .7019 .7054 .7088 .7324 .7357 .7389 .7422 .7642 .7673 .7704 .7734 .7939 .7967 .7995 .8023 .8212 .8238 .8264 .8289 .8461 .8485 .8508 .8531 .8686 .8708 .8729 .8749 de z .06 .5239 .5636 .6026 .6406 .6772 .7123 .7454 .7764 .8051 .8315 .8554 .8770 .07 .5279 .5675 .6064 .6443 .6808 .7157 .7486 .7794 .8078 .8340 .8577 .8790 .08 .5319 .5714 .6103 .6480 .6844 .7190 .7517 .7823 .8106 .8365 .8599 .8810 .09 .5359 .5753 .6141 .6517 .6879 .7224 .7549 .7852 .8133 .8389 .8621 .8830 http://www.fisterra.com/mbe/investiga/distr_normal/distr_normal.htm (10 of 15)22/04/2006 1:23:35 PM La Distribución Normal 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 .8849 .9032 .9192 .9332 .9452 .9554 .9641 .9713 .9772 .9821 .9861 .9893 .9918 .9938 .9953 .9965 .9974 .9981 .9987 .9990 .9993 .9995 .9997 .8869 .9049 .9207 .9345 .9463 .9564 .9649 .9719 .9778 .9826 .9864 .9896 .9920 .9940 .9955 .9966 .9975 .9982 .9987 .9991 .9993 .9995 .9997 .8888 .9066 .9222 .9357 .9474 .9573 .9656 .9726 .9783 .9830 .9868 .9898 .9922 .9941 .9956 .9967 .9976 .9982 .9987 .9991 .9994 .9995 .9997 .8907 .9082 .9236 .9370 .9484 .9582 .9664 .9732 .9788 .9834 .9871 .9901 .9925 .9943 .9957 .9968 .9977 .9983 .9988 .9991 .9994 .9996 .9997 .8925 .9099 .9251 .9382 .9495 .9591 .9671 .9738 .9793 .9838 .9875 .9904 .9927 .9945 .9959 .9969 .9977 .9984 .9988 .9992 .9994 .9996 .9997 .8944 .9115 .9265 .9394 .9505 .9599 .9678 .9744 .9798 .9842 .4878 .9906 .9929 .9946 .9960 .9970 .9978 .9984 .9989 .9992 .9994 .9996 .9997 .8962 .9131 .9279 .9406 .9515 .9608 .9686 .9750 .9803 .9846 .9881 .9909 .9931 .9948 .9961 .9971 .9979 .9985 .9989 .9992 .9994 .9996 .9997 .8980 .9147 .9292 .9418 .9525 .9616 .9693 .9756 .9808 .9850 .9884 .9911 .9932 .9949 .9962 .9972 .9979 .9985 .9989 .9992 .9995 .9996 .9997 .8997 .9162 .9306 .9429 .9535 .9625 .9699 .9761 .9812 .9854 .9887 .9913 .9934 .9951 .9963 .9973 .9980 .9986 .9990 .9993 .9995 .9996 .9997 .9015 .9177 .9319 .9441 .9545 .9633 .9706 .9767 .9817 .9857 .9890 .9916 .9936 .9952 .9964 .9974 .9981 .9986 .9990 .9993 .9995 .9997 .9998 Figura 3. Ejemplos de distribuciones normales con diferentes parámetros. http://www.fisterra.com/mbe/investiga/distr_normal/distr_normal.htm (11 of 15)22/04/2006 1:23:35 PM La Distribución Normal Figura 4. Histogramas y gráficos de probabilidad normal de los valores de peso y edad en dos muestras de pacientes. Figura 4a.- Histogramas http://www.fisterra.com/mbe/investiga/distr_normal/distr_normal.htm (12 of 15)22/04/2006 1:23:35 PM La Distribución Normal Figura 4b.- Gráficos Q-Q de probabilidad. http://www.fisterra.com/mbe/investiga/distr_normal/distr_normal.htm (13 of 15)22/04/2006 1:23:35 PM La Distribución Normal Bibliografía 1. Pértega Díaz S, Pita Fernández S. Representación gráfica en el análisis de datos. Cad Aten Primaria 2001; 8: 112-117. 2. Altman DA. Practical statistics for medical research. 1th ed., repr. 1997. London: Chapman & Hall; 1997. 3. Daniel WW. Bioestadística. Base para el análisis de las ciencias de la salud. Mexico: Limusa; 1995. 4. Elston RC, Johnson WD. Essentials of Biostatistics. Philadelphia: F.A. Davis Company; 1987. 5. Altman DG, Bland JM. Statistics notes: The normal distribution. BMJ 1995; 310: 298-298. [Texto completo] 6. Elveback LR, Guilliver CL, Keating FR Jr. Health, Normality and the Gosth of Gauss. JAMA 1970; 211: 69-75. [Medline] 7. Nelson JC, Haynes E, Willard R, Kuzma J. The Distribution of Eurhyroid Serum ProteinBound Iodine Levels. JAMA 1971; 216: 1639-1641. [Medline] 8. Altman DG, Bland JM. Statistics notes: Detecting skewness from summary information. BMJ 1996; 313: 1200-1200. [Texto completo] http://www.fisterra.com/mbe/investiga/distr_normal/distr_normal.htm (14 of 15)22/04/2006 1:23:35 PM La Distribución Normal 9. Bland JM, Altman DG. Statistics Notes: Transforming data. BMJ 1996; 312: 770. [Texto completo] Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/distr_normal/distr_normal.htm (15 of 15)22/04/2006 1:23:35 PM Representación gráfica en el análisis de datos Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 02/04/01 Representación gráfica en el Análisis de Datos Pértega Díaz S. [ Correo de contacto ] , Pita Fernández S. Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña (España) Cad Aten Primaria (Pendiente de publicación) La realización de los estudios clínico-epidemiológicos implica finalmente emitir unos resultados cuantificables de dicho estudio o experimento. La claridad de dicha presentación es de vital importancia para la comprensión de los resultados y la interpretación de los mismos. A la hora de representar los resultados de un análisis estadístico de un modo adecuado, son varias las publicaciones que podemos consultar1. Aunque se aconseja que la presentación de datos numéricos se haga habitualmente por medio de tablas, en ocasiones un diagrama o un gráfico pueden ayudarnos a representar de un modo más eficiente nuestros datos. En este artículo se abordará la representación gráfica de los resultados de un estudio, constatando su utilidad en el proceso de análisis estadístico y la presentación de datos. Se describirán los distintos tipos de gráficos que podemos utilizar y su correspondencia con las distintas etapas del proceso de análisis. Análisis descriptivo. Cuando se dispone de datos de una población, y antes de abordar análisis estadísticos más complejos, un primer paso consiste en presentar esa información de forma que ésta se pueda visualizar de una manera más sistemática y resumida. Los datos que nos interesan dependen, en cada caso, del tipo de variables que estemos manejando2. Para variables categóricas3, como el sexo, estadio TNM, profesión, etc., se quiere conocer la frecuencia y el porcentaje del total de casos que "caen" en cada categoría. Una forma muy sencilla de representar gráficamente estos resultados es mediante diagramas de barras o diagramas de sectores. En los gráficos de sectores, también conocidos como diagramas de "tartas", se divide un círculo en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. Un ejemplo se muestra en la Figura 1. Como se puede observar, la información que se debe mostrar en cada sector hace referencia al número de casos dentro de cada categoría y al porcentaje del total que estos representan. Si el número de categorías es excesivamente grande, la imagen proporcionada por el gráfico de sectores no es lo suficientemente clara y por lo tanto la situación ideal es cuando hay alrededor de tres categorías. En este caso se pueden apreciar con claridad dichos subgrupos. Contenido Análisis descriptivo Comparación de dos o más grupos Relación entre dos variables numéricas Otros gráficos Bibliografía Documento en PDF (80 Kb) ¿Problemas con PDF? Tablas y Figuras Fig. 1. Diagrama de sectores Fig. 2. Diagrama de barras Tabla I. Distribución de frecuencias: edad en 100 pacientes Fig. 3. Histograma Fig. 4. Polígono de frecuencias Fig. 5. Diagrama de caja Fig. 6. Gráfico P-P http://www.fisterra.com/mbe/investiga/graficos/graficos.htm (1 of 18)22/04/2006 1:23:47 PM Representación gráfica en el análisis de datos Los diagramas de barras son similares a los gráficos de sectores. Se representan tantas barras como categorías tiene la variable, de modo que la altura de cada una de ellas sea proporcional a la frecuencia o porcentaje de casos en cada clase (Figura 2). Estos mismos gráficos pueden utilizarse también para describir variables numéricas discretas que toman pocos valores (número de hijos, número de recidivas, etc.). Para variables numéricas continuas, tales como la edad, la tensión arterial o el índice de masa corporal, el tipo de gráfico más utilizado es el histograma. Para construir un gráfico de este tipo, se divide el rango de valores de la variable en intervalos de igual amplitud, representando sobre cada intervalo un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de los datos en cada intervalo y el área de los rectángulos. Como ejemplo, la Tabla I muestra la distribución de frecuencias de la edad de 100 pacientes, comprendida entre los 18 y 42 años. Si se divide este rango en intervalos de dos años, el primer tramo está comprendido entre los 18 y 19 años, entre los que se encuentra el 4/100=4% del total. Por lo tanto, la primera barra tendrá altura proporcional a 4. Procediendo así sucesivamente, se construye el histograma que se muestra en la Figura 3. Uniendo los puntos medios del extremo superior de las barras del histograma, se obtiene una imagen que se llama polígono de frecuencias. Dicha figura pretende mostrar, de la forma más simple, en qué rangos se encuentra la mayor parte de los datos. Un ejemplo, utilizando los datos anteriores, se presenta en la Figura 4. Fig. 7. Diagrama de barras agrupadas Fig. 8. Diagrama de barras de error Fig. 9. Gráfico de líneas Fig. 10. Diagrama de dispersión Fig. 11. Diagramas de líneas superpuestos Fig. 12. Diagrama de dispersión (regresión logística) Fig. 13. Curvas ROC Otro modo habitual, y muy útil, de resumir una variable de tipo numérico es utilizando el concepto de percentiles, mediante diagramas de cajas4,5. La Figura 5 muestra un gráfico de cajas correspondiente a los datos de la Tabla I. La caja central indica el rango en el que se concentra el 50% central de los datos. Sus extremos son, por lo tanto, el 1er y 3er cuartil de la distribución. La línea central en la caja es la mediana. De este modo, si la variable es simétrica, dicha línea se encontrará en el centro de la caja. Los extremos de los "bigotes" que salen de la caja son los valores que delimitan el 95% central de los datos, aunque en ocasiones coinciden con los valores extremos de la distribución. Se suelen también representar aquellas observaciones que caen fuera de este rango (outliers o valores extremos). Esto resulta especialmente útil para comprobar, gráficamente, posibles errores en nuestros datos. En general, los diagramas de cajas resultan más apropiados para representar variables que presenten una gran desviación de la distribución normal. Como se verá más adelante, resultan además de gran ayuda cuando se dispone de datos en distintos grupos de sujetos. Por último, y en lo que respecta a la descripción de los datos, suele ser necesario, para posteriores análisis, comprobar la normalidad de alguna de las variables numéricas de las que se dispone. Un diagrama de cajas o un histograma son gráficos sencillos que permiten comprobar, de un modo puramente visual, la simetría y el "apuntamiento" de la distribución de una variable y, por lo tanto, valorar su desviación de la normalidad. Existen otros métodos gráficos específicos para este propósito, como son los gráficos PP o Q-Q. En los primeros, se confrontan las proporciones acumuladas de una variable con las de una distribución normal. Si la variable seleccionada coincide con la http://www.fisterra.com/mbe/investiga/graficos/graficos.htm (2 of 18)22/04/2006 1:23:47 PM Representación gráfica en el análisis de datos distribución de prueba, los puntos se concentran en torno a una línea recta. Los gráficos Q-Q se obtienen de modo análogo, esta vez representando los cuantiles de distribución de la variable respecto a los cuantiles de la distribución normal. En la Figura 6 se muestra el gráfico P-P correspondientes a los datos de la Tabla I que sugiere, al igual que el correspondiente histograma y el diagrama de cajas, que la distribución de la variable se aleja de la normalidad. Comparación de dos o más grupos. Cuando se quieren comparar las observaciones tomadas en dos o más grupos de individuos una vez más el método estadístico a utilizar, así como los gráficos apropiados para visualizar esa relación, dependen del tipo de variables que estemos manejando. Cuando se trabaja con dos variables cualitativas podemos seguir empleando gráficos de barras o de sectores. Podemos querer determinar, por ejemplo, si en una muestra dada, la frecuencia de sujetos que padecen una enfermedad coronaria es más frecuente en aquellos que tienen algún familiar con antecedentes cardiacos. A partir de dicha muestra podemos representar, como se hace en la Figura 7, dos grupos de barras: uno para los sujetos con antecedentes cardiacos familiares y otro para los que no tienen este tipo de antecedentes. En cada grupo, se dibujan dos barras representando el porcentaje de pacientes que tienen o no alguna enfermedad coronaria. No se debe olvidar que cuando los tamaños de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro caso el gráfico podría resultar engañoso. Por otro lado, la comparación de variables continuas en dos o más grupos se realiza habitualmente en términos de su valor medio, por medio del test t de Student, análisis de la varianza o métodos no paramétricos equivalentes, y así se ha de reflejar en el tipo de gráfico utilizado. En este caso resulta muy útil un diagrama de barras de error, como en la Figura 8. En él se compara el índice de masa corporal en una muestra de hombres y mujeres. Para cada grupo, se representa su valor medio, junto con su 95% intervalo de confianza. Conviene recordar que el hecho de que dichos intervalos no se solapen, no implica necesariamente que la diferencia entre ambos grupos pueda ser estadísticamente significativa, pero sí nos puede servir para valorar la magnitud de la misma. Así mismo, para visualizar este tipo de asociaciones, pueden utilizarse dos diagramas de cajas, uno para cada grupo. Estos diagramas son especialmente útiles aquí: no sólo permiten ver si existe o no diferencia entre los grupos, sino que además nos permiten comprobar la normalidad y la variabilidad de cada una de las distribuciones. No olvidemos que las hipótesis de normalidad y homocedasticidad son condiciones necesarias para aplicar algunos de los procedimientos de análisis paramétricos. Por último, señalar que también en esta situación pueden utilizarse los ya conocidos gráficos de barras, representando aquí como altura de cada barra el valor medio de la variable de interés. Los gráficos de líneas pueden resultar también especialmente interesantes, sobre todo cuando interesa estudiar tendencias a lo largo del tiempo (Figura 9). No son más que una serie de puntos conectados entre sí mediante rectas, donde cada http://www.fisterra.com/mbe/investiga/graficos/graficos.htm (3 of 18)22/04/2006 1:23:47 PM Representación gráfica en el análisis de datos punto puede representar distintas cosas según lo que nos interese en cada momento (el valor medio de una variable, porcentaje de casos en una categoría, el valor máximo en cada grupo, etc). Relación entre dos variables numéricas. Cuando lo que interesa es estudiar la relación entre dos variables continuas, el método de análisis adecuado es el estudio de la correlación. Los coeficientes de correlación (Pearson, Spearman, etc.) valoran hasta qué punto el valor de una de las variables aumenta o disminuye cuando crece el valor de la otra. Cuando se dispone de todos los datos, un modo sencillo de comprobar, gráficamente, si existe una correlación alta, es mediante diagramas de dispersión, donde se confronta, en el eje horizontal, el valor de una variable y en el eje vertical el valor de la otra. Un ejemplo sencillo de variables altamente correlacionados es la relación entre el peso y la talla de un sujeto. Partiendo de una muestra arbitraria, podemos construir el diagrama de dispersión de la Figura 10. En él puede observarse claramente como existe una relación directa entre ambas variables, y valorar hasta qué punto dicha relación puede modelizarse por la ecuación de una recta. Este tipo de gráficos son, por lo tanto, especialmente útiles en la etapa de selección de variables cuando se ajusta un modelo de regresión lineal. Otros gráficos. Los tipos de gráficos mostrados hasta aquí son los más sencillos que podemos manejar, pero ofrecen grandes posibilidades para la representación de datos y pueden ser utilizados en múltiples situaciones, incluso para representar los resultados obtenidos por métodos de análisis más complicados. Podemos utilizar, por ejemplo, dos diagramas de líneas superpuestos para visualizar los resultados de un análisis de la varianza con dos factores (Figura 11). Un diagrama de dispersión es el método adecuado para valorar el resultado de un modelo de regresión logística (Figura 12). Existen incluso algunos análisis concretos que están basados completamente en la representación gráfica. En particular, la elaboración de curvas ROC (Figura 13) y el cálculo del área bajo la curva constituyen el método más apropiado para valorar la exactitud de una prueba diagnóstica. Hemos visto, por lo tanto, como la importancia y utilidad que las representaciones gráficas pueden alcanzar en el proceso de análisis de datos. La mayoría de los textos estadísticos y epidemiológicos4 hacen hincapié en los distintos tipos de gráficos que se pueden crear, como una herramienta imprescindible en la presentación de resultados y el proceso de análisis estadístico. No obstante, es difícil precisar cuándo es más apropiado utilizar un gráfico que una tabla. Más bien podremos considerarlos dos modos distintos pero complementarios de visualizar los mismos datos. La creciente utilización de distintos programas informáticos hace especialmente sencillo la obtención de las mismas. http://www.fisterra.com/mbe/investiga/graficos/graficos.htm (4 of 18)22/04/2006 1:23:47 PM Representación gráfica en el análisis de datos La mayoría de los paquetes estadísticos (SPSS, STATGRAPHICS, S-PLUS, EGRET,...) ofrecen grandes posibilidades en este sentido. Además de los gráficos vistos, es posible elaborar otros gráficos, incluso tridimensionales, permitiendo grandes cambios en su apariencia y facilidad de exportación a otros programas para presentar finalmente los resultados del estudio. Figura 1. Ejemplo de gráfico de sectores. Distribución de una muestra de pacientes según el hábito de fumar. Arriba Figura 2. Ejemplo de gráfico de barras. Estadio TNM en el cáncer gástrico. http://www.fisterra.com/mbe/investiga/graficos/graficos.htm (5 of 18)22/04/2006 1:23:47 PM Representación gráfica en el análisis de datos Arriba Tabla I. Distribución de frecuencias de la edad en 100 pacientes. Nº de Edad pacientes 18 1 19 3 20 4 21 7 22 5 23 8 24 10 25 8 26 9 27 6 28 6 29 4 30 3 31 4 32 5 33 3 34 2 35 3 http://www.fisterra.com/mbe/investiga/graficos/graficos.htm (6 of 18)22/04/2006 1:23:47 PM Representación gráfica en el análisis de datos 36 37 38 39 41 42 1 2 3 1 1 1 Arriba Figura 3. Ejemplo de un histograma correspondiente a los datos de la Tabla I. Arriba Figura 4. Polígono de frecuencias para los datos de la Tabla I. http://www.fisterra.com/mbe/investiga/graficos/graficos.htm (7 of 18)22/04/2006 1:23:47 PM Representación gráfica en el análisis de datos Arriba Figura 5. Ejemplo de un diagrama de caja correspondiente a lo datos en la Tabla I. http://www.fisterra.com/mbe/investiga/graficos/graficos.htm (8 of 18)22/04/2006 1:23:47 PM Representación gráfica en el análisis de datos Arriba Figura 6. Gráfico P-P de normalidad para los datos de la Tabla I. http://www.fisterra.com/mbe/investiga/graficos/graficos.htm (9 of 18)22/04/2006 1:23:47 PM Representación gráfica en el análisis de datos Arriba Figura 7. Diagrama de barras agrupadas. Relación entre la presencia de alguna enfermedad coronaria y los antecedentes cardiacos familiares en una muestra. http://www.fisterra.com/mbe/investiga/graficos/graficos.htm (10 of 18)22/04/2006 1:23:47 PM Representación gráfica en el análisis de datos Arriba Figura 8. Barras de error. Variación en el índice de masa corporal según el sexo. http://www.fisterra.com/mbe/investiga/graficos/graficos.htm (11 of 18)22/04/2006 1:23:47 PM Representación gráfica en el análisis de datos Arriba Figura 9. Gráfico de líneas. Número de pacientes trasplantados renales en el Complexo Hospitalario "Juan Canalejo" durante el periodo 1981-1997. http://www.fisterra.com/mbe/investiga/graficos/graficos.htm (12 of 18)22/04/2006 1:23:47 PM Representación gráfica en el análisis de datos Arriba Figura 10. Diagrama de dispersión entre la talla y el peso de una muestra de individuos. http://www.fisterra.com/mbe/investiga/graficos/graficos.htm (13 of 18)22/04/2006 1:23:47 PM Representación gráfica en el análisis de datos Arriba Figura 11. Dos diagramas de líneas superpuestos. Variación en el peso medio de una muestra de recién nacidos según el control ginecológico del embarazo y el hábito de fumar de la madre. http://www.fisterra.com/mbe/investiga/graficos/graficos.htm (14 of 18)22/04/2006 1:23:47 PM Representación gráfica en el análisis de datos Arriba Figura 12. Diagrama de dispersión (regresión logística). Probabilidad de padecer cirrosis hepática, según un modelo de regresión logística ajustando por el % de protrombina y el presentar o no hepatomegalia. http://www.fisterra.com/mbe/investiga/graficos/graficos.htm (15 of 18)22/04/2006 1:23:47 PM Representación gráfica en el análisis de datos Arriba Figura 13. Curva ROC para el porcentaje de protrombina en la predicción de cirrosis. http://www.fisterra.com/mbe/investiga/graficos/graficos.htm (16 of 18)22/04/2006 1:23:47 PM Representación gráfica en el análisis de datos Arriba Bibliografía 1. Lang TA, Secic M. How to report statistics in medicine. Annotated Guidelines for authors, Editors, and reviewers. Philadelphia: Port City Press; 1997. 2. Altman DG, Bland JM. Statistics Notes: Presentation of numerical data. BMJ 1996; 312: 572. [Medline] [texto completo] 3. Singer PA, Feinstein AR. Graphical display of categorical data. J Clin Epidemiol 1993; 46(3): 231-6. [Medline] 4. Simpson RJ, Johnson TA, Amara IA. The box-plot: an exploratory analysis for biomedical publications. Am Heart J 1988; 116 (6 Part 1): 1663-5. [Medline] 5. Williamson DF, Parker RA, Kendrick JS. The box plot: a simple visual method to interpret data. Ann Intern Med 1989; 110 (11): 916-21. [Medline] 6.Altman DA. Practical statistics for medical research. 1th ed., repr. 1997. London: Chapman & Hall; 1997. http://www.fisterra.com/mbe/investiga/graficos/graficos.htm (17 of 18)22/04/2006 1:23:47 PM Representación gráfica en el análisis de datos Arriba | Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/graficos/graficos.htm (18 of 18)22/04/2006 1:23:47 PM Métodos paramétricos para la comparación de dos medias. t de Student Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 23/03/01 Métodos paramétricos para la comparación de dos medias. t de Student Pértega Díaz S. [ Correo de contacto ] , Pita Fernández S. [ Correo de contacto ] Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña (España) CAD ATEN PRIMARIA 2001; 8: 37-41. En muchos estudios, incluidos la mayoría de los ensayos clínicos, es necesario comparar ciertas características en dos o más grupos de sujetos. Tal sería el caso, por ejemplo, si pensamos que un tratamiento nuevo puede tener un porcentaje de mejoría mayor que otro estándar, o cuando nos planteamos si los niños de las distintas comunidades autónomas tienen o no la misma altura. En este artículo se analizará únicamente el problema de la comparación de dos grupos con respecto a una variable continua. La elección de un método de análisis apropiado en este caso dependerá de la naturaleza de los datos y la forma en la que estos hayan sido obtenidos. Fundamentalmente, cuando se comparan dos o más grupos de observaciones pueden darse dos tipos de diseño: aquel en el que las observaciones se refieren a dos grupos independientes de individuos, o el caso en el que cada serie de datos se recoge en los mismos sujetos bajo condiciones diferentes. El tipo de metodología será distinto según el caso en el que nos encontremos. Otro aspecto a tener en consideración será el tipo y distribución de los datos. Para grupos independientes, los métodos paramétricos requieren que las observaciones en cada grupo provengan de una distribución aproximadamente normal con una variabilidad semejante, de modo que si los datos disponibles no verifican tales condiciones, puede resultar útil una transformación(1,2,3) de los mismos (aplicación del logaritmo, raíz cuadrada, etc.) o, en todo caso, se debería recurrir a la utilización de procedimientos no paramétricos(4). Normalmente en este tipo de análisis podremos establecer una hipótesis de partida (hipótesis nula), que generalmente asume que el efecto de interés es nulo, por ejemplo que la tensión arterial es la misma en hombres y mujeres o que dos tratamientos para la hipercolesterolemia son igualmente efectivos. Posteriormente se puede evaluar la probabilidad de haber obtenido los datos observados si esa hipótesis es correcta. El valor de esta probabilidad coincide con el valor-p que nos proporciona cada test estadístico, de modo que cuanto menor sea éste más improbable resulta que la hipótesis inicial se verifique. En un primer apartado, se presentará el test t de Student para dos muestras independientes, introduciendo las modificaciones necesarias en el caso de que la variabilidad de ambos grupos sea distinta. A continuación se introducirá el test t de Student para el caso de dos muestras dependientes. Contenido t de Student para dos muestras independientes Dos muestras independientes con Varianza distinta Dos muestras dependientes Bibliografía Documento en PDF (139 Kb) ¿Problemas con PDF? Tablas y Figuras Fig. 1. Comparación de dos poblaciones normales Fig. 2. Regiones de aceptación y rechazo en el contraste de hipótesis Tabla 1. Datos de 75 pacientes con sobrepeso sometidos a dos dietas alimenticias Tabla 2. Distribución t de Student Dos muestras independientes. Uno de los análisis estadísticos más comunes en la práctica es probablemente el utilizado para comparar dos grupos independientes de observaciones con respecto a una variable numérica. Como ejemplo, consideremos los datos que se muestran en la Tabla 1, correspondientes a 75 individuos con sobrepeso sometidos a dos dietas alimenticias distintas, de modo que se desea comparar el http://www.fisterra.com/mbe/investiga/t_student/t_student.htm (1 of 10)22/04/2006 1:24:06 PM Métodos paramétricos para la comparación de dos medias. t de Student peso de los individuos que iniciaron cada una de las dietas. Como ya se ha adelantado, la aplicación de un contraste paramétrico requiere la normalidad de las observaciones para cada uno de los grupos. La comprobación de esta hipótesis puede realizarse tanto por métodos gráficos (por medio de histogramas, diagramas de cajas o gráficos de normalidad) como mediante tests estadísticos(5) (test de Kolmogorov-Smirnov, test de ShapiroWilks). Un número suficiente de observaciones (digamos mayor de 30) como ocurre en el ejemplo planteado justifica, no obstante, la utilización del mismo test. Así mismo, este tipo de metodología exigirá que la varianza en ambos grupos de observaciones sea la misma. En primer lugar se desarrollará el test t de Student para el caso en el que se verifiquen ambas condiciones, discutiendo posteriormente el modo de abordar formalmente el caso en el que las varianzas no sean similares. Bajo las hipótesis de normalidad e igual varianza la comparación de ambos grupos puede realizarse en términos de un único parámetro como el valor medio (Figura 1a), de modo que en el ejemplo planteado la hipótesis de partida será, por lo tanto: H0: La media de peso inicial es igual en ambos grupos Se denotará por {X1, X2,...,Xn} e {Y1,Y2,...,Ym} al peso observado en cada uno de los sujetos sometidos a la dieta A y a la dieta B respectivamente. En general no se exigirá que coincida el número de observaciones en cada uno de los grupos que se comparan, de modo que en el ejemplo n=40 y m=35. El t test para dos muestras independientes se basa en el estadístico: (1) donde e denotan el peso medio en cada uno de los grupos: y , las cuasivarianzas muestrales correspondientes: Con lo cual, en este caso particular, el valor utilizado para el contraste será: http://www.fisterra.com/mbe/investiga/t_student/t_student.htm (2 of 10)22/04/2006 1:24:06 PM Métodos paramétricos para la comparación de dos medias. t de Student Si la hipótesis de partida es cierta el estadístico (1) seguirá una distribución t de Student con n+m-2 grados de libertad. De ser así, el valor obtenido debería estar dentro del rango de mayor probabilidad según esta distribución (Figura 2). Usualmente se toma como referencia el rango de datos en el que se concentra el 95% de la probabilidad. El valor-p que usualmente reportan la mayoría de paquetes estadísticos no es más que la probabilidad de obtener, según esa distribución, un dato más extremo que el que proporciona el test. Como ya se dijo, refleja también la probabilidad de obtener los datos observados si fuese cierta la hipótesis inicial. Si el valor-p es muy pequeño (usualmente se considera p<0.05) es poco probable que se cumpla la hipótesis de partida y se debería de rechazar. La región de aceptación corresponde por lo tanto a los valores centrales de la distribución para los que p>0.05. En el ejemplo planteado el valor-p correspondiente es de 0.425, de modo que no existe evidencia estadística de que el peso medio en ambos grupos sea diferente. En la Tabla 2, se determina los grados de libertad (en la primera columna) y el valor de α (en la primera fila). El número que determina su intersección es el valor crítico correspondiente. De este modo, si el estadístico que se obtiene toma un valor mayor se dirá que la diferencia es significativa. Otro modo de obtener esta misma información es mediante el cálculo de intervalos de confianza para la diferencia de la respuesta media en ambos grupos. A mayores, el intervalo de confianza constituye una medida de la incertidumbre con la que se estima esa diferencia a partir de la muestra, permitiendo valorar tanto la significación estadística como la magnitud clínica de esa diferencia(6). En el caso que nos ocupa, el intervalo de confianza vendrá dado como: donde denota el valor que según la distribución t de Student con n+m-2 grados de libertad deja a su derecha el 2.5% de los datos. En el ejemplo, el intervalo de confianza con una seguridad del 95% para la diferencia de peso viene dado por: que expresa en definitiva un rango de valores entre los que se puede encontrar el valor real de la diferencia entre los pesos de ambos grupos. Proporciona además la misma información que obteníamos del contraste estadístico. El hecho de que el valor cero pertenezca al intervalo indica que no se dispone de evidencia para concluir que el peso sea distinto en ambos grupos. A medida que el tamaño muestral aumenta, la distribución del estadístico (1) se hace más próxima a la de una variable Normal estándar. De este modo, en algunos textos se opta por utilizar esta distribución para realizar la comparación de medias. Aunque esta aproximación es correcta para muestras suficientemente grandes, ambos métodos proporcionan en este caso resultados prácticamente idénticos, por lo que resulta más simple utilizar, independientemente del tamaño de la muestra, la misma metodología a partir de la distribución t. El mismo planteamiento podría http://www.fisterra.com/mbe/investiga/t_student/t_student.htm (3 of 10)22/04/2006 1:24:06 PM Métodos paramétricos para la comparación de dos medias. t de Student utilizarse en el caso de varianzas distintas o de muestras apareadas. Dos muestras independientes con varianza distinta. El caso en el que se dispone de dos grupos de observaciones independientes con diferentes varianzas, la distribución de los datos en cada grupo no puede compararse únicamente en términos de su valor medio (Figura 1b). El contraste estadístico planteado en el apartado anterior requiere de alguna modificación que tenga en cuenta la variabilidad de los datos en cada población. Obviamente, el primer problema a resolver es el de encontrar un método estadístico que nos permita decidir si la varianza en ambos grupos es o no la misma. El F test o test de la razón de varianzas viene a resolver este problema. Bajo la suposición de que las dos poblaciones siguen una distribución normal y tienen igual varianza se espera que la razón de varianzas: siga una distribución F de Snedecor con parámetros (n-1) y (m-1). Supongamos que en el ejemplo anterior se desee comparar la pérdida de peso en los sujetos sometidos a cada una de las dos dietas. La aplicación del estadístico (1) no será factible, ya que las varianzas en ambos grupos son sustancialmente distintas. En este caso la razón de varianzas es de 3.97 / 0.80 = 4.96, valor que se debe comparar con una distribución F39,34. El valor-p asociado será p<0.01, siendo muy poco probable que las observaciones provengan de poblaciones con igual variabilidad. En este tipo de situaciones, donde no se debe aplicar el contraste basado en (1), podemos utilizar una modificación del t test para el caso de varianzas desiguales, conocido como el test de Welch(7) basada en el estadístico: que, bajo la hipótesis nula seguirá una distribución t de Student con un número f de grados de libertad que dependerá de las varianzas muestrales según la expresión: La técnica para realizar el contraste es análoga a la vista anteriormente cuando las varianzas son http://www.fisterra.com/mbe/investiga/t_student/t_student.htm (4 of 10)22/04/2006 1:24:06 PM Métodos paramétricos para la comparación de dos medias. t de Student desconocidas e iguales. Por ejemplo, en el caso planteado, la pérdida media de peso para los e con las variabilidades individuos en cada una de las dietas fue de anteriormente expresadas. Esto conduce a un valor del estadístico de t=5.58 a relacionar con una distribución t de Student con aproximadamente 56 grados de libertad. El valor-p resultante es, por lo tanto, p<0.001 con lo cual podemos rechazar la hipótesis de partida y concluir que la reducción de peso experimentada es distinta según la dieta que se siga. Al igual que en el caso anterior, podrá optarse por calcular el correspondiente 95% intervalo de confianza para la diferencia de medias dado por: Dos muestras dependientes. Ya se ha comentado que cuando se trata de comparar dos grupos de observaciones, es importante distinguir el caso en el que son independientes de aquel en el que los datos están apareados. Las series dependientes surgen normalmente cuando se evalúa un mismo dato más de una vez en cada sujeto de la muestra. También se puede encontrar este tipo de observaciones en estudios de casos y controles donde cada caso se aparea individualmente con un control. Supongamos que queremos comprobar, en los datos de la Tabla 1 si realmente se produce una pérdida de peso significativa en esos individuos, para lo que se recoge en cada sujeto su peso antes y después de someterse a la dieta. En este tipo de análisis el interés no se centra en la variabilidad que puede haber entre los individuos, sino en las diferencias que se observan en un mismo sujeto entre un momento y otro. Por este motivo, resulta intuitivo trabajar con la diferencia de ambas observaciones (en el ejemplo será la pérdida de peso), de modo que se quiere contrastar la hipótesis: H0: La pérdida de peso es nula frente a la alternativa de que la pérdida de peso sea importante (es decir, distinta de cero). La veracidad de dicha hipótesis puede ser contrastada igualmente mediante el test t de Student. Como se ha dicho, este tipo de métodos tienen como hipótesis fundamental la normalidad de los datos. En este caso, sin embargo, no será necesario que las observaciones en ambos grupos provengan de poblaciones normales, sino que únicamente se requiere verificar la normalidad de su diferencia. Denotando por la pérdida media de peso la hipótesis de la que se parte es que: frente a la alternativa http://www.fisterra.com/mbe/investiga/t_student/t_student.htm (5 of 10)22/04/2006 1:24:06 PM Métodos paramétricos para la comparación de dos medias. t de Student A partir de las observaciones muestrales {Y1,Y2,...,Yn} e {Y1,Y2,...,Yn} en cada uno de los grupos se calcula la diferencia de peso para cada sujeto {d1,d2,...,dn} con dj=Xj-Yj j=1,2,...,n. Nótese que en este caso un requisito fundamental es que se tenga un número igual de observaciones en ambos grupos. A partir de estos datos, el contraste se basa en el estadístico: o en el cálculo del 95% intervalo de confianza: donde denota la media de la pérdida de peso estimada a partir de la muestra: y denota la cuasivarianza muestral de la diferencia dada por: En nuestro ejemplo el valor del estadístico vendría dado por: a comparar del modo habitual con la distribución t de Student con n-1=74 grados de libertad. El intervalo de confianza para la pérdida media de peso correspondiente a una seguridad del 95% es de (3.56;4.41), lo cual se traduce en una pérdida de peso significativamente distinta de cero, tal y como indica el valor-p correspondiente de p<0.001. Figura 1. Comparación de dos poblaciones normales a) Poblaciones normales con igual varianza y medias distintas http://www.fisterra.com/mbe/investiga/t_student/t_student.htm (6 of 10)22/04/2006 1:24:06 PM Métodos paramétricos para la comparación de dos medias. t de Student b) Poblaciones normales con igual y diferentes varianzas. Figura 2. Regiones de aceptación y rechazo en el contraste de hipótesis http://www.fisterra.com/mbe/investiga/t_student/t_student.htm (7 of 10)22/04/2006 1:24:06 PM Métodos paramétricos para la comparación de dos medias. t de Student Tabla 1. Datos de 75 pacientes con sobrepeso sometidos a dos dietas alimenticias. Dieta A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A A Peso inicial 94,07 96,79 92,15 92,30 96,50 83,11 91,16 90,81 81,37 89,81 84,92 84,43 86,33 87,60 81,08 92,07 81,14 96,87 99,59 83,90 89,41 85,31 89,25 93,20 89,17 93,51 88,85 88,40 82,45 96,47 99,48 99,95 100,05 87,33 87,61 89,28 89,72 95,57 97,71 98,73 Peso final 86,59 93,08 87,85 86,83 92,70 76,80 83,40 86,74 77,67 85,70 79,96 79,80 81,15 81,92 76,32 90,20 73,34 93,58 92,36 77,23 85,45 84,59 84,89 93,10 86,87 86,36 83,24 81,20 77,18 88,61 94,67 93,87 94,15 82,17 86,01 83,78 83,56 89,58 91,35 97,82 Dieta B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B B Peso inicial 88,02 88,22 103,45 82,94 89,71 94,83 81,93 83,41 73,59 108,47 72,67 96,84 88,48 89,57 85,22 103,76 87,84 91,50 93,04 92,14 85,26 89,42 92,42 93,13 80,86 88,75 95,02 92,29 89,43 93,32 92,88 89,88 82,25 88,99 82,07 Peso final 84,12 86,13 101,21 79,08 86,19 91,93 78,97 78,89 69,76 104,20 70,01 93,66 87,00 87,24 82,09 102,24 84,66 88,95 88,73 88,07 81,36 86,64 88,99 89,73 77,81 85,93 91,90 91,28 87,22 89,77 89,38 88,00 80,81 86,87 79,74 Tabla 2. Distribución t de Student http://www.fisterra.com/mbe/investiga/t_student/t_student.htm (8 of 10)22/04/2006 1:24:06 PM Métodos paramétricos para la comparación de dos medias. t de Student http://www.fisterra.com/mbe/investiga/t_student/t_student.htm (9 of 10)22/04/2006 1:24:06 PM Métodos paramétricos para la comparación de dos medias. t de Student Bibliografía 1. Bland JM, Altman DG. Statistics Notes: Transforming data. BMJ 1996; 312: 770. [Medline] [texto completo] 2. Altman DG, Bland JM. Detecting skewness from summary information, BMJ 1996; 313:1200. [Medline] 3. Bland JM, Altman DG. Statistics Notes: The use of transformations when comparing two means. BMJ 1996; 312:1153. [Medline] [texto completo] 4. Moreno V, Vallescar R, Martín M. Las pruebas no paramétricas en el análisis estadístico de datos. Aten Primaria 1991; 8 (1): 58-60. [Medline] 5. Altman D. G. Preparing to analyse data. En: Practical statistics for medical research. London: Chapman and Hall; 1991. p.132-145. 6. Braitman LE. Confidence intervals asses both clinical significance and statistical significance [editorial]. Ann Intern Med 1991; 114 (6): 515-517. [Medline] 7. Berry G., Armitage P. Statistical Methods in Medical Research. 3 rd. ed. Oxford: Blackwell Science; 1994. Arriba | Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/t_student/t_student.htm (10 of 10)22/04/2006 1:24:06 PM Relación entre variables cuantitativas Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 30/03/01 Relación entre variables cuantitativas Pita Fernández, S. [ Correo de contacto ] , Pértega Díaz, S. [ Correo de contacto ] Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña (España) Cad Aten Primaria 1997; 4: 141-144. [Actualizado: 30/03/2001] En el análisis de los estudios clínico-epidemiológicos surge muy frecuentemente la necesidad de determinar la relación entre dos variables cuantitativas en un grupo de sujetos. Los objetivos de dicho análisis suelen ser: a. Determinar si las dos variables están correlacionadas, es decir si los valores de una variable tienden a ser más altos o más bajos para valores más altos o más bajos de la otra variable. b. Poder predecir el valor de una variable dado un valor determinado de la otra variable. c. Valorar el nivel de concordancia entre los valores de las dos variables. Correlación En este artículo trataremos de valorar la asociación entre dos variables cuantitativas estudiando el método conocido como correlación. Dicho cálculo es el primer paso para determinar la relación entre las variables. La predicción de una variable. La predicción de una variable dado un valor determinado de la otra precisa de la regresión lineal que abordaremos en otro artículo. La cuantificación de la fuerza de la relación lineal entre dos variables cuantitativas, se estudia por medio del cálculo del coeficiente de correlación de Pearson (1-3). Dicho coeficiente oscila entre –1 y +1. Un valor de –1 indica una relación lineal o línea recta positiva perfecta. Una correlación próxima a cero indica que no hay relación lineal entre las dos variables. El realizar la representación gráfica de los datos para demostrar la relación entre el valor del coeficiente de correlación y la forma de la gráfica es fundamental ya que existen relaciones no lineales. El coeficiente de correlación posee las siguientes características (4): Contenido Correlación Test de hipótesis de r Intervalo de confianza del coeficiente de correlación Presentación de la correlación Interpretación de la correlación Coeficiente de correlación de los rangos de Spearman Bibliografía Documento en PDF (75 Kb) ¿Problemas con PDF? Tablas y Figuras Tabla 1. Cálculo del Coeficiente de correlación de Pearson entre las variables talla y peso de 20 niños varones a. El valor del coeficiente de correlación es independiente de cualquier unidad usada Tabla 2. para medir las variables. Distribución t b. El valor del coeficiente de correlación se altera de forma importante ante la presencia de Student de un valor extremo, como sucede con la desviación típica. Ante estas situaciones conviene realizar una transformación de datos que cambia la escala de medición y modera el efecto de valores extremos (como la transformación logarítmica). c. El coeficiente de correlación mide solo la relación con una línea recta. Dos variables pueden tener una relación curvilínea fuerte, a pesar de que su correlación sea pequeña. Por tanto cuando analicemos las relaciones entre dos variables debemos representarlas gráficamente y posteriormente calcular el coeficiente de correlación. d. El coeficiente de correlación no se debe extrapolar más allá del rango de valores observado http://www.fisterra.com/mbe/investiga/var_cuantitativas/var_cuantitativas.htm (1 of 9)22/04/2006 1:24:35 PM Relación entre variables cuantitativas de las variables a estudio ya que la relación existente entre X e Y puede cambiar fuera de dicho rango. e. La correlación no implica causalidad. La causalidad es un juicio de valor que requiere más información que un simple valor cuantitativo de un coeficiente de correlación (5). El coeficiente de correlación de Pearson (r) puede calcularse en cualquier grupo de datos, sin embargo la validez del test de hipótesis sobre la correlación entre las variables requiere en sentido estricto (4): a) que las dos variables procedan de una muestra aleatoria de individuos. b) que al menos una de las variables tenga una distribución normal en la población de la cual la muestra procede. Para el cálculo válido de un intervalo de confianza del coeficiente de correlación de r ambas variables deben tener una distribución normal. Si los datos no tienen una distribución normal, una o ambas variables se pueden transformar (transformación logarítmica) o si no se calcularía un coeficiente de correlación no paramétrico (coeficiente de correlación de Spearman) que tiene el mismo significado que el coeficiente de correlación de Pearson y se calcula utilizando el rango de las observaciones. El cálculo del coeficiente de correlación (r) entre peso y talla de 20 niños varones se muestra en la tabla 1. La covarianza, que en este ejemplo es el producto de peso (kg) por talla (cm), para que no tenga dimensión y sea un coeficiente, se divide por la desviación típica de X (talla) y por la desviación típica de Y (peso) con lo que obtenemos el coeficiente de correlación de Pearson que en este caso es de 0.885 e indica una importante correlación entre las dos variables. Es evidente que el hecho de que la correlación sea fuerte no implica causalidad. Si elevamos al cuadrado el coeficiente de correlación obtendremos el coeficiente de determinación (r2=0.783) que nos indica que el 78.3% de la variabilidad en el peso se explica por la talla del niño. Por lo tanto existen otras variables que modifican y explican la variabilidad del peso de estos niños. La introducción de más variable con técnicas de análisis multivariado nos permitirá identificar la importancia de que otras variables pueden tener sobre el peso. Tabla 1. Cálculo del Coeficiente de correlación de Pearson entre las variables talla y peso de 20 niños varones Y Peso (Kg) 9 10 6 8 10 5 8 7 4 11 7 7 6 8 5 11 5 9 6 10 X Talla (cm) 72 76 59 68 60 58 70 65 54 83 64 66 61 66 57 81 59 71 62 75 5.65 9.65 -7.35 1.65 -6.35 -8.35 3.65 -1.35 -12.35 16.65 -2.35 -0.35 -5.35 -0.35 -9.35 14.65 -7.35 4.65 -4.35 8.65 1.4 2.4 -1.6 0.4 2.4 -2.6 0.4 -0.6 -3.6 3.4 -0.6 -0.6 -1.6 0.4 -2.6 3.4 -2.6 1.4 -1.6 2.4 7.91 23.16 11.76 0.66 -15.24 21.71 1.46 0.81 44.46 56.61 1.41 0.21 8.56 -0.14 24.31 49.81 19.11 6.51 6.96 20.76 http://www.fisterra.com/mbe/investiga/var_cuantitativas/var_cuantitativas.htm (2 of 9)22/04/2006 1:24:35 PM Relación entre variables cuantitativas Sx = Desviación típica x = 8.087 Sy = Desviación típica y = 2.137 Test de hipótesis de r Tras realizar el cálculo del coeficiente de correlación de Pearson (r) debemos determinar si dicho coeficiente es estadísticamente diferente de cero. Para dicho calculo se aplica un test basado en la distribución de la t de student. Si el valor del r calculado (en el ejemplo previo r = 0.885) supera al valor del error estándar multiplicado por la t de Student con n-2 grados de libertad, diremos que el coeficiente de correlación es significativo. El nivel de significación viene dado por la decisión que adoptemos al buscar el valor en la tabla de la t de Student. En el ejemplo previo con 20 niños, los grados de libertad son 18 y el valor de la tabla de la t de student para una seguridad del 95% es de 2.10 y para un 99% de seguridad el valor es 2.88. (Tabla 2) Como quiera que r = 0.885 > a 2.10 * 0.109 = 2.30 podemos asegurar que el coeficiente de correlación es significativo (p<0.05). Si aplicamos el valor obtenido en la tabla de la t de Student para una seguridad del 99% (t = 2.88) observamos que como r = 0.885 sigue siendo > 2.88 * 0.109 = 0.313 podemos a su vez asegurar que el coeficiente es significativo (p<0.001). Este proceso de razonamiento es válido tanto para muestras pequeñas como para muestras grandes. En esta última situación podemos comprobar en la tabla de la t de student que para una seguridad del 95% el valor http://www.fisterra.com/mbe/investiga/var_cuantitativas/var_cuantitativas.htm (3 of 9)22/04/2006 1:24:35 PM Relación entre variables cuantitativas es 1.96 y para una seguridad del 99% el valor es 2.58. Intervalo de confianza del coeficiente de correlación. La distribución del coeficiente de correlación de Pearson no es normal pero no se puede transformar r para conseguir un valor z que sigue una distribución normal (transformación de Fisher) y calcular a partir del valor z el intervalo de confianza. La transformación es: Ln representa el logaritmo neperiano en la base e donde n representa el tamaño muestral. El 95% intervalo de confianza de z se calcula de la siguiente forma: Tras calcular los intervalos de confianza con el valor z debemos volver a realizar el proceso inverso para calcular los intervalos del coeficiente r Utilizando el ejemplo de la Tabla 1, obtenemos r = 0.885 95% intervalo de confianza de z Tras calcular los intervalos de confianza de z debemos proceder a hacer el cálculo inverso para obtener los intervalos de confianza de coeficiente de correlación r que era lo que buscábamos en un http://www.fisterra.com/mbe/investiga/var_cuantitativas/var_cuantitativas.htm (4 of 9)22/04/2006 1:24:35 PM Relación entre variables cuantitativas principio antes de la transformación logarítmica. 0.726 a 0.953 son los intervalos de confianza (95%) de r. Presentación de la correlación Se debe mostrar siempre que sea posible la gráfica que correlaciona las dos variables de estudio (Fig 1). El valor de r se debe mostrar con dos decimales junto con el valor de la p si el test de hipótesis se realizó para demostrar que r es estadísticamente diferente de cero. El número de observaciones debe a su vez estar indicado. Figura 1. Correlación entre Peso y Talla Interpretación de la correlación El coeficiente de correlación como previamente se indicó oscila entre –1 y +1 encontrándose en medio el valor 0 que indica que no existe asociación lineal entre las dos variables a estudio. Un coeficiente de valor reducido no indica necesariamente que no exista correlación ya que las variables pueden presentar una relación no lineal como puede ser el peso del recién nacido y el tiempo de gestación. En este caso el r infraestima la asociación al medirse linealmente. Los http://www.fisterra.com/mbe/investiga/var_cuantitativas/var_cuantitativas.htm (5 of 9)22/04/2006 1:24:35 PM Relación entre variables cuantitativas métodos no paramétrico estarían mejor utilizados en este caso para mostrar si las variables tienden a elevarse conjuntamente o a moverse en direcciones diferentes. La significancia estadística de un coeficiente debe tenerse en cuenta conjuntamente con la relevancia clínica del fenómeno que estudiamos ya que coeficientes de 0.5 a 0.7 tienden ya a ser significativos como muestras pequeñas (6). Es por ello muy útil calcular el intervalo de confianza del r ya que en muestras pequeñas tenderá a ser amplio. La estimación del coeficiente de determinación (r2) nos muestra el porcentaje de la variabilidad de los datos que se explica por la asociación entre las dos variables. Como previamente se indicó la correlación elevada y estadísticamente significativa no tiene que asociarse a causalidad. Cuando objetivamos que dos variables están correlacionadas diversas razones pueden ser la causa de dicha correlación: a) pude que X influencie o cause Y, b) puede que influencie o cause X, c) X e Y pueden estar influenciadas por terceras variables que hace que se modifiquen ambas a la vez. El coeficiente de correlación no debe utilizarse para comparar dos métodos que intentan medir el mismo evento, como por ejemplo dos instrumentos que miden la tensión arterial. El coeficiente de correlación mide el grado de asociación entre dos cantidades pero no mira el nivel de acuerdo o concordancia. Si los instrumentos de medida miden sistemáticamente cantidades diferentes uno del otro, la correlación puede ser 1 y su concordancia ser nula (7). Coeficiente de correlación de los rangos de Spearman Este coeficiente es una medida de asociación lineal que utiliza los rangos, números de orden, de cada grupo de sujetos y compara dichos rangos. Existen dos métodos para calcular el coeficiente de correlación de los rangos uno señalado por Spearman y otro por Kendall (8). El r de Spearman llamado también rho de Spearman es más fácil de calcular que el de Kendall. El coeficiente de correlación de Spearman es exactamente el mismo que el coeficiente de correlación de Pearson calculado sobre el rango de observaciones. En definitiva la correlación estimada entre X e Y se halla calculado el coeficiente de correlación de Pearson para el conjunto de rangos apareados. El coeficiente de correlación de Spearman es recomendable utilizarlo cuando los datos presentan valores externos ya que dichos valores afectan mucho el coeficiente de correlación de Pearson, o ante distribuciones no normales. El cálculo del coeficiente viene dado por: en donde di = rxi – ryi es la diferencia entre los rangos de X e Y. Los valores de los rangos se colocan según el orden numérico de los datos de la variable. Ejemplo: Se realiza un estudio para determinar la asociación entre la concentración de nicotina en sangre de un individuo y el contenido en nicotina de un cigarrillo (los valores de los rangos están entre paréntesis) (2). http://www.fisterra.com/mbe/investiga/var_cuantitativas/var_cuantitativas.htm (6 of 9)22/04/2006 1:24:35 PM Relación entre variables cuantitativas X Concentración de Nicotina en sangre (nmol/litro) 185.7 (2) 197.3 (5) 204.2 (8) 199.9 (7) 199.1 (6) 192.8 (6) 207.4 (9) 183.0 (1) 234.1 (10) 196.5 (4) Y Contenido de Nicotina por cigarrillo (mg) 1.51 (8) 0.96 (3) 1.21 (6) 1.66 (10) 1.11 (4) 0.84 (2) 1.14 (5) 1.28 (7) 1.53 (9) 0.76 (1) Si existiesen valores coincidentes se pondría el promedio de los rangos que hubiesen sido asignado si no hubiese coincidencias. Por ejemplo si en una de las variables X tenemos: X (edad) 23 23 27 27 39 41 45 ... (Los rangos serían) 1.5 1.5 3.5 3.5 5 6 7 ... Para el cálculo del ejemplo anterior de nicotina (2) obtendríamos el siguiente resultado: Si utilizamos la fórmula para calcular el coeficiente de correlación de Pearson de los rangos obtendríamos el mismo resultado http://www.fisterra.com/mbe/investiga/var_cuantitativas/var_cuantitativas.htm (7 of 9)22/04/2006 1:24:35 PM Relación entre variables cuantitativas La interpretación del coeficiente rs de Spearman es similar a la Pearson. Valores próximos a 1 indican una correlación fuerte y positiva. Valores próximos a –1 indican una correlación fuerte y negativa. Valores próximos a cero indican que no hay correlación lineal. Así mismo el mismo significado que el coeficiente de determinación de r2. tiene el La distribución de rs es similar a la r por tanto el calculo de los intervalos de confianza de rs se pueden realizar utilizando la misma metodología previamente explicada para el coeficiente de correlación de Pearson. Tabla 2. Distribución t de Student http://www.fisterra.com/mbe/investiga/var_cuantitativas/var_cuantitativas.htm (8 of 9)22/04/2006 1:24:35 PM Relación entre variables cuantitativas Bibliografía 1- Dawson-Saunders B, Trapp RG. Bioestadística Médica . 2ª ed. México: Editorial el Manual Moderno; 1996. 2- Milton JS, Tsokos JO. Estadística para biología y ciencias de la salud. Madrid: Interamericana McGraw Hill; 2001. 3- Martín Andrés A, Luna del Castillo JD. Bioestadística para las ciencias de la salud. 4ª ed. Madrid: ORMA; 1993. 4- Altman DA. Practical statistics for medical research. 1th ed., repr. 1997. London: Chapman & Hall; 1997. 5- Pita Fernández S. Correlación frente a causalidad JANO 1996; (1174): 59-60. 6- Feintein AR. Tempest in a P-pot?. (Editorial). Hypertension 1985; 7: 313-318. [Medline] 7- Bland JM, Altman DG. Statistical methods for assesing agreement between two methods of clinical measurement. Lancet 1986; 1: 307-310. [Medline] 8- Conover WJ. Practical nonparametric statistics. 3rd . ed. New York: John Wiley & Sons; 1998. Arriba | Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/var_cuantitativas/var_cuantitativas.htm (9 of 9)22/04/2006 1:24:35 PM Asociación de variables cualitativas: test de Chi-cuadrado Guías Clínicas Ayuda en consulta Medicamentos Formación Biblioteca virtual Tienda Formación - MBE - Metodología de la Investigación Metodología de la Investigación Autores: Mapa Buscador Avanzado Asociación de variables cualitativas: test de Chi-cuadrado Salvador Pita Fernández , Sonia Pértega Díaz (1) Médico de Familia. Centro de Salud de Cambre (A Coruña). (2) Unidad de Epidemiología Clínica y Bioestadística. Complejo Hospitalario Juan Canalejo (A Coruña). Actualizada el 03/11/2004. Tabla de contenidos: Índice (1) (2) Introducción La prueba de ji-cuadrado en el contraste de independencia de variables aleatorias cualitativas Bibliografía Imprimir documento [206 Kb] ¿Problemas con PDF? ----------------------Cálculo del Test de chicuadrado para tablas de contingencia de 2x2 (Excel) Más en Fisterra En la investigación biomédica nos encontramos con frecuencia con datos o variables de tipo cualitativo, mediante las cuales un grupo de individuos se clasifican en dos o más categorías mutuamente excluyentes. Las proporciones son una forma habitual de expresar frecuencias cuando la variable objeto de estudio tiene dos posibles respuestas, como presentar o no un evento de interés (enfermedad, muerte, curación, etc.). Cuando lo que se pretende es comparar dos o más grupos de sujetos con respecto a una variable categórica, los resultados se suelen presentar a modo de tablas de doble entrada que reciben el nombre de tablas de contingencia. Así, la situación más simple de comparación entre dos variables cualitativas es aquella en la que ambas tienen sólo dos posibles opciones de respuesta (es decir, variables dicotómicas). En esta situación la tabla de contingencia se reduce a una tabla dos por dos como la que se muestra en la Tabla 1 1,2 . Tabla 1. Tabla de contingencia general para la comparación de dos variables dicotómicas. http://www.fisterra.com/mbe/investiga/chi/chi.asp (1 of 9)22/04/2006 1:24:55 PM Asociación de variables cualitativas: test de Chi-cuadrado Característica A Característica B Presente a c a+c Ausente b d b+d Total a+b c+d n Presenta Ausente Total Supongamos que se quiere estudiar la posible asociación entre el hecho de que una gestante fume durante el embarazo y que el niño presente bajo peso al nacer. Por lo tanto, se trata de ver si la probabilidad de tener bajo peso es diferente en gestantes que fumen o en gestantes que no fumen durante la gestación. Para responder a esta pregunta se realiza un estudio de seguimiento sobre una cohorte de 2000 gestantes, a las que se interroga sobre su hábito tabáquico durante la gestación y se determina además el peso del recién nacido. Los resultados de este estudio se muestran en la Tabla 2. Tabla 2. Tabla de contingencia para estudiar la asociación entre fumar durante la gestación y el bajo peso del niño al nacer. Estudio de seguimiento de 2000 gestantes. Recién nacido de bajo peso Gestante Sí 43 (a) 105 (c) 148 No 207 (b) 1645 (d) 1852 Total 250 1750 2000 Fumadora No fumadora Total En la Tabla 1, a, b, c y d son las frecuencias observadas del suceso en la realidad de nuestro ejemplo de estudio (43, 207, 105 y 1647), siendo n (2000) el número total de casos estudiados, y a+b, c+d, a+c y b+d los totales marginales. En el ejemplo, a+b=250 sería el número total de mujeres fumadoras durante el embarazo, c+d=1750 el número total de mujeres no fumadoras, a+c=148 el número de niños con bajo peso al nacer y b+d=1852 el número de niños con peso normal al nacimiento. Ante una tabla de contingencia como la anterior pueden planteársenos distintas cuestiones. En primer lugar, se querrá determinar si existe una relación estadísticamente significativa entre las variables estudiadas. En segundo lugar, nos interesará cuantificar dicha relación y estudiar su relevancia clínica. Esta última cuestión podrá resolverse mediante las denominadas medidas de asociación o de efecto (riesgo relativo (RR), odds ratio (OR), reducción absoluta del riesgo (RAR)), que ya han sido abordadas en otros trabajos . Por otro lado, para responder a la primera pregunta, la metodología de análisis de las tablas de contingencia dependerá de varios http://www.fisterra.com/mbe/investiga/chi/chi.asp (2 of 9)22/04/2006 1:24:55 PM 3,4 Asociación de variables cualitativas: test de Chi-cuadrado aspectos como son: el número de categorías de las variables a comparar, del hecho de que las categorías estén ordenadas o no, del número de grupos independientes de sujetos que se estén considerando o de la pregunta a la que se desea responder . Existen diferentes procedimientos estadísticos para el análisis de las tablas de , la prueba exacta de fisher, la prueba de contingencia como la prueba McNemar o la prueba Q de Cochran, entre otras. En este artículo se expondrá el cálculo e interpretación de la prueba en el caso de grupos independientes La prueba cualitativas. 1,2,5,6 5 como método estándar de análisis . en el contraste de independencia de variables aleatorias permite determinar si dos variables cualitativas están o no La prueba asociadas. Si al final del estudio concluimos que las variables no están relacionadas podremos decir con un determinado nivel de confianza, previamente fijado, que ambas son independientes. Para su cómputo es necesario calcular las frecuencias esperadas (aquellas que deberían haberse observado si la hipótesis de independencia fuese cierta), y compararlas con las frecuencias observadas en la realidad. De modo general, para una tabla r x k (r filas y k columnas), se calcula el valor del estadístico como sigue: (1) donde: denota a las frecuencias observadas. Es el número de casos observados clasificados en la fila i de la columna j. denota a las frecuencias esperadas o teóricas. Es el número de casos esperados correspondientes a cada fila y columna. Se puede definir como aquella frecuencia que se observaría si ambas variables fuesen independientes. q q mide la diferencia entre el valor que debiera resultar si Así, el estadístico las dos variables fuesen independientes y el que se ha observado en la http://www.fisterra.com/mbe/investiga/chi/chi.asp (3 of 9)22/04/2006 1:24:55 PM Asociación de variables cualitativas: test de Chi-cuadrado realidad. Cuanto mayor sea esa diferencia (y, por lo tanto, el valor del estadístico), mayor será la relación entre ambas variables. El hecho de que las diferencias entre los valores observados y esperados estén elevadas al es así un cuadrado en (1) convierte cualquier diferencia en positiva. El test test no dirigido (test de planteamiento bilateral), que nos indica si existe o no relación entre dos factores pero no en qué sentido se produce tal asociación. Para obtener los valores esperados , estos se calculan a través del producto de los totales marginales dividido por el número total de casos (n). Para el caso más sencillo de una tabla 2x2 como la Tabla 1, se tiene que: Para los datos del ejemplo en la Tabla 2 los valores esperados se calcularían como sigue: De modo que los valores observados y esperados para los datos del ejemplo planteado se muestran en la Tabla 3. Tabla 3. Tabla de contingencia para estudiar la asociación entre fumar durante la gestación y el bajo peso del niño al nacer. Valores observados y valores esperados (entre paréntesis) si los factores fuesen independientes. Recién nacido de bajo peso Gestante Sí 43 (18.5) 105 (129.5) 148 No 207 (231.5) 1645 (1620.5) 1852 Total 250 1750 2000 Fumadora No fumadora Total El valor del estadístico , para este ejemplo en concreto, vendría dado http://www.fisterra.com/mbe/investiga/chi/chi.asp (4 of 9)22/04/2006 1:24:55 PM Asociación de variables cualitativas: test de Chi-cuadrado entonces como: A la vista de este resultado, lo que tenemos que hacer ahora es plantear un contraste de hipótesis entre la hipótesis nula: H0: No hay asociación entre las variables (en el ejemplo, el bajo peso del niño y el hecho de fumar durante la gestación son independientes, no están asociados). Y la hipótesis alternativa: Ha: Sí hay asociación entre las variables, es decir, el bajo peso y el fumar durante la gestación están asociados. Bajo la hipótesis nula de independencia, se sabe que los valores del estadístico se distribuyen según una distribución conocida denominada ji-cuadrado, que depende de un parámetro llamado “grados de libertad” (g.l.). Para el caso de una tabla de contingencia de r filas y k columnas, los g.l. son igual al producto del número de filas menos 1 (r-1) por el número de columnas menos 1 (k-1). Así, para el caso en el que se estudie la relación entre dos variables dicotómicas (Tabla 2x2) los g.l. son 1. De ser cierta la hipótesis nula, el valor obtenido debería estar dentro del rango de mayor probabilidad según la distribución ji-cuadrado correspondiente. El valor-p que usualmente reportan la mayoría de paquetes estadísticos no es más que la probabilidad de obtener, según esa distribución, un dato más extremo que el que proporciona el test o, equivalentemente, la probabilidad de obtener los datos observados si fuese cierta la hipótesis de independencia. Si el valor-p es muy pequeño (usualmente se considera p<0.05) es poco probable que se cumpla la hipótesis nula y se debería de rechazar. En la Tabla 4, se determinan los grados de libertad (en la primera columna) y el valor de α (en la primera fila). El número que determina su intersección es el valor crítico correspondiente. De este modo, si el estadístico que se obtiene toma un valor mayor se dirá que la diferencia es significativa. Así, para una seguridad del 95% (α =0.05) el valor teórico de una distribución ji-cuadrado con una grado de libertad es 3,84. Para α =0.01 es de 6,63 y para α =0.005 es de 7,88. Como quiera que en el cálculo del χ 2 en el ejemplo obtuvimos un valor de 40,04, que supera al valor para α =0.005, podremos concluir que las dos variables no son independientes, sino que están asociadas (p<0.005). Por http://www.fisterra.com/mbe/investiga/chi/chi.asp (5 of 9)22/04/2006 1:24:55 PM Asociación de variables cualitativas: test de Chi-cuadrado lo tanto, a la vista de los resultados, rechazamos la hipótesis nula (H0) y aceptamos la hipótesis alternativa (Ha) como probablemente cierta. Para el caso de una Tabla 2x2, la expresión (1) del estadístico simplificarse y obtenerse como: puede Cuando el tamaño muestral es reducido la utilización de la distribución jicuadrado para aproximar las frecuencias puede introducir algún sesgo en los tiende a ser mayor. En cálculos, de modo que el valor del estadístico ocasiones se utiliza una corrección para eliminar este sesgo que, para el caso de tablas 2x2 se conoce como la corrección de Yates: En el ejemplo previo el cálculo del estadístico con la corrección de Yates =38,43 (p<0.0.1) en lugar de =40,04. No existe nos daría un valor de consenso en la literatura sobre la utilización o no de esta corrección conservadora de Yates, que con muestras reducidas dificulta rechazar la hipótesis nula, si bien el efecto es prácticamente imperceptible cuando se trabaja con muestras de mayor tamaño. No obstante, conviene mencionar que la utilización de la corrección de Yates no exime de ciertos requerimientos acerca del tamaño muestral necesario para la . Como norma general, se exigirá que el 80% de utilización del estadístico las celdas en una tabla de contingencia deban tener valores esperados mayores de 5. Así, en una tabla 2x2 será necesario que todas las celdas verifiquen esta condición, si bien en la práctica suele permitirse que una de ellas muestre frecuencias esperadas ligeramente por debajo de este valor. En aquellos casos en los que no se verifique este requisito existe un test, y propuesto por R.A. Fisher, que puede utilizarse como alternativa al test que se conoce como test exacto de Fisher. El procedimiento consiste en evaluar la probabilidad asociada a todas las tablas 2x2 que se pueden formar con los mismos totales marginales que los datos observados, bajo el supuesto de independencia. Los cálculos, aunque elementales, resultan algo engorrosos, por lo que no se incluirán en este trabajo, siendo múltiples las referencias que http://www.fisterra.com/mbe/investiga/chi/chi.asp (6 of 9)22/04/2006 1:24:55 PM Asociación de variables cualitativas: test de Chi-cuadrado se pueden consultar a este respecto5,6. Para finalizar, recalcar que existen otros métodos estadísticos que nos permiten analizar la relación entre variables cualitativas, y que vienen a . Por una parte, el complementar la información obtenida por el estadístico análisis de los residuos estandarizados permitirá constatar la dirección en que se da la relación entre las variables estudiadas. A su vez, existen también otras medidas de asociación, muchas de las cuales resultan especialmente útiles cuando alguna de las variables se mide en una escala nominal u ordinal, que permiten cuantificar el grado de relación que existe entre ambos factores . Bibliografía 1. Fleiss J L. Statistical Methods for rates and proportions. 3 rd. ed. New York: John Wiley & Sons; 2003. 2. Selvin S. Statistical Analysis of epidemiologic data. 3 rd. ed. New York: Oxfrod University Press; 2004. 3. Pita Fernández S, Vila Alonso MT, Carpente Montero J. Determinación de factores de riesgo. Cad Aten Primaria 1997; 4: 75-78. [Texto completo] 4. Pita Fernández S, López de Ullibarri Galparsoro I. Número necesario de pacientes a tratar para reducir un evento. Cad Aten Primaria 1998; 9698. [Texto completo] 5. Altman DG. Practical statistics for medical research. London: Chapman & Hall; 1991. 6. Armitage P, Berry G. Estadística para la investigación biomédica. Barcelona: Harcourt Brace; 1999. 7. Juez Martel P. Herramientas estadísticas para la investigación en Medicina y Economía de la Salud. Madrid: Centro de Estudios Ramón Areces; 2001. Tabla 4. Distribución de ji-cuadrado 7 Probabilidad de un valor superior Grados de libertad 1 2 0,1 2,71 4,61 0,05 3,84 5,99 0,025 5,02 7,38 0,01 6,63 9,21 0,005 7,88 10,60 http://www.fisterra.com/mbe/investiga/chi/chi.asp (7 of 9)22/04/2006 1:24:55 PM Asociación de variables cualitativas: test de Chi-cuadrado 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 6,25 7,78 9,24 10,64 12,02 13,36 14,68 15,99 17,28 18,55 19,81 21,06 22,31 23,54 24,77 25,99 27,20 28,41 29,62 30,81 32,01 33,20 34,38 35,56 36,74 37,92 39,09 40,26 51,81 63,17 74,40 85,53 96,58 107,57 118,50 7,81 9,49 11,07 12,59 14,07 15,51 16,92 18,31 19,68 21,03 22,36 23,68 25,00 26,30 27,59 28,87 30,14 31,41 32,67 33,92 35,17 36,42 37,65 38,89 40,11 41,34 42,56 43,77 55,76 67,50 79,08 90,53 101,88 113,15 124,34 9,35 11,14 12,83 14,45 16,01 17,53 19,02 20,48 21,92 23,34 24,74 26,12 27,49 28,85 30,19 31,53 32,85 34,17 35,48 36,78 38,08 39,36 40,65 41,92 43,19 44,46 45,72 46,98 59,34 71,42 83,30 95,02 106,63 118,14 129,56 11,34 13,28 15,09 16,81 18,48 20,09 21,67 23,21 24,73 26,22 27,69 29,14 30,58 32,00 33,41 34,81 36,19 37,57 38,93 40,29 41,64 42,98 44,31 45,64 46,96 48,28 49,59 50,89 63,69 76,15 88,38 100,43 112,33 124,12 135,81 12,84 14,86 16,75 18,55 20,28 21,95 23,59 25,19 26,76 28,30 29,82 31,32 32,80 34,27 35,72 37,16 38,58 40,00 41,40 42,80 44,18 45,56 46,93 48,29 49,65 50,99 52,34 53,67 66,77 79,49 91,95 104,21 116,32 128,30 140,17 http://www.fisterra.com/mbe/investiga/chi/chi.asp (8 of 9)22/04/2006 1:24:55 PM Asociación de variables cualitativas: test de Chi-cuadrado Arriba © 2006 fisterra.com Mis Datos | Contacto-Sugerencias | FAQ's | Condiciones de uso | Política de privacidad http://www.fisterra.com/mbe/investiga/chi/chi.asp (9 of 9)22/04/2006 1:24:55 PM Asociación de variables cualitativas: el test exacto de Fisher y el test de Mcnemar Guías Clínicas Ayuda en consulta Medicamentos Formación Biblioteca virtual Tienda Formación - MBE - Metodología de la Investigación Metodología de la Investigación Autores: Mapa Buscador Avanzado Asociación de variables cualitativas: El test exacto de Fisher y el test de Mcnemar Sonia Pértega Díaza , Salvador Pita Fernández (1) Unidad de Epidemiología Clínica y Bioestadística. Complejo Hospitalario Juan Canalejo (A Coruña). (2) Médico de Familia. Centro de Salud de Cambre (A Coruña). Actualizada el 14/11/2004. Tabla de contenidos: Índice (1) (2) Introducción La prueba de probabilidad exacta de Fisher El test de McNemar Bibliografía Imprimir documento [141 Kb] ¿Problemas con PDF? ----------------------Más... Tabla 1 - Tabla 2 - Tabla 3 - Tabla 4 Tabla 5 - Tabla 6 - Tabla 7 - Tabla 8 Desde que Pearson introdujo el test de la en 1900, ésta se ha convertido en una herramienta de uso general para conocer si existe o no relación entre variables de tipo cualitativo. Sin embargo, su aplicación exige de ciertos requerimientos acerca del tamaño es aplicable a los datos de muestral que no siempre son tenidos en cuenta . La prueba una tabla de contingencia solamente si las frecuencias esperadas son suficientemente grandes. Del mismo modo, cuando los datos exhiben algún grado de dependencia, el test no será el método apropiado para contrastar la hipótesis nula de independencia. En este trabajo se introducirán la prueba exacta de Fisher y el test de McNemar como alternativa estadística al test utilización 4-7 3 1,2 cuando no se verifiquen las condiciones necesarias para su . La prueba de probabilidad exacta de Fisher El test exacto de Fisher permite analizar si dos variables dicotómicas están asociadas cuando la muestra a estudiar es demasiado pequeña y no se cumplen las condiciones sea adecuada. Estas condiciones exigen que necesarias para que la aplicación del test los valores esperados de al menos el 80% de las celdas en una tabla de contingencia sean mayores de 5. Así, en una tabla 2x2 será necesario que todas las celdas verifiquen esta condición, si bien en la práctica suele permitirse que una de ellas muestre frecuencias esperadas ligeramente por debajo de este valor. En situaciones como esta, una forma de plantear los resultados es su disposición en una tabla de contingencia de dos vías. Si las dos variables que se están considerando son http://www.fisterra.com/mbe/investiga/fisher/fisher.asp (1 of 9)22/04/2006 1:25:33 PM Asociación de variables cualitativas: el test exacto de Fisher y el test de Mcnemar dicotómicas, nos encontraremos con el caso de una tabla 2 x 2 como la que se muestra en la Tabla 1. El test exacto de Fisher se basa en evaluar la probabilidad asociada a cada una de las tablas 2 x 2 que se pueden formar manteniendo los mismos totales de filas y columnas que los de la tabla observada. Cada una de estas probabilidades se obtiene bajo la hipótesis nula de independencia de las dos variables que se están considerando. Tabla 1. Tabla de contingencia general para la comparación de dos variables dicotómicas en el caso de grupos independientes. Característica A Característica B Presente a c a+c Ausente b d b+d Total a+b c+d n Presente Ausente Total La probabilidad exacta de observar un conjunto concreto de frecuencias a, b, c y d en una tabla 2 x 2 cuando se asume independencia y los totales de filas y columnas se consideran fijos viene dada por la distribución hipergeométrica: (1) Esta fórmula se obtiene calculando todas las posibles formas en las que podemos disponer n sujetos en una tabla 2 x 2 de modo que los totales de filas y columnas sean siempre los mismos, (a+b), (c+d), (a+c) y (b+d). La probabilidad anterior deberá calcularse para todas las tablas de contingencia que puedan formarse con los mismos totales marginales que la tabla observada. Posteriormente, estas probabilidades se usan para calcular valor de la p asociado al test exacto de Fisher. Este valor de p indicará la probabilidad de obtener una diferencia entre los grupos mayor o igual a la observada, bajo la hipótesis nula de independencia. Si esta probabilidad es pequeña (p<0.05) se deberá rechazar la hipótesis de partida y deberemos asumir que las dos variables no son independientes, sino que están asociadas. En caso contrario, se dirá que no existe evidencia estadística de asociación entre ambas variables. En la literatura estadística, suelen proponerse dos métodos para el cómputo del valor de la p asociado al test exacto de Fisher. En primer lugar, podremos calcularlo sumando las probabilidades de aquellas tablas con una probabilidad asociada menor o igual a la correspondiente a los datos observados. La otra posibilidad consiste en sumar las probabilidades asociadas a resultados al menos tan favorables a la hipótesis alternativa como los datos reales. Este cálculo proporcionaría el valor de p correspondiente al test en el caso de un planteamiento unilateral. Duplicando este valor se obtendría el p-valor correspondiente a un test bilateral. Para ilustrar la explicación anterior, supongamos que en una determinada población se desea averiguar si existen diferencias en la prevalencia de obesidad entre hombres y mujeres o si, por el contrario, el porcentaje de obesos no varía entre sexos. Tras ser observada una muestra de 14 sujetos se obtuvieron los resultados que se muestran en la Tabla 2. http://www.fisterra.com/mbe/investiga/fisher/fisher.asp (2 of 9)22/04/2006 1:25:33 PM Asociación de variables cualitativas: el test exacto de Fisher y el test de Mcnemar Tabla 2. Tabla de contingencia para estudiar las diferencias en la prevalencia de obesidad entre sexos. Estudio de prevalencia sobre 14 sujetos. Obesidad Sexo Sí 1 (a) 7 (c) 8 (a+c) No 4 (b) 2 (d) 6 (b+d) Total 5 (a+b) 9 (c+d) 14 (n) Mujeres Hombres Total En esta tabla a=1, b=4, c=7 y d=2. Los totales marginales son así a+b=5, c+d= 9, a+c=8 y b+d=6. La frecuencia esperada en tres de las cuatro celdas es menor de 5, por lo que no , aunque sí el test exacto de Fisher. Si las variables sexo resulta adecuado aplicar el test y obesidad fuesen independientes, la probabilidad asociada a los datos que han sido observados vendría dada por: Tabla 3. Posibles combinaciones de frecuencias con los mismos totales marginales de filas y columnas que en la Tabla 2. Obesidad Si (i) Mujeres Hombres 0 8 8 No 5 1 6 5 9 14 (iv) Mujeres Hombres Si 3 5 8 Obesidad No 2 4 6 5 9 14 (ii) Mujeres Hombres 1 7 8 4 2 6 5 9 14 (v) Mujeres Hombres 4 4 8 1 5 6 5 9 14 (iii) Mujeres Hombres 2 6 8 3 3 6 5 9 14 (vi) Mujeres Hombres 5 3 8 0 6 6 5 9 14 La Tabla 3 muestra todas las posibles combinaciones de frecuencias que se podrían obtener con los mismos totales marginales que en la Tabla 2. Para cada una de estas tablas, se ha calculado la probabilidad exacta de ocurrencia bajo la hipótesis nula, según la expresión (1). Los resultados obtenidos se muestran en la Tabla 4. El valor de la p asociado al test exacto de Fisher puede entonces calcularse sumando las probabilidades de las tablas que resultan ser menores o iguales a la probabilidad de la tabla que ha sido observada: Tabla 4. Probabilidad exacta asociada con cada una de las disposiciones de frecuencias de la Tabla 3. http://www.fisterra.com/mbe/investiga/fisher/fisher.asp (3 of 9)22/04/2006 1:25:33 PM Asociación de variables cualitativas: el test exacto de Fisher y el test de Mcnemar a (i) (ii) (iii) (iv) (v) (vi) 0 1 2 3 4 5 b 5 4 3 2 1 0 c 8 7 6 5 4 3 d 1 2 3 4 5 6 p 0,0030 0,0599 0,2797 0,4196 0,2098 0,0280 Otro modo de calcular el valor de p correspondiente consistiría en sumar las probabilidades asociadas a aquellas tablas que fuesen más favorables a la hipótesis alternativa que los datos observados. Es decir, aquellas situaciones en las que la diferencia en la prevalencia de obesidad entre hombres y mujeres fuese mayor que la observada en la realidad. En el ejemplo, sólo existe una tabla más extrema que la correspondiente a los datos observados (aquella en la que no se observa ninguna mujer obesa), de forma que: (2) Este sería el valor de la p correspondiente a un planteamiento unilateral. En este caso la hipótesis a contrastar sería que la prevalencia de obesidad es igual en hombres y mujeres, frente a la alternativa de que fuese mayor en los varones. Cuando el planteamiento se hace con una perspectiva bilateral, la hipótesis alternativa consiste en asumir que existen diferencias en la prevalencia de obesidad entre sexos, pero sin especificar de antemano en qué sentido se producen dichas diferencias. Para obtener el valor de la p correspondiente a la alternativa bilateral deberíamos multiplicar el valor obtenido en (2) por dos: Como se puede observar, las dos formas de cálculo propuestas no tienen por qué proporcionar necesariamente los mismos resultados. El primer método siempre resultará en un valor de p menor o igual al del segundo método. Si recurrimos a un programa estadístico como el SPSS para el cómputo del test, éste utilizará la primera vía para obtener el p-valor correspondiente a la alternativa bilateral y el segundo método de cálculo para el valor de p asociado a un planteamiento unilateral. En cualquier caso, y a la vista de los resultados, no existe evidencia estadística de asociación entre el sexo y el hecho de ser obeso en la población de estudio. El test de McNemar En otras ocasiones, una misma característica se mide en más de una ocasión para cada uno de los individuos que se incluyen en una investigación. En estos casos, el interés se centra en comparar si las mediciones efectuadas en dos momentos diferentes (normalmente antes y después de alguna intervención) son iguales o si, por el contrario, se produce algún cambio significativo. Por ejemplo, puede interesarnos estudiar, a distintos tiempos, el porcentaje de sujetos que se mantienen con fiebre tras la aplicación de un antitérmico o comparar la proporción de enfermos con un determinado síntoma antes y después de un tratamiento. Para el caso de datos pareados, existen claramente cuatro tipos de pares de observaciones, según cada individuo presente o no la característica de interés en los dos momentos en los que se efectúa la evaluación (Tabla 5). Así, los resultados obtenidos pueden mostrarse igualmente en una tabla 2 x 2 como en la Tabla 1, con la salvedad de que aquí los datos http://www.fisterra.com/mbe/investiga/fisher/fisher.asp (4 of 9)22/04/2006 1:25:33 PM Asociación de variables cualitativas: el test exacto de Fisher y el test de Mcnemar son dependientes y por lo tanto no resultará adecuada la utilización del test Tabla 5. Frecuencia de cada una de las posibles combinaciones en un estudio de datos pareados. Observación 1 Tipo 1 2 3 4 Característica Presente Presente Ausente Ausente Total Observación 2 Característica Presente Ausente Presente Ausente a b c d n . Número de pares Con esta notación, las proporciones de individuos con la característica de interés en los dos momentos en los que se efectúa la medición son y , respectivamente. Estamos interesados por lo tanto en la diferencia entre estas dos proporciones: La hipótesis nula que se quiere contrastar es que el valor esperado para esta diferencia es cero, frente a la hipótesis alternativa de que las dos proporciones y sean efectivamente diferentes. Esto se puede contrastar centrando nuestra atención en las casillas b y c que son las que muestran discordancia en los dos momentos en los que se efectuó la medición. La prueba de McNemar contrasta así si el número de individuos que han dejado de presentar la característica de interés (b) es el mismo que el número de individuos que han realizado el cambio inverso (c). El error estándar para la diferencia entre dos proporciones viene dado por: (3) De modo que, bajo la hipótesis nula de que no existe diferencia entre ambas ecuación (3) se reduce a: , la El estadístico de contraste se construye así de la forma siguiente: (4) que sigue una distribución normal N(0,1). http://www.fisterra.com/mbe/investiga/fisher/fisher.asp (5 of 9)22/04/2006 1:25:33 PM Asociación de variables cualitativas: el test exacto de Fisher y el test de Mcnemar Alternativamente, se puede considerar el estadístico de contraste: que sigue una distribución chi-cuadrado con un grado de libertad y proporciona el mismo valor de la p asociado. A su vez, se puede aplicar una corrección de continuidad para trabajar sobre muestras pequeñas: refiriendo el valor de dicho estadístico al de una distribución normal N(0,1) ó, equivalentemente, a una distribución chi-cuadrado con un grado de libertad si se trabaja con su valor al cuadrado: De modo análogo, es posible obtener un intervalo de confianza para la diferencia de proporciones como: Para ilustrar los cálculos anteriores, se dispone de información acerca de 20 pacientes a los que se les administró un determinado tratamiento para tratar el dolor tras una intervención quirúrgica. En cada individuo, se realizó una valoración del dolor inmediatamente después de la operación y al cabo de 1 hora tras la administración del analgésico. Los datos observados se muestran en la Tabla 6. En primer lugar se construye la tabla 2 x 2 con las frecuencias observadas en el estudio (Tabla 7). Según estos datos, el porcentaje de pacientes que manifiestan dolor inicialmente es de , frente al de los enfermos que dicen tener dolor una vez administrado el analgésico. El estadístico de contraste se construye según la expresión (4) como: El valor obtenido del estadístico (z=2.49) se compara con los valores de una distribución normal estándar (Tabla 8). El valor crítico correspondiente para α =0.01 es de z=2.576 y para α =0.02 es de 2.326. Como quiera que en el cálculo del test de McNemar en el ejemplo obtuvimos un valor de 2.49, que supera al valor para α =0.02, podremos concluir que las dos variables no son independientes, sino que están asociadas (p<0.02). Aplicando la corrección de continuidad proporciona un resultado de http://www.fisterra.com/mbe/investiga/fisher/fisher.asp (6 of 9)22/04/2006 1:25:33 PM Asociación de variables cualitativas: el test exacto de Fisher y el test de Mcnemar , que sigue siendo un resultado significativo (p<0.03). Otro modo de obtener esta misma información es mediante el cálculo de intervalos de confianza para la diferencia de proporciones en los dos momentos de observación. A mayores, el intervalo de confianza constituye una medida de la incertidumbre con la que se estima esa diferencia a partir de la muestra, permitiendo valorar tanto la significación estadística como la magnitud clínica de esa diferencia. En el caso que nos ocupa, el intervalo de confianza vendrá dado como: Es decir, podemos asegurar (con una seguridad del 95%) de que la diferencia real en el porcentaje de pacientes que manifiestan dolor antes y después de recibir el tratamiento analgésico se mueve entre un 9.72% y un 80.28%. En definitiva, el uso generalizado de la metodología estadística ha contribuido a dotar de un mayor rigor a la investigación clínico-epidemiológica en los últimos años. Sin embargo, también ha hecho que estas técnicas se apliquen en ocasiones de una manera un tanto superficial. Es extremadamente importante tener en cuenta las asunciones subyacentes a , para comprender cuándo los distintos métodos estadísticos, como en el caso del test es adecuado o no su uso y disponer de las técnicas estadísticas alternativas que deben utilizarse en cada ocasión. Bibliografía 1. Pearson K. On a criterion that a given system of deviations from the probable in the case of correlated system of variables is Duch that it can be reasonably supposed to have arisen from random sampling. Philosophical Magazine 1900, Series 5, No. 50: 157-175. testo f goodness of fit. Biometrika 1922; 14: 186-191. 2. Pearson, K. On the 3. Pita Fernández S, Pértega Díaz S. Asociación de variables cualitativas: Test de chicuadrado. Cad Aten Primaria 2004 (en prensa). [Texto completo] 4. Altman DG. Practical statistics for medical research. London: Chapman & Hall; 1991. 5. Armitage P, Berry G. Estadística para la investigación biomédica. Madrid : Harcourt Brace; 1999. 6. Juez Martel P. Herramientas estadísticas para la investigación en Medicina y Economía de la Salud. Madrid: Ed. Centro de Estudios Ramón Areces; 2001. 7. Agresti A. Categoriacl Data Analisis. New York: John Wiley & Sons; 1990. Tabla 6. Datos de 20 pacientes intervenidos quirúrgicamente en los que se valoró el dolor tras la cirugía y al cabo de 1 hora tras la administración de un analgésico. Individuo 1 2 3 Dolor tras la intervención No Sí No Dolor 1 horas después del Tto. No No No http://www.fisterra.com/mbe/investiga/fisher/fisher.asp (7 of 9)22/04/2006 1:25:33 PM Asociación de variables cualitativas: el test exacto de Fisher y el test de Mcnemar 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 No Sí Sí No Sí No No Sí Sí Sí Sí Sí No No Sí Sí Sí No No No No Sí Sí No No No No No No Sí Sí No No No Tabla 7. Tabla de contingencia con los datos de 20 pacientes intervenidos quirúrgicamente en los que se valoró el dolor tras la cirugía y al cabo de 1 hora tras la administración de un analgésico. Dolor 1 hora después del tratamiento Dolor tras la intervención Sí 1 (a) 2 (c) 3 (a+c) No 11 (b) 6 (d) 17 (b+d) Total 12 (a+b) 8 (c+d) 20 (n) Sí No Total Tabla 8. Tabla de valores de la distribución normal. La tabla muestra los valores de z para los que la probabilidad de observar un valor mayor o igual (en valor absoluto) es igual a α. La cifra entera y el primer decimal de α se buscan en la primera columna, y la segunda cifra decimal en la cabecera de la tabla. http://www.fisterra.com/mbe/investiga/fisher/fisher.asp (8 of 9)22/04/2006 1:25:33 PM Asociación de variables cualitativas: el test exacto de Fisher y el test de Mcnemar Arriba © 2006 fisterra.com Mis Datos | Contacto-Sugerencias | FAQ's | Condiciones de uso | Política de privacidad http://www.fisterra.com/mbe/investiga/fisher/fisher.asp (9 of 9)22/04/2006 1:25:33 PM Técnicas de regresión: Regresión Lineal Simple Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 20/08/01 Técnicas de regresión: Regresión Lineal Simple Pértega Díaz, S. [ Correo de contacto ], Pita Fernández, S. [ Correo de contacto ], Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña (España) CAD ATEN PRIMARIA 2000; 7: 91-94 En múltiples ocasiones en la práctica clínica nos encontramos con situaciones en las que se requiere analizar la relación entre dos variables cuantitativas. Los dos objetivos fundamentales de este análisis serán, por un lado, determinar si dichas variables están asociadas y en qué sentido se da dicha asociación (es decir, si los valores de una de las variables tienden a aumentar –o disminuir- al aumentar los valores de la otra); y por otro, estudiar si los valores de una variable pueden ser utilizados para predecir el valor de la otra. La forma correcta de abordar el primer problema es recurriendo a coeficientes de correlación( ). Sin embargo, el estudio de la correlación es insuficiente para obtener una respuesta a la segunda cuestión: se limita a indicar la fuerza de la asociación mediante un único número, tratando las variables de modo simétrico, mientras que nosotros estaríamos interesados en modelizar dicha relación y usar una de las variables para explicar la otra. Para tal propósito se recurrirá a la técnica de regresión. Aquí analizaremos el caso más sencillo en el que se considera únicamente la relación entre dos variables. Así mismo, nos limitaremos al caso en el que la relación que se pretende modelizar es de tipo lineal( ). 2 1 Contenido La recta de regresión Interpretación de los coeficientes de regresión y tabla ANOVA Hipótesis del modelo Predicción Bibliografía Documento en PDF (73 Kb) ¿Problemas con PDF? La recta de regresión. Consideremos una variable aleatoria respuesta (o dependiente) Y, que supondremos relacionada con otra variable (no necesariamente aleatoria) que llamaremos explicativa, predictora o independiente y que se denotará por X. A partir de una muestra de n individuos para los que se dispone de los valores de ambas variables, {(Xi,Yi),i = 1,...n}, se puede visualizar gráficamente la relación existente entre ambas mediante un gráfico de dispersión, en el que los valores de la variable X se disponen en el eje horizontal y los de Y en el vertical. El problema que subyace a la metodología de la regresión lineal simple es el de encontrar una recta que ajuste a la nube de puntos del diagrama así dibujado, y que pueda ser utilizada para predecir los valores de Y a partir de los de X. La ecuación general de la recta de regresión será entonces de la forma: Y = a + bX . El problema radica en encontrar aquella recta que mejor ajuste a los datos. Tradicionalmente se ha recurrido para ello al método de mínimos cuadrados, que elige como recta de regresión a aquella que minimiza las distancias verticales de las observaciones a la recta. Más concretamente, se pretende encontrar a y b tales que: Resolviendo este problema mediante un sencillo cálculo de diferenciación, se obtienen los estimadores mínimo cuadráticos de los coeficientes de la recta de regresión: http://www.fisterra.com/mbe/investiga/regre_lineal_simple/regre_lineal_simple.htm (1 of 8)22/04/2006 1:25:59 PM Técnicas de regresión: Regresión Lineal Simple ; Tabla 1. Tensión Arterial Sistólica y Edad de 69 pacientes Nº 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 Tensión Sistólica 114 134 124 128 116 120 138 130 139 125 132 130 140 144 110 148 124 136 150 120 144 153 134 152 158 124 128 138 142 160 135 138 142 145 149 Edad 17 18 19 19 20 21 21 22 23 25 26 29 33 33 34 35 36 36 38 39 39 40 41 41 41 42 42 42 44 44 45 45 46 47 47 Nº 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 Tensión Sistólica 156 159 130 157 142 144 160 174 156 158 174 150 154 165 164 168 140 170 185 154 169 172 144 162 158 162 176 176 158 170 172 184 175 180 Edad 47 47 48 48 50 50 51 51 52 53 55 56 56 56 57 57 59 59 60 61 61 62 63 64 65 65 65 66 67 67 68 68 69 70 La Tabla 1 muestra los datos de 69 pacientes de los que se conoce su edad y una medición de su tensión sistólica. Si estamos interesados en estudiar la variación en la tensión sistólica en función de la edad del individuo, deberemos considerar como variable respuesta la tensión y como variable predictora la edad. En la Figura 1 se muestra, superpuesta al diagrama de dispersión, la recta de regresión de mínimos cuadrados correspondientes, así como las distancias verticales de las observaciones muestrales a la recta. Aplicando los cálculos anteriores a este caso, resultaría: http://www.fisterra.com/mbe/investiga/regre_lineal_simple/regre_lineal_simple.htm (2 of 8)22/04/2006 1:25:59 PM Técnicas de regresión: Regresión Lineal Simple Como se puede suponer, la relación Y = a + bX no va a cumplirse exactamente, sino que existirá un error que representa la variación de Y en todos los datos con un mismo valor de la variable independiente. Las distancias verticales entre el valor observado y el valor dado por la recta para cada individuo (o valor ajustado) reciben el nombre de residuos, y se suelen denotar por matemático será, por tanto: . La expresión teórica del modelo donde, además, se supondrá Figura 1. Relación entre la Edad y Presión Sistólica. Recta de Regresión y diferencias entre los valores observados y ajustados Interpretación de los coeficientes de regresión y la tabla ANOVA. En la ecuación general de la recta de regresión, claramente b es la pendiente de la recta y a el valor de la variable dependiente Y para el que X = 0. En consecuencia, una vez estimados estos coeficientes, en la mayoría de las aplicaciones clínicas el valor de â no tendrá una interpretación directa, mientras que el valor servirá como un indicador del sentido de asociación entre ambas variables: así, nos indicará una relación directa entre ellas (a mayor valor de la variable explicativa, el valor de la variable dependiente Y aumentará), delatará una relación de tipo inverso, mientras que nos indica que no existe una relación lineal clara entre ambas variables. Así mismo, y tal y como se deduce de la ecuación de la recta de regresión, el coeficiente b nos da una estimación del cambio por término medio en la variable Y por cada unidad en que se incrementa X. Al igual que ocurre con otros estimadores, existirá cierta incertidumbre en el cálculo de las estimaciones, que se podrá reflejar mediante intervalos de confianza para ambos valores, http://www.fisterra.com/mbe/investiga/regre_lineal_simple/regre_lineal_simple.htm (3 of 8)22/04/2006 1:25:59 PM Técnicas de regresión: Regresión Lineal Simple construidos bajo la hipótesis de normalidad de los residuos, mediante las expresiones: donde denota al cuantil de orden ß de una distribución t de Student con n-2 grados de libertad. De igual forma, podemos limitar esta incertidumbre realizando un test para contrastar la hipótesis de que b=0 y comparando éste con la distribución t de Student con n-2 grados de mediante el cociente libertad. De modo análogo se llevaría a cabo un contraste para la hipótesis a=0. El hecho de que el test no resulte significativo indicará la ausencia de una relación clara de tipo lineal entre las variables, aunque pueda existir una asociación que no sea captada a través de una recta. Para los datos del ejemplo, el resultado de ajustar un modelo de regresión lineal se muestra en la Tabla 2. Tabla 2. Modelo de Regresión Lineal Simple de la Presión sistólica ajustando por edad Variable Constante Edad Fuente de Variación Regresión en edad Residual Total Coeficiente (B) 103.35 0.98 Suma de Cuadrados 14,965.31 8,246.46 23,211.77 E.T.(B) 4.33 0.09 g.l. 1 67 68 IC 95% (B) (94.72; 111.99) (0.81; 1.16) Media cuadrática 14,965.31 123.08 t 23.89 11.03 F 121.59 p <0.001 <0.001 p <0.001 La recta así ajustada explica tan sólo una parte de la variabilidad de la variable dependiente, expresada ésta comúnmente por medio de la varianza de Y, mientras que la cantidad de variabilidad que resta por explicar puede ser expresada a través de los residuos. Generalmente un análisis de regresión suele ser expresado por una tabla de análisis de la varianza en la que se refleja toda esta información. En la Tabla 2 se muestra además la tabla correspondiente en el ejemplo de la tensión sistólica. La columna etiquetada por "Suma de cuadrados" muestra una descomposición de la variación total de Y en las partes explicada y no explicada (residual) por la regresión. La proporción de variabilidad explicada por el modelo coincide aquí con el cuadrado del coeficiente de correlación lineal de Pearson, que recibe el nombre de coeficiente de determinación, y que se persigue sea próximo a 1. En nuestro ejemplo sería R2=0.645. A partir de esta información puede elaborarse un contraste para verificar la utilidad del modelo. En el caso de regresión lineal simple, el estadístico de contraste se reduce a: que se comparará con el cuantil correspondiente a una distribución F de Snedecor con parámetros 1 y n-1. El test resultante será equivalente al test t para contrastar H0:b=0. http://www.fisterra.com/mbe/investiga/regre_lineal_simple/regre_lineal_simple.htm (4 of 8)22/04/2006 1:25:59 PM Técnicas de regresión: Regresión Lineal Simple Hipótesis del modelo. Una vez ajustado el modelo, y antes de usarlo para realizar nuevas predicciones, conviene asegurarse de que no se violan las hipótesis sobre las que se soporta: independencia de las observaciones muestrales, normalidad de los valores de la variable dependiente Y para cada valor de la variable explicativa, homocedasticidad (i.e., la variabilidad de Y es la misma para todos los valores de X) y relación lineal entre las dos variables. La información más relevante la aportan los residuos. Así, bajo las suposiciones anteriores, los residuos habrán de tener una distribución normal de media cero y varianza constante. El modo más sencillo de comprobar si esto se verifica es obteniendo una impresión visual a partir de un gráfico de los residuos frente a la variable dependiente Y. La Figura 2 muestra las diferentes posibilidades en un gráfico de residuos, mientras que el gráfico que se obtiene en el ejemplo manejado se refleja en la Figura 3. Figura 2. Diferentes posibilidades del Gráfico de Residuos Figura 3. Gráfico de Residuos de la regresión frente a la edad http://www.fisterra.com/mbe/investiga/regre_lineal_simple/regre_lineal_simple.htm (5 of 8)22/04/2006 1:25:59 PM Técnicas de regresión: Regresión Lineal Simple Se puede complementar este análisis mediante gráficos de probabilidad normal y tests de normalidad para los residuos, como el de Kolmogorov-Smirnov (Figura 4). Así mismo, la independencia de las observaciones puede estudiarse mediante gráficos de autocorrelación y contrastes de independencia como el de DurbinWatson. Figura 4. Gráfico de Probabilidad normal de los Residuos para la Tensión Sistólica frente a la Edad. Aunque obviaremos un análisis detallado de la verificación de las hipótesis del modelo, conviene hacer referencia a las medidas a tomar en caso de no cumplirse. Para el caso de no normalidad, resulta obvio que la medida más inmediata es la transformación de la variable dependiente( ), aunque otra alternativa son los cada vez más utilizados modelos de regresión no paramétrica( ), que evitan la suposición de una distribución gaussiana. También se debe modificar el modelo en el caso de datos dependientes o valores repetidos( ). Predicción. Cuando se verifican las hipótesis sobre las que se asienta el modelo, la recta de regresión puede ser utilizada http://www.fisterra.com/mbe/investiga/regre_lineal_simple/regre_lineal_simple.htm (6 of 8)22/04/2006 1:25:59 PM 3 4 5 Técnicas de regresión: Regresión Lineal Simple para predecir el valor medio de la variable Y para cada valor concreto de X. Calculando la esperanza matemática en ambos lados de la ecuación (1) se obtendrá: de modo que la línea de regresión proporciona un estimador del valor medio de Y para cada valor de X. Como tal estimador, debemos considerar la incertidumbre asociada a esta recta, que puede ser reflejada mediante regiones de confianza que contienen a la recta. En la Figura 5 se muestra, superpuesta al diagrama de dispersión, la recta de regresión en el ejemplo de la tensión sistólica que estamos manejando, así como una región de confianza para la misma, que contendrá a la verdadera relación entre tensión sistólica y edad con una seguridad del 95%. Figura 5. Intervalos de confianza al 95 % para la Recta de Regresión y para la Predicción de la Presión Sistólica en un individuo. También se puede utilizar la recta de regresión como estimador del valor de Y en un individuo concreto. En este caso se esperará una mayor incertidumbre en la estimación que en el caso de predecir una tendencia media. En la Figura 4 se muestra además la banda de predicción para el ejemplo que estamos manejando, siendo ésta mucho más amplia que en el caso de intentar predecir el valor medio. La regresión lineal simple es entonces una técnica sencilla y accesible para valorar la relación entre dos variables cuantitativas en la práctica clínica( ), proponiendo además un modelo al que se ajusta dicha relación. No debemos olvidar que a lo largo de este artículo hemos abordado el caso más sencillo en el que se obvia el problema de un número más elevado de variables entre las que valorar la relación. En este caso entraríamos de lleno en la temática de la regresión lineal múltiple( ), lo cual nos obligaría a abordar problemas de índole más complicado como el de la colinealidad, interacción entre variables, variables confusoras o un análisis más detallado de los residuos del modelo. Así mismo, no se debe pasar por alto el hecho de que en la mayoría de las aplicaciones prácticas la relación que se observa entre pares de variables no es tanto lineal como de tipo curvilíneo (ya sea una relación logarítmica, exponencial, polinómica, etc.). En estos casos, aunque se puede hablar de regresión curvilínea según el tipo de relación, una conveniente transformación de las variables reduce el problema al caso que acabamos de abordar. 7 6 Bibliografía http://www.fisterra.com/mbe/investiga/regre_lineal_simple/regre_lineal_simple.htm (7 of 8)22/04/2006 1:25:59 PM Técnicas de regresión: Regresión Lineal Simple 1.- Pita Fernández S, Rey Sierra T, Vila Alonso MT. Relaciones entre variables cuantitativas (I). Cadernos de Atención Primaria 1997; 4: 141-145. 2.- Seber GAF. Linear Regression Analysis. New York: John Wiley & Sons, 1977. 3.- Bland JM, Altman DG. Statistics Notes: Transforming data. BMJ 1996; 312:770. [Medline] [texto completo] 4.- Härdle. Aplied Nonparametric Regression. Cambridge: University Press, 1990. 5.- Statistics notes: Correlation, regression and repeated data. BMJ 1994; 308: 896. [texto completo] 6.- Altman DA. Practical statistics for medical research. 1th ed., repr. 1997. London: Chapman & Hall; 1997. 7.- Etxebarría Murgiondo, J. Regresión Múltiple. Madrid: La Muralla; 1999. Arriba | Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/regre_lineal_simple/regre_lineal_simple.htm (8 of 8)22/04/2006 1:25:59 PM Técnicas de regresión: Regresión Lineal Múltiple Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 20/08/01 Técnicas de regresión: Regresión Lineal Múltiple Pértega Díaz, S. [ Correo de contacto ], Pita Fernández, S. [ Correo de contacto ], Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña (España) CAD ATEN PRIMARIA 2000; 7: 173-176. La mayoría de los estudios clínicos conllevan la obtención de datos en un número más o menos extenso de variables. En algunos casos el análisis de dicha información se lleva a cabo centrando la atención en pequeños subconjuntos de las variables recogidas utilizando para ello análisis sencillos que involucran únicamente técnicas bivariadas. Un análisis apropiado, sin embargo, debe tener en consideración toda la información recogida o de interés para el clínico y requiere de técnicas estadísticas multivariantes más complejas. En particular, hemos visto como el modelo de regresión lineal simple es un método sencillo para analizar la relación lineal entre dos variables cuantitativas. Sin embargo, en la mayoría de los casos lo que se pretende es predecir una respuesta en función de un conjunto más amplio de variables, siendo necesario considerar el modelo de regresión lineal múltiple como una extensión de la recta de regresión que permite la inclusión de un número mayor de variables. Contenido Estimación de parámetros y bondad de ajuste Selección de variables Interacción, Confusión y Colinealidad Bibliografía ESTIMACIÓN DE PARÁMETROS Y BONDAD DE AJUSTE. Generalizando la notación usada para el modelo de regresión lineal simple, disponemos en n de una variable respuesta Y y de p variables individuos de los datos explicativas X1,X2,...,Xp. La situación más sencilla que extiende el caso de una única variable regresora es aquella en la que se dispone de información en dos variables adicionales. Como ejemplo, tomemos la medida de la tensión arterial diastólica en setenta individuos de los que se conoce además su edad, colesterol e índice de masa corporal (Tabla 1). Es bien conocido que el valor de la tensión arterial diastólica varía en función del colesterol e índice de masa corporal de cada sujeto. Al igual que ocurría en el caso bidimensional, se puede visualizar la relación entre las tres variables en un gráfico de dispersión, de modo que la técnica de regresión lineal múltiple proporcionaría el plano que mejor ajusta a la nube de puntos resultante (Figura 1). Figura 1. Plano de regresión para la Tensión Arterial Diastólica ajuntando por Colesterol e Índice de Masa Corporal Documento en PDF (99 Kb) ¿Problemas con PDF? http://www.fisterra.com/mbe/investiga/regre_lineal_multi/regre_lineal_multi.htm (1 of 8)22/04/2006 1:26:30 PM Técnicas de regresión: Regresión Lineal Múltiple Del gráfico se deduce fácilmente que los pacientes con tensión arterial diastólica más alta son aquellos con valores mayores de colesterol e índice de masa corporal. Si el número de variables explicativas aumenta (p>2) la representación gráfica ya no es factible, pero el resultado de la regresión se generaliza al caso del mejor hiperplano que ajusta a los datos en el espacio (p+1)-dimensional correspondiente. Tabla 1. Edad, Colesterol, Índice de Masa Corporal y Tensión Arterial Diastólica de 70 pacientes. EDAD 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 42 64 47 56 54 48 57 52 67 46 58 62 49 56 63 COLESTEROL 292 235 200 200 300 215 216 254 310 237 220 233 240 295 310 IMC 31,64 30,80 25,61 26,17 31,96 23,18 21,19 26,95 24,26 21,87 25,61 27,92 27,73 22,49 , TAD 97 90 80 75 100 67 , 70 105 70 70 75 90 95 95 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 EDAD 53 43 57 64 43 47 58 58 48 62 54 67 68 55 50 COLESTEROL 187 208 246 275 218 231 200 214 230 280 198 285 201 206 223 IMC 23,31 27,15 21,09 22,53 19,83 26,17 25,95 26,30 24,89 26,89 21,09 31,11 21,60 19,78 22,99 TAD 80 65 80 95 75 75 90 75 70 100 65 95 80 65 75 http://www.fisterra.com/mbe/investiga/regre_lineal_multi/regre_lineal_multi.htm (2 of 8)22/04/2006 1:26:30 PM Técnicas de regresión: Regresión Lineal Múltiple 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 64 67 49 53 59 65 67 49 53 57 47 58 48 51 49 68 58 54 59 45 268 243 239 198 218 215 254 218 221 237 244 223 198 234 175 230 248 218 285 253 30,04 23,88 21,99 26,93 , 24,09 28,65 25,71 25,33 25,42 23,99 25,20 25,81 26,93 27,77 30,85 21,61 26,30 31,44 25,00 90 85 75 75 85 70 105 85 80 90 85 70 85 80 80 70 75 95 100 75 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 53 63 60 46 45 53 59 62 60 62 58 57 49 61 52 59 50 46 44 60 290 315 220 230 175 213 220 287 290 209 290 260 202 214 231 280 220 233 215 202 32,32 31,14 28,89 20,55 22,49 22,53 20,82 32,32 33,91 20,76 31,35 31,14 20,76 19,59 20,08 31,60 25,34 22,86 19,53 19,10 95 100 80 75 70 70 65 95 90 75 80 95 80 90 75 100 70 75 70 65 En el caso general, el modelo de regresión lineal múltiple con p variables responde a la ecuación: (1) de modo que los coeficientes se estiman siguiendo el criterio de mínimos cuadrados: La obtención aquí de las expresiones de los estimadores mínimo cuadráticos de dichos coeficientes exigen reescribir la expresión (1) utilizando notación matricial. Así, (1) quedaría: donde: De donde los estimadores mínimo cuadráticos se obtienen a partir de la ecuación: http://www.fisterra.com/mbe/investiga/regre_lineal_multi/regre_lineal_multi.htm (3 of 8)22/04/2006 1:26:30 PM Técnicas de regresión: Regresión Lineal Múltiple y mantienen una interpretación análoga al caso de la regresión lineal simple (i.e. representa el ). incremento por término medio en la variable respuesta por cada unidad adicional en la variable Como se puede observar, la obtención de estimadores, intervalos de confianza y contrastes de hipótesis para los coeficientes de regresión involucran expresiones matriciales y distribuciones multivariantes que complican notablemente las operaciones, por lo que en la práctica dichos cálculos se obtienen de un modo inmediato mediante el manejo de diferentes paquetes estadísticos. Son muchos los textos en los que se pueden encontrar desarrollos teóricos de dichas expresiones( ),( ). Sin detenerse en ello, basta decir que manteniendo las hipótesis habituales de independencia, homocedasticidad, normalidad y linealidad se calculan expresiones para el error estándar de cada coeficiente estimado e intervalos de confianza de modo análogo al caso de la regresión simple. La significación estadística de cada variable se obtiene simplemente calculando el cociente entre el coeficiente estimado y su error típico, y comparándolo con el cuantil correspondiente de una distribución t de Student con n-p-1 grados de libertad. La bondad de ajuste del modelo se puede valorar mediante la varianza residual y el estadístico R2 (coeficiente de determinación), definidos de la forma habitual. También aquí puede utilizarse el contraste F global de la regresión, calculado a partir de las sumas de cuadrados explicada y no explicada para valorar la utilidad del modelo. Como ejemplo, tras ajustar un modelo de regresión múltiple a los datos que se muestran en la Tabla 1 usando como variables predictoras de la tensión diastólica el colesterol e índice de masa corporal de un individuo, los coeficientes de regresión para ambas variables fueron 0.18 (E.T. 0.03) y 0.73 (E.T. 0.30) respectivamente, siendo ambos significativamente distintos de cero (Tabla 2). Esto indica que por término medio la tensión arterial diastólica de un paciente se incrementa en 1.8 y 7.3 respectivamente por cada 10 unidades a mayores en su colesterol o índice de masa corporal. El valor del coeficiente de determinación R2=52% y la significación del contraste F global de la regresión (p<0.001) sugieren que gran parte de la variabilidad de la respuesta viene explicada por el modelo ajustado. Tabla 2. Modelo de regresión lineal múltiple para la tensión arterial diastólica ajustando por colesterol e índice de masa corporal. Variable Constante Colesterol IMC Regresión Residual Total Coeficiente (B) 19.42 0.18 0.73 Suma de Cuadrados 4,449.72 4,076.40 8,526.12 E.T.(B) 7.54 0.03 0.30 g.l. 2 64 66 IC 95% (B) (4.37;34.48) (0.11;0.25) (0.14;1.33) Media cuadrática 2,224.86 63.69 t 2.58 5.26 2.45 F 34.93 p 0.012 <0.001 0.017 p <0.001 1 2 El hecho de contar con un número más extenso de variables exige que además del contraste F global se puedan realizar pruebas parciales para constatar si un grupo de variables añadidas a un modelo lo mejoran. Supongamos que al modelo (1) se suma una nueva variable explicativa . La proporción de variabilidad residual que es explicada al introducir esta nueva variable viene dada por la diferencia en las sumas de cuadrados de cada modelo: Para valorar si la introducción de la nueva variable queda compensada por una mejora significativa en http://www.fisterra.com/mbe/investiga/regre_lineal_multi/regre_lineal_multi.htm (4 of 8)22/04/2006 1:26:30 PM Técnicas de regresión: Regresión Lineal Múltiple la predicción de la respuesta se utiliza el estadístico: que se compara con el cuantil correspondiente de una distribución F de Snedecor con 1 y n-p-2 grados de libertad. Dicho contraste se denomina contraste F parcial. Para comprobar el uso de dicho estadístico consideremos en el ejemplo anterior el modelo de regresión simple que resulta de tomar como única variable regresora el colesterol de un individuo (Tabla 3). El valor del estadístico R2 en este caso es del 69.1% frente al 72.2% del modelo que se consigue introduciendo el índice de masa corporal como nueva variable explicativa. El cambio en el estadístico R2 es de 0.045 que coincide con el cuadrado del coeficiente de correlación parcial entre la tensión arterial y el índice de masa corporal ajustando por el colesterol. La significación del contraste F parcial para la introducción del índice de masa corporal es de 0.017, indicando que el modelo con dos variables mejora al modelo más simple. Tabla 3. Modelo de regresión lineal simple para la tensión arterial diastólica ajustando por colesterol. Variable Constante Colesterol Regresión Residual Total Coeficiente (B) 26.91 0.23 Suma de Cuadrados 4,067.11 4,459.01 8,526.12 E.T.(B) 7.15 0.03 g.l. 1 65 66 IC 95% (B) (12.63;41.19) (0.17;0.29) Media cuadrática 4,067.11 68.60 t 3.76 7.70 F 59.29 p <0.001 <0.001 p <0.001 Es importante recalcar la necesidad de uso de métodos estadísticos multivariantes para estudiar correctamente la relación entre más de dos variables. La aplicación de las técnicas de regresión ha sido tratada en diversos textos( ),( ),( ),( ) desde un punto de vista eminentemente práctico. Aunque el modelo de regresión se ha planteado inicialmente para analizar la relación entre variables cuantitativas, su generalización al caso de variables regresoras cualitativas es inmediata. Este tipo de análisis recibe el nombre de análisis de covarianza o análisis de varianza según contenga o no además variables numéricas. La limitación de este modelo por considerar que la relación de cada variable con la respuesta es de tipo lineal queda solventada mediante la transformación (logarítmica, cuadrática,...) de cada variable regresora. 3 4 5 6 SELECCIÓN DE VARIABLES. Una de las principales dificultades a la hora de ajustar un modelo de regresión múltiple surge cuando es necesario identificar entre el conjunto de variables disponibles aquellas que están relacionadas con la respuesta y que la predicen de la mejor forma posible. Cuando el número de variables es reducido, como en el ejemplo manejado, la selección no resulta complicada. Una primera alternativa es construir un modelo por inclusión o hacia delante ("forward"), considerando en primer lugar la relación de cada variable con la respuesta e ignorando todas las demás variables, valorándola por medio del coeficiente de correlación lineal de Pearson (Figura 2). Aquella que muestra una correlación más alta con la variable dependiente (en este caso el colesterol) se introduce en un modelo inicial (Tabla 3). http://www.fisterra.com/mbe/investiga/regre_lineal_multi/regre_lineal_multi.htm (5 of 8)22/04/2006 1:26:30 PM Técnicas de regresión: Regresión Lineal Múltiple El segundo paso consiste en seleccionar entre las variables restantes aquella que al introducirla en el modelo permite explicar una mayor parte de la variabilidad residual. La comparación entre distintos modelos debe hacerse en términos del valor relativo de los coeficientes de determinación y el contraste F parcial. Ya vimos como la inclusión del índice de masa corporal reportaba una mejora en el modelo de regresión simple. La introducción de la variable edad, en cambio, proporciona un cambio en el coeficiente de determinación de 0.028 que no resulta en una mejora significativa (p=0.059). Este esquema se repetiría hasta que ninguna otra variable entrase a formar parte del modelo. En el ejemplo el último paso sería comprobar si la introducción de la variable edad produce una mejora del ajuste del modelo mostrado en la Tabla 2. El modelo ajustando por las tres variables se muestra en la Tabla 4. El coeficiente correspondiente a esta última variable no es significativo (nótese que esta significación ha de coincidir con la del contraste F parcial correspondiente). Tabla 4. Modelo de regresión lineal múltiple para la tensión arterial diastólica ajustando por colesterol, índice de masa corporal y edad. Variable Constante Colesterol IMC Edad Regresión Residual Total Coeficiente (B) 10.55 0.17 0.68 0.24 Suma de Cuadrados 4,622.52 3,903.60 8,526.12 E.T.(B) 9.13 0.03 0.30 0.14 g.l. 3 63 66 IC 95% (B) (-7.70;28.81) (0.1;0.24) (0.09;1.28) (-0.05;0.53) Media cuadrática 1,540.84 61.96 t 1.15 4.84 2.31 1.67 F 24.87 p 0.252 <0.001 0.024 0.100 p <0.001 En la mayoría de los casos se dispone de información en un conjunto mucho más amplio de variables de las que se desconoce cuáles están relacionadas o pueden utilizarse para predecir la respuesta de interés. La identificación del conjunto de variables que proporcionan el mejor modelo de regresión dependerá en gran medida del objetivo del estudio y de experiencias previas. Así, aunque la práctica habitual es eliminar del modelo aquellas variables que no resultan significativas, puede ser recomendable mantenerlas en caso de que en experiencias previas se haya constatado una relación con la variable dependiente. La mayoría de paquetes estadísticos proporcionan una variedad de técnicas para identificar el mejor conjunto de variables regresoras que introducen o eliminan sucesivamente variables atendiendo a su significación en el modelo (hacia delante, hacia atrás, pasos sucesivos). Existen otras alternativas basadas en la comparación de todos los modelos posibles que se pueden formar con un conjunto inicial de variables. Todas estas técnicas deben considerarse meramente orientativas. Así, identificado el mejor conjunto de variables y ajustado el modelo es conveniente realizar un análisis de residuos exhaustivo para valorar la posibilidad de elegir un modelo distinto a pesar de que tenga un valor menor de R2. INTERACCIÓN, CONFUSIÓN Y COLINEALIDAD. Cuando se introduce más de una variable en el modelo de regresión es necesario contrastar además la independencia de los efectos de todas ellas. Es decir, se supone que la asociación de cada variable con la respuesta no depende del valor que tomen el resto en la ecuación de regresión. En otro caso se dirá que existe interacción. Antes de aprobar el modelo definitivo, por lo tanto, se debe explorar la necesidad de incluir términos de interacción calculados a partir del producto de pares de variables, comprobando si mejora la predicción, siendo aconsejable investigar solamente aquellas interacciones que puedan tener una explicación clínica. http://www.fisterra.com/mbe/investiga/regre_lineal_multi/regre_lineal_multi.htm (6 of 8)22/04/2006 1:26:30 PM Técnicas de regresión: Regresión Lineal Múltiple En ocasiones el fenómeno de la interacción se hace coincidir erróneamente con los de confusión y correlación. Existe confusión cuando el efecto de una variable difiere significativamente según se considere o no en el modelo alguna otra. Ésta se asociará tanto con la variable inicial como con la respuesta, de modo que en casos extremos puede invertir el primer efecto observado. En ese caso las estimaciones adecuadas son aquellas que proporciona el modelo completo, y se dirán que están controladas o ajustadas por variables de confusión. Por otro lado, el fenómeno que se produce cuando dos variables explicativas muestran una correlación alta recibe el nombre de cuasi-colinealidad y puede producir estimaciones inestables de los coeficientes que se traducen en valores desorbitados de sus errores típicos y resultados poco creíbles. La mayoría de paquetes estadísticos muestran en sus salidas diagnósticos de colinealidad (tolerancia, factor de inflacción de la varianza, índice de condición) que pueden ayudarnos a solventar estos problemas. Por lo tanto, se ha de tener un cuidado especial en la etapa de construcción del modelo: un cambio significativo en las estimaciones tras la inclusión de una nueva variable puede evidenciar cualquiera de estos fenómenos. Nos corresponde a nosotros evaluar la conveniencia de incluirla o no en el modelo. Figura 2. Correlación lineal de la edad, colesterol e índice de masa corporal con la tensión arterial diastólica. Bibliografía 1.- Snedecor G.W., Cochran W.G. Statistical Methods. 8th ed. Iowa State University Press; 1989. 2.- Seber GAF. Linear Regression Analysis. New York: John Wiley & Sons; 1977. 3.- Etxebarría Murgiondo, J. Regresión Múltiple. Madrid: La Muralla; 1999. 4.- Altman DA. Practical statistics for medical research. 1th ed., repr. 1997. London: Chapman http://www.fisterra.com/mbe/investiga/regre_lineal_multi/regre_lineal_multi.htm (7 of 8)22/04/2006 1:26:30 PM Técnicas de regresión: Regresión Lineal Múltiple & Hall; 1997. 5.- Carrasco J.L., Hernán M.A. Estadística Multivariante en las Ciencias de la Salud. Madrid: Ed. Ciencia 3; 1993. 6.- Kleinbaum D.G., Kupper L.L. Applied Regression Analysis and other Multivariable Methods. 3rd. ed. Massachusetts: Duxbury Press; 1997. Arriba | Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/regre_lineal_multi/regre_lineal_multi.htm (8 of 8)22/04/2006 1:26:30 PM Análisis de supervivencia Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 24/09/01 Análisis de supervivencia Pita Fernández, S. [ Correo de contacto ] Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario-Universitario Juan Canalejo. A Coruña (España) CAD ATEN PRIMARIA 1995; 2: 130-135. Introducción Los datos proporcionados por los estudios clínicos se expresan en múltiples ocasiones en términos de supervivencia. Esta medida no queda limitada a los términos de vida o muerte, sino a situaciones en la que se mide el tiempo que transcurre hasta que sucede un evento de interés, como puede ser tiempo de recurrencia, tiempo que dura la eficacia de una intervención, tiempo de un aprendizaje determinado, etc. Por tanto, la supervivencia es una medida de tiempo a una respuesta, fallo, muerte, recaída o desarrollo de una determinada enfermedad o evento. El término supervivencia se debe a que en las primeras aplicaciones de este método de análisis se utilizaba como evento la muerte de un paciente. En las enfermedades crónicas, tales como el cáncer, la supervivencia se mide como una probabilidad de permanecer vivo durante una determinada cantidad de tiempo. La supervivencia al año o a los 5 años son a menudo expresadas como indicadores de la severidad de una enfermedad y como pronóstico. Típicamente, el pronóstico del cáncer se valora determinando el porcentaje de pacientes que sobrevive al menos cinco años después del diagnóstico. Son muchos los textos que se pueden consultar acerca de la metodología estadística a emplear en estudios de supervivencia . Los objetivos de este trabajo son: familiarizarse con los conceptos y terminología básica del análisis de supervivencia, conocer cómo estimar la proporción acumulada de supervivencia, así como los tests estadísticos a emplear para comparar dos curvas de supervivencia. Conceptos básicos La observación de cada paciente se inicia al diagnóstico (tiempo = 0) y continua hasta la muerte o hasta que el tiempo de seguimiento se interrumpe. Cuando el tiempo de seguimiento termina antes de producirse la muerte o antes de completar el período de observación se habla de paciente “censurado” (Figuras 1 y 2). El periodo de seguimiento puede terminar por las siguientes razones: a. El paciente decide no participar más en el estudio y lo abandona. 1-4 Contenido Introducción Conceptos básicos Limitaciones e imprecisiones de los datos. Tipos de observaciones Metodología estadística Método de Kaplan-Meier - Ejemplo 1 - Ejemplo 2 Método actuarial - Ejemplo 3 Comparación de dos curvas de supervivencia Bibliografía Documento en PDF (85 Kb) ¿Problemas con PDF? Tablas y Figuras Tabla 1. Método para calcular la curva de supervivencia de KaplanMeier. Ejemplo1. Tabla 2. Método para calcular la curva de supervivencia de KaplanMeier. Ejemplo 2. http://www.fisterra.com/mbe/investiga/supervivencia/supervivencia.htm (1 of 15)22/04/2006 1:26:40 PM Análisis de supervivencia b. El paciente se pierde y no tenemos información. c. El estudio termina antes de aparecer el evento. Cuando los tiempos de supervivencia no se conocen con exactitud, los datos se consideran censurados. No se conoce el tiempo hasta el suceso de interés (muerte, recaída) porque los individuos en el estudio pueden haberse perdido o retirado, o el suceso puede no haber ocurrido durante el período de estudio. El seguimiento viene definido por una fecha de inicio y una fecha de cierre que determinan el tiempo de seguimiento. Las fechas de inicio y cierre son diferentes para cada individuo, pues los pacientes o personas incluidas en el estudio se incorporan en momentos diferentes. En las observaciones incompletas (censuradas) el evento de interés no se ha producido, ya sea porque el estudio se finalizó antes de la aparición del evento, el paciente decide abandonar y no participar en el estudio, perdemos al paciente por cambio en el lugar de residencia, muerte no relacionada con la investigación, etc. El tiempo de supervivencia se define como el tiempo transcurrido desde el acontecimiento o estado inicial hasta el estado final. El estado inicial debe ser definido de manera que la fecha en que se produjo el evento pueda ser conocida exactamente (fecha de diagnóstico, fecha de la intervención quirúrgica, fecha de inicio de la radioterapia o quimioterapia, etc.). Como previamente se señaló las fechas correspondientes al estado inicial son diferentes para cada sujeto. Tabla 3. Método actuarial para calcular la función de supervivencia. Ejemplo 3. Tabla 4. Test de log-rank para comparar la probabilidad de supervivencia entre grupos. Ejemplo 2. Figura 1. Esquema general de un estudio de supervivencia Figura 2. Seguimiento de pacientes con distinta fecha de entrada Figura 3. Curvas de KaplanMeier. Ejemplo 1. Figura 4. Curvas de KaplanMeier. Ejemplo 2. El acontecimiento o suceso estudiado también debe estar perfectamente definido para poder determinar exactamente la fecha del mismo. Este evento está casi siempre asociado a la muerte del paciente pero no tiene por que ser así, ya que puede hacer referencia también a la fecha de alta, la fecha de remisión de la enfermedad, la fecha de recidiva, la fecha de recaída o fallo, etc. En caso de estudiar la supervivencia, el evento considerado no es que se produzca o no la muerte, sino la muerte relacionada con la enfermedad. Si consideramos una muerte no relacionada con la enfermedad introduciremos un sesgo de información. El paciente fallecido por una causa que no está vinculada al evento de interés debe ser considerado como censurado y computar su tiempo de seguimiento como incompleto o perdido. En la última observación se deben registrar dos variables fundamentales, la primera es el estado del sujeto y la segunda es la fecha de la información de dicho estado. El período de tiempo transcurrido entre la fecha de entrada y la fecha de la última observación o contacto se conoce como tiempo de participación en el estudio. Si el paciente ha fallecido podremos con la fecha de defunción calcular el tiempo de supervivencia. Si el paciente está vivo a la fecha de la última observación se podrá calcular el tiempo incompleto o censurado aportado por dicho paciente. Los factores que modifican la supervivencia de un paciente pueden ser variables fijas en http://www.fisterra.com/mbe/investiga/supervivencia/supervivencia.htm (2 of 15)22/04/2006 1:26:40 PM Análisis de supervivencia el tiempo como el sexo, factores genéticos... o variables que se modifican en el tiempo como la intensidad de exposición a una dieta, los cigarrillos/día, las intervenciones o tratamientos, la recurrencia, etc. Los requisitos necesarios para disponer de datos adecuados para un análisis de supervivencia son: a. Definir apropiadamente el origen o inicio del seguimiento. b. Definir apropiadamente la escala del tiempo. c. Definir apropiadamente el evento. Limitaciones e imprecisiones de los datos Los datos de nuestro estudio pueden estar sesgados por las censuras o los truncamientos. q q Génesis de censuras: Pérdidas de seguimiento o fin del estudio. Génesis de truncamientos: Entrada en el estudio después del hecho que define el origen. Censuras: q q No se observan los eventos en todos los individuos (abandonos, pérdidas). No se espera lo suficiente... a que aparezca el evento. Truncamientos: No se observa la ocurrencia de origen en todos los individuos. Se tendría que haber empezado con anterioridad ya que la enfermedad habría empezado antes. Tipos de observaciones: La combinación de las observaciones previamente indicadas nos llevaría a poder tener en nuestros datos observaciones de diferentes tipos: a. No truncada, no censurada: El proceso se inicia en I pero el evento ocurre en t b. No truncada, censurada: El proceso se inicia en I pero el evento no se presenta durante el seguimiento realizado. http://www.fisterra.com/mbe/investiga/supervivencia/supervivencia.htm (3 of 15)22/04/2006 1:26:40 PM Análisis de supervivencia c. Truncada, no censurada: Ya se tenía el proceso antes de entrar en el estudio (el diagnóstico o fecha de inicio está atrasada) y el evento se produce en t. d. Truncada, censurada: Ya se tenía el proceso antes de entrar en el estudio, como en la situación anterior pero el evento no se presenta durante el seguimiento realizado. En el análisis de la supervivencia asumimos un supuesto básico: los mecanismos del evento y censura son estadísticamente independientes, o el sujeto censurado en C es representativo de los que sobreviven en C. Es decir, los no censurados representan bien a los censurados. Metodología estadística El análisis de datos para estudios de supervivencia requiere métodos de análisis específicos por dos razones fundamentales: a. Los investigadores muy frecuentemente analizan los datos antes de que todos los pacientes hayan muerto, ya que si no habría que esperar muchos años para realizar dichos estudios. Los datos aportados por los pacientes vivos, como se señaló previamente, son observaciones “censuradas” y deben considerarse como tales a la hora de analizarlas. b. La segunda razón por la que se necesitan métodos especiales de análisis es porque típicamente los pacientes no inician el tratamiento o entran al estudio al mismo tiempo. En la metodología estadística básica se señalaba la existencia de pruebas paramétricas y no paramétricas. En el análisis de supervivencia, el análisis de los datos puede ser realizado utilizando técnicas paramétricas y no paramétricas. q q Paramétricas: (las más frecuentes) r Distribución Exponencial. r Distribución de Weibull. r Distribución Lognormal. No paramétricas: r Kaplan-Meier. r Logrank. r Regresión de Cox. http://www.fisterra.com/mbe/investiga/supervivencia/supervivencia.htm (4 of 15)22/04/2006 1:26:40 PM Análisis de supervivencia Los métodos estadísticos más utilizados son los no paramétricos. Así, las curvas de supervivencia por lo general se producen usando uno de dos métodos: el análisis actuarial o el método del límite de producto de Kaplan-Meier . El método Kaplan-Meier calcula la supervivencia cada vez que un paciente muere. El análisis actuarial divide el tiempo en intervalos y calcula la supervivencia en cada intervalo. El procedimiento Kaplan-Meier da proporciones exactas de supervivencia debido a que utiliza tiempos de supervivencia precisos; el análisis actuarial da aproximaciones, debido a que agrupa los tiempos de supervivencia en intervalos. Antes de que se extendiera el uso de ordenadores, el método actuarial era más fácil de usar para un número muy grande de observaciones. El método actuarial implica dos premisas en los datos: la primera es que todos los abandonos durante un intervalo dado ocurren aleatoriamente durante dicho intervalo. Esta premisa es de escasa importancia cuando se analizan intervalos de tiempo cortos, sin embargo, puede haber un sesgo importante cuando los intervalos son grandes, si hay numerosos abandonos o si los abandonos no ocurren a mitad del intervalo. El método Kaplan-Meier supera estos problemas. La segunda premisa es que aunque la supervivencia en un tiempo dado depende de la supervivencia en todos los períodos previos, la probabilidad de la misma en un período de tiempo es independiente de la probabilidad de supervivencia en los demás períodos. El método de Kaplan-Meier se utiliza cuando la muestra es menor de 30 y también para muestras mayores de 30 y se conocen los tiempos individuales de los censurados y no censurados. Método de Kaplan-Meier Conocido también como del “limite del producto”. La característica distintiva del análisis con este método es que la proporción acumulada que sobrevive se calcula para el tiempo de supervivencia individual de cada paciente y no se agrupan los tiempos de supervivencia en intervalos. Por esta razón es especialmente útil para estudios que utilizan un número pequeño de pacientes. El método de Kaplan-Meier incorpora la idea del tiempo al que ocurren los eventos . La validez de este método descansa en dos suposiciones: 1. Las personas que se retiran del estudio tienen un destino parecido a las que quedan. 2. El período de tiempo durante el cual una persona entra en el estudio no tiene efecto independiente en la respuesta. Ejemplo 1 El ejemplo se basa en datos publicados por Pratt, et al . Se recogieron los intervalos libres de enfermedad (tiempos de remisión) de 20 pacientes con osteosarcoma, a los que http://www.fisterra.com/mbe/investiga/supervivencia/supervivencia.htm (5 of 15)22/04/2006 1:26:40 PM 5 5 6 Análisis de supervivencia se trataba con 3 meses de quimioterapia después de amputación. q q q 11 pacientes recayeron a los 6, 8, 10, 11, 12, 13, 13, 22, 32, 34, 36 meses. 8 pacientes se retiraron vivos al final del estudio contribuyendo 3, 7, 7, 11, 14, 16, 20, 20 meses de observación, sin haber sufrido recaídas. Un paciente rehusó continuar la terapia a los 11 meses y se retiró del estudio libre de enfermedad. Con estos datos se construye la Tabla 1 para calcular la proporción acumulativa que sobreviven hasta el tiempo t, o tasa de supervivencia acumulativa, de la siguiente forma: Columna 1: Se hace una lista con todos los tiempos de supervivencia, censurada o no censurada, en orden de menor a mayor. Se coloca un signo positivo al lado de cada observación censurada. Para observaciones censuradas y no censuradas que tienen el mismo tiempo de supervivencia, se debe colocar la observación no censurada primero. Columna 2: Una vez ordenados de menor a mayor los datos, en esta columna se numeran las observaciones. Columna 3: Colocar el número de orden (rango) de las observaciones no censuradas (eventos, en este ejemplo recaídas). Columna 4: Calcular la proporción de pacientes que sobrevive a cada intervalo. donde n es el tamaño de la muestra y r el rango no censurado. Esta columna calcula la probabilidad de supervivencia para cada tiempo. Columna 5: Calcular el estimador de la proporción acumulativa que sobrevive. Se realiza multiplicando los valores de la columna anterior (0,95 · 0,94 = 0,89). De este modo, la probabilidad de vivir un cierto período de tiempo (hasta el instante t) desde el principio del estudio, es el producto de la probabilidad acumulada de sobrevivir hasta el período del tiempo anterior a t, (t-1), multiplicado por la probabilidad de sobrevivir durante el intervalo (t-1; t). La probabilidad de supervivencia puede representarse gráficamente como se muestra en la Figura 3. http://www.fisterra.com/mbe/investiga/supervivencia/supervivencia.htm (6 of 15)22/04/2006 1:26:40 PM Análisis de supervivencia Ejemplo 2 Supongamos ahora que disponemos de los datos de supervivencia de 10 pacientes que han sido aleatoriamente asignados a los tratamientos A y B (datos hipotéticos). Tratamiento: A. 3, 5, 7, 9+, 18 B. 12, 19, 20, 20+, 33+ “9+” indica dato censurado y, por tanto, no ha presentado el evento (en este caso morir de cáncer), como tampoco lo han presentado las observaciones 20+ y 33+. Con estos datos se construye la Tabla 2 para calcular la proporción acumulativa que sobreviven hasta el tiempo t, o tasa de supervivencia acumulativa, de la misma forma que se indicó en el ejemplo previo. Una vez calculada la probabilidad de supervivencia, ésta puede representarse gráficamente (Figura 4). Si la última observación es censurada, el estimador no llega a cero, como se ve en la Figura 4 en el caso del tratamiento B. Los peldaños de la escalera que desciende se deben a los tiempos no censurados. Método actuarial Con el método actuarial, los tiempos de supervivencia se agrupan en intervalos. La longitud del intervalo depende de la frecuencia con que ocurre el suceso de interés. Los intervalos no necesitan ser de la misma longitud. El método de la tabla vital o análisis actuarial se conoce en la bibliografía médica como el método de Cutler-Ederer . Este método asume: 1. Las retiradas y las pérdidas se distribuyen homogéneamente en el intervalo. Por tanto, el número de personas a riesgo en un intervalo es igual al número de personas que entra menos la mitad del número que se pierde o retira del intervalo. 2. Las personas que se retiran del estudio tienen un destino parecido a las que se quedan. 3. El período de tiempo durante el cual una persona entra en el estudio no tiene efecto independiente en la respuesta. Ejemplo 3 Se utilizan para este ejemplo los datos de la Tabla 3 . Para ello, los cálculos se realizan como sigue: Columna 1: Intervalos de tiempo desde el inicio del estudio. La amplitud http://www.fisterra.com/mbe/investiga/supervivencia/supervivencia.htm (7 of 15)22/04/2006 1:26:41 PM 7 7 Análisis de supervivencia de los intervalos puede ser variable. Columna 2: Número de individuos en cada intervalo. Es el número que entra en cada intervalo. El número que entra en el primer intervalo es el número total que entra en el estudio. El número que entra en otros intervalos es el número que estaba presente al principio del intervalo previo menos aquéllos que se perdieron, retiraron o murieron (recayeron) en el intervalo anterior. Columna 3: Número de muertos o eventos en cada intervalo. Columna 4: Número de pacientes perdidos en el seguimiento o abandonos vivos. Columna 5: Proporción condicional de recaer durante el intervalo. Este estimador de la probabilidad condicional de recaída durante cualquier intervalo dada la exposición al riesgo de recaer se calcula como: donde q q q d = muertes o eventos durante el intervalo. n = vivos al inicio del intervalo. w = abandono vivo o pérdida de seguimiento. Columna 6: Proporción condicional que sobrevive libre de enfermedad: la proporción condicional que sobrevive durante el intervalo es igual a 1proporción condicional de recaer durante el intervalo (1-columna 5). Columna 7: Proporción acumulativa que sobrevive libre de enfermedad. Esta proporción es un estimador de la tasa de supervivencia acumulativa. Es igual a la proporción condicional que sobrevive libre de enfermedad durante los intervalos previos. El valor del primer intervalo es siempre de 1. Comparación de dos curvas de supervivencia Para comparar si las diferencias observadas en dos curvas de supervivencia pueden ser explicadas o no por el azar, debemos realizar un test estadístico. Si no hubiese observaciones censuradas la prueba no paramétrica de suma de rangos de Wilcoxon podría ser apropiada para comparar dos muestras independientes. Como la mayoría de las veces hay datos censurados debemos utilizar otras técnicas. La prueba de la t de Student para datos independientes comparando la supervivencia en uno y otro grupo tampoco es apropiada, pues los tiempos de supervivencia no presentan una distribución normal. http://www.fisterra.com/mbe/investiga/supervivencia/supervivencia.htm (8 of 15)22/04/2006 1:26:41 PM Análisis de supervivencia Hay diversas pruebas para comparar distribuciones de supervivencia. Aquí señalaremos la prueba de logaritmo del rango (“logrank”). Para realizar esta prueba, existen a su vez diversos métodos. Esta prueba compara en esencia el número de eventos (muertes, fracasos) en cada grupo con el número de fracasos que podría esperarse de las pérdidas en los grupos combinados. Se emplea la prueba del chi-cuadrado para analizar las pérdidas observadas y esperadas. Para el cálculo se disponen los datos de tal forma que se objetive en cada grupo y en cada mes (años, etc.) los pacientes en riesgo y los eventos presentados. Si utilizamos los datos del Ejemplo 2 para la estimación de Kaplan-Meier previamente señalado, podremos construir la Tabla 4. El número esperado de pérdidas para un grupo se calcula multiplicando el número total de pérdidas en un período dado por la proporción de pacientes en ese grupo. Así por ejemplo, en el mes 7 hay una pérdida; de modo que se espera ocurran en el grupo A y grupo B. es el número de pérdidas que es el número de pérdidas que se espera para el En la primera columna se ponen los meses en los que se objetivaron eventos (muertes). Se trata por lo tanto de tiempos no censurados. En la 2ª y 3ª columna debe colocarse el nº de pacientes en cada grupo que estuvieron a riesgo hasta la presencia del evento. En la columna 4ª se pone el número total de pacientes. En las columnas 5 a 7 se ponen los pacientes que tuvieron el evento en ese tiempo y el total. Se calculan los totales para pérdidas observadas y esperadas y el test siguiente puede utilizarse para probar la hipótesis nula de que las distribuciones de supervivencia son iguales en los dos grupos. donde: es el número total pérdidas observadas en el grupo 1. es el número total de pérdidas esperadas en el grupo 1. q q http://www.fisterra.com/mbe/investiga/supervivencia/supervivencia.htm (9 of 15)22/04/2006 1:26:41 PM Análisis de supervivencia q es el número total de pérdidas observadas en el grupo 2. es el número total de pérdidas observadas en el grupo 2. q El test sigue una distribución chi cuadrado con un grado de libertad. Consultando las tablas de una distribución con un grado de libertad se concluye que la diferencia es significativa. Por lo tanto, se concluye que hay diferencia entre ambas curvas de supervivencia. Los datos generados permiten a su vez realizar una estimación del riesgo (OR). Así, los pacientes con el tratamiento B sobreviven 4,21 veces más que los del tratamiento A. Bibliografía 1. Dawson-Saunders B, Trapp RG. Bioestadística Médica. Mexico: Editorial El Manual Moderno; 1993. 2. Breslow NE, Day NE. Statistical methods in cancer research. Vol. II. The design and analysis of cohort studies. Lyon: IARC Scientific Publications; 1987. 3. Collet D. Modelling survival data in medical research. London: Chapman & Hall; 1994. [Contenido] 4. Lee ET, Wang JW. Satistical Methods for suvirval data analysis. 3rd. ed. Belmont, CA: Lifetime learning Publications; 2003. [Contenido] 5. Kaplan EL, Meier P. Nonparametric estimation from incomplete observations. J Am Stat Assoc 1958; 53: 457-481. 6. Pratt C, Shanks E, Hustu O, Rivera G, Smith J, Kumar AP. Adjuvant multiple drug chemotherapy for osteosarcoma of the extremity. Cancer 1977;39(1):51-57. [Medline] 7. Cutler SJ, Ederer F. Maximum utilization of the life table method in analyzing survival. J Chronic Dis 1958; 8: 699-712. Figura 1. Esquema general de un estudio de supervivencia. http://www.fisterra.com/mbe/investiga/supervivencia/supervivencia.htm (10 of 15)22/04/2006 1:26:41 PM Análisis de supervivencia Figura 2. Seguimiento de pacientes con distinta fecha de entrada. http://www.fisterra.com/mbe/investiga/supervivencia/supervivencia.htm (11 of 15)22/04/2006 1:26:41 PM Análisis de supervivencia Tabla 1. Método para calcular la curva de supervivencia de Kaplan-Meier. Columna 2 Nº de orden 1 2 3 4 5 6 7 8 9 10 11 12 13 Columna 3 Orden de las observaciones no censuradas (r) -2 --5 6 7 --10 11 12 --18/19 = 0,95 --15/16 = 0,94 14/15 = 0,93 13/14 = 0,93 --10/11 = 0,91 9/10 = 0,90 8/9 = 0,89 --0,95 --0,89 0,83 0,77 --0,70 0,63 0,56* -Columna 4 Columna 5 Columna 1 Tiempo de supervivencia en meses 3+ 6 7+ 7+ 8 10 11 11+ 11+ 12 13 13 14+ http://www.fisterra.com/mbe/investiga/supervivencia/supervivencia.htm (12 of 15)22/04/2006 1:26:41 PM Análisis de supervivencia 16+ 20+ 20+ 22 32 34 36 * 14 15 16 17 18 19 20 ---17 18 19 20 ---3 / 4 = 0,75 2/3 = 0,67 1 / 2 = 0,50 0 ---0,42 0,28 0,14 0,0 Cuando hay un tiempo de supervivencia (13 meses) con valores de supervivencia diferentes se utilizará como estimador el valor más bajo (0,56). Figura 3. Curvas de Kaplan-Meier. Ejemplo 1. Tabla 2. Método para calcular la curva de supervivencia de Kaplan-Meier. Ejemplo 2. Columna 1 Tiempo de supervivencia en meses Columna 2 Nº de orden Columna 3 Orden de las observaciones no censuradas (r) Tratamiento A Columna 4 Columna 5 http://www.fisterra.com/mbe/investiga/supervivencia/supervivencia.htm (13 of 15)22/04/2006 1:26:41 PM Análisis de supervivencia 3 5 7 9+ 18 12 19 20 20+ 30+ 1 2 3 4 5 1 2 3 4 5 1 3 3 -5 Tratamiento B 1 2 3 --- 4/5=0,80 3/4=0,75 2/3=0,67 -0 4/5=0,80 3/4=0,75 2/3=0,67 --- 0,8 0,6 0,4 -0,0 0,80 0,60 0,40 --- Figura 4. Curvas de Kaplan-Meier. Ejemplo 2. Tabla 3. Método actuarial para calcular la función de supervivencia. Ejemplo 3. Columna 1 Columna 2 Columna 3 Columna 4 http://www.fisterra.com/mbe/investiga/supervivencia/supervivencia.htm (14 of 15)22/04/2006 1:26:41 PM Análisis de supervivencia Intervalos de tiempo 0-5 5-10 10-15 15-20 Vivos al inicio del intervalo 949 200 132 43 Columna 5 Probabilidad de muerte o del evento q = d / (n-[w/2]) Muertes o eventos durante el intervalo (d) 731 52 14 10 Columna 6 Probabilidad de estar libre del evento pi = 1 - q 0,23 0,73 0,85 0,62 Abandono vivo o pérdida de seguimiento (w) 18 16 75 33 Columna 6 Probabilidad acumulada de supervivencia s = pi · p -1 i 0,23 0,17 = 0,23 · 0,73 0,14 = 0,17 · 0,85 0,09 = 0,14 · 0,62 0-5 5-10 10-15 15-20 731 / (949-[18/2]) = 0,77 52 / (200-[16/2]) = 0,27 14 / (132-[75/2]) ) = 0,15 10 / (43-[33/2]) = 0,38 Tabla 4. Test de log-rank para comparar la probabilidad de supervivencia entre grupos. Ejemplo 2. Mes del evento 3 5 7 12 18 19 20 Pacientes en riesgo Tratamiento A 5 4 3 1 1 0 0 B 5 5 5 5 4 4 3 Total 10 9 8 6 5 4 3 Pérdidas observadas Tratamiento A 1 1 1 0 1 0 0 4 B 0 0 0 1 0 1 1 3 Total 1 1 1 1 1 1 1 7 Pérdidas esperadas Tratamiento A 0,50 0,44 0,38 0,16 0,20 0,0 0,0 1,68 B 0,50 0,56 0,62 0,83 0,8 1,0 1,0 5,31 Total 1 1 1 1 1 1 1 7 Arriba | Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/supervivencia/supervivencia.htm (15 of 15)22/04/2006 1:26:41 PM Medidas de concordancia: el índice Kappa Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 24/09/01 Medidas de concordancia: el índice Kappa López de Ullibarri Galparsoro I, Pita Fernández, S. [ Correo de contacto ] Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña (España) CAD ATEN PRIMARIA 1999; 6: 169-171. En cualquier estudio de investigación una cuestión clave es la fiabilidad de los procedimientos de medida empleados. Como señala Fleiss en el contexto de los estudios clínicos, ni el más elegante de los diseños sería capaz de paliar el daño causado por un sistema de medida poco fiable. Tradicionalmente se ha reconocido una fuente importante de error de medida en la variabilidad entre observadores ( , ). Consecuentemente, un objetivo de los estudios de fiabilidad debe consistir en estimar el grado de dicha variabilidad. En este sentido, dos aspectos distintos entran a formar parte típicamente del estudio de fiabilidad: de una parte, el sesgo entre observadores –dicho con menos rigor, la tendencia de un observador a dar consistentemente valores mayores que otro– y de otra, la concordancia entre observadores –es decir, hasta qué punto los observadores coinciden en su medición–. Ciñéndonos a este segundo aspecto, la manera concreta de abordar el problema depende estrechamente de la naturaleza de los datos: si éstos son de tipo continuo es habitual la utilización de estimadores del coeficiente de correlación intraclase, mientras que cuando se trata de datos de tipo categórico el estadístico más empleado es el índice kappa, al que dedicamos el resto de este artículo. El índice kappa Supongamos que dos observadores distintos clasifican independientemente una muestra de n ítems en un mismo conjunto de C categorías nominales. El resultado de esta clasificación se puede resumir en una tabla como la tabla 1, en la que cada valor xij representa el número de ítems que han sido clasificados por el observador 1 en la categoría i y por el observador 2 en la categoría j. Tabla 1. Formato de los datos en un estudio de concordancia Observador 2 Observador 1 1 2 · · · C Total 1 X11 X21 · · · XC1 X.1 XC2 X.2 … … 2 X12 X22 … … … C X1C X2C · · · XCC X .C Contenido El índice Kappa Valoración del índice Kappa Contrastes de hipótesis e intervalos de confianza Bibliografía (1) 12 Documento en PDF (86Kb) ¿Problemas con PDF? Cálculos online Calculadora del Índice Kappa Total X1 X2 · · · XC n Por ejemplo, podemos pensar en dos radiólogos enfrentados a la tarea de categorizar una muestra de radiografías mediante la escala: "anormal, "dudosa", "normal". La tabla 2 muestra un conjunto de datos hipotéticos para este ejemplo, dispuesto de acuerdo con el esquema de la tabla 1. http://www.fisterra.com/mbe/investiga/kappa/kappa.htm (1 of 6)22/04/2006 1:28:02 PM Medidas de concordancia: el índice Kappa Tabla 2. Datos hipotéticos de clasificación de una muestra de 100 radiografías por dos radiólogos. Radiólogo 2 Anormal 18 1 2 21 Dudosa 4 10 4 18 Normal 3 5 53 61 Total 25 16 59 100 Radiólogo 1 Anormal Dudosa Normal Total Desde un punto de vista típicamente estadístico es más adecuado liberarnos de la muestra concreta (los n ítems que son clasificados por los dos observadores) y pensar en términos de la población de la que se supone que ha sido extraída dicha muestra. La consecuencia práctica de este cambio de marco es que debemos modificar el esquema de la tabla 1 para sustituir los valores xij de cada celda por las probabilidades conjuntas, que denotaremos por π ij (tabla 3). Tabla 3. Modificación del esquema de la Tabla 1 cuando se consideran las probabilidades de cada resultado Observador 2 Observador1 1 2 · · · C Marginal 1 π 11 π 12 · · · π C1 π .1 π C2 π .2 … … 2 π 12 π 22 … … … C π1 π 2C · · · π CC π .C Marginal π1 π2 · · · πc 1 Con el tipo de esquematización que hemos propuesto en las tablas 1 ó 3 es evidente que las respuestas que indican concordancia son las que se sitúan sobre la diagonal principal. En efecto, si un dato se sitúa sobre dicha diagonal, ello significa que ambos observadores han clasificado el ítem en la misma categoría del sistema de clasificación. De esta observación surge naturalmente la más simple de las medidas de concordancia que consideraremos: la suma de las probabilidades a lo largo de la diagonal principal. En símbolos, si denotamos dicha medida por π 0, será donde los índices del sumatorio van desde i = 1 hasta i = C. Como es obvio, se cumple que correspondiendo el valor 0 a la mínima concordancia posible y el 1 a la máxima. Aunque este sencillo índice ha sido propuesto en alguna ocasión ( ) como medida de concordancia de elección, su interpretación no está exenta de problemas. La tabla 4 ilustra el tipo de dificultades que pueden surgir. En el caso A, π 0 = 0.2, luego la concordancia es mucho menor que en el caso B, donde π 0 = 0.8. Sin embargo, condicionando por las distribuciones marginales se observa que en el caso A la concordancia es la máxima posible, mientras que en el B es la mínima. Tabla 4. Ejemplos de concordancia. A Observador 2 Observador 1 1 2 Marginal Observador 1 1 B Observador 2 2 Marginal 3 http://www.fisterra.com/mbe/investiga/kappa/kappa.htm (2 of 6)22/04/2006 1:28:02 PM Medidas de concordancia: el índice Kappa 1 2 Marginal 0.1 0 0.1 0.8 0.1 0.9 0.9 0.1 1 1 2 Marginal 0.8 0.1 0.9 0.1 0 0.1 0.9 0.1 1 Por lo tanto, parece claro que la búsqueda se debe orientar hacia nuevas medidas de concordancia que tengan en cuenta las distribuciones marginales, con el fin de distinguir entre dos aspectos distintos de la concordancia, a los que podríamos aludir informalmente como concordancia absoluta o relativa ( ). El índice kappa representa una aportación en esta dirección, básicamente mediante la incorporación en su fórmula de una corrección que excluye la concordancia debida exclusivamente al azar –corrección que, como veremos, está relacionada con las distribuciones marginales–. Con la notación ya empleada en la tabla 3, el índice kappa, κ , se define como 4 [1] donde los índices del sumatorio van desde i = 1 hasta i = C. Es instructivo analizar la expresión anterior. Observemos en primer lugar que si suponemos la independencia de las variables aleatorias que representan la clasificación de un mismo ítem por los dos observadores, entonces la probabilidad de que un ítem sea clasificado por los dos en la misma categoría i es π i. .i . Por lo tanto, si extendemos el sumatorio a todas las categorías, Σ π i. .i es precisamente la π π probabilidad de que los dos observadores concuerden por razones exclusivamente atribuibles al azar. En consecuencia, el valor de κ simplemente es la razón entre el exceso de concordancia observado más allá del atribuible al azar (Σ π ii - Σ π i. π .i ) y el máximo exceso posible (1 - Σ π i. π .i ) ( ). 5 La máxima concordancia posible corresponde a κ = 1. El valor κ = 0 se obtiene cuando la concordancia observada es precisamente la que se espera a causa exclusivamente del azar. Si la concordancia es mayor que la esperada simplemente a causa del azar, κ > 0, mientras que si es menor, κ < 0. El mínimo valor de κ depende de las distribuciones marginales. En el ejemplo de la tabla 4, κ vale 0.024 en el caso A y -0.0216 en el B, lo que sugiere una interpretación de la concordancia opuesta a la que sugiere el índice π 0 (vide supra). Para comprender resultados paradójicos como éstos ( ), conviene recordar los comentarios que hacíamos más arriba acerca de las limitaciones del índice π 0. A la hora de interpretar el valor de κ es útil disponer de una escala como la siguiente ( ), a pesar de su arbitrariedad: Valoración del Índice Kappa Valor de k < 0.20 0.21 – 0.40 0.41 – 0.60 0.61 – 0.80 0.81 – 1.00 Fuerza de la concordancia Pobre Débil Moderada Buena Muy buena 6 7 A partir de una muestra se puede obtener una estimación, k, del índice kappa simplemente reemplazando en la expresión [1] las probabilidades por las proporciones muestrales correspondientes: http://www.fisterra.com/mbe/investiga/kappa/kappa.htm (3 of 6)22/04/2006 1:28:02 PM Medidas de concordancia: el índice Kappa [2] Con los datos de la tabla 2 se obtiene aplicando esta fórmula un valor de k = 0.66, que según nuestra convención anterior calificaríamos como una buena concordancia. Contrastes de hipótesis e intervalos de confianza. La obtención de una simple estimación puntual del valor de κ no nos proporciona ninguna indicación de la precisión de dicha estimación. Desde el punto de vista de la Estadística Inferencial es esencial conocer la variabilidad de los estimadores y emplear ese conocimiento en la formulación de contrastes de hipótesis y en la construcción de intervalos de confianza. Fleiss, Cohen y Everitt ( ) dan la expresión de la varianza asintótica –es decir, para muestras infinitamente grandes– del estimador k, cuando el verdadero valor de κ es cero: 8 [3] Reemplazando las probabilidades teóricas, que desconocemos, por las proporciones muestrales, obtenemos un estimador de σ 02(k) que denotaremos por s02(k): [4] Podemos emplear este resultado para contrastar la hipótesis nula de que κ es cero frente a la alternativa de que no lo es, utilizando como estadístico del contraste el cociente [5] (|k| denota el valor absoluto de k) y comparando su valor con los cuantiles de la distribución normal estándar. Con los datos de la tabla 2, k = 0.6600 y s02(k)= 0.0738, luego |k|/ s0(k)= 8.9441 y como z 0.975 = 1.96, concluimos que, al nivel de significación α = 0.05, el valor de k es significativo y nos lleva a rechazar que κ sea cero. Es discutible la utilidad del contraste de hipótesis anterior, ya que como en general es razonable esperar cierto grado de concordancia más allá del azar, nos encontraremos trivialmente con un resultado significativo. Para poder realizar contrastes de hipótesis más interesantes es necesario conocer la expresión de la varianza asintótica cuando no se supone que κ es cero. La expresión es sensiblemente más compleja que la [3] ( ): 4 http://www.fisterra.com/mbe/investiga/kappa/kappa.htm (4 of 6)22/04/2006 1:28:02 PM Medidas de concordancia: el índice Kappa [6] donde: T1 = Σ π ii, T2 = Σ π i. π .i , π .i T3 = Σ π ii(π i. + ), )2. T4 = Σ Σ π ij(π j. + π .i Se puede demostrar que cuando κ es cero la expresión [6] se reduce a la [3]. Para contrastar la hipótesis nula de que κ es igual a un valor dado κ 0 frente a una alternativa bilateral, procedemos como en el caso κ = 0, sólo que empleando como estadístico del contraste: [7] donde s(k) ahora es la raíz cuadrada de s2(k), el estimador de σ 2(k) obtenido sustituyendo en [6] probabilidades por proporciones muestrales. Es obvio que el caso κ = 0 que explicábamos con anterioridad no es más que un caso particular de este contraste, con una mejor estimación del error estándar. Volviendo al ejemplo de la tabla 2, para contrastar la hipótesis de que el verdadero valor de κ es κ 0 = 0.7, como k = 0.6600 y s(k) = 0.0677, calculamos |k - κ 0|/s(k) = 0.5908 < z 0.975 = 1.96. Por tanto, al nivel de significación α = 0.05, no hay suficiente evidencia para rechazar la hipótesis nula. Desde el punto de vista inferencial, un enfoque más versátil que el del contraste de hipótesis consiste en dar intervalos de confianza para el verdadero valor de κ . Tomados simultáneamente, k y el intervalo de confianza nos dan, además de la mejor estimación de κ , una medida del error que podemos cometer con esa estimación. Un intervalo de confianza aproximado del (1-α )100%, construido por el método estándar, es de la forma: donde z 1- α /2 es el percentil de orden (1-α /2)100 de la distribución normal estándar. Con los datos de la tabla 2, nuestro intervalo de confianza del 95% para κ sería [0.5273 , 0.7927]. Se observa como los valores 0 y 0.7 que considerábamos en los contrastes anteriores, quedan respectivamente fuera y dentro del intervalo, un hecho que ilustra la equivalencia entre los dos enfoques: contraste de hipótesis y estimación por intervalos. Aunque el lector más interesado en los aspectos prácticos, aquél que se limita exclusivamente a usar un programa estadístico para analizar sus datos, quizás piense que todos estos detalles son algo prolijos, consideramos que son importantes para interpretar y explotar óptimamente los resultados que le brinda el programa. Por ejemplo, un programa ampliamente difundido como el SPSS, muestra solamente el valor de k (expresión [2]), su error estándar calculado a partir del estimador de [6], y el valor del estadístico [5]. Las explicaciones de este epígrafe muestran cómo utilizar estos valores para obtener intervalos de confianza y realizar otros contrastes de hipótesis. http://www.fisterra.com/mbe/investiga/kappa/kappa.htm (5 of 6)22/04/2006 1:28:02 PM Medidas de concordancia: el índice Kappa Bibliografía 1. Fleiss JL. The design and analysis of clinical experiments. New York: Wiley; 1986. 2. Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics 1977; 33: 159-174. [Medline] 3. Holley WJ, Guilford JP. A note on the G index of agreement. Educ Psychol Meas 1964; 32: 281288. 4. Bishop YMM, Fienberg SE, Holland PW. Discrete multivariate analysis: theory and practice. Cambridge, Massachussetts: MIT Press; 1977. 5. Fleiss JL. Statistical methods for rates and proportions, 2nd edition. New York: Wiley; 2000. 6. Feinstein AR, Cicchetti DV. High agreement but low kappa: I. The problems of two paradoxes. J Clin Epidemiol 1990; 43: 543-549. [Medline] 7. Altman DG. Practical statistics for medical research. New York: Chapman and Hall; 1991. 8. Fleiss JL, Cohen J, Everitt BS. Large sample standard errors of kappa and weighted kappa. Psychol Bull 1969; 72: 323-327. Arriba | Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/kappa/kappa.htm (6 of 6)22/04/2006 1:28:02 PM Pruebas diagnósticas: sensibilidad, especificidad, valor predictivo... Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 14/07/03 Pruebas diagnósticas Pita Fernández, S. [ Correo de contacto ], Pértegas Díaz, S. [ Correo de contacto ] Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario-Universitario Juan Canalejo. A Coruña (España) Cad Aten Primaria 2003; 10: 120-124. La medicina es una ciencia de probabilidades y un arte de manejar la incertidumbre. Dicha incertidumbre se extiende no sólo a las actividades preventivas, terapéuticas y pronósticas sino también a las diagnósticas. En las fases del proceso diagnóstico intervienen la historia clínica, la exploración física y la realización de pruebas complementarias . Cuando existen varias hipótesis diagnósticas, se realizará el diagnóstico diferencial y las pruebas complementarias tratarán de aclarar las dudas existentes. Si solamente hay una sospecha diagnóstica, las pruebas complementarias tratarán de confirmarla. La realización simultánea de varias pruebas complementarias se denomina pruebas complementarias en paralelo y la realización de pruebas complementarias según los resultados de otras previas, se denomina pruebas complementarias en serie. Al realizar pruebas en paralelo aumenta la probabilidad de diagnosticar a un enfermo, pero también aumenta la probabilidad de considerar como enfermo a un sano. El riesgo de la realización de pruebas en serie es no diagnosticar a algunos enfermos. En cambio, pocos sanos serán considerados como enfermos. Es evidente que una buena prueba diagnóstica es la que ofrece resultados positivos en enfermos y negativos en sanos. Por lo tanto, las condiciones que deben ser exigidas a un test son : q Contenido La validez de una prueba diagnóstica: - Sensibilidad - Especificidad - Ejemplo La seguridad de una prueba diagnóstica: - Valor predictivo positivo - Valor predictivo negativo La influencia de la prevalencia Razones de probabilidad: - Razón de verosimilitudes positiva o cociente de probabilidades positivo - Razón de verosimilitudes negativa o cociente de probabilidades negativo Bibliografía Tablas Tabla 1. Relación entre el resultado de una prueba diagnóstica y la presencia o ausencia de enfermedad Tabla 2. Resultados de la exploración y biopsia prostática de una muestra de pacientes con sospecha de cáncer de próstata Tabla 3. Resultados de la aplicación del test de VIH en una población de baja prevalencia Tabla 4. Resultados de la aplicación del test de VIH en una población de alta prevalencia 1-2 Documento en PDF (62 Kb) ¿Problemas con PDF? Cálculos (Excel) 3 q Validez: Es el grado en que un test mide lo que se supone que debe medir. ¿Con que frecuencia el resultado del test es confirmado por procedimientos diagnósticos más complejos y rigurosos? La sensibilidad y la especificidad de un test son medidas de su validez. Reproductividad: es la capacidad del test para ofrecer los mismos resultados cuando se repite su aplicación en circunstancias similares. La variabilidad biológica del hecho observado, la introducida por el propio observador y la derivada del propio test, determinan su reproductividad. Estudio de la capacidad predictiva de una prueba diagnóstica http://www.fisterra.com/mbe/investiga/pruebas_diagnosticas/pruebas_diagnosticas.htm (1 of 9)22/04/2006 1:28:26 PM Pruebas diagnósticas: sensibilidad, especificidad, valor predictivo... q Seguridad: La seguridad viene determinada por el valor predictivo de un resultado positivo o negativo. ¿Con que seguridad un test predecirá la presencia o ausencia de enfermedad? Ante un resultado positivo de un test ¿qué probabilidad existe de que este resultado indique presencia de la enfermedad? Veremos posteriormente que esta probabilidad está muy influenciada por la prevalencia de la patología. A su vez, es conveniente que el test sea sencillo de aplicar, aceptado por los pacientes o la población general, que tenga los mínimos efectos adversos y que económicamente sea soportable. En este trabajo se revisarán fundamentalmente los conceptos que determinan la validez de un test (sensibilidad y especificidad) y su seguridad (valores predictivos positivos y negativos). La validez de una prueba diagnóstica. Sensibilidad y especificidad. El caso más sencillo que se nos puede plantear es el de una prueba dicotómica, que clasifica a cada paciente como sano o enfermo en función de que el resultado de la prueba sea positivo o negativo. En casos como éste, generalmente un resultado positivo se asocia con la presencia de enfermedad y un resultado negativo con la ausencia de la misma. Cuando se estudia una muestra de pacientes, los datos obtenidos permiten clasificar a los sujetos en cuatro grupos según una tabla 2x2 como la que se muestra en la Tabla 1. En ella, se enfrenta el resultado de la prueba diagnóstica (en filas) con el estado real de los pacientes (en columnas) o, en su defecto, el resultado de la prueba de referencia o “gold standard” que vayamos a utilizar. El resultado de la prueba puede ser correcto (verdadero positivo y verdadero negativo) o incorrecto (falso positivo y falso negativo). El análisis de su validez puede obtenerse calculando los valores de sensibilidad y especificidad : Sensibilidad 4 Es la probabilidad de clasificar correctamente a un individuo enfermo, es decir, la probabilidad de que para un sujeto enfermo se obtenga en la prueba un resultado positivo. La sensibilidad es, por lo tanto, la capacidad del test para detectar la enfermedad. Cuando los datos obtenidos a partir de una muestra de pacientes se clasifican en una tabla como la que se muestra en la Tabla 1, es fácil estimar a partir de ella la sensibilidad como la proporción de pacientes enfermos que obtuvieron un resultado positivo en la prueba diagnóstica. Es decir: De ahí que también la sensibilidad se conozca como “fracción de verdaderos positivos (FVP)”. http://www.fisterra.com/mbe/investiga/pruebas_diagnosticas/pruebas_diagnosticas.htm (2 of 9)22/04/2006 1:28:26 PM Pruebas diagnósticas: sensibilidad, especificidad, valor predictivo... Especificidad Es la probabilidad de clasificar correctamente a un individuo sano, es decir, la probabilidad de que para un sujeto sano se obtenga un resultado negativo. En otras palabras, se puede definir la especificidad como la capacidad para detectar a los sanos. A partir de una tabla como la Tabla 1, la especificidad se estimaría como: De ahí que también sea denominada “fracción de verdaderos negativos (FVN)”. Ejemplo: Como ejemplo de lo visto hasta ahora, consideremos los datos de un estudio en el que se incluyó a 2.641 pacientes con sospecha de cáncer prostático que acudieron a una consulta de Urología durante un periodo de tiempo determinado. Durante su exploración, se recogió el resultado del tacto rectal realizado a cada uno de estos pacientes, según fuese éste normal o anormal, y se contrastó con el posterior diagnóstico obtenido de la biopsia prostática. Los datos del estudio y los resultados obtenidos se muestran en la Tabla 2. Se encontraron en total 1.121 casos de cáncer, lo cual representa un 42,45% del total de sujetos estudiados. La sensibilidad del tacto rectal para detectar cáncer fue de 56,56% (634/1121) y la especificidad de 82,3% (1251/1520). Así, el tacto fue anormal en un 56,56% de los casos de cáncer prostático y normal en un 82,3% de los casos que presentaron finalmente otras patologías. Esto significa que un 100-56,56=43,44% de los pacientes que efectivamente tenían cáncer presentaban tactos normales. Claramente ello indica la necesidad de utilizar otros marcadores más sensibles, como el PSA o sus derivados, para poder establecer el diagnóstico de forma más precisa. Resulta obvio que lo ideal sería trabajar con pruebas diagnósticas de alta sensibilidad y especificidad, pero esto no siempre es posible. En general, las pruebas de screening deben ser de alta sensibilidad para poder captar a todos los enfermos. Una prueba muy sensible será especialmente adecuada en aquellos casos en los que el no diagnosticar la enfermedad puede resultar fatal para los enfermos, como ocurre con enfermedades peligrosas pero tratables, como los linfomas o la tuberculosis, o en enfermedades en las que un falso positivo no produzca serios trastornos psicológicos o económicos para el paciente (por ejemplo, la realización de mamografía en el cáncer de mama). Por otra parte, la especificidad se refiere, como se señaló previamente, a la probabilidad de que un sujeto sano sea clasificado adecuadamente. En general, las pruebas confirmatorias del diagnóstico deben ser de alta especificidad, para evitar falsos positivos. Los tests de alta especificidad son necesarios en enfermedades graves pero sin tratamiento disponible que las haga curables, cuando exista gran interés por conocer la ausencia de enfermedad o cuando diagnosticar a un paciente de un mal que realmente no padece pueda acarrear graves consecuencias, ya sean físicas, psicológicas o económicas (por ejemplo, en el caso del SIDA). http://www.fisterra.com/mbe/investiga/pruebas_diagnosticas/pruebas_diagnosticas.htm (3 of 9)22/04/2006 1:28:26 PM Pruebas diagnósticas: sensibilidad, especificidad, valor predictivo... La seguridad de una prueba diagnóstica. Valores predictivos. Los conceptos de sensibilidad y especificidad permiten, por lo tanto, valorar la validez de una prueba diagnóstica. Sin embargo, carecen de utilidad en la práctica clínica. Tanto la sensibilidad como la especificidad proporcionan información acerca de la probabilidad de obtener un resultado concreto (positivo o negativo) en función de la verdadera condición del enfermo con respecto a la enfermedad. Sin embargo, cuando a un paciente se le realiza alguna prueba, el médico carece de información a priori acerca de su verdadero diagnóstico, y más bien la pregunta se plantea en sentido contrario: ante un resultado positivo (negativo) en la prueba, ¿cuál es la probabilidad de que el paciente esté realmente enfermo (sano)?. Así pues, resulta obvio que hasta el momento sólo hemos abordado el problema en una dirección. Por medio de los valores predictivos completaremos esta información : Valor predictivo positivo: 5 Es la probabilidad de padecer la enfermedad si se obtiene un resultado positivo en el test. El valor predictivo positivo puede estimarse, por tanto, a partir de la proporción de pacientes con un resultado positivo en la prueba que finalmente resultaron estar enfermos: Valor predictivo negativo: Es la probabilidad de que un sujeto con un resultado negativo en la prueba esté realmente sano. Se estima dividiendo el número de verdaderos negativos entre el total de pacientes con un resultado negativo en la prueba: Retomando el ejemplo anterior sobre cáncer prostático, el valor predictivo positivo es en este caso del 70,21% (634/903) y el valor predictivo negativo del 71,98% (1251/1738). Ello significa que en un 70,21% de los pacientes con un tacto anormal finalmente se confirmó la presencia de cáncer, mientras que de los que no se detectaron anomalías en el tacto un 71,98% estaban efectivamente sanos. La influencia de la prevalencia. Hemos visto cómo los valores de sensibilidad y especificidad, a pesar de definir completamente la validez de la prueba diagnóstica, presentan la desventaja de que no proporcionan información relevante a la hora de tomar una decisión clínica ante un determinado resultado de la prueba. Sin embargo, tienen la ventaja adicional de que son propiedades intrínsecas a la prueba diagnóstica, y definen su validez independientemente de cuál sea la prevalencia de la enfermedad en la población a la cual se aplica. http://www.fisterra.com/mbe/investiga/pruebas_diagnosticas/pruebas_diagnosticas.htm (4 of 9)22/04/2006 1:28:26 PM Pruebas diagnósticas: sensibilidad, especificidad, valor predictivo... Por el contrario, el concepto de valores predictivos, a pesar de ser de enorme utilidad a la hora de tomar decisiones clínicas y transmitir a los pacientes información sobre su diagnóstico, presenta la limitación de que dependen en gran medida de lo frecuente que sea la enfermedad a diagnosticar en la población objeto de estudio. Cuando la prevalencia de la enfermedad es baja, un resultado negativo permitirá descartar la enfermedad con mayor seguridad, siendo así el valor predictivo negativo mayor. Por el contrario, un resultado positivo no permitirá confirmar el diagnóstico, resultando en un bajo valor predictivo positivo. Ilustraremos lo anterior con un sencillo ejemplo. Para el diagnóstico del VIH se emplean tests que han confirmado tener una alta validez, con valores aproximados de sensibilidad y especificidad de un 99,5%. Supongamos que se aplicase esta prueba a la totalidad de la población gallega, que se cifra en 2.800.000 habitantes. Si asumimos que en Galicia existen 6.000 pacientes VIH positivos (lo cual implicaría una prevalencia de 6000/ 2.800.000 =0,21%), el test resultaría positivo en un total de 19.940 sujetos, obteniéndose un valor predictivo positivo del 29,9% (Tabla 3). Así pues, sólo un 29,9% de los sujetos con un resultado positivo en el test resultarían estar realmente afectados, mientras que un 70,1% de los mismos no presentarían la enfermedad. Resulta obvio que en una comunidad como la gallega la utilización de esta prueba no resultaría útil, debido a la alta proporción de falsos positivos que conllevaría. Veamos ahora que ocurriría si se aplicase la misma prueba a una población en la que el número de enfermos VIH+ fuese de 800.000 (resultando en una prevalencia mucho mayor de un 800.000/2.800.000=28,6%). En este caso, la predictividad de una prueba positiva aumenta de un 29,9% a un 98,7%, disminuyendo la proporción de falsos positivos a tan sólo un 1,3% (Tabla 4). Por lo tanto, si la prevalencia es alta, un resultado positivo tiende a confirmar la presencia de la enfermedad, mientras que si la prevalencia es baja, un resultado positivo no permitirá afirmar su existencia. Razones de probabilidad Queda claro pues cómo la prevalencia es un factor determinante en los valores predictivos de un test. Por lo tanto, éstos , no pueden ser utilizados como índices a la hora de comparar dos métodos diagnósticos diferentes, ni tampoco a la hora de extrapolar los resultados de otros estudios a datos propios. Por ello, resulta necesario determinar otros índices de valoración que sean a la vez clínicamente útiles y no dependan de la prevalencia de la enfermedad en la población a estudiar. Así, además de los conceptos de sensibilidad, especificidad y valores predicitivos, se suele hablar del concepto de razón de verosimilitudes, razón de probabilidad, o cociente de probabilidades . Estos miden cuánto más probable es un resultado concreto (positivo o negativo) según la presencia o ausencia de enfermedad: q 6 Razón de verosimilitudes positiva o cociente de probabilidades positivo: se calcula dividiendo la probabilidad de un resultado positivo en los pacientes enfermos entre la probabilidad de un resultado positivo entre los sanos. Es, en definitiva, el cociente entre la fracción de verdaderos positivos (sensibilidad) y la fracción de falsos positivos (1-especificidad): http://www.fisterra.com/mbe/investiga/pruebas_diagnosticas/pruebas_diagnosticas.htm (5 of 9)22/04/2006 1:28:26 PM Pruebas diagnósticas: sensibilidad, especificidad, valor predictivo... q Razón de verosimilitudes negativa o cociente de probabilidades negativo: se calcula dividiendo la probabilidad de un resultado negativo en presencia de enfermedad entre la probabilidad de un resultado negativo en ausencia de la misma. Se calcula por lo tanto, como el cociente entre la fracción de falsos negativos (1-sensibilidad) y la fracción de verdaderos negativos (especificidad): Volvamos de nuevo al ejemplo planteado en la Tabla 2 sobre el diagnóstico de cáncer prostático a partir del tacto rectal. En este caso, se obtiene un cociente de probabilidades positivo de 3,20. Ello viene a indicarnos que un tacto anormal es, por lo tanto, 3 veces más probable en un paciente con cáncer prostático que en otro sujeto sin cáncer. La razón de probabilidades ofrece la ventaja de que relaciona la sensibilidad y la especificidad de una prueba en un solo índice. Además, pueden obtenerse razones de probabilidad según varios niveles de una nueva medida y no es necesario expresar la información de forma dicotómica, como resultado de normal o anormal o bien positivo y negativo. Por último, al igual que sucede con la sensibilidad y la especificidad, no varía con la prevalencia. Esto permite utilizarlo como índice de comparación entre diferentes pruebas para un mismo diagnóstico. Hasta ahora hemos abordado el caso de una prueba con un resultado dicotómico (positivo o negativo), pero en muchas situaciones la confirmación de un diagnóstico debe hacerse a partir de un parámetro numérico, sobre todo cuando éste se realiza a partir de determinaciones analíticas. La generalización a estas situaciones se consigue mediante la elección de distintos valores de corte que permitan una clasificación dicotómica de los valores de la prueba según sean superiores o inferiores al valor elegido. La diferencia esencial con el caso más simple es que ahora contaremos no con un único par de valores de sensibilidad y especificidad que definan la exactitud de la prueba, sino más bien con un conjunto de pares correspondientes cada uno a un distinto nivel de decisión. La estrategia de análisis adecuada consistiría en representar gráficamente los pares (1especificidad, sensibilidad) obtenidos al considerar todos los posibles valores de corte de la prueba, obteniéndose así una curva llamada curva ROC. El área bajo dicha curva se convierte así en el mejor indicador de la capacidad predictiva del test, independiente de la prevalencia de la enfermedad en la población de referencia y en base al cual se podrán establecer comparaciones entre diferentes pruebas diagnósticas 7-10 . En definitiva, es sumamente importante el saber valorar la validez y seguridad de las diferentes pruebas diagnósticas con el fin de seleccionar la más adecuada en cada momento. La sensibilidad, la especificidad y los valores predictivos son los criterios tradicionalmente utilizados para valorar la capacidad predictiva de un test http://www.fisterra.com/mbe/investiga/pruebas_diagnosticas/pruebas_diagnosticas.htm (6 of 9)22/04/2006 1:28:26 PM 11,12 . Los Pruebas diagnósticas: sensibilidad, especificidad, valor predictivo... estudios de evaluación de tests diagnósticos son el instrumento adecuado para obtener esta información. No obstante, no debemos olvidar que existen determinados aspectos en el diseño de este tipo de investigaciones que pueden afectar a la precisión y a la validez de las estimaciones realizadas. Una vez más, el cálculo de intervalos de confianza puede ayudarnos a conocer la precisión de los índices calculados. La población de estudio, la estrategia de muestreo, la selección del criterio de referencia y la forma de aplicación de las pruebas diagnósticas serán algunos de los elementos a cuidar para evitar la presencia de sesgos 11,13,14 . Bibliografía 1. Sackett DL, Haynes RB, Guyatt GH, Tugwell P. Epidemiología clínica. Ciencia básica para la medicina clínica. 2ª ed. Madrid: Editorial médica panamericana; 1994. 2. Sandler G. The importance of the history in the medical clinic and the cost of unnecessary test. Am Heart J 1980; 100: 928. [Medline] 3. Morrison AS. Screnning in Chronic disease. Second edition. New York: Oxford University Press; 1992. 4. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 1: sensitivity and specificity.BMJ 1994; 308: 1552. [Medline] 5. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 2: predictive values. BMJ 1994; 309: 102. [Medline] 6. Dujardin B, Van der Ende J, Van Gompel A, Unger JP, Van der Stuyft P. Likelihood ratios: a real improvement for clinical decisión making? Eur J Epidemiol 1994; 10: 29-36. [Medline] 7. Burgueño MJ, García Bastos JL, González Buitrago JM. Las curvas ROC en la evaluación de las pruebas diagnósticas. Med Clin (Barc) 1995; 104: 661-670. [Medline] 8. Zweig MH, Campbell G. Receiver-operating characteristics (ROC) plots: a fundamental evaluation tool in clinical medicine. Clin Chem 1993; 39: 561-577. [Medline] 9. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 3: receiver operating characteristic plots. BMJ 1994; 309: 188. [Medline] 10. Lopez de Ullibarri Galparsoro I, Pita Fernández S. Curvas ROC. Cad Aten Primaria 1998; 5 (4): 229-235. 11. Argimon Pallás JM, Jiménez Villa J. Métodos de investigación clínica y epidemiológica. 2ª ed Barcelona: Harcourt; 2000. 12. Fletcher RH, Fletcher SW, Wagner EH. Clinical epidemiology: the essentials. 3ª ed. Baltimore: Williams and Wilkins; 1996. 13. Cabello López JB, Pozo Rodríguez F. Estudios de evaluación de las pruebas diagnósticas en cardiología. Rev Esp Cardiol 1997; 50: 507-519. [Medline] 14. Greenhalgh T. How to read a paper: papers that report diagnostic or screening tests. BMJ 1997; 315: 540-543. [Medline] [Texto completo] Tabla 1. Relación entre el resultado de una prueba diagnóstica y la presencia o ausencia de una enfermedad. Resultado de la prueba Verdadero diagnóstico http://www.fisterra.com/mbe/investiga/pruebas_diagnosticas/pruebas_diagnosticas.htm (7 of 9)22/04/2006 1:28:26 PM Pruebas diagnósticas: sensibilidad, especificidad, valor predictivo... Enfermo Positivo Negativo Verdaderos Positivos (VP) Falsos Negativos (FN) Sano Falsos Positivos (FP) Verdaderos Negativos (VN) Tabla 2. Resultados de la exploración y biopsia prostática de una muestra de pacientes con sospecha de cáncer de próstata. Resultado del tacto rectal Anormal Normal Total Resultado de la biopsia prostática Cáncer 634 487 1121 Patología benigna 269 1251 1520 Total 903 1738 2641 Tabla 3. Resultados de la aplicación del test de VIH en una población de baja prevalencia. Resultado del test Positivo Negativo Total Verdadero diagnóstico VIH+ 5.970 30 6.000 VIH13.970 2.780.030 2.794.000 Total 19.940 2.780.060 2.800.000 Tabla 4. Resultados de la aplicación del test de VIH en una población de alta prevalencia. Resultado del test Verdadero diagnóstico http://www.fisterra.com/mbe/investiga/pruebas_diagnosticas/pruebas_diagnosticas.htm (8 of 9)22/04/2006 1:28:26 PM Pruebas diagnósticas: sensibilidad, especificidad, valor predictivo... VIH+ Positivo Negativo Total 796.000 4.000 800.000 VIH10.000 1.990.000 2.000.000 Total 806.000 1.994.000 2.800.000 Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/pruebas_diagnosticas/pruebas_diagnosticas.htm (9 of 9)22/04/2006 1:28:26 PM Curvas ROC Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 25/09/01 Curvas ROC López de Ullibarri Galparsoro I, Píta Fernández, S. [ Correo de contacto ] Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña (España) CAD ATEN PRIMARIA 1998; 5 (4): 229-235. Evaluación de pruebas diagnósticas La toma de decisiones clínicas es un proceso extremadamente complejo en el que deberá finalmente ser valorada la utilidad para el manejo del paciente de cualquier prueba diagnóstica. En este contexto, es imprescindible conocer detalladamente la exactitud de las distintas pruebas diagnósticas, es decir, su capacidad para clasificar correctamente a los pacientes en categorías o estados en relación con la enfermedad (típicamente dos: estar o no estar enfermo, respuesta positiva o negativa a la terapia...). Sensibilidad y Especificidad Contenido Evaluación de pruebas diagnósticas - Sensibilidad y Especificidad La Curva ROC Métodos de cálculo de la curva ROC Análisis estadístico de las curvas ROC Bibliografía Generalmente, la exactitud diagnóstica se expresa como sensibilidad y especificidad diagnósticas. Cuando se utiliza una prueba dicotómica (una cuyos resultados se puedan interpretar directamente como positivos o negativos), la sensibilidad es la probabilidad de clasificar correctamente a un individuo cuyo estado real sea el definido como positivo respecto a la condición que estudia la prueba, razón por la que también es denominada fracción de verdaderos positivos (FVP). La especificidad es la probabilidad de clasificar correctamente a un individuo cuyo estado real sea el definido como negativo. Es igual al resultado de restar a uno la fracción de falsos positivos (FFP). Cuando los datos de una muestra de pacientes se clasifican en una tabla de contingencia por el resultado de la prueba y su estado respecto a la enfermedad, es fácil estimar a partir de ella la sensibilidad y la especificidad de la prueba (tabla 1). Conviene insistir –ya que esta distinción aparecerá repetidamente en lo sucesivo– en que lo que realmente obtenemos son estimaciones de los verdaderos valores de sensibilidad y especificidad para una población teórica de la que suponemos que nuestro grupo de pacientes constituye una muestra aleatoria. Por tanto, un tratamiento estadístico correcto de cantidades como las calculadas por el método descrito por la tabla 1 exigiría incluir medidas de su precisión como estimadores, y, mejor aún, utilizarlas para construir intervalos de confianza para los verdaderos valores de sensibilidad y especificidad. Tabla 1. Resultado de una prueba y su estado respecto a la enfermedad. Verdadero Diagnóstico Enfermo Sano Documento en PDF (103 Kb) ¿Problemas con PDF? Cálculos online GraphROC Specificity of a Test Sensitivity of a Test http://www.fisterra.com/mbe/investiga/curvas_roc/curvas_roc.htm (1 of 13)22/04/2006 1:29:00 PM Curvas ROC Resultado de la Prueba Prueba Positiva Prueba Negativa Verdadero Positivo (VP) Falso Negativo (FN) VP + FN Falso Positivo (FP) Verdadero Negativo (VN) VN + FP Sensibilidad Especificidad = VP/(VP + FN) = FVP (fracción de verdaderos positivos) = VN/(VN + FP) = FVN (fracción de verdaderos negativos) = 1 - FFP (fracción de falsos positivos) LA CURVA ROC La limitación principal del enfoque hasta ahora expuesto estribaría en nuestra exigencia de que la respuesta proporcionada por la prueba diagnóstica sea de tipo dicotómico, por lo que en principio quedaría excluida la amplia gama de pruebas diagnósticas cuyos resultados se miden en una escala (nominalmente) continua o, al menos, discreta ordinal. Piénsese, por ejemplo, respecto al primer tipo en la determinación de la glucosa sérica por el laboratorio o, respecto al segundo, en una prueba realizada por el Servicio de Radiología en que los resultados se expresen empleando las categorías "seguramente normal", "probablemente normal", "dudoso", "probablemente anormal" y "seguramente anormal". La generalización a estas situaciones se consigue mediante la elección de distintos niveles de decisión o valores de corte que permitan una clasificación dicotómica de los valores de la prueba según sean superiores o inferiores al valor elegido. La diferencia esencial con el caso más simple es que ahora contaremos no con un único par de valores de sensibilidad y especificidad que definan la exactitud de la prueba, sino más bien con un conjunto de pares correspondientes cada uno a un distinto nivel de decisión. Este procedimiento constituye la esencia del análisis ROC, una metodología desarrollada en el seno de la Teoría de la Decisión en los años 50 y cuya primera aplicación fue motivada por problemas prácticos en la detección de señales por radar (aunque el detalle pueda parecer anecdótico, la equivalencia entre el operador que interpreta los picos en la pantalla del radar para decidir sobre la presencia de un misil y el médico que emplea el resultado de una prueba diagnóstica para decidir sobre la condición clínica del paciente, es completa ). La aparición del libro de Swets y Pickett marcó el comienzo de su difusión en el área de la Biomedicina, inicialmente en Radiología, donde la interpretación subjetiva de los resultados se recoge en una escala de clasificación, pero de modo creciente en relación con cualquier método diagnóstico que genere resultados numéricos. Para centrar ideas, supongamos que, tanto para la población sana como para la enferma, la variable de decisión que representa el resultado de la prueba diagnóstica se distribuye normalmente, con media y desviación típica conocidas. En la figura 1 se muestran las funciones de densidad de probabilidad para ambas variables, que mostrarán un determinado nivel de solapamiento. Si consideramos un valor arbitrario del resultado de la prueba, x –al que, en adelante, aludiremos como valor de corte–, la FVP (sensibilidad) y la FFP (1-especificidad) se corresponderán respectivamente con el área a la derecha de ese punto bajo la función de densidad de probabilidad de la población enferma (áreas clara y oscura) y de la población sana (área oscura). La curva ROC se obtiene representando, para http://www.fisterra.com/mbe/investiga/curvas_roc/curvas_roc.htm (2 of 13)22/04/2006 1:29:00 PM 1 2 Curvas ROC cada posible elección de valor de corte, la FVP en ordenadas y la FFP en abscisas (figura 2). Mediante esta representación de los pares (1-especificidad, sensibilidad) obtenidos al considerar todos los posibles valores de corte de la prueba, la curva ROC nos proporciona una representación global de la exactitud diagnóstica. La curva ROC es necesariamente creciente, propiedad que refleja el compromiso existente entre sensibilidad y especificidad: si se modifica el valor de corte para obtener mayor sensibilidad, sólo puede hacerse a expensas de disminuir al mismo tiempo la especificidad. Si la prueba no permitiera discriminar entre grupos, la curva ROC sería la diagonal que une los vértices inferior izquierdo y superior derecho. La exactitud de la prueba aumenta a medida que la curva se desplaza desde la diagonal hacia el vértice superior izquierdo. Si la discriminación fuera perfecta (100% de sensibilidad y 100% de especificidad) pasaría por dicho punto. El modelo anterior, aplicable en principio a datos continuos, puede generalizarse al caso en que los datos se obtiene por algún sistema de clasificación en una escala discreta ordinal. Para ello basta suponer la existencia de unas variables latentes con distribución normal y de unos límites fijos que marcan los extremos de cada categoría. La figura 3 muestra esquemáticamente este modelo para un ejemplo con cinco categorías. Obviamente, el escenario en que hemos presentado la curva ROC es completamente teórico, por dos razones relacionadas entre sí: q q en la práctica no disponemos de las poblaciones (abstractas) de enfermos y sanos, sino simplemente de una muestra de ellas, en general, no conocemos las distribuciones de los valores de la prueba diagnóstica en dichas poblaciones. Estas limitaciones nos obligan a considerar el problema práctico de la construcción de curvas ROC, que a continuación tratamos, desde un punto de vista típicamente estadístico. MÉTODOS DE CÁLCULO DE LA CURVA ROC Un primer grupo de métodos para construir la curva ROC lo constituyen los llamados métodos no paramétricos. Se caracterizan por no hacer ninguna suposición sobre la distribución de los resultados de la prueba diagnóstica. El más simple de estos métodos es el que suele conocerse como empírico, que consiste simplemente en representar todos los pares (FFP, FVP) – es decir todos los pares (1-especificidad, sensibilidad) – para todos los posibles valores de corte que se puedan considerar con la muestra particular de que dispongamos. Desde un punto de vista técnico, este método sustituye las funciones de distribución teóricas por una estimación no paramétrica de ellas, a saber, la función de distribución empírica construida a partir de los datos. Informalmente, es como si en la figura 1 sustituyéramos las funciones de densidad por histogramas obtenidos a partir de la muestra de pacientes sanos y enfermos y construyéramos la curva ROC a partir de ellos. http://www.fisterra.com/mbe/investiga/curvas_roc/curvas_roc.htm (3 of 13)22/04/2006 1:29:00 PM Curvas ROC En la figura 4 se representa la curva ROC obtenida por el método empírico para un conjunto de datos obtenidos en un grupo de pacientes investigados con el fin de establecer un diagnóstico de anemia ferropénica mediante la determinación del volumen corpuscular medio (ver apartado a) del apéndice). El verdadero diagnóstico se establece empleando como gold standard el examen de la médula ósea. La representación obtenida por este método tiene forma aproximadamente en escalera. En efecto, para cada variación mínima del valor de corte que produzca cambios en sensibilidad o especificidad, al menos un caso pasa a ser considerado bien como verdadero positivo, lo que se corresponde con un trazo vertical, bien como falso positivo, lo que da lugar a un trazo horizontal. Existe aún otra posibilidad, derivada de la posibilidad de que se produzcan empates, es decir, dos o más casos con el mismo valor de la prueba: si el empate ocurre entre un caso del grupo enfermo y otro del grupo sano aparecerá un trazo diagonal en la representación. Es evidente que este método es especialmente idóneo para datos de tipo continuo, sobre todo si la discretización (el redondeo) inducida por la precisión del método analítico utilizado no es muy importante, de modo que el número de empates sea proporcionalmente escaso. En este caso, la apariencia dentada de la curva es menos notoria a medida que crece el tamaño de la muestra e, idealmente, en el límite tendríamos una curva suave, la propia curva ROC teórica (figura 1). No obstante, también puede aplicarse a datos de tipo categórico. Claro está que ahora será inevitable la aparición de empates (al menos si el tamaño de la muestra es mayor que el número de categorías), con la consecuencia de que el gráfico consistirá, independientemente del tamaño de la muestra, en un número fijo de líneas en general diagonales que unen los puntos correspondientes a los pares (1-especificidad, sensibilidad) calculados para cada categoría. En la figura 5 se presenta un ejemplo de la aplicación de este método a un conjunto de datos procedente de la clasificación en cinco categorías de imágenes obtenidas por tomografía computerizada (ver apartado b) del apéndice). Una práctica frecuente que desaconsejamos es realizar la agrupación artificial de los resultados de una prueba diagnóstica con valores continuos en un número limitado de categorías, como paso previo a la construcción de la curva ROC. Si no se dispone de medios de representación automáticos este recurso permite simplificar los cálculos necesarios para construir la curva ROC, pero entre otras deficiencias, es evidente que así se obtiene una estimación sesgada de la verdadera curva ROC, concretamente una infravaloración de la verdadera exactitud diagnóstica 5 3,4 . Existen otros métodos no paramétricos aplicables a datos continuos que permiten obtener curvas ROC suavizadas, en contraposición con la forma dentada de la curva obtenida por el método empírico. La idea es básicamente obtener estimaciones no paramétricas suavizadas de las funciones de densidad de las dos distribuciones de resultados de la prueba empleando generalmente estimadores de tipo núcleo. A partir de dichas densidades –en lugar de a partir de los histogramas, como en el método anterior– se obtiene directamente la curva ROC que, como dijimos, será suave. Los métodos paramétricos se basan en postular un determinado tipo de distribución para http://www.fisterra.com/mbe/investiga/curvas_roc/curvas_roc.htm (4 of 13)22/04/2006 1:29:00 PM Curvas ROC la variable de decisión en las dos poblaciones que se trata de distinguir . El modelo más frecuentemente utilizado es el binormal, que supone la normalidad de las variables tanto en la población sana como en la enferma, pero existen muchos otros modelos posibles que surgen al considerar distintas distribuciones, similares a la normal como la logística (modelo bilogístico) o no, como la exponencial negativa. El problema ahora se reduce a estimar los parámetros de cada distribución por un método estadísticamente adecuado, en general el método de máxima verosimilitud. Se obtiene así una curva ROC suave, pero puede ocurrir una sustancial falta de ajuste si los supuestos distribucionales resultan ser erróneos , . Por ello, si se va a emplear este método debe previamente someterse la hipótesis sobre la naturaleza de las distribuciones a un contraste de significación. También es recomendable emplear una transformación de la variable inicial que logre que los datos sean más compatibles con las distribuciones asumidas, aunque este juicio sólo pueda basarse en un examen en gran medida visual y por lo tanto esté expuesto a interpretaciones subjetivas. Estas limitaciones hacen que el método no sea en general recomendable para datos continuos. Su utilidad es mayor con datos discretos: varios investigadores han examinado el modelo binormal para datos de clasificación, sin encontrar situaciones en las que el modelo fallara seriamente , . De hecho, esta última observación constituye la base para un método aplicable tanto a datos continuos como de clasificación, debido a Metz et al. (el software que lo implementa está libremente disponible en Internet en http://wwwradiology.uchicago.edu/krl/toppage11.htm). Según este método, primero se agrupan los datos en categorías ordenadas y después se aplica un algoritmo paramétrico para crear una curva ROC suave. Del método se dice que es semiparamétrico , , porque aunque supone la existencia de una transformación que haga que las dos distribuciones sean aproximadamente normales, ésta se deja sin especificar. La dependencia mucho menor de la validez de las asunciones se debe principalmente a la invariancia de la curva ROC frente a las transformaciones monótonas de la escala de la variable de decisión . Investigaciones recientes parecen indicar que el método se comporta empíricamente bien en una amplia variedad de situaciones . Permanece, no obstante, el problema de que el ajuste no es reproducible a menos que el esquema de categorización empleado sea objetivo y esté estandarizado. Las figuras 4 y 5 muestran las curvas ROC ajustadas por este método y permiten compararlas a las obtenidas por el método empírico. ANÁLISIS ESTADÍSTICO DE LAS CURVAS ROC Área bajo la curva 10 8 59 8 67 34 2 Como observamos más arriba, la mayor exactitud diagnóstica de una prueba se traduce en un desplazamiento "hacia arriba y a la izquierda" de la curva ROC. Esto sugiere que el área bajo la curva ROC (ABC) se puede emplear como un índice conveniente de la exactitud global de la prueba: la exactitud máxima correspondería a un valor de ABC de 1 y la mínima a uno de 0.5 (si fuera menor de 0.5 debería invertirse el criterio de positividad de la prueba). En términos probabilísticos, si XE y XS son las dos variables aleatorias que representan los valores de la prueba en las poblaciones enferma y sana, respectivamente, puede probarse que el ABC de la "verdadera" curva ROC (intuitivamente, aquella que obtendríamos si el http://www.fisterra.com/mbe/investiga/curvas_roc/curvas_roc.htm (5 of 13)22/04/2006 1:29:00 PM Curvas ROC tamaño de la muestra fuera infinito y la escala de medida continua) es precisamente , o, en palabras, la probabilidad de que, si se eligen al azar un paciente enfermo y otro sano, sea mayor el valor de la prueba en aquél que en éste 11 . Cuando la curva ROC se genera por el método empírico, independientemente de que haya empates o no, el área puede calcularse mediante la regla trapezoidal, es decir, como la suma de las áreas de todos los rectángulos y trapecios (correspondientes a los empates) que se pueden formar bajo la curva. Estadísticamente, la observación importante, puesto que permite hacer contrastes de significación y dar intervalos de confianza para la verdadera área bajo la curva, es que el área calculada por el método geométrico anterior coincide con el valor del estadístico de suma de rangos de Wilcoxon, W . Esto no es sorprendente, ya que, cuando XA y XB son dos variables aleatorias independientes cualesquiera, dicho estadístico es conocido precisamente por su uso para contrastar la hipótesis , que en nuestro contexto es la hipótesis nula de que ABC sea ½, es decir, de que la prueba no sea capaz de discriminar entre los dos grupos. Hanley y McNeil dan fórmulas tanto para el estadístico W como para su error estándar y discuten el problema de la estimación de este último. En general, se suelen dar intervalos de confianza del ABC construidos de la manera estándar, v. g. al nivel de confianza del 95% intervalos de extremos W ± 1.96*EE(W), siendo EE(W) una estimación del error estándar de W. Con los datos del volumen corpuscular medio, el ABC calculado por este método es 0.699 y un intervalo de confianza del 95% (IC 95%) es (0.585,0.813). Cuando se ajusta un modelo como el binormal empleando técnicas estadísticas se obtienen, además de estimaciones de los parámetros que definen la curva ROC, estimaciones del ABC y de su error estándar, que pueden emplearse para construir intervalos de confianza y efectuar contrastes de significación como en el caso no paramétrico. Empleando el método semiparamétrico de Metz, el ABC estimado con los datos de volumen corpuscular medio es 0.703 y (0.591,0.799) un IC 95%. Cuando el número de empates es elevado, como ocurre cuando se emplean datos de clasificación, el estadístico W –el área calculada por el método empírico– proporciona un estimador sesgado de la verdadera área, lo que hace recomendable emplear un método distinto, por ejemplo uno basado en un método paramétrico. Con los datos de la tomografía computerizada el ABC estimado es 0.893 (IC 95% (0.830,0.956)) ó 0.911 (IC 95% (0.838,0.956)) según se emplee el estadístico de Wilcoxon o el método de Metz en su cálculo, respectivamente, lo que sugiere que en este caso la magnitud del sesgo no es importante. Área parcial 11 12 Son imaginables situaciones en las que las propias características ventajosas del ABC se conviertan en un inconveniente para su uso clínico. El ABC puede interpretarse como un promedio de la sensibilidad (especificidad) sobre todos los valores posibles de especificidad (sensibilidad). Puede que clínicamente sólo nos interesen los puntos de la curva ROC que aseguren altos valores de sensibilidad o especificidad. Un caso típico es el de las mamografías en programas de detección precoz del cáncer, donde debe asegurarse http://www.fisterra.com/mbe/investiga/curvas_roc/curvas_roc.htm (6 of 13)22/04/2006 1:29:00 PM Curvas ROC una alta sensibilidad de la prueba . Se han propuesto índices de área parcial que pueden ser empleados para evaluar la exactitud restringida a los puntos de operación de interés de la curva ROC 13,14 13 . Comparación de dos pruebas Cuando se dispone de dos (o más) pruebas para abordar el diagnóstico de un mismo problema clínico, el cálculo del ABC brinda un método conveniente para comparar globalmente su exactitud diagnóstica relativa. En principio, al comparar dos pruebas preferiremos la que tenga mayor ABC, por ser la de mayor exactitud diagnóstica de las dos. Desde un punto de vista estadístico el problema es valorar si la diferencia observada entre las ABC calculadas para dos pruebas distintas es debida a la variabilidad inherente al muestreo o es más bien atribuible a una diferencia real en la exactitud de ambas pruebas. Podemos enunciar este problema como un contraste de la hipótesis nula de igualdad de las dos ABC, que denotaremos por ABCA y ABCB, frente a una alternativa bilateral. En general, se dispone de los valores para las dos pruebas en una única muestra de pacientes. El contraste debido a Hanley y McNeil , que podemos considerar representativo de los desarrollados en esta situación, utiliza como estadístico del contraste 15 siendo ABC el área observada, EE el error estándar del ABC y r la correlación entre ABCA y ABCB. Al nivel de significación α se rechaza la hipótesis nula cuando |z| > zα /2, siendo zα /2 el cuantil de orden 1-α /2 de una distribución normal estándar, v. g. si 0.05 es zα /2 = 1.96. No obstante, hagamos notar que la comparación entre dos pruebas no debe reposar exclusivamente en contrastes como el anterior. Pueden existir dos pruebas con sendas curvas ROC muy distintas de forma, hecho que puede tener importantes implicaciones prácticas, y que, sin embargo, sean prácticamente iguales respecto a su ABC (figura 6). El empleo del área parcial puede permitir manejar correctamente estas situaciones. En cualquier caso, es evidente que nunca debería prescindirse de un examen visual detenido de un gráfico que muestre simultáneamente ambas curvas ROC. Elección del valor de corte α= El empleo en la práctica médica de una prueba diagnóstica exige la elección de un valor de corte. Para ello es imprescindible un conocimiento detallado de los riesgos y beneficios de las decisiones médicas derivadas del resultado de la prueba. Un enfoque sencillo , , que utiliza la razón de costes de un resultado falso positivo frente a un falso negativo, requiere calcular el coeficiente 3 16 http://www.fisterra.com/mbe/investiga/curvas_roc/curvas_roc.htm (7 of 13)22/04/2006 1:29:00 PM Curvas ROC donde P es la prevalencia de la enfermedad. El valor de corte óptimo se determina hallando el punto de la curva ROC (que supondremos suave) con la siguiente propiedad: la tangente a la curva en ese punto tiene pendiente m. Incluso una formula sencilla como la anterior deja en evidencia que en la mayoría de los casos nuestra pretensión de calcular un valor de corte óptimo será excesiva, salvo que uno se contente con estimaciones imprecisas o puramente intuitivas. De hecho, es un problema que se aborde más adecuadamente con otras herramientas más complejas disponibles en el seno del Análisis de Decisiones Clínicas 17,18 . Apéndice Apéndice 1.a. Volumen corpuscular medio eritrocitario en 100 pacientes con posible diagnóstico de anemia ferrropénica. El verdadero diagnóstico se establece por biopsia de la médula ósea. Examen de la médula ósea Ausencia de hierro (nE = 33) Volumen corpuscular medio 52, 58, 62, 65, 67, 68, 70, 72, 72, 73, 73, 74, 75, 77, 77, 77, 78, 78, 80, 80, 81, 81, 81, 81, 84, 84, 85, 85, 87, 88, 88, 92, 92 60, 77, 83, 86, 93, 66, 77, 83, 86, 93, 68, 78, 83, 88, 94, 69, 79, 83, 88, 94, 71, 79, 83, 88, 94, 71, 79, 83, 89, 94, 71, 80, 83, 89, 96, 73, 80, 84, 89, 97, 74, 81, 84, 90, 98, 74, 74, 76, 81, 82, 82, 84, 85, 85, 90, 90, 91, 100, 103 76, 82, 86, 91, 77, 83, 86, 93, Presencia de hierro (nS = 67) Modificado de Beck JR, Shultz EK. The use of relative operating characteristic (ROC) curves in test performance evaluation. Arch Pathol Lab Med 1986; 110: 13-20. Apéndice 1.b. Verdadera condición Normal Anormal Clasificación de 109 imágenes de tomografía computerizada. Seguramente normal 33 3 Probablemente normal 6 2 Dudosa 6 2 Probablemente anormal 11 11 Seguramente anormal 2 33 Tomado de Hanley JA, McNeil BJ. The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology 1982; 143: 29-36. http://www.fisterra.com/mbe/investiga/curvas_roc/curvas_roc.htm (8 of 13)22/04/2006 1:29:00 PM Curvas ROC Figura 1. Distribución de los resultados de una prueba en las poblaciones de pacientes sanos y enfermos. Las distribuciones teóricas se suponen normales de media y desviación típica diferentes. Las áreas a la derecha del valor de corte x corresponden a la sensibilidad (áreas clara y oscura) y 1-especificidad (área oscura). Figura 2. Curva ROC correspondiente a la distribución teórica de los resultados de una prueba representada en la figura 1. Se muestra el punto correspondiente al valor de corte x. http://www.fisterra.com/mbe/investiga/curvas_roc/curvas_roc.htm (9 of 13)22/04/2006 1:29:00 PM Curvas ROC Figura 3. Representación esquemática de un modelo para datos de clasificación con cinco categorías. http://www.fisterra.com/mbe/investiga/curvas_roc/curvas_roc.htm (10 of 13)22/04/2006 1:29:00 PM Curvas ROC Figura 4. Curvas ROC calculadas por los métodos empírico y semiparamétrico para los datos de volumen corpuscular medio. Figura 5. Curvas ROC calculadas por los métodos empírico y semiparamétrico para los datos de tomografía computerizada. http://www.fisterra.com/mbe/investiga/curvas_roc/curvas_roc.htm (11 of 13)22/04/2006 1:29:00 PM Curvas ROC Figura 6. Curvas ROC empíricas de dos pruebas diagnósticas distintas. Bibliografía 1. Robertson EA, Zweig MH. Use of receiver operating characteristic curves to evaluate the clinical performance of analytical systems. Clin Chem 1981; 27: 15691574. [Medline] 2. Swets JA, Pickett RM. Evaluation of diagnostic systems: methods from signal detection theory. Nueva York: Academic Press; 1982. 3. Zweig MH, Campbell G. Receiver-operating characteristic (ROC) plots: a fundamental evaluation tool in clinical medicine. Clin Chem 1993; 39: 561-577. [Medline] 4. Burgueño MJ, García-Bastos JL, González-Buitrago JM. Las curvas ROC en la evaluación de las pruebas diagnósticas. Med Clin (Barc) 1995; 104: 661-670. [Medline] 5. Zou KH, Hall WJ, Shapiro DE. Smooth non-parametric receiver operating characteristic (ROC) curves for continuous diagnostic tests. Statist Med 1997; 16: 2143-2156. [Medline] 6. Hanley JA. The robustness of the binormal model used to fit ROC curves. Med http://www.fisterra.com/mbe/investiga/curvas_roc/curvas_roc.htm (12 of 13)22/04/2006 1:29:00 PM Curvas ROC Decision Making 1988; 8: 197-203. [Medline] 7. Swets JA. Form of empirical ROCs in discrimination and diagnostic tasks: implications for theory and measurement of performance. Psych Bull 1986; 99: 181-198. [Medline] 8. Metz CE, Herman BA, Shen, J. Maximum likelihood estimation of receiver operating characteristic (ROC) curves from continuously distributed data. Statist Med 1998; 17: 1033-1053. [Medline] 9. Hsieh F, Turnbull BW. Nonparametric and semiparametric estimation of the receiver operating characteristic curve. Ann Statist 1996; 24: 25-40. 10. Hanley JA. The use of the "binormal" model for parametric ROC analysis of quantitative diagnostics tests. Statist Med 1996; 15: 1575-1585. [Medline] 11. Hanley JA, McNeil BJ. The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology 1982; 143: 29-36. [Medline] 12. Bamber D. The area above the ordinal dominance graph and the area below the receiver operating graph. J Math Psych 1975; 12: 387-415. 13. Jiang Y, Metz CE, Nishikawa RM. A receiver operating characteristic partial area index for highly sensitive diagnostics tests. Radiology 1996; 201: 745-750. 14. McClish DK. Analyzing a portion of the ROC curve. Med Decision Making 1989; 9: 190-195. [Medline] 15. Hanley JA, McNeil BJ. A method of comparing the areas under receiver operating characteristic curves derived from the same cases. Radiology 1983; 148: 839-843. [Medline] 16. McNeil BJ, Keeler E, Adelstein SJ. Primer on certain elements of medical decision making. N Engl J Med 1975; 293: 211-215. [Medline] 17. Weinstein MC, Fineberg HV. Clinical Decision Analysis. Philadelphia: WB Saunders Co; 1980. 18. Beck JR, Shultz EK. The use of relative operating characteristic (ROC) curves in test performance evaluation. Arch Pathol Lab Med 1986; 110: 13-20. [Medline] Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/curvas_roc/curvas_roc.htm (13 of 13)22/04/2006 1:29:00 PM Investigación cuantitativa y cualitativa Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 27/05/02 Investigación cuantitativa y cualitativa Pita Fernández, S. [ Correo de contacto ], Pértegas Díaz, S. [ Correo de contacto ] Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña (España) CAD ATEN PRIMARIA 2002; 9: 76-78. El objetivo de cualquier ciencia es adquirir conocimientos y la elección del método adecuado que nos permita conocer la realidad es por tanto fundamental . El problema surge al aceptar como ciertos los conocimientos erróneos o viceversa. Los métodos inductivos y deductivos tienen objetivos diferentes y podrían ser resumidos como desarrollo de la teoría y análisis de la teoría respectivamente. Los métodos inductivos están generalmente asociados con la investigación cualitativa mientras que el método deductivo está asociado frecuentemente con la investigación cuantitativa. Los científicos sociales en salud que utilizan abordajes cualitativos enfrentan en la actualidad problemas epistemológicos y metodológicos que tienen que ver con el poder y la ética en la generación de datos así como con la validez externa de los mismos . La investigación cuantitativa es aquella en la que se recogen y analizan datos cuantitativos sobre variables. La investigación cualitativa evita la cuantificación. Los investigadores cualitativos hacen registros narrativos de los fenómenos que son estudiados mediante técnicas como la observación participante y las entrevistas no estructuradas . La diferencia fundamental entre ambas metodologías es que la cuantitativa estudia la asociación o relación entre variables cuantificadas y la cualitativa lo hace en contextos estructurales y situacionales . La investigación cualitativa trata de identificar la naturaleza profunda de las realidades, su sistema de relaciones, su estructura dinámica. La investigación cuantitativa trata de determinar la fuerza de asociación o correlación entre variables, la generalización y objetivación de los resultados a través de una muestra para hacer inferencia a una población de la cual toda muestra procede. Tras el estudio de la asociación o correlación pretende, a su vez, hacer inferencia causal que explique por qué las cosas suceden o no de una forma determinada. Las diferencias más ostensibles entre ambas metodologías se muestran en la tabla 1 . Los fundamentos de la metodología cuantitativa podemos encontrarlos en el positivismo que surge en el primer tercio del siglo XIX como una reacción ante el empirismo que se dedicaba a recoger datos sin introducir los conocimientos más allá del campo de la observación. Alguno de los científicos de esta época dedicados a temas http://www.fisterra.com/mbe/investiga/cuanti_cuali/cuanti_cuali.htm (1 of 5)22/04/2006 1:29:11 PM Contenido 1 Diferencias entre investigación cualitativa y cuantitativa Ventajas e inconvenientes de los métodos cualitativos vs cuantitativos Bibliografía 2 Documento en PDF (45 Kb) ¿Problemas con PDF? 3 4 5-6 Investigación cuantitativa y cualitativa relacionados con las ciencias de la salud son Pasteur y Claude Bernard, siendo este último el que propuso la experimentación en medicina . A principios del siglo XX, surge el neopositivismo o positivismo lógico siendo una de las aportaciones más importantes la inducción probabilística. La clave del positivismo lógico consiste en contrastar hipótesis probabilísticamente y en caso de ser aceptadas y demostradas en circunstancias distintas, a partir de ellas elaborar teorías generales. La estadística dispone de instrumentos cuantitativos para contrastar estas hipótesis y poder aceptarlas o rechazarlas con una seguridad determinada . Por tanto el método científico, tras una observación, genera una hipótesis que contrasta y emite posteriormente unas conclusiones derivadas de dicho contraste de hipótesis. El contrastar una hipótesis repetidamente verificada no da absoluta garantía de su generalización ya que, como señala Karl Popper, no se dispone de ningún método capaz de garantizar que la generalización de una hipótesis sea válida8. Con el ejemplo de los cisnes, K. Popper rebatía las tesis neopositivistas sobre la generalización de las hipótesis9... "todos los cisnes de Austria eran blancos... no se dispone de datos sobre el color de los cisnes fuera de Austria..., todos los cisnes son blancos...". En el momento actual no hay ningún método que garantice que la generalización de una hipótesis sea válida, pero sí se puede rebatir una hipótesis con una sola evidencia en contra de ella. Es por ello que la ciencia, como señala K. Popper "busca explicaciones cada vez mejores" . Ventajas e inconvenientes de los métodos Las ventajas e inconvenientes de los métodos cuantitativos vs los cualitativos se muestran en la tabla 2 . En general los métodos cuantitativos son muy potentes en términos de validez externa ya que con una muestra representativa de la población hacen inferencia a dicha población a partir de una muestra (Figura 1) con una seguridad y precisión definida. Por tanto una limitación de los métodos cualitativos es su dificultad para generalizar. La investigación cuantitativa con los test de hipótesis no sólo permite eliminar el papel del azar para descartar o rechazar una hipótesis, sino que permite cuantificar la relevancia clínica de un fenómeno midiendo la reducción relativa del riesgo, la reducción absoluta del riesgo y el número necesario de pacientes a tratar para evitar un evento . La pregunta que evidentemente hacen los investigadores cualitativos a los cuantitativos es ¿cuan particularizables son tus generalidades...? Hoy en día hay un predominio claro de la investigación cuantitativa en relación a la cualitativa y así podemos objetivar que en una búsqueda en Medline a fecha 20/4/2002 utilizando las palabras clave "quantitative research" vs "qualitative research" encontramos 11.236 y 1.249 artículos respectivamente lo que genera un cociente de 11.236/1.249 =8.99. El seleccionar una u otra metodología puede depender de diferentes planteamientos: ¿Se busca la magnitud o la naturaleza del fenómeno?, ¿Se busca un promedio o una estructura dinámica?, ¿Se pretende descubrir leyes o comprender fenómenos humanos?. Cuando en la búsqueda en Medline a las palabras clave previamente mencionadas añadimos "nursing" para centrar la pregunta en trabajos de enfermería objetivamos que el cociente de los artículos cuantitativos vs los http://www.fisterra.com/mbe/investiga/cuanti_cuali/cuanti_cuali.htm (2 of 5)22/04/2006 1:29:11 PM 1 7 10 11-13 14 Investigación cuantitativa y cualitativa cualitativos (610 vs 535) claramente disminuye a 1.14 mostrando por tanto un importante peso de lo cualitativo en la investigación en enfermería a pesar de existir un predominio de lo cuantitativo que sigue incrementándose en los últimos años en este colectivo. El empleo de ambos procedimientos cuantitativos y cualitativos en una investigación probablemente podría ayudar a corregir los sesgos propios de cada método, pero el hecho de que la metodología cuantitativa se la más empleada no es producto del azar sino de la evolución de método científico a lo largo de los años. Creemos en ese sentido que la cuantificación incrementa y facilita la compresión del universo que nos rodea y ya mucho antes de los positivistas lógicos o neopositivistas Galileo Galilei afirmaba en este sentido "mide lo que sea medible y haz medible lo que no lo sea". Tabla 1. Diferencias entre investigación cualitativa y cuantitativa Investigación cualitativa Centrada en la fenomenología y comprensión Observación naturista sin control Subjetiva Inferencias de sus datos Exploratoria, inductiva y descriptiva Orientada al proceso Datos "ricos y profundos" No generalizable Holista Realidad dinámica 5-6 . Investigación cuantitativa Basada en la inducción probabilística del positivismo lógico Medición penetrante y controlada Objetiva Inferencias más allá de los datos Confirmatoria, inferencial, deductiva Orientada al resultado Datos "sólidos y repetibles" Generalizable Particularista Realidad estática Tabla 2. Ventajas e inconvenientes de los métodos cualitativos vs cuantitativos. Métodos cualitativos Métodos cuantitativos estudio 11 11 11 Propensión a "comunicarse con" los sujetos del Propensión a "servirse de" los sujetos del estudio 11 Se limita a preguntar Se limita a responder Comunicación más horizontal... entre el investigador y los investigados... mayor naturalidad y habilidad de estudiar los factores sociales en un escenario natural 12 Son fuertes en términos de validez interna, pero son débiles en validez externa, lo que encuentran no es generalizable a la población Son débiles en términos de validez interna casi nunca sabemos si miden lo que quieren medir-, pero son fuertes en validez externa, lo que encuentran es generalizable a la población 13 Preguntan a los cuantitativos: ¿Cuan particularizables son los hallazgos? Preguntan a los cualitativos: ¿Son generalizables tus hallazgos? http://www.fisterra.com/mbe/investiga/cuanti_cuali/cuanti_cuali.htm (3 of 5)22/04/2006 1:29:11 PM Investigación cuantitativa y cualitativa Figura 1. Elementos de la inferencia estadística Bibliografía 1. Álvarez Cáceres R. El método científico en las ciencias de la salud. Las bases de la investigación biomédica. Madrid: Díaz de Santos, 1996. 2. Calero JL. Investigación cualitativa y cuantitativa. Problemas no resueltos en los debates actuales. Rev. Cubana Endocrinol 2000; 11 (3): 192-8. [Texto completo - PDF] 3. Abdellah FG, Levine E. Preparing Nursing Research for the 21 st Century. Evolution. Methodologies, Chalges. Springer: New York; 1994. 4. Strauss AL. Qualitative analysis for social scientifics. New York: Cambridge University oress, 1987. 5. Cabrero García L, Richart Martínez M. El debate investigación cualitativa frente a investigación cuantitativa Enfermería clínica, 1996; 6: 212-217. [Texto completo - PDF] 6. Reichart ChS, Cook TD. Hacia una superación del enfrentamiento entre los métodos http://www.fisterra.com/mbe/investiga/cuanti_cuali/cuanti_cuali.htm (4 of 5)22/04/2006 1:29:11 PM Investigación cuantitativa y cualitativa cualitativos y cuantitativos. En: Cook TD, Reichart ChR (ed). Métodos cualitativos y cuantitativos en investigación evaluativa. Madrid: Morata,1986. 7. Pita Fernández S., Pértega Díaz S. Significancia estadística y relevancia clínica. Cad Aten Primaria, 2000; 8: 191-195. [Texto completo] 8. Popper Karl R. La lógica de la investigación científica. Barcelona: Círculo de Lectores; 1995. 9. Popper Karl R. Realismo y el objetivo de la ciencia. Madrid: Editorial Tecnos, 1983. 10. Popper Karl R. La sociedad abierta y sus enemigos. Barcelona: Editorial Paidos, 1991. 11. Ibañes J. El regreso del sujeto. La investigación social de segundo orden. Madrid: Siglo XXI; 1994. p.77-84. 12. Deegan MJ, Hill M. Women and symbolic interaction. Boston: Allen and Unwin; 1987. p. 84-85. 13. Campbell D, Stanley J. Diseños experimentales y cuasi experimentales en la investigación social. Buenos Aires: Ammorrortu Editores; 1982. p. 76-8. 14. Pita Fernández S., López de Ullibarri Galparsoro I. Número necesario de pacientes a tratar para reducir un evento. Cad Aten Primaria 1998; 96-98. [Texto completo] Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/cuanti_cuali/cuanti_cuali.htm (5 of 5)22/04/2006 1:29:11 PM La fiabilidad de las mediciones clínicas: el análisis de concordancia para variables numéricas Metodología de la Investigación Atención Primaria en la Red Principal | MBE | Investigación 12/01/04 La fiabilidad de las mediciones clínicas: el análisis de concordancia para variables numéricas Pita Fernández, S. [ Correo de contacto ], Pértegas Díaz, S. [ Correo de contacto ], Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario-Universitario Juan Canalejo. A Coruña (España) Introducción La medición es un proceso inherente tanto a la práctica como a la investigación clínica. Mientras que algunas variables son relativamente sencillas de medir (como el peso o la tensión arterial) otras comportan cierto grado de subjetividad que hace especialmente difícil su medición, como la intensidad de dolor o el concepto de calidad de vida. En cualquier caso, el proceso de medición conlleva siempre algún grado de error. Existen factores asociados a los individuos, al observador o al instrumento de medida que pueden influir en la variación de las mediciones . En la medida de la temperatura corporal, por ejemplo, pueden aparecer errores en el registro debidos tanto al estado del paciente, como a defectos en el termómetro utilizado o a la objetividad del observador. Cualquier estudio epidemiológico debe garantizar la calidad de sus mediciones, no sólo porque condicionará en gran medida la validez de sus conclusiones, sino por la importancia de las decisiones clínicas que se apoyen en esa investigación . La calidad de una medida depende tanto de su validez como de su fiabilidad . Mientras que la validez expresa el grado en el que realmente se mide el fenómeno de interés, la fiabilidad indica hasta qué punto se obtienen los mismos valores al efectuar la medición en más de una ocasión, bajo condiciones similares. El que una medida sea muy precisa no implica, sin embargo, que sea necesariamente válida. Así, si se realizan dos mediciones consecutivas de la presión arterial de un paciente con un esfigmomanómetro mal calibrado los valores obtenidos seguramente serán parecidos, aunque totalmente inexactos. En los estudios que tratan de evaluar la validez de una medida se comparan sus resultados con los obtenidos mediante una prueba de referencia (gold standard) que se sabe válida y fiable para la medición del fenómeno de interés . Cuando el objetivo se centra en la fiabilidad de una medición, se repite el proceso de medida para evaluar la concordancia entre las distintas mediciones. En un estudio de la fiabilidad pueden valorarse los siguientes aspectos : a. Repetibilidad: indica hasta qué punto un instrumento proporciona http://www.fisterra.com/mbe/investiga/conc_numerica/conc_numerica.htm (1 of 16)22/04/2006 1:29:27 PM Contenido Introducción El Coeficiente de Correlación Intraclase Análisis de las diferencias individuales: método de Bland y Altman Otros métodos de análisis Bibliografía Tablas y Figuras Tabla 1. Ejemplo teórico Tabla 2. Tabla ANOVA para medidas repetidas Tabla 3. TAS en 30 pacientes Tabla 4. Tabla ANOVA para las mediciones de TA Tabla 5. Valoración de la concordancia según los valores del Coeficiente de Correlación Intraclase Tabla 6. Distribución de la diferencia absoluta entre las mediciones de la TA en 30 pacientes Figura 1. 1,2 3 1,4 5 1 La fiabilidad de las mediciones clínicas: el análisis de concordancia para variables numéricas resultados similares cuando se aplica a una misma persona en más de una ocasión, pero en idénticas condiciones. b. Concordancia intraobservador: tiene por objetivo evaluar el grado de consistencia al efectuar la medición de un observador consigo mismo. c. Concordancia interobservador: se refiere a la consistencia entre dos observadores distintos cuando evalúan una misma medida en un mismo individuo. d. Concordancia entre métodos de medición: cuando existen diferentes métodos de medida para un mismo fenómeno, es interesante estudiar hasta qué punto los resultados obtenidos con ambos instrumentos son equivalentes. La concordancia entre variables es de sumo interés en la práctica clínica habitual . La concordancia entre mediciones puede alterarse no sólo por la variabilidad de los observadores, sino por la variabilidad del instrumento de medida o por el propio proceso a medir si se realiza en momentos diferentes. Las técnicas de análisis de la concordancia dependen del tipo de variable a estudiar. El índice estadístico más utilizado, para el caso de variables cualitativas, es el coeficiente kappa . Si las variables son cuantitativas, se utiliza habitualmente el coeficiente de correlación intraclase . El concepto básico subyacente del coeficiente de correlación intraclase fue introducido originalmente por Fisher como una formulación especial de la r de Pearson, basándose en un modelo de análisis de la varianza . Las dificultades para interpretar desde el punto de vista clínico los valores de este coeficiente y otras desventajas metodológicas han hecho que algunos autores propongan métodos alternativos para estudiar la concordancia de este tipo de 12 2,6,11 10 6-9 Figura 2. Figura 3. Figura 4. Figura 5. Figura 6. Figura 7. Documento en PDF (85 Kb) ¿Problemas con PDF? variables. Así, Bland y Altman (1995) proponen un método gráfico y muy sencillo, basado en el análisis de las diferencias individuales, que permite determinar los límites de concordancia y visualizar de forma gráfica las discrepancias observadas. Recientemente, otros métodos de análisis de concordancia han sido propuestos . A continuación, se procederá a una descripción detallada de algunas de estas técnicas de análisis. El coeficiente de correlación intraclase Para el caso de variables cuantitativas, es frecuente que el análisis de la concordancia se aborde mediante técnicas estadísticas inapropiadas. Con frecuencia ha sido utilizado el cálculo del coeficiente de correlación de lineal (r) de Pearson como índice de concordancia. Sin embargo, ésta no resulta una medida adecuada del grado de acuerdo entre dos mediciones, ya que si dos instrumentos miden sistemáticamente cantidades diferentes uno del otro, la correlación puede ser perfecta (r=1), a pesar de que la concordancia sea nula. Consideremos como ejemplo los datos de la Tabla 1, en la que se comparan las mediciones de tensión arterial con dos instrumentos diferentes. El instrumento B mide sistemáticamente 1mm Hg más que el instrumento A. Al representar gráficamente la correlación entre ambas mediciones, se objetiva que la correlación es la máxima posible (r=1), a pesar de que ninguna de las mediciones ha concordado (Figura 1). No se debe olvidar que el coeficiente de correlación de Pearson no proporciona información sobre el acuerdo observado, y solamente mide la asociación lineal entre dos http://www.fisterra.com/mbe/investiga/conc_numerica/conc_numerica.htm (2 of 16)22/04/2006 1:29:27 PM 13 14-16 La fiabilidad de las mediciones clínicas: el análisis de concordancia para variables numéricas variables . Así mismo, al calcularse a partir de los pares ordenados de mediciones, si varía el orden también cambia el valor del coeficiente , mientras que un cambio en las escalas de medida no afecta a la correlación pero sí afecta a la concordancia. A su vez, debemos mencionar que la idea de que si el coeficiente de correlación entre dos medidas es significativamente diferente de cero la fiabilidad es buena, es incorrecto. El coeficiente de correlación lineal puede ser muy pequeño y resultar significativo si el tamaño muestral es suficientemente grande. Por último, tampoco la comparación de medias mediante un test t de Student con datos apareados es una técnica adecuada para este tipo de análisis . Desde el punto de vista matemático, el índice más apropiado para cuantificar la concordancia entre diferentes mediciones de una variable numérica es el llamado coeficiente de correlación intraclase (CCI) . Dicho coeficiente estima el promedio de las correlaciones entre todas las posibles ordenaciones de los pares de observaciones disponibles y, por lo tanto, evita el problema de la dependencia del orden del coeficiente de correlación. Así mismo, extiende su uso al caso en el que se disponga de más de dos observaciones por sujeto. Sin embargo, una de las principales limitaciones del CCI es la dificultad de su cálculo, ya que debe ser estimado de distintas formas dependiendo del diseño del estudio . La forma de cálculo más habitual se basa en un modelo de análisis de la varianza (ANOVA) con medidas repetidas (Tabla 2). La idea es que la variabilidad total de las mediciones se puede descomponer en dos componentes: la variabilidad debida a las diferencias entre los distintos sujetos y la debida a las diferencias entre las medidas para cada sujeto. Esta última, a su vez, depende de la variabilidad entre observaciones y una variabilidad residual o aleatoria asociada al error que conlleva toda medición. El CCI se define entonces como la proporción de la variabilidad total que se debe a la variabilidad de los sujetos. En la actualidad el valor del CCI puede obtenerse de modo directo con algunos programas informáticos como el SPSS. Otra forma sencilla de obtener el valor del CCI es a partir de una tabla ANOVA para medidas repetidas. Como ejemplo, en la Tabla 3 se representan los datos de un estudio hipotético en el que se tomó la tensión arterial sistólica en 30 pacientes utilizando dos métodos diferentes. Si se representan gráficamente estos datos, indicando el coeficiente de correlación r=0,997 una asociación prácticamente lineal (Figura 2). A partir de la tabla ANOVA correspondiente (Tabla 4), el CCI se puede calcular como: 18 2,6,11 1 17 17 donde k es el número de observaciones que se toman en cada sujeto. En el ejemplo: http://www.fisterra.com/mbe/investiga/conc_numerica/conc_numerica.htm (3 of 16)22/04/2006 1:29:27 PM La fiabilidad de las mediciones clínicas: el análisis de concordancia para variables numéricas Como toda proporción, los valores del CCI pueden oscilar entre 0 y 1, de modo que la máxima concordancia posible corresponde a un valor de CCI=1. En este caso, toda la variabilidad observada se explicaría por las diferencias entre sujetos y no por las diferencias entre los métodos de medición o los diferentes observadores. Por otro lado, el valor CCI=0 se obtiene cuando la concordancia observada es igual a la que se esperaría que ocurriera sólo por azar. A la hora de interpretar los valores del CCI, toda clasificación es subjetiva, si bien resulta útil disponer de una clasificación como la que proponen otros autores (Tabla 5). Hasta ahora, se ha presentado la forma más habitual de cálculo del CCI. Para su cálculo en otras situaciones, así como para la obtención de intervalos de confianza, puede recurrirse a referencias más especializadas 6,18,19 6 . A pesar de ser la medida de concordancia más adecuada par el caso de variables numéricas, el CCI presenta ciertas limitaciones. Junto a la dificultad inherente a su cálculo, el hecho de que se trate de una prueba paramétrica limita su uso al caso en el que se verifiquen las hipótesis necesarias. A saber: variables distribuidas según una normal, igualdad de varianzas e independencia entre los errores de cada observador. Así mismo, el valor del CCI depende en gran medida de la variabilidad de los valores observados: cuanto más homogénea sea la muestra estudiada, más bajo tenderá a ser el valor del CCI. Pero quizás lo que más ha limitado la difusión del uso del CCI en la literatura médica es la carencia de interpretación clínica, que ha propiciado la aparición de otros métodos de análisis, mucho más intuitivo y fácilmente interpretables, que se exponen a continuación. Análisis de las diferencias individuales: método de Bland y Altman Un sencillo procedimiento gráfico para evaluar la concordancia entre dos sistemas de medida es el propuesto por Bland y Altman . Dicho procedimiento consiste en representar gráficamente las diferencias entre dos mediciones frente a su media. Utilizaremos para ilustrar dicha metodología las mediciones de tensión arterial sistólica obtenidas por medio de un esfigmomanómetro de mercurio en el brazo y la obtenida por medio de un monitor autoinflable electrónico en el dedo índice. Dichas mediciones fueron realizadas a 159 alumnos de las escuelas universitarias de enfermería de A Coruña y Ferrol. La correlación existente entre ambas mediciones (r=0,202; p<0.05) se presenta en la Figura 3, donde se objetiva una correlación positiva y estadísticamente diferente de cero. Si se representan en un diagrama de dispersión en el eje de ordenadas las diferencias entre ambos procedimientos, y en el eje de abscisas el promedio de ambas mediciones, se obtiene la Figura 4. En dicha figura objetivamos que muy pocas mediciones han concordado (diferencia igual a cero). Por el contrario, la mayoría de las veces el aparato http://www.fisterra.com/mbe/investiga/conc_numerica/conc_numerica.htm (4 of 16)22/04/2006 1:29:27 PM 13 La fiabilidad de las mediciones clínicas: el análisis de concordancia para variables numéricas electrónico digital ha proporcionado valores superiores al esfigmomanómetro de mercurio, de hecho la media de dichas diferencias (electrónico – mercurio) es positiva (22,5). Además, dicha gráfica permite objetivar que la discordancia se incrementa a medida que se obtienen valores más elevados de TAS. Por lo tanto, las diferencias no son homogéneas a lo largo del eje horizontal. La distribución de las diferencias se puede a su vez valorar realizando un histograma de las mismas (Figura 5), donde se objetiva claramente el predominio de diferencias positivas mostrando por lo tanto cómo el aparato electrónico claramente proporciona valores más elevados que el esfigmomanómetro de mercurio. Es evidente por lo tanto que la falta de homogeneidad de las diferencias, así como la magnitud de la misma, invalida la utilización del monitor digital del dedo índice como método en este estudio para tomar la tensión arterial. Un aspecto muy importante de la metodología de Bland y Altman es que proporciona además unos límites de concordancia a partir del cálculo del intervalo de confianza para la diferencia de dos mediciones. Como es bien sabido, el intervalo de dos desviaciones estándar alrededor de la media de las diferencias incluye el 95% de las diferencias observadas. Estos valores deben compararse con los límites de concordancia que se hayan establecido previamente al inicio del estudio para concluir si las diferencias observadas son o no clínicamente relevantes. Otros métodos de análisis Distintos autores han propuesto algunas técnicas alternativas para el análisis de la concordancia para mediciones numéricas, principalmente desde un punto de vista gráfico, . Una propuesta sencilla y muy reciente se basa en construir una gráfica, similar a las de Kaplan-Meier que se utilizan en el análisis de supervivencia, donde en el eje horizontal se representa la diferencia absoluta entre dos mediciones para cada sujeto y en el eje vertical la proporción de casos en los que las discrepancias igualan al menos cada una de las diferencias observadas . La gráfica se construye así igual que en un análisis de supervivencia, donde ningún caso es censurado, y el papel de la variable “tiempo” lo juega aquí la diferencia absoluta entre las mediciones. Si retomamos el ejemplo anterior (Tabla 3), en la Figura 6 se muestra el análisis de las diferencias individuales según la metodología de Bland y Altman. Del gráfico se deduce claramente que el método B proporciona con frecuencia valores más bajos de tensión arterial, con una diferencia media de -3,23. De modo complementario, en la Tabla 6 se muestra la magnitud, en términos absolutos, de las dos mediciones de tensión arterial en http://www.fisterra.com/mbe/investiga/conc_numerica/conc_numerica.htm (5 of 16)22/04/2006 1:29:27 PM que vienen a complementar el método de Bland y Altman 14-16 16 La fiabilidad de las mediciones clínicas: el análisis de concordancia para variables numéricas cada paciente, así como el porcentaje acumulado de casos en los que se supera cada una de estas diferencias. A partir de estos datos puede construirse fácilmente la Figura 7, en la que se muestra el desacuerdo existente entre ambos métodos. Dicho gráfico permite evaluar si la diferencia tiene o no alguna relevancia desde un punto de vista clínico. Así, por ejemplo, si establecemos como aceptable un margen de error entre las mediciones de 2 mmHg se obtiene un porcentaje de acuerdo de un 20%, mientras que la concordancia alcanza el 90% si se admiten diferencias de hasta 8 mmHg, lo cual resulta aceptable desde un punto de vista clínico. Al igual que el método propuesto por Bland y Altman, el principal atractivo de esta alternativa es que permite expresar sus resultados gráficamente, relacionándolos con unos límites de concordancia preestablecidos según criterios clínicos antes del estudio, lo que los hace especialmente atractivos para los profesionales sanitarios. Así mismo, permite contrastar si el grado de acuerdo depende de alguna otra covariable, construyendo gráficos independientes, uno para cada nivel de la variable. Incluso es posible utilizar el test del log-rank para testar la existencia de diferencias significativas entre esas curvas. No obstante, al trabajar con las diferencias absolutas, este método, al contrario que el de Bland y Altman, no permite observar si existe una diferencia sistemática a favor de alguna de las dos técnicas u observadores, y tampoco comprobar si la magnitud de dicha diferencia se modifica en relación a la magnitud de la medida. En definitiva, el problema del análisis de la concordancia en el caso de variables numéricas puede abordarse según diferentes metodologías. Lejos de recomendar el uso estándar de alguna de estas técnicas, más bien deben considerarse como métodos de análisis que ofrecen información complementaria. En cualquier caso, es conveniente insistir una vez más en la conveniencia de garantizar la validez y fiabilidad de los instrumentos de medida utilizados habitualmente en la práctica e investigación clínica. No debemos olvidar que un estudio bien diseñado, ejecutado y analizado fracasará si la información que se obtiene es inexacta o poco fiable . Bibliografía 1. Argimon Pallán JM, Jiménez Vill J. Métodos de investigación clínica y epidemiológica. 2ª ed. Madrid: Harcorurt; 2000. 2. Hernández Aguado I, Porta Serra M, Miralles M, García Benavides F, Bolúmar F. La cuantificación de la variabilidad en las observaciones clínicas. Med Clin (Barc) 1990; 95: 424-429. [Medline] 3. Sackett DL. A primer on the precision and accuracy of the clinical examination. JAMA 1992; 267: 2638-2644. [Medline] 1 http://www.fisterra.com/mbe/investiga/conc_numerica/conc_numerica.htm (6 of 16)22/04/2006 1:29:27 PM La fiabilidad de las mediciones clínicas: el análisis de concordancia para variables numéricas 4. Latour J, Abraira V, Cabello JB, López Sánchez J. Métodos de investigación en cardiología clínica (IV). Las mediciones en clínicas en cardiología: validez y errores de medición. Rev Esp Cardiol 1997; 50(2): 117-128. [Medline] [Texto completo] 5. Pita Fernández S, Pértega Díaz S. Pruebas diagnósticas. Cad Aten Primaria 2003; 10: 120124. [Texto completo] 6. Fleiss JL. The design and analysis of clinical experiments. New York: Wiley; 19867. Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics 1977; 33: 159-174. [Medline] 8. Ripolles Orti M, Martín Rioboo E, Díaz Moreno A, Aranguren Baena B, Murcia Simón M, Toledano Medina A, Fonseca Del Pozo FJ. Concordancia en la medición de presión arterial entre diferentes profesionales sanitarios. ¿Son fiables los esfigmomanómetros de mercurio? Aten Primaria 2001; 27(4): 234-43. [Medline] [Texto completo] 9. Divison JA, Carbayo J, Sanchis C, Artigao LM. Concordancia entre las automedidas domiciliarias y la monitorización ambulatoria de la presión arterial. Med Clin (Barc). 2001; 116(19): 759. [Medline] 10. López de Ullibarri Galparsoro I, Pita Fernández S. Medidas de concordancia: el índice Kappa. Cad Aten Primaria 1999; 6: 169-171. 11. Prieto L, Lamarca R, Casado A. La evaluación de la fiabilidad en las observaciones clínicas: el coeficiente de correlación intraclase. Med Clin 1998: 110(4): 142-145. [Medline] 12. Bravo G, Potvin L. Estimating the reliability of continuous measures with Cronbach's alpha or the intraclass correlation coefficient: toward the integration of two traditions. J Clin Epidemiol. 1991; 44(4-5): 381-90. [Medline] 13. Bland JM, Altman DG. Statistical methods for assessing agreement between two methods of clinical measurement. Lancet 1986; 1: 307-310. [Medline] 14. Monti KL. Folded empirical distribution function curves – mountain plots. Am Stat 1995; 49: 342-345. [ISI] 15. Krouwer JS, Monti KL. A simple, graphical method to evaluate laboratory assays. Eur J Clin Chem Clin Biochem 1995; 33: 525-527. [Medline] 16. Luiz RR, Costa JL, Kale PL, Werneck GL. Assessment of agreement of a quantitative variable: a new graphical approach. J Clin Epidemiol 2003; 56(10): 963-967. [Medline] 17. Bland JM, Altman DG. Measurement error and correlation coefficients. BMJ 1996; 313: 4142. [Medline] [Texto completo] 18. Bartko JJ. The intraclass correlation coefficient as a measure of reliability. Psychol Rep 1966; 19: 3-11. [Medline] 19. McGraw KO, Wong SP. Forming inferences about some intraclass correlation coefficients. Psychol Methods 1996; 1: 30-46. Tabla 1. Ejemplo teórico sobre mediciones de Tensión Arterial Sistólica con dos instrumentos diferentes. http://www.fisterra.com/mbe/investiga/conc_numerica/conc_numerica.htm (7 of 16)22/04/2006 1:29:27 PM La fiabilidad de las mediciones clínicas: el análisis de concordancia para variables numéricas Instrumento A 110 120 130 140 150 160 170 180 190 200 Instrumento B 111 121 131 141 151 161 171 181 191 201 Tabla 2. Tabla ANOVA para medidas repetidas. Fuente de variación Grados de libertad n-1 Suma de cuadrados Media cuadrática Entre sujetos SCENTRE= Observador Intra sujetos Residual k-1 SSOBS= (n-1)(k-1) SSRES= Total nk-1 SCTOTAL= n: número de sujetos. k: número de observaciones por sujeto. Tabla 3. Resultados de la medición de la presión arterial sistólica (TAS) en 30 pacientes, utilizando dos métodos diferentes. TAS Método A 80 85 90 95 100 105 110 115 120 125 110 TAS Método B 83 83 94 93 100 103 112 114 121 127 111 Diferencia -3 2 -4 2 0 2 -2 1 -1 -2 -1 http://www.fisterra.com/mbe/investiga/conc_numerica/conc_numerica.htm (8 of 16)22/04/2006 1:29:27 PM La fiabilidad de las mediciones clínicas: el análisis de concordancia para variables numéricas 120 130 140 110 130 135 140 145 150 155 160 165 170 175 180 185 190 195 200 123 128 148 113 132 139 144 152 157 156 171 164 179 181 184 190 196 203 206 -3 2 -8 -3 -2 -4 -4 -7 -7 -1 -11 1 -9 -6 -4 -5 -6 -8 -6 Tabla 4. Tabla ANOVA para las mediciones de tensión arterial. Fuente de variación Entre sujetos Intra sujetos Observador Residual Grados de libertad 29 1 29 59 Suma de cuadrados 73597,683 156,817 185,683 73940,183 Media cuadrática 2537,851 156,817 6,403 Total Tabla 5. Valoración de la concordancia según los valores del Coeficiente de Correlación Intraclase (CCI). Valor del CCI >0,90 0,71-0,90 0,51-0,70 0,31-0,50 <0,30 Fuerza de la concordancia Muy buena Buena Moderada Mediocre Mala o nula Tabla 6. Distribución de la diferencia absoluta entre las mediciones de tensión arterial en 30 pacientes. Diferencia absoluta 0 1 2 Frecuencia 1 5 7 Porcentaje acumulado 3,3% 20,0% 43,3% http://www.fisterra.com/mbe/investiga/conc_numerica/conc_numerica.htm (9 of 16)22/04/2006 1:29:27 PM La fiabilidad de las mediciones clínicas: el análisis de concordancia para variables numéricas 3 4 5 6 7 8 9 11 3 4 1 3 2 2 1 1 53,3% 66,7% 70,0% 80,0% 86,7% 93,3% 96,7% 100,0% Figura 1. Correlación entre los instrumentos A y B para la medición de la Tensión Arterial Sistólica. Figura 2. Mediciones de tensión arterial sistólica en 30 pacientes según dos métodos de medición. http://www.fisterra.com/mbe/investiga/conc_numerica/conc_numerica.htm (10 of 16)22/04/2006 1:29:27 PM La fiabilidad de las mediciones clínicas: el análisis de concordancia para variables numéricas Figura 3. Correlación entre los valores de Tensión Arterial Sistólica medida con esfigmomanómetro de mercurio en brazo dominante y monitor digital en dedo índice. http://www.fisterra.com/mbe/investiga/conc_numerica/conc_numerica.htm (11 of 16)22/04/2006 1:29:27 PM La fiabilidad de las mediciones clínicas: el análisis de concordancia para variables numéricas Figura 4. Diferencias en los valores de Tensión Arterial Sistólica medidos con esfigmomanómetro de mercurio en brazo dominante y monitor digital en dedo índice. Método de Bland y Altman. http://www.fisterra.com/mbe/investiga/conc_numerica/conc_numerica.htm (12 of 16)22/04/2006 1:29:27 PM La fiabilidad de las mediciones clínicas: el análisis de concordancia para variables numéricas Figura 5. Histograma de las diferencias entre el monitor electrónico y el esfigmomanómetro de mercurio para la medición de Tensión Arterial Sistólica. http://www.fisterra.com/mbe/investiga/conc_numerica/conc_numerica.htm (13 of 16)22/04/2006 1:29:27 PM La fiabilidad de las mediciones clínicas: el análisis de concordancia para variables numéricas Figura 6. Diferencias en los valores de tensión arterial sistólica (TAS) según dos métodos de medida A y C en relación con su promedio. http://www.fisterra.com/mbe/investiga/conc_numerica/conc_numerica.htm (14 of 16)22/04/2006 1:29:27 PM La fiabilidad de las mediciones clínicas: el análisis de concordancia para variables numéricas Figura 7. Porcentaje de discordancia entre dos métodos de medición de la tensión arterial sistólica (A y B) http://www.fisterra.com/mbe/investiga/conc_numerica/conc_numerica.htm (15 of 16)22/04/2006 1:29:27 PM La fiabilidad de las mediciones clínicas: el análisis de concordancia para variables numéricas Página Principal | Material para la Consulta | Metodología de la Investigación http://www.fisterra.com/mbe/investiga/conc_numerica/conc_numerica.htm (16 of 16)22/04/2006 1:29:27 PM Revisiones sistemáticas y metaanálisis Guías Clínicas Ayuda en consulta Medicamentos Formación Biblioteca virtual Tienda Formación - MBE - Metodología de la Investigación Metodología de la Investigación Autores: Mapa Buscador Avanzado Revisiones sistemáticas y Metaanálisis Sonia Pértega Díaz , Salvador Pita Fernández (1) Unidad de Epidemiología Clínica y Bioestadística. Complejo Hospitalario Juan Canalejo (A Coruña). (2) Médico de Familia. Centro de Salud de Cambre (A Coruña). CAD ATEN PRIMARIA 2005; 12(2): 109-112. Actualizada el 07/02/2006. Tabla de contenidos: (1) (2) Introducción Limitaciones del metaanálisis y las revisiones sistemáticas Etapas en una revisión sistemática Bibliografía Imprimir documento [ Kb] ¿Problemas con PDF? ----------------------- Introducción El extraordinario y progresivo incremento en el número de publicaciones científicas ha planteado desde hace ya algún tiempo la necesidad de realizar revisiones de la literatura médica en un intento de sintetizar los resultados alcanzados en relación a un tema determinado. A esto se añade el hecho de que los estudios individuales dependen de sus características particulares, y pocas veces dan respuestas definitivas a cuestiones clínicas, obteniéndose en ocasiones resultados contradictorios. Pese a todo ello, los conceptos de revisión sistemática y metaanálisis son todavía relativamente recientes, y vienen a formalizar, a mediados de los años 70 , el concepto de revisión narrativa, según el cual hasta entonces para revisar la evidencia en torno a un tema de interés se seleccionaba un número determinado de artículos, limitándose habitualmente a contar el número de estudios con resultados positivos y negativos (por ejemplo, aquellos con resultados a favor o en contra de la efectividad de un determinado tratamiento), y con una valoración a lo sumo subjetiva de las características metodológicas o la calidad científica atribuible a cada uno de los trabajos incluidos. En contraposición a la revisión http://www.fisterra.com/mbe/investiga/metaanalisis/RSyMetaanalisis.asp (1 of 8)22/04/2006 1:29:37 PM 1 Revisiones sistemáticas y metaanálisis narrativa clásica, la revisión sistemática viene a dotar de un mayor rigor tanto al proceso de selección de los trabajos como a la posterior integración y análisis de los resultados . Puesto que no todas las revisiones sistemáticas de la bibliografía han de incluir necesariamente un metaanálisis, en la actualidad se recomienda utilizar ambos términos para acuñar distintas realidades. Así, se suele hablar de revisión sistemática para referirse al proceso de identificar sistemáticamente y evaluar varios estudios del mismo tipo y con un objetivo común, mientras que por metaanálisis nos referiremos habitualmente al conjunto de técnicas estadísticas mediante las cuales se combinan los resultados de estos estudios para obtener parámetros de medida globales. En atención primaria, al igual que en otras especialidades, las técnicas del metaanálisis pueden contribuir a buscar siempre la mejor evidencia disponible y tomar decisiones sobre el cuidado de los pacientes. Como ejemplo, podemos tomar una investigación reciente , en la cual se realizó una revisión sistemática de 15 ensayos clínicos sobre la comparación de la terapia clásica antihipertensiva (diuréticos o Beta-bloqueantes) y los nuevos fármacos (IECAS, ARA II, Calcioantagonistas o alfa-bloqueantes) para la reducción de la morbimortalidad cardiovascular. La búsqueda bibliográfica para la selección de los trabajos se extendió a publicaciones electrónicas y consultas de audiciones públicas, cumpliendo las investigaciones seleccionadas criterios de inclusión/ exclusión claramente especificados por los autores de la revisión (aleatorización, seguimiento mínimo de 2 años, tamaño muestral>100, etc). El beneficio de un grupo tratamiento frente a otro se analizó mediante odds ratios (OR), que fueron calculados para cada uno de los estudios originales, y posteriormente combinados mediante metaanálisis para producir un valor OR global, concluyéndose una similar protección cardiovascular de ambas terapias. En lo que sigue, nos centraremos fundamentalmente en la exposición de las fases de las que consta el proceso de la revisión sistemática, así como de sus posibles limitaciones para, en posteriores trabajos, centrarse en las técnicas estadísticas habitualmente utilizadas en la integración de resultados durante la etapa del metaanálisis. Limitaciones del Metaanálisis y las Revisiones Sistemáticas. Antes de exponer las distintas fases que ha de incluir toda revisión sistemática, es importante destacar las limitaciones metodológicas inherentes a este tipo de estudios , a fin de valorar convenientemente la importancia de cada una de las etapas que se señalarán a continuación. Uno de los principales sesgos que afectan a este tipo de revisiones es el conocido como sesgo de publicación . Viene derivado del hecho de que muchos trabajos científicos, en su mayoría con resultados “negativos” (aquellos que no hallan diferencias significativas o 7 4-7 3 2 http://www.fisterra.com/mbe/investiga/metaanalisis/RSyMetaanalisis.asp (2 of 8)22/04/2006 1:29:37 PM Revisiones sistemáticas y metaanálisis con resultados en contra de la hipótesis de estudio o de lo habitualmente establecido) nunca llegan a publicarse, tardan más en hacerlo o son menos citados en otras publicaciones. Todo ello condiciona los resultados de una búsqueda bibliográfica y puede dar lugar a resultados sesgados en un metaanálisis. Otros hechos que contribuyen a este tipo de sesgos es la publicación duplicada de estudios o el ignorar los trabajos publicados en un idioma distinto al inglés. Junto con el sesgo de publicación, el sesgo de selección es una de las principales críticas del metaanálisis . Es importante definir con claridad los criterios de inclusión y exclusión de los estudios en la revisión, y que estos sean lo más objetivos posible. El propio autor del metaanálisis puede sesgar los resultados, ya que su criterio para incluir o excluir un estudio del análisis puede venir influenciado por los resultados del mismo. Otros aspectos que pueden comprometer la validez de los resultados de un metaanálisis son la calidad de los estudios originales incluidos, la variabilidad entre estudios o los errores en la fase de análisis. Las conclusiones del metaanálisis dependerán en gran medida de la calidad de los estudios originales, de modo que al combinar resultados de investigaciones sesgadas o metodológicamente deficientes también se incurrirá en un sesgo a la hora de obtener un estimador global del efecto. A su vez, la heterogeneidad entre los diferentes estudios que se combinan puede afectar de una manera muy importante los resultados del metaanálisis. Suelen ser investigaciones realizadas en distintos contextos, con pacientes de características no necesariamente similares o incluso con resultados muy diferentes, lo que implica que no siempre será aconsejable realizar un metaanálisis. Deberán investigarse las posibles fuentes de heterogeneidad, su influencia en los resultados y la posibilidad de realizar un análisis por subgrupos. Finalmente, los resultados pueden verse comprometidos por el empleo de técnicas de análisis erróneas o una definición incorrecta de las medidas que se desean combinar. Los valores de significación, que no informan del sentido ni de la magnitud de la asociación, o los estadísticos de contraste, que tienen en cuenta el sentido del efecto pero no su magnitud, no deberían considerarse como medidas de entrada al metaanálisis. Etapas en una revisión sistemática. La revisión sistemática se ha convertido así en un diseño de investigación en sí misma en el que las unidades de estudio, en lugar de pacientes o unidades administrativas, son los trabajos originales que se revisan . Como en cualquier estudio de investigación, su realización requiere seguir un protocolo que debe incluir los siguientes pasos 4,5,9-13 8 7 : 1. Establecimiento de la pregunta que se desea responder y razones http://www.fisterra.com/mbe/investiga/metaanalisis/RSyMetaanalisis.asp (3 of 8)22/04/2006 1:29:37 PM Revisiones sistemáticas y metaanálisis para ello: Como en cualquier proceso de investigación, debe establecerse de forma lo más clara y concisa posible la pregunta de investigación que se intenta responder. 2. Cuantificación de los efectos: Los investigadores deberán concretar qué medidas se van a utilizar para medir el efecto de interés, en función del tipo de respuesta a estudiar y el diseño de los estudios revisados. Así, por ejemplo, si la respuesta es binaria (enfermedad/no enfermedad, muerte/supervivencia,…) las medidas de efecto utilizadas suelen ser la diferencia de proporciones, el riesgo relativo o la odds ratio. Por el contrario, si la respuesta es un parámetro numérico (por ejemplo, la determinación de un parámetro analítico) el efecto suele medirse mediante la diferencia estandarizada de medias en los grupos de interés. Debe tenerse en cuenta que en los estudios experimentales, con grupos aleatorizados, el propio diseño controla la confusión y los efectos pueden medirse con resultados “crudos” como los descritos. Por el contrario, en metaanálisis realizados a partir de evidencia observacional, el control del sesgo en el análisis deberá hacerse mediante técnicas de regresión multivariante, siendo los resultados de estos modelos los que deben combinarse en la etapa del metaanálisis para obtener una medida global de interés. Finalmente, es también aconsejable que en el momento de planificación de la investigación se fije la diferencia mínima en la variable respuesta que será considerada de relevancia clínica. 3. Localización de los estudios de investigación: Se debe realizar una búsqueda exhaustiva, objetiva y reproducible de los trabajos originales sobre el tema, que además de bases de datos electrónicas incluya búsquedas detalladas en las revistas relacionadas y búsquedas manuales de la llamada “literatura gris” (referencias bibliográficas, tesis doctorales, comunicaciones a congresos, informes de instituciones públicas o privadas, trabajos no publicados o publicados en revistas no indexadas, etc). La exhaustividad y el rigor de la búsqueda bibliográfica determinará en gran medida la calidad y validez final del metaanálisis. 4. Criterios de inclusión/exclusión de los estudios: Los investigadores deben establecer cuáles de los trabajos recuperados serán incluidos finalmente en el metaanálisis, elaborando una lista de criterios de inclusión y exclusión que deberá ser lo más objetiva posible. Para evitar el denominado sesgo de selección, es importante aplicar dichos criterios rigurosamente a cada estudio, siendo recomendable que esta evaluación sea realizada de forma ciega e independiente por varios evaluadores. Entre los criterios de selección utilizados con mayor frecuencia en el metaanálisis están: el tipo de diseño de los trabajos, el tamaño muestral estudiado, la exhaustividad de la información que presentan o la comparabilidad en la definición de los factores de exposición, de las intervenciones y de las respuestas estudiadas. Aunque algunos autores sugieren utilizar la calidad metodológica de los trabajos como un criterio de inclusión, es más aconsejable considerarlo como una variable más a tener en cuenta en la interpretación de los resultados del metaanálisis http://www.fisterra.com/mbe/investiga/metaanalisis/RSyMetaanalisis.asp (4 of 8)22/04/2006 1:29:37 PM Revisiones sistemáticas y metaanálisis mediante un análisis de sensibilidad. 5. Búsqueda de información y datos relevantes de cada estudio: En cada uno de los artículos originales que se revisan, se debe buscar información de interés referente a las características de los estudios (diseño, criterios de inclusión/exclusión o de selección de casos y controles, periodo de selección, periodo de seguimiento, aleatorización, tipo de intervención, etc.), a las características de la población de estudio, a su calidad metodológica (incluyendo los métodos de análisis estadístico utilizados) y a sus resultados, con especial énfasis a la descripción de las variables del efecto de interés. Como en cualquier otro proyecto de investigación, es aconsejable elaborar un formulario con los datos que deben consignarse para cada trabajo y que la recogida de datos sea realizada por más de un investigador, a fin de evaluar la consistencia de los resultados y consensuar posibles discrepancias. 6. Evaluación de la calidad de los estudios incluidos: Junto con la estrategia de búsqueda de información, la calidad metodológica de los artículos revisados es otro elemento clave a la hora de determinar la validez del metaanálisis. Existen publicadas diversas escalas de valoración de la calidad de los estudios, que si bien valoran generalmente los mismos aspectos (diseño del estudio, control de sesgos, tamaño muestral, seguimiento, aleatorización, enmascaramiento, etc.), pueden llegar a resultados discrepantes. En cualquier caso, una vez valorada la calidad metodológica de cada trabajo, algunos autores proponen utilizar las puntuaciones asignadas como pesos en el metaanálisis, mientras que otros defienden la utilización en su lugar de un análisis de sensibilidad. 7. Análisis de la heterogeneidad de los estudios: La evaluación del grado de heterogeneidad de los estudios puede llevarse a cabo mediante distintas pruebas estadísticas, entre las que destaca la prueba Q propuesta por Der Simonian y Laird . No obstante, estos tests presentan una potencia muy baja, dado que además en la mayoría de los casos los metaanálisis incluyen un número relativamente pequeño de estudios, aumentando así la posibilidad de cometer un error de Tipo II. Por todo ello, el análisis de la heterogeneidad suele llevarse a cabo mediante métodos gráficos como el gráfico de L’Abbé o el gráfico de Galbraith que permiten inspeccionar visualmente la falta de homogeneidad entre los estudios recopilados. En caso de que exista heterogeneidad entre los estudios incluidos en la revisión, los investigadores pueden optar simplemente por no realizar el metaanálisis, por obtener una medida agregada del efecto de interés indicando una medida de la variabilidad entre estudios o bien por realizar un análisis por subgrupos homogéneos de ser posible identificar la causa de la heterogeneidad. 8. Combinación de resultados: Como ya adelantábamos antes, el método elegido para combinar los resultados de los diferentes estudios en una medida global del efecto vendrá determinado fundamentalmente por el tipo de respuesta a estudiar (binaria o continua) y, también, por los http://www.fisterra.com/mbe/investiga/metaanalisis/RSyMetaanalisis.asp (5 of 8)22/04/2006 1:29:37 PM 14 15 16 Revisiones sistemáticas y metaanálisis resultados derivados del análisis de heterogeneidad. En la mayoría de los casos, el estimador del efecto combinado se calcula como una media ponderada de los estimadores de cada estudio, donde los pesos se asignan en base a la precisión de cada trabajo, generalmente el inverso de la varianza de la estimación correspondiente. De esta forma, los estudios con mayor variabilidad (por ejemplo, aquellos con un tamaño muestral más reducido), tienen una contribución menor en el estimador global. La heterogeneidad entre estudios puede ser tenida en cuenta en estos cálculos utilizando el llamado modelo de efectos aleatorios, o no ser incluida mediante el uso del modelo de efectos fijos . La principal diferencia es que con este último se considera que no existe heterogeneidad entre estudios, mientras que con el modelo de efectos aleatorios se consideran dos posibles fuentes de variabilidad, la variabilidad intra-estudio y la variabilidad entre-estudios, que se incorporan al estimador combinado a través de los pesos correspondientes. No obstante, debe tenerse en cuenta que cuando existe una gran heterogeneidad entre estudios el metaanálisis, aún bajo la suposición de efectos aleatorios, no es apropiado y lo que procede es identificar las fuentes de variabilidad y realizar un análisis por subgrupos. Finalmente, los resultados obtenidos suelen representarse típicamente en una gráfica que muestra las estimaciones del efecto individuales de cada estudio, además del valor global obtenido al combinar todos los resultados y su correspondiente intervalo de confianza. 9. Identificación del sesgo de publicación: Como en cualquier otro estudio, en un metaanálisis deberá valorarse la existencia de posibles sesgos entre los que el sesgo de publicación es uno de los más importantes. Entre los métodos disponibles para valorar el sesgo de publicación el gráfico en embudo o funnel plot es quizá el más utilizado, en el que se representa el tamaño muestral de cada trabajo frente al tamaño del efecto detectado. Este tipo de gráficos, puesto que pueden dar lugar a interpretaciones poco objetivas, suelen complementarse con técnicas estadísticas como la prueba de Begg o de Egger . 10. Análisis de sensibilidad: El análisis de sensibilidad permite estudiar la influencia individual de cada estudio al resultado del metaanálisis y, por lo tanto, determinar si los resultados pueden verse sesgados por estudios con escasa calidad metodológica, trabajos no publicados o que no cumplan estrictamente los criterios de selección, etc. Consistiría en replicar el metaanálisis quitando en cada paso uno de los estudios incluidos, para ver si se obtienen o no resultados similares de forma global. El proceso de realización de una revisión sistemática no es pues un proceso fácil pero, en este sentido, no difiere del proceso de elaboración de cualquier otro tipo de investigación científica . Una buena revisión sistemática constituye una herramienta excelente para encontrar la mejor evidencia disponible sobre http://www.fisterra.com/mbe/investiga/metaanalisis/RSyMetaanalisis.asp (6 of 8)22/04/2006 1:29:37 PM 17 18 19 18 6 Revisiones sistemáticas y metaanálisis un tema de interés, si bien una lectura crítica y objetiva de estos trabajos es indispensable para poder valorar en su medida su calidad metodológica y realizar una correcta interpretación de sus conclusiones. Bibliografía 1. Glass GV. Primary, secondary, and meta-analysis of research. Educational Researcher 1976; 5: 3-8. 2. Teagarden JR. Meta-analysis: whither narrative review? Pharmacotherapy 1989; 9: 274-284. [Medline] 3. Staessen JA, Wang JG, Thies L. Cardiovascular prevention and blood pressure reduction: a quantitative overview updated until 1 March 2003. J Hypertens 2003; 21: 1055-1076. [Medline] 4. Guallar E, Banegas JR, Martín-Moreno JM, Del Río A. Metaanálisis: su importancia en la toma de decisiones clínicas en cardiología. Rev Esp Cardiol 1994; 47: 509-517. [Medline] 5. Molinero Casares LM. Metaanálisis: claves para interpretar una herramienta de investigación controvertida. Hipertensión 2001; 18(5): 232-240. 6. Ruano-Raviña A, Figueiras A, Barros-Dios JM. El metaanálisis a debate. Med Clin (Barc) 2002; 119(11): 435-439. [Medline] 7. Egger M, Smith GD. Meta-analysis bias in location and selection of studies. BMJ 1998; 316: 61-66. [Medline] [Texto completo] 8. Guallar E, Banegas JR, Martín-Moreno JM, Del Río A. Metaanálisis: su importancia en la toma de decisiones clínicas en cardiología. Rev Esp Cardiol 1994; 47: 509-517. [Medline] 9. Altman DG. Statistics in medical journals: some recent trends. Stat Med 2000; 19. 3275-89. [Medline] 10. Petitti D. Meta-analysis, decision analysis, and cost-effectiveness analysis. Methods for quantitative synthesis in medicine. Nueva York: Oxford University Press; 1994. 11. Greenland S. Quantitative methods in the review of epidemiologic literature. Epidemiol Rev 1987; 9: 1-30. 12. Friedenreich CM. Methods for pooled analysis of epidemiologic studies. Epidemiology 1993; 4: 295-302. [Medline] 13. Abraira V. Revisiones sistemáticas y metaanálisis. Semergen 2003; 29 (4): 183-185. 14. DerSimonian R, Laird N. Meta-analysis in clinical trials. Control Clin Trials 1986; 7: 177-188. [Medline] 15. L’Abbé K, Detsky A, O’Rourke K. Meta-analysis in clinical research. Ann Intern Med 1987; 107: 224-233. [Medline] 16. Galbraith R. A note on graphical presentation of estimated odds ratios from several clinical trials. Stat Med 1988; 7: 889-894. [Medline] 17. Egger M, Smith GD, Phillips AN. Meta-analysis: Principles and procedures. BMJ 1997; 315: 1533-1537. [Medline] [Texto completo] http://www.fisterra.com/mbe/investiga/metaanalisis/RSyMetaanalisis.asp (7 of 8)22/04/2006 1:29:37 PM Revisiones sistemáticas y metaanálisis 18. Egger M, Smith GD, Schneider M, Minder C. Bias in meta-analysis detect by a simple, graphical test. BMJ 1997; 315: 629-634. [Medline] [Texto completo] 19. Begg CB, Mazumsdar M. Operating characteristics of a rank correlation test for publication bias. Biometrics 1994; 50: 1088-1101. [Medline] Arriba © 2006 fisterra.com Mis Datos | Contacto-Sugerencias | FAQ's | Condiciones de uso | Política de privacidad http://www.fisterra.com/mbe/investiga/metaanalisis/RSyMetaanalisis.asp (8 of 8)22/04/2006 1:29:37 PM Revisiones sistemáticas y metaanálisis (II) Guías Clínicas Ayuda en consulta Medicamentos Formación Biblioteca virtual Tienda Formación - MBE - Metodología de la Investigación Metodología de la Investigación Autores: Mapa Buscador Avanzado Revisiones sistemáticas y Metaanálisis (II) Sonia Pértega Díaz , Salvador Pita Fernández (1) Unidad de Epidemiología Clínica y Bioestadística. Complejo Hospitalario Juan Canalejo (A Coruña). (2) Médico de Familia. Centro de Salud de Cambre (A Coruña). CAD ATEN PRIMARIA 2005; 12(3): 166-171. Actualizada el 07/02/2006. Tabla de contenidos: Imprimir documento [ Kb] ¿Problemas con PDF? (1) (2) Introducción El análisis de la heterogeneidad ----------------------Tablas Tabla 1. Metaanálisis de diez ensayos clínicos que analizan la eficacia de un nuevo fármaco en Métodos estadísticos para la el tratamiento de una nueva enfermedad combinación de resultados Tabla 2. Resultados del metaanálisis para los datos de ejemplo de la Tabla 1 Presentación de los resultados · Modelo de efectos fijos · Modelo de efectos aleatorios Análisis de sensibilidad y del sesgo de selección Bibliografía Figura 1. Gráfico de Galbraith para los datos del ejemplo Figura 2. Gráfico de L’Abblé para los datos del ejemplo Figura 3. Resultados del metaanálisis para los datos del ejemplo Figura 4. Análisis de sensibilidad para el metaanálisis de los datos del ejemplo Figura 5. Funnel plot para los resultados del metaanálisis con los datos del ejemplo Figuras Introducción. http://www.fisterra.com/mbe/investiga/metaanalisis/RSyMetaanalisis2.asp (1 of 13)22/04/2006 1:29:54 PM Revisiones sistemáticas y metaanálisis (II) En un trabajo anterior se han presentado los conceptos de revisión sistemática y metaanálisis en el proceso de síntesis de los resultados alcanzados por diversos estudios en relación a un tema determinado . Dicha publicación se centró fundamentalmente en la exposición de las limitaciones y las etapas de una revisión sistemática, con una breve descripción de las técnicas estadísticas habitualmente utilizadas durante la etapa del metaanálisis. En el presente trabajo, se tratará de describir con mayor extensión los métodos estadísticos disponibles para la combinación de resultados en este tipo de estudios. El análisis de la heterogeneidad. Antes de optar por alguno de los distintos métodos estadísticos que permiten combinar los resultados individuales de cada estudio para obtener un estimador combinado del efecto, habrá que determinar: a. El tipo de respuesta a estudiar: si la respuesta es binaria o dicotómica la medida de efecto utilizada será la diferencia de proporciones, el riesgo relativo o el valor del odds ratio. Si la respuesta es una variable numérica, el efecto se medirá mediante la diferencia de medias en los grupos de interés. Puesto que esta diferencia será probablemente mayor cuando las medias sean mayores, en lugar de usar las diferencias absolutas se suelen utilizar las diferencias estandarizadas. En estudios no aleatorizados, en los que no se tenga control sobre los posibles factores de confusión, será aconsejable utilizar como medidas del efecto los correspondientes coeficientes de regresión. En este punto, no debe olvidarse además que los valores de significación (valores de la p), que no informan del sentido ni de la magnitud de la asociación, o los estadísticos de contraste, que tienen en cuenta el sentido del efecto pero no su magnitud, no son medidas apropiadas para utilizar en la fase del metaanálisis. b. La heterogeneidad entre estudios: Se trata de analizar hasta qué punto los resultados de los diferentes estudios pueden combinarse en una única medida. Diferencias en el diseño del estudio, las características de la población, etc. pueden llevar a resultados muy diferentes y comprometer los resultados del metaanálisis. La evaluación del grado de heterogeneidad puede llevarse a cabo mediante pruebas estadísticas, siendo la más utilizada la prueba Q de Der Simonian y Laird . Dicha prueba se basa en calcular una suma ponderada de las diferencias entre el efecto determinado en cada uno de los estudios (odds ratio, riesgo relativo, diferencia de medias, etc.) y el promedio global: 2 1 http://www.fisterra.com/mbe/investiga/metaanalisis/RSyMetaanalisis2.asp (2 of 13)22/04/2006 1:29:54 PM Revisiones sistemáticas y metaanálisis (II) con . De esta forma, si los estudios son homogéneos, el estadístico sigue con grados de libertad. El valor aproximadamente una distribución obtenido para dicho estadístico en cada caso concreto se confronta con la distribución teórica correspondiente, obteniéndose así un valor de significación que permite rechazar (p<0,05) o aceptar (p>0,05) la hipótesis de homogeneidad. No obstante, se trata de una prueba con escasa potencia estadística, por lo que un resultado no significativo suele ser insuficiente para concluir que no existe heterogeneidad ente los estudios, y conviene explorar esta posibilidad con otros métodos, fundamentalmente de tipo gráfico, como son el gráfico de Galbraith o el gráfico de L’Abbé 3 3,4 . Por un lado, en el gráfico de Galbraith se representa la precisión de cada estudio (el inverso del error estándar de la estimación del efecto) frente al efecto estandarizado (i.e., la estimación del efecto dividida entre su error estándar). Se representa también la línea de regresión ajustada a estos puntos y una banda de confianza, de modo que todos los puntos deberían situarse dentro de dicha banda. Los puntos fuera de esos márgenes de confianza son los que mayor variabilidad aportan al análisis. Además, aquellos estudios con un mayor peso en el metaanálisis serán los de mayor precisión y podrán identificarse, por lo tanto, a la derecha del gráfico. El gráfico de L’Abbé es otra herramienta útil en el caso de trabajar con una respuesta binaria (por ejemplo, respuesta a un nuevo tratamiento frente a otro estándar). En él se representa la proporción de eventos en el grupo control frente a la proporción de eventos en el grupo de tratamiento. Cada uno de los puntos en el gráfico representa así el riesgo relativo correspondiente a los diferentes estudios, de modo que la diagonal que divide el gráfico en dos secciones dejará a uno de los lados los estudios favorables al grupo de tratamiento y al otro los favorables al grupo control. La presencia de puntos dispersos, que no se sitúen de forma paralela a dicha diagonal, indicará posible heterogeneidad. Para ilustrar lo anterior, consideraremos un hipotético ejemplo en el que se desea realizar un metaanálisis de 10 ensayos clínicos que tratan de evaluar la eficacia de un nuevo fármaco para el tratamiento de una determinada enfermedad. En todos los estudios los pacientes son aleatorizados para recibir el fármaco experimental (Grupo de tratamiento) o bien el tratamiento habitual (Grupo control), contabilizándose en cada grupo el número de pacientes que se han recuperado de la enfermedad. La variable respuesta es por lo tanto la curación, y la medida de efecto el riesgo relativo ( http://www.fisterra.com/mbe/investiga/metaanalisis/RSyMetaanalisis2.asp (3 of 13)22/04/2006 1:29:54 PM 4 ). Los datos utilizados Revisiones sistemáticas y metaanálisis (II) para este ejemplo se muestran en la Tabla 1. La prueba de Der Simonian y Laird no revela, con un nivel de confianza del 95%, evidencia estadística de heterogeneidad (Q=14,401; p=0,109). Sin embargo, los gráficos de Galbraith y de L’Abbé sugieren cierto grado de heterogeneidad, con uno de los estudios fuera de las bandas de confianza en el primero (aquel que proporciona una menor estimación del efecto) y con puntos que no se alinean en torno a una línea recta en el gráfico de L’Abbé (Figuras 1 y 2). Métodos estadísticos para la combinación de resultados. A pesar de las diferencias entre los distintos métodos disponibles para el metaanálisis, todos ellos siguen un esquema similar. En la mayoría de los casos, el estimador del efecto combinado se calcula como una media ponderada de los estimadores de cada estudio, donde los pesos se asignan en base a la precisión de cada trabajo. De esta forma, los estudios con mayor variabilidad en la respuesta o con un tamaño muestral más reducido tendrán una contribución menor en el estimador global. Fundamentalmente, los métodos estadísticos más utilizados en la práctica pueden clasificarse en dos grupos, según se tenga en cuenta o no la heterogeneidad entre estudios en el análisis : los modelos de efectos aleatorios y los modelos de efectos fijos. a) Modelos de efectos fijos. En el modelo de efectos fijos se asume que no existe heterogeneidad entre los estudios incluidos en la revisión, de modo que todos ellos estiman el mismo efecto y las diferencias observadas se deben únicamente al azar. la medida de efecto (odds ratio, Denotando una vez más por diferencia de medias, etc.) obtenida a partir de los datos del i-ésimo estudio, en el modelo de efectos fijos se asume que existe un efecto global fijo : 5 siendo el error cometido al aproximar . El efecto global puede estimarse como un promedio ponderado de los efectos individuales de cada estudio: http://www.fisterra.com/mbe/investiga/metaanalisis/RSyMetaanalisis2.asp (4 of 13)22/04/2006 1:29:54 PM Revisiones sistemáticas y metaanálisis (II) donde los pesos estimación vienen dados como el inverso de la varianza de la correspondiente: La medida global del efecto así obtenida tendrá una varianza que viene dada por: de modo que si se asume que sigue una distribución normal podrá calcularse . el intervalo de confianza correspondiente como b) Modelos de efectos aleatorios. Por el contrario, con un modelo de efectos aleatorios se asume que los estudios incluidos en la revisión constituyen una muestra aleatoria de todos los estudios existentes. Ahora el efecto tres componentes: de cada estudio se considera que tiene donde es el efecto común que intersesa estimar, es el efecto a estimar en el i-esimo estudio (en función de las características particulares del mismo) y el error cometido en la estimación. Del mismo modo que en el modelo de efectos fijos, el efecto global se estima http://www.fisterra.com/mbe/investiga/metaanalisis/RSyMetaanalisis2.asp (5 of 13)22/04/2006 1:29:54 PM Revisiones sistemáticas y metaanálisis (II) aquí como una media ponderada de los estimadores individuales, donde los pesos se calculan ahora como el inverso de la suma de la varianza del estudio individual más la varianza entre estudios: La medida global del efecto así obtenida tendrá una varianza que viene dada por: pudiendo calcularse el intervalo de confianza correspondiente como . Es frecuente encontrar trabajos en los que se presentan conjuntamente los resultados del metaanálisis tanto con el modelo de efectos fijos como con el modelo de efectos aleatorios. Mientras que algunos autores defienden la utilización del modelo de efectos aleatorios en todos los casos, otros hacen hincapié en sus posibles deficiencias, como el hecho de que es menos preciso, proporcionando intervalos de confianza más amplios que el modelo de efectos fijos. En general, debe tenerse en cuenta que el principal objetivo de un metaanálisis no será siempre el de obtener un estimador combinado del efecto. Cuando los resultados de los estudios revisados sean claramente heterogéneos el análisis e identificación de las causas de dicha heterogeneidad debe convertirse en nuestro principal objetivo. Si las discrepancias no son muy grandes el modelo de efectos aleatorios se convierte en la alternativa al modelo más sencillo con efectos fijos para combinar los resultados. En caso de una mayor variabilidad en los resultados la mejor opción será no realizar el metaanálisis, averiguar las causas de la heterogeneidad y realizar un análisis por subgrupos. Presentación de los resultados. Una vez realizados los cálculos anteriores, los resultados de un metaanálisis suelen representarse en una gráfica (“forest plot”) en la que se muestra el efecto estimado en cada estudio junto con el valor obtenido combinando los resultados de todas las investigaciones, acompañados por sus respectivos intervalos de confianza. Además, suele representarse en la gráfica la línea http://www.fisterra.com/mbe/investiga/metaanalisis/RSyMetaanalisis2.asp (6 of 13)22/04/2006 1:29:54 PM Revisiones sistemáticas y metaanálisis (II) vertical del valor correspondiente a la ausencia de efectos (RR=1 o Diferencia de medias=0). Podría resultar útil fijar también los límites de relevancia clínica para determinar si las diferencias, además de alcanzar significación estadística, son de una magnitud relevante. Recurriendo una vez más al ejemplo anterior, en la Tabla 2 y en la Figura 3 se muestran los resultados del metaanálisis utilizando tanto el modelo de efectos fijos como el modelo de efectos aleatorios. Todos salvo uno de los estudios muestran resultados homogéneos, con un efecto favorable del tratamiento experimental, y RR comprendidos entre 1,04 y 1,57. En los casos en los que los intervalos de confianza cruzan la línea de no efecto (RR=1) la diferencia en las tasas de respuesta no ha resultado estadísticamente significativa. Con cualquiera de los dos métodos de análisis, los resultados permiten concluir que el nuevo tratamiento es significativamente mejor que el tratamiento estándar para conseguir la curación de los pacientes, obteniéndose medidas globales del efecto muy similares, de RR=1,21 con el modelo de efectos fijos y de RR=1,29 con el modelo de efectos aleatorios. Análisis de sensibilidad y del sesgo de selección. Después de realizar un metaanálisis, es recomendable estudiar la influencia de cada uno de los estudios en los resultados obtenidos. El análisis de sensibilidad consiste en replicar los resultados del metaanálisis excluyendo en cada paso uno de los estudios incluidos en la revisión. Si los resultados así obtenidos son similares, tanto en dirección como en magnitud del efecto y significación estadística indica que el análisis es robusto. Este mismo proceso podría repetirse eliminando a un mismo tiempo varios estudios (por ejemplo, aquellos de peor calidad metodológica, los no publicados, etc.) para determinar su posible influencia en los resultados. Junto con el análisis de sensibilidad, una vez obtenidos los resultados del metaanálisis se debe analizar la existencia de un posible sesgo de selección que pudiese poner en entredicho los resultados alcanzados. Entre los métodos más utilizados para evaluar la existencia de este tipo de sesgos el más popular es el gráfico de embudo (“funnel plot”), el cual se basa en representar el tamaño muestral de cada trabajo frente al tamaño del efecto detectado. Lo normal sería que todos los estudios detectasen un efecto de magnitud similar, en torno a una línea horizontal, con mayor dispersión cuanto menor fuese el tamaño muestral. De esta forma, los puntos tenderían a distribuirse en forma de un embudo invertido. Si, por el contrario, existiese un sesgo de publicación, de los estudios de menor tamaño muestral solo se publicarían aquellos que encontrasen diferencias significativas entre los grupos, de forma que la nube de puntos aparecería deformada en uno de sus extremos. Existen otras técnicas estadísticas como la prueba de Begg o de Egger , implementadas en la mayoría de los programas para la realización de metaanálisis, que permiten evaluar de una manera más objetiva la existencia de un posible sesgo de http://www.fisterra.com/mbe/investiga/metaanalisis/RSyMetaanalisis2.asp (7 of 13)22/04/2006 1:29:54 PM 6 6 7 Revisiones sistemáticas y metaanálisis (II) publicación. Para los datos del ejemplo previo, los resultados del análisis de sensibilidad y el gráfico “funnel plot” se muestran en las Figuras 4 y 5, respectivamente. Tal y como se puede apreciar, ninguno de los trabajos parece modificar sustancialmente los resultados si es eliminado del metaanálisis. Así mismo, la Figura 5 no evidencia la existencia de sesgo de publicación, lo cual es refrendado por los resultados de las pruebas de Begg (p=0,720) y Egger (p=0,316). En definitiva, las técnicas de metaanálisis constituyen así una herramienta sin excesiva complejidad estadística que permiten sintetizar los resultados de diferentes estudios en relación con un tema determinado. Su aplicación se ha visto facilitada en los últimos años gracias a la proliferación de programas informáticos que implementan este tipo de metodología, como es el caso del software EPIDAT . Sin embargo, su accesibilidad no debe potenciar su uso indiscriminado, obviando el hecho de que en ocasiones los diseños de los estudios que se incluyen en una revisión, su calidad metodológica o los resultados que estos alcanzan presentan un alto grado de heterogeneidad que desaconseja la realización del metaanálisis. Tabla 1. Metaanálisis de diez ensayos clínicos que analizan la eficacia de un nuevo fármaco en el tratamiento de una nueva enfermedad. Grupo de tratamiento Estudio Enfermos Sanos Grupo de control Enfermos Sanos RR 95% IC 8 1 2 3 4 5 6 7 8 80 40 67 20 387 765 75 703 20 40 40 34 107 222 30 345 82 60 80 22 350 830 80 765 18 30 25 32 100 150 25 240 1,11 1,50 1.57 1,06 0,97 1,47 1,20 1,38 0,631,97 1,042,16 1,032,39 0,791,44 0,771,24 1,221,77 0,761,89 1,201,59 http://www.fisterra.com/mbe/investiga/metaanalisis/RSyMetaanalisis2.asp (8 of 13)22/04/2006 1:29:54 PM Revisiones sistemáticas y metaanálisis (II) 9 10 255 111 120 45 290 109 77 42 1,53 1,04 1,191,95 0,731,48 Figura 1. Gráfico de Galbraith para los datos del ejemplo en la Tabla 1. Figura 2. Gráfico de L’Abblé para los datos del ejemplo en la Tabla 1. http://www.fisterra.com/mbe/investiga/metaanalisis/RSyMetaanalisis2.asp (9 of 13)22/04/2006 1:29:54 PM Revisiones sistemáticas y metaanálisis (II) Tabla 2. Resultados del metaanálisis para los datos de ejemplo de la Tabla 1. Pesos Estudio Tamaño muestral RR IC 95% (RR) Modelo de efectos fijos Modelo de efectos aleatorios 4 2 1 7 3 10 9 5 6 8 Efectos fijos 108 170 200 210 212 307 742 944 1967 2053 6913 1,0625 0,7861 1,4360 7,2094 1,5000 1,0411 2,1612 4,9052 1,1111 0,6263 1,9712 1,9908 1,2000 0,7601 1,8945 3,1375 1,5701 1,0306 2,3919 3,6921 1,0371 0,7264 1,4806 5,1614 9,5287 7,2288 3,4331 5,0711 5,7917 7,5103 1,5252 1,1910 1,9532 10,6925 12,2262 0,9747 0,7661 1,2401 11,2800 12,6111 1,4695 1,2184 1,7723 18,6395 16,2978 1,3785 1,1982 1,5860 33,2917 20,3012 1,3119 1,2100 1,4224 http://www.fisterra.com/mbe/investiga/metaanalisis/RSyMetaanalisis2.asp (10 of 13)22/04/2006 1:29:54 PM Revisiones sistemáticas y metaanálisis (II) Efectos aleatorios 6913 1,2880 1,1504 1,4421 Figura 3. Resultados del metaanálisis para los datos del ejemplo de la Tabla 1. Figura 4. Análisis de sensibilidad para el metaanálisis de los datos del ejemplo en la Tabla 1. http://www.fisterra.com/mbe/investiga/metaanalisis/RSyMetaanalisis2.asp (11 of 13)22/04/2006 1:29:54 PM Revisiones sistemáticas y metaanálisis (II) Figura 5. Funnel plot para los resultados del metaanálisis con los datos del ejemplo de la Tabla 1. http://www.fisterra.com/mbe/investiga/metaanalisis/RSyMetaanalisis2.asp (12 of 13)22/04/2006 1:29:54 PM Revisiones sistemáticas y metaanálisis (II) Bibliografía 1. Pértega Díaz S, Pita Fernández S. Revisiones sistemáticas y metaanálisis. Cad Aten Primaria 2005; 12(2): 109-112. [Texto completo] 2. DerSimonian R, Laird N. Meta-analysis in clinical trials. Control Clin Trials 1986; 7: 177-188. [Medline] 3. Galbraith R. A note on graphical presentation of estimated odds ratios from several clinical trials. Stat Med 1988; 7: 889-894. [Medline] 4. L’Abbé, K, Detsky A, O0Rourke K. Meta-analysis in clinical research. Ann Intern Med 1987; 107: 224-233. [Medline] 5. Molinero LM. Meta-análisis. [Internet[. Asociación de la Sociedad Española de Hipertensión; 2003 [acceso, 23 de noviembre de 2005]. Disponible en: http://www.seh-lelha.org/pdf/metaanalisis.pdf. 6. Begg CB, Mazumbar M. Operating characteristics of a rank correlation test for publication bias. Biometrics 1994; 50: 1088-1101. [Medline] 7. Egger M, Smith GD, Schneider M, Zinder Ch. Bias in meta-analysis detected by a simple, graphical test. BMJ 1997; 315: 629-634. [Medline] [Texto completo] 8. Epidat 3.0: Análise epidemiolóxico de datos tabulados.[Internet]. Xunta de Galicia, Consellería de Sanidade [acceso 23 Nov 2005]. Disponible en: http://dxsp.sergas.es/default.asp. Arriba © 2006 fisterra.com Mis Datos | Contacto-Sugerencias | FAQ's | Condiciones de uso | Política de privacidad http://www.fisterra.com/mbe/investiga/metaanalisis/RSyMetaanalisis2.asp (13 of 13)22/04/2006 1:29:54 PM
Copyright © 2024 DOKUMEN.SITE Inc.