Bioestadística EL LIBRO MUERE CUANDO LO FOTOCOPIA AMIGO LECTOR: La obra que usted tiene en sus manos posee un gran valor. En ella, su autor ha vertido conocimientos, experiencia y mucho trabajo. El editor ha procurado una presentación digna de su contenido y está poniendo todo su empeño y recursos para que sea ampliamente difundida, a través de su red de comercialización. Al fotocopiar este libro, el autor y el editor dejan de percibir lo que corresponde a la inversión que ha realizado y se desalienta la creación de nuevas obras. Rechace cualquier ejemplar “pirata” o fotocopia ilegal de este libro, pues de lo contrario estará contribuyendo al lucro de quienes se aprovechan ilegítimamente del esfuerzo del autor y del editor. La reproducción no autorizada de obras protegidas por el derecho de autor no sólo es un delito, sino que atenta contra la creatividad y la difusión de la cultura. Para mayor información comuníquese con nosotros: TERCERA EDICIÓN Bioestadística Dr. Alfredo de Jesús Celis de la Rosa Médico Cirujano y Partero, Maestro en Salud Pública y Doctor en Epidemiología por la Universidad de Guadalajara. Investigador Titular “C” en el Departamento de Salud Pública del Centro Universitario de Ciencias de la Salud, Universidad de Guadalajara. Docente de los cursos de Bioestadística y Análisis Multivariado en la Maestría y el Doctorado en Ciencias de la Salud Pública. Director de la División de Disciplinas para el Desarrollo Promoción y Preservación de la Salud del Centro Universitario de Ciencias de la Salud de la Universidad de Guadalajara. Dra. Vanessa Labrada Martagón Licenciada en Biología, Centro Universitario de Ciencias Biológicas y Agropecuarias, Universidad de Guadalajara Maestra en Ciencias con Especialidad en Manejo de Recursos Marinos, Centro Interdisciplinario de Ciencias Marinas, Instituto Politécnico Nacional Doctora en Ciencias en el Uso, Manejo y Preservación de los Recursos Naturales, Centro de Investigaciones Biológicas del Noroeste, S. C. Posdoctorado en Modelación Matemática Teórica, Departamento de Matemática Aplicada y Estadística, Universidad de California Santa Cruz. Investigador Colaborador en el Programa de Planeación Ambiental del Centro de Investigaciones Biológicas del Noroeste, S. C. ERRNVPHGLFRVRUJ Editor responsable: Dr. Raúl Ossio Vela Editorial El Manual Moderno III Nos interesa su opinión, comuníquese con nosotros: Editorial El Manual Moderno, S.A. de C.V., Av. Sonora núm. 206, Col. Hipódromo, Deleg. Cuauhtémoc, 06100 México, D.F. (52-55)52-65-11-00 @
[email protected] [email protected] IMPORTANTE Los autores y editores de esta obra se han por proporcionar información completa y en concordancia con los estándares aceptados a la fecha de la publicación. Sin embargo, en vista de la posibilidad de errores humanos o cambios contenido sea exacto o completo en todos los aspectos y no se hacen responsables de errores, omisiones o resultados obtenidos por el uso de la información proporcionada en esta publicación. Se invita a los lectores a corroborar con otras . . 28 cm. –. Ecuaciones diferenciales. Ninguna parte de esta publicación puede ser reproducida. II. autor. 5.R. Biometría – Programas de computación. Reg. José Luis Morales Saavedra Editora asociada: LCC Tania Uriza Gómez Diseño de portada: DP Karina Oropeza Heredia . 570. xiv.V. Título. 4. Celis de la Rosa. de C. ISBN: 978-607-448-423-6 ISBN: 978-607-448-424-3 versión electrónica Miembro de la Cámara Nacional de la Industria Editorial Mexicana.Tercera edición. 338 páginas : ilustraciones . Estadística. I.México : Editorial El Manual Moderno. Epidemiología – Métodos estadísticos. tercera edición D.15195-scdd21 Biblioteca Nacional de México Director editorial y de producción: Dr. Labrada Martagón. autor Bioestadística / Alfredo de Jesús Celis de la Rosa. registrador. 2. © 2014 por Editorial El Manual Moderno.manualmoderno. Biometría. 3. 2014. S. Bioestadística. Vanessa Labrada Martagón.com Todos los derechos reservados. almacenada en sistema alguno de tarjetas perforadas o transmitida por otro medio —electrónico. -. etcétera— sin permiso previo por escrito del titular de los derechos patrimoniales. Alfredo de Jesús. núm. fotocopiador.A. 39 Para mayor información en: • Catálogo del producto • Novedades • Distribuciones y más www. Incluye índice ISBN 978-607-448-423-6 ISBN 978-607-448-424-3 (versión electrónica) 1. mecánico. Vanessa. ..................................... XIII SECCIÓN I: Características................................. 7 Capítulo 3.......... revisión y cómputo de datos Capítulo 1... Presentación de los datos ........................ 29 Capítulo 7............................................................................... Indicadores básicos de salud ........................................................N xi i =1 Contenido ( xi = xi i =1 N 2 N N μ) 2 i =1 N Prefacio a la tercera edición ...................................................................... XI Prefacio a la primera edición ................................. 3 Capítulo 2...................................................... Escala cuantitativa ................................................................................................................. recolección........... 15 Capítulo 5............................................................. Introducción a los programas de cómputo ............................................................................... Escala cualitativa .............................................................. Cómputo de datos .......................................................................... 43 Capítulo 8.......................................................................................................................................................................... 11 Capítulo 4.................................................................................................... Introducción a los diseños de investigación epidemiológica..................................................... 59 V ........................................... IX Prefacio a la segunda edición .................................. Recolección y revisión de datos ...................... 21 SECCIÓN II: Estadística descriptiva Capítulo 6.................................................... 51 Capítulo 9............................................................................................................. Características de los datos .......................... .........................................159 Capítulo 22... Inferencia estadística........................................................................... Análisis de varianza .......... Regresión y correlación múltiple ............................... 89 Capítulo 14....................................................... 153 Capítulo 21....................................... 239 Respuestas a los ejercicios ................. Muestreo .............................................VI Bioestadística SECCIÓN III: Estadística descriptiva Capítulo 10.................................... 255 ................................................................... Intervalos de confianza para la estimación de medias ............... 79 Capítulo 13................................................................................................ Análisis estratificado y regresión logística ...................................... 129 Capítulo 18.. Pruebas no paramétricas ......................................................................................... 173 SECCIÓN V: Inferencia estadística para una variable dependiente y dos o más variables independientes Capítulo 24..................... Pruebas de hipótesis para una y dos variables cuantitativas ..................... Pruebas de hipótesis para una y dos variables cualitativas...................................... 147 Capítulo 20............................................................ Tamaño de muestra para variables dependientes cualitativas ......................... Tamaño de muestra para variables dependientes cuantitativas ........................................................................ 209 Capítulo 26............. 185 Capítulo 25............................................................................................................................ Distribuciones de probabilidad y distribuciones muestrales con variables cuantitativas................... 95 SECCIÓN IV: Inferencia estadística para una variable dependiente y una independiente Capítulo 15.................................................. 71 Capítulo 12............. 231 Capítulo 27..... Regresión y correlación simple ........................119 Capítulo 17..................................................................... Estimaciones de intervalo para una y dos variables cualitativas ................................ Introducción a los modelos lineales generalizados ....................................................................... 63 Capítulo 11........................................................................... Elementos de probabilidad para la inferencia estadística ........................................................................ 135 Capítulo 19............... 163 Capítulo 23............................................................................................................................................... 105 Capítulo 16................................................................................ Análisis de supervivencia ...................................................... Distribuciones de probabilidad y distribuciones muestrales con variables cualitativas ........................................ .................... 263 Anexo B......................................................................................................................................... 331 Índice ...................Contenido VII ANEXOS Anexo A....................................................................................................... 307 Anexo G............................. Distribución binomial de probabilidad ..... 265 Anexo C........................................................... Percentiles de distribución t ........................................... 303 Anexo F............................................................................................ 323 Anexo H.............................................................. 267 Anexo D........... Valores críticos para una prueba Wilcoxon ............................ 325 Anexo I.......................................... Percentiles de distribución 2 ................. Tabla de números aleatorios ....... Valores críticos para una prueba Mann-Whitney-Wilcoxon....... 329 Anexo J. 295 Anexo E........................................................................................................................... Valores críticos para una prueba de Kruskal-Wallis ........................................... Percentiles de distribución F ................................................................................................................................. Áreas de la curva normal .............. Distribución de probabilidad de Poisson ...................... 333 ............................................................................................................................................................................... . y a mi familia (particularmente a María.N xi i =1 Prefacio a la tercera edición ( xi Dicen que la tercera es la vencida. todo mi agradecimiento. quiero expresar nuestro agradecimiento a todos los que han contribuido a la publicación de este libro. al equipo de Editorial El Manual Moderno (que para esta edición les costó más trabajo motivarme para concluirla). CSTAR. con la promesa de que si no llega a convencerlos. y ya llegamos. Alfredo y Victoria) que siempre me han apoyado en cuanta locura se me ha ocurrido. la quinta edición (si no es que la siguiente) seguramente será muy buena. No obstante. y el Teorema de Bayes (en el capítulo de probabilidad). orientado principalmente a estudiantes de medicina. Dra.. Vanessa Labrada Martagón IX . finalmente. que siguen enriqueciéndome con sus observaciones y comentarios. especificidad. Pero no sin el apoyo de aquellos que han adquirido y recomendado las ediciones anteriores: a ellos. Finalmente. a los docentes e investigadores que siguen utilizando y recomendando esta obra. a Vanessa por aceptar mi invitación para incorporarse como coautora. NOAA Fisheries. Sólo me resta agradecerles por el tiempo que le dediquen a estas líneas. Dr. Estos no fueron los únicos cambios. Y sin miedo a ser reiterativo. Alfredo de Jesús Celis de la Rosa Este trabajo fue escrito durante la estancia posdoctoral de VLM en: Center for Stock Assessment Research. ya que también agregamos el uso de “R” (que es un programa gratuito muy = xi i =1 N 2 N N μ) 2 i =1 N útil para el análisis estadístico). esperando que sean de utilidad para Uds. los conceptos de sensibilidad. Para esta nueva edición hemos seguido la misma propuesta de las anteriores: un libro de texto de Bioestadística. por aquello de que no hay “quinto malo”. y que los ejemplos pudieran conducir a los estudiantes sin demasiados obstáculos durante su estudio. Southwest Fisheries Science Center. pero que también puede ser utilizado por estudiantes de pregrado y posgrado de otras disciplinas del campo de la salud. Aclaro que ella no es la única adición: esta tercera edición incluye tres nuevos capítulos: consideramos importante que aquellos interesados en aplicar la bioestadística a sus investigaciones tengan (al menos) una “introducción a los diseños de investigación epidemiológica”. creímos importante que los estudiosos de los fenómenos de la salud en la población conozcan algunos enfoques relativamente novedosos. Santa Cruz. desde la perspectiva de la Salud Pública y la Epidemiología. también consideramos de utilidad que se incluyera la definición de algunos “indicadores básicos de salud”. Vanessa Labrada Martagón. quiero mencionar a mis alumnos y exalumnos. dejamos atrás Epi Info 6 y Epi Info 2000 para incluir Epi Info 7 y OpenEpi. Y digo “seguimos” porque con solo leer la pasta de este libro habrán notado que para esta edición la autoría de la misma la comparto con la Dra. por lo que también incluimos una “introducción a los modelos lineales generalizados”. una colaboración entre University of California Santa Cruz y el Fisheries Ecology Division. buscamos que el texto mantuviera la misma claridad y simplicidad en las explicaciones. VPP y VPN (en el apartado de proporciones). . a los alumnos que me apoyaron con su asistencia. algunos de ellos empezaron a criticar la redacción de algunas partes y a señalarme errores.N xi i =1 Prefacio a la segunda edición ( xi La primera edición de este libro se gestó como un apunte que fui escribiendo como apoyo personal al primer curso de Bioestadística que impartí a los residentes de Salud Pública en el Instituto Mexicano del Seguro Social. Esta edición. así como los ejercicios que se describen en esta obra. y fue creciendo con los cursos que le siguieron en varias maestrías del Centro Universitario de Ciencias de la Salud en la Universidad de Guadalajara. también empezaron como apuntes de clase. pasaron por las manos de mis alumnos. y cuando ellos me pidieron incluir ejemplos fue adquiriendo forma de libro. y tres de análisis multivariado). que empeñaron su prestigio en la publicación. Nos hemos decidido por incorporar el programa Epi Info por varios motivos. y gratuita. a todo el personal de la Editorial El Manual Moderno que hizo posible su publicación. No conformes con los ejemplos. entre los que se destacan dos: el programa incluye la mayoría de los procedimientos estadísticos que se presentan en el libro y su distribución universal. para verlo en los estantes de las librerías fueron necesarias las propuestas y el apoyo decidido de los editores de la Editorial El Manual Moderno. los apuntes llegaron a manos de mis alumnos. XI . aliento y comentarios. se enriquecieron con sus comentarios y nuevamente se = xi i =1 N 2 N N μ) 2 i =1 N incorporaron propuestas y apoyos del equipo editorial de la Editorial El Manual Moderno. A esta edición le hemos agregado cuatro capítulos (uno que trata acerca del tema de los cuestionarios. dos anexos y un CD con los programas de Epi Info. así fue que atendiendo sus solicitudes y comentarios se completó el manuscrito de la primera edición. y la base de datos con que se podrán repetir los ejemplos. a mi esposa e hijos por su apoyo continuo y por todo ese tiempo no compartido. al igual que la anterior. La segunda edición ha tenido una historia semejante: Los capítulos y anexos que se agregaron. Durante esos primeros años de docencia. A todos ellos les dedico esta obra. Termino estas líneas expresando mi agradecimiento a los que me dieron la oportunidad de incorporarme como docente de Bioestadística. busca ser un texto de Bioestadística comprensible para alumnos de pregrado y posgrado en ciencias de la salud. Por último. . Sin embargo. La estadística es una disciplina de las matemáticas aplicadas que se dedica al manejo de los datos numéricos. analizar e interpretar datos numéricos. XIII . nació con el objetivo de conocer los recursos que poseían los gobernantes. las estadísticas de mortalidad son las cantidades que se presentan en los tabulados de mortalidad. Por ello. por ejemplo. los nacimientos y las muertes. Este libro fue escrito pensando principalmente en estudiantes de medicina. Incluye 20 capítulos en los que se explica de manera dinámica todo el proceso estadístico aplicado a la medicina. para estudiantes de posgrado y para todos aquellos profesionales de la salud que requieran un libro de referencia sobre metodología estadística. sino hasta mediados del siglo XVII que John Graunt mostró su aplicación en el área de la salud. en plural. es sinónimo de datos numéricos. es un auxiliar irreemplazable del método científico y su importancia se hace notar. los cuales es necesario tener en cuenta para aprovechar al máximo las experiencias de otros campos del conocimiento. = xi i =1 N 2 N N μ) 2 i =1 N La estadística no es una ciencia. Quizá por ello. También se agregó un capítulo introductorio a los programas de cómputo y otro sobre metaanálisis. para la Edad Media la iglesia cristiana registraba los matrimonios. elaborar. Desde la perspectiva del Estado y sus propósitos militares o impositivos. es decir: es el método para recolectar. sino un método que enseña procedimientos lógicos de observación y análisis.N xi i =1 Prefacio a la primera edición ( xi La necesidad de contar se pierde en la historia de la humanidad. El segundo. el cual se ha convertido en un método estándar para el análisis de resultados en muchas áreas científicas. En tal sentido. Así. En el uso del lenguaje es necesario distinguir el concepto estadística del de estadísticas. también puede ser de mucha utilidad para estudiantes de cualquier otra área relacionada con ciencias de la salud. a Graunt se le conoce como el padre de las estadísticas de salud. al estudiar la mortalidad de Londres. Pero no fue. . ................... Introducción a los diseños de investigación epidemiológica.............................................. Recolección y revisión de datos ... Introducción a los programas de cómputo ............................................................... Capítulo 5.................15 © Editorial El manual moderno Fotocopiar sin autorización es un delito.......................................7 Capítulo 3.............21 1 .................................................................................................. Características de los datos ................................. recolección.................................... Cómputo de datos .................................................Sección I: Características..................... revisión y cómputo de datos Capítulo 1........................................11 Capítulo 4..........................3 Capítulo 2.................. . peso. Después de recabar los datos de interés. Z). © Editorial El manual moderno Fotocopiar sin autorización es un delito. el universo se compone de cinco trabajadores. Con frecuencia dato e información se utilizan como sinónimos. y la variable “hemoglobina en sangre” con la letra 3 . la variable aleatoria “edad” se puede representar con la letra X y las variables aleatorias “sexo” y “escolaridad”. Universo En estadística universo o población se definen como el conjunto de valores por los cuales existe algún interés. condición social y escolaridad. se le denomina variable aleatoria y para representarla se utilizan letras mayúsculas (X. el interés del investigador se dirige a las características de los elementos que conforman el universo. etc. Datos Datos PROCESO Información Datos Figura 1-1. por tanto. con Y y Z. Generación de información a partir de datos. decide estudiar a todos los trabajadores que laboran en el taller. asistentes a un paseo escolar. límites geográficos. sino hasta que son procesados y convertidos en información. Esta identificación de cada sujeto se representa como un subíndice y se le conoce como valor “i” o valor i-ésimo. N = 5. En el cuadro 1–1.N xi 1 i =1 Características de los datos ( xi CARACTERÍSTICAS DE LOS DATOS Los datos con los cuales se realizan los trabajos estadísticos varían entre individuos y se obtienen a partir de elementos que en conjunto conforman un universo. Y. la información es el conocimiento derivado del análisis de los datos. Por ejemplo: residentes de Guadalajara. La información así planteada se obtiene como resultado o producto del proceso que se muestra en la figura 1-1. la variable “edad en años cumplidos” con la letra Y. con valor real y perceptible para tomar decisiones presentes y futuras. y. enfermos de cólera. De alguna manera. el mobiliario y los diversos servicios que en él se prestan pueden ser elementos del mismo conjunto. lugares o cosas. temperatura corporal. Los valores individuales de una variable aleatoria se representan con letras minúsculas (x. Éstas pueden ser: características de individuos. Si el valor de la variable no puede predecirse con anticipación. A dichas características se les designa como variables. ya sean individuos únicos o agrupados. por información entendemos los datos procesados de manera significativa para el receptor. Las poblaciones pueden definirse especificando una regla (o reglas). Ésta es la diferencia básica entre datos e información. = xi i =1 N 2 N N μ) 2 i =1 N Elementos del universo Los elementos del universo pueden ser personas. Los datos no son útiles o significativos como tales. grupos ya existentes. Variables Normalmente. sexo. Así pues. los cuales se nos presentan en forma de indicadores. Para ello. Sin embargo. el investigador representa la variable “sexo” con la letra X. De acuerdo con los datos reportados. z) y un subíndice i-ésimo que identifica el elemento del conjunto que posee la característica. Ejemplo explicativo 1–1 Un investigador está interesado en los valores de hemoglobina en sangre de los trabajadores de un taller dedicado al mantenimiento de automóviles. Por ejemplo: los pacientes encamados son elementos que conforman parte del universo definido como hospital. pero también el personal. decide organizarlos de la manera que se presenta en el cuadro 1–1. derechohabientes del IMSS. El total del universo o población se representa con la letra mayúscula N. límites de tiempo. Hay que hacer notar que la información obtenida en un proceso puede servir como dato para otro proceso. Ejemplos de variables pueden ser: talla. que inicia en 1 y termina en N. Para individualizarlo. cada elemento de la población se identifica con un número progresivo. 23 y 13. la característica de interés) y datos ordinales (en los que la característica es graduable). y se garantice la comparabilidad de los resultados con los obtenidos en otros estudios previos o posteriores. Por ejemplo. Aquellas variables nominales que se conforman de dos categorías (nacional. al ser clasificadas de alguna manera. pero no cuando la variable es cualitativa o cuando una variable cuantitativa se presenta agrupada.) se designan como dicotómicas. ya que ser “ingeniero” o “abogado” no significa ser más o menos que “médico”. y precisarla de tal manera que quienes conozcan su trabajo sepan a qué se refiere con el término “enfermo de sarampión”. b) Las variables ordinales son aquéllas cuyas características pueden recibir algún orden subjetivo. u otra que se adapte a sus necesidades. sin excepción. con diarrea. La selección de una de éstas como definición operativa de sarampión tiene implicaciones importantes en el desarrollo de la investigación. 1. se espera que la escala de la variable permita clasificar a todos los elementos. En cualquier caso. aunque no se podría saber qué tanto es “mucho” ni qué “distancia” existe entre “poco” y “mucho”. extranjero. la escala ha de ser exhaustiva y excluyente. se puede asumir que se es más o menos que las otras. Una vez que la variable ha sido definida operativamente. Cuando se trata de variables cuantitativas la decisión suele ser sencilla. Cuando sus características se expresan como categorías se dice que se trata de variables cualitativas. y que cada elemento sea contado sólo una vez en relación con esa variable: en otras palabras. • Pacientes con IgM específica para virus del sarampión. a) Una variable nominal es aquélla cuya característica se define por un nombre y no implica ser más o menos que la característica definida por un nombre diferente. “sexo” x1 = masculino. Aun se podría asignar- © Editorial El manual moderno Fotocopiar sin autorización es un delito. mientras que cuando se expresan como valores se les identifica como variables cuantitativas. El equipo de trabajo tendrá que utilizar una de ellas. coriza o conjuntivitis. enfermedad y convalecencia. se debe especificar la escala de valores que se utilizará para cla- sificar los elementos en estudio. el paciente puede decir que le duele “poco” o “mucho” y quien lo interroga puede asumir con seguridad que “mucho” significa más dolor que “poco”. etc. Las variables cualitativas proporcionan datos nominales (en los que se tiene. “edad en años cumplidos” y1 = 45 y “hemoglobina en sangre (mg/dl)” z1 = 12. los valores x2. fiebre y cualquiera de las tres siguientes: tos. de tal manera que se eviten confusiones. respectivamente.4 Bioestadística Cuadro 1-1. Ejemplo explicativo 1–2 El sarampión es una enfermedad viral caracterizada por síntomas prodrómicos (fiebre. El término “enfermo de sarampión” puede definirse operativamente de diversas maneras. Algunas características de trabajadores que laboran en un taller de automóviles Número progresivo que identifica al trabajador Sexo Edad en años cumplidos Hemoglobina en sangre (mg/dL) i X Y Z Miguel Domínguez 1 Masculino 45 12 Domitila Hernández 2 Femenino 23 13 Manuel Benítez 3 Masculino 32 11 Jesús Ortiz 4 Masculino 18 15 Sergio Martínez 5 Masculino 21 14 Z. Durante el periodo de incubación. • Pacientes con exantema maculopapular de tres o más días de duración. Tipos de variables Las variables se pueden clasificar en cualitativas y cuantitativas. “sexo” es una variable nominal. Identifica a Miguel Domínguez con el valor i-ésimo 1. Para el caso de Domitila Hernández. por ejemplo. o no se tiene. z2 son femenino. se presentan modificaciones inmunes características del proceso morboso. Su característica principal es que. la ocupación también es una variable nominal. sin diarrea. y2. Lo mismo se hace con el resto de los trabajadores hasta completar todos los elementos que conforman el universo definido por el investigador. se facilite la búsqueda y análisis de los datos. En relación con el dolor. Esto es particularmente importante cuando las variables pueden definirse de maneras diferentes. Definición operativa Todas las variables que se utilicen en cualquier trabajo de estadística han de ser definidas con claridad. coriza. conjuntivitis. tos y manchas de Koplik en la mucosa bucal) que del tercer al séptimo días presenta en cara erupción exantemática que se generaliza al resto del cuerpo y desaparece de 4 a 7 días después. aunque se desconozca qué tanto más o qué tanto menos. ya que ser “masculino” no significa ser más o menos que “femenino”. Nombre del trabajador . entre las que se pueden encontrar las siguientes: • Pacientes con manchas de Koplik en mucosa bucal. Ejemplo explicativo 1–3 Una investigadora estaba interesada en identificar algunas condiciones de la madre que pudieran relacionarse con el bajo peso de los niños al nacer. fumadora activa) · Hemoglobina en sangre (mg/dl) en la Continua. Al igual que con las variables discretas. de razón · Estado civil (soltera. se le asigna un orden en el cual “25” significa más que “15” y menos que “35”. Sin embargo. en el cual las variables se clasifican según su escala de medición. la clasificación de las variables es una tarea sencilla. Ordinal secundaria. Por otra parte. éste deja de serlo para convertirse en dos mitades de cadáver. Entre éstas se encuentran las medidas de longitud. qué tanto dolor siente. y también se puede saber qué tantas más son 100 consultas en relación con 10 consultas. Las observaciones cuantitativas brindan datos discretos (en los que sólo se admiten valores individuales en números enteros) y datos continuos (en los cuales es posible un número infinito de fracciones entre dos puntos de la escala). Por ejemplo: supongamos un niño que pesaba 50 kg y ahora tiene 60 kg. Por otra parte. En este caso. Por ejemplo. de intervalo · Ocupación durante el embarazo (según la Nominal Clasificación Mexicana de Ocupaciones) · Exposición al humo de tabaco durante el Ordinal embarazo (no. porque la dilución (mg/dl) está medida en una escala que tiene un número infinito de divisiones. Así. Algunas variables parecen no respetar la última característica. pero en ocasiones genera algunas dificultades menores. tal es el caso de las titulaciones que se reportan como 1:1. Por ejemplo: entre 0 y 100 metros existe un número infinito de valores que pueden caracterizar al elemento en estudio. la “distancia” absoluta entre 5 y 7 consultas es la misma que entre 105 y 107 consultas. preparatoria o más) · Temperatura (en grados Celsius) Continua. Por ejemplo. Por ejemplo. La distinción de estas dos escalas resulta importante para la interpretación de una razón. a) Se definen como variables discretas aquéllas cuyos valores en la escala están separados entre sí por una cantidad determinada. si se parte por la mitad un paciente. unión libre. Las variables ordinales. pero además señalan cuán grandes son las diferencias observadas. fumadora pasiva. Tal es el caso cuando se le pide al paciente que ubique. Características de los datos le una graduación subjetiva más detallada y no por eso dejaría de ser ordinal. b) Las variables continuas son aquéllas en las cuales la escala de medición se puede dividir en una cantidad infinita de valores entre dos puntos cualquiera. pero se desconoce qué tan grande es la distancia entre “15” y “25” y no se puede asumir que sea la misma que existe entre “25” y “35”. por ejemplo. sí tiene un valor de 0 absoluto. porque pierde su naturaleza.© Editorial El manual moderno Fotocopiar sin autorización es un delito. al definir el comportamiento como “bueno” o “malo” se divide la variable en dos categorías. Regularmente. ni que el “15” en una persona corresponda al “15” en otra. 2. pero éste es arbitrario y no es un valor absoluto porque existen otros valores por debajo 5 de esa temperatura. porque la escala de temperatura en grados Celsius no tiene un cero absoluto. en las cuales “bueno” representa algo más deseable (o indeseable) que “malo”. fecha a partir de la cual empezará a decir que tiene 11 años. Un rasgo distintivo de estas variables es que la unidad no puede fraccionarse. porque al dividirse la molécula deja de ser glucosa. el tiempo es una variable continua porque entre un instante y otro cualquiera existe una cantidad infinita de divisiones. pero la edad (al menos como frecuentemente se registra) es una variable discreta: un niño que cumple 10 años sigue reportando la misma edad durante todo el año hasta su siguiente cumpleaños. A diferencia de las variables ordinales. por otra parte. Algunas características de mujeres durante el embarazo Variable Escala de medición · Edad de la madre (en años cumplidos) Discreta. de razón primera consulta prenatal · Número de consultas prenatales antes Discreta. también pueden dicotomizarse sin que cambie su escala de medición. la temperatura medida en grados centígrados tiene un valor de 0° C. de razón · Talla de la madre (en centímetros) Continua. casada. Nominal otro) · Escolaridad (menos de primaria. el número de consultas otorgadas por médico en un día o el conteo de linfocitos en sangre. La temperatura en grados Kelvin también tiene una escala de razón. 1:8. entre el “0” y el “100”. 1:4. porque no existe una temperatura por debajo de 0° Kelvin. decidió estudiar las variables que se muestran en el cuadro 1–2. mediante una transformación matemática (logarítmica para el caso) se puede observar que sí se apegan a las características señaladas para las variables continuas. tiempo y volumen. peso. al igual que las nominales. Podemos decir correctamente que el aumento del peso fue de 20%. Para ello. Las variables cuantitativas también pueden clasificarse según tengan o no en su escala un valor de cero absoluto en variables de intervalo (no tienen cero absoluto) y variables de razón (sí lo tienen). pero la concentración de glucosa en sangre es una variable continua. de razón del tercer trimestre del embarazo . si un líquido que tenía una temperatura de 50° C llega a los 60° C no podremos afirmar lo mismo. etc. al igual que al clasificarlo como “mucho” o “poco”. 1:2. primaria. pero también es infinito el número de valores que se encuentran entre 0 y 10 metros o entre 0 y 10 centímetros. Cuadro 1-2. porque nadie llega a tener menos de cero años de edad. el número de moléculas de glucosa (o de cualquier otra sustancia) es una variable discreta. La edad en años cumplidos. la “distancia” absoluta entre dos puntos se mantiene a lo largo de la escala. Las variables cuantitativas también permiten diferenciar entre los individuos. 1 2 3 4 5 6 24 27 25 27 26 29 52 50 57 48 49 56 110 95 103 115 100 120 Fumador sí no no sí no no REFERENCIAS Camel.. alberca. ed. Concentración de triglicéridos en sangre (mg/dl) Diabetes (sí. otro) ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) Primero identifique la variable IMC con la letra W. 16. Estadística Médica y Planificación de la Salud (Vol. En las variables que se presentan a continuación.6 Bioestadística Ejercicios 1. ed. 12. Nunnally. Índice de Identificación masa Glucosa (número corporal Colesterol en progresivo) (IMC) HDL sangre . © Editorial El manual moderno Fotocopiar sin autorización es un delito. 3. femenino) Porcentaje de grasa corporal Depósito de agua (aljibe. Variable 1. indique de qué tipo de variable se trata mediante las siguientes abreviaturas: N para una variable cualitativa nominal. y la variable Fumador con la letra Z. 1. balde. D para una variable cuantitativa discreta y C para una variable cuantitativa continua. regular. 8.). (1997). & Bernstein. Los datos que contiene se refieren a las características de seis pacientes. I.). 5. Luego escriba cuáles son los valores individuales que representan las siguientes referencias: Referencia w1 w2 w3 x2 x3 x4 Valor ( ) ( ) ( ) ( ) ( ) ( ) Referencia y3 y4 y5 z4 z5 z6 ( ( ( ( ( ( Valor ) ) ) ) ) ) 2. Observe el cuadro que se le presenta a continuación. Venezuela: Universidad de los Andes. 10. 13. 9. O para una variable cualitativa ordinal. Mérida. no) Colesterol total (mg/dl) Creatinina (mol/L) Número de cigarrillos fumados el día anterior Índice de masa corporal (peso/talla2) Número de consultorios en la clínica Presión arterial diastólica (mm Hg) Intensidad del dolor (escala de 0 a 10) Opinión del servicio (bueno. 4. Psychometric Theory (3a. (1991). 1a. la variable glucosa en sangre con la letra Y. no) Presencia de cefalea (sí. 7. EUA: McGraw-Hill. tina. J. la variable Colesterol-HDL con la letra X. 15. C. no) Sexo (masculino. 11. 6. malo) Edad en años cumplidos Uso de drogas antihipertensivas (sí. 14. F. 2. Puede ser que el instrumento original se haya diseñado para una entrevista. Esta debería ser nuestra primera opción. Ocasionalmente. es necesario tener cuidado porque un instrumento utilizado previamente no necesariamente es el mejor para una nueva investigación. Al hacerlo ahorramos tiempo y recursos. en sus diferentes expresiones: dosis acumulada. se dice que los datos proceden de fuente primaria. o que el tiempo en que se contesta excede el tiempo que se dispone para captar los datos. En algunos casos. exposición promedio. • La dosis. lo más común es que el investigador deba registrarlos en alguna forma especialmente diseñada para este objetivo: una forma de registro de datos. cuestionarios autoadministrados. tasa de exposición. Al pensar en la forma de registro.. es necesario que el investigador enumere todas las variables de interés. pero tiene alguno de los siguientes inconvenientes: • El instrumento es muy extenso para el estudio. • El instrumento está escrito en otra lengua. 1995). el proceso puede ser muy complejo y la medición se tiene que realizar de manera indirecta por medio de varias preguntas cuyas respuestas se resumen en un índice. • La población es diferente. aunque ya estuviera probado y validado. Los datos que proceden de una fuente primaria tienen que ser registrados por el investigador. Forma de registro de datos © Editorial El manual moderno Fotocopiar sin autorización es un delito. de la salud (McDowell y Newell. 1992). A este grupo pertenecen las mediciones de la calidad de vida. 7 . medición química) o el interrogatorio (entrevistas personales. la escolaridad o la ocupación. los datos de fuente secundaria están disponibles en archivos de cómputo y se capturaron de tal manera que están listos para su tabulación. sobre todo si los niveles de escolaridad o el uso del lenguaje son diferentes. Su utilidad para el análisis dependerá de la calidad de la información y de su accesibilidad administrativa. edad en años cumplidos) o medir directamente en el sujeto en estudio (talla. el estrés. Antes de empezar a diseñar un instrumento. peso. como el alcoholismo. pero lo más frecuente es que el investigador también tenga que buscarlos y registrarlos. xi Recolección y revisión de datos N Las formas de registro de datos se tratan con mayor profundidad en los textos dedicados a la medición de la exposición (Armstrong et al. además. o periodo relevante en que se presentó la característica de interés. diarios). los datos que el investigador registra se obtienen directamente de los elementos en estudio mediante la observación (observación directa. Los datos de fuente secundaria son los que se toman de registros previos. Cuando éste es el caso. Esta es una opción muy útil cuando ya existe un instrumento previo. En este capítulo solamente presentamos algunos aspectos que se deben considerar al elaborarlas. Otras son engañosamente sencillas. que en conjunto integrarán la forma de registro de datos. Un instrumento desarrollado para un grupo de población urbana puede no ser adecuado para una población rural. 1996) o a la elaboración de cuestionarios (Fink. En estos casos. 2) Adaptar uno ya existente. pero se desea utilizar en un cuestionario autocontestado. Estos tres aspectos de las variables deberán ser interpretados por el investigador y traducidos en preguntas. el instrumento deberá ser traducido. Para algunas variables estas definiciones son muy sencillas y generalmente pueden ser exploradas con una pregunta (sexo. generalmente elaborados con propósitos diferentes a los de nuestra investigación. Sin embargo. la depresión y la inteligencia. es necesario considerar las siguientes alternativas: 1) Utilizar uno ya existente. dosis pico.N xi 2 i =1 ( xi 2 RECOLECCIÓN DE DATOS Idealmente. que debe ser específica (que distinga la variable de interés de posibles confusores) y sensitiva (que incluya todas las maneras en que el sujeto se encuentra con la variable de interés). la comparación de nuestros resultados con los de otros estudios puede ser más sencilla cuando en ambos trabajos se utilizó el mismo instrumento. En ambos casos. presión arterial). = N i =1 N μ) 2 i =1 N • El tiempo. medición física. En cada una de ellas se deberán definir tres aspectos: • Su naturaleza. Bioestadística • Es necesario extender. cómo se pregunta. Las preguntas La selección y el fraseo de las preguntas están determinados por el contexto de la investigación. pero no es un trabajo sencillo que pueda realizarse en poco tiempo. pero también la masa muscular aumenta el peso. de 80 kg). © Editorial El manual moderno Fotocopiar sin autorización es un delito. pero sin sacrificar su claridad. si existe interés en preguntar sobre consumo de drogas ilegales. • Estandarizar el formato de las respuestas. cuando el orden de éstas debe ser cambiado o cuando el instrumento original fue diseñado para una entrevista y las preguntas se aplicarán por medio de un equipo de cómputo. • Utilizar periodos de tiempo pertinentes a la importancia de la pregunta. • Evitar preguntas con dos respuestas. El último tendría mayor validez que los anteriores. que cada vez que se mida lo mismo se obtenga el mismo resultado. la pregunta “¿Verdad que usted quiere a sus hijos?” anticipa la respuesta que queremos escuchar. relacionadas con la investigación que se pretende realizar. • Hacer preguntas concretas utilizando un lenguaje convencional. por experimentar. que lo adaptemos o que desarrollemos uno propio. • Conocer a los encuestados. • Utilizar un lenguaje fácil de comprender para los entrevistados o para quien llene el instrumento. • Recordar que se pueden adoptar o adaptar preguntas que ya han sido utilizadas satisfactoriamente por otros investigadores. reordenar o realizar otros cambios en la manera en que los datos se colectan. cómo se responde. las lecturas no son confiables. modificar o diseñar una forma de registro de datos será obtener una medida que sea la mínima necesaria para cumplir con los objetivos de la investigación. Por ejemplo. Por ejemplo. es decir. en términos generales el instrumento que utilicemos estará compuesto por preguntas y respuestas. si queremos medir la grasa corporal de una persona. validez y objetividad. por ejemplo. • Conciliar lo que se quiere preguntar con el tiempo que se dispone para hacerlo. por lo que es muy importante tener claridad en los diferentes componentes de este contexto antes de decidir qué forma de registro de datos utilizar. • La validez se refiere a que el instrumento realmente mida la variable que se quiere medir. es útil tomar en cuenta las siguientes recomendaciones: • Realizar preguntas útiles. podríamos redactar una pregunta en los siguientes términos: “Algunas personas. • Evitar frases y palabras sesgadas. • Evitar preguntas en negativo. En español. Con frecuencia el desarrollo de un nuevo instrumento toma tiempo y requiere habilidades que no todos los investigadores dominan. Si éste es el caso. En caso contrario (que la segunda lectura sea. Por ejemplo. 2010). • Definir con claridad las variables en estudio. 3) Desarrollar un instrumento propio. tendríamos varias opciones: podríamos pesarla (sabemos que a mayor grasa corporal mayor peso corporal. pero es necesario tener cuidado. • La objetividad se refiere al grado potencial en que los resultados pueden ser influidos o sesgados por el investigador o quien registra el dato. Al momento de redactar y seleccionar las preguntas. Es decir. cultural y económico. se pueden utilizar preguntas cargadas. • Recordar que las preguntas se realizan en un contexto social. la forma en que queramos registrar la respuesta determinará el tipo de pregunta. quién pregunta. 8 . conviene no utilizar abreviaturas. El contexto de la investigación que determina el instrumento incluye los siguientes aspectos: • Identificar el objetivo general y los específicos de la investigación. medir pliegues cutáneos o medir la impedancia. • Las preguntas son precisas y sin ambigüedades cuando dos o más personas entrevistadas potenciales están de acuerdo con las palabras usadas para contestarla. por lo que el peso total no sería la mejor opción). si nos pesamos en una báscula y registramos 70 kg. porque la redacción puede ser tan compleja que llega a dificultar su interpretación por el entrevistado. han probado la mariguana. Éstas son las que orientan la respuesta. expresiones coloquiales o en jerga o expresiones técnicas. El objetivo al seleccionar. Para ello. Por ejemplo. quién responde. es decir. • Identificar a los encuestadores. • Hacer que las preguntas sean revisadas por expertos y por respondientes potenciales. • En caso de temas sensibles al entrevistado. • Estandarizar las preguntas. calcular el índice de masa corporal (peso/talla2). Esto es necesario cuando el investigador considera que al instrumento se le deben agregar más preguntas. ¿Usted ha probado la mariguana en alguna oportunidad de su vida?”. la sintaxis de la oración tiene la siguiente estructura: primero va el sujeto. esperamos que la segunda lectura sea igual (o muy cercana) a 70 kg. nos bajamos de la misma y luego nos pesamos nuevamente. es decir. y que el instrumento reúna los tres requisitos siguientes: confiabilidad. facilitamos que los entrevistados la contesten. • La confiabilidad se refiere a la consistencia en los resultados. Sin importar que adoptemos un instrumento ya existente. De alguna manera. hablamos de una lectura confiable. luego un verbo conjugado y termina con un complemento (Cohen. Muchos investigadores lo hacen. Al plantear la pregunta de esta manera. • Preguntas y respuestas cortas cuando se quiera ahorrar tiempo. es decir. • Utilizar oraciones completas. actualmente en su décima revisión. Es preciso tener cuidado. Por ejemplo: ¿Ha tenido usted tres o más evacuaciones líquidas en las últimas 24 horas? No Sí © Editorial El manual moderno Fotocopiar sin autorización es un delito. sin problema. podrá registrar el número que corresponda a la pregunta. casi sin problema. severo. • Intensidad: Nada. múltiples nominales y múltiples ordinales. En el caso de las respuestas cerradas. problema regular. si es que así lo queremos presentar. no es raro que sea necesario contestar a dos . el investigador. o quien responde. Completamente de acuerdo Casi de acuerdo No sabe Casi en desacuerdo Completamente en desacuerdo Al considerar el uso de esta opción. Usar escalas sólo cuando los encuestados pueden ver o recordar con facilidad todas las opciones. • En el caso de las variables cuantitativas. Al registrar estas variables. múltiples ordinales). regular. • Las respuestas múltiples nominales presuponen más de dos opciones posibles. Poner las categorías negativas al principio de la escala. “sin datos”. frecuentemente. De esta manera. ¿qué medio de transporte utilizó? Automóvil o camioneta Autobús o minibús Motocicleta Otro vehículo de motor Bicicleta Otro vehículo Ninguno de los anteriores. poco más que los otros. • Comparación: Mucho más que los otros. siempre es necesario considerar la opción “otra”. aproximadamente igual que los otros. por lo que quien responde deberá utilizar sus propias palabras. Por ejemplo: ¿Qué tan de acuerdo o en desacuerdo está usted con el siguiente enunciado?: Los accidentes son causados por el destino. mucho menos que los otros. nunca. 10 a 14 años. para la edad las opciones de respuesta podrían haber sido las siguientes: menores de 1 año. Sin embargo. b) Considerar cinco tipos de respuestas: • Aprobación: Definitivamente cierto. definitivamente falso. “no aplica” o “no quiso contestar” que llegan a ser importantes durante el análisis aunque no sean categorías de la variable en estudio. Con frecuencia se afirma que las respuestas abiertas no son adecuadas para el análisis estadístico. la mejor opción es la respuesta abierta. las intervenciones quirúrgicas y las ocupaciones laborales. muy poco. pero esto no es cierto para el caso de las variables cuantitativas que deben registrarse mediante respuestas abiertas. para las que incluso existen acuerdos internacionales. Las más frecuentes en esta categoría son SÍ o NO. Por otra parte. • Influencia: Gran problema. cierto. lo mejor es registrar el dato como tal para después agruparlo durante el análisis. Balancear las respuestas. como es el caso de la opción “otro”. regularmente. también es necesario tomar en cuenta las respuestas “no sé”. Por ejemplo: Ayer que regresó del trabajo a su casa. En las respuestas abiertas. no sé. falso. algo menos que los otros. Mantener las escalas en la misma página y fáciles de completar. c) d) e) f) g) 9 • Frecuencia: Siempre. porque no es raro que la opción “otra” resulte la respuesta más frecuente. Usar escalas de 5 o 7 categorías. Pero desde que tenemos acceso a computadoras y paquetes estadísticos. las tabulaciones tenían que hacerse manualmente y se acostumbraba agrupar las posibles respuestas numéricas. por lo que la secuencia en que se anotan generalmente no tiene tanto impacto en la respuesta. ni para algunas respuestas que cuentan con sistemas de codificación ya establecidos. sólo caminé • Las respuestas múltiples ordinales presuponen varias opciones posibles que mantienen una relación de orden entre ellas. algunas veces. casi nunca. múltiples nominales. Para el caso de cualquiera de los tres modelos de respuestas anteriores (dicotómicas. 1 a 4 años. el que llena la forma de registro de datos selecciona una o varias opciones entre una lista limitada de respuestas posibles. Así. 5 a 9 años. Respuestas abiertas. Respuestas cerradas.Recolección y revisión de los datos Las respuestas Las respuestas se clasifican en cerradas o abiertas según sea la forma en que las registramos. • Las respuestas dicotómicas presuponen sólo dos opciones posibles. • Hay un grupo de variables que ya han sido codificadas con anticipación. problema pequeño. es necesario tomar en cuenta las siguientes consideraciones: a) Utilizar escalas que tengan sentido con los objetivos. las más frecuentes pueden clasificarse en dicotómicas. Entre las respuestas cerradas podemos encontrar varios modelos. Tal es el caso para la codificación de las enfermedades que está normada por la Clasificación Internacional de Enfermedades. no es raro que algunas opciones tengan que situarse después de otras. Por ejemplo: ¿Cuál es su edad en años cumplidos? Antes de que tuviéramos las facilidades de cómputo que nos brindan los ordenadores. estas opciones predefinidas no existen. En este tipo de respuestas también se incluyen la descripción de los eventos en que los sujetos resultan lesionados por causa externa. moderado. sin que exista entre ellas una relación de orden. De otra manera. Cuando los datos son registrados en un archivo de cómputo... 2. (1996). © Editorial El manual moderno Fotocopiar sin autorización es un delito. K. R. A. jornalero o peón Trabaja por su cuenta Patrón o empresario ¿A qué se dedica el negocio. su manejo posterior es muy complejo y generalmente no son adecuadas para el tratamiento estadístico. C.). Cohen. el mismo día en que los datos fueron recogidos. Por ejemplo: En su trabajo usted es (sólo seleccione una) Empleado. Revisión y corrección de datos recogidos Después de que los datos han sido captados en los formatos diseñados para este fin. California: Sage. & Saracci. de preferencia. México: Planeta. B. • Por último. y con el auxilio del catálogo de ocupaciones que esté utilizando. S. como en el caso de la ocupación. Redacción sin dolor (5a. Esta revisión deberá realizarse. I. Measuring Health: a guide to rating scales and questionnaires (2a. How to ask survey questions). Armstrong. Principles of Exposure Measurement in Epidemiology. (1995).10 Bioestadística o más preguntas. McDowell. REFERENCIAS Fink. hacer las correcciones pertinentes. empresa o institución donde trabaja? ¿Cuál es el oficio. E. & Newell. White. porque consumen mucho tiempo durante el llenado del instrumento.).. puesto o cargo que tiene en el trabajo? ¿Cuáles son las funciones o tareas que hace en el trabajo? Tomando en cuenta las respuestas anteriores. se podrán asignar códigos específicos a las diferentes ocupaciones laborales de los sujetos que se estudien. ed. (1992). . Thousand Oaks. New York: Oxford University Press. The survey kit (Vol. será necesario revisarlos con cuidado con la intención de identificar si están completos y se han llenado de manera correcta. es necesario que la revisión y corrección de datos incluya los que están guardados en estos medios de almacenamiento. o imposible. podría ser muy difícil. Oxford: Oxford University Press. Este tema se trata con mayor amplitud en el capítulo 4. ed. las respuestas abiertas deben evitarse cuando no existan criterios claros de codificación. y desde una perspectiva cuantitativa. obrero. (2010). se cuenta cuántos elementos del universo tienen una o varias características en común. Este método. entre los que destacan: el número de individuos en la población o muestra. en ocasiones. Grupo de edad Cuadro 3-1. en el de las cuantitativas. la complejidad del análisis y los recursos económicos de que se dispone. es convencional que el quinto palote sea una línea que atraviese a los cuatro anteriores. En ésta se encuentran renglones (variable “grupo de edad”) y columnas (variable “sexo”) que al unirse forman las celdas en que se registrará un “palote” (|) por cada individuo que reúna las dos características que correspondan a la celda definida por la columna y el renglón. 11 . que aún se utiliza. es difícil utilizarlo cuando hay más de 100 elementos. primero se elabora una tabla de vaciado de información semejante a la que se muestra en la figura 3–1. se suman los valores de esas características y. El conteo se limita a calcular sumatorias de las variables cuantitativas o frecuencias de categorías en las variables cualitativas. sería muy difícil hacerlo por tres o más variables. Mientras se tabulan los conteos. Hay varios procedimientos de computación y la selección de uno en particular depende de varios aspectos. Dada la capacidad reducida de la memoria. xi La información se registra en hojas de cálculo (por lo general. como se hace con frecuencia en trabajos de contabilidad. Palotes Cuando la información contenida en las listas es muy numerosa y su cómputo se dificulta mediante el procedimiento anterior. Los datos correspondientes a cada elemento del universo estudiado se anotan en un renglón. con rayado de columnas y renglones). este procedimiento de conteo sólo es útil cuando la cantidad de información se limita a unos cuantos registros (alrededor de 50). se registran en i X Y Z 1 Masculino 45 12 2 Femenino 23 13 3 Masculino 32 11 4 Masculino 18 15 5 Masculino 21 14 i =1 N la memoria hasta que se termina con una columna. se clasifican o relacionan con otras variables cualitativas o cuantitativas.N xi N i =1 3 Cómputo de datos i =1 N ( xi 2 El cómputo de datos incluye dos operaciones básicas: en el caso de las variables cualitativas. de modo que cada grupo represente cinco observaciones. tal como se muestra en el cuadro 3–1. Formato de concentración de datos para uso de “palotes”. entonces se puede utilizar el método de los palotes para su contabilidad. Aunque con una lista se podría clasificar los elementos por dos variables a la vez. Entre los que se usan con mayor frecuencia se encuentran: • • • • • Listas Palotes Tarjetas simples Tarjetas con perforaciones marginales Computadoras Listas © Editorial El manual moderno Fotocopiar sin autorización es un delito. Para ello. Para facilitar el conteo final. b) si existe alguna distracción durante el conteo. Lista de algunas características de los elementos de un universo a estudiar = N μ) 2 Sexo Masculino Femenino 14 a 19 años 20 a 24 años 25 a 29 años 30 a 34 años Figura 3-1. presenta muchas desventajas: a) aunque permite tabular un número de datos mayor que las listas. Las características de los individuos registrados se anotan en pequeños espacios indicados en una de sus caras. al igual que con las tarjetas simples. c) el número de clasificaciones simultáneas que se puede realizar es limitado (difícilmente más de 3 o 4). teniendo cuidado de colocar la esquina recortada en la misma posición para todas las tarjetas. la categoría de interés. de preferencia con letras grandes y siempre en la misma localización de la tarjeta. entre las que encontramos: a) dificultad para obtener sumatorias de variables cuantitativas. diarrea no. Separamos las tarjetas en dos o más montones según las categorías de la variable de interés (diarrea sí. se procede a levantar y agitar suavemente las tarjetas. facilitan la verificación de conteos y la realización de un gran número de clasificaciones simultáneas. Tomando de cada extremo el instrumento punzante utilizado. Sin embargo. No obstante. existe la dificultad para obtener sumatorias de variables cuantitativas y la posibilidad de perder una o varias tarjetas. Al final. masculino. una de sus esquinas debe recortarse con la finalidad de facilitar su acomodo. anexo a una perforación marginal. 3. Acomodamos todas las tarjetas en un solo fajo. El recorte debe ser lo suficientemente grande para evitar que exista algún “gancho” que impida el manejo de las tarjetas. son caras y. cada montón de tarjetas puede separarse nuevamente en atención a otras variables. etc. Este tipo de tarjetas permite manejar con facilidad grandes volúmenes de información. 3. 12 . Se pasa un punzón o aguja de tejer (según el número de tarjetas) a través de las perforaciones que corresponden a la variable y categoría de interés. Al igual que las tarjetas simples. y d) es imposible realizar sumatorias de valores no agrupados. femenino. Al igual que las tarjetas simples. Este procedimiento presenta varias ventajas: a) puede ser utilizado en la mayoría de las investigaciones que se realizan en el campo de la salud.) 4. 5. Si el elemento al cual corresponde la información contenida en la tarjeta posee la característica señalada. 4. presenta algunas desventajas. Modelo de tarjeta simple. 2. Sexo masculino Presentó diarrea Presentó vómito Masculino Diarrea: Sí Vómito: No Sopa: Sí Hipertermia > 37º C Presentó prurito Comió sopa Comió ensalada Ensalada: Sí Comió guisado Comió postre Figura 3-2. estado civil. d) las tarjetas son relativamente económicas y e) el mismo investigador puede elaborarlas. ni a la complejidad de un cuadro tabular. por lo que con frecuencia se cometen errores que son difíciles de corregir. Tarjetas con perforaciones marginales Son tarjetas de tamaño variable. sólo resta contar el número de tarjetas separadas en la última clasificación.Bioestadística es fácil olvidar si el elemento que se está señalando ha sido o no contado. Tarjetas simples Consisten en un rectángulo de papel grueso (p. Identificamos la localización de la variable a tabular (presencia de vómito. Para contabilizar los datos se procede de la siguiente manera: 1. En una cara de la tarjeta se anota. ya que han de elaborarse en imprenta. Figura 3-3. todas las tarjetas nos mostrarán el mismo frente de la hoja. Cuando hacemos esto. b) facilita la verificación de conteos y disminuye el potencial de error. cuya característica más importante son sus perforaciones marginales (figura 3–3). La esquina recortada facilita el acomodo previo al conteo (véase figura 3-2). El procedimiento se puede repetir a partir del paso 1 el número de veces necesarias para completar las clasificaciones simultáneas de interés.). se realiza un recorte entre la perforación marginal y el borde de la tarjeta. ej. b) facilidad para perder una o varias tarjetas y c) dificultad para manejar grandes cantidades de datos. Aquellas tarjetas que tengan la perforación recortada caerán y corresponderán a los individuos que presentan la característica de interés.. 5. 2. Las tarjetas se acomodan atendiendo al recorte de la esquina. Modelo de tarjeta con perforación marginal. © Editorial El manual moderno Fotocopiar sin autorización es un delito. bristol o cartulina) del cual se ha recortado una esquina. En caso necesario. Para la tabulación procedemos así: 1. se procede a contar el número de tarjetas de cada montón. Una vez completadas las separaciones necesarias. etc. c) el número de clasificaciones simultáneas no está limitado a nuestra memoria. e) recurso tecnológico relativamente económico y f) disponibilidad de programas de cómputo que permiten realizar procedimientos estadísticos complejos en poco tiempo. REFERENCIAS © Editorial El manual moderno Fotocopiar sin autorización es un delito. d) oportunidad de almacenar gran cantidad de datos. Mérida.Cómputo de datos Computadoras Los equipos de cómputo brindan muchas facilidades ideales para el manejo estadístico de datos. información y procesos estadísticos. F. registros nacionales de mortalidad. ej. Estadística Médica y Planificación de la Salud (Vol. 13 Entre las ventajas del uso de los sistemas de cómputo se encuentran: a) rapidez en el proceso. Además. (1991). Por otra parte.).. los equipos de cómputo pierden actualidad y se deprecian pronto. Venezuela: Universidad de los Andes. sino también para su análisis estadístico. Camel. las desventajas más notables son: a) demanda de personal capacitado en su manejo. que eran muy caros. el uso amplio de equipo personal ha favorecido el desarrollo de programas auxiliares útiles no únicamente para el cómputo de datos. el desarrollo tecnológico de las computadoras y su abaratamiento nos permiten utilizarlas con una facilidad asombrosa. etc. c) facilidad para manejar grandes volúmenes de datos (p. . censo de población de un país. 1). Durante muchos años. b) facilidad con que los archivos se dañan y c) debido a los rápidos cambios en el campo tecnológico. esta tecnología sólo estuvo disponible en las instituciones que podían pagar uno de esos equipos. b) disminución de los errores y facilidad de corrección de los mismos. Sin embargo. . Vale la pena insistir: la computadora es una herramienta y en ningún momento sustituye la labor del investigador en el análisis estadístico. se hacía con la ayuda de una calculadora (pero también con los dedos). pero es el investigador quien tiene que decidir qué análisis es el más adecuado para sus datos. o ¡a redondear los datos! Las ecuaciones estadísticas se limitaban al cálculo de proporciones y promedios. Pero si esto se hace incorrectamente. Es necesario aclarar que no se trata de una revisión sistemática de los programas 15 . Hemos querido empezar este capítulo ironizando. Pero ésta es una historia que se vivió a partir de mediados del siglo XX. y es él quien tiene que interpretar los resultados. cuando las computadoras podían “equivocarse”. Con la ayuda de la computadora. los programas para presentaciones y los programas estadísticos. lo cual. en ocasiones. Los cálculos de probabilidad (p) en que se basaban las inferencias se apoyaban en las tablas de los anexos al final del libro. cansado y. A esta lista también podríamos agregar algunas utilerías y páginas de la web que funcionan como calculadoras estadísticas/epidemiológicas. Las primeras computadoras. Por tanto. el investigador tiene que realizar varias tareas: • • • • • • • • Presentación de la propuesta o proyecto Búsqueda y registro de datos Captura y transformación de datos Revisión de la captura Tabulación de datos Cálculo de estadísticos Interpretación de resultados Reporte final del trabajo Para realizar estas tareas. Durante el análisis estadístico. que aparecieron los primeros programas de cómputo especialmente diseñados para el análisis estadístico. Los programadores salieron de la vista y los propios investigadores podían hacer los análisis sin necesidad de intermediarios. los errores frecuentes obligaban a repetir los conteos. Además. Sólo que ahora ya se han encontrado a las culpables: las computadoras. Algunos son exclusivos del trabajo estadístico. Pero luego sucedió lo que nadie esperaba: las computadoras llegaron a los escritorios de las oficinas y a las mesas de las casas. y las regresiones no pasaban de dos variables. Este trabajo era tardado. A continuación se harán comentarios sobre algunos programas de cómputo. entre los programas de cómputo que se utilizan se incluyen los procesadores de texto. 2 “Había una vez” Así empiezan los cuentos. Y así reinó el caos durante años.N xi i =1 4 Introducción a los programas N de cómputo ( xi μ ) 2 © Editorial El manual moderno Fotocopiar sin autorización es un delito. y sólo algunos pocos matemáticos expertos se atrevían a realizar pruebas más avanzadas. la entrega de resultados aún se retrasaba y con frecuencia tampoco había tiempo para su discusión. los administradores de bases de datos. estaban al cuidado de un grupo selecto de iniciados: los programadores. El uso que se hace de ellos difiere de muchas maneras. Durante muchos años. La entrega de resultados siempre se retrasaba y con frecuencia quedaba poco tiempo para su discusión. el ejercicio de la estadística incluyó el trabajo penoso de tabular datos durante horas antes de realizar la primera operación. los resultados también serán sorprendentes por la magnitud de los errores. se agiliza la tabulación y también las operaciones. que eran equipos muy grandes y costosos. al principio las cosas no fueron más fáciles. Los humildes mortales sólo las podían ver a través de los grandes cristales que las protegían del polvo y del calor. pero que no piensa ni actúa por sí sola. Si lo anterior ha quedado claro. el investigador usa varios programas de cómputo. estos equipos han adquirido características propias de ellos: además de “equivocarse” también se entretienen “echando a perder” los archivos de datos. Fue en esa época. los resultados serán sorprendentes. las hojas de cálculo. Gracias al contacto con los humanos. pero ese recurso estaba dedicado a cumplir funciones administrativas y todavía se encontraba alejado del investigador. aburrido. entonces ya se puede continuar con el tema de los programas de cómputo que pueden ser de gran ayuda en el análisis estadístico. La computadora sigue instrucciones en lenguaje binario. pero la entrega de resultados sigue retrasándose y con frecuencia sigue sin haber tiempo para la discusión. porque es importante dejar bien claro que la computadora es una = N xi i =1 N i =1 N herramienta muy útil en el análisis estadístico de los datos. y no sólo ellas. y las cumple a una velocidad que no deja de ser impresionante. pero con frecuencia realizan tareas comunes. también llegaron los programas de cómputo. En términos generales. por lo general. otros son menos específicos. Si se le alimenta correctamente y las instrucciones que se le dan son las adecuadas. hasta que un día llegaron las computadoras. Por brevedad. Entre los programas de esta categoría están dBase. se procede a identificar las columnas con las variables y los renglones con los registros. se podría identificar al principio o al final de ella después de ordenar los registros según un criterio ascendente o descendente. estos programas también permiten editar y transformar datos. pero menos versátil.Bioestadística existentes. ADMINISTRADORES DE BASES DE DATOS Cumplen una función muy importante durante el trabajo estadístico: ayudan a capturar datos en los archivos de cómputo en los que se almacenan. PROCESADORES DE TEXTO Estos programas son los más genéricos de todos los que se utilizan. como el cálculo de proporciones. La verificación de la captura se puede realizar comparando los datos en pantalla con la forma en la que se registraron. “sexo” en la columna “B”. los datos en la pantalla se pueden comparar con la forma en la cual se registraron los datos. generalmente un número progresivo. entonces se podría pedir al programa que los ordenara según los valores anotados en la columna del sexo. Entre estos programas destaca Word para Windows. Su primera aplicación suele ser la captura de datos. Otros incluso permiten escribir fórmulas como las que se presentan en este libro. también puede utilizar estos programas para tabular datos y realizar operaciones estadísticas. Entre estos programas. respectivamente. pero la limitación más importante reside en que es necesario conocer los programas con mucha profundidad y saber programar. así como generar nuevas variables y asignarles valores a partir de los existentes. a partir de los cuales se pueden ordenar los datos según diferentes criterios. en la captura suelen utilizarse códigos y no etiquetas. más bien se escribe sobre algunos que los autores han tenido oportunidad de utilizar. los mismos datos tendrían la presentación del cuadro 4-1. a partir del segundo renglón. en sustitución del nombre del sujeto o elemento del conjunto que se estudia. o pruebas de chi-cuadrada y t de Student. el programa permite corregirlo. es mucho más sencilla que la que se puede hacer en los administradores de bases de datos. las hace muy útiles para el trabajo estadístico. construidas a partir de columnas y renglones. si los datos del cuadro 4-1 fueran muy extensos. Bajo la etiqueta “sexo” el código “1” significa “varón”. “2”. los más conocidos son Excel y Lotus. Por ejemplo. En el renglón 1 se identifican las variables: “registro” en la columna “A”. reportes finales del trabajo y formas para captar datos (cuestionarios. mientras que el “2” se refiere a “mujer”. promedios y desviaciones estándar. Otro procedimiento más ventajoso por su facilidad es la utilización de filtros. En una hoja de cálculo. En las celdas del primer renglón se anotan los nombres de las variables y. “edad” en la columna “C” y hemoglobina con la etiqueta “Hb” en la columna “D”. Si alguien cuenta con un poco de experiencia en programación. Por ejemplo. en vez de escribir “masculino” en la columna de sexo se puede anotar “1” y en lugar de “femenino”. En las celdas debajo de “edad” y “Hb”. De esta manera se ahorra mucho tiempo y se reduce el número de errores. limitando así. En primer lugar. se anotan los valores que corresponden a cada lectura. 16 . Básicamente sirven para escribir las propuestas iniciales. el número de errores que se pueden cometer. por ejemplo. además de las funciones que incluyen. Representación de la captura de datos del cuadro 1-1 en una hoja de cálculo A B C D 1 registro sexo edad Hb 2 1 1 45 12 3 2 2 23 13 4 3 1 32 11 5 4 1 18 15 6 5 1 21 14 E © Editorial El manual moderno Fotocopiar sin autorización es un delito. El potencial de estos programas en el análisis estadístico es enorme. HOJAS DE CÁLCULO Su estructura de celdas. Si existe algún error. Los filtros reconocen todos los criterios o secuencias de datos capturados en cada Cuadro 4-1. Además de generar la estructura de la base y de permitir capturar los datos. se capturan los datos que corresponden a cada elemento del grupo. La verificación de datos puede realizarse de varias maneras. Pueden ayudar a generar pantallas de captura que faciliten el trabajo de introducir datos. en el cual los renglones (identificados con un número en la primera columna) y las columnas (identificadas con letras mayúsculas en el primer renglón) definen las referencias de cada celda. Bajo la etiqueta “registro” se anota el número i-ésimo que corresponde a la captura. cédulas de captura). Ejemplo explicativo 4–1 Recuérdese el cuadro 1-1 en el que se presentaron los datos de un grupo de trabajadores de un taller de automóviles. Para capturar datos en una hoja de cálculo. Algunos incluyen utilerías capaces de elaborar cuadros y gráficos. Fox y Access. Si por algún motivo alguien hubiera anotado un tres en esa columna. binomial. ya no sea necesario capturarla nuevamente. Por ejemplo. En segundo plano. la misma captura que en el cuadro 4–1.Pb n de A 150 IC 95% Cuadro 4-3. el investigador tiene que hacer muchas veces las mismas operaciones.5 Pa .3 límite inferior 4 3 1 32 11 4 n de B 175 límite superior 0. sólo modificar los valores para que cambien los intervalos de confianza de acuerdo con cada cuadro. Varias funciones matemáticas y trigonométricas también están incluidas en las hojas de cálculo.96*(B1*(1–B1)/ B2+B3*(1–B3)/B4)^0. Ejemplo explicativo 4–2 Supóngase que se han capturado los datos del ejemplo 4-1 por duplicado. como el número tres capturado en la variable sexo del ejemplo anterior. podría existir interés en presentar los resultados mediante diferencias de proporciones con intervalos de confianza de 95%. como la normal. Las hojas de cálculo incluyen funciones que. Si se observa con detenimiento. varianza. Una función que puede ser de mucha utilidad está relacionada con la generación de números aleatorios. de tal manera que. por ejemplo. sólo es necesario cambiar los valores que resulten de procesos intermedios para actualizar el resultado. en primer plano. F y z. 2.96*(B1*(1–B1)/ B2+B3*(1–B3)/B4)^0. También pueden mostrar los valores de varias distribuciones de probabilidad. entre las que se encuentran los cálculos de la media. Ejemplo explicativo 4–3 Con frecuencia. Para que el programa Excel muestre las diferencias de la captura en la tercera hoja. Cuadro 4-2. lo cual permite identificar cualquier error de registro. permiten realizar varias operaciones.” “). Estas fórmulas se presentan con mayor detalle en el capítulo 16. en hojas de cálculo 1 A B C registro sexo edad 2 moda. Para comparar las capturas. se puede encontrar. para el resto de los cálculos sólo es A B C D 1 registro sexo edad hg 2 1 2 45 12 3 2 2 26 13 A B C D E registro sexo edad hg 1 Proporción A 0. se muestra una hoja que identifica la diferencia de valores y los señala con la palabra “ERROR”.5.2 2 1 1 45 12 2 3 2 2 23 13 3 Proporción B 0. © Editorial El manual moderno Fotocopiar sin autorización es un delito. intercepción y pendiente de la regresión lineal. y luego se copia a todas las demás celdas en la hoja de cálculo. Una tercera opción para verificar la captura incluye registrar dos veces los datos en la misma secuencia: la primera en una hoja y la segunda en otra hoja del mismo archivo. t de Student. Una vez que las capturas diferentes han sido identificadas. automáticamente. y éstas son muy útiles cuando se desea redondear los resultados o transformar los valores de las variables mediante logaritmos o antilogaritmos. Poisson. mediana. mientras que el límite superior se tendría en la celda E4 con la fórmula =E1+1. se utilizaría una tercera hoja que contraste las dos primeras y destaque las capturas que no fueran iguales. se puede utilizar la función =SI() en cada una de las celdas de la tercera hoja (que es la que compara): en la celda A1 se escribe la fórmula =SI(Hoja1!A1<>Hoja2!A1 . derivado de la fórmula. tal como se presentan en el cuadro 4–2.5. ERROR 3 1 17 ERROR Una vez que se tiene la hoja con los valores y las ecuaciones en posición (cuadro 4-3). se busca en las formas de captura cuál de las dos es la correcta para cambiarla en la hoja en la cual se tiene el error. a partir de un bloque de datos. cuando se prepara un reporte final. F. Representación de la captura de datos del cuadro 1-1. por duplicado. coeficiente de correlación. una vez que se ha introducido una fórmula. t. Presentación de proporciones e intervalos de confianza de 95% A B C D E 0.305 5 4 1 18 15 5 6 5 1 21 14 6 0.”ERROR”. así como realizar las pruebas de chi-cuadrada. después. mientras que en la columna E se colocan las ecuaciones para los resultados: la diferencia de proporciones se obtendría mediante la fórmula (en Excel) =B1–B3 en la celda E1. En el tercer plano. pero con valores diferentes.Introducción a los programas de cómputo variable. En las celdas de la columna B se anotan las proporciones y el número de observaciones en las muestras A y B.095 . desviación estándar. En la hoja de cálculo se pueden poner los valores y las fórmulas necesarias una vez y. Las hojas también pueden servir para simplificar el trabajo. se aprecian los primeros dos renglones con los mismos datos excepto dos cambios: en las celdas B2 y C3 los datos no son los mismos que en la primera hoja. En el cuadro 4–3 se representa una hoja de cálculo mediante la cual es posible calcular los intervalos de confianza. el límite inferior del intervalo de confianza se obtendría en la celda E3 mediante =E1–1. Al entrar al programa se ve una pantalla cuadriculada muy semejante a una hoja de cálculo. Los hay genéricos o especializados y también gratuitos o muy caros. porque cada comando se escribía en una pantalla negra en la que no se veían ayudas. es Epi Info 6 y aún se puede descargar en http://huespedes. entre las que se encuentra Windows. el usuario tenía que saber mucho de programación. SPSS y R. Sin embargo. Entre estos programas se encuentran Power Point y Harvard Graphics. Esta gran difusión ha facilitado la traducción del programa y sus manuales al español. también se debe mencionar la gran capacidad que tienen para importar y exportar archivos generados en otros formatos.gov) y otros sitios de la red. En esta pantalla se puede empezar a capturar datos de la misma manera como se señaló para las hojas de cálculo. capturar datos (Enter Data). la interfaz del Menú nos muestra las utilerías que ofrece el programa: crear formas de captura (Create Forms).cdc. En el mismo menú superior se encuentra “StatCalc”. y esto limita el uso de las hojas de cálculo sólo a la realización de análisis muy elementales. Es difícil decir cuál es el mejor. entre las que destaca su facilidad de manejo. Además de todas las facilidades que brindan las hojas de cálculo. éstos son los que más han revolucionado el trabajo en la estadística. 18 . generalmente se le concede preferencia al uso de gráficos o cuadros. y fue uno de los primeros programas de estadística disponibles en las computadoras personales. pero existen opciones en español. La versión más reciente del programa es Epi Info 7 que se ejecuta. La presentación que aquí se hace se concentra en tres programas: Epi Info. SPSS (Statistical Package for Social Science) Este programa tiene una larga historia en el análisis estadístico. PROGRAMAS PARA PRESENTACIONES Estos programas ayudan a elaborar la presentación de los datos. pero no cabe duda de que se debe tener el que mejor se conozca y que permita realizar los análisis estadísticos que se requieren para el trabajo. B2. Parecería que un programa de hoja de cálculo cubriría todas las necesidades para el trabajo.cdc. si ya se conoce uno. Originalmente fueron escritas en inglés. El análisis de datos (en Analyze Data) se puede realizar tanto en archivos propios de Epi Info 7.com que se describe líneas abajo. que se ejecutaba bastante bien en Windows XP o anteriores.es/huespedes/epiinfo/. la hoja de cálculo también tiene algunas limitaciones inherentes a su estructura en forma de hoja: es muy difícil tabular datos cuando existe interés en más de dos variables. así. La facilidad con la cual se puede realizar un gráfico en estos programas permite ensayar con varias formas diferentes hasta que se encuentre la que mejor presenta los resultados. B3 y B4 para obtener las diferencias de proporciones y los intervalos de confianza de 95% que correspondan a los datos. esta opción incluye una serie de calculadoras epidemiológicas y el enlace a la página web de OpenEpi.gov/epiinfo/. Para hacerlo. lo cual los hace muy útiles cuando se trabaja en varias plataformas de datos. analizar datos (Analyze Data) y crear mapas (Create Maps). en Windows 7. PROGRAMAS ESTADÍSTICOS De todos los programas que se comentan en este capítulo. La primera versión para Windows se conoció como Epi Info 2000 y se ejecuta bastante bien en Windows XP o posteriores. Entre ellos existe una gran variedad de funciones y costos. Varias de sus características han contribuido a brindarle ese lugar privilegiado. Los datos capturados de esta forma pueden guardarse en un archivo de SPSS y después © Editorial El manual moderno Fotocopiar sin autorización es un delito. pero sin la facilidad de poder realizar operaciones en las celdas. como archivos con formatos de Access. principalmente mediante proyecciones o carteles. El programa corre en ambiente Windows. Epi Info 7. En un principio se concibió como una herramienta auxiliar de los epidemiólogos de campo para usarse en equipos portátiles de cómputo. La versión para MSDOS. Las tres versiones en inglés se pueden descargar de http://www. A estas mismas opciones se puede llegar a través de “Tools” en el menú que se encuentra en el borde superior de la ventana. En las primeras versiones de SPSS para PC. todos los demás resultan familiares y más fáciles de aprender. entre los que sin duda es uno de los programas más populares. Excel. con las mismas dificultades. De manera general. Las hojas de cálculo también son de gran ayuda para realizar los gráficos necesarios en el análisis estadístico.cica. Las primeras versiones se hicieron para correr en equipos muy grandes. Epi Info Este programa ha sido desarrollado y distribuido por el CDC de Atlanta. pero ninguna le ha dado tanto impulso como el hecho de que el programa se distribuye libremente y sin costo a través de Internet desde el CDC de Atlanta (www. el programa corre en varias plataformas. porque se maneja de manera semejante a otros programas de este ambiente gráfico. Ahora el ambiente gráfico facilita el manejo a tal punto que el usuario puede aprender a utilizarlo en horas (o en minutos si se tiene alguna experiencia en otros programas de cómputo). y es una gran ventaja.Bioestadística necesario cambiar los valores de B1. SQL y ASCII. de preferencia. Epi Info se desarrolló para ejecutarse en dos plataformas diferentes: MSDOS y Windows. entre otros idiomas. En la actualidad. pero con el tiempo ha encontrado su lugar en la mayoría de los grupos de trabajo que laboran en el campo de la salud. . análisis de varianza.html. ej. R El programa R es un ambiente de programación para realizar gráficos y cálculos estadísticos. el programa comenzará a instalarlo automáticamente. éste solicitará que se seleccione el “CRAN mirror”.xls). por mencionar algunos. 19 R Commander (“Rcmdr”) es un paquete que funciona como un programa de análisis estadístico dentro del programa R.Introducción a los programas de cómputo pueden llamarse para continuar la captura o iniciar el análisis. por lo que una simple coma (. Al palomear la casilla “Rcmdr”. basado en códigos de programación específicos. Está conformado por una serie de calculadoras epidemiológicas y con enlaces a muchas páginas especializadas en análisis estadístico y epidemiológico. el cual puede ser archivado como texto (*.org/index.com/v37/Menu/ OE_Menu.. servidor a partir del cual se instalarán los componentes necesarios para la sesión de trabajo. El paquete ODBC Database Access (“RODBC”) debe ser instalado por el usuario si desea importar a R las bases de datos creadas en formato Excel (*. los cuales deben ser instalados en R antes de usarse. 2. La ventaja de trabajar con R Commander radica en que éste aporta todas las ventajas de R (p. se guiará al lector a través de los pasos básicos necesarios para el análisis y creación de los modelos lineales generalizados en R Commander (capítulo 27). Los autores de este libro recomiendan como editores de código los programas RStudio (http://www. 3. Es un proyecto de colaboración en el cual los colaboradores donan códigos de acceso libre.txt) o código R (*. Ejemplo explicativo 4–4 Una vez descargado de la red e instalado el programa R. La gran desventaja de este programa radica en que la consola de R trabaja con un lenguaje de programación y no cuenta con los menús de selección a los que estamos habituados los usuarios de la plataforma de Windows. análisis de regresión) precisa. el cual puede descargarse y encontrar temas de ayuda en http://www. Al abrir RStudio. Estos programas facilitan la escritura de los comandos en un documento llamado “script”. Es importante señalar que la aplicabilidad de R Commander no se limita a los modelos generalizados. En las siguientes ocasiones en que se utilice RStudio. es necesario instalar el paquete R Commander.com/) y Tinn-R (http://sourceforge. Una vez abierta esa ventana. El paquete necesario para realizar análisis estadísticos clásicos se instala automáticamente al instalar el programa R (“stats”). 5. Por simplicidad. R Commander.rstudio. la cual contiene la lista de los paquetes que utiliza R (figura 4-1). © Editorial El manual moderno Fotocopiar sin autorización es un delito. gráficos) por medio de una interfaz mucho más amigable para el usuario. corrigen errores de programación y documentan las distintas funciones de R. es necesario conocer su lenguaje. esto ocurrirá solamente la primera vez que se utiliza el programa. se encuentran los análisis estadísticos clásicos. Las personas que conocen el lenguaje de programación pueden generar sus propios códigos para realizar cálculos específicos (p.r-project. solo será necesario seleccionar el paquete “Rcmdr” de la lista de paquetes y el programa se encargará de cargarlo en la consola de R y abrirlo (figura 4-1). Seleccionar el que corresponda al país en el que se encuentre. el programa solicite instalar ciertos paquetes automáticamente. El programa también permite leer bases de datos generadas por otros programas. Instalar el programa R (en su versión más reciente). Una vez abierta la consola.htm). lo anterior lo haremos por medio del programa RStudio siguiendo los siguientes pasos: 1.. Actualmente existen programas gratuitos que funcionan como editores de código R y que trabajan bajo la plataforma de Windows. La consola de R puede requerir paquetes de comandos para realizar análisis específicos.txt) o formato CVS (*. análisis de clasificación y estadística multivariada. buscar en la lista R Commander.r) para un subsecuente uso y edición. los cuales tienen ventajas adicionales como la ventana para observar y guardar los gráficos y las ventanas de fácil acceso a la instalación de paquetes y a la búsqueda de temas de ayuda en R.) fuera de lugar interrumpe el proceso del análisis generando mensajes de error. los modelos generalizados pueden crearse directamente en la consola de R sin requerir ningún paquete adicional. sin embargo. modelación lineal y no lineal. accesible y de bajo costo. Entre la variedad de cálculos estadísticos que pueden realizarse en R.net/projects/tinn-r/). Otro de los inconvenientes es que los códigos son extremadamente sensibles a los errores tipográficos. 4. Instalar el programa RStudio. Los autores recomiendan el uso de R Commander para quienes comienzan a estudiar e implementar este tipo de análisis estadístico con sus datos. Su gran ventaja es que es un programa de acceso abierto y gratuito en constante actualización. buscar en la ventana derecha la pestaña “Packages”. Estos programas se vinculan con la consola de R. la primera vez que se utilice. OpenEpi OpenEpi es una página en la web que se puede consultar a través de un browser (en http://openepi.xls). simulaciones Monte Carlo). para poder comenzar a utilizar la consola blanca. actualizan el programa y sus paquetes. Es probable que. análisis de series de tiempo. basada en menús y ventanas de selección bajo el perfil de Windows. como Excel o Fox. ej. por ejemplo. En R pueden importarse bases de datos guardadas en formato de texto (*. Otra ventaja es la calidad del diseño de gráficos para su publicación. con lo cual al tiempo que se escribe el código se pueden enviar las instrucciones a R y observar los resultados. tal como se mencionará en el capítulo 27.csv) con columnas delimitadas por comas o tabulaciones. ej. Los lectores pueden iniciarse en el lenguaje de R utilizando dicho paquete como otra herramienta estadística (p. pero que también se puede utilizar a nivel local si previamente se descargó el programa en la computadora. En este libro. también es posible importar y utilizar los archivos creados en Excel (*. . lo mismo ocurre con el programa R. Recuperado de http://www. los programas de presentaciones no tienen comparación cuando se desea mostrar los datos en un evento científico.14. A la izquierda se muestra la consola de R versión 2. en particular los más reconocidos. Epi Info brinda menos posibilidades. y los procesadores de texto son una verdadera bendición cuando se describe el proyecto. Pero es preciso tener cuidado. pero incluye opciones que no están presentes en SPSS. la mayoría son buenos. . los administradores de bases de datos. son insustituibles cuando se trata de hacer operaciones. En general.R-project. la ventana ¿EL MEJOR PROGRAMA? No existe. Programa RStudio. como Excel. el cual. Por ejemplo. A language and environment for statistical computing. complementa los estadísticos de SPSS y facilita el análisis de los modelos generalizados. Viena. En opinión de los autores. Así que no existe un “mejor programa”. son REFERENCIAS R Development Core Team R. mejores para transformar variables. Austria: R Foundation for Statistical Computing. se realiza el informe final o se escribe un artículo en el que se dan a conocer los resultados de la investigación. “Packages” con la lista de los paquetes y la opción “Rcmdr” seleccionada. SPSS tiene una gran cantidad de opciones para el análisis estadístico. (2013). Cada programa tiene sus ventajas y sus aplicaciones. © Editorial El manual moderno Fotocopiar sin autorización es un delito. como dBase o Fox.org/. pero no mejores que Epi Info para capturar o verificar datos. porque podría existir un mal programa y su uso tendría consecuencias muy desagradables para el trabajo y la interpretación de los resultados. a través de su paquete R Commander. Las hojas de cálculo.20 Bioestadística Figura 4-1.0 (2011) y a la derecha. pero pocos lo han utilizado completamente. • Cegamiento del tratamiento. el diseño se identifica como “doble ciego”. • Cuando el diseño se aplica en poblaciones abiertas (escuelas. ese mismo grupo recibe la otra exposición (o exposición “B”).) en prueba con la de otro grupo de sujetos de la misma condición (enfermos o sanos) que no reciben la exposición. Los diseños de estudios que se agrupan en estos dos apartados incluyen los siguientes: • Estudios analíticos: • Ensayos clínicos • Estudios de cohorte • Estudios de casos y controles • Estudios transversales analíticos • Estudios de correlación • Estudios descriptivos: • Estudios de clasificación • Estudios de prevalencia • Estudios de incidencia o pronóstico • Series de enfermos © Editorial El manual moderno Fotocopiar sin autorización es un delito. del tal manera que. Cuando esto es posible. etc. Cuando se logra que tanto los pacientes como los investigadores no puedan identificar las exposiciones que se están administrando. Variaciones de este esquema general introducen algunos nombres que definen con mayor claridad el diseño. ESTUDIOS ANALÍTICOS Ensayos clínicos Este diseño metodológico evalúa la eficacia de un tratamiento o intervención en el ser humano mediante la comparación de la frecuencia de un determinado evento de interés clínico (o desenlace) en un grupo de sujetos (enfermos o sanos) que reciben una exposición (al tratamiento. en una primera parte. el diseño llega a conocerse como “cuasi-experimental”. 21 . manejo. Cuando no es posible asignar aleatoriamente la exposición a los sujetos. un grupo recibe una exposición (la exposición “A”) y. Esto generalmente se da una vez que los sujetos han ingresado al estudio. etc. Esquema general de un ensayo clínico. los cuadros “A” y “B” representan la exposición y los “Eventos” corresponden a los eventos de interés clínico (o desenlace). Uno de los esquemas más utilizados los clasifica en estudios analíticos y descriptivos. tal como se muestra en la figura 5-2. El esquema general de este diseño se muestra en la figura 5-1. El otro grupo recibiría las mismas exposiciones. donde el “Universo de estudio” corresponde al grupo de interés. La característica más distintiva de estos diseños consiste en que el investigador asigna la exposición a los grupos en estudio. ciudades. después de un tiempo. Una modalidad del ensayo clínico contempla el cambio de la exposición que se aplica a los grupos en estudio. Entre estas variaciones se incluyen las siguientes: • Asignación aleatoria de los sujetos a cada grupo de estudio. el diseño llega a conocerse como “Ensayo comunitario”.).N xi N i =1 5 Introducción a los diseños N de investigación ( xi μ ) 2 epidemiológica 2 = i =1 xi i =1 N N Cuando realizamos una investigación en seres humanos y utilizamos la bioestadística para analizar los datos. pero en orden inverso. poblados. dependiendo de si el objetivo de investigación incluye comparar o relacionar dos o más grupos de variables (estudios analíticos) o describir un solo grupo de ellas (estudios descriptivos). los diseños de investigación pueden clasificarse de maneras muy diversas. A Eventos B Eventos Universo en estudio Figura 5-1. los sujetos del estudio y los investigadores desconocen las características de la exposición en estudio que recibe cada grupo. la condición de interés terminal sería la recuperación de la salud o la muerte). . 2. Este tipo de estudio permite medir con precisión tanto la exposición como el efecto (véase la marca “A” en la figura 5-3). C © Editorial El manual moderno Fotocopiar sin autorización es un delito. en dos fuentes: • Desde el momento en que el estado de exposición ha sido definido. 1. compañías de seguros. Se conoce como cohorte histórica o retrospectiva aquella variante en que la exposición y el evento de interés ya han ocurrido cuando el estudio se inicia. 1. del tiempo que ha transcurrido desde la exposición (véase la marca “B” en la figura 5-3). La figura 5-3 ejemplifica este diseño. entre otros aspectos. Hospitales u otras entidades de atención médica. o cuando el grupo de estudio parte de estar enfermo. Una vez que el evento de interés y los criterios diagnósticos se han definido con claridad. al menos. 2. Esto se refleja en la rapidez y relativa economía con que estos estudios se realizan. • La condición de la exposición permite que los sujetos en estudio puedan clasificarse en. Generalmente. Sin embargo. la condición de interés terminal sería el inicio de una enfermedad. En la población general. todos los sujetos a estudiar deben estar libres de la condición terminal de interés que se pretende estudiar (cuando el grupo de estudio parte de estar sanos. centros laborales. los casos pueden encontrarse. escuelas (véase la marca “C” en la figura 5-3). el evento de interés (enfermos y no enfermos) y el supuesto factor de riesgo ya han ocurrido. “B” y “C” en la figura 5-3. La figura 5-4 nos permite ejemplificar este diseño. después de un periodo de observación razonable según la condición de que se trate. esta característica introduce en el diseño un gran número de sesgos que pueden afectar los resultados del estudio. el investigador busca identificar qué factores están asociados y de esta manera inferir su causa o causas. Independientemente de su fuente. Esquema general de un estudio de cohorte. no hay que esperar tiempos prolongados para realizar los estudios. La exactitud con que se mide depende. • El investigador no asigna la exposición. Esquema general de un ensayo clínico cruzado. Dado que. se cuantifique la frecuencia de eventos de interés desarrollados en ambos grupos. 2. básicamente. dependiendo del momento en que se mide la exposición. la información se obtiene a partir de registros en hospitales. El diseño básico podría tener algunas variaciones. A partir de este estado. dos grupos a comparar.22 Bioestadística Universo en estudio A Eventos A Eventos B Eventos B Eventos Estudios de cohorte Estudios de casos y controles El paradigma de los estudios de cohorte es la clasificación de los sujetos de estudio según su condición en relación con la exposición de interés para que. al momento de seleccionar los sujetos de estudio. tal como se muestra mediante las letras “A”. Los siguientes son requisitos de este diseño: Los estudios de casos y controles son un diseño analítico observacional en el que los sujetos son seleccionados con base en si éstos tienen (casos) o no tienen (controles) un estado particular (generalmente una enfermedad específica). los individuos afectados pueden ser casos incidentes (recientemente diagnosticados) o prevalentes (existentes en un momento dado del tiempo) de una enfermedad. Figura 5-2. Lo más frecuente es que el estudio inicie después de que los sujetos ya han sido expuestos y los investigadores los clasifiquen según su condición de exposición. El diseño de casos y controles ofrece una solución a las dificultades que implican los periodos de latencia prolongados. El tipo de estudio menos frecuente corresponde a uno donde la investigación da inicio antes de que los sujetos reciban la exposición de interés. la recaída o la muerte. A Grupo expuesto Eventos Grupo no expuesto Eventos B Figura 5-3. abarcar un periodo de tiempo durante el cual se capta la información. A veces. La ventaja de estos estudios es que generalmente la información ya está disponible. al momento de ingresar a trabajar en una empresa). vecinos o parientes de los casos.. sino a los individuos que habrían sido identificados e incluidos como casos si éstos hubiesen enfermado. Estudios transversales analíticos Muestra En estos estudios se exploran simultáneamente la exposición y la enfermedad entre los individuos de una población específica formada tanto por enfermos y no enfermos como por expuestos y no expuestos. ha de buscarse la información referente a su estado de enfermedad y exposición. los cortes transversales elaboran una “fotografía” de la frecuencia y características de la enfermedad en un momento determinado del tiempo. comunidad). Población de interés Enfermos Sanos Expuestos No expuestos Figura 5-5. es difícil seleccionar un solo grupo de controles. Algunas fuentes potenciales de controles son: hospitales. al 30 de junio de 1994) o de la persona (p. mediante un análisis estadístico de correlación. por lo que se toma la decisión de utilizar dos o más. Dependiendo de dónde se obtuvieron los casos (consultorio. o bien. © Editorial El manual moderno Fotocopiar sin autorización es un delito. Estudios de correlación o ecológicos En estos estudios la unidad de observación es un grupo de la población o comunidad y no el individuo. hospital. alguien interesado en estudiar neoplasias y su relación con el consumo de carne podría tomar datos sobre las tasas de mortalidad por cáncer gástrico y sobre el consumo nacional promedio de carnes rojas de varios países. Este diseño implica una primera etapa en que se obtiene una muestra aleatoria de la población de interés. Ello acorta el proceso de investigación y disminuye drásticamente los gastos del mismo. Enfermos Exposición en enfermos No enfermos Exposición en no enfermos 23 Figura 5-4. se han utilizado amigos. en la que posteriormente los sujetos muestreados son clasificados de acuerdo con la exposición y estado de salud según se muestra en la figura 5-5. Después de que los grupos de casos y controles han sido definidos en función de sus características y fuentes. En ocasiones. En cuanto a los controles. la necesidad de obtener información comparable entre ambos grupos.Introducción a los diseños de. podría encontrar una relación directa entre el consumo de carne roja y la mortalidad de ese tipo de cáncer (figura 5-6). ej. los controles no necesariamente han de representar a la población sana. Por ejemplo. ej. así como consideraciones prácticas y económicas. . . ha de tomarse en cuenta que la calidad y precisión de los datos en ambos grupos debe ser comparable.. Con dicha información el investigador. Esquema general de un estudio de casos y controles. Esquema general de un diseño transversal ana- lítico. por lo que su selección ha de ser específica para cada uno. En su definición han de tomarse en cuenta la procedencia y las características de los casos. Ante cualquier fuente potencial de información. En otras palabras. consultorios o la población general. Estos estudios pueden realizarse en un momento específico del calendario (p. . realmente no existe un grupo óptimo para todos los estudios. Estudios de incidencia Son estudios que tienen como objetivo estimar el número de eventos nuevos de salud que en un tiempo determinado se presentan en una población que no tiene esa característica en el momento en que el estudio empieza. pues también se toma en cuenta información referente a sectores que agrupan diversas actividades económicas (agropecuarias. ej. el índice de masa corporal) a partir de dos grupos de una población: uno con la característica de interés y otro sin esa característica o condición de salud (p.24 Bioestadística Mortalidad por cáncer gástrico 12 10 8 6 4 2 0 0 2 4 6 8 10 12 Consumo de carnes Figura 5-6. pueden nombrarse de pronóstico cuando su objetivo es estimar el tiempo de supervivencia o la descripción de la evolución del padecimiento. Series de enfermos Este tipo de estudios describe la experiencia de un grupo de pacientes con un diagnóstico similar. Típicamente. Aunque estos estudios contemplan dos grupos. minas. Cuando estos estudios se realizan en poblaciones de enfermos (p. Pueden brindar información valiosa sobre quién se enferma (persona). así como de los formatos en que se registran los eventos vitales (nacimiento. un clínico reporta varias características en la enfermedad o la historia © Editorial El manual moderno Fotocopiar sin autorización es un delito. Estudios de prevalencia Estos estudios tienen como objetivo estimar el número de sujetos que en la población general tienen alguna característica o condición de salud específica al momento del estudio.. ej.. comercio) y grupos sociales. ej.. lugar y persona. Los estudios descriptivos pueden utilizar información de fuentes muy diversas. económicos) y los anuarios estadísticos. diabetes mellitus o hipertensión arterial). obesidad). de registros hospitalarios y de consulta. de cáncer). Los estudios descriptivos pormenorizan los patrones de ocurrencia de las enfermedades en relación con variables de tiempo. muerte). esa condición de salud suele ser una enfermedad (p. ej. ausencia y presencia de la característica de interés. aunque también podríamos estar interesados en factores de riesgo (p. Los datos pueden captarse directamente de individuos o familias. no comparan los resultados o condiciones observadas en cada grupo. elementos de la dieta o actividad física). Gráfica de un estudio de correlación. obesidad o tabaquismo) o en condiciones de salud más positivas (p. en dónde se presentan los eventos morbosos (lugar) y en qué momento ocurren (tiempo). ESTUDIOS DESCRIPTIVOS .. La información proporcionada por estos estudios es importante tanto para los administradores de los servicios de salud como para los epidemiólogos. El objetivo principal de estos estudios consiste en calcular el porcentaje de sujetos con la característica (o sin ella) correctamente clasificados mediante un criterio menos que perfecto de clasificación. También se utiliza información ya procesada como la de los diversos censos (población y vivienda. ej. La información utilizada en los estudios descriptivos no se restringe a lo médico. Generalmente.. transporte. Estudios de clasificación Estos estudios se desarrollaron para evaluar la validez y precisión que tienen los criterios de clasificación (p.. sólo describen en términos de sensibilidad o especificidad de acuerdo con el criterio de clasificación en evaluación. ej. industria. Design. G. H. El reporte de varios casos brinda mayor información que el reporte de uno solo. conduct. Greenland S. L. Rothman KJ. Koepsell TD. New York: Van Nostrand Reinhold. Lippincott – Raven.. REFERENCIAS © Editorial El manual moderno Fotocopiar sin autorización es un delito. Kleinbaum. pero es incapaz de generar evidencia 25 suficiente para probar hipótesis alguna. (1982). clínica del enfermo que pueden conducir a la generación de una hipótesis.. A practical approach. analysis.Introducción a los diseños de. Epidemiologic methods. & Morgenstern. Studing the occurrence of illness. John Wiley & Sons. Modern Epidemiology. La interpretación de los resultados se ve limitada en estos estudios principalmente por la falta de un grupo adecuado de comparación. . Schelesselman JJ. Estos estudios representan un paso importante entre la clínica y la epidemiología. Case-control studies. Kupper. Pocock SJ. Chichester. Clinical trials. Weiss NS. New York. Oxford University Press. . D. 2003. 1998. L. Oxford University Press. . Epidemiologic Research. dado que la presencia de cualquier factor de riesgo (aunque claramente sugestivo) puede ser resultado de la casualidad. 1991. Second edition. 1982. . .............................29 Capítulo 7....................................................................................................43 Capítulo 8.......................51 © Editorial El manual moderno Fotocopiar sin autorización es un delito....................................................................Sección II: Estadística descriptiva Capítulo 6.................. Capítulo 9.............................................. Escala cualitativa ......................................................................................................................................... Presentación de los datos ......................... Escala cuantitativa ...59 27 .......... Indicadores básicos de salud ..................................... . En ella.75 (o 75%) de que el sexo de un niño ahogado en el hogar sea masculino. selecciónelo. Continúe haciendo clic en el botón “OK”.75 100 = 75% varones.mdb)”1. en la cual se presentan algunas características de 20 niños. 1 En los ejemplos de Epi Info 7 de esta edición. A continuación. En segundo lugar. 0. p = a ÷ (a + b) = a ÷ N (6. la carpeta donde se encuentra el archivo es “I:\Cursos\Bioestadistica\Libro 3ra Edicion\bases\”. el número de elementos sin la característica de interés.45 100 = 45% ahogados en aljibes. tal como se muestra en el cuadro 6-2. que fallecieron ahogados en su hogar en la Zona Metropolitana de Guadalajara. 6-1 Llame el programa Epi Info 7 y haga clic en la opción “Classic” de “Analyze Data” (figura 6-1). Hay que notar que a + b es el total del universo (N). haga clic en “Read” (el comando lo podrá encontrar en el extremo superior de las opciones de comando). y se especifican mediante el símbolo “%”. y esto seguramente será diferente dependiendo de la unidad de memoria y la carpeta en que guarde el archivo). para calcular un porcentaje basta dividir el número de individuos en cada categoría entre el total del grupo y multiplicar el resultado por 100. El uso de proporciones tiene varias ventajas. Cómo hacerlo en Epi Info. Esta serie de datos puede resumirse mediante el uso de proporciones. Lo anterior se representa mediante la fórmula: © Editorial El manual moderno Fotocopiar sin autorización es un delito. haga clic en “Data Source” y busque en el disco de datos que acompaña al libro el archivo “Bioestadistica_3ra. El programa le mostrará la ventana de “Read”. por medio de las proporciones se puede asumir la probabilidad de que un evento ocurra. Luego. Sólo hay que contar el número de observaciones según cada característica o combinación de éstas y representarlas como proporciones o razones. Así. de 1 a 4 años de edad. En primer lugar. cuando lo encuentre. los porcentajes serían: 0.15 100 = 15% en baldes/tinas.20 100 = 20% en otros depósitos de agua. existe una probabilidad de 0.10 100 = 10% en ollas. pues éstos quedan convenientemente reducidos a la unidad (o a 100 en el caso de porcentajes).1) Donde p representa la proporción. 0.N xi 6 i =1 Escala cualitativa ( xi 2 PROPORCIONES Para calcular una proporción se divide la frecuencia absoluta de la categoría que se está analizando entre el total de individuos identificados con la variable de estudio. La interpretación de las proporciones puede ser un poco confusa para el principiante. siempre y cuando se agrupen los valores de la variable en dos o más categorías. Por ello. Cuando se muestre la ventana de “Analysis”. a es el número de elementos con la característica de interés y b. primero haga clic en la opción “Data Type” y seleccione la opción “Microsoft Access 2002-2003 (. En ese momento la ventana “Read” se mostrará tal como se aprecia en la figura 6-2.25 100 = 25% mujeres. Los datos cuantitativos también pueden resumirse mediante este procedimiento. N N μ) 2 i =1 N ejemplo explicativo 6-1. 0. 0.MDB” (en la imagen de este ejemplo. En el ejemplo anterior. de tal manera que los datos puedan ser leídos tanto en la versión 7 de Epi Info como en la anterior de Epi Info 2000 para Windows. En el = xi i =1 N La información recabada en las investigaciones estadísticas proviene de observaciones individuales. Ejemplo explicativo 6-1 Considérese la serie del cuadro 6-1. Resumir datos cualitativos es relativamente simple.10 100 = 10% en pozos de agua y 0. Notará que en el cuadro de “Epi Info” se aprecia el texto que se muestra en la figura 6-3. 29 . se acostumbra multiplicarlas por 100 para expresarlas como porcentaje. permiten comparar con facilidad dos o más series cuyos totales son diferentes. 0. hemos preferido utilizar el formato de datos de Epi Info 2000. haga clic en “Bio3_06a”. las cuales casi siempre deben resumirse antes de que se puedan utilizar. Zona Metropolitana de Guadalajara. 1991-1993 Variable Frecuencia Proporción Sexo Masculino 15 15 20 = 0. seleccione “DEPOSITO” en la opción “Frequency of”.45 Balde/tina 3 3 20 = 0. ahogados en su hogar. de 1 a 4 años de edad. “Bioestadistica_3ra. Frecuencias absolutas de las categorías listadas. Menú de Epi Info 7. haga clic en “Frequencies” (el comando lo podrá encontrar en la mitad de la pantalla en la lista de comandos).75 Femenino 5 5 20 = 0. 1991-1993 i Sexo i Depósito Sexo Depósito 1 Masculino Aljibe 11 Femenino Aljibe 2 Masculino Balde/tina 12 Masculino Olla 3 Masculino Olla 13 Masculino Pozo de agua 4 Femenino Aljibe 14 Masculino Otro 5 Femenino Balde/tina 15 Masculino Aljibe 6 Masculino Aljibe 16 Masculino Aljibe 7 Masculino Pozo de agua 17 Masculino Balde/tina 8 Masculino Aljibe 18 Femenino Aljibe 9 Femenino Aljibe 19 Masculino Otro 10 Masculino Otro 20 Masculino Otro Para obtener las frecuencias y los porcentajes correspondientes de una variable.10 Otro 4 4 20 = 0. 3. Pantalla de “Analysis” que muestra la ventana de “Read” con las selecciones “Microsoft Access 2002-2003 (. 1. 2. Características de 20 niños.15 Olla 2 2 20 = 0. Categorías de la variable DEPOSITO. podrá observar en la ventana de resultados (figura 6-5) los siguientes elementos: Figura 6-1. Gráfica de barras horizontales.20 Depósito Figura 6-2. en el apartado “Statistics”. Porcentaje de cada categoría en relación con el total. En ese momento la ventana deberá observarse como en la figura 6-4. . Características de 20 niños. En la ventana de diálogo que se despliega. Al hacer clic con el ratón en “OK”. Zona Metropolitana de Guadalajara. ahogados en su hogar. 5.25 Aljibe 9 9 20 = 0. © Editorial El manual moderno Fotocopiar sin autorización es un delito.10 Pozo de agua 2 2 20 = 0. Este tema será tratado más adelante en el capítulo 16.mdb)”. 6.30 Bioestadística Cuadro 6-1.MDB” y “Bio3_06a”. 4. Intervalos de confianza de 95% para los porcentajes de la frecuencia de cada categoría. Cuadro 6-2. Porcentajes acumulados. de 1 a 4 años de edad. y proporciona una estimación de la probabilidad de que un individuo se encuentre enfermo en algún punto del tiempo. En la figura 6-6 esto se presenta de manera gráfica. el epidemiólogo ordena a su equipo que visite y registre toda la población que cubre su unidad. 31 riodo.Escala cualitativa Figura 6-3. etc. encuentra que en una población de 4 550 habitantes se identificaron 228 sujetos diabéticos. la enfermedad es considerada un estado adverso de salud que caracteriza a un individuo durante un pe- Ejemplo explicativo 6-2 Con frecuencia. tuberculosis. La prevalencia cuantifica la proporción de individuos en la población que tienen algún estado de enfermedad en un instante específico del tiempo. infección de vías urinarias. Mensaje que se muestra en la ventana después de llamar los datos en “Analysis” de Epi Info 7. como la prevalencia. los servicios de medicina familiar están interesados en conocer la prevalencia de pacientes enfermos de diabetes en la comunidad donde brindan el servicio médico. Prevalencia Figura 6-4. Así. la incidencia acumulada. es necesario que aclaremos algunos elementos del proceso salud-enfermedad que se toman en cuenta para la estimación de la frecuencia de la enfermedad. diabetes mellitus. El inicio de un estado de enfermedad es un evento que ocurre en un punto específico del tiempo. . Secuencia salud-enfermedad-salud en un sujeto. Para facilitar la lectura del cociente anterior. © Editorial El manual moderno Fotocopiar sin autorización es un delito. cáncer de cérvix. Aunque por lo general se piensa en la enfermedad como un estado. 10 000 u otra cantidad. Frecuencia de la enfermedad en bioestadística Tradicionalmente. Figura 6-5. con la finalidad de no utilizar fracciones pequeñas al expresar prevalencias. a la edad del sujeto estudiado o a un momento en el curso del tiempo a partir de un evento.2) Este “punto” puede referirse a un día específico en el calendario. Tal es el caso del cambio de sujeto sano a enfermo de diabetes mellitus. alcoholismo. La fórmula para calcular la prevalencia (p) es: P= número de casos con la enfermedad en un punto específico del tiempo total de la población en el mismo grupo y punto específico de tiempo (6.05 o 5/100 habitantes. la sensibilidad y la especificidad. hipertensión arterial. 1 000. Ventana de diálogo para la frecuencia de DEPOSITO según la tabla de datos 06a$. Como resultado de su investigación. Frecuencias de las categorías de la variable DEPOSITO según la tabla de datos 06a$. Duración de la enfemermedad (Estado) Inicia la enfermedad (Evento) Figura 6-6. Ejemplos de enfermedad son: demencia. la prevalencia de diabetes en esa población es de 228/4 550 = 0. de tal manera que algunos de sus usos específicos tienen nombres propios. también es posible concebirla como un evento. se acostumbra multiplicar el resultado por una constante que puede ser 100. Uso de las proporciones en epidemiología Las proporciones son muy utilizadas en la práctica de la epidemiología. etc. Para obtener esa información. Antes de describir las formas que toman las proporciones. Probabilidad de clasificar correctamente a aquellos que tienen la característica de interés. entonces la IA será 5/12 = 0. • Especificidad.3) Esta medida de frecuencia proporciona un estimado de la probabilidad de que un individuo tomado al azar en una población en riesgo (susceptible) desarrolle la enfermedad durante un periodo específico. Por tanto. Un niño que ya enfermó de sarampión no lo padecerá de nuevo. Se debe convenir que. Ejemplo explicativo 6-3 Si se toma una cohorte de 12 sujetos y se le observa durante cinco años (sin que sus elementos se pierdan para el estudio y sin que dejen de estar en riesgo durante el periodo del estudio). Antes de continuar es necesario señalar que una persona se encuentra “en riesgo” de una enfermedad cuando es biológicamente posible que desarrolle la enfermedad en un futuro inmediato. Sensibilidad y especificidad La sensibilidad y la especificidad son dos proporciones que nos permiten medir la validez de un instrumento de medición en relación con un criterio de clasificación. Mediante un procedimiento de clasificación “perfecto” (generalmente conocido como “gold standard” o “estándar de oro”). pero ésta fue abolida por algún procedimiento particular. y se calcula como: Número de casos nuevos de enfermedad durante un periodo de tiempo IA = total de la población en riesgo al inicio del período de estudio 3 5 7 9 11 (6. y el cuadro. • La persona no tiene la capacidad biológica de desarrollar la enfermedad. Así.Bioestadística Incidencia acumulada 1 En contraste con la prevalencia.15 en un año. Al inicio del estudio. la línea gruesa. mientras que la incidencia acumulada desde el inicio del estudio es 2/13 = 0. la IA puede multiplicarse por una constante para facilitar su lectura e interpretación. generalmente se clasifican como enfermos y no enfermos). La incidencia acumulada (IA) es la proporción de personas que adquieren la enfermedad durante un periodo específico. tibles) de contraer la enfermedad. procedemos de la siguiente manera: 1. en esa figura. los sujetos son clasificados según presenten o no la característica (en términos clínicos.42. el tiempo durante el cual el sujeto está enfermo o “estado”.15. El periodo de observación es arbitrario y depende de las características evolutivas de la enfermedad. En este caso. la probabilidad de que desarrolle una enfermedad no es igual a cero. Probabilidad de clasificar correctamente a aquellos que no tienen la característica de interés. Para su cálculo. Eventos y estados de enfermedad en un grupo de sujetos. En términos epidemiológicos. Los varones nunca sufrirán cáncer uterino. pero no siempre tiene que ser así. Alguien que sufra de diabetes mellitus no se encuentra en riesgo de desarrollarla nuevamente. la prevalencia y la incidencia son semejantes. el momento en que el sujeto sale del estudio porque muere. Razones frecuentes de que alguien no se encuentre en riesgo son: • La persona tiene la enfermedad. de los cuales tres están enfermos. la incidencia cuantifica el número de eventos de enfermedad que se desarrollan en la población de individuos en riesgo durante un intervalo específico de tiempo. En otras palabras. 32 . La prevalencia y la incidencia son dos aspectos de un mismo fenómeno. mientras que la incidencia acumulada es de 7/13 = 0.33. y se definen de la siguiente manera: • Sensibilidad. “en riesgo” no significa “en mayor riesgo” en relación con otra persona. la prevalencia es de 3/9 = 0. Al igual que con la prevalencia. • La persona ha adquirido inmunidad. La mujer a la que se le ha practicado histerectomía no puede desarrollar cáncer uterino. “En riesgo” significa que el sujeto es susceptible a la enfermedad. la cruz representa el inicio de la enfermedad o “evento”. Si se hace un corte después de un año de observación. la probabilidad de que en el transcurso de cinco años desarrolle la enfermedad es de 0.54 en cuatro años. si se toma un individuo de los observados al inicio del estudio. A esta probabilidad también se le conoce como riesgo. la prevalencia es igual a 2/13 = 0. Para entenderlas. © Editorial El manual moderno Fotocopiar sin autorización es un delito. hay que poner atención a la figura 6-7. • Durante algún tiempo de vida la persona fue susceptible de desarrollar la enfermedad. en la cual se representa a 13 sujetos en observación durante cinco años. En otras palabras. todos los sujetos se encuentran sanos y todos ellos tienen el riesgo (son suscep- 13 0 1 2 3 4 5 Sujeto sano en observación Inicia la enfermedad Sujeto enfermo en observación Defunción Figura 6-7. o 42/100. ya que para el cuarto año han fallecido cuatro sujetos y sólo quedan nueve.42 en cinco años. y de ellos cinco desarrollan la enfermedad. se encuentra que en ese “punto específico de tiempo” existen dos enfermos entre los 13 sujetos observados. generalmente se clasifican como “positivos” o “negativos” a la prueba). algunos sujetos que realmente presentan la característica (según el “estándar de oro”) serán clasificados incorrectamente como que no la tienen (o “negativos”). 4. 190/200 = 0. mientras que algunos que realmente no presentan la característica (según el “estándar de oro”) serán clasificados incorrectamente como que sí la tienen (o “positivos”). estos mismos sujetos son clasificados mediante un instrumento menos perfecto (aunque más sencillo. Hay que notar que a + b no necesariamente son el total del universo. ahogados en su hogar. Lo mismo ocurre con la especificidad para los que fueron clasificados por el “estándar de oro” sin la característica. Según el sexo del niño (cuadro 6-5). generalmente. y a diferencia de las proporciones. 1. Luego. las lecturas del numerador no se incluyen en el denominador. Uno esperaría que todos aquellos que tienen la característica (según se midió con el “estándar de oro”) resulten “positivos”.4) En la que R representa la razón. por cada niña que se asfixia por inmersión en el hogar. por cada menor que se asfixia por inmersión en un balde o tina. Sensibilidad = a a+c Especificidad = d b+d © Editorial El manual moderno Fotocopiar sin autorización es un delito. Para el cálculo de la sensibilidad y la especificidad.85 o 85%. 2. la sensibilidad es menor a 100%. Las frecuencias de cada categoría se muestran en el cuadro 6-4. hay tres que pierden la vida en un aljibe. seleccionamos dos grupos: uno de enfermos y otro de no enfermos. el número de elementos con una característica diferente. Concluimos nuestro cálculo con las dos fórmulas que se muestran a continuación. la sensibilidad de la prueba alternativa sería 85/100 = 0. mediante el uso de razones. Dado que el segundo criterio de clasificación es imperfecto. y la especificidad de la prueba alternativa. Continuando con el ejemplo explicativo 6-1.Escala cualitativa 2. 5. En este ejemplo. Cuadro 6-4. b = 3 y a b = 3 es la razón. Cuadro 6-3. Para hacerlo. económico o menos invasivo) en dos grupos según presenten o no la característica (en términos clínicos. de 1 a 4 años de edad. Arreglo de datos ficticios para el cálculo de sensibilidad y especificidad Clasificación con el “estándar de oro” Prueba alternativa Enfermo Sano Positivo 85 10 Negativo 15 190 100 200 RAZONES Cuando la serie que se está examinando consta sólo de dos categorías. ambos clasificados mediante el uso del “estándar de oro”. Según el depósito en que se ahogó (cuadro 6-6). a = 9. Para ello. Sexo de niños. Ejemplo explicativo 6-4 Ejemplo explicativo 6-5 Supongamos que tenemos interés en evaluar la validez de una prueba diagnóstica que es más rápida y económica que el “estándar de oro”. se divide la totalidad de individuos que tengan una característica (de preferencia el grupo de mayor tamaño) entre el grupo que tenga la otra característica. De esta manera. 3. hay tres niños que sufren ese accidente mortal. a simboliza el número de elementos con la característica de interés y b. b = 5 y a b = 3 es la razón. a = 15. o el interés de la investigación se dirige únicamente a dos categorías.95 o 95%. el 100% de los que fueron clasificados con la característica mediante el “estándar de oro” también son clasificados mediante el segundo criterio. En este ejemplo. 1991-1993 Sexo Frecuencia Razón 15 + 5 = 3 c d Masculino 15 a+c b+d Femenino 5 . Arreglo de datos para el cálculo de sensibilidad y especificidad Clasificación con el “estándar de oro” Prueba alternativa Positivo Ausente Presente Ausente a b Cuadro 6-5. y que aquellos que no tienen la característica (según se midió con el “estándar de oro”) resulten “negativos”. 33 (6. Cuando eso no ocurre. Zona Metropolitana de Guadalajara. la serie de datos puede resumirse. de la siguiente manera: En los datos que se muestran en el cuadro 6-4 . se pueden utilizar las razones para resumir la información. Su fórmula es: R=a÷b Cuando la sensibilidad es perfecta. acomodamos los datos como se muestra en el cuadro 6-3. el uso de frecuencias relativas (proporciones o razones) facilita la comparación mediante una simple sustracción. si la tasa representa el número de casos por día-persona. Ejemplo explicativo 6-6 En una unidad de terapia intensiva. La densidad de incidencia nos habla del cambio potencial instantáneo del estado de enfermedad de una población en una unidad de tiempo. esto es. Con los datos anteriores no es posible calcular una incidencia acumulada. Depósito de agua en que niños de 1 a 4 años de edad se ahogaron en su hogar. en la que el numerador es semejante a la incidencia acumulada y el denominador es la suma del tiempo que cada individuo ha permanecido en observación (“tiempo persona”) y en riesgo de enfermar. lo más frecuente es que los grupos sean diferentes en cuanto al tamaño del grupo en estudio. donde el tiempo-persona en riesgo se refiere al tiempo que tuvieron que acumular los sujetos en estudio para registrar los eventos de interés. A diferencia de la incidencia acumulada. pero se puede calcular una densidad de incidencia. Tiempo-persona de observación correspondien- te a población en riesgo. mes-persona. COMPARACIÓN DE GRUPOS Con frecuencia. el resultado es mayor o menor que cero. Sin embargo. (6.5) Al presentar la densidad de incidencia es esencial que se especifique la unidad de tiempo. Es preciso notar que cuando las frecuencias relativas (proporciones o razones) de dos grupos son iguales. Esto se grafica en la figura 6-8. se toma el total de eventos de interés observados (tres defunciones) y se divide entre el tiempo-persona observado durante el cual se presentaron esos eventos (21 días-persona). También podemos utilizar en el numerador y el denominador información procedente de un mismo grupo. DI = número de casos nuevos de enfermedad durante un periodo de tiempo total de tiempo-persona de observación 13 . que es una proporción y puede interpretarse como una probabilidad. es posible valerse de frecuencias absolutas. año-persona.143 días-persona–1 o 0. pero de diferente naturaleza. están interesados en conocer la incidencia de muertes en pacientes que ingresan con infarto de miocardio. la densidad de incidencia es 3 ÷ 21 = 0. En estas ocasiones. ya que los periodos de observación no son los mismos en todos los sujetos. la densidad de incidencia dirige su atención al número de eventos que se presentan en una unidad de tiempo (y de manera inversa al tiempo que transcurre entre evento y evento). mientras que cuando son diferentes. o alguna otra medida de tiempo-persona. Después de 10 días se han registrado los datos del cuadro 6-7.143 defunciones por cada día de estancia acumulada por el grupo.Bioestadística 34 Cuadro 6-6. Tal es el caso de la densidad de incidencia (DI). la diferencia es de cero. Para ello. en el campo de las ciencias de la salud se tiene la necesidad de comparar grupos entre sí. 1991-1993 Depósito Frecuencia Aljibe 9 Balde/tina 3 Razón Sujeto ( i ) 1 3 93=3 5 7 9 Densidad de incidencia Tiempo-persona en riesgo 11 Para el cálculo de una razón no siempre se utiliza información de dos grupos diferentes. Cuadro 6-7. Cuando el tamaño de los grupos a comparar es idéntico. Pacientes con infarto de miocardio observados en terapia intensiva Paciente i Tiempo de observación en días a partir del ingreso hasta la alta de terapia intensiva Motivo de egreso 1 9 defunción 2 5 mejoría 3 3 mejoría 4 3 defunción 5 1 defunción © Editorial El manual moderno Fotocopiar sin autorización es un delito. Su fórmula es 0 1 2 3 4 5 Tiempo de observación del grupo Figura 6-8. Zona Metropolitana de Guadalajara. Así. Dos prevalencias también pueden compararse mediante una razón. en el grupo a comparar.33. existe por cada elemento en el grupo de comparación. el resultado expresa qué fracción de un elemento. Ie Io (6. se observa a los estudiantes durante un año escolar y. y se calcula mediante: Ie Io (6. Riesgo relativo La razón también es un instrumento útil para comparar dos grupos. si de 300 alumnos que estudian en el plantel sólo 100 fueran varones. por 35 cada elemento en el grupo a comparar existe otro en el grupo de comparación. Así. Ayuda a responder a la pregunta: ¿la exposición causa la enfermedad? Esta medida se define como el cociente de la incidencia de los expuestos entre la incidencia de los no expuestos. En otras palabras. Cuando los grupos son idénticos. el resultado indica cuántos elementos (y fracción de ellos) en el grupo a comparar existen por cada elemento en el grupo de referencia.08. Estas frecuencias absolutas son de valor. Si el numerador es mayor que el denominador. el resultado siempre será mayor de 1. se encuentra que el número de lesionados es semejante para ambos grupos: 15 lesionados en el transcurso del año.6) Donde Ie es la incidencia de expuestos (medida como incidencia acumulada o como densidad de incidencia).33 – 1) 100 = –67%]. el resultado es igual a 0% [(1 . por ejemplo. En este caso. Para su interpretación se debe tomar en cuenta el grupo a comparar (el numerador) en referencia con el grupo de comparación (el denominador). mientras que Io es la incidencia de no expuestos (medida también como incidencia acumulada o como densidad de incidencia). a esta diferencia se le conoce como riesgo atribuible (RA). Cuando el numerador es mayor que el denominador.15 . De esta manera. si el numerador es menor que el denominador. el uso de una proporción permitirá evaluar la frecuencia con que se presentan las lesiones según el sexo. Para ello.1) 100 = 0%].08 = 1. y proporciona información acerca del efecto absoluto de la exposición o exceso de riesgo de la característica de interés en aquellos que pertenecen a un grupo con una característica específica (expuestos) en comparación con aquellos que no la tienen (no expuestos). aunque el resultado se conoce como razón de prevalencias y no como riesgo relativo. Si se toma al grupo de comparación como 100%.15 ÷ 0. Lo anterior indicaría que en esa escuela los varones se accidentan más que las mujeres. Tablas de contingencia Las tablas de contingencia son arreglos ordenados de frecuencias que se acomodan en celdas definidas por columnas . pero pueden conducir a errores graves de interpretación.08 = 0. el resultado mediante el procedimiento anterior indica.0. de manera porcentual. donde 0. el resultado siempre es igual a uno. como en 9 ÷ 3 = 3. la incidencia de lesionados en el grupo de varones es de 15/100 = 0. el resultado es superior a 0% [(3 – 1) 100 = 200%]. 3 ÷ 9 = 0. En epidemiología. Dos prevalencias también pueden compararse mediante la sustracción. De esta manera. Riesgo atribuible En epidemiología.88 hombres lesionados por cada mujer lesionada. y se calcula mediante: © Editorial El manual moderno Fotocopiar sin autorización es un delito.07.15. Una interpretación alternativa del riesgo relativo consiste en restar 1 al resultado (cociente) y multiplicarlo por 100. por lo que la diferencia sería de 0. Cuando ambos grupos son iguales. Ejemplo explicativo 6-8 La comparación de grupos que realizamos mediante la diferencia de proporciones en el ejemplo explicativo 6-7 también puede efectuarse mediante una razón entre proporciones. Por otra parte. el resultado se interpreta como el porcentaje que el grupo a comparar se encuentra por arriba o por abajo en relación con el grupo de referencia. Si éste es el caso. y estima la magnitud de una asociación entre exposición y enfermedad e indica la probabilidad del grupo expuesto de desarrollar la enfermedad en relación con aquellos que no están expuestos. a este cociente se le conoce como riesgo relativo (RR). entre las personas expuestas ¿qué cantidad de la característica de interés (quizá una enfermedad) se debe a la exposición? Esta medida se define como la diferencia entre la incidencia de los expuestos y los no expuestos. o también que existen 88% más hombres lesionados que mujeres lesionadas. aunque el resultado se conoce como diferencia de prevalencias y no como riesgo atribuible.7) En la cual Ie es la incidencia de expuestos (medida como incidencia acumulada o como densidad de incidencia) e Io es la incidencia de no expuestos (medida también como incidencia acumulada o como densidad de incidencia). al final de él.Escala cualitativa Ejemplo explicativo 6-7 Supóngase que se sospecha y existe interés en probar la hipótesis de que en una escuela secundaria los alumnos varones se lesionan más frecuentemente que sus compañeras. mientras que lo contrario resulta en un valor negativo [(0. 9 ÷ 9 = 3 ÷ 3 = 1 indica que el grupo a comparar es igual al grupo de comparación o referencia.88 nos indica que existen 1. en qué magnitud porcentual el grupo a comparar se encuentra por arriba o por abajo del grupo de referencia. mientras que para las mujeres tan sólo es de 15/200 = 0. Ayuda a responder a la pregunta: si se ha inferido que la exposición causa la enfermedad. las frecuencias se presentan en un cuadro 2 x 2 semejante al mostrado en el cuadro 6-8. utilizamos la orden “Tables” tal como se muestra a continuación. 6-2 Epi Info 7 brinda varias alternativas para comparar dos grupos mediante Riesgos relativos.36 Bioestadística y renglones. el odds ratio será igual a (15 185)/(15 85) = 2 775 / 1 275 = 2. Para continuar. En estas circunstancias.8) Cuadro 6-8. que consiste en una tabla con dos hileras y dos columnas donde los sujetos se clasifican según dos criterios.18. Después de seleccionar la tabla de datos. no es factible estimar el riesgo relativo de manera directa (para una explicación más completa consulte algún libro de epidemiología). Una tabla de este tipo se presenta en el cuadro 6-8. cuando se puede mantener el supuesto de que la frecuencia de la enfermedad que se estudia está por debajo del 10%. o bien que los grupos muestreados han sido formados atendiendo a su nivel de exposición (diseño de cohortes). Tabla de contingencia 2 2 Criterio de efecto Criterio de exposición Sí No Total Sí a b a+b No c d c+d a+c b+d a+b+c+d Total 2 Si tiene dificultad para encontrar la tabla de datos Bio3_06b. En epidemiología. cada uno de los cuales ocurre en dos niveles. la incidencia de lesiones en hombres se puede calcular mediante a/(a+b) = 15/100. entre las que se pueden mencionar “razón de productos cruzados”. Al hacer clic en “OK”. “oportunidad relativa” y “razón de posibilidades”. 1. que nos sugiere que existen 2. 6-1” en este mismo capítulo. se puede utilizar una aproximación al riesgo relativo conocida como odds ratio. y los dos resultados se aproximarán en la medida en que el fenómeno estudiado sea más raro. abra el archivo Bioestadistica_3ra y seleccione la tabla Bio3_06b2. seleccione “H_ARTERIAL” en “Exposure Variable” y “BAJO_PESO” en “Outcome Variable”. El resultado no es igual al calculado con el riesgo relativo en el ejemplo explicativo 6-8 (de 1. 1. Cuadro 6-9. A partir de este arreglo. chi-cuadrada y prueba exacta de Fisher. podrá encontrar lo siguiente en la ventana de resultados (figura 6-10).18 hombres lesionados por cada mujer lesionada. pero no se ha alcanzado un consenso. por mencionar cuatro de los más frecuentes. Cómo hacerlo en Epi Info. en el apartado “Statistics” de la lista de comandos. No obstante. el odds ratio se puede calcular utilizando la fórmula siguiente: . al comparar dos grupos. Las frecuencias presentadas de esta manera facilitan algunos procedimientos estadísticos utilizados frecuentemente. Frecuencias en la tabla de contingencia: absolutas y porcentajes de fila (Row%) y columna (Col%). Riegos atribuibles y Odds ratio. Al utilizar las frecuencias que se presentan en el cuadro 6-9. riesgo relativo. La tabla de contingencia más utilizada es la conocida como 2 2. es frecuente que los grupos a comparar sean formados a partir de la condición de enfermedad que se desea estudiar (diseño de casos y controles).88). (6. Cuando. pero es una buena aproximación cuando el diseño de muestreo no nos permite calcularlo. El riesgo relativo supone que el muestreo en la población ha sido realizado de manera aleatoria y que posteriormente los sujetos han sido clasificados según dos variables dicotómicas (diseño transversal analítico). En ese momento la ventana deberá observarse como en la figura 6-9. mientras que la incidencia de lesiones en mujeres sería igual c/(c+d) = 15/200. “razón de momios”. haga clic en “Tables”. Frecuencias observadas según el ejemplo explicativo 6-7 Lesionados Sí No Total Hombres 15 85 100 Mujeres 15 185 200 Total 30 270 300 Ejemplo explicativo 6-9 Ejemplo explicativo 6-10 Las frecuencias del ejemplo explicativo 6-7 pueden presentarse en una tabla de contingencia 2 2. En Epi Info 7. haga clic en “OK”. Odds ratio Odds ratio = ad = bc La expresión odds ratio se ha traducido al español de diferentes formas. En la ventana de diálogo que se despliega. como el cálculo de riesgo atribuible. revise la sección “Cómo hacerlo en Epi Info. © Editorial El manual moderno Fotocopiar sin autorización es un delito. El cuadro 6-9 muestra los datos en una tabla de este tipo. Cuando estamos interesados en una variable independiente o factor de riesgo y una variable dependiente. ambas dicotómicas (tabla 2 2). 6. podrá encontrar las estimaciones de Odds ratio y Riesgo relativo (con sus respectivos intervalos de confianza). 3. Observe que hemos ubicado los valores del grupo 2 de TABAQUISMO (el de mayor consumo de cigarrillos) en el renglón de expuestos y al grupo 0 de TABAQUISMO (el que no consume cigarrillos) en el renglón de no expuestos. 2. Al hacer clic en “OK”. Ventana de diálogo para la tabla de Hipertensión Arterial (H_ARTERIAL) y Bajo Peso al Nacer (BAJO_PESO) según la tabla de datos Bio3_06b Figura 6-10.Escala cualitativa © Editorial El manual moderno Fotocopiar sin autorización es un delito. 3. Asumamos que en relación con la variable TABAQUISMO. y el código “2”. según dos procedimientos. a “fumadoras activas”. Un gráfico que muestra visualmente el peso que cada celda tiene en la tabla 2 2. y que tenemos interés en comparar el riesgo de las “fumadoras activas” con el de las “no fumadoras”. observará que se abre la ventana que se muestra en la figura 6-13. 2. y tres cálculos de chi-cuadrada y de la Prueba Exacta de Fisher. el usuario tendrá que decidir si estos resultados con adecuados o no para el análisis. Cálculos de probabilidad mediante la aproximación a la distribución binomial y la Prueba Exacta de Fisher. Frecuencias para la tabla de Hipertensión arte- rial (H_ARTERIAL) y Bajo peso al nacer (BAJO_PESO) según la tabla de datos Bio3_6b. Cuando estamos interesados en comparar dos grupos mediante un análisis de riesgo y ya tenemos las frecuencias en una tabla de contingencia (como es el caso de la figura 6-11). Utilizando la tabla Bio3_06b. No se muestran estadísticos de riesgo. 3. pero los resultados que se muestran son un poco diferentes a los de una tabla 2 2 tal como se muestra a continuación. 2 . . Figura 6-11. Cuando estamos interesados en una variable independiente o factor de riesgo con más de dos categorías y una variable dependiente dicotómica (tabla r 2). n)” que se encuentra en el menú colgante de StatCalc del menú principal de Epi Info 7 (figura 6-12). Al hacer clic. en el capítulo 16). Diferencia de Riesgos (Risk Difference) o Riesgo Atribuible y sus intervalos de confianza. Razón de riesgos o Riesgo relativo (Risk Ratio) y sus intervalos de confianza. Frecuencias en la tabla de contingencia: absolutas y porcentajes de fila (Row%) y columna (Col%). Prueba estadística de chi-cuadrada (tema que será tratado en el capítulo 15). solamente teclee los números que correspondan a cada celda. 1. 4. y sus intervalos de confianza (el tema de los intervalos de confianza para estimaciones con variables cualitativas será tratado más adelante. haga clic en “Tablas” (“Tables”). 4. No se muestra gráfico. Para realizar los cálculos. En la ventana de diálogo. Frecuencias para la tabla de Tabaquismo (TABAQUISMO) y Bajo Peso al Nacer (BAJO_PESO) según la tabla de datos Bio3_6b. Prueba estadística de chi-cuadrada (tema que será tratado en el capítulo 15). a “fumadoras pasivas”. 37 Figura 6-9. Al completar los números de las cuatro celdas. utilizamos la opción “Tables (2 x 2. podrá encontrar lo siguiente en la ventana de resultados (figura 6-11). Dependiendo del diseño de muestreo. 7. tal como se aprecia en la figura 6-13. 5. Odds ratio. también utilizamos la orden “Tables”. 2. el “1”. “TABAQUISMO” en “Exposure Variable” y “BAJO_PESO” en “Outcome Variable”. el código “0” corresponde a “no fumadoras”. pasivo 38 92 1.0 Sí. En la tercera columna se señala el cambio porcentual del número de notificaciones de cada año comparándolo con el anterior. Su fórmula es: (6. donde los valores se agrupan en intervalos de clase que señalan los valores que deben incluirse en la tabulación. se diría: en 1994 se reportaron 16 918 casos. tal como se muestran en el cuadro 6-10. y son definidos por sus © Editorial El manual moderno Fotocopiar sin autorización es un delito. pero sólo de 89. teclee los números de la exposición 1 a TABAQUISMO en el renglón de exposición. y para 1997 nuevamente se observó un aumento.8 1.2 a 2.9) Donde xA representa el valor en el periodo anterior y xP el valor en el periodo posterior.15% en relación con el año anterior. Ejemplo explicativo 6-11 .21% en relación con 1995. Los intervalos de confianza serán tratados en el capítulo 16. Pantalla de la opción “Tables (2 2. fumadora de cigarrillos 70 92 1.13%.38 Bioestadística Para estimar el riesgo del siguiente nivel de exposición. y los de exposición 0 a TABACO en el renglón de no expuestos. para el año siguiente (1995). 2 n)” de Statcalc. CAMBIO PORCENTUAL El cambio porcentual es un cociente cuyo numerador se constituye con el cambio entre dos momentos y el denominador es un periodo base. para 1996 se observó un aumento de 100. la primera columna corresponde al año de notificación y la segunda. pero aquí podremos comentar que los mismos se anotan en la siguiente columna. donde los códigos han sido cambiados por las categorías correspondientes. Resultados del análisis de riesgo a partir de los datos de la figura 6-11 Bajo peso al nacer Riesgo relativo IC 95% DATOS AGRUPADOS Tabaquismo Sí No No 26 82 1. al número de casos notificados. el número de casos notificados disminuyó en 58. Los resultados se pueden presentar en forma tabular. Cuadro 6-10. Menú colgante que muestra las opciones de Utilidades (“Utilities”).8 a 1.2 0.9 Sí. dejando en blanco el espacio que corresponde al grupo de referencia (las no fumadoras en este ejemplo). Figura 6-13. Los datos que se presentan en el cuadro 6-11 corresponden al número de casos de hepatitis viral notificados a la Secretaría de Salud. Si esto se quisiera expresar en palabras. El cambio porcentual permite expresar numéricamente el cambio cuantitativo observado entre dos momentos tomando como referencia el valor observado en el periodo anterior. Figura 6-12. Utilizamos los valores de Riesgo relativo o de Odds ratio cuando el diseño de estudio lo permite.6 Los datos de variables cuantitativas pueden presentarse en forma tabular mediante un arreglo ordenado. Epidemiología.181-7. El resultado debe ser tomado como una aproximación y deberá modificarse en beneficio de la tabulación de datos.181*100 = 89. los menores de 10 años suelen agruparse en menores de 1 año. 3. Tallas de un grupo de 100 niños © Editorial El manual moderno Fotocopiar sin autorización es un delito. Casos de hepatitis viral notificados en México. Cuadro 6-12.824-14. éstos se determinan dividiendo el rango (valor superior menos valor inferior) entre k. límites inferior y superior de clase.15% Fuente: Epidemiología. Definir el número de intervalos de clase. 1997.Escala cualitativa Donde k corresponde al número de intervalos de clase y n es el número de observaciones que se quieren agrupar. Generalmente.918)/16. 2.083)/ 7. Algunas tabulaciones tienen intervalos que muestran amplitudes de diferente magnitud. El resultado es una orientación y el investigador podrá cambiarlo según convenga a su presentación. Los intervalos de clase no deben traslaparse y son consecutivos. Generalmente. Definir la amplitud de cada intervalo de clase. aunque no es obligatorio que sea así. 1996. Para la elaboración de un arreglo ordenado. ni mayor de 15. k = 1 + 3. i i talla I talla 39 i talla i talla talla 1 107 21 122 41 128 61 133 81 139 2 107 22 123 42 128 62 134 82 139 3 114 23 123 43 128 63 134 83 140 4 116 24 123 44 128 64 134 84 140 5 116 25 123 45 128 65 134 85 140 6 117 26 124 46 129 66 134 86 140 7 117 27 124 47 129 67 135 87 141 8 117 28 124 48 129 68 135 88 142 9 118 29 124 49 129 69 135 89 143 10 119 30 124 50 129 70 136 90 144 11 119 31 125 51 130 71 136 91 146 12 120 32 126 52 130 72 136 92 146 13 120 33 126 53 131 73 136 93 147 14 121 34 126 54 131 74 136 94 147 15 121 35 126 55 131 75 137 95 148 16 121 36 126 56 131 76 137 96 148 17 122 37 127 57 132 77 137 97 148 18 122 38 127 58 132 78 137 98 149 19 122 39 127 59 132 79 138 99 153 20 122 40 128 60 133 80 138 100 156 . Epidemiología. Se recomienda que el número de intervalos no sea menor de 5. todos los intervalos que se presentan tienen la misma amplitud.918*100 =-58. 1994-1997 Año Casos reportados Cambio Porcentual 1994 16 918 1995 7 083 (7. se procede de la siguiente manera: 1.181)/ 14.21% 1997 26 824 (26. por lo que el límite superior de clase de un intervalo es el límite inferior de clase del siguiente. A partir de una distribución de frecuencia podemos obtener una distribución de frecuencia acumulada. Cuadro 6-11. una distribución de frecuencia relativa o una distribución de frecuencia relativa acumulada. Contar el número de observaciones cuyos valores se incluyen en cada intervalo de clase. Por ejemplo.083*100 = 100.322(log n) (6. el número de observaciones determina el de intervalos: mientras más observaciones más intervalos.15(2):4. 1998.13% 1996 14 181 (14.14(2):4. Cuando se desea que todos los intervalos tengan la misma amplitud.10) Un cuadro que presenta los intervalos de clase y la frecuencia de observaciones que corresponde a cada intervalo es conocido como distribución de frecuencia. en el campo de la salud. o número de intervalos de clase.13(2):3. La siguiente fórmula es útil para definirlos. de 1 a 4 años y de 5 a 10 años.083-16. 644. Para ejecutar la orden. tal como se aprecia en la figura 6-14. A Figura 6-15. sólo falta calcular los porcentajes correspondientes a cada intervalo de clase. utilice el mouse (haciendo clic en el espacio correspondiente). B © Editorial El manual moderno Fotocopiar sin autorización es un delito. Al terminar de recodificar la ventana de diálogo. así. Para obtener las frecuencias agrupadas.0 121 127 26 26. abra el archivo Bioestadistica_3ra y seleccione la tabla Bio3_06c. 49/7=7. Para definir los límites inferiores de clase. Después de seleccionarla. A continuación. sólo haga clic en “Frequencies” (véase la sección “Cómo hacerlo en Epi Info. defina la variable destino. Ventana de opciones de la orden “Define” como el código de cada agrupación (evite utilizar el 0 en el valor recodificado).0 128 134 27 27. tomamos 107 como el primero. resultando.40 Bioestadística Ejemplo explicativo 6-12 Cuadro 6-13.0 142 148 10 10.0 Para describir mediante frecuencias relativas la serie de datos. Figura 6-14. En la ventana de diálogo que se muestra en la figura 6-15A. seleccione “GRUPOS” en “Frequency of” y haga clic con el mouse en “OK” para ejecutar la orden. haga clic con el mouse en “Recode” (también en el bloque de “Variables” de la ventana de comandos). Optamos por redondear el número de intervalos de clase a 7 (pero también podríamos redondearlo a 8). tales como los mostrados en el cuadro 6-12 referentes a las tallas de un grupo de niños. Cómo hacerlo en Epi Info. 6-1” al principio de este capítulo). deberá verse como la que se muestra en la figura 6-15B. El límite superior de cada intervalo de clase debe ser menor al límite inferior del siguiente intervalo.0 156 160 1 1. Luego. Ventana de la orden Recodificar (“Recode”). como se muestra en la ventanita “To”. se calcula de qué amplitud será cada intervalo de clase dividiendo el rango 156-107=49 entre 7.0 149 155 2 2. A continuación tabulamos los datos del cuadro 6-12 y los registramos en el cuadro 6-13.0 100 100. sólo hacemos clic con el mouse en “OK”. con la cual se obtiene k = 1+3. haga clic con el mouse en “Define” (en el bloque de “Variables” de la ventana de comandos).322(log(100)) = 7. podemos proceder de la siguiente manera: primero se decide cuántos intervalos de clase hemos de utilizar mediante la fórmula 6. haga clic en “OK”. Cuando aparezca la ventana de diálogo. primero defina la variable de origen. Continuamos agrupando los datos de la variable talla en la nueva variable (“GRUPOS”) que hemos definido. Por último.0 135 141 21 21. Para ejecutar la orden. Para hacerlo. tiene que definir una nueva variable.0 2 114 120 11 11. Intervalo de clase Límite inferior Límite superior Frecuencia Porcentaje 107 113 2. Para cambiar de celda al definir estos tres valores. Antes de agrupar los datos.10. Distribución de tallas de un grupo de 100 niños Cuando el interés se encuentra en describir datos cuantitativos. Para hacerlo. tal como se muestra en el cuadro 6-13. así . defina los límites inferiores y superiores de cada intervalo de clase. 6-3 En Epi Info para Windows. sólo haga clic con el mouse en “OK”. y sumamos 7 para cada uno de los siguientes hasta que superemos el valor máximo de nuestra serie de datos. escribimos el nombre de la variable a definir (“GRUPOS”) y marcamos la opción estándar. tal como se muestra en la ventanita “From”. Escala cualitativa 41 Ejercicios Ejercicio A Observe el cuadro 6-14. Los datos están en la tabla Ejer_06a del archivo Bioestadistica_3ra. Características de 40 niños recién nacidos i (identificación progresiva) Bajo peso del niño al nacer Sexo del recién nacido Exposición de la madre al humo de tabaco durante el embarazo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 no no sí no no no sí sí no no no sí no no no sí no no no no no sí no no no no no sí sí no no no sí no no no no no no sí femenino femenino femenino masculino femenino masculino femenino femenino masculino masculino femenino femenino femenino masculino femenino masculino femenino femenino masculino femenino masculino masculino femenino masculino femenino masculino masculino masculino masculino masculino masculino femenino femenino femenino masculino masculino masculino femenino femenino femenino fumadora pasiva fumadora pasiva fumadora activa fumadora pasiva fumadora pasiva fumadora activa fumadora activa fumadora pasiva fumadora pasiva no fumadora activa fumadora pasiva fumadora activa no no fumadora pasiva no fumadora pasiva fumadora activa fumadora activa no fumadora activa fumadora pasiva fumadora activa no no fumadora pasiva fumadora activa fumadora activa fumadora activa fumadora activa fumadora pasiva no fumadora activa no no fumadora activa fumadora pasiva fumadora activa no Consumo de alcohol por la madre durante el embarazo no sí no no no no no no sí no no sí sí no no sí no sí sí sí sí sí no no no sí no no no no no sí no sí no sí no sí sí sí . Los datos que contiene se refieren a las características de 40 niños recién nacidos y sus madres. Cuadro 6-14. © Editorial El manual moderno Fotocopiar sin autorización es un delito. y Banegas. 39. Cuadro 6-18. México: Limusa. M. A. W. Disponible en http://wwwn. A partir del Ejercicio A2. Epi Info 7. presente los datos en el Ejercicio A2. Para hacerlo. Apuntes del curso de Epidemiología 512.193 Cambio Porcentual REFERENCIAS Daniel.785 2000 9. (1993).279 2001 10.642 2002 15. Tapia-Granados. & Morgenstern. A partir de esos datos. Washington: Universidad de Washington. llene el Ejercicio A1 considerando los 40 registros como el total. Martín-Moreno. 39. F.. oportunidades.. no exposición al tabaco durante el embarazo y no consumo de alcohol durante el embarazo. usted decide hacer varias comparaciones para identificar las características asociadas con el bajo peso al nacer. R. J. D. Suponga que los datos fueron registrados durante todo un año de estancia en una comunidad del país y le interesa presentarlos ante sus colegas. Razón de posibilidades: una propuesta de traducción de la expresión odds ratio. A partir de esos datos. llene el Ejercicio A3 con los valores de Riesgo atribuible y Riesgo relativo considerando las siguientes categorías como los valores de referencia: sexo masculino.).cdc. New York: Van Nostrand Reinhold.Bioestadística Ejercicio A1. Cuadro 6-17. Bioestadística. Epidemiologic Research. Weill. (1991). J. Para hacerlas. A. Ejercicio A1 Variables Bajo peso al nacer Sí No Sexo del RN Femenino Masculino Exposición al tabaco Fumadora activa Fumadora pasiva No Consumo de alcohol Sí No Ejercicio A2. Kupper. Salud Pública de México. Base para el análisis en las ciencias de la salud (3a. 419-424. J. H. y Nieto. 72-74. Variables Variables Riesgo atribuible Riesgo relativo Sexo del RN Femenino Masculino (grupo de referencia) Exposición al tabaco Fumadora activa Fumadora pasiva No (grupo de referencia) Consumo de alcohol Sí No (grupo de referencia) No Ejercicio B El administrador de una clínica de atención médica ha registrado los números de consultas que se presentan en el Ejercicio B. Cuadro 6-15. Noriega Editores. Año Casos reportados 1999 10. © Editorial El manual moderno Fotocopiar sin autorización es un delito. 69-71. Al estar preparando su presentación. L. CDC. N. 42 .. Salud Pública de México. (1997).gov/epiinfo/ Kleinbaum. T. G. Salud Pública de México. (1997). W. le surge el interés de explorar la relación que existe entre tres de las variables (sexo del recién nacido. Sobre la traducción del término inglés odds ratio como oportunidad relativa. y Swanson. Tapia. J.ed. (1987). tabaco y alcohol) con el bajo peso. M. momios: un comentario sobre la traducción del término odds. (1982). Frecuencia Porcentaje Niños con bajo peso % (de renglón) Niños sin bajo peso % (de renglón) Sexo del RN Femenino Masculino Exposición al tabaco Fumadora activa Pasiva No Consumo de alcohol Sí Ejercicio A3. Cuadro 6-16. J. Posibilidades. ayúdele a calcular los cambios porcentuales que la clínica ha registrado durante los años señalados y preséntelos en el Ejercicio B. Koepsell. 35. L. 71 cm de talla y 33.. La media aritmética. La media se representa simbólicamente 1. La media aritmética es fácil de comprender y calcular.. N (7. se utiliza una medida descriptiva que puede ser de posición o de dispersión. sumamos todos los valores y los dividimos entre 24 (que es el valor de N) de la siguiente manera: N xi i =1 N =μ = 3023. A continuación. 3.. Para un conjunto determinado de datos. La fórmula anterior también puede escribirse como Media = i =1 Media del peso 2700 + 4200 + .. 2. La secuencia de valores que deben sumarse se especifica mediante los símbolos N e i = 1 que aparecen arriba y abajo de la letra griega (sigma).. Todos los valores en la serie de datos se utilizan para su cálculo.50 cm de perímetro cefálico.1) N mediante la letra griega (mu) cuando se obtiene de datos poblacionales. + 3100 72560 = en gramos = 24 24 x1 + x 2 + . El resultado tiene la misma unidad de medida que las lecturas individuales. o simplemente media o promedio. y no debemos olvidar que únicamente describe al grupo como tal y no a cada uno de sus elementos. Se obtiene sumando todos los valores de una población y dividiendo el total entre el número de valores que se sumaron.71 cm en centímetros = 24 24 33+ 36+ . + 34 804 Media del perímetro = = 33. los valores extremos pueden sesgar el resultado. sólo existe una media aritmética. La media es el resultado matemático que sintetiza los datos en una sola cifra. 48.. Unicidad.. + 49 1169 Media de la talla = = 48. los percentiles y la moda. podemos decir que los recién nacidos estudiados tienen en promedio 3 023.33g Mientras que para la talla y el perímetro cefálico 48 + 50 + . 43 . es una medida descriptiva de tendencia central cuyo único número resume una serie de valores a partir de los cuales se calcula.23 g de peso. Simplicidad.2) Las siguientes son propiedades de la media o promedio: N xi donde i =1 indica que hay que sumar todas las equis (x) disponibles. Para calcular la media del peso. (7.. Media = = xi i =1 N Cuando la escala de medición es cuantitativa y el análisis requiere un solo valor numérico que resuma alguna faceta de los datos. en el cuadro 7-1 se presenta una serie de datos obtenidos de una población de recién nacidos sanos. desde x1 hasta xN. Por ello.+ x N =μ N N μ) 2 Ejemplo explicativo 7-1 Las tres medidas de posición que se usan con mayor frecuencia son: la media aritmética.N xi 7 i =1 Escala cuantitativa ( xi 2 MEDIDAS DE POSICIÓN MEDIA ARITMÉTICA © Editorial El manual moderno Fotocopiar sin autorización es un delito.50 cm cefálico en centímetros = 24 24 A partir de lo anterior. y mediante x cuando se estima a partir de una muestra aleatoria simple. 5(24 + 1) = 12.5 3. que multiplicada por 50 es igual a 25). buscamos en la lista ordenada qué valor ocupa la posición que corresponde al entero (12 en nuestro ejemplo. B. es posible calcular el caso de unir dos grupos en uno solo.44 Bioestadística Cuadro 7-1. la mediana será el valor que está en medio. Sexo: 1 = masculino. 4. Ejemplo explicativo 7-2 Retomando el ejemplo explicativo anterior. Única.5. Para obtenerla. En caso contrario. se procede de la siguiente manera: 1. Calculamos la diferencia (3 150 – 3 100 = 50) y la multiplicamos por la fracción que resulta de calcular la posición de la mediana (para nuestro ejemplo es 0. 4. cuyo sujeto tiene un peso de 3 100 g) y la posición inmediata superior (la 13. © Editorial El manual moderno Fotocopiar sin autorización es un delito. Perímetro cefálico en centímetros. Con base en la media y el número de observaciones de cada grupo. ésa es la posición de la mediana. cada una con el 50% de las observaciones. se toma la media de las dos observaciones de en medio. 2. Si la ecuación anterior brinda un número entero. el valor de la mediana corresponde al que se encuentre en esa posición. para conocer la mediana del peso procedemos de la siguiente manera: 1. Las siguientes son algunas propiedades de la mediana: 1. D. El producto anterior lo sumamos al valor más bajo de la operación previa (3 100 + 25) y encontramos que el valor de la mediana es igual a 3 125. Percentiles El valor percentilar más conocido es la mediana. con 3 150 g de peso). C. 3. Simple. Los valores de la variable se ordenan de menor a mayor y se numeran progresivamente. . Cuando el número de observaciones es par. Características de un grupo de recién nacidos sanos Perímetro cefálicoD i Sexo Peso Talla Perímetro cefálicoD 48 33 13 1 2 500 47 34 4 200 50 36 14 1 3 850 53 34 1 2 445 45 33 15 0 3 100 51 35 4 0 3 250 50 37 16 0 3 825 50 35 5 0 1 850 48 31 17 1 1 535 41 27 6 1 3 300 49 31 18 1 2 900 48 34 7 0 3 350 50 34 19 1 3 300 50 36 8 1 3 650 52 31 20 0 1 475 42 30 9 1 3 950 51 34 21 0 3 000 49 34 10 0 3 350 49 35 22 0 2 750 48 34 11 0 3 220 49 34 23 0 2 810 49 34 12 1 3 150 51 34 24 1 3 100 49 34 A B i Sexo Peso 1 0 2 700 2 0 3 Talla C A B C A. 0 = femenino. Se determina la posición del valor de la mediana: 0. La posición del valor de la mediana se determina mediante 0. Los valores de la variable se ordenan y se numeran progresivamente. Si el resultado no es un número entero (como en este ejemplo). la media ponderada sería igual a [(N11+N22) (N1+N2)]. Si el número de observaciones es impar. tal como se aprecia en el cuadro 7-2. La media se utiliza para resumir datos cuantitativos cuando el grupo en estudio es grande o la serie de observaciones no tiene valores extremos. Los valores extremos no le afectan como a la media. Talla en centímetros. Peso en gramos. que se define como aquel valor que se encuentra en la mitad de una población cuyos valores están ordenados según su magnitud.5(N + 1). Si el resultado de la operación anterior es un número entero. 2. indistintamente de que N sea par o impar. Divide al grupo de valores en dos partes iguales. 3. 2. la fracción que sigue al entero se multiplica por la diferencia que exista entre los dos valores ordenados de la variable y el resultado se suma al valor de menor magnitud. 0. reportada en la misma unidad que la observación original.5 a (N + 1).75(24+1) = 18. no existe dispersión. procedemos de la siguiente manera: 1. Cuando dos o más grupos se unen en uno solo. Esta medida se puede utilizar tanto para variables cualitativas como para cuantitativas. Si denotamos el rango con R. Otros valores percentilares El término percentil deriva de “por ciento”. . Desprecia información. están próximos entre sí. procedemos de manera semejante: 0. en vez de multiplicar por 0. no es posible calcularla a partir de la mediana de cada grupo. La mediana es utilizada para resumir datos cuantitativos cuando el grupo en estudio es pequeño y no tiene una distribución simétrica. La mediana es el percentil 50.95. Moda La moda es el valor que más se repite en un grupo de datos.Escala cuantitativa 45 Cuadro 7-2. ordenados progresivamente de menor a mayor Orden Peso Orden Peso Orden Peso Orden Peso 1 1 475 7 2 750 13 3 150 19 3 350 2 1 535 8 2 810 14 3 220 20 3 650 3 1 850 9 2 900 15 3 250 21 3 825 4 2 445 10 3 000 16 3 300 22 3 850 5 2 500 11 3 100 17 3 300 23 3 950 6 2 700 12 3 100 18 3 350 24 4 200 Sus desventajas en relación con el promedio son: 1.75.5 a 2 700 para identificar el valor que corresponde al percentil 25: 2 712. Las dos medidas de dispersión más frecuentes utilizadas son: el rango y la varianza. 0. Está determinado por dos valores. Para calcular su valor se utiliza una ecuación parecida a la mediana. Rango Ejemplo explicativo 7-3 Si se tiene interés en conocer los percentiles 25 y 75 de los datos utilizados en el ejemplo explicativo 7-2.). Para el percentil 75.25 = 12. el valor mayor con xL y el menor con xS. por lo que desprecia el resto de los datos. “tercer cuartil”. Sin embargo. es poco utilizada por lo escaso de la información que brinda y lo limitado de su interpretación. La dispersión de un conjunto de observaciones se refiere a la variedad que exhiben sus valores. si no lo son.1 475 = 2 725. Cada percentil indica el porcentaje de observaciones que en una serie ordenada de menor a mayor está antes que el valor señalado. Al percentil 25 suele dársele el nombre de “primer cuartil” y al percentil 75. Sólo nos resta sumar (2 750 – 2 700)0. El rango presenta tres características que limitan su utilización: 1.3) El rango es una cantidad definida.5 2. el rango del peso es igual a 4 200 . porque sólo considera los valores de 1 o 2 observaciones. Buscamos la posición del percentil 25 mediante la fórmula 0. 2. la dispersión es mayor. etc. 0. El rango es la diferencia entre el valor máximo y el mínimo de un conjunto de datos. Esto nos indica que el percentil 25 se encuentra entre los valores 2 700 (de la posición 6) y 2 750 (de la posición 7). Si los valores están ampliamente “diseminados”.25.05. valor del percentil entre 3 350 (en la posición 18) y 3 350 (en la posición 19). Peso de un grupo de recién nacidos sanos. Si todos los valores son los mismos. el rango se calcula como sigue: R = xL xS (7. lo hace por el percentil (expresado como proporción) que buscamos (0.25. que se diferencia porque. valor del percentil 75 es igual a 3 350.25(24+1) = 6.75. hay dispersión en los datos. MEDIDAS DE DISPERSIÓN © Editorial El manual moderno Fotocopiar sin autorización es un delito. Para la serie de datos del cuadro 7-1. La magnitud de la dispersión puede ser pequeña cuando los valores. aunque diferentes. Un grupo de datos puede tener más de una moda. Si el número de observaciones es pequeño.71 2.5 g. pero la siguiente nos brinda el mismo resultado 2 x = 2 i ( xi ) 2 (7.370. Sumamos la columna con los valores elevados al cuadrado: (xi . Al hacer clic en “OK”. generalmente no afectadas por las fluctuaciones extremas de la serie. pero aquí presentamos su fórmula N ( xi s = 2 i =1 n 1 x) 2 = xi2 Si el interés es describir la dispersión de la talla en el grupo de recién nacidos. Cómo hacerlo en Epi Info. Al final también tendrá el valor mínimo (1 475 g). el valor máximo (4 200 g) y la moda (3 100 g). el percentil 25 o primer cuartil (2 725 g).4 g). primero se obtienen los cuartiles primero y tercero (tal como se muestra en el ejemplo explicativo 7-3) y luego se realiza una sustracción: el valor del percentil 75 menos el valor del percentil 25. μ) 2 ( xi Ejemplo explicativo 7-5 ( xi ( 2 n (7. La varianza poblacional se obtiene mediante la fórmula N 2 = i =1 (7.5) N N La varianza muestral es un poco diferente y será explicada en el capítulo 10. la varianza muestral (490 627.5 = 2. únicamente nos falta calcular la raíz cuadrada de la varianza: 73 = 7.6) n 1 La varianza se expresa en unidades cuadradas que son difíciles de interpretar. Su utilidad consiste en que. Varianza y desviación estándar La varianza es una medida de dispersión que describe la separación de los valores en relación con la media. 6-1” en el capítulo 6. 1.5 = 634. el total de la suma de las observaciones (72 560 g). a partir del resultado que brinda Epi Info de la varianza se puede obtener la varianza poblacional mediante la fórmula siguiente: 2 = s 2 ( N 1) N (7. el recorrido intercuartilar de los datos del ejemplo explicativo 7-2 es igual a 3 350 – 2 715. haga clic en “Means”. Los cálculos basados en valores extremos no son confiables debido a que entre dos investigaciones similares pueden ocurrir valores extremos diferentes. Después de seleccionar la tabla de datos. De esta manera. seleccione “PESO” en el espacio de “Means of”. 7-1 En Epi Info paraWindows abra el archivo Bioestadistica_3ra y seleccione la tabla Bio3_07a.3 g).7) 2. Para continuar.)2 = 176. Si la serie de datos tiene más de una moda. los resultados sólo mostrarán la de valor menor. La interpretación del rango depende del número de observaciones. la mediana (3 350 g). el percentil 75 o tercer cuartil (3 350 g). El resultado anterior lo elevamos al cuadrado: (xi . podrá encontrar lo siguiente en la ventana de resultados (figura 7-2).)2 4. En la ventana de diálogo que se despliega.37 cm2 Para obtener el valor de la desviación estándar o típica. haga clic en “OK”1. 3. dentro de los límites determinados por él. En ese momento la ventana deberá observarse como en la figura 7-1.Bioestadística 2. en el apartado “Statistics” de la ventana de “Analysis Commands”. que es la que separa el primer cuartil del tercero.4) N La fórmula anterior puede ser un poco entretenida para el cálculo manual de la desviación estándar. 46 . Una medida de dispersión expresada en las unidades originales es la desviación típica o desviación estándar. Cuando los datos analizados proceden de una población y no de una muestra.96 ÷ 24 = 7. Resultados con el número de observaciones en la serie de valores estudiada (24 observaciones en el cuadro 7-1). Calculamos la media de la talla: = 1 169 24 = 48. © Editorial El manual moderno Fotocopiar sin autorización es un delito. se encuentra el 50% de las observaciones “centrales”.96 5.5 g2) y la desviación estándar muestral (700. una medida más adecuada es la distancia intercuartilar o recorrido intercuartilar. Sustraemos el valor de la media al de cada observación: xi .72 cm. El resultado anterior dividido entre N es la varianza: 176. revise la sección “Cómo hacerlo en Epi Info. que es igual a la raíz cuadrada de la varianza. la media (3 023. entonces procederemos a calcular la varianza en la secuencia que se muestra en los siguientes incisos y en el cuadro 7-3: 1. 1 Si tiene dificultad para encontrar la tabla de datos Bio3_07a. Ejemplo explicativo 7-4 Si tenemos interés en describir la dispersión de los datos del ejemplo explicativo 7-2 mediante el recorrido intercuartilar. 3. © Editorial El manual moderno Fotocopiar sin autorización es un delito. en el apartado “Statistics” de la ventana de “Analysis Commands”.25 4 50 1. En ese momento. Figura 7-3.67 8 52 3. se utiliza la diferencia de medias para hacerlo. 1.09 12 51 2.92 50 1. en promedio. medimos a los estudiantes de la escuela.70 . Ventana de la orden “Means”. COMPARACIÓN DE GRUPOS A diferencia de las proporciones.50 13 47 -1.71 45. seleccione “PESO” en el espacio de “Means of”. Figura 7-2.29 18.09 10 49 0.71 0.50 7 50 1. y “SEXO” en la ventanita de “Cross-tabulate by Value of”.29 0. mientras que cuando son diferentes.29 1.25 24 49 0. Cálculos para estimar la varianza i TALLA 1 48 2 (xi .67 19 50 1.29 10.00 9 51 2. Cuando se quieren comparar dos grupos y la variable de interés es una variable cuantitativa.05 metros más que sus compañeras.71 2.29 1.42 3 45 -3. haga clic en “OK”. En la ventana de diálogo que se despliega.29 0. Para hacerlo.29 5. la razón de medias no se utiliza para comparar variables cuantitativas de dos grupos.65 = 0.71 59.09 xi . Figura 7-1.Escala cuantitativa 47 Cuadro 7-3. Para continuar.[] (xi .09 18 48 -0.29 0. cuando las medias de dos grupos son iguales. Cómo hacerlo en Epi Info.65 m en las mujeres.67 5 48 -0. Hay que notar que.71 0.67 16 50 1.29 5.75 15 51 2.71 13. Ventana de la orden “Means”.1.29 0.25 21 49 0.29 1.67 14 53 4.70 m en los hombres y 1. 6-1” en el capítulo 6. Sólo nos falta restar la talla promedio de las mujeres a la talla promedio de los hombres para encontrar que los hombres en esa escuela miden. Ejemplo explicativo 7-6 Supongamos que estamos interesados en demostrar que en una escuela preparatoria los alumnos hombres tienen una estatura promedio mayor que sus compañeras. 7-2 En Epi Info paraWindows abra el archivo Bioestadistica_3ra y seleccione la tabla Bio3_07a2. la diferencia es de cero.50 11 49 0. Después de hacerlo.29 5.71 0. haga clic en “Means”. .29 1.29 0.50 17 41 -7.29 0.84 20 42 -6. Ventana con resultados de la orden “Means”. de manera semejante a lo que ocurre con la diferencia de proporciones.[])2 i TALLA -0. revise la sección “Cómo hacerlo en Epi Info.71 0. Luego.[])2 calculamos la media de la talla del grupo de hombres y del grupo de mujeres.[] xi .29 1.42 6 49 0. el resultado es mayor o menor de cero.09 23 49 0. Supongamos que estos promedios fueron iguales a 1. la ventana deberá observarse como en la figura 7-3.09 22 48 -0. 2 Si tiene dificultad para encontrar la tabla de datos Bio3_07a. intervalos de confianza para una diferencia de medias (capítulo 19). Si la serie de datos de cada grupo tiene más de una moda. los resultados sólo mostrarán la de valor menor. 2. la varianza. el percentil 25 o primer cuartil. Análisis de varianza (ANOVA) y prueba de Bartlett (capítulo 20).48 Bioestadística Al hacer clic en “OK”. el valor máximo y la moda. Resultados de una prueba t de Student.3 061. la mediana. que incluyen el número de observaciones. el percentil 75 o tercer cuartil.77 . 1. donde se podrá encontrar el valor de la diferencia observada entre las dos medias (2 990. la media. Resultados descriptivos para cada grupo a comparar. © Editorial El manual moderno Fotocopiar sin autorización es un delito. El resto de los números que se presentan corresponden a diferentes pruebas de hipótesis que serán revisadas en otros capítulos: prueba t de Student (capítulo 18).05). . el total de la suma de las observaciones. podrá encontrar lo siguiente en la ventana de resultados (figura 7-4). el valor mínimo. Figura 7-4. Ventana con resultados de la orden “Means”. 3. y las pruebas de Mann-Whithey/ Wilcoxon y de Kruskal-Wallis (capítulo 22). la desviación estándar o típica.82 = –71. percentil 25. percentil 75. Sin embargo. Ejercicio A1 Tome en cuenta los datos del cuadro 7-4. calcule: media. rango y recorrido intercuartilar. Los datos están en la tabla Ejer_07a del archivo Bioestadistica_3ra. a. b. percentil 75.Escala Escala cuantitativa cuantitativa 49 Ejercicios Ejercicio A Observe el cuadro 7-4. De la variable talla al nacer. Nota: Recuerde que Epi Info y otros programas de cómputo calculan la desviación estándar de la muestra y no la de la población. Sexo del RN Exposición de la madre al humo de tabaco durante el embarazo Consumo de alcohol por la madre durante el embarazo 52 femenino fumadora pasiva no 3 262 50 masculino fumadora activa sí 3 3 162 51 femenino no no 4 2 879 51 femenino fumadora activa sí 5 3 626 52 masculino fumadora pasiva sí 6 3 957 54 femenino no sí 7 4 170 54 masculino no no 8 2 224 47 masculino fumadora activa sí 9 2 877 50 femenino fumadora pasiva no 10 3 408 52 masculino fumadora activa no 11 3 390 48 femenino no no 12 3 119 50 masculino no sí 13 3 425 51 masculino fumadora pasiva sí 14 2 245 49 masculino fumadora activa sí 15 2 417 48 masculino fumadora activa sí 16 2 631 50 masculino fumadora activa no 17 3 638 50 masculino no no 18 2 900 50 femenino fumadora pasiva sí 19 2 005 46 femenino no sí 20 3 694 52 femenino fumadora activa no i Peso del RN en gramos Talla del RN en centímetros 1 3 022 2 . calcule: media. rango y recorrido intercuartilar. Cuadro 7-4.7 de este = N mismo capítulo. © Editorial El manual moderno Fotocopiar sin autorización es un delito. percentil 25. a partir de la desviación estándar de la muestra se puede obtener la de la población mediante s 2 ( N 1) 2 . De la variable peso al nacer. mediana. Los datos que contiene se refieren a las características de 20 niños recién nacidos y sus madres. desviación estándar poblacional. Características de 20 niños recién nacidos. tal como se describe en la fórmula 7. mediana. desviación estándar poblacional. cdc. . D.0 0. Bioestadística. Altman.0 0.gov/epiinfo/ © Editorial El manual moderno Fotocopiar sin autorización es un delito.50 Bioestadística Ejercicio A2 Con los datos del cuadro 7-4: a. Ejercicio A2(a) Variables Ejercicio A2(b) Variables Sexo del RN Masculino Femenino Exposición al humo de tabaco Fumadora activa Fumadora pasiva No Consumo de alcohol Sí No Media del peso Diferencia de medias 0. Calcule las medias del peso que corresponda a cada categoría de las variables que se le presentan en el cuadro 7-5 y anote la diferencia de medias considerando como grupo de referencia el que tenga la diferencia igual a 0. México: Limusa. Base para el análisis en las ciencias de la salud (3a. (1987). Noriega Editores.0 REFERENCIAS Daniel. Practical statistics for medical research.). Calcule las medias de la talla que corresponda a cada categoría de las variables que se le presentan en el cuadro 7-6 y anote la diferencia de medias considerando como grupo de referencia el que tenga la diferencia igual a 0.0 0.0 0. ed.0 Sexo del RN Masculino Femenino Exposición al humo de tabaco Fumadora activa Fumadora pasiva No Consumo de alcohol Sí No Media de la talla Diferencia de medias 0.0 en el cuadro. W. b.0 en el cuadro. CDC. W. (1991). Epi Info 7. G. Disponible en http://wwwn. Londres: Chapman and Hall. Las siguientes columnas corresponden respectivamente a cuántos habitantes del Estado están en riesgo de morir durante el tiempo al cual se refiere el título del cuadro (sólo aquellos que desarrollaban una ocupación laboral en el periodo). Al elaborarlos. la edad de la víctima en años agrupados. forman celdas. Cuerpo del cuadro. Cuando las observaciones se refieren a una sola variable. las categorías de la misma deben anotarse en esta columna. Continuar con las notas explicativas. “B”. intencionadamente. 3. el “cómo” (ocurrido durante el trabajo). ¿cómo?. 8. Títulos y encabezados incompletos o inadecuados. Dado que no fue posible conocer cuántos niños de 12 años en Jalisco desempeñan una actividad laboral. pero suficientemente explícitos. ¿dónde?. a) Ser completo. 4. De manera breve. De manera general. irregularidades de los datos.N xi 8 i =1 Presentación de los datos ( xi CUADROS ESTADÍSTICOS Los cuadros se utilizan para presentar los resultados de las tabulaciones estadísticas. pero sin sacrificar la claridad. deben ser breves. La segunda hace notar que dos niños menores de 12 años fallecieron a causa de homicidio mientras realizaban una actividad laboral. mientras que aquellas que se colocan en la parte inferior sólo se refieren a las cifras de determinadas celdas o de una fila o columna en particular. Para leer un cuadro debemos seguir un orden. © Editorial El manual moderno Fotocopiar sin autorización es un delito. ¿cuándo? b) Debe ser sucinto. Al elaborar cuadros estadísticos. Comparar los totales con las diferentes celdas que contengan información. Cuadros que solamente presentan porcentajes. 2. con frecuencia se cometen errores que deben evitarse. los cuadros estadísticos constan de: 1. en conjunto. Buscar. 3. el autor no calculó 51 . Cuadros con mucha información. 7. En la primera fila o renglón. se indica a qué se refieren los datos que se anotan en los siguientes renglones. Elaborar una conclusión final del cuadro. 4. el título debe reunir dos condiciones: = xi i =1 N 2 N 6. El título señala el “qué” (homicidio en varones). y siempre en los que no son originales. que puede ser el siguiente: 1. pero cuando se clasifican simultáneamente por dos o más variables es recomendable que la que tenga más categorías se sitúe en la primera columna. las frecuencias absoluta y relativa de homicidios por grupo de edad. se reserva para señalar las diferentes categorías de la variable de clasificación. 2. Título. el cuadro contiene cuatro observaciones señaladas mediante los superíndices “A”. Observar los resultados correspondientes a las celdas de totales (columnas y filas). 1. Este cuadro sólo presenta una variable. “C” y “D”. Las notas colocadas en la parte superior afectan todo el contenido del cuadro. debe responder a las preguntas: ¿qué?. Notas explicativas. La primera columna. 3. Relacionar las variables que se estudian. el “dónde” (Jalisco) y el “cuándo” (1989-1991). debe ponerse al pie del cuadro la fuente de la cual se obtuvieron los datos. Identificar las unidades de medida que se reportan. 2. Además. lo cual se indicará con un pequeño símbolo (que puede ser número o letra). En los trabajos originales en los cuales el investigador lo considere preciso. El primero refiere la fuente de la que se tomó el tamaño de la población para cada grupo de edad. buscamos que la información que se muestre sea fácil de entender y que nos ayude a comprender las relaciones que guardan los datos. o columna matriz. puede decirse que el cuerpo del cuadro consta de un conjunto de columnas y filas que. Para que los cuadros se entiendan fácilmente. el de los encabezados. es decir. los siguientes son algunos de los más comunes: N μ) 2 i =1 N Disposición incorrecta de los datos. 5. Ejemplo explicativo 8-1 El cuadro 8-1 muestra resultados correspondientes a una investigación sobre homicidio mientras la víctima se encontraba trabajando. Título. Diagrama de barras. En él pueden representarse cifras absolutas o porcentajes.02 40-49 180 057 24 4. 7. Distribución de 20 niños ahogados en su hogar según sexo. Cuadro 8-1. etc. D. Ejemplo explicativo 8-2 Los datos sobre sexo contenidos en el cuadro 6-2 pueden representarse gráficamente mediante un diagrama de sectores como se muestra en la figura 8-1. Los totales incluyen 22 hombres en los que no se especificó edad. C. REPRESENTACIONES GRÁFICAS DE UNA DISTRIBUCIÓN DE FRECUENCIA Los conceptos que se expresaron a propósito de los cuadros son válidos para los gráficos. el cuadro especifica las fuentes de las cuales se obtuvo la información con la que fue elaborado. HomicidiosB Tasa × 100 000C 12-14 27 805 0 0. ni los conceptos que representa. Según el Censo General de Población de 1990. Título. dado que el cálculo de las tasas implica un periodo de tres años. 1991-1993. Jalisco. 3. regularmente las normas de publicación en revistas especializadas no lo permiten). esto no es necesario. cuyos objetivos más importantes son los siguientes: 1. el autor consideró que sería importante hacerlo notar. Durante el trienio 89-91 se registraron dos homicidios en niños menores de 12 años que no se incluyen en la tabla. El censo incluye un grupo de sujetos que no registran edad. La nota “C” describe cómo se calcularon las tasas. Fuente: Diarios El Occidental y El Informador. cuando se trata de artículos. Al igual que en los cuadros.60 8 5. Dado que el círculo tiene 360°. Principales gráficos Los utilizados con mayor frecuencia son: Uno de los métodos principales para mostrar información estadística es el uso de gráficos.52 202D 5. Masculino Femenino Figura 8-1. pero ese grupo no puede tomarse como población de referencia para el estudio de homicidios. 2.20 20-29 328 901 49 4. Diagrama de puntos o de correlación. Cuerpo del gráfico. Por último. pues en la gráfica no se pueden precisar cuidadosamente las cantidades y escalas. Apoyo personal durante el análisis estadístico de la información captada. Gráfico de tallo y hoja. Gráfico de cuadro y línea. México. 1989-1991 Edad en años 1. ponencias. Presentación de información estadística en artículos. 2. TrabajanA Diagrama de sectores o gráfico de pastel. algunos autores recomiendan que en documentos científicos la información graficada se presente acompañada del cuadro correspondiente (sin embargo. INEGI. por lo regular. Jalisco. para elaborar este gráfico es necesario que a cada 1% de la distribución de frecuencias porcentuales le corresponda 3. . La cuarta nota destaca el hecho de que no se pudo conocer la edad de varios sujetos. Las tendencias y los contrastes se aprecian con mayor facilidad utilizando gráficas que mediante el uso de cuadros.6° del círculo. Por esta razón. 6.97 30-39 266 065 56 7. Notas explicativas. © Editorial El manual moderno Fotocopiar sin autorización es un delito. Debe destacarse que esto puede conducir a malas interpretaciones. Homicidios en hombres ocurridos durante el trabajo según edad de la víctima. B. 4. 3. 5.85 ≥ 65 48 323 Total 1 151 408 A. 2. Histograma.85 60-64 31 598 11 11. El diagrama de sectores o gráfico de pastel se utiliza con fines comparativos. Las tasas para el periodo de tres años se calcularon mediante la fórmula siguiente: # defunciones en los tres años ÷ (población en 1990 × 3).00 15-19 166 479 11 2.44 50-59 102 180 21 6.52 Bioestadística la tasa de mortalidad para este grupo de edad. sin embargo. Polígono de frecuencias. en los gráficos también se consideran: 1. haga clic en “Graph”. Los siguientes son aspectos que deben tenerse en cuenta cuando se elabora este gráfico: Figura 8-3. . 2. Ventana de la orden “Graph” para el gráfico de Figura 8-4. Diagramas de barras compuestas. tal como se muestra en la figura 8-4. Se trazan las líneas de las ordenadas (eje vertical) y de las abscisas (eje horizontal). la gráfica de pastel se mostrará en la pantalla. tal como se muestra en la figura 8-2. 8-1 En Epi Info para Windows abra el archivo Bioestadistica_3ra y seleccione la tabla Bio3_06a. 2. barras. Luego. Existe una excepción. 1. Al hacer clic en “OK”. Las barras han de estar separadas por un espacio que no deberá ser mayor que el espesor de las mismas. los datos correspondientes al depósito en que los niños se ahogaron. si una de las barras agrupa varias categorías bajo el subtítulo de “otras” o “el resto”. Todas las barras deben tener la misma anchura. Existen variaciones del gráfico simple de barras que facilitan la presentación y comparación de datos. las barras se ordenarán de mayor a menor. Diagramas de barras dobles. revise el apartado “Cómo hacerlo en Epi Info. Figura 8-2. 6-1”. esta barra se situará al final de la serie sin importar que su tamaño sea mayor que el de la categoría con menor frecuencia. © Editorial El manual moderno Fotocopiar sin autorización es un delito. Distribución de 20 niños ahogados en su hogar según depósito de agua en que cayeron. 2. En la ventana de diálogo que se despliega. se procede de la siguiente manera: 1. 53 El gráfico de cuadro y línea es una manera útil de resumir datos presentados en percentiles. seleccione “Pie” para “Graph Type” y la variable “SEXO” en “Main Variable(s)”. Para elaborarlo. puede representarse gráficamente mediante barras sencillas. Ventana de la orden “Graph” para el gráfico de sectores o pastel. donde el gráfico podrá ser editado. Ejemplo explicativo 8-3 De manera semejante al ejemplo explicativo 8-2. 10 9 8 7 6 5 4 3 2 1 0 Aljibe Balde/tina Olla Pozo de agua Otro depósito En el diagrama de barras. Al hacer clic en “OK”. Si no recuerda cómo hacerlo. pero se recomienda el de las ordenadas) utilizando los valores correspondientes a la variable que se describe. A menos que los datos tengan que presentarse en una secuencia predeterminada. seleccione “Bar” para “Graph Type” y la variable “DEPOSITO” en “Main Variable(s)”. 3.Presentación de los datos Cómo hacerlo en Epi Info. Únicamente se rotula uno de los ejes (puede ser cualquiera. las frecuencias de cada característica se representan por una barra o rectángulo. En la ventana de diálogo. Jalisco. 1991-1993. como en la figura 8-3. en el apartado “Statistics” de la ventana de “Analysis Comands”. el gráfico de barras se mostrará en la pantalla. por ejemplo: 1. contenidos en el cuadro 6-2. guardado o impreso. haga clic en “Graph”. 8-2 Con la misma tabla de datos utilizada en “Cómo hacerlo en Epi Info 6-1”. Cómo hacerlo en Epi Info. 54 Bioestadística 3. Los valores percentilares más comúnmente utilizados son: 0, 25, 50, 75 y 100. Entre los valores que corresponden a los percentiles 25 y 75 se dibuja un cuadro dividido por una línea perpendicular a la referencia del percentil 50. A la mitad de las líneas 25 y 75 se desprende un trazo que se une con los puntos que corresponden al valor máximo y mínimo de la serie de datos. En el gráfico se pueden hacer notar los valores que corresponden a cada referencia (figura 8-5). El gráfico también puede elaborarse utilizando otros valores de referencia. Por ejemplo, que la línea llegue hasta 10 o 5 valores percentilares antes de los valores extremos, o que la primera desviación estándar defina el límite de la caja y la segunda sea el límite de la longitud de la línea. Ejemplo explicativo 8-4 Cómo hacerlo en Epi Info, 8-3 En Epi Info 7 este gráfico no se puede elaborar. Para hacerlo en Epi Info utilice la versión anterior (Epi Info 2000), lea el archivo Bioestadistica_3ra y seleccione la tabla Bio2_06c. Luego, haga clic en “Graph”, en el apartado “Statistics” de la ventana de “Analysis Comands”. En la ventana de diálogo que se despliega, seleccione “Cajas y bigotes” (“Box-Whisker”) para “Graph Type”, y la variable “TALLA” en “Main Variable(s)” en la columna “EJE-X” (“X-AXIS”). Por último, en la columna “DOCUMENTAR” (“DISPLAY”), en la opción “Cajas y Bigotes” (“Box-Whisker Type”) defina una de las tres opciones. La ventana de diálogo podrá verse tal como se muestra en la figura 8-6. Al hacer clic en “Aceptar” (“OK”), el gráfico se mostrará en la pantalla. 160 156 150 140 130 120 110 137 129.5 123.5 107 100 Figura 8-5. Distribución de tallas en un grupo de 100 niños. Figura 8-6. Ventana de la orden “Graph” para el gráfico de cuadro y línea. El histograma es una variedad especial de gráfico que, al igual que el diagrama de barras, utiliza columnas para mostrar la frecuencia con que las características se presentan, pero difiere en que las columnas no se separan y en que la escala horizontal es cuantitativa. Presenta las siguientes características: 1. El área de trazo está formada por un eje vertical, con escala discreta, y un eje horizontal, con escala cuantitativa discreta o continua. 2. El eje vertical corresponde a las frecuencias observadas, sean absolutas o relativas, y siempre empieza en cero. 3. En el eje horizontal, se anota la escala en que se midió la variable que se describe. No es indispensable que la escala empiece en cero. 4. Las barras se extienden desde el eje horizontal hasta que alcancen la frecuencia que representan. Su ancho es igual al intervalo de clase en que se agruparon los datos cuantitativos. Las barras no se separan, excepto cuando no existen elementos en la barra adyacente. 5. El área de cada barra es igual a la proporción que el número de elementos en ese intervalo de clase tiene en relación con el total de observaciones. Ejemplo explicativo 8-5 Los mismos datos del cuadro 6-12 pueden representarse mediante el histograma de la figura 8-7. Cómo hacerlo en Epi Info, 8-4 Este gráfico no se puede elaborar en Epi Info 7 como en la versión anterior. Para hacerlo, utilice la versión anterior (Epi Info 2000), lea el archivo Bioestadistica_3ra y seleccione la tabla Bio3_06c. Luego, haga clic en “Gráficos” (Graph”), en el apartado “Estadísticas básicas” (“Statistics”) de la ventana de “Órdenes” (“Analysis Comands”). En la ventana de © Editorial El manual moderno Fotocopiar sin autorización es un delito. Mediante este gráfico, los datos contenidos en el cuadro 6-12 pueden representarse de acuerdo con la figura 8-5. Presentación de los datos El gráfico de tallo y hoja es un diagrama semejante al histograma, con la ventaja de que a partir de su trazo se puede reconstruir la totalidad de los valores individuales de la variable presentada. Para elaborarlo, se procede de la siguiente manera: 24 22 20 18 16 Frecuencia 55 1. Los valores aleatorios correspondientes a la variable estudiada se ordenan de mayor a menor. 2. La hoja de cada columna corresponde al último valor de cada lectura y se escribe cuantas veces se repite formando el equivalente de la columna del histograma. 3. El tallo corresponde al resto de la lectura y sólo se escribe una vez para cada renglón (o columna). 14 12 10 8 6 4 2 Ejemplo explicativo 8-6 0 107 119 113 131 125 143 137 155 149 161 Continuando con los datos del cuadro 6-12, un gráfico de tallo y hoja tendría la forma que se presenta en la figura 8-9. Talla en centímetros Figura 8-7. Distribución de tallas en un grupo de 100 niños. diálogo que se despliega, seleccione “Histograma” (“Histogram”) para “Tipo de Gráfico” (“Graph Type”) y la variable TALLA en “Variable(s) principal(es)” [“Main Variable(s)”] en la columna “EJE-X” (“X-AXIS”). Por último, defina el intervalo de clase escribiendo 6 en “Intervalo” (“Interval”), tal como se muestra en la figura 8-8. De manera opcional, también podrá definir el primer valor en el Eje-X y anotarlo en la ventana “Primer Valor” (“”), que se encuentra debajo del intervalo. Al hacer clic en “Aceptar” (“OK”), el histograma se mostrará en la pantalla. El polígono de frecuencias se construye conectando, por medio de líneas rectas, los puntos medios de la parte superior de cada una de las columnas del histograma. Para completar el trazo, las líneas se prolongan hacia los puntos medios de clase previo y posterior a los intervalos de clase primero y último, respectivamente. El boceto del histograma se suprime. El polígono de frecuencias sirve para el mismo fin que el histograma. La frecuencia relativa de la ocurrencia de las observaciones entre dos valores cualesquiera es igual a la proporción del área total entre los dos puntos. El histograma se utiliza cuando se tiene interés en comparar dos o más series de datos en una misma figura. Ejemplo explicativo 8-7 © Editorial El manual moderno Fotocopiar sin autorización es un delito. El polígono de frecuencias correspondiente a la figura 8-7 sería el señalado en la figura 8-10. El diagrama de puntos o correlación se utiliza para representar gráficamente la asociación que existe entre dos variables cuantitativas medidas en el mismo sujeto. 10 11 12 13 14 15 Figura 8-8. Ventana de la orden “Graph” para el histograma 77 466777899 001112222233334444456666677788888899999 00111122233444445556666677778899 0000123466778889 36 Figura 8-9. Distribución de tallas en un grupo de 100 niños. 56 Bioestadística 25 20 15 Frecuencia 10 5 0 104 110 116 122 128 134 140 146 152 158 164 Talla en centimetros Figura 8-10. Distribución de tallas en un grupo de 100 niños. Para elaborarlo, procedemos de la siguiente manera: Ejemplo explicativo 8-8 Este gráfico nos permite ver y mostrar la asociación que existe entre dos variables cuantitativas y la tendencia que tienen en conjunto. Cuando en un mismo sujeto se han registrado datos de dos variables (tal es el caso del cuadro 7-1), podemos utilizar un gráfico de correlación como el que se presenta en la figura 8-11. Este ejemplo nos permite ver que la talla y el peso de los recién nacidos se encuentran de tal manera asociados que a medida que la talla aumenta, también aumenta el peso. Cómo hacerlo en Epi Info, 8-5 En Epi Info 7 abra el archivo Bioestadistica_3ra y seleccione la tabla Bio3_07a. Si no recuerda cómo hacerlo, revise el apartado “Cómo hacerlo en Epi Info, 6-1”. Luego, haga clic en “Graph”, en el apartado “Statistics” de la ventana de “Analysis Comands”. En la ventana de diálogo que se despliega, seleccione “Scatter” para “Graph Type” y las variables “TALLA” y “PESO” en “Main Variable(s)”, tal como se muestra en la figura 8-12. Al hacer clic en “OK”, la gráfica de dispersión se mostrará en la pantalla. 4500 4000 Peso en gramos 3500 3000 2500 2000 1500 1000 40 43 46 49 52 55 Talla en centímetros Figura 8-11. Talla y peso en recién nacidos sanos Figura 8-12. Ventana de la orden “Graph” para el gráfico de correlación. © Editorial El manual moderno Fotocopiar sin autorización es un delito. 1. Trazamos las coordenadas “X” (eje horizontal) y “Y” (eje vertical). Aunque no es indispensable, generalmente registramos la variable independiente en el eje horizontal y la variable dependiente en el eje vertical. 2. Numeramos los ejes con las escalas en que fueron medidas las variables. A diferencia de otros gráficos, en éste no es indispensable que el eje comience en cero. 3. A cada individuo se le representa con un punto que se colocará en la intersección de dos líneas perpendiculares que se desprenden de los valores que correspondan a cada una de las variables representadas en los ejes “X” y ”Y”. Presentación Presentación dede loslos datos datos 57 Ejercicios Ejercicio A Ejercicio B Utilice los datos del cuadro 6-14 y realice los siguientes gráficos: Utilice los datos del cuadro 7-1 y realice los siguientes gráficos: a. Gráfico de sectores o pastel con la variable “bajo peso al nacer”. b. Gráfico de barras simples con la variable “exposición de la madre al humo de tabaco durante el embarazo”. a. Polígono de frecuencias para el peso al nacer según el sexo. b. Gráfico de correlación con las variables “peso” y “talla”. REFERENCIAS © Editorial El manual moderno Fotocopiar sin autorización es un delito. Altman, D. G. (1991). Practical statistics for medical research. Londres: Chapman and Hall. Epi Info 7. CDC. Disponible en http://wwwn.cdc.gov/epiinfo/ Camel, F. (1991). Estadística Médica y Planificación de la Salud (Vol. 1). Mérida, Venezuela: Universidad de los Andes. Celis et al. (2001). Accidentes de trabajo y de trayecto según la CIE-9. Delegación Jalisco, IMSS, 1995-1996. Investigación en Salud, 2, 95-104. N xi 9 i =1 Indicadores básicos de salud La tasa de natalidad, tasa cruda de natalidad o tasa bruta de natalidad, cuantifica el total de nacimientos entre el total de la población en una región, generalmente en el transcurso de un año. Este indicador se calcula mediante Tasa de natalidad = i =1 N Es un indicador adecuado cuando se pretende comparar las tasas de natalidad entre poblaciones con diferente estructura de edad y sexo, o cuando se pretende medir la natalidad en los diferentes grupos de edad. La tasa cruda de mortalidad estima el total de muertes en un grupo de población, generalmente en el transcurso de un año. Este indicador se calcula mediante N 1000 P donde “N” es el número total de nacimientos en un lapso de tiempo y “P” es el total de la población a mitad del periodo de tiempo estudiado. Es un indicador sencillo de calcular y fácil de interpretar, aunque no es adecuado para comparar poblaciones con diferencias demográficas en cuanto a grupos de edad y sexo. La tasa general de fecundidad cuantifica el total de nacimientos vivos entre el total de mujeres con edades entre 15 y 49 años, generalmente en el transcurso de un año. Este indicador se calcula mediante Tasa general de fecundidad = Tasa cruda de mortalidad = D 1000 P donde “D” es el total de defunciones durante un periodo de tiempo y “P” es la población a mitad del periodo estudiado. Es un indicador sencillo de calcular y fácil de interpretar, aunque no es adecuado para comparar poblaciones con diferencias sociodemográficas. La tasa de mortalidad específica por edad cuantifica el total de muertes en un grupo de edad específico, generalmente en el transcurso de un año. Este indicador se calcula mediante N 1000 Pff © Editorial El manual moderno Fotocopiar sin autorización es un delito. Tasa de mortalidad específica por edad = donde “N” es el número total de nacimientos vivos en un lapso de tiempo y “Pff” es el total de la población femenina fecundante a mitad del periodo de tiempo estudiado. Es un indicador sencillo de calcular y fácil de interpretar, aunque no es adecuado para comparar poblaciones con diferencias demográficas en cuanto a grupos de edad. La tasa de fecundidad específica por edad cuantifica el total de nacimientos de mujeres en un grupo de edad específico, generalmente en el transcurso de un año. Este indicador se calcula mediante Tasa de fecundidad específica por edad = N μ) 2 ( xi = xi i =1 N 2 N Ni (Pf)i 1000 donde “Ni” es el número total de nacimientos vivos de mujeres de un grupo de edad específico y “(Pf)i” es el total de mujeres en ese mismo grupo de edad. Di Pi 1000 donde “Di” es el número total de defunciones por todas las causas de un grupo de edad específico en un periodo de tiempo y “Pi” es el total de la población en ese mismo grupo de edad a mitad del periodo estudiado. Es un indicador que expresa el riesgo de morir en cada grupo de edad. La tasa de mortalidad infantil cuantifica el total de muertes de menores de 1 año, generalmente en el transcurso de un año. Este indicador se calcula mediante Tasa de mortalidad infantil = Dm1 N 1000 donde “Dm1” es el número de defunciones en menores de 1 año en un periodo de tiempo y “N” es el número de nacidos vivos durante el periodo en estudio. 59 60 Bioestadística Este indicador estima la probabilidad de morir que tiene un recién nacido durante el primer año de vida. La tasa de mortalidad fetal se refiere al cociente de dividir el número de defunciones fetales ocurridas durante un periodo de tiempo entre el total de nacimientos en ese mismo periodo de tiempo. Este indicador se calcula mediante Tasa de mortalidad fetal = D N 1000 donde “D” es el número de defunciones fetales ocurridas durante el año y “N” es el total de nacimientos. En la práctica, el total de nacimientos se sustituye por el total de nacidos vivos. La tasa de mortalidad por causa específica mide el riesgo de morir a consecuencia de una causa específica. Este indicador se calcula mediante Tasa de mortalidad por causa específica = Dx P 1000 donde “Dx” es el número de muertes por causa específica durante un periodo de tiempo y “P” es el total de población a mitad del periodo estudiado. Esta tasa de mortalidad puede calcularse para cada grupo de población que se quiera estudiar, clasificado según grupo de edad, sexo, ocupación o cualquier otro criterio. La tasa de mortalidad materna o razón de mortalidad materna/nacidos vivos estima el riesgo de morir por causas asociadas al embarazo, parto o puerperio. Este indicador se calcula mediante Tasa de mortalidad materna = Dm N 1000 donde “Dm” es el número de muertes maternas (asociadas al embarazo, parto o puerperio) ocurridas durante el año y “N” es el denominador de la ecuación. En principio, “N” debería ser el total de embarazadas, parturientas y puérperas en el mismo periodo, pero este número no se conoce, por lo que puede sustituirse por el número de nacidos vivos más el número de nacidos muertos menos el número de partos múltiples, lo que también es muy difícil de obtener. En la práctica, en su lugar se utiliza el total de nacimientos vivos. La tasa de letalidad estima el riesgo de morir que tiene una persona que padece alguna enfermedad. Este indicador se calcula mediante Tasa de letalidad = Dx Ex 100 donde “Dx” es el total de defunciones por una causa específica y “Ex” es el total de enfermos por la misma causa específica. REFERENCIAS Last JM. A dictionary of epidemiology. Oxford University Press. New York, 1995. Morice E: Diccionario de Estadística. Compañía Editorial Continental, S. A. México, 1974. © Editorial El manual moderno Fotocopiar sin autorización es un delito. Camel F: Estadística Médica y Planificación de la Salud. Tomo I, 1a edición. Universidad de los Andes. Mérida, Venezuela: Consejo de Publicaciones, 1991. ......95 61 ............................................................................................................................................................................................................................. Distribuciones de probabilidad y distribuciones muestrales con variables cuantitativas .......71 Capítulo 12. Elementos de probabilidad para la inferencia estadística .. Capítulo 14...............................63 Capítulo 11...................................................................... Muestreo .........................79 Capítulo 13....................................................................... Distribuciones de probabilidad y distribuciones muestrales con variables cualitativas ..............................................................................89 © Editorial El manual moderno Fotocopiar sin autorización es un delito..................Sección III: Estadística descriptiva Capítulo 10........... Inferencia estadística ....................... . pero algunos elementos de la población están recibiendo otro tratamiento que modifica la respuesta del que se quiere probar. Desgraciadamente. Por desgracia. Por desgracia. Aleatorio estratificado. Durante el proceso de investigación se debe procurar alcanzar el primer objetivo. a partir de ella. sólo se toma una parte de ella (no más de 10 ml de sangre) para realizar el estudio. de tal manera que todo miembro de la población tenga una probabilidad conocida. Para su empleo es indispensable disponer de un 63 . • Parte de la población no está disponible para el estudio. del universo. no hay una manera infalible de obtenerla a pesar de que se han descrito diversos procedimientos para ello. El universo de interés es tan grande. En términos generales. o finito pero enorme. Por ejemplo. existe interés en estudiar el peso y la talla de todos los humanos que viven en la actualidad. no hay personal capacitado en cantidad suficiente para realizar el estudio en todo el universo y la capacitación de ellos excede los límites de la investigación (mucho tiempo y dinero para ello). tecnológicos) para estudiar el universo. la muestra debe ser un reflejo del universo a partir del cual se obtuvo. Cuando no es posible estudiar el total del universo. durante la investigación surge la necesidad de practicar una tomografía axial computarizada (TAC) a los elementos del universo de interés. Por ejemplo. mayor de 0. éste es el campo de la estadística inferencial. • Es imposible identificar todos los elementos del universo de interés. Sistemático. al médico le interesa conocer la concentración de glucosa en sangre de su paciente. por lo que es imposible estudiar a todos sus elementos. Pero para que las inferencias sean útiles. por lo que se opta por estudiar sólo una parte. Entre los diversos motivos que obligan a esto se encuentran: • El universo de interés es infinito. Muestreo aleatorio simple Si tenemos una población de tamaño N y seleccionamos una muestra de tamaño n cuando todas las muestras posibles de ese tamaño n tienen la misma probabilidad de ser seleccionadas. de ser incluido en la muestra. Dado que estudiar toda la sangre probablemente represente la muerte del paciente. Los trabajos estadísticos deben cumplir con uno de los siguientes objetivos: 1) describir cuantitativamente una población estudiando la totalidad de sus elementos o 2) describir cuantitativamente una población a partir de una pequeña parte del total de sus elementos. entonces hemos seleccionado una muestra aleatoria simple. se hacen inferencias sobre la población. Por ejemplo. Los investigadores deciden practicar la TAC en una parte del universo.N xi i =1 xi 10 Muestreo i =1 N ( xi 2 © Editorial El manual moderno Fotocopiar sin autorización es un delito. 2. a partir de una muestra. humanos. Se reconocen cuatro tipos de muestreo probabilístico: 1. Por racimos o conglomerados. Sólo para el muestreo probabilístico existen procedimientos estadísticamente seguros que permiten hacer inferencias. disperso y difícil de localizar que el investigador decide estudiar una muestra. • Para estudiar sus características es necesario destruir a los elementos. • Existen pocos recursos (económicos. sobre la población. Aleatorio simple. 3. se conforma con estudiar una muestra de ellos. Por ejemplo. 4. Muestreo probabilístico Una muestra probabilística es una muestra extraída de una población. Por ejemplo. se selecciona una muestra y. o muestra. a un epidemiólogo le interesa describir los antecedentes hereditarios de los enfermos de diabetes mellitus. Dado que no todos estos enfermos están identificados. el interés reside en estudiar el efecto de un medicamento en un grupo de enfermos. = N N μ) 2 i =1 N MUESTRA Como muestra se define una parte del universo o población. esto no siempre es posible. existen dos tipos de procedimientos mediante los cuales se obtiene una muestra: muestreo probabilístico y muestreo no probabilístico. y n representa el total de elementos en la muestra. Por último. Sólo resta identificar los valores que corresponden al marco muestral. ej. Por último. El primero señalaría la columna y el segundo el renglón (pero esto no se le debe decir a él). o el 08 o 69 para la vertical. hasta completar 10 elementos © Editorial El manual moderno Fotocopiar sin autorización es un delito. Por otra parte. por lo que sería la primera selección. Se continuaría con el 81. ej. Se le podría pedir a algún compañero que dijera dos números del 1 al 10. 2. un listado con los elementos de la población numerados del 1 a N (N = tamaño de la población). Se identifica el número mínimo de dígitos que incluye el tamaño del universo. un dígito no es suficiente. Tabla de números aleatorios 5 2 0 8 9 6 9 4 4 6 9 7 4 8 6 0 3 5 5 9 8 0 0 6 1 8 0 3 0 6 2 8 8 0 2 3 1 1 5 5 5 8 0 6 4 9 7 3 0 0 7 6 3 0 0 5 4 5 1 6 2 9 3 2 1 3 0 9 5 9 3 1 5 7 1 5 4 6 9 2 5 3 1 7 8 5 0 7 7 5 0 1 3 2 8 9 3 8 0 2 Para seleccionar a los 10 niños con la tabla se procede de la siguiente manera: 1. antes de iniciar se debe especificar la posición a partir de la cual se buscarán los números. para la selección de los individuos. Obtenemos una lista o relación de los 24 recién nacidos y los numeramos del 1 al 24. 85 y 60. es decir. a) El sorteo implica que se tomen 24 fichas (o pelotitas) idénticas y que a cada una de ellas se le identifique con un número del 1 al 24. ya que se invalidaría la selección aleatoria). ej. Así pues. suponiendo que se inicie a partir del primer valor. que corresponden a seleccionar la secuencia horizontal. Sólo restaría buscar en la lista de los 24 niños (en el marco muestral) los números que aparecen en las fichas extraídas de la urna. se extraen 10 fichas (es importante que al seleccionar las fichas quien las tome no las vea para que al extraerlas no intervenga su voluntad. cómo se tomará el segundo grupo de dos dígitos (p. Dos dígitos son adecuados. La separación es artificial y su único objetivo es facilitar el uso de la tabla. que deberá descartarse por no estar incluido en el marco muestral. el 59 y el 52. a partir del valor 0 de la quinta columna y tercer renglón. que se descartarían por exceder 24. el 67 o el 24 para la diagonal. el siguiente número es el 90 o el 29 para la opción horizontal. ellos son el 56. 3. números aleatorios generados por una calculadora o por una computadora. A ellos se les practicaría el examen. Para el presente ejemplo. Para seleccionar una muestra aleatoria se procede de la siguiente manera: 1. En el cuadro 10-1 se muestra una tabla pequeña.. Seguirían 84. descartando y tomando valores. se tienen varios números de dos dígitos. el dígito con el cual se empezará es el 0. si se está trabajando con la opción horizontal. Supóngase que se escogió un patrón horizontal y continuo. hasta llegar al 05. 2. que se encuentra en la quinta columna y el tercer renglón.. que sí se seleccionaría porque está incluido en el marco muestral. y algunas otras que se le puedan ocurrir al investigador. Y así se continuaría. el 5 arriba a la izquierda. 64 . Segundo. En ella se pueden apreciar grupos de cinco renglones y cinco columnas separadas entre sí por un renglón y una columna sin números. Después. Para la tabla del cuadro 10–1. se debe pensar qué pasará si se acaban los dígitos en el renglón o en la columna y no se ha terminado con la selección de la muestra (p. que podría ser descartado (si el muestreo se realiza sin reemplazo) o incluido (si el muestreo se realiza con reemplazo). acomodados en columnas y renglones. Ejemplo explicativo 10-1 Supóngase que se tiene interés en calcular el peso promedio del grupo de 24 niños descrito en el cuadro 7-1. Cuadro 10-1. Supóngase que dijo 5 y 3. Primero. Lo importante es que la decisión sea tomada antes de iniciar la selección de la muestra. diagonal o vertical). Para la selección de los 10 niños se debe escoger entre realizar un sorteo o utilizar números aleatorios. Para ello. de tal manera que se han seleccionado los valores 56 y 90. todas las opciones señaladas. Para que la selección sea al azar se debe utilizar uno de los siguientes procedimientos: sorteo. en qué orden se tomarán los dos dígitos (p. El siguiente número es el 03. el tamaño del universo. existen dos opciones: a) En la primera. tabla de números aleatorios. ya que el valor máximo que se puede lograr con un dígito es 9. las 24 fichas se depositan en una urna (o algo parecido) y se agitan hasta tener la seguridad de que están perfectamente mezcladas. La selección de los elementos que componen la muestra es al azar. son correctas y pueden utilizarse. b) La tabla de números aleatorios es una colección de dígitos del 0 al 9 generados mediante sorteo o en computadora. que tiene 10 columnas y 10 renglones de dígitos.Bioestadística marco muestral. En la selección de una de ellas no debe intervenir la voluntad. es preciso tomar algunas decisiones.. porque el valor 99 incluye el tamaño de la población que se está estudiando. existen 100 opciones. pero sólo se cuenta con recursos para 10 estudios. Antes de iniciar la identificación de los elementos a estudiar. En realidad. por lo que las preferencias y deseos del sujeto no influyen en este proceso. se le une con la siguiente columna y se convierte en 88 o se continúa con el mismo grupo de 25 dígitos y se le une con el 2 para obtener el 82). y se decide estudiar una muestra de 10 niños para inferir las características del grupo en conjunto. se tendría el valor 03 que se incluye en la población a estudiar. qué pasará con el siguiente valor: se descarta el 8. el cual es excedido por 24. b) En la segunda opción hacemos un uso más eficiente de la tabla de números aleatorios. solo indique al programa una cantidad de números aleatorios mayor de los que requiere y descarte los repetidos. razones. OpenEpi también se puede utilizar desde su computadora. en la figura 10-3 hemos anotado “1” como el valor más bajo. Partiendo de ellos.03). etc. sólo bastan 10 dígitos. que se muestra en el cuadro 10-2. este procedimiento consume tiempo porque puede ocurrir que sea necesario descartar muchos valores. se convierte en una fracción (0. medias. será necesario que cuente con una conexión a Internet. excepto para el caso de que el tamaño del universo sea próximo al valor máximo que se puede obtener con los dígitos que se están trabajando (9 para un dígito. se encontraría que los siguientes cuatro elementos a seleccionar serán: 20. Muestreo 65 del universo.81 x 24 = 19.40 + 1 = 21 repetido 60 0.05 x 24 = 1. En ella encontraremos los 15 números aleatorios solicitados (recuerde que si usted repite este ejemplo en OpenEpi.04 + 1 = 24 24 repetido 1. anote el valor más bajo y el más alto en su marco muestral. escribiendo el punto decimal a la izquierda. Esto es porque la selección de números aleatorios se realizó con reemplazo. . Para el caso del ejemplo explicativo 10-1. cambia por el de n.60 x 24 = 14. De esta manera.20 + 1 = 1 repetido 60 0.72 0. ta- Cuadro 10-2. tamaño del universo. 10-1 Epi Info 7 incluye un vínculo con la página de OpenEpi. Ejemplo de uso de números aleatorios para seleccionar los elementos a utilizar Valor en la tabla entero de seleccionamos al 03 0.40 + 1 = 15 repetido 96 0. 9 y 16). la cantidad de números que desea y en cuántas columnas quiere la presentación.40 14. Para generarlos. En las muestras así obtenidas es posible calcular proporciones. De hecho.72 + 1 = 1 1 81 0. Extendiendo el procedimiento. en la lista se identifican tres nueves. desde la perspectiva de las distribuciones muestrales (algo que se revisará en los capítulos 12 y 13) el muestreo con reemplazo es válido. principalmente porque el valor de N. 15 y 24.© Editorial El manual moderno Fotocopiar sin autorización es un delito. 4. y algo más por las repeticiones si se les quiere excluir. hacemos clic en “StatCalc y.72 + 1 = 1. Es decir. Cuando la pantalla cambie.72).03 24 = 0. Para generar los números aleatorios.72 0.16 + 1 = 21 21 85 0.40 20. Sin embargo.40 14. OpenEpi nos mostró la selección que se presenta en la figura 10-4.03 x 24 = 0. 999 para tres. Algunas calculadoras y programas de cómputo generan números aleatorios en forma de fracciones. a partir de ella. porque generalmente los sujetos seleccionados sólo son estudiados una vez. Notará que en la lista de los 15 números aleatorios algunos se repiten (20. 99 para dos. para seleccionar los elementos que compondrán la muestra.44 + 1 = 20 20 03 0. siempre que un número es seleccionado sigue participando. haga clic en “Números aleatorios”. En la pantalla de OpenEpi (figura 10-2).84 x 24 = 20. varianzas. Sin embargo. Para ello. algunas de estas fórmulas sufren modificaciones. es posible seleccionar los elementos de la muestra siguiendo el procedimiento anteriormente descrito.04 23.44 19.16 20. se toma el primer valor de dos dígitos (03) y. la lista de números aleatorios será diferente). Como ya se habrá notado. Esto podría parecer algo extraño.85 x 24 = 20. la cual tiene un módulo que genera números aleatorios.40 + 1 = 15 15 05 0. A la muestra seleccionada se le practican los estudios estadísticos de interés y. Después de hacer clic en la pestaña de “Resultados”. Cómo hacerlo en Epi Info.03 x 24 = 0. “24” como el valor más alto y “15” números aleatorios en “5” columnas. luego.60 x 24 = 14.72) y del resultado se toma el valor entero (1). primero llamamos a OpenEpi1.com” (figura 10-1). Para acceder a OpenEpi desde el menú de Epi Info 7.96 x 24 = 23. Por otra parte.). Realmente no es una buena opción. haga clic en la pestaña “Introducir datos” para que se despliegue la imagen que se presenta en la figura 10-3. pero primero deberá tenerlo guardado. que se multiplica por el tamaño del universo (0. Ese es el sujeto a seleccionar en el marco muestral. 21. en “OpenEpi.72 + 1 = 1 84 0.20 1. se hacen inferencias sobre la población de la cual se tomó la muestra. si lo que se desea es un muestreo sin reemplazo. al producto anterior se le suma 1 (0. donde teníamos interés de seleccionar 10 sujetos de una lista de 24. n es el tamaño de la muestra y n . Números aleatorios generados en OpenEpi. s2 = ( xi i =1 x) 2 "! n 1 En la que s2 representa la varianza muestral.66 Bioestadística Figura 10-1. p representa la proporción muestral. Entre las estimaciones más frecuentes se encuentran: • Media muestral n xi x= ! i =1 n Donde x representa la media muestral y n. • Desviación estándar muestral s = s2 #! • Proporción muestral p= Figura 10-3.com. el total de elementos en la muestra. maño de la muestra. Menú de OpenEpi. • Varianza muestral Figura 10-2. Menú de Epi Info 7 con la opción “OpenEpi” colgando de “StatCalc”. Figura 10-4. n . a se refiere al total de elementos en la muestra que tienen © Editorial El manual moderno Fotocopiar sin autorización es un delito. Pantalla de introducir datos para generar números aleatorios en OpenEpi.1 son los grados de libertad. x es la media muestral. a a +b $! En esta fórmula. se encuentra que la proporción muestral ( p ) de niños cuyo peso es menor de 2 500 g es igual a 0. el número de obreros no calificados seguramente será muy pequeño (alrededor de 10% en la muestra). Cuadro 10-3. mediante muestreo aleatorio simple. Por ello. o estrato. las estadísticas se afectan por el diseño del muestreo y es preciso introducir modificaciones a las fórmulas que se utilizan. Al igual que como ocurrió en el muestreo aleatorio simple. se decide tomar una muestra estratificada según el tipo de trabajador (profesional técnico u obrero calificado). se ha decidido que la muestra más adecuada consiste en tomar 30 elementos de cada grupo. Es decir. En la primera columna se han anotado los valores i-ésimos. cuya extracción se inició en el ejemplo explicativo anterior. ph es la proporción muestral en el estrato h-ésimo y N es la población total. se componga exclusivamente de profesionales técnicos. b es el total de elementos de la muestra que no tienen dicha característica y a + b es igual a n o tamaño de la muestra. Muestra de 10 elementos extraída aleatoriamente del cuadro 7-1 i i’ PESO i i’ Ejemplo explicativo 10-3 Se está estudiando una población compuesta por trabajadores en la que 90% está formado por profesionales técnicos y el resto por obreros no calificados.20. del cual se seleccionan. El principio básico en que se apoya este tipo de muestreo es dividir la población en estratos con el fin de obtener representatividad de los distintos subgrupos que componen la población y hacer comparaciones entre ellos. Además. . © Editorial El manual moderno Fotocopiar sin autorización es un delito. cuya suma representa la muestra total. se supone que los profesionales técnicos tienen un ingreso mayor que los obreros no calificados y no se quiere correr el riesgo de que la muestra. En cada uno se selecciona una muestra. En este tipo de muestreo. h identifica cada estrato con un número progresivo que va de 1 a L. se sabe que la población está distribuida en subgrupos. después de varias consultas con un experto en muestreo.4. que corresponden al marco muestral (el orden del cuadro 7-1). Nh es el tamaño de la población para el estrato h-ésimo. A partir de los datos contenidos en el cuadro. se debe tomar en cuenta que las siguientes estimaciones se calculan con las fórmulas que se presentan a continuación: • Proporción muestral L N h ph pstr = 1 2700 17 6 1535 4 2 3250 19 7 3300 7 3 3350 20 8 1475 10 4 3350 21 9 3000 15 5 3100 24 10 3100 h =1 %! N donde pstr representa la proporción muestral estimada mediante muestreo estratificado. En la tercera columna se presenta el peso del niño al nacer. Es importante notar que si a los sujetos que tienen la característica de interés se les asigna el valor 1. que les corresponde como miembros de la muestra. que la media muestral ( x ) es igual a 2 816 g. Si se toma una muestra aleatoria simple de esta población. por puro azar. L es igual al total de estratos. al que pertenecen los elementos.1 g. se necesita un listado de todos los elementos que componen el subgrupo profesionales técnicos. Muestreo estratificado En ocasiones. se tomarán 30 del grupo de profesionales técnicos y 30 del grupo de obreros no calificados. los estratos se consideran como poblaciones independientes. se presenta en el cuadro 10-3. se puede tomar en cuenta el subgrupo. mientras que en la segunda aparece el nuevo valor i-ésimo. sólo resta aplicar los criterios del muestreo aleatorio simple a cada estrato. Una vez que se ha decidido cuántos elementos de cada estrato se deben seleccionar. los elementos que compondrán la muestra. Se procede de igual manera con el grupo de obreros no calificados.3 g2 y que la desviación estándar muestral (s) es igual a 718. mientras que a los que no la presentan se les asigna el valor 0. entonces la fórmula 10. Para controlar esa diferencia entre los subgrupos. • Media muestral L PESO 1 67 N h xh xstr = h =1 &! N en la que xstr representa la media muestral estimada por medio del muestreo estratificado y xh es la media muestral en el estrato h-ésimo. Se cuenta con pocos recursos y.1 proporciona el mismo resultado que la fórmula 10. Por lo tanto. y el interés es estimar qué ingreso mensual promedio tienen en conjunto y qué proporción gana más de cinco mil. que la varianza muestral (s2) es igual a 515 643.Muestreo la característica de interés. y que los miembros de cada subgrupo difieren de los demás en cuanto a las características que se desea estudiar. Para seleccionar los 30 del primer grupo. Ejemplo explicativo 10-2 La muestra completa. De estos elementos se obtendrían los datos mediante los cuales se inferirían las características de la población. el marco muestral estaría conformado por todas las unidades de atención médica del IMSS. pero tiene el inconveniente de proporcionar un estimador sesgado. y que se han estudiado los cuatro que se muestran en el cuadro 10-5. o bien. x clu = 44 = 0. Éste es un procedimiento de gran ayuda cuando los estudios son a gran escala. Una opción sería muestrear en varias etapas. Aquí se presenta la fórmula para estimar la media por unidad de listado cuando se desconoce N. En la segunda etapa. el sesgo es despreciable en la mayoría de las ocasiones. Se podría obtener un listado de todos ellos y seleccionar una muestra aleatoria de médicos. se selecciona una muestra de él. El problema sería el costo del estudio.7633 y xstr 7 282. Después. El muestreo por conglomerados puede verse como un muestreo en etapas. en el muestreo por conglomerados sólo algunos subgrupos se seleccionan aleatoriamente. supóngase que los mostrados son los datos recabados en la investigación. Datos de un muestreo por conglomerados Conglomerado Total de médicos Médicos muestreados Médicos con buena calidad de atención 1 50 10 9 7 30 6 6 13 100 20 16 27 75 15 13 © Editorial El manual moderno Fotocopiar sin autorización es un delito.Bioestadística Ejemplo explicativo 10-4 Después de estudiar la muestra sugerida en el ejemplo explicativo 10-3. Dado que es posible que se seleccionaran elementos en todas las unidades médicas del IMSS. a partir del marco muestral para cada unidad seleccionada. Su ventaja principal es el ahorro de recursos y tiempo. encontramos los resultados que se muestran en el cuadro 10-4. En la primera. De él se seleccionaría una muestra aleatoria de unidades. y es factible realizar el muestreo considerando los diferentes subgrupos o conglomerados. se tomaría una muestra aleatoria de médicos. sería necesario tomar una muestra de 54 profesionales técnicos y seis obreros no calificados. Este diseño tiene el problema de que las fórmulas son diferentes para muestras por conglomerados de diferentes etapas. El inconveniente es que se obtendría muy poca información del grupo de administrativos. Si éste fuera el caso. Ejemplo explicativo 10-5 Supóngase que. A partir del cuadro 10-4. Sin embargo. para el ejemplo explicativo 10-4. las fórmulas de muestreo aleatorio simple y las del estratificado proporcionan los mismos resultados.8333 7 663. x p Grupo x clu = i =1 j =1 m (10. Entonces.6 para calcular pstr = 0. m nj xij Por racimos o conglomerados En ocasiones el universo es muy grande y no es posible obtener un marco muestral de él. Cuadro 10-5.1333 3 853. Esta fórmula es sencilla. se registran las características de todos los elementos del conglomerado seleccionado. se tendría que gastar mucho en transporte. A diferencia del muestreo estratificado en que se toman todos los subgrupos. se pueden utilizar las fórmulas del muestreo aleatorio simple. En estos casos. Otras fórmulas se pueden encontrar en textos especializados de muestreo. generalmente se pueden identificar ciertos agrupamientos naturales que sí es posible enumerar.7) ni i =1 Ejemplo explicativo 10-7 Supóngase que el universo de interés está compuesto por 66 conglomerados que agrupan a 4 000 médicos.8627 51 Ejemplo explicativo 10-6 Existe interés en estudiar la calidad de la atención que brindan los médicos que laboran en el IMSS en Jalisco.67 100 Al igual que los anteriores. Resultados a partir de un muestreo estratificado N Profesionales técnicos 0. Cuadro 10-4. se selecciona una muestra de 6 sujetos y se desea que en la muestra los grupos guarden la misma proporción que en la población. en las unidades seleccionadas. Igualmente. este modelo de muestreo introduce cambios en las fórmulas mediante las cuales se calculan los estimadores de la población. 68 .61 En el caso de que el grupo muestreado en cada estrato sea proporcional a su tamaño en el universo.60 900 Obreros no calificados 0. en el que cada etapa es en sí un muestreo aleatorio simple. se utilizan las fórmulas 10.5 y 10. o al menos una buena aproximación. primero se decide cuántos elementos hay que estudiar: supóngase que se eligió estudiar 100 sujetos. 2. hay que tener una definición. lesionados que ameritaron hospitalización. Ejemplo explicativo 10-8 Si existiera interés en estudiar las características de los pacientes que acuden a consulta de urgencia en el transcurso de una semana. 2. Muestreo de conveniencia. los casos potenciales de estudio. se divide el tamaño del universo entre el tamaño de la muestra a estudiar (1 000 ÷ 100 = 10). 3. en promedio. a los que se buscará para entrevistarlos. 48 y así hasta completar la muestra. sería el décimo al que se le otorgue consulta. la muestra se conforma por sujetos que pueden ser fácilmente accesibles en la población que se desea estudiar. y tampoco es posible esperar muchos años para que conteste su pregunta de investigación. Para ello. del tamaño del universo. 3. es de suma utilidad cuando el tamaño de la población es muy grande y es difícil elaborar un marco muestral. Supóngase que se obtiene el ocho. De esta manera. 18. Muestreo de conveniencia Mediante este procedimiento.Muestreo Muestreo sistemático Muestreo de casos consecutivos En este procedimiento se seleccionan los elementos de la muestra determinando de antemano cuántos elementos se dejarán pasar antes de seleccionar el que se tomará en cuenta para integrar la muestra. El investigador tiene varias opciones para sistematizar sus casos de estudio: lesionados que fallecieron. lesionados atendidos en unidades de emergencia. de tal manera que cuando inicie la entrevista se presente señalando que alguien conocido lo envió. 1. Muestreo a criterio. la muestra estudiada puede no ser representativa de la población. lesionados que ameritaron uno o más días de incapacidad para desarrollar sus actividades habituales. y así se continuará hasta completar el tamaño de la muestra necesario para el estudio. En estas condiciones. mediante sorteo o tabla de números aleatorios. En otras palabras. 4. El muestreo por conglomerados sería una opción. En segundo lugar. Las fórmulas necesarias para calcular los estimadores son semejantes a las utilizadas en el muestreo aleatorio simple. Muestreo en bola de nieve. Tan sólo falta decidir a cuál de los 10 primeros se tiene que estudiar. Una alternativa es el muestreo sistemático. después de entrevistar a un adicto a las drogas. pero tiene el inconveniente de que los resultados de la muestra no siempre pueden generalizarse para toda la población. Es decir. 38. Entre los muestreos no probabilísticos. siempre y cuando los casos seleccionados sean todos. se estaría seleccionando al 8. Aunque se considera que no reúne todos los requisitos de aleatoriedad. . Consiste en estudiar a todos los sujetos accesibles que se puedan identificar durante el tiempo en que se realiza el estudio. Entre los tipos de muestreo no probabilístico se encuentran: En este muestreo. © Editorial El manual moderno Fotocopiar sin autorización es un delito. Supóngase que los registros de consulta de urgencia del año anterior informan que en una semana se atienden. o no se dispone de suficientes páginas de números aleatorios. así que le pregunta al entrevistado a quién más podría visitar. El resultado indica a qué sujetos se va a estudiar. etc. pero difícil de realizar. En la medida que la “no respuesta” de los sujetos a estudiar aumenta y rebasa 10%. Su decisión está basada en el hecho de que son más accesibles y fáciles de localizar. Después. Ese es el primero a quien se encuestará. o casi todos. sólo será necesario contar 10 sujetos para encontrar el siguiente. 69 1. se selecciona un número entre 1 y 10. una selección de casos consecutivos es lo más parecido a un muestreo aleatorio. no se podría definir un marco muestral del cual obtener una muestra aleatoria simple o estratificada. es imposible diseñar un marco muestral. Ejemplo explicativo 10-9 Un investigador está interesado en estudiar las lesiones que sufren los niños como peatones en accidentes de tráfico de vehículo de motor. Muestreo de casos consecutivos. pero el más difícil de superar tiene que ver con la población a la que le interesaría representar: seguramente el investigador quiere hacer inferencias sobre la población de lesionados que se presentará en los años que siguen. Para este procedimiento. Cada uno de estos criterios tiene características que dificultan una selección aleatoria. a partir de que se inicie el trabajo de campo se dejará pasar a los primeros siete pacientes y al octavo se le estudiará. Para este ejemplo. Muestreo no probabilístico Muestreo en bola de nieve El muestreo no probabilístico se justifica por la comodidad y la economía. a los sujetos estudiados se les pide que recomienden a otros sujetos. quiere obtener más datos. 28. 4. 1 000 consultas de urgencias. Después de él. Ejemplo explicativo 10-11 El investigador. Ejemplo explicativo 10-10 El investigador quiere realizar un diagnóstico de comunidad y para su muestra selecciona a los habitantes del centro de la población. éste es el que más se aproxima a la selección aleatoria y se puede utilizar en una gran variedad de investigaciones. dejando pasar un cierto número antes de estudiar el siguiente. D) No se requiere de una lista de todos los sujetos en el universo. S. Etapas de muestreo: . aleatorio por conglomerados. S. a. K) Los sujetos que conformarán la muestra se seleccionan sistemáticamente. Sampling for Health Professionals. Las siguientes son etapas que deberían cumplirse para varios tipos de muestreo: aleatorio simple. F) Los sujetos que integrarán la muestra se seleccionan mediante sorteo de los conglomerados. sistemático y de casos consecutivos. Muestreo aleatorio por conglomerados.. H) Se requiere un marco muestral o lista de los sujetos en el universo. A partir de la lista anterior. además del comisario ejidal y de la persona de mayor edad en la región. J) Se requiere una lista de conglomerados. a juicio del investigador. usted deberá seleccionar y ordenar las opciones según corresponda al tipo de muestreo. USA: Lifetime Learning Publications. Las etapas no están en orden y han sido mezcladas. Belmont. E) Dentro de cada conglomerado se podrán seleccionar todos los sujetos que formen parte de él o una muestra aleatoria. Durante la búsqueda de datos. © Editorial El manual moderno Fotocopiar sin autorización es un delito. REFERENCIAS Levy. Ejercicios A) Los sujetos que integrarán la muestra se seleccionan aleatoriamente mediante sorteo o tabla de números aleatorios. c. Muestreo sistemático. Muestreo aleatorio estratificado. & Lemeshow. P. B) Sólo es necesaria una aproximación del tamaño del universo en estudio. el investigador incluye en su muestra al párroco del lugar. al médico de la clínica y a los profesores de la escuela primaria. Es posible que una o dos tenga que repetirse en varios tipos de muestreo. I) Los sujetos se seleccionan de manera consecutiva hasta que se completa el tamaño de la muestra. Muestreo de casos consecutivos. Muestreo aleatorio simple. Él cree que estas personas tienen la información que le interesa. (1980). b. G) A partir de la muestra seleccionada se calculan los estadísticos de interés. e. C) El marco muestral se divide en estratos. podrán proporcionar mayor información entre la población estudiada. d.70 Bioestadística Muestreo a criterio Ejemplo explicativo 10-12 Este muestreo contempla la selección de sujetos que. aleatorio estratificado. 5}. que agrupa todos los resultados u observaciones posibles obtenidos en un experimento estadístico. 2} = {2. 2. • Dos conjuntos son iguales si tienen los mismos elementos. Sin embargo. • Se denomina conjunto a la colección de observaciones o elementos definidos. 1}. se hace con la esperanza de que sea representativa de la población. © Editorial El manual moderno Fotocopiar sin autorización es un delito. Aunque la selección sea probabilística. • A cada resultado (evento) del espacio muestral S se le llama elemento o punto muestral del conjunto. u. el espacio muestral es S = {1. puede ocurrir que la muestra esté integrada por valores extremos. se denomina teoría de la probabilidad y sus conceptos son fundamentales para el estudio de la estadística. i. En otras palabras. 2. algunos universos finitos son tan grandes que llegan a ser incontables. recibe el nombre de espacio muestral y se simboliza con la letra S. 3. Los eventos constituidos por un solo elemento se denominan eventos simples. o. menor que (<). sin que importe el orden en el cual se definan. Así. se puede utilizar una regla que lo defina simbólicamente. 3. • Un conjunto se clasifica como finito o infinito según el número de sus elementos. o B = {a. ya que el azar es el núcleo de la inferencia estadística. o los resultados aleatorios. e. tales como: igual (=). Este conjunto. 4. i. • Para designar un conjunto se utiliza una letra mayúscula. 3. 5. Cuando el conjunto es finito se pueden enlistar todos los elementos del mismo. 2. En este caso. o. 5. 6}. es decir: {1. mientras que para los elementos se acostumbran letras minúsculas o números agrupados entre llaves. Pero eso no siempre sucede. La rama de las matemáticas que estudia los fenómenos del azar. e.N xi i =1 11 Elementos de probabilidad N para la inferencia ( xi μ ) 2 estadística 2 = i =1 N xi i =1 N N Cuando se selecciona una muestra. Por ejemplo: el conjunto A está formado por los elementos 1. Para ello es posible utilizar operadores lógicos. • Si el número de elementos en un conjunto es grande. mayor que (>). igual o . ALGUNOS CONCEPTOS DE TEORÍA DE CONJUNTOS La teoría de conjuntos es una herramienta útil en el estudio del azar. 4. diferentes y mutuamente exclusivos. En asociación con todo experimento. Su estudio facilita la comprensión de los resultados aleatorios. el azar también participa en el proceso de investigación y tiene un efecto en sus resultados que debe tenerse en cuenta. Su uso en la teoría de la probabilidad demanda el conocimiento previo de algunos conceptos frecuentes: • En el campo de las probabilidades se designa como experimento a todo proceso de observación. existen resultados posibles que se entienden como elementos de un conjunto. 4. mientras que el conjunto B está compuesto por los elementos a. como resultado de un lanzamiento de un dado. o A = {1. las estimaciones que se puedan hacer no reflejarán la realidad del universo del cual surgió la muestra. u}. 12. 20} • A = {todos los números enteros del 1 al 20. mientras que 100 A. se utiliza el símbolo . 2. B para el caso. 9. 13. 7. para señalar que un elemento no pertenece a un conjunto. compuesto por todos los números enteros iguales o mayores de 1 e iguales o menores de 20. 5. inclusive} • A = {x| x x • Para representar la pertenencia de un elemento a un conjunto. 10. representar al conjunto A. cuando todos los elementos de un conjunto. 18. 15. En este caso. considerando que A = {x| x es x A. 16. Por ejemplo. Por ejemplo. 19. 4. 11. a partir del conjunto A del párrafo anterior puede definirse el conjunto B = {1. 3. 17. 6. se puede utilizar cualquiera de las siguientes opciones: • A = {1. 8. 2. se utiliza . • A partir del espacio muestral S o de cualquier conjunto pueden definirse uno o más subconjuntos. 3}. 14. son elementos 71 . Por otra parte. A. se dice que B es subconjunto de A y se representa mediante .Bioestadística de otro conjunto. . B . es decir. Si dos conjuntos no tienen elementos en común. • La unión de dos conjuntos es otro conjunto formado por todos los elementos de los dos conjuntos. Intersección de dos conjuntos. Ejemplo explicativo 11–3 Al realizar un diagnóstico situacional de una institución de salud se encuentra que. en el cual se forman la celdas a. Unión de dos conjuntos. ya que un conjunto no puede contener más de una vez el mismo elemento. Ejemplo explicativo 11–1 Gráficamente. su intersección es el conjunto vacío. entonces todos los elementos del conjunto principal S que no son elementos del subconjunto forman el conjunto complementario. los cuales tienen en común los elementos que conforman el conjunto A B. respectivamente. Así. REPRESENTACIÓN TABULAR DE CONJUNTOS Los conjuntos también pueden representarse de manera tabular. A B S Figura 11-1. entonces A B = {i}. si A = {a. A B y B . la intersección puede representarse mediante un diagrama de Venn. o. i} y B= {e. entonces C A. S= {a. A∪B S Figura 11-2. e} y = {i. El arreglo adquiere la forma del cuadro 11-1. 36 desempeñan sus actividades durante el turno vespertino. i. i} y B = {e. A = {a. Se entiende que un subconjunto nunca tiene más elementos que el conjunto que lo contiene. se puede formar un conjunto con los elementos comunes. de los 73 trabajadores que laboran en ella. pero unidos para formar el conjunto A B. En este arreglo tabular. Cuando no todos los elementos de un conjunto son elementos de otro conjunto. si decimos que todos los elementos del conjunto A son los eventos en los que se detecte un microorganismo a simple vista en un experimento biológico. en la cual el conjunto universal contiene los conjuntos A y B. i}. cinco médicos laboran en el turno vespertino. tal como se muestra en la figura 11–1. que está contenido dentro del espacio muestral S. Para ello se utiliza un arreglo de dos renglones por dos columnas que permite clasificar los elementos del conjunto según pertenezcan o no a determinados subconjuntos. el total de elementos de los conjuntos A B. en las que se anotan. se utiliza el símbolo . c y d. e. 72 . B. De estos últimos. a + b + c + d es el total de elementos que componen el conjunto S. mientras que 25 son médicos. Para indicar la unión de dos conjuntos se utiliza el símbolo . entonces A = . la unión de A = {a. Si se define C = {99. La misma cantidad también puede representarse mediante N(S). Por ejemplo. que se designa mediante el símbolo . Así. i}. b. o. y que un conjunto puede ser subconjunto de sí mismo. • Cuando dos conjuntos no son iguales pero comparten algunos elementos. • En todo conjunto se reconoce la existencia de un subconjunto sin elemento alguno y se conoce como conjunto vacío o nulo. en la cual el conjunto universal o espacio muestral contiene los conjuntos A y B de la figura 11–1. Para representar el conjunto complementario se utiliza una tilde sobre la letra que designa el subconjunto. e. B © Editorial El manual moderno Fotocopiar sin autorización es un delito. 100. u). A. la unión se representa en la figura 11–2. Así. A este conjunto se le designa intersección y se representa mediante el símbolo . u}. • Si consideramos un subconjunto A. 101}. Los elementos A A∩B comunes a los dos conjuntos sólo se toman en cuenta una vez. Ejemplo explicativo 11–2 Gráficamente. i} es el conjunto A B = {a. el procedimiento a posteriori brinda el mismo resultado que el a priori. en donde la suma de todas las probabilidades debe ser igual a 1. En este arreglo tabular puede aumentarse el número de renglones o de columnas para identificar otros subconjuntos. Este conjunto puede representarse de manera tabular. Las otras caras tendrían la misma probabilidad. TEORÍA DE PROBABILIDAD DE UN EVENTO Mediante la probabilidad asignada a un evento se expresa el grado de confianza de que tal evento ocurra al observar un experimento.5 y la probabilidad de que sea “sol” también es 1/2 = 0. Probabilidad a priori Los datos anteriores corresponden a un conjunto de trabajadores. La probabilidad se representa como un número que va en el rango de 0 a 1. cada subconjunto tendría que especificarse y no se utilizaría el complemento del subconjunto. se tiene que el número de elementos en el espacio de eventos de este experimento es igual a dos. se puede conocer con anticipación la probabilidad de que el resultado sea “águila” o “sol”. T. Probabilidad clásica o a priori. mientras que el 0 corresponde a un evento que con toda seguridad NO ocurrirá. pero la oportunidad de que un evento ocurra no es la misma entre los elementos que lo componen. . A medida que N se aproxima a infinito. Probabilidad a posteriori Para calcular una probabilidad.Elementos de probabilidad para. los trabajadores de intendencia o el turno de fin de semana. la probabilidad de que sea “águila” es igual a 1/2 = 0. V. se puede utilizar uno de los dos conceptos siguientes: Cuadro 11-1. la probabilidad de observar un evento simple en particular es: P( E ) = n N ! donde n es el número de resultados que corresponden al evento E y N es el total de elementos del espacio muestral de eventos. tal como se presenta en el cuadro 11–2 donde V = 36. 2. De manera semejante. se puede conocer la probabilidad de registrar la cara tres. tales como el de las enfermeras. M. de tal forma que: < P(A) <P(Ø)'*P(S)' Cuadro 11-2. Esto facilita el cálculo de probabilidades cuando se conoce el espacio de eventos. Arreglo tabular del conjunto formado por trabajadores de una institución de salud Conjunto T Subconjunto V Conjunto T Subconjunto V Subconjunto M 5 20 25 Subconjunto M 31 17 48 36 37 73 Cuando se toma una moneda y se lanza para observar qué cara caerá. N. Probabilidad según la frecuencia relativa de ocurrencia o a posteriori. . Si se sabe que un dado tiene seis caras y todas tienen la misma oportunidad de ocurrir. M = 25 y M V = 5. que contiene dos subconjuntos no excluyentes: el de los médicos.5. Para el cálculo de las probabilidades de cada evento.17. se puede estimar la frecuencia relativa de la ocurrencia de un evento una vez que el experimento ha sido realizado. Si éste fuera el caso. A cada evento del espacio muestral se le asigna una probabilidad de ocurrir. y que cada uno de los elementos tiene la misma oportunidad de ser observado como resultado del experimento. Para ello. entonces la probabilidad es de 1/6 = 0. Si antes de realizar un experimento se conocen todos los elementos de un espacio de eventos y todos tienen la misma oportunidad de ocurrir. Ejemplo explicativo 11–4. se divide el número de veces que se observó el evento de interés entre el total de veces que el experimento se realizó. . y el de los trabajadores del turno vespertino. Para ello. si se trata de lanzar un dado y observar qué cara del mismo queda hacia arriba. de manera que el 1 indica que un evento ocurrirá con toda seguridad. © Editorial El manual moderno Fotocopiar sin autorización es un delito. Arreglo tabular 2x2 Conjunto S Conjunto S 73 Subconjunto A Subconjunto A Subconjunto B a b Subconjunto B c d 1. Así. 3. Supóngase. ante un paciente con cáncer en fase terminal. se vio que la probabilidad a priori de observar un “águila” cuando se lanza una moneda es igual a 0. se procedería de la siguiente manera: 0.50 5 “águila” 0. Probabilidad a posteriori de que resulte “águila” al lanzar una moneda según el número acumulado de lanzamientos. y la probabilidad de que ocurran simultáneamente ambos. para la misma moneda es posible calcular la probabilidad a posteriori. Si esto es así. A y B. es posible utilizar la siguiente fórmula: 2 “águila” 0. que el resultado sea “sol”. así como en su propia experiencia y los recursos de que dispone para la atención del enfermo.67 4 “sol” 0. A partir de este resultado se puede calcular una probabilidad a posteriori. Es importante hacer notar que no hubiera sido extraño observar otro “sol” y que la probabilidad a posteriori siguiera siendo 0. Su estimación no se basa en frecuencias relativas.50 0. Sería muy raro que. tal como se muestra en el cuadro 11–3. pronostica que difícilmente sobrevivirá otro día. Sin embargo. se observa qué cara cae y se registra una observación y la cara que se observa. Ante un solo experimento.00 Hasta aquí deben estar claros dos conceptos: a) la probabilidad de que ocurra un evento se expresa con un número que va del 0 al 1 y b) la probabilidad de un evento simple.40 0. A B.Bioestadística 1. porque se sabe que cada elemento de su espacio de eventos tiene la misma probabilidad de ocurrir. también se reconoce una tercera manera de calcular probabilidades: la probabilidad subjetiva. Se lanza la moneda. Tal es el caso cuando un médico.30 0. © Editorial El manual moderno Fotocopiar sin autorización es un delito. En este caso. sólo es posible obtener probabilidad de 0 o 1.80 0.20 0.60 0. Si el interés fuera calcular la probabilidad a posteriori de que al lanzar una moneda para observar qué cara cae hacia arriba el resultado fuera “águila”. 2. es claro que la suma de las probabilidades de todos los eventos simples que componen un conjunto es igual a 1. .00 0. se hubiera repetido en todas las observaciones el mismo resultado (cinco “soles” o cinco “águilas”). Si se repite el experimento y el resultado es “águila”.90 1 Ejemplo explicativo 11–5 Probabilidad de que resulte “águila” 74 Número de lanzamientos acumulados de una moneda Figura 11-3. y se acumula al resultado anterior (cuadro 11–3). la probabilidad a posteriori coincide con la probabilidad a priori. En ella se encuentra que la probabilidad de que resulte “águila” es igual a 0/1 = 0. la de cada uno de los eventos descritos. Así. En ocasiones puede ser de interés conocer la probabilidad de un evento a partir de la probabilidad de otros. Éste es el caso cuando se desea conocer la probabilidad de que ocurra uno u otro evento o la probabilidad de que ocurra el complemento de alguno. Reglas aditivas de probabilidades Lanzamiento número Cara de la moneda Probabilidad de que la cara sea “águila” 1 “sol” 0.60. S. la probabilidad a posteriori se aproximará a la probabilidad calculada a priori a medida que el número de observaciones aumenta. Ello es posible.60 Cuadro 11-3. sino en apreciaciones y conocimientos previos que tienen quienes realizan la estimación. a la misma calculada a priori. Si el interés se dirige a conocer la probabilidad que contendría la ocurrencia de la unión de dos eventos. la probabilidad a posteriori es igual a 1/2 = 0. el médico basa su estimación en el conocimiento del paciente y en su evolución. Para lo anterior existen ciertas reglas aditivas de probabilidades que deben de considerarse. En este caso. si ambas caras de la moneda tienen la misma probabilidad de ocurrir. P(A B) = P(A o B).10 40 37 34 28 31 25 22 19 16 13 10 7 0.00 4 En el ejemplo explicativo 11–4. en la que N representa el tamaño del espacio de eventos. 1.50 PA B!'P(A) + P(B)>PA B!"! 3 “águila” 0. En la figura se puede observar cómo al aumentar el número de ensayos la probabilidad a posteriori se aproxima. Si se continúa repitiendo el experimento y acumulando las observaciones.5. Además de las probabilidades a priori y a posteriori. es igual a 1/N. cuando se hayan acumulado cinco observaciones. de manera constante. Secuencia de observaciones del experimento de lanzar una moneda y registrar qué cara cae hacia arriba en la que P representa la probabilidad del conjunto A B. cuando todos los eventos simples de un conjunto tienen la misma oportunidad de ocurrir. se verá que la probabilidad a posteriori es de 3/5 = 0.70 0. En la figura 11–3 se grafican las probabilidades a posteriori del cuadro 11–3 y se continúan las observaciones hasta el lanzamiento número 40.5. podemos observar que al sumar la probabilidad de ambos eventos hemos sumado dos veces el área correspondiente a A B. ya que si no existen elementos comunes entre los dos conjuntos A B = . . P(A B)= = = 0 y entonces utilizamos la siguiente fórmula derivada de la ecuación 11. P(A) y P(B). es decir. En ese caso se dice que ambos son eventos mutuamente excluyentes. la unión de los eventos A B. entonces P(A B) = 0.Elementos de probabilidad para. por lo que resulta necesario restar el valor de la probabilidad de que ambos eventos ocurran simultáneamente P(A B).2: PA B!'P(A) + P(B) #! 75 que podremos despejar para que por simple substracción obtengamos el resultado: P . Para conocer la probabilidad de la unión entre dos eventos. debemos sumar la probabilidad de que ocurra cada uno. Ejemplo explicativo 11–6 Utilizaremos la figura 11-1 para demostrar la ecuación 11.2. Si revisamos el diagrama de Venn de la figura.2 se aplica a cualquier grupo de conjuntos. De esta manera. obtendremos la probabilidad de que ocurra uno u otro evento. . La fórmula 11. 4 involucra dos eventos excluyentes o conjuntos disjuntos. entonces haremos uso de la fórmula 11. del 58%.4. Como sabemos que ambos eventos son mutuamente excluyentes y conocemos que la probabilidad de encontrar un estudiante que gusta de las bebidas alcohólicas es P(A) = 210/500 = 42%.58. Si queremos conocer cuál es la probabilidad de elegir al azar un estudiante del último año de la carrera que no tenga el hábito de tomar bebidas alcohólicas. es decir. entonces la probabilidad de encontrar un estudiante que no acostumbre beber en el mismo año de la carrera será P() = 1 . Nuevamente. de un total de 500 estudiantes que cursan el último año de la carrera de medicina. por lo tanto.0. la fórmula 11.42 = 0.$! Ejemplo explicativo 11–8 Supóngase que se determinó que. 210 acostumbran tomar bebidas alcohólicas. debe recordarse: 'PA ! = P . la probabilidad condicional de un evento.3. se denota con P(A | B) y se calcula mediante: P (A B ) = Cuando los eventos de interés son una partición del espacio muestral S entonces: PA1 A A An!'P(A1) + P(A2 n . Ejemplo explicativo 11–7 Considérese que se quiere conocer la probabilidad de que al lanzar el dado se obtengan los resultados tres o seis. Como la probabilidad de que caiga tres y seis al mismo tiempo es 0.33. entonces utilizamos la fórmula 11. Al hacer referencia a la probabilidad condicional se dice simplemente “la probabilidad de A dado que ocurrió B”. Al lanzarlo. 2/6=0. A. Dicho de otra manera. La probabilidad condicional de que ocurra el evento A. que es la misma para todas las caras.167. La probabilidad de que resulte la cara con el número tres o el seis P(A B) al lanzar el dado es igual a 1/6 + 1/6 = 2/6 = 0. El número de eventos posibles de que caiga tres o seis al lanzar el dado es de 2 entre 6 posibilidades. La probabilidad que se calcula utilizando información adicional a la que proporciona la sola descripción de un experimento se llama probabilidad condicional. considerando el número de puntos posibles para el evento A B en relación con el total de eventos N del espacio de muestreo. Podemos observar en este ejemplo que el resultado también puede obtenerse por medio del método de probabilidad a priori. © Editorial El manual moderno Fotocopiar sin autorización es un delito. Probabilidad condicional Para calcular la probabilidad de un evento. la probabilidad de que caiga en la cara con el número tres es igual a 1/6 = 0. es aquella que se calcula con el previo conocimiento de que al realizar el experimento correspondiente ocurrió el evento B.33. dado que ocurrió B. es preciso considerar toda la información disponible. . pero sólo conocemos la probabilidad de que ocurra su complemento . Nótese que los términos pueden intercambiarse por analogía: P (B A) = P( A B) P( A) . entonces el número total de eventos de interés deja de ser el espacio muestral original S y pasa a serlo el número de eventos B. P( B A) P( B) %! Si el evento B ocurre. se divide la probabilidad de que ocurran los eventos A y B simultáneamente P(A B) entre la probabilidad de que ocurra el evento condicionante B. para conocer la probabilidad condicional. Por tanto. entonces usamos la siguiente fórmula. Si queremos conocer la probabilidad de que un evento suceda. al realizar la segunda extracción se estará en idénticas condiciones que cuando se sacó la primera. En tal caso. Si se extrae al azar una de las bolas y se regresa a la urna antes de sacar otra. cinco negras y 10 verdes. por lo cual. la selección se restringe sólo al subconjunto V (de tal manera que los elementos pertenecientes al complemento V no se tomarán en cuenta). los resultados de ambas extracciones son independientes. El resultado anterior se interpretará de la siguiente manera: la probabilidad de seleccionar un trabajador que sea médico dado que dicho trabajador labore en el turno vespertino es de 14%. Ejemplo explicativo 11–10 En una urna se tienen cinco bolas blancas.5 y recordaremos la teoría sobre el cálculo de probabilidades a priori: P(M V ) = P(V M ) N (V M ) / N ( S ) = P(V ) N (V ) / N ( S ) &! Por tanto. si se divide el numerador y el denominador de la fórmula 11.Bioestadística Ejemplo explicativo 11–9 Regrésese al cuadro 11–2 del ejemplo explicativo 11–3. la probabilidad de sacar dos bolas blancas en forma consecutiva es: . la probabilidad de que ese elemento sea un médico que trabaje en turno vespertino es igual a 5/73 = 0.068.6. de tal manera que todos tengan la misma posibilidad de ser seleccionados.068 = = 0. retomaremos la fórmula 11.49 donde N(S) es el número total de eventos en el espacio de muestreo (73 trabajadores). se obtiene: P( M | V ) = 5 / 73 0. y entonces se dice que ambos eventos son independientes. si se quiere conocer cuál es la probabilidad de seleccionar a una persona que sea médico dado que dicha persona trabaja en el turno vespertino. Para calcular lo anterior.138 36 / 73 0. Si de los 73 elementos que forman el conjunto T se selecciona aleatoriamente a uno de ellos. Sin embargo. ducto de las probabilidades de cada uno de ellos. en el caso anterior.5: P( A | B) = P( B A) P( B) se despeja P(A B) y se obtiene: . es decir.%@"!H%@"!'"%H"%'&"% ya que la probabilidad de A= {bola blanca en la primera extracción} y la probabilidad de B = {bola blanca en la segunda extracción} son idénticas. es decir. usando la ecuación de probabilidad condicionante 11. ambos eventos no serían independientes. Por consiguiente. el resultado de la segunda extracción hubiera quedado condicionado por el resultado de la primera. la primera bola extraída no se hubiera devuelto a la urna y hubiese sido una bola blanca. sino que dependería del primer resultado. Si. la probabilidad de sacar dos bolas blancas en forma consecutiva no sería (5/20) (5/20). De esta manera se tiene que: . H K! Independencia de eventos Se define como eventos independientes cuando se conoce que la ocurrencia de uno no afecta en absoluto la probabilidad de que ocurra el otro. Ello indica que la probabilidad de que ocurra la intersección de A y B es igual a la probabilidad de que ocurra B multiplicado por la probabilidad condicional de A dado B: . y . La probabilidad de sacar dos bolas blancas de manera consecutiva dado que la primera bola extraída fue blanca es de 0.05.%@"!H$@"!'"%H"'% La interpretación del resultado anterior será el siguiente. podemos derivar la fórmula de la regla multiplicativa de probabilidades despejando: Si se consideran tres conjuntos de eventos independientes. por lo que a partir de la fórmula de la probabilidad condicionante 11. entonces P(A|B) = P(A). Regla multiplicativa de probabilidades Obsérvese que si A y B son independientes.5. la probabilidad de que ocurra su intersección es igual al producto de las probabilidades de cada uno de ellos. si A. B y C son independientes. Así. entonces: . entonces la probabilidad es igual a 0. H H Q! Ejemplo explicativo 11–11 P( A | B) = P( B A) P( B) ?! P ( B ∩ A) = P (A) • P(B) Es decir.51 × 0.51 × 0. la probabilidad de la intersección de dos eventos (la probabilidad de que ocurra A y también B) es igual al pro- ¿Cuál es la probabilidad de que una pareja.51 = 0. en cuatro partos consecutivos. © Editorial El manual moderno Fotocopiar sin autorización es un delito.51 × 0.51 y que cada parto es independiente de los demás? Respuesta: dado que cada evento es independiente de los demás.0676.514 = 0. 76 . considerando que la probabilidad de que sea varón en cada parto es igual a 0. tenga cuatro hijos varones. Elementos de probabilidad para. . . Teorema de probabilidad total 77 B3 B1 Si el espacio muestral se divide en k subconjuntos, de tal manera que los eventos B1, B2, B3, … Bk constituyen una división del espacio muestral S y que la probabilidad de observar cada uno de los eventos P(Bi) 0, entonces la probabilidad de observar cualquier otro evento A en el espacio muestral S será: B4 B5 A B2 k P( A) = k A) = P( Bi i =1 P( A | Bi ) P( Bi ) Bk ! B6 i =1 Nótese que el término de la derecha corresponde a la fórmula 11,8. Figura 11-4. Teorema de Bayes. El evento A ocurre cuando los eventos Bk también pueden ocurrir con una probabilidad P(Bk Ejemplo explicativo 11–12 Considérese el diagrama de Venn de la figura 11-4. En el espacio muestral se observa cómo el evento A ocurre dentro de los diferentes subconjuntos. Por lo tanto, para conocer la probabilidad de que el evento A ocurra (la probabilidad total), necesitamos conocer cada una de las probabilidades en que dicho evento ocurre simultáneamente con los distintos eventos Bk del universo, los cuales son mutuamente excluyentes (B1, B2, B3, … Bk): B1B2 !B3 A!Bk A! = PB1 B2 ! PB3 A!PBk A! k k PBi= = i =1 PAiHPBi) i =1 © Editorial El manual moderno Fotocopiar sin autorización es un delito. Retomando los datos del primer renglón del cuadro 11-2, en el que 25 médicos fueron clasificados de acuerdo con su horario laboral, se determinó además que dos de los médicos que laboran en el turno vespertino (Vv) son médicos especialistas y 15 médicos del turno matutino (Vm) también tienen alguna especialidad. Cuál es la probabilidad de que el evento ME, encontrar un médico especialista, ocurra: i v m [ v!HPv!UWX m!HPm!U total de médicos especialistas y, por tanto, la probabilidad de observar o elegir a uno, (17/25) = 0.68. Teorema de Bayes Considérese ahora necesario, como ocurre dentro del estudio de la estadística, determinar la probabilidad condicional de observar un evento que forma parte de la partición del universo Bk, dado que, además, ocurre el evento A en el mismo espacio muestral (figura 11-4). Para este tipo de casos resulta útil la regla o el teorema de Bayes. La regla de Bayes dice que si son eventos mutuamente excluyentes B1, B2, B3, … Bk los que constituyen el universo S, la probabilidad de observar cada uno de los eventos es P(Bi) 0 y la probabilidad de observar un evento A en S es P(A) 0, entonces: P( B j | A) = P( B j A) ! P( A) en donde Bj corresponde al evento o caso de interés Bj =1,2,3…k. El último renglón debe leerse como la unión de dos eventos mutuamente excluyentes (turno matutino y vespertino), los cuales explican la probabilidad de encontrar simultáneamente un médico especialista en el horario en cuestión. El resultado numérico es el siguiente: '"@%!H%@"%!W%@"!H"@"%! '$H"!W?%HK! 'KW&'&K Cuadro 11-4. Probabilidad de encontrar un médico especialista de acuerdo con su horario laboral Conjunto ME La probabilidad de encontrar un médico que tenga alguna especialidad es de 68%. Cirujano Nótese que el mismo resultado de la probabilidad total obtenido en el ejemplo anterior se podría calcular utilizando el teorema de la probabilidad a priori, ya que conocemos el Ginecólogo Internista Turno vespertino Turno matutino 0.11 0.88 9 0 1 5 0.33 0.66 3 78 Bioestadística Haciendo uso de las fórmulas que ya conocemos, tenemos que: P( B j | A) = P( B j Usando la fórmula 11,12: A) k P ( Bi A) P( MEc P( MEc | Vv ) = i =1 = eventos simultáneos) dividido por la probabilidad de encontrar médicos especialistas por la tarde. P( MEi "! P(A | Bj) × P(Bj) Vv ) i =1 k P(A | Bi) × P(Bi) i =1 P( MEc | Vv ) = Ejemplo explicativo 11–13 P(Vv | MEc) × P(MEc) k i =1 Retomando los datos del ejemplo 11-12, en el que 17 de 25 médicos cuentan con alguna especialidad, y el cuadro 11-4, supóngase que llega un paciente a la sala de urgencias de un hospital. Cuál será la probabilidad de que el paciente sea atendido por un cirujano, dado que el paciente ingresó durante el turno vespertino: P(Vv | MEi) × P(MEi) En términos numéricos: P( MEc | Vv ) = = Usando la fórmula 11,11, tenemos: P( MEc | Vv ) = Vv ) k (0.11 × 0.53) (0.11 0.53) + (0 0.29) + (0.33 0.176) 0.058 0.116 = 0.5 P( MEc Vv ) P(Vv ) La fórmula anterior denota que la probabilidad de que el paciente sea atendido por un médico cirujano, dado que ingresó en el turno vespertino, es igual al valor de la probabilidad de encontrar un cirujano por la tarde (ambos Si conociéramos a priori el número de cirujanos e internistas que laboran durante la tarde en dicho hospital, podríamos comprobar que la probabilidad obtenida con el teorema de Bayes es correcta (1cirujano/2médicos especialistas turno vespertino = 0.5). Ejercicios a. ¿De qué tamaño es el grupo A B? b. ¿De qué tamaño es el grupo A B? Si del universo representado en el cuadro anterior seleccionamos un elemento al azar y todos tienen la misma oportunidad de ser elegidos, cuál es la probabilidad de seleccionar: Cuadro 11-5 Peso al nacer < 2500 g 2500 g Total Hipertensión arterial Sí 11 30 41 durante el embarazo No 146 813 956 Total 157 843 1000 Si A equivale a madre con hipertensión arterial durante el embarazo y B equivale a peso < 2500 g, c. Un recién nacido cuya madre tuvo hipertensión arterial durante el embarazo d. Alguien con peso 2500 g e. Alguien con peso 2500 g, dado que nació de una madre que tuvo hipertensión arterial durante el embarazo f. Alguien con peso < 2500 g, dado que nació de una madre que no tuvo hipertensión arterial durante el embarazo REFERENCIAS Daniel, W. W. (1988). Estadística con aplicaciones a las Ciencias Sociales y a la Educación. México: McGraw-Hill. Hilborn, R., & Mangel, M. (1997). The ecological detective. Confronting models with data. New Jersey: Princeton. Walpole, R. E. y Myers, R. H. (1992). Probabilidad y estadística (3a. ed.). México: McGraw-Hill. © Editorial El manual moderno Fotocopiar sin autorización es un delito. Observe en el cuadro 11-5 los datos de un grupo de recién nacidos. N xi N i =1 12 Distribuciones de probabilidad N y distribuciones ( xi μ ) 2 muestrales 2 = i =1 N con variables cuantitativas La distribución de probabilidad de una variable es una tabla, gráfica, fórmula o cualquier otro medio que se use para especificar todos los valores posibles de una variable aleatoria junto con sus probabilidades respectivas. A esta expresión de probabilidad, P(X = x), se le conoce como función de probabilidad y se representa mediante f(x) Yx!'Z y se identifica mediante F(x). y leerse como la suma de todas las © Editorial El manual moderno Fotocopiar sin autorización es un delito. i =1 probabilidades de los valores de x. Así. desde su i–ésimo valor i = 1 hasta el valor n. P(X = x) > 0 para todo valor de x.! "! Las dos características necesarias para una distribución de probabilidades son las siguientes: 1. la cual es igual a uno. Una función de distribución acumulada es aquella que expresa la probabilidad de que una variable asuma valores menores o iguales a x. para toda x P(X = x) = 1. podemos escribir: . 2. El segundo inciso anterior también podría expresarse n como P( X = xi ) = 1. si se desea saber cuál es la probabilidad de seleccionar de manera aleatoria algún sujeto que tenga una talla de 107 a 112 cm. se busca en el renglón correspondiente del cuadro (que para el caso es el primero) y en la columna de funciones de probabilidad. con la misma información que se presenta en el cuadro 12–1. < ""! De acuerdo con lo anterior. a por ejemplo. El cuadro 12–1 sirve como auxiliar para calcular algunas probabilidades. para calcular la probabilidad de que X sea menor o igual a un valor determinado. f(x). y se encuentra que P(x: en la que xx 0. xi i =1 N Ejemplo explicativo 12–1 Tómense los valores representados en el cuadro 6–12. por ejemplo. en el cual se muestra la distribución de tallas de un grupo de 100 niños recién nacidos. mientras que P(x: en la que x.3) x<a El cálculo de probabilidades acumuladas se facilita mediante el uso de tablas de distribución de probabilidad.02. se recurre a: F (a) = P( X a) = f ( x) = x<a P( X = x) (12. x . También se puede calcular la probabilidad de que un sujeto tenga un valor por arriba o por debajo de una talla específica. Por ejemplo. si se quiere saber cuál es la probabilidad de seleccionar aleatoriamente algún sujeto que tenga una . F(x). " grupo 131 a 136 y en la columna de función de probabilidades acumuladas. y se encuentra que P(x. Para ello. Por ejemplo. mientras que P(x#$ &'" es posible calcular la probabilidad de que un sujeto tenga una talla igual o mayor que un valor determinado. simplemente se realiza una resta de probabilidades.74. P(x. 0. En estadística. 79 .48. @P(x < 131) = 1 – 0. en la inferencia de los valores poblacionales o parámetros a partir de los valores muestrales o estadísticos. así como la distribución binomial y la distribución de Poisson para variables cualitativas. se utilizan frecuencias de probabilidad teóricas. tal como se muestran en la figura 12–1. que también pueden ayudar a calcular probabilidades. Con los datos del cuadro 12–1.52 = 0. es posible elaborar gráficos de función de probabilidad y de función de probabilidad acumulada. Las tres más utilizadas son la distribución normal para variables cuantitativas. 30 125 a 130 22 0.01 1.80 Bioestadística μ Cuadro 12-1. Cuando la variable es discreta.02 113 a 118 7 0.88 99. a la izquierda. Existe una distribución diferente para cada valor de y de .00 Intervalo de clase -3σ -2σ -1σ 0 1σ 2σ 3σ Figura 12-2. 10 60 40 20 5 0 104 110 116 122 128 134 140 146 152 158 164 0 104 110 116 122 128 134 140 146 152 158 164 A. Distribución de tallas de un grupo de 100 niños 50% Frecuencia absoluta f(x)A F(x)B 107 a 112 2 0.09 119 a 124 21 0. El área total que se encuentra por debajo de la curva de la campana y por encima del eje horizontal es igual a 1. B Función de probabilidad acumulada.22 0. A esta distribución se le conoce con el nombre de curva de distribución normal. Función de probabilidad B. El área comprendida entre dos desviaciones estándar es aproximadamente de 95% y el área comprendida entre tres desviaciones estándar.00 100 1. Curva de distribución normal. 3.7% 143 a 148 9 0.74 68% 95% 137 a 142 14 0. la distancia desde la media hasta la perpendicular es igual a la desviación estándar. 6. la media. CURVA NORMAL En la naturaleza es frecuente observar que datos graficados mediante un histograma forman una distribución cuyo perfil semeja una campana. Cuando en el eje horizontal trazamos una perpendicular.07 0. 2. 5. A Función de probabilidad.52 131 a 136 22 0. Función de probabilidad acumulada Figura 12-1. trazamos perpendiculares a la distancia de una desviación estándar de la media y medimos el área ubicada entre la curva. Representaciones gráficas de f(x) y F(x) a partir de la información del cuadro 12-1. 4.21 0.02 0.02 0.22 0. " # $ $' # " $ @Z \^Z 7.7% del área total.09 0. se puede utilizar el conocimiento teórico de la distribución normal para calcular la probabilidad de que esa variable tenga un valor determinado (también se puede 25 100 20 80 15 f(x) f(x) 1. encontraremos que es aproximadamente igual a 68% del área total.97 149 a 154 2 0. la cual se muestra en la figura 12–2.99 155 a 160 1 0. Algunas características importantes de la distribución normal son las siguientes: Cuando se sabe que una variable aleatoria tiene una distribución normal. la mediana y la moda son iguales. el eje horizontal y las perpendiculares. Su distribución es simétrica y la media la divide en dos partes iguales: 50% del área está a la derecha y 50%. © Editorial El manual moderno Fotocopiar sin autorización es un delito. de 99. a cada lado de la media. . que llegue hasta donde la curva cambia de cóncava a convexa. Si en el eje horizontal.14 0. Así. es posible saber que la probabilidad de seleccionar aleatoriamente algún sujeto con una talla menor de 120. El gráfico de normalidad (como el que se muestra en la figura 12-4) es más útil para evaluar una distribución normal. Se busca la celda que resulta de interceptar los valores 1. 130.61. z de 118.(0. Haciendo uso del conocimiento acerca del área que se encuentra por debajo de la curva (figura 12-2). 0.5 – 130. 4. se transforma la variable talla.5 + 0.94 en la población estudiada es igual al total del área que se encuentra por debajo de la curva 1 menos el área que comprende valores superiores a -1 desviación estándar. No obstante.61 en el cuerpo de la tabla. por ejemplo. 2. P<<! El interés puede residir. por ejemplo.5 – 130. que corresponde al área que existe entre la media y z = 1. ya que en el cuadro se encuentran sólo 13 de 100 sujetos con valores inferiores a 120.3944.5935 La distribución normal de una serie de datos puede ser evaluada de varias maneras.25 y z de 136.5 para este ejemplo. mediante la fórmula z= x μ "$! donde cualquier valor x de la variable X se transforma en un valor z de la variable normal estandarizada Z. Ejemplo explicativo 12–2 Tómense los datos del cuadro 6–12.00 indica que 120. para transformarla en la variable normal estandarizada.62 cm y su desviación estándar poblacional. 94 130.5 e inferior a 136. Para buscar el área por debajo de la curva que corresponde a estos valores z. su media poblacional. que adquiere la forma: z= x μ = 120. 00 9. © Editorial El manual moderno Fotocopiar sin autorización es un delito. sólo es necesario conocer la media poblacional.68.16. . Expresado en números.2291 = 0.25. Obsérvese que 1. es posible observar que el resultado no es el mismo. De manera semejante.62. . . con media poblacional de 130. Si se observa con detenimiento.3644 + 0.34) = 0. particularmente cuando la muestra es pequeña.94 en el cuadro 6–12.25 se busca 1. . Ya que la curva es simétrica.05 en el primer renglón. Para ellos. En él se muestran las tallas de un grupo de 100 niños recién nacidos. se dice que la probabilidad de seleccionar un sujeto con talla igual o menor de 120.5 y 136.05 = 1. mientras que otro se encuentra entre 0 y 1 desviaciones estándar.5 y 136.62 y varianza poblacional de 9. pero son semejantes a los negativos que únicamente difieren en el signo. Por tanto. Por último.Distribuciones de probabilidad y. 118. En la primera columna y primer renglón se busca el valor z deseado y en la celda formada por la intersección del renglón y la columna correspondientes se encontrará la proporción del área respectiva a la distancia entre la media y el valor z buscado.5. De manera semejante.61. 62 = 1.68. Para ello. De acuerdo con lo anterior.68 = –1.16 o 16% si se expresa como un porcentaje.5 es igual a 0. se recurre a la tabla de distribuciones normales o valores Z (anexo B). es 130. la probabilidad de seleccionar un sujeto con talla superior a 118. utilizar cuando la distribución que se estudia tiene forma de montículo). con media 0 y desviación estándar 1. Si se compara este resultado con el que se puede obtener al contar cuántos individuos tienen una talla menor de 120. Para ello. se puede calcular la probabilidad de que un sujeto tenga una talla ubicada entre dos valores. lo que corresponde al área por arriba de la media. de la población. por medio de la fórmula 12. es 9. primero se calcula el valor z para cada uno de los límites que se han definido.68 = 0.01 indica que es igual a 0. P<! c) igual o mayor que un valor e igual o menor que otro valor. que corresponda en el cuadro de la curva normal.94 es 0.94 cm se encuentra a -1 desviación estándar de la media.62)/9. para el valor z –1. A continuación se busca qué área de la curva normal corresponde a valores inferiores a –1. en la variable normal estandarizada. se tiene que la probabilidad de 81 seleccionar un sujeto con talla igual o menor de 120. P>! b) igual o menor que un valor. 68 en la que z = –1. se busca z = 0. según lo muestra la figura 12–1A. Los espacios de valores pueden definirse como: a) igual o mayor que un valor. Para hacerlo.94 cm.34. y la desviación estándar poblacional. Para conocer la probabilidad buscada. 0.5 es igual a (136. la variable se mide sin error y su distribución se aproxima a la curva normal teórica. Éste es un gráfico especial que presenta las observaciones atendiendo a dos criterios: los valores absolutos ordenados y su posición esperada en la distribución normal. 1. p.25 y superiores a 0. sólo se proporcionan valores positivos. en conocer la probabilidad de seleccionar en forma aleatoria a un sujeto que tenga una talla igual o menor de 120.2 en la primera columna y 0. Un histograma puede darnos una idea general de la distribución.2291. 118. Estos datos.2 y 0.94 es igual a 1 . . . el resultado es una buena aproximación y ésta mejora a medida que el universo es mayor. . tienen una distribución que se aproxima a la distribución normal. se puede calcular la probabilidad de que un sujeto seleccionado de manera aleatoria de este grupo tenga una talla que se incluya entre dos valores. donde la intersección de 0.5.25.6 y 0.05 en el cuerpo de la tabla y se encuentra el valor 0. sólo hay que encontrar el valor de la probabilidad.94. ya que uno se encuentra entre –1 y –2. ninguno de los dos valores z corresponde a los que se han manejado en la figura 12-2. z.62)/9. más el área que se encuentra entre -1 desviación estándar y la media. z. Así. La interpretación se facilita cuando al gráfico se le sobrepone una curva de distribución normal (como en la figura 12-3). que tiene una media de 0 y desviación estándar de 1.5 es igual a (118.2 + 0. se deben consultar los textos especializados en teoría del muestreo que dedican más espacio y profundidad a este tema. 3. las observaciones (en círculos) forman una línea recta.00 Talla DISTRIBUCIONES MUESTRALES Cuando la distribución es normal. Cuando la población es muy grande. Dos estadísticos que describen la distribución de las observaciones son los de simetría (skewness) y de altura o curtosis (kurtosis). Su media. Las distribuciones muestrales que se presentan en este libro corresponden al muestreo aleatorio simple. Su desviación estándar.00 150.00 140. Para construir una distribución muestral se procede como sigue: 1. Para otros procedimientos de selección de la muestra. Epi Info no elabora el gráfico de normalidad. Sólo tiene que elaborarse una gráfica de correlación. es posible calcular la probabilidad de obtener un resultado (media. 150 160 Así. De una población finita. pero no es difícil hacerlo. o cuando es infinita.00 130. 2. dados por la fórmula 12 Pi = i 3/8 100 n + 1/ 4 "%! donde Pi es el índice de normalidad que corresponde a la posición i-ésima después de que los valores de la variable fueron ordenados de manera descendente. Figura 12-3. Por último. 3. la frecuencia correspondiente de la ocurrencia de cada uno de estos valores. en otra columna. Se enumeran en una columna los diferentes valores observados del estadístico y. 8 4 0 110. Para facilitar su interpretación. 4. Histograma y curva de distribución normal. proporción) particular en una muestra. de tamaño N. o dispersión de XY. discreta. Al estudiar una distribución muestral se tiene interés en describir una o más de las siguientes características: Valores normales esperados 3 2 1 1. Se calcula el estadístico de interés para cada muestra. 2. que está dado por los valores observados ordenados de modo ascendente. 3. y el de las ordenadas Una distribución muestral es una distribución de probabilidad que se construye con los estadísticos muestrales calculados a partir de las muestras de tamaño n obtenidas de una población. © Editorial El manual moderno Fotocopiar sin autorización es un delito. . Gráfico de Normalidad Q-Q .00 120. cuando los parámetros son conocidos. se tiene que concebir una distribución muestral teórica mediante la extracción de un gran número de muestras aleatorias. donde el eje de las abscisas (X). Su forma general (representada mediante una gráfica). 0 -1 -2 -3 100 110 120 130 140 Valores observados en talla Figura 12-4. logrando con ello buenas aproximaciones de las distribuciones muestrales verdaderas. Las distribuciones muestrales pueden construirse empíricamente cuando se obtienen de una población finita y discreta. la distribución normal de una serie también puede ser evaluada mediante pruebas de hipótesis: la W de Shapiro-Wilk. la W’ de Shapiro-Francia y la prueba de normalidad de Kolmogorov-Smirnov. se extraen todas las muestras posibles de tamaño n. los programas de cómputo que ofrecen este gráfico muestran el trazo de la línea recta por donde deberían encontrarse las observaciones.Bioestadística 82 (Y) son los índices correspondientes de la normalidad. 00 1 0. que se obtienen de un conjunto formado por los elementos 1.Distribuciones de probabilidad y.2 Cuadro 12-2. de 0. 3.00 5 0.0 3.5 3.1360 cuando n = 4. ya que cinco muestras diferentes lo proporcionan.04 1. 4 o más elementos.0 Probalidad © Editorial El manual moderno Fotocopiar sin autorización es un delito.0 4. mientras que la probabilidad de que la media sea 3. es 1.5 3.50 4 0.15 0.5 5. 4. .5 2.12 4.04 25 Si aumenta el tamaño de la muestra de 2 a 3.12 2. es 3 y su desviación estándar poblacional. En él se puede ver que. o a 5.00 3 0. Muestras de tamaño n = 2 y sus medias. x frecuencia probabilidad 1. cuya media poblacional.0 2.16 4. Al hacer esto.0 2 1. al obtener una media a través del muestreo con reemplazo de dos elementos del universo 1. 2.414. Estudiando cuadro y gráfica es posible observar que las medias muestrales con mayor probabilidad de seleccionarse a partir de una muestra de tamaño 2 son las más próximas a la media poblacional.5 2. .20 3. es posible obtener valores que son iguales a 1. el número de muestras posibles aumenta y con ello el de valores posibles que la media puede alcanzar.5 3.08 2.0 4. Distribución de frecuencias del conjunto de medias obtenidas de muestras de tamaño n = 2 a partir de un conjunto formado por los elementos 1. la figura del histograma se modifica. Es posible recurrir a las distribuciones anteriores para calcular la probabilidad de que mediante una muestra cualquiera se obtenga un valor de la media determinado. Obsérvese el cuadro 12-2. y 5. de 0. 3. En cada una de estas muestras se puede calcular la media.152 cuando n = 3 y de 0. 0. 2. se selecciona una de entre muchas muestras posibles.50 2 0.5 4.5 5 3.16 3. . la probabilidad de obtener una muestra con valor 3. 4 y 5. se selecciona una muestra y a partir de ella se estiman los parámetros de la población de interés. 3. la probabilidad de que se obtenga una media igual a 1 es de 0. a partir de los datos del mismo cuadro. Distribución de frecuencias del conjunto de medias obtenidas de muestras de tamaño n = 2 a partir de un conjunto formado por los elementos 1. Se puede. Así.0 3.0 es de 0. supóngase que se pretende estudiar una población de cinco elementos que tienen los valores 1. 4 y 5. En ellos. 3. 83 0.25 0.50 4 0. 2. pierde su perfil triangular y empieza a asemejarse a una «Campana de Gauss».5 3. El cuadro 12–2 lo expresa. 2.1 0. 3.0 2. 2. sería posible obtener 25 muestras diferentes. 4 y 5 FORMA GENERAL. También cambia la probabilidad de obtener cada uno de ellos.0 3. Igualmente.0 2.20 cuando n = 2. cada una de las cuales puede tener un valor diferente del parámetro a estimar. Sin embargo.00 3 0. . Cuadro 12-3. MEDIA Y DESVIACIÓN TÍPICA DE UNA DISTRIBUCIÓN DE FRECUENCIAS Siempre que el interés resida en estudiar una población en particular y no se le pueda estudiar en su totalidad. elaborar una tabla de distribución de probabilidad.05 0 0 1 2 3 4 Valor de la Media 5 6 Figura 12-5. se observan algunos cambios tal como se presenta en los cuadros 12–4 y 12–5 y en las figuras 12–6 y 12–7.0 1.5 3 2.5 4.0 es mayor que la de obtener cualquier valor extremo.0 (sujeto 5 en la primera extracción y sujeto 5 en la segunda extracción).00 1 0.50 2 0. . Así pues: ¿Qué hace pensar que una muestra cualquiera permita calcular un valor que sea un buen estimador del parámetro de interés? Para responder a la pregunta anterior. tal como se muestra en el cuadro 12–3.08 5.0016 cuando n = 4. 4 y 5 1 2 3 4 5 1 1.0 3.5 4.008 cuando n = 3 y de 0.0 4 2.04 cuando n = 2. La representación gráfica de la información del cuadro 12–3 se muestra en la figura 12–5. Si de este conjunto se tomaran muestras con reemplazo de dos elementos cada una.0 (sujeto 1 en la primera extracción y sujeto 1 en la segunda extracción). 2.75 4 0.25 0. 3. 4 y 5.0832 4.. con base en el conocimiento de la distribución normal.1360 3. 3.33 6 0. 84 . la media de la distribución muestral de x es igual a la media de la población original y la varianza de la distribución 0. 2..75 52 0.080 4.67 3 0. 2.1280 3.67 6 0.00 1 0.0160 1. Dado que las medias muestrales se distribuyen normalmente.0832 2.1280 3.05 0 0 1 2 3 4 Valor de la Media 5 6 Figura 12-7.120 2.144 3.0560 4. 4 y 5 x 0.15 0.00 85 0.1088 3. 3.75 80 0. © Editorial El manual moderno Fotocopiar sin autorización es un delito.0320 2..25 4 0.Distribución de frecuencias del conjunto de medias obtenidas de muestras de tamaño n = 4 a partir de un conjunto formado por los elementos 1.50 68 0.0064 5.008 5.67 15 0.080 0 2.2 x frecuencia probabilidad 1.15 0.50 10 0. 4 y 5 Probalidad 0.2 Probalidad frecuencia 0. Para ello.1 0 Cuadro 12-5.25 52 0.1088 2.0016 625 1 2 3 4 Valor de la Media 5 6 Figura 12-6. sólo se necesita conocer la media y la desviación estándar de cada distribución.33 15 0.Distribución de frecuencias del conjunto de medias obtenidas de muestras de tamaño n = 4 a partir de un conjunto formado por los elementos 1.Distribución de frecuencias del conjunto de medias obtenidas de muestras de tamaño n = 3 a partir de un conjunto formado por los elementos 1. LA MEDIA Y LA VARIANZA DE MEDIAS MUESTRALES Cuando el muestreo se hace con reemplazo en una población finita.25 80 0.25 20 0.048 4.008 1.00 125 probabilidad 1.33 18 0.00 1 0.0016 1.Bioestadística 0.048 0. Distribución de frecuencias del conjunto de medias obtenidas de muestras de tamaño n = 3 a partir de un conjunto formado por los elementos 1.0160 4.75 20 0.152 3.0320 4.50 68 0.120 4.33 3 0.00 35 0. se puede calcular la probabilidad de que por azar se obtenga un valor determinado al seleccionar una media cualquiera.1 0.00 10 0.05 2.144 3. 3.25 Cuadro 12-4.024 1 0.00 19 0.67 18 0. las cuales se muestran en el cuadro 12–6.00 1 0.00 35 0.00 10 0.024 1.0064 1. 2.0560 2. 4 y 5.50 10 0. 7 40 Para calcular la probabilidad de que en la muestra """ 5. que se escribe generalmente como "K! n se le denomina error estándar o típico de la media. con una desviación estándar de 2. .7 mm. El resultado se interpreta de la siguiente manera: si en el grupo estudiado (escuela A) la media poblacional del grosor del pliegue cutáneo fuera igual a 5. Posteriormente.70 es igual a 0. 2. 2. Indistintamente de la forma que tenga la población. Después de estudiar una muestra de 40 elementos seleccionados aleatoriamente. Es decir: μx = μ 85 FORMA FUNCIONAL DE LA DISTRIBUCIÓN DE MEDIAS MUESTRALES Se sabe que la forma funcional de una distribución de muestras es normal cuando se cumple una de dos condiciones: 1.932 3 3 0.7.n)/ (N . la media de la distribución de las medias muestrales es igual a la media de la población y la varianza x2 es igual a: 2 2 x = n N n N 1 "Q! El factor (N – n)/(N – 1) se denomina factor de corrección de población finita (CPF). Un investigador en nutrición está interesado en realizar una investigación sobre crecimiento y desarrollo de niños varones de 5 años de edad en dos escuelas (grupos A y B).2580 = 0. Si el muestreo se hace sin reemplazo en una población finita. Como el interés es conocer el área que se encuentra a la izquierda de ese punto. Supóngase que el grosor del pliegue cutáneo subescapular en niños de 5 años de edad tiene una media de 5.3 = 0.0 mm. primero se revisa la figura 12–2 y se visualiza el área debajo de la curva que interesa. se consulta la tabla de distribución normal en el anexo B y se busca el valor de z calculado con anterioridad.5 – 0. "&! Ejemplo explicativo 12–3 y 2 2 x = "?! n A la raíz cuadrada de 2/n. Cuadro 12-6. no resulta importante la forma que la distribución de la variable de interés (grosor del pliegue subescapular) tiene en la población en estudio.2420. n. = 5.Distribuciones de probabilidad y. 3. la distribución es normal cuando el tamaño de la muestra.0. x μ n muestral es igual a la varianza de la población dividida por el tamaño de la muestra. entonces el valor de z se obtendría aplicando la fórmula 12. así: 0. encuentra que la media del grosor del pliegue cutáneo subescapular en el grupo A es de 5. La aplicación más sencilla que se da al conocimiento de la distribución de la media de la muestra es para calcular la probabilidad de obtener una muestra con una media de alguna magnitud específica.816 4 3 0. . Cuando la muestra n es igual o menor de 5% de N. Medias y desviaciones estándar obtenidas de muestras de tamaño 2. entonces se resta a 0.5 el valor de la tabla.2580.3 mm. .0 5. 3 y 4 a partir del conjunto formado por los elementos 1. En la tabla puede verse que el área que se encuentra desde la media de la distribución normal hasta el valor –0. 4 y 5 n μ 2 3 0. La población de la que se obtienen las medias muestrales está distribuida normalmente. entonces la probabilidad de seleccionar de manera aleatoria una muestra con una media muestral igual a 5. Para el caso de este ejemplo se encuentra a la izquierda de la media o valor cero de la distribución normal. Dado que el tamaño de la muestra es superior a 30. es grande (Teorema del límite central). El investigador desea saber cuál es la probabilidad de hallar un resultado igual o menor que el encontrado.3 mm y una desviación estándar de 2.10 y sería igual a: z= x μ n © Editorial El manual moderno Fotocopiar sin autorización es un delito. la diferencia entre 2/n y (2/n) (N . Si el muestreo se hubiera realizado con reemplazo.703 2.2420.707 Por tanto: z= "! donde la x muestral está distribuida normalmente con media 0 y varianza 1 cuando n es igual o mayor de 30 o n ha sido obtenida de una población distribuida normalmente.0 mm o menor es 0. Generalmente se considera que este criterio se cumple cuando la muestra es igual o mayor de 30 elementos. Esta área se muestra sombreada en la figura 12–8.1) es despreciable. 0 mm.86 Bioestadística μ -0. el investigador encuentra en una muestra de 40 elementos seleccionados aleatoriamente que la media del grosor del pliegue cutáneo subescapular en el grupo B es de 6.0.12) La forma funcional de la distribución muestral de x1 – x2 también está determinada por la forma funcional de las poblaciones o por el tamaño de las muestras.0 = –1. que el grosor del pliegue cutáneo subescapular en niños de 5 años de edad tiene. Esta área se muestra sombreada en la figura 12–9. como en el ejemplo anterior. Supóngase. Área de interés para el ejercicio del ejemplo (μ 1 + μ2 ) 2 2 (12.15) n2 para calcular la probabilidad de encontrar por azar una diferencia muestral particular cuando se estudian dos poblaciones. Para el caso de este ejemplo se encuentra a la izquierda de la media o valor cero de la distribución normal. Como la distribución muestral de la diferencia entre dos medias muestrales x1 – x2 tiene una media igual a μx 1 x2 = μ1 μ 2 (12.11) DISTRIBUCIÓN DE LA DIFERENCIA ENTRE DOS MEDIAS MUESTRALES Cuando estamos interesados en concluir que dos medias poblacionales no son iguales.0 y –.3 mm y una desviación estándar de 2.7 mm.7 2 2.4515. Ahora. A la diferencia de dos medias poblacionales la representamos con la fórmula 1 – 2 (12. = 166 Para calcular la probabilidad de que la diferencia entre dos muestras estudiadas sea igual o menor que -1. o nos interesa identificar la magnitud y dirección de cualquier diferencia. una media de 5. no resulta importante la forma que la distribución de la variable de interés (grosor del pliegue subescapular) tiene en la población en estudio Si el muestreo se hubiera realizado con reemplazo.3) 2. entonces 2 n μ N n N 1 (12. primero se revisa la figura 12–2 y se visualiza el área debajo de la curva de interés. o si n1 y n2 son grandes (n > 30) sin importar la forma funcional de la distribución de las poblaciones. Ejemplo explicativo 12–4 explicativo 12–3.0 6.14) z= (xA xB ) ( μ A 2 A n1 + 2 B n2 μB) = (5. para ambos grupos. Cuando el muestreo se hace sin reemplazo.3 5. Posteriormente.72 + 40 40 . se consulta la tabla de distribución normal en el anexo B y se busca el valor de z calculado con anterioridad.0) (5.66 es igual a 0.15 y sería igual a: .13) y una varianza igual a 2 x1 x2 = 2 1 n1 + 2 2 n2 (12. entonces el estadístico más importante es la diferencia que existe entre dos medias muestrales. x z= Continuando con el trabajo descrito en el ejemplo explicativo anterior. entonces el valor de z se obtendría aplicando la fórmula 12. Dado que el tamaño de la muestra (grupo B) sigue siendo superior a 30. El investigador se da cuenta de que la diferencia en grosor del pliegue cutáneo subescapular entre el grupo A y el grupo B es igual a 5.70 se puede utilizar la fórmula 50% ( x1 z= x2 ) 2 1 n1 -3σ -2σ -1σ 0 1σ 2σ 3σ Figura 12-8. Como el interés es conocer el © Editorial El manual moderno Fotocopiar sin autorización es un delito. Es decir.0 mm de grosor del pliegue. el investigador quiere saber cuál es la probabilidad de encontrar que el resultado de la diferencia entre las medias de dos muestras sea igual o menor que el encontrado. que el resultado de la resta del promedio del pliegue cutáneo subescapular en el grupo “A” menos el promedio del pliegue cutáneo subescapular en el grupo “B” sea un valor entre –1.0 – 6. La distribución muestral de x1 – x2 será normal si ambas poblaciones están distribuidas normalmente. En la tabla se puede observar que el área que se encuentra desde la media de la distribución normal hasta el valor -1. con una desviación estándar de 2. entonces se resta a 0. b) es mayor que 0.pdf . Suponga que después de estudiar dos grupos.3 mm. Cuadro 12-7 Grupo x n A 3150 50 B 3050 100 a.com/mbe/investiga/distr_normal/distr_normal2.5.66 -3σ -2σ -1σ 0 1σ 2σ 3σ Figura 12-9. (1988). P[z < 0. sea un valor entre –1.5 el valor de la tabla. P[z > -0. P[z > 2.0 y – es igual a 0.Distribuciones de probabilidad y. S.5 b. London: Chapman and Hall. “A” y “B”.77]: a) es igual o menor que 0. . b) es mayor que 0. El resultado se interpreta de la siguiente manera: si en los grupos estudiados (escuelas A y B) la media poblacional del grosor del pliegue cutáneo fuera igual a 5. ¿Cuál es la probabilidad de seleccionar a alguien con peso ? b. ¿Cuál es la probabilidad de seleccionar una muestra aleatoria con reemplazo de tamaño 100 que tenga una media 3110 g? h.5 c. 8. Estadística con aplicaciones a las Ciencias Sociales y a la Educación. ¿Cuál es la probabilidad de seleccionar una muestra aleatoria con reemplazo de tamaño 30 que tenga una media 3110 g? g. área que se encuentra a la izquierda de ese punto. Mediante el uso de la distribución normal. (2001).5.66]: a) es igual o menor que 0. . Asuma que la variable peso se distribuye normalmente con media de 3000 g y desviación estándar de 500 g. México: McGraw-Hill. b) es mayor que 0. W. Practical statistics for medical research. Daniel. 87 μ 50% -1.5 Ejercicio 2 © Editorial El manual moderno Fotocopiar sin autorización es un delito.54]: a) es igual o menor que 0.5 d. y Pita-Fernández.0485. ¿Cuál es la probabilidad de seleccionar a alguien con peso < 2000 g? c. entonces la probabilidad de seleccionar de manera aleatoria dos muestras cuya diferencia. encontramos los resultados que se muestran en el cuadro 12-7. pero las respuestas pueden ser muy diferentes: f. 268-274. ¿Cuál es la probabilidad de seleccionar una muestra aleatoria con reemplazo de tamaño 100 que tenga una media 2925 g o 3080 g? Ejercicio 3 Asuma que la variable peso entre los recién nacidos se distribuye normalmente con media poblacional de 3000 g y desviación estándar poblacional de 500 g. Pértegas-Díaz. ¿Cuál es la probabilidad de seleccionar una muestra aleatoria con reemplazo de tamaño 100 que tenga una media 2950 g y 3050 g? i.5. así: 0. S.4515 = 0. Cad Aten Primaria. ¿Cuál es la probabilidad de seleccionar a alguien con peso > 2500 g y peso < 3500 g? e. G. D. ¿Cuál es la probabilidad de haber obtenido una diferencia absoluta igual o mayor de 200 g? REFERENCIAS Altman. ¿Cuál es la probabilidad de haber obtenido una diferencia absoluta igual o mayor de la que se aprecia en el cuadro 12-7? b. Recuperado de http://www. P[z < 2.5 – 0. (1991). Indique la respuesta correcta a las siguientes preguntas: a. ¿Cuál es la probabilidad de seleccionar a alguien con peso < 2200 g o peso > 3250 g? Cuidado: Las siguientes preguntas se parecen a las anteriores.0485. diga: a. Área de interés para el ejercicio del ejemplo explicativo 12-4. Ejercicios Ejercicio 1 El valor ‘Z’ tiene una distribución normal con media poblacional 0 y desviación estándar poblacional 1. resultado de la resta del promedio del pliegue cutáneo subescapular en el grupo “A” menos el promedio del pliegue cutáneo subescapular en el grupo “B”. W. ¿Cuál es la probabilidad de seleccionar a alguien con peso < 3500 g? d. b) es mayor que 0. La distribución normal.5.7. fisterra.72]: a) es igual o menor que 0. . Cuando se está ante situaciones semejantes. podría existir interés en saber la probabilidad de que el próximo paciente que se presente a consulta sea un diabético o no (éxito o fracaso. respectivamente. p) se lee como “la probabilidad de que X sea igual a x.0. El uso adecuado de la distribución binomial (y del ensayo de Bernoulli) depende de respetar el siguiente supuesto: los n ensayos del experimento son tomados de un número infinito de ensayos posibles. estas observaciones son muy frecuentes. y en ellos se identifica a uno de los resultados como éxito (E) y al otro como fracaso (F).67 = 0. Si muestreamos con reemplazo una población.5. Por lo general. por lo que se han preparado tablas de probabilidad binomial (anexo C). que es muy útil cuando el número de observaciones es muy grande. se carga a la derecha del centro. En éstos. En el campo de las ciencias de la salud. 2. En otras palabras: un resultado binomial.N xi N i =1 13 Distribuciones de probabilidad N y distribuciones ( xi μ ) 2 muestrales con 2 i =1 = variables cualitativas N DISTRIBUCIÓN BINOMIAL © Editorial El manual moderno Fotocopiar sin autorización es un delito. . 40% de la población adulta ha sido vacunada contra viruela.430. una pregunta que se puede contestar por medio de la distribución binomial. la probabilidad del éxito permanece constante para todos los intentos y cada intento es independiente del otro. para el ejercicio de observación). a n y p se les conoce como parámetros de la distribución y definen una distribución diferente de probabilidad para cada número de éxitos. se carga a la izquierda.. o que utilice o no el cinturón de seguridad al viajar en automóvil (éxito o fracaso para el ejercicio de observación). pero para el cálculo de estas probabilidades también se pueden utilizar tablas de distribución binomial y una fórmula de aproximación a la normal.1 requiere mucho trabajo cuando n es grande. Sólo se necesita una tabla con los valores de n. Pero frecuentemente estudiamos poblaciones finitas y el muestreo se realiza sin reemplazo. su distribución es simétrica. pues. x. A estos ensayos se les denomina de Bernoulli. el símbolo p representa la probabilidad de que ocurra un éxito en el ensayo.4 y x = 3.1) en la que X se lee “número de éxitos” y los valores de X pueden ser 0.5. En ocasiones estamos interesados en una variable que sólo tiene dos resultados mutuamente excluyentes.2150. cuando es mayor de 0. Por ejemplo. Ejemplo explicativo 13–1 Supóngase que en un área geográfica determinada. El cálculo de probabilidades binomiales mediante la ecuación 13. ¿Qué probabilidad hay de que tres de ellos hayan recibido la vacuna? Se supone que el tamaño de la población es grande en relación con el tamaño de la muestra.5. esta ecuación es un poco difícil de realizar por la gran cantidad de cálculos que requiere.215 3! (10 – 3)! Por tanto. en la cual n = 10. De esta población se saca una muestra aleatoria de 10 adultos. 10! P(X = 3 10. podemos utilizar la distribución binomial cuando el tamaño de la muestra es pequeño en relación con el tamaño de la población y p no tiene un valor demasiado cercano a 0 o a 1. xi i =1 N Su forma funcional depende de p: cuando es igual a 0.4) = 0. mientras que q = (1 – p) representa la probabilidad de que ocurra un fracaso. el componente P(X = x|n. En estos casos. En la distribución binomial. p = 0. En la ecuación. Se tiene. 1.. n. la probabilidad de que haya tres personas vacunadas contra viruela entre 10 adultos escogidos al azar en una población grande en la que 40% ha sido vacunado es de 0. 3. p y x para obtener la probabilidad.. 89 . puede expresarse la probabilidad de que ocurran exactamente x éxitos en n ensayos de Bernoulli mediante la expresión P(X = x n. y cuando es menor de 0. dado el número de intentos n y la probabilidad de éxito p en un intento determinado”. p) = n! pxqn-x = x! (n – x)! n x pxqn-x (13. En la intersección de estas referencias se encuentra el valor 0.9. se busca la columna p = 0. o si la población de la que se extrae la muestra es infinita. Cuando consideramos la aproximación a la normal de la distribución binomial y si el muestreo se realiza con reemplazo. P(X = 3 10.9. y se convierten los valores de la variable original en valores de z para hallar las probabilidades que presenten interés. n/N es igual o menor de 0.34 de la población.1 y menor de 0.66) 25 en la que P[z . Para encontrar los correspondientes a probabilidades superiores.1 y menor de 0. Para utilizar la aproximación normal. que es el mismo del ejemplo explicativo anterior. En beneficio del espacio utilizado para la presentación de los valores binomiales.61 y p es mayor de 0.47 = 0. se puede utilizar la aproximación a la normal de la distribución binomial mediante la siguiente fórmula z= x – np = pqn 14 – 25 (0. se hace que = pn. Una regla práctica que se sigue con frecuencia establece que la aproximación normal de la binomial es apropiada cuando el producto PQn es igual o mayor de 5 y p es mayor de 0.40 y el renglón x = 3. en la cual 14 o más elementos tengan una característica que posee el 0.66 × 25 = 5. Para estos datos. Una vez en ella.90 Bioestadística Ejemplo explicativo 13–2 El resultado obtenido en el ejemplo explicativo 13–1 también puede conseguirse mediante los valores binomiales tabulados en el anexo C.0.215.32 0.630. se busca la intersección de la columna 1 – p y el renglón x = n – x.34 (0.34) = 2.6) = 10! 0. De esta manera. Para ello. el investigador toma una muestra de alguna población grande con la intención de inferir la proporción poblacional.2) Ejemplo explicativo 13–3. p.05. las tablas sólo presentan valores iguales o menores de 0. ya que pqn = 0. que tiene una distribución semejante a la distribución binomial y aproximadamente normal si PQn es igual o mayor de 5. Ejemplo explicativo 13–4 Supóngase que se tiene interés en conocer la probabilidad de seleccionar una muestra de tamaño = 25. Distribución de una proporción muestral Normalmente. cuando n es grande y p no está demasiado cerca de 0 o de 1.042 3! (10 – 3)! La distribución normal proporciona una buena aproximación de la distribución binomial. el interés se centra en la proporción muestral. se consulta la tabla n = 10 de dicho anexo. entonces la media de la distribución muestral será igual a μp = P (13.34 × 0.50. pues la elaboración de la fórmula 13.1: . En la intersección de estas referencias se encuentra el valor 0. en una muestra pequeña o a partir de un universo infinito.7) Después de conocer z. © Editorial El manual moderno Fotocopiar sin autorización es un delito.042. Tómese el ejemplo 13–1. necesitamos convertir el valor de z mediante z= p–P PQ n (13. y muy útil cuando n es grande. ` |"~" al que se calcula a partir de la distribución binomial (que es 0. sólo resta utilizar la tabla para hallar la probabilidad deseada. Sólo faltaría buscar el renglón x.1 o el uso de las tablas del anexo C).60 = 0. que corresponden a las probabilidades de la población. pero hágase que p sea 0.6) Si el muestreo se realizó sin reemplazo y la muestra es grande en relación con el universo.60.05.3) donde Q = 1 – P.40. y la varianza 2 p será igual a PQ σp2 = n (13. Si el muestreo se hace sin reemplazo en una población finita y n/N es mayor a 0.4) y σp2 = N–n N–1 PQ n (13. Cuando el muestreo se realiza con reemplazo. que tendría que ser el de n – x = 10 – 3 = 7. primero calculamos el valor de z.02 mediante la aplicación de la fórmula 13.5) Para calcular la probabilidad de obtener un resultado particular. Manténganse los valores de n = 10 y x = 3. calculamos z mediante z= p–P PQ n N–n N–1 (13.60. el cual es el mismo que el calculado mediante la fórmula 13. por lo que se sustituye por la columna 1 – p = 1 – 0.1 se torna casi imposible y no existen tablas que puedan ser consultadas. en el anexo C no se encuentra la columna p = 0. pero sí es una buena aproximación. entonces μp = P (13. Como se puede observar. también después de estudiar 208 alumnos. 2σ 3σ . mientras que en la escuela “B”. Ejemplo explicativo 13–6 Supóngase que el mismo investigador del ejemplo explicativo anterior encuentra. la proporción que corresponde al grosor del pliegue cutáneo subescapular en niños de cinco años.20 o superior es 0. entonces la probabilidad de seleccionar de manera aleatoria una muestra en que esa proporción sea de 0. Como el interés reside en conocer el área que se encuentra a la derecha de ese punto. z= p–P PQ n1 = 0. entonces se resta a 0.85) 200 Cuando el interés es demostrar que dos proporciones poblacionales son diferentes. que la proporción de sujetos cuyo grosor del pliegue subescapular es de 8 mm o más es 0.04 μ 50% -1. En la tabla se puede observar que el área que se encuentra desde la media de la distribución normal hasta el valor 1. y en qué dirección y con qué magnitud se da esa diferencia. Ahora.15 (0. igual o mayor de 8.6 y sería © Editorial El manual moderno Fotocopiar sin autorización es un delito. p1 – p2.20.0 mm. Supóngase que la proporción poblacional de niños de 5 años cuyo grosor del pliegue cutáneo subescapular es de 8 mm o más es 0. entonces el valor de z se obtendría aplicando la fórmula 13. Distribución de la diferencia entre dos proporciones muestrales Ejemplo explicativo 13–5 Supóngase que un investigador encuentra en una muestra de 200 elementos. Esta distribución muestral tiene una media μp 1 – p2 = P1 – P2 σp2 1 con un valor z – p2 = P1Q1 P2Q2 n1 + n2 (13. que en la escuela “A” el grosor del pliegue cutáneo subescapular en niños de cinco años.8) y una varianza Para calcular la probabilidad de que la proporción de sujetos cuyo grosor del pliegue cutáneo subescapular sea igual o mayor de 0. El resultado se interpreta de la siguiente manera: si en el grupo estudiado la proporción poblacional del grosor del pliegue cutáneo igual o mayor de 8 mm fuera de 0.15 0. el investigador quiere saber cuál es la probabilidad de una proporción igual o mayor que la encontrada.5 – 0. Dado PQn """" la normal de la distribución binomial. se consulta la tabla de distribución normal en el anexo B y se busca el valor de z calculado con anterioridad. P1 – P2.20 – 0.10) Si n1 y n2 son grandes.98 -2σ (13.5 el valor de la tabla.16.0239. así: 0.9) = 1. Suponiendo que en esos dos universos (escuela “A” y escuela “B”) la proporción de interés (proporción que corresponde al grosor del pliegue cutáneo subescapular en niños de cinco años.4761.Distribuciones de probabilidad y. es apenas de 0.14 1. la distribución muestral de p1 – p2 se aproxima a una distribución normal.0 mm) es la misma. seleccionados aleatoriamente en el grupo “A”. ¿cuál sería la probabilidad de que se encontrara por azar una diferencia igual o mayor de 0. después de estudiar 208 alumnos.4761 = 0.15. Para el caso de este ejemplo (la probabilidad de que el valor sea mayor o igual). igual o mayor de 8. Si el muestreo se hubiera realizado con reemplazo. el área se encuentra a la derecha de la media o valor cero de la distribución normal. -3σ 91 -1σ 0 1σ Figura 13-1.20 del alumnado. entonces el estadístico que nos interesa es la diferencia que existe entre dos proporciones muestrales.20. primero se revisa la figura 13–1 y se visualiza el área de interés debajo de la curva. igual o mayor de 8.98 es igual a 0.98 z= (p1 – p2) – (P1 – P2) P1Q1 n1 + P2Q2 n2 (13. se encuentra en 0. Esta área se muestra sombreada en la figura 13–1. Posteriormente.15.0 mm. .0239. Área de interés para el ejercicio del ejemplo explicativo 13-5. . 04 = 1.14. Para poder hacer uso eficiente de esta distribución. μ 50% 1. Sólo falta sumar la proporción de esta superficie a la del otro extremo (que para este ejemplo es la misma) y obtenemos 0. Interpretamos el resultado de la siguiente manera: si en los grupos estudiados (escuelas A y B) la proporción poblacional del grosor del pliegue cutáneo igual o mayor de 8 mm fuera la misma (0. 2σ 3σ © Editorial El manual moderno Fotocopiar sin autorización es un delito.14 -3σ -2σ -1σ (13.15 (0. Esta distribución también se puede utilizar cuando el evento de interés se distribuye en un espacio. es necesario que se cumplan cuatro supuestos. entonces el valor de z se obtendría aplicando la fórmula 13.7183. que en conjunto se conocen como proceso de Poisson. otro evento. consultamos la tabla de distribución normal en el anexo B y buscamos los valores de z calculados con anterioridad. Esta área se muestra sombreada en la figura 13–2.04). 0. que es el mismo para z de –1. Como estamos interesados en conocer el área que se encuentra a la derecha de 1.3729 = 0. . En la tabla encontramos que el área que se encuentra desde la media de la distribución normal hasta el valor 1. Cada evento es independiente. entonces la probabilidad de que ocurra x está dada por: 0. Si el muestreo se hubiera realizado con reemplazo. plano o tridimensional.14 es igual a 0.40.04 o igual o menor de –0. Área de interés para el ejercicio del ejemplo explicativo 13-6.14 0. entonces la probabilidad de seleccionar P(X = x λt) = f (x) = e–λ λx x! .04 (es decir. entonces primero restamos a 0. y f(x) = 1. k donde es el parámetro de la distribución y corresponde al número promedio de veces que el evento aleatorio se presenta en el intervalo de tiempo o región.85) 0.04)? Dado PQn y B). la presencia de un evento en el intervalo de tiempo o espacio no está determinada por. se puede utilizar la aproximación a la normal de la distribución binomial para calcular esa probabilidad.10 y sería igual a z= (p1 – p2) – (P1 – P2) P 1Q 1 n1 + P2Q2 n2 = Distribución de Poisson La distribución de Poisson describe una distribución muestral muy útil cuando estamos interesados en un evento aleatorio que se presenta a lo largo de un intervalo de tiempo.1271 = 0. Si identificamos como x el número de veces que el evento se presenta en un intervalo de tiempo o espacio. 92 . 2. 1..04 (es decir.3729.15).2542. Es decir. ni determina a.1271 + 0.5 el valor de 0.11) 0 1σ Figura 13-2.2542.04 es de 0.15 (0..14 -1. primero se revisa la figura 13–2 y se visualiza el área de interés debajo de la curva.14 y a la izquierda de –1. El símbolo e es la constante 2. La distribución de Poisson cumple con los requerimientos de toda distribución de probabilidad. x = 1. una diferencia absoluta igual o mayor de 0. o igual o menor de –0. porque f(x) > 0 para toda x.5 – 0.Bioestadística aleatoriamente dos muestras cuya diferencia absoluta de proporciones muestrales sea igual o mayor de 0. Posteriormente.3729. una diferencia absoluta igual o mayor de 0.1271. En este caso se encuentra a la izquierda y a la derecha de la media o valor cero de la distribución normal. Dado que la probabilidad de que ocurra el evento x depende de la tasa de ocurrencias se representa con el término P(X = x| ).85) + 208 208 Para calcular la probabilidad de que la diferencia entre dos muestras estudiadas sea igual o mayor de 0. 9 y n. Ejemplo explicativo 13–7 El administrador de un hospital ha llegado a la conclusión de que las admisiones diarias de emergencia están distribuidas de acuerdo con el proceso de Poisson. En un día particular. esta distribución proporciona una buena aproximación a la distribución binomial cuando p < 0. Por una parte. La probabilidad de que se presente el evento en un intervalo de tiempo o espacio es proporcional al intervalo de tiempo o espacio.1 o p > 0. permite describir la distribución de probabilidad que muestra un grupo especial de razones: las densidades de incidencia. asumiendo que = = np. 3. Al menos en teoría. =3 x=2 © Editorial El manual moderno Fotocopiar sin autorización es un delito. en las que el numerador está formado por conteos y el denominador es la suma de tiempos-persona que se acumulan en la observación. 2. f (x) = e–3 λ2 2! = .050 1 Una particularidad interesante de la distribución de Poisson es el hecho de que la media y la varianza son iguales y tienen ambas el valor de En ciencias de la salud.0498(1) = 0. en un intervalo de tiempo o espacio.0498(9) = 0. Se considera que la probabilidad de que se presenten dos o más eventos en la misma fracción de tiempo o espacio es tan pequeña que se puede asumir como inexistente.224 2 93 2. . no ocurra admisión de emergencia alguna. En un día dado. Los registros del hospital revelan que. 4. es infinito. . Si el administrador está en lo cierto al suponer una distribución de Poisson. ocurran exactamente dos admisiones de emergencia. la distribución de Poisson tiene dos usos principales. Por la otra.Distribuciones de probabilidad y. el número de eventos. las admisiones de emergencia han sido en promedio de tres por día. f (x) = e–3 30 0! = 0. se puede encontrar la probabilidad de que: 1. durante un periodo determinado. para utilizar la aproximación a la normal. se considera = n = ny se convierten los valores de la variable original en valores de z para hallar las probabilidades que presenten interés. El procedimiento es adecuado cuando > 100. también existe una aproximación a la normal para la distribución de Poisson. Al igual que para la distribución binomial. . En este caso. “A” y “B”.52 100 a. . y Myers. R. Menos de 4 o más de 7 partos donde el recién nacido sea de sexo masculino Ejercicio 2 Cuál es la probabilidad de que. H. Al menos 53 elementos del sexo masculino b. Al menos cinco partos donde el recién nacido sea de sexo masculino c. R. Diga cuál es la probabilidad de que. W. México: McGraw-Hill. Siete partos donde el recién nacido sea de sexo masculino b. (1992). encontramos los resultados que se muestran en el cuadro 13-1.94 Bioestadística Ejercicios Ejercicio 1 Ejercicio 3 Asuma que la probabilidad de que nazca un niño del sexo masculino es 0. Suponga que después de estudiar dos grupos. W. (1988).51. De 4 a 7 partos donde el recién nacido sea de sexo masculino d. 46 o menos elementos o 54 o más elementos del sexo masculino Referencias Walpole. Daniel. Probabilidad y estadística. al tomar una muestra de 100 elementos seleccionados aleatoriamente y con reemplazo. 45 o menos elementos del sexo masculino c. Estadística con aplicaciones a las Ciencias Sociales y a la Educación. a. E.51. yo encuentre: Cuadro 13-1 n Grupo Proporción de sexo masculino A 0. ¿Cuál sería la probabilidad de haber obtenido una diferencia de proporciones igual o mayor de 0. ¿Cuál es la probabilidad de haber obtenido una diferencia de proporciones igual o mayor de la que se aprecia en el cuadro 13-1? b.17? a. México: McGraw-Hill.48 50 B 0. yo encuentre: Asuma que la probabilidad de que nazca un niño del sexo masculino es 0. al tomar una muestra de 10 elementos seleccionados aleatoriamente y con reemplazo. © Editorial El manual moderno Fotocopiar sin autorización es un delito. lo único que prueba la hipótesis alterna es que el azar es una causa poco probable como explicación de las diferencias encontradas. = N N μ) 2 i =1 N 4. Los conceptos y técnicas que satisfacen esta necesidad constituyen lo que se conoce como inferencia estadística. 95 . se sigue la ruta crítica que se presenta a continuación: 1. PRUEBA DE HIPÓTESIS © Editorial El manual moderno Fotocopiar sin autorización es un delito. la diferencia se explica porque en una de las poblaciones se han seleccionado. por lo que la diferencia debe ser explicada por otra causa. Hay dos tipos de inferencia estadística: la prueba de hipótesis y la estimación de intervalo. dado que hasta este momento se considera que la hipótesis nula es verdadera. 2. ya que la diferencia encontrada puede. 5. Luego se calculan los estadísticos ( ) en las muestras obtenidas de las poblaciones de interés. Luego se adopta una de dos opciones: a) si la probabilidad de que los resultados se deban al azar es muy alta. y no el azar. entonces no se puede descartar que el azar sea la explicación de la diferencia observada y se acepta la hipótesis nula. Cuando se está interesado en verificar una hipótesis mediante la comparación de dos poblaciones y no es posible estudiar en su totalidad ambos universos. o de universos que son iguales. en principio se pensaría que la diferencia se debe al azar. En consecuencia sugerimos una segunda hipótesis que llamamos hipótesis alterna. 2. pero sólo se dispone de datos sobre una muestra. se podría concluir que no existen diferencias entre las poblaciones y se daría por terminado el estudio. Si los estadísticos calculados a partir de las muestras son diferentes. se suele tomar una muestra de cada grupo y a partir de ellas inferir los parámetros de ambas. 3. b) por otra parte. Si se diera el caso de que los estadísticos calculados en las muestras extraídas de los universos en estudio fueran idénticos. En seguida se hace la pregunta: si las muestras que se están comparando proceden de un mismo universo. En otras palabras. se calcula la probabilidad de que la diferencia se deba al azar. Pero cuidado. ¿qué tan probable es observar una diferencia como la que se está observando? Para responderla. Rechazar una hipótesis nula implica que es poco probable que la diferencia observada se explique por el azar. deberse al azar. Cuidado: Cuando aceptamos una hipótesis nula generalmente evitamos afirmar que las poblaciones estudiadas son iguales. H0. Lo más frecuente es que intentemos comprobar nuestra hipótesis de investigación probando la hipótesis alterna. por azar.N xi i =1 xi 14 Inferencia estadística i =1 N ( xi 2 Cuando se busca información acerca de una población. si la probabilidad de que los resultados se deban al azar es muy baja. la causa que explique las diferencias encontradas y se rechaza la hipótesis nula. Aceptar una hipótesis nula significa que no encontramos evidencia que permita suponer que las dos poblaciones sean diferentes. De esta manera se define lo que se conoce como la hipótesis nula. entonces se piensa que debe ser otra. Esto se realiza con la esperanza de que las muestras estudiadas brinden información suficiente para tomar una decisión correcta sobre la igualdad o diferencia de las dos poblaciones. elementos con valores diferentes de los seleccionados en la otra población. con gran probabilidad. se necesitan algunos medios para utilizar los datos de la muestra y sacar conclusiones acerca de la población. Procedimiento de verificación de hipótesis Para verificar una hipótesis estadística se puede proceder según la siguiente secuencia: 1. Primero se asume que los parámetros () de ambas poblaciones son idénticos y no existe diferencia entre ellos. H1. Selección del nivel de significancia. Planteamiento de la hipótesis. Para ello. Cuando la hipótesis nula ha sido planteada en los términos descritos arriba. 5. 4. Por otra parte. Conclusión. por puro azar. 1. pero tampoco aceptaremos que todas las diferencias observadas se expliquen por azar. en estadística se ha definido el concepto de “nivel de significancia”. 9. La respuesta a estas preguntas constituye la expresión de la hipótesis alterna. Para este ejemplo: H0 o hipótesis nula se expresa como “el valor promedio de colesterolemia en hijos de sujetos con concentración alta de colesterol en sangre es igual o menor de 175 mg/dl”. se expresa como P1 = P2 cuando la variable dependiente es cualitativa. © Editorial El manual moderno Fotocopiar sin autorización es un delito. Con base en evidencia previa. Este nivel de significancia define un valor de probabilidad que nos ayuda a rechazar la hipótesis nula. la hipótesis nula se expresa mediante los símbolos > o <. (1991) publicaron un artículo que exploraba la asociación entre el embarazo tuboovárico y las duchas vaginales. Recolección de datos y cálculo de los estadísticos necesarios. también es posible que. Planteamiento de la hipótesis. 2. Simbólicamente. Especificación de las regiones de rechazo y aceptación. al determinar la hipótesis alterna. Simbólicamente. Para resolver este conflicto. esta hipótesis alterna puede representarse como H1: > 175 mg/dl. es necesario preguntarse qué se desea concluir o qué se considera que es verdadero. e H1: P1 < P2 o H1: P1 > P2. Por lo general. Selección del estadístico pertinente. la dirección de la hipótesis alterna no se define. Decisión estadística. En consecuencia. el investigador no tiene una idea precisa sobre si 1 es mayor o menor que 2. se quiere obtener una conclusión rechazando la hipótesis nula. que el del grupo a comparar. Es decir. Para probar su hipótesis. H1. mientras que para las medias se escribe H0: 1 > 2 o H0: 1 < 2. Simbólicamente. esta hipótesis alterna puede representarse como H1: P1 P2. cuando se hace referencia a proporciones. En estos casos. las muestras. Por tanto. H1 o hipótesis alterna: “el riesgo de embarazo tuboovárico entre las mujeres que se practican dos o más duchas vaginales al año es diferente del riesgo de embarazo tuboovárico entre las mujeres que se practican menos de dos duchas vaginales al año”. la hipótesis alterna. las hipótesis estadísticas nula y alterna son: H0 o hipótesis nula: “el riesgo de embarazo tuboovárico entre las mujeres que se practican dos o más duchas vaginales al año es el mismo que el riesgo de embarazo tuboovárico entre las mujeres que se practican menos de dos duchas vaginales al año”. la hipótesis nula. H1 o hipótesis alterna se expresa como “el valor promedio de colesterolemia en hijos de sujetos con concentración alta de colesterol en sangre es mayor de 175 mg/ dl”. El procedimiento para probar una hipótesis estadística parte del supuesto de que las poblaciones a comparar son iguales. se expresa como P1 P2 cuando la variable dependiente es cualitativa. Simbólicamente. se utiliza H0: P1 > P2 o H0: P1 < P2. con toda seguridad los estadísticos calculados a partir de las muestras. Es decir. Por otra parte. 96 . en ocasiones el investigador está interesado en demostrar que el parámetro de algún grupo es mayor. sostienen que el riesgo de embarazo tuboovárico es mayor entre las mujeres que se practican dos o más duchas vaginales por año que entre las que no lo hacen. o menor. 7. y como 1 2 cuando se trata de variables cuantitativas. Selección del nivel de significancia. por puro azar. el planteamiento complementario de la hipótesis alterna sirve de hipótesis nula. y como 1 = 2 cuando se trata de variables cuantitativas. lleguen a ser semejantes. Especificación del estadístico de prueba y consideración de su distribución. Ejemplo explicativo 14-1 Daling et al. serán diferentes a los parámetros en las poblaciones de donde se tomaron las muestras.Bioestadística 3. no podemos aceptar que cualquier diferencia observada entre las muestras sea evidencia de que las poblaciones estudiadas son diferentes. esta hipótesis nula puede representarse como H0: < 175 mg/dl. Independientemente de que las poblaciones sean iguales o no. es decir. 6. Es conveniente que la hipótesis nula y la hipótesis alterna se expresen de manera verbal y simbólica. Supóngase también que el valor promedio de colesterolemia en niños es de 175 mg/dl. y de que en esas poblaciones se seleccionará una muestra de cada población. mientras que la hipótesis alterna adquiere la forma < o >. ordinariamente se prefiere que los datos de la muestra apoyen la hipótesis alterna. Únicamente especifica que son diferentes. Así. 8. siendo las poblaciones diferentes. las hipótesis nula y alterna se expresan en función de parámetros. desea medir las concentraciones de colesterol en hijos de sujetos que en el transcurso del último año reportaron dos exámenes de laboratorio con hipercolesterolemia. Sin embargo. H0. esta hipótesis nula puede representarse como H0: P1 P2. aunque las poblaciones de donde se tomen las muestras sean iguales entre sí. Simbólicamente. Luego. Descripción de la población que interesa y planteamiento de los supuestos necesarios. De acuerdo con esta hipótesis. e H1: 1 < 2 o H1: 1 > 2. Ejemplo explicativo 14-2 Supóngase que un investigador sospecha que los valores de colesterol en sangre están determinados genéticamente. pero igualmente puede equivocarse.05. P2. más pequeño deberá ser el valor de . Sin embargo. Al verificar una hipótesis. el análisis señale que ellos son diferentes o que. Por tanto. el investigador podría estar en lo cierto. Para lograrlo. aunque el investigador puede utilizar otros valores como 0. (1991). Desde el momento en que diseñaron el estudio. © Editorial El manual moderno Fotocopiar sin autorización es un delito. los errores y mantienen una relación muy particular cuando el tamaño de la muestra se mantiene constante: al disminuir la probabilidad de cometer un error aumenta la probabilidad de cometer un error . Es decir. los valores de p que tienen mayor probabilidad de ser seleccionados son los que se aproximan al valor del parámetro.. o la diferencia observada se debe a que por pura casualidad tocó estudiar a los 10 niños que tenían los valores más altos? Si responde diciendo que cualquier diferencia observada en las muestras es evidencia de que los universos son diferentes. si los parámetros son diferentes. de tal manera que la hipótesis nula. P. diseñaron un estudio de casos y controles mediante el cual obtendrían información a partir de una muestra de cada universo que les permitiera confirmar o descartar su hipótesis sobre la asociación entre duchas vaginales y embarazo tuboovárico. siendo los parámetros iguales. que la frecuencia relativa o proporción de embarazos tuboováricos es más frecuente entre las mujeres que se duchan. P1 = P2. el investigador debe definir un “punto” en el que cualquier diferencia observada entre las muestras sea considerada como evidencia de diferencia entre las po- . Si éste fuera el caso. P2. p1 estaría muy próximo a p2. Considérense las siguientes situaciones: 1. y viceversa. si es poco probable que p1 = P y que p2 = P2. Para solucionarlo. Por otra parte. el valor de se conoce como nivel de significancia. somos muy cuidadosos al aceptar una hipótesis nula diciendo que “no se encontró diferencia estadísticamente significativa”. es decir: p1 p2. si son iguales. En la práctica. se concluya a partir del análisis estadístico que son iguales. Supóngase que la frecuencia relativa o proporción de embarazos tuboováricos entre las mujeres que se duchan. 2. pudiéndose presentar el caso de que p1 = p2 Obsérvese el cuadro 14-1. puede estar en lo cierto. el investigador desearía que la probabilidad de cometer un error o fuera pequeña. supóngase que el investigador revisó una muestra de 10 niños que reportaron una media de colesterol en sangre de 200 mg/dl. pero generalmente nunca concluimos que las muestras estudiadas proceden de poblaciones iguales.01.1 o 0. Se espera que. entonces existe una diferencia de 200 – 175 = 25 mg/dl de colesterol en sangre. Supóngase el caso contrario. si decide que cualquier proximidad que se observe entre las muestras es evidencia de que los universos son iguales. Por este motivo. tan sólo por azar. Ejemplo explicativo 14-4 Continuando con el ejemplo explicativo 14-2. en la muestra estudiada de mujeres que se duchan se presente una frecuencia menor de embarazos tuboováricos que en la muestra de mujeres que no se duchan. ante la imposibilidad de estudiar la totalidad de mujeres expuestas y no expuestas a duchas vaginales. no sería raro que las muestras fueran diferentes. de tal manera que la hipótesis nula. el resultado lo indique. Por otra parte. P1. se acostumbra que el valor de sea 0. Si éste es el caso. Al llegar a este punto. ya que cualquier diferencia puede deberse al azar. ellos sabían que las muestras estarían sujetas a variaciones aleatorias que tendrían ciertos efectos en sus resultados. P1. se comparan dos parámetros. P1 = P2. Dependiendo del tamaño de n. La primera pregunta que el investigador se hace es: ¿lo que se está observando es evidencia de que el valor sérico de colesterol es diferente entre los dos grupos. es verdadera. generalmente se desconoce la probabilidad de cometer un error tipo II (). que generalmente se considera el de mayor trascendencia. puede ocurrir que. En el capítulo 11. el resultado de la prueba diga que son diferentes y se rechace Cuadro 14-1. Mientras más graves se consideran las consecuencias de cometer un error . P. no es el mismo que el poblacional. pero también podría ser que los universos fueran iguales y que la diferencia se debiera al azar. La explicación es sencilla.Inferencia estadística Ejemplo explicativo 14-3 Daling et al. generalmente el investigador decide minimizar la probabilidad de cometer el error . Si entre los hijos de sujetos con colesterol sérico normal la media es de 175 mg/dl y la desviación estándar es de 50 mg/ dl. también es poco probable que p1 = p2. Podría ser que. siendo los parámetros diferentes. es la misma que entre las que no lo hacen. y cuando la probabilidad de la diferencia observada entre las muestras es igual o menor que el nivel de significancia. aceptando como verdadera una hipótesis nula falsa (error tipo II o error ). quedó claro cómo una muestra de tamaño n es tan sólo un elemento del conjunto formado por todas las muestras de tamaño n que se puede obtener a partir del universo del cual se extrae la muestra. Sin embargo.Errores que pueden cometerse durante una prueba de hipótesis Los parámetros son: diferentes La prueba nos dice que los parámetros son: diferentes iguales iguales Error I Error II 97 una hipótesis nula verdadera (error tipo I o error ) o que. el investigador se encuentra en un callejón sin salida. es falsa. p . P1 > P2. pero la gran mayoría de las veces el valor muestral. que entre las que no lo hacen. La probabilidad de cometer un error tipo I () o tipo II () está determinada por dos aspectos: la diferencia entre las poblaciones en estudio y el tamaño de la muestra. rechazamos la hipótesis nula para aceptar la hipótesis alterna y decimos que “la diferencia observada es estadísticamente significativa”. Al evaluar estadísticamente una hipótesis. Dada esta relación. en general. las mujeres deberían seleccionarse de manera aleatoria e independiente. el estadístico será la diferencia de medias muestrales. o que el tamaño de la muestra es grande (n > 30). p1 – p2. Para calcular estas probabilidades. mientras que el tamaño de la muestra debe ser lo suficientemente grande para que pqn > 5. Éstos no son los únicos. Para el caso del ejemplo explicativo 14-2. Ejemplo explicativo 14-6 Ejemplo explicativo 14-5 Algunos supuestos podrían ser los siguientes: 1. . Después de meditarlo detenidamente. y en capítulos posteriores conoceremos otros que son utilizados en la estadística. Para el caso del ejemplo explicativo 14-2. 1 – 2. qué fracción del total de la población corresponde al tamaño de la muestra y cómo fueron seleccionados los elementos de la muestra. si la forma de su distribución se aproxima a la normal. 2. la distribución normal de muestras cuantitativas asume que la población de donde proceden los datos se distribuye normalmente. el interés reside en la diferencia que existe entre la proporción muestral de embarazos tuboováricos en mujeres que se practicaron dos o más duchas vaginales en el último año y la proporción muestral de embarazos tuboováricos en mujeres que se practicaron una o menos duchas vaginales en el último año: p1 – p2. asumiendo que la hipótesis nula es verdadera. De esta manera. el estadístico de prueba podrá ser z= estimación puntual parámetro error estándar (14. en esta etapa de la prueba de hipótesis nos interesa definir el tamaño de la población que estudiamos. Otros estadísticos de prueba que frecuentemente se utilizan corresponden a las distribuciones t (t de Student). de qué tamaño es (o será) la muestra. el estadístico será la proporción muestral. P. Descripción de la población que interesa y planteamiento de los supuestos necesarios. También se debe sostener el supuesto de que los valores de colesterol sérico se distribuyen normalmente con una media poblacional de 175 mg/dl y una desviación estándar poblacional de 50 mg/dl. Ejemplo explicativo 14-7 1. 2 (chi-cuadrada) y F (distribución F). Especificación del estadístico de prueba y consideración de su distribución. Para una dada. En los capítulos 10 y 11 también debió quedar claro que los cálculos de probabilidad que corresponden a muestras se basan en distribuciones de probabilidad y su aplicación a las distribuciones muestrales.P2. para que las distribuciones de probabilidad se apliquen a las distribuciones muestrales se tienen que asumir algunos supuestos implícitos en los procedimientos descritos. del conocimiento que tengamos de los parámetros ( y ).1) También conocida como distribución z. debe definir qué tantas veces acepta equivocarse. cuando se trata de la proporción poblacional.98 Bioestadística blaciones. 5. Por lo general. el estadístico de prueba es z= x μ 2 n © Editorial El manual moderno Fotocopiar sin autorización es un delito. el estadístico será la diferencia de proporciones muestrales. el investigador define su valor de significancia: = 0. utilizamos un estadístico de prueba o cantidad numérica calculada a partir de los datos de la muestra. El estadístico que será utilizado en la prueba de hipótesis depende del parámetro utilizado al definir la hipótesis nula que se quiere probar. Cuando estamos interesados en la media poblacional. La definición de nivel de significancia nos deja algo claro: la decisión de aceptar o rechazar una hipótesis nula depende de un cálculo de probabilidades. y del tamaño de la muestra. 3. el estadístico pertinente será la media muestral. x. Para el caso del ejemplo explicativo 14-2. y para la diferencia de proporciones poblacionales. Para el caso del ejemplo 14-1. el estadístico pertinente es el promedio muestral de la concentración de colesterol sérico de los niños con padres hipercolesterolémicos: x. Este tema se tratará nuevamente cuando se revisen las fórmulas para calcular el tamaño de una muestra. 1. Líneas arriba insistíamos en que la base de una prueba de hipótesis es un ejercicio de cálculo de probabilidades. p. Así. . Por otra parte. Un concepto muy útil para evaluar la verificación de hipótesis es la potencia de una prueba. 2. x1 – x2. se expresa por 1 – . Dependiendo de la naturaleza de los datos (variable cuantitativa) y su distribución (en forma de montículo). Para el caso del ejemplo explicativo 14-1. Éste es el valor de significancia. mientras que cualquier diferencia por debajo de ese “punto” sea considerada como falta de evidencia para decir que las poblaciones son diferentes. como es el caso del colesterol. pues estas características determinarán la distribución de probabilidad que se utilizará para realizar el cálculo de probabilidad necesario para probar una hipótesis. Por ejemplo. Selección del estadístico pertinente. se dice que una prueba es más potente que otra si su valor de 1 – es mayor que el de la otra para todos los valores de . y en la bioestadística.05. Con frecuencia se puede encontrar que la variable de interés no tiene una distribución normal. 4. en particular. los niños debieron haberse seleccionado de manera aleatoria e independiente. P1 . la cual se define como la probabilidad de rechazar una hipótesis nula falsa. si estamos interesados en la diferencia de medias poblacionales. Cuando la hipótesis nula tiene una direccionalidad expresada por los operadores “>” y “<”. mientras que sustituye cualquier estadístico). si se encuentra en la región de rechazo.53 El cálculo de probabilidad anterior permite decir que no existe diferencia en el colesterol sérico de los niños de padres hipercolesterolémicos y el valor promedio esperado de colesterol sérico en los niños. primero se asume que no existe diferencia entre los grupos y que el resultado en la muestra se debe al azar. supóngase que el investigador ha definido H0: < 175 mg/dl y = 0. A la zona blanca se le denomina región de aceptación y a la oscura se le llama región de rechazo. luego.05. El valor de debe convertirse a las unidades del estadístico de prueba seleccionado.645 P1Q1 P2 Q2 + n1 n2 -3σ 6. Para el caso del ejemplo 14-1.53 está dado por z= 189 175 502 30 = 1. Al hacerlo. De acuerdo con la figura 14-1. al tenerlos se calcula. mientras que se rechaza cuando lo hace en la zona oscura.05 corresponde un valor de z = 1. 99 -2σ -1σ 0 1σ 2σ Figura 14-1. la media muestral se localizaría . Sin importar en qué momento los datos se consiguieron. entonces la probabilidad de que el resultado fuera igual o mayor que el observado (189 mg/dl) es igual a 1.063 (o 6.Inferencia estadística μ 2. Si el valor de z calculado fuera igual o mayor que el valor crítico. 8. se acepta la hipótesis nula cuando la observación que se realiza cae en la zona blanca debajo de la curva. las regiones de aceptación de la hipótesis nula constan de todos los valores de mayores que μ z / 2 o menores que μ + z / 2 . al definir el nivel de significancia. respectivamente. En nuestra lista. Especificación de las regiones de rechazo y aceptación. para = 0. Áreas de rechazo y aceptación de la hipótesis nula para [] = 0. pero en la práctica los datos se registran antes de iniciar la prueba de hipótesis. 3σ Siguiendo con el ejemplo explicativo 14-2. El valor 1. el estadístico de prueba es z= ( p1 p2 ) ( P1 50% P2 ) -1. donde μ es la medida hipotética de la distribución muestra de . Si esto fuera cierto. también ha definido las áreas de rechazo y aceptación de la hipótesis nula. pero. ¿Qué tan probable es que la diferencia observada se deba al azar? Para responder. éste es el séptimo paso. Cuando en la hipótesis nula sólo incluimos el operador “=”. Ejemplo explicativo 14-9 Se continuará con el ejemplo explicativo 14-2. aceptamos la hipótesis nula. el estadístico de prueba.645. En este caso (en que H0: < 175 mg/dl). Ejemplo explicativo 14-10 7.05 y prueba de hipótesis de una cola. Las regiones de aceptación y rechazo se delimitan mediante un valor que las separa. Cuando el valor calculado mediante el estadístico de prueba se encuentra en la región de aceptación. Decisión estadística. Al estudiar una muestra de 30 niños cuyos padres son hipercolesterolémicos. primero.53. ya que la probabilidad de encontrar un resultado igual o mayor que el observado es de 0. la región de aceptación de la hipótesis nula consta de todos los valores de mayores que μ z / 2 y menores que μ + z / 2 . o valor crítico (en los capítulos siguientes se explica cómo hacemos para definir este valor). la rechazamos. La región de rechazo es el complemento de la región de aceptación. (El símbolo se refiere a cualquier parámetro. también definimos las regiones de rechazo y aceptación. Para tomar una decisión estadística. se encontró que el promedio de la concentración de colesterol es de 189 mg/dl.63%). Al definir la hipótesis nula y el nivel de significancia. se compara el valor calculado mediante el estadístico de prueba con el valor crítico definido en el paso 6 de la prueba de hipótesis. Es suficiente notar el valor de z calculado para la muestra estudiada y compararlo con el valor crítico seleccionado para reconocer que la media muestral obtenida se localiza dentro o fuera de la región de aceptación. Ejemplo explicativo 14-8 Continuando con el ejemplo explicativo 14-2. © Editorial El manual moderno Fotocopiar sin autorización es un delito. si el investigador ya ha definido el valor crítico. entonces no es necesario que se convierta el valor de z en valor de p. Recolección de datos y cálculo de los estadísticos necesarios. Éste se define como el valor crítico. el estadístico pertinente y. no se rechaza la hipótesis nula. la probabilidad de afirmar que las poblaciones son diferentes. pero es más estricto en cuanto a permitir errores (asumiendo que no existe diferencia entre las poblaciones en estudio). o que la diferencia no fue significativa estadísticamente. el resultado observado se deba al azar. Sin embargo. Entre las utilizadas con mayor frecuencia se encuentran la proporción muestral. y la diferencia de medias muestrales. y que mientras más grande sea la muestra. cuando en realidad son iguales. con alguna seguridad. para este ejemplo la decisión que tome lo llevará a conclusiones opuestas. mientras que otra investigación con 100 sujetos por grupo no encontraría significancia para diferencias aun mayores. es preciso tener en cuenta si la prueba es unilateral o bilateral. será de 5 en 100. Al hacerlo. si selecciona = 0. desconocemos qué tan cercano se encuentra. al igual que la prueba de hipótesis. es decir. el investigador definió el nivel de significancia como = 0. Ejemplo explicativo 14-11 Siguiendo con el ejemplo explicativo anterior.05. La estimación puntual significa que se usa un solo estadístico muestral para estimar el parámetro poblacional correspondiente. pero sabemos que la probabilidad de hacerlo es muy baja. A este rango se le conoce como intervalo de confianza. la media muestral. Por otro lado. y entonces tendría que rechazar la hipótesis nula. Existen diferentes estimaciones puntuales y éstas corresponden al parámetro de interés.05 y = 0. existe la posibilidad de que cometamos un error tipo I. como queda claro. rechazará la hipótesis nula. Un intervalo de este tipo permite decir con qué confianza se puede esperar que el parámetro de interés se encuentre entre dos valores. En el último caso. Cuando rechazamos la hipótesis nula. en el ejemplo explicativo 14–4. de haber definido = 0. En general. o . Su elaboración se basa. pero de manera general se puede decir que una investigación en la que se estudian 2 000 sujetos por grupo puede reportar como significativa una diferencia de proporciones de P1 – P2 = 0. más próximo será. hay que especificar la diferencia encontrada entre el estadístico calculado en la muestra y el parámetro de comparación. x1 – x2. una estimación de intervalo puede expresarse como sigue: Estimación ± (coeficiente de confiabilidad) (error típico) puntual $"! donde la estimación puntual se obtiene a partir de 1 o 2 muestras. El valor de p nada dice sobre la magnitud de la diferencia. Esto es importante. pero. 100 . algún estadístico que se ofrece como una aproximación del parámetro correspondiente a la población de la cual se extrajo la muestra. cuando se acepta una hipótesis nula.Bioestadística en región de rechazo.10) se definió el valor de . el coeficiente de confiabilidad o confianza se toma de la tabla de distribución de probabilidad de los estadísticos de prueba y el error típico o estándar corresponde a la distribución muestral pertinente. la forma más común de presentar los resultados en la literatura fue utilizando valores de p. Del conocimiento adquirido en los capítulos 10 y 11 sabemos que es muy probable que el valor del estadístico muestral sea próximo al parámetro de interés. por ello. reduce el número de veces que cometería un error tipo I. desconocemos la probabilidad de cometer un error tipo II. la probabilidad de cometer un error tipo I es mayor que cuando el nivel de significancia es de 0. Al determinar un valor de p.10. porque el valor de p sólo habla de cuál sería la probabilidad de que. con base en los datos de una muestra. x. se habría rechazado la hipótesis nula y se habría dicho que “la media de la concentración de colesterol sérico en hijos de hipercolesterolémicos es mayor que la media en hijos de sujetos normales” y que la diferencia es estadísticamente significativa. se pueda encontrar el parámetro de interés. en las propiedades de la curva normal y en el conocimiento de las distribuciones muestrales. cuando aceptamos la hipótesis nula. © Editorial El manual moderno Fotocopiar sin autorización es un delito. porque. De manera contraria.05.01.05 y 0. Cuando el nivel de significancia es de 0. El investigador puede seleccionar entre 0. tan sólo se puede mencionar que “no se encontró evidencia que haga pensar que el grupo de hijos de hipercolesterolémicos sea diferente al de hijos de sujetos con colesterolemia normal”. siendo la hipótesis nula verdadera. o .10.05. y preferimos concluir que “las poblaciones pueden ser iguales” o que “no se encontró diferencia estadísticamente significativa”. Presentación de resultados Durante muchos años. Esto se explica con mayor detalle en los capítulos siguientes. Si selecciona = 0. Por tanto. Conclusión. y a partir de una sola medición. Un valor de p es el valor igual o menor de a con el que se puede rechazar la hipótesis nula. 9. Dado que el investigador ya ha definido el nivel de significancia para la prueba ( = 0. tenemos mucho cuidado y generalmente evitamos concluir que “las poblaciones son iguales”. entonces tendrá que aceptar la hipótesis nula. Pero pudo haberse dado el caso de que el investigador definiera su nivel de significancia como de = 0. por lo general. Una estimación alternativa consiste en definir un rango delimitado por dos valores entre los que.05).10. Los dos tipos de estimación más interesantes son: la estimación puntual y la estimación por intervalos. Además de especificar el resultado en función de p. podemos concluir que “las poblaciones son diferentes”. p. Es importante observar que en ninguno de los dos grados de significancia que se han considerado ( = 0. no se puede ser tan precisos al decir que los grupos son iguales.10 como nivel de significancia. acepta la hipótesis nula. p1 – p2 . Pero al mismo tiempo. ESTIMACIÓN DE INTERVALO El proceso de estimación conlleva calcular. la diferencia de proporciones muestrales.05. cuando se acepta una hipótesis nula como verdadera. ej. se tiene que señalar. Como se verá en los dos capítulos siguientes. que los procedimientos no paramétricos y los de libre distribución ofrecen se encuentran las siguientes: Aunque podría parecer que estos procedimientos de inferencia estadística son diferentes. pero que sí incluyen un parámetro en el cálculo de probabilidad (el cálculo exacto de probabilidad mediante las distribuciones binomial y de Poisson). que se conocen como pruebas no paramétricas. q. c) los procedimientos de inferencia que no se refieren a parámetros de población (chi-cuadrada. cuando la distribución muestral es normal y el coeficiente de confianza es de 1. Presentación de resultados Para presentar resultados mediante intervalos de confianza. la estimación de intervalo incluye el parámetro en su rango de valores. z. RELACIÓN ENTRE PRUEBA DE HIPÓTESIS Y ESTIMACIÓN DE INTERVALO Ventajas y desventajas de los procedimientos no paramétricos Entre las ventajas.. Por conveniencia. b) aquellos que no consideran la distribución normal de los datos. © Editorial El manual moderno Fotocopiar sin autorización es un delito. la mayoría de los textos de estadística agrupan tanto los procedimientos verdaderamente no paramétricos como los libres de distribución y los presentan bajo el título de procedimientos no paramétricos. Por ello. Para la mayoría de ellos los cálculos aritméticos son sencillos. se supone que aproximadamente 95% de los intervalos de confianza estimados a partir de las muestras de un universo incluyen el parámetro. la estimación de intervalo no incluye el parámetro. debe especificarse la magnitud de la confianza con que se calculó. PRUEBAS NO PARAMÉTRICAS Los procedimientos estadísticos pueden clasificarse en tres grupos: a) aquellos que suponen la distribución normal de los datos e incluyen los parámetros en el cálculo de los estadísticos de prueba (p.1 y 14. que se identifican como procedimientos libres de distribución. la estimación puntual. de tal manera que quienes no tengan grandes conocimientos matemáticos pueden realizarlos con facilidad. los dos hacen uso de la misma información. . 2. 101 1.96. . ambos procedimientos conducen a conclusiones semejantes. y F). aunque la presentan de manera diferente.2. mientras que cuando se rechaza una hipótesis nula. La mayoría de ellos se basan en un conjunto mínimo de suposiciones.96 veces el error estándar de su distribución muestral. las pruebas de t. θ Figura 14-2. que en conjunto se reconocen como pruebas paramétricas. En todas las circunstancias. Tal como se puede concluir revisando las fórmulas 14.Inferencia estadística De manera gráfica. al presentar un intervalo de confianza. incluye el parámetro. seguida de las cantidades calculadas mediante el procedimiento de intervalo de confianza. prueba exacta de Fisher). primero. 1. Con ello se reduce la posibilidad de utilizarlos de manera incorrecta. en la figura 14-2 se puede observar cómo cada estimación puntual. De hecho. la verdad es que no lo son. Distribución de estimaciones puntuales y sus intervalos de confianza. .. 2. S. Aunque no demandan un conocimiento muy amplio de las matemáticas para su aplicación. Por otra parte.102 Bioestadística 3. Nonparametric statistics for the behavioral sciences. Schwartz. Cuando no se conoce el parámetro de la población. 3. Epidemiology. M. © Editorial El manual moderno Fotocopiar sin autorización es un delito. siempre que sea posible ha de utilizarse un procedimiento paramétrico en lugar de uno no paramétrico. Vaginal douching and the risk of tubal pregnancy. Cuando las variables estudiadas son nominales u ordinales. La desventaja más importante consiste en que los procedimientos no paramétricos son menos eficientes que los paramétricos. W. Daniel. Por ello. Jr (1988). 2. entre las que se encuentran: Tomando en cuenta lo anterior. J. Estadística con aplicaciones a las Ciencias Sociales y a la Educación. 1. los procedimientos no paramétricos proporcionan alternativas útiles y en muchas situaciones únicas. W. 2. REFERENCIAS Siegel. Cuando no se cumplen los supuestos definidos por los procedimientos paramétricos. et al. J. (1991). México: McGraw-Hill. N. como las que se mencionan a continuación: 1. R. 40-48. New York: McGraw-Hill. Daling. en ocasiones los cálculos necesarios pueden ser tediosos y difíciles. N. & Castellan. Son particularmente útiles cuando la medición de las variables consiste en conteos de frecuencia o en escalas ordinales en lugar de mediciones cuantitativas.. S. los procedimientos no paramétricos también tienen algunas desventajas. (1988). Weiss.. S. ................................................................................... Análisis de varianza . Tamaño de muestra para variables dependientes cualitativas...................................................................159 © Editorial El manual moderno Fotocopiar sin autorización es un delito...........................................................................................147 Capítulo 20............. Pruebas de hipótesis para una y dos variables cuantitativas ..............................135 Capítulo 19........... Tamaño de muestra para variables dependientes cuantitativas ........................................................................................................................................................... Pruebas no paramétricas ...................... Pruebas de hipótesis para una y dos variables cualitativas.....119 Capítulo 17.......173 103 ................................................................. Estimaciones de intervalo para una y dos variables cualitativas ..........Sección IV: Inferencia estadística para una variable dependiente y una independiente Capítulo 15......................................153 Capítulo 21...........................................105 Capítulo 16................................................................................................................... Regresión y correlación simple ......... Intervalos de confianza para la estimación de medias ....................................................129 Capítulo 18......................................................................................................................................... Capítulo 22.......................163 Capítulo 23.................................... . se pueden presentar los siguientes casos.05. H0: P0 = 0. = 0. H1: P0 " "~" población que cubre la unidad no es igual a la proporción de diabéticos que se encuentran en el resto de la población”.1 o “la proporción de diabéticos en la población que cubre la unidad es igual a la proporción de diabéticos que se encuentran en el resto de la población”. c) Entonces. 5. El director. y desea utilizar esta cantidad como parámetro de referencia. p. 105 . Selección del nivel de significancia. se localiza de la siguiente manera: a) Se pone atención en qué tipo de prueba se realiza: H0: P0 = 0. 2. Él sabe que.05.025. 3. Planteamiento de la hipótesis. y en una segunda región de rechazo que consta de aquella parte de la distribución z que incluye todos los valores de z tales que. para una población cuyos grupos de edad se distribuyen de manera semejante a los que cubre su unidad. la región de rechazo se encuentra dividida en dos partes.9 400 = 36). a) La población es binomial. Proporción muestral. Especificación de las regiones de rechazo y aceptación. Ejemplo explicativo 15-1 Supóngase que el director de una unidad de atención médica ha encontrado que en los últimos meses el diagnóstico de diabetes mellitus aparece con mucha frecuencia en los listados de consultas de primera vez. cuando H0 es verdadera.N xi N i =1 15 Pruebas de hipótesis para una N y dos variables ( xi μ ) 2 cualitativas 2 = i =1 xi i =1 N N VERIFICACIÓN DE UNA HIPÓTESIS SOBRE UNA PROPORCIÓN POBLACIONAL ÚNICA Cuando se tiene interés en hacer inferencias sobre proporciones en una población y se desea utilizar los criterios de prueba de hipótesis. la probabilidad de ocurrencia aleatoria de una z de ese tamaño o mayor es igual o menor de 0. cuando H0 es verdadera.1. b) Se recuerda que para esta prueba = 0. la probabilidad de ocurrencia aleatoria de una z de ese tamaño o menor es igual o menor de 0. que define las regiones de rechazo y aceptación. Muestra grande Cuando se tiene la referencia de una cantidad que puede ser considerada como parámetro y la muestra del grupo que se desea estudiar es lo suficientemente grande como para utilizar la aproximación a la normal de la distribución binomial. una en cada extremo de la curva normal. p P PQ n %! 6. b) El valor de p no está demasiado cerca de 0 ni de 1. Descripción de la población que interesa y planteamiento de los supuestos necesarios. de manera aleatoria selecciona una muestra de 400 sujetos a los que estudia en busca de diabetes mellitus. que se distribuye normalmente con media igual a 0 y desviación estándar igual a 1. se procede según el siguiente ejemplo explicativo.025. la prevalencia de diabetes mellitus es de 10%. El estadístico de prueba es z. que tiene interés en estimar la prevalencia de diabetes en la población asignada a su unidad. Especificación del estadístico de prueba y consideración de su distribución. Como se trata de una prueba de dos colas. z= © Editorial El manual moderno Fotocopiar sin autorización es un delito. 1. El valor crítico de la prueba. de modo que las respuestas son del tipo “sí” o “no”. 4. c) El producto de pqn 0. el interés se ubica en una primera región de rechazo que consta de aquella parte de la distribución normal que incluye todos los valores de z tales que. Selección del estadístico pertinente. 96 -3σ -2σ 1. ha de mejorar la expectativa de vida de los afectados.96 -1σ 0 1σ 2σ 3σ Figura 15-1. c) Entonces. Descripción de la población que interesa y planteamiento de los supuestos necesarios.10. Sin embargo. qué tan probable es que © Editorial El manual moderno Fotocopiar sin autorización es un delito.96. ya que la muestra es pequeña. tal como se describe en Cómo hacerlo en Epi Info 15-2. Especificación de las regiones de rechazo y aceptación.96.025 = 0. Un investigador está experimentando con un tratamiento que. pero sí se puede realizar una prueba mediante la distribución binomial. 7. La distribución no es normal y no existe estadístico de prueba que asuma la distribución binomial para muestras pequeñas. Especificación del estadístico de prueba y consideración de su distribución. las regiones de rechazo se presentan sombreadas. 3. y mediante el auxilio de la tabla de distribución normal del anexo B. H0: P0 = 0. Después de estudiar la muestra de 400 sujetos seleccionados aleatoriamente entre la población de cobertura de la unidad de atención médica. y está interesado en evaluar la significancia estadística de sus hallazgos. a) La población es binomial.Bioestadística d) Con lo anterior. 0.9 01 400 z= . 5. . es decir. Ejemplo explicativo 15-2 Supóngase una patología en la que 70% de los enfermos fallece en el transcurso de un año a partir del diagnóstico (0. 4. ha encontrado que 80% sobrevive más de un año. el resultado encontrado por el investigador se localiza en la región de aceptación de la hipótesis nula.3 o “la supervivencia al año es igual o menor de 30%”. Selección del estadístico pertinente. Conclusión. Los resultados le animan. Decisión estadística. b) Las observaciones son independientes unas de otras. Este tipo de datos demanda un tratamiento estadístico diferente del anterior. se realiza la siguiente ecuación: z= 012 . 6. b) Se recuerda que para esta prueba = 0. d) Con lo anterior. . μ 50% -1.3 de supervivencia al año). Para saber qué valor de z corresponde a una diferencia absoluta de $ la población tiene una P = 0. se encuentran datos nominales obtenidos de muestras pequeñas.05. 010 . e) Una vez obtenidos los valores críticos. Planteamiento de la hipótesis. Proporción muestral. 2. 15-1 Epi Info no tiene un módulo que permita realizar una prueba de Z para una proporción. Selección del nivel de significancia.9 01 400 8. Después de tratar a 10 enfermos con el esquema nuevo.05. = 133 . Regiones de rechazo y aceptación para el ejemplo explicativo 15-1. 9. Cuando éste es el caso. H1: P0 > 0. no es muy problemático hacer uso directo de la distribución binomial.475) se busca en el cuerpo del cuadro de distribución normal del anexo B y corresponde a 1. éstos definen las regiones de rechazo y aceptación. cuando H0 es verdadera. Ya que la distribución z es simétrica. no se puede utilizar la aproximación normal de la binomial y con frecuencia es imposible estudiar más sujetos de los que se han captado.50 – 0. = 0. 106 . la probabilidad de ocurrencia aleatoria sea igual a 0. Muestra pequeña (distribución binomial) Ocasionalmente. supone. c) La probabilidad de tener la característica de interés se mantiene constante durante todo el estudio. el interés está en aquellas muestras tales que. por lo que ésta no se rechaza. y utilizando la fórmula para el cálculo de probabilidades de la distribución binomial. de modo que las respuestas son del tipo “sí” o “no”. se procede de la siguiente manera: a) se replantea la pregunta en términos de sujetos observados en lugar de proporciones. se procede como sigue: a) a la mitad de la distribución normal se le resta el valor de /2 (0. Se concluye que “la diferencia observada no es estadísticamente significativa”. bajo el supuesto de la hipótesis nula.475). El valor crítico de la prueba se define de manera diferente a los procedimientos paramétricos descritos con anterioridad: a) Se pone atención en qué tipo de prueba se realiza: H0: P0 < 0. y considerando que se puede utilizar la aproximación a la normal de la distribución binomial. basta con utilizar el mismo. pero en negativo: –1. Recolección de datos y cálculo de los estadísticos necesarios. 1. En la figura 15-1.3. = 133 . se encuentra que 48 (12%) son diabéticos. no es necesario buscar el valor de z que corresponde a la otra región de rechazo. Dado que el valor z calculado en el punto anterior es inferior al valor z tabulado en el punto 6. 0. b) el valor resultado (0.08 010 . 0.3 o “la supervivencia al año es mayor de 30%”. Cómo hacerlo en Epi Info.05 o menor. Conclusión. más la probabilidad de encontrar 0 sujetos con la característica.05. P(x 7| n = 10. se sumarían las probabilidades de encontrar de 10 a 7 sujetos con la característica de interés.001 = 0. .028 0.05.009 + 0. qué tan probable es que ocho sujetos sobrevivan más de un año.05 (0.010 = 0. hasta que el total está próximo a 0.05. Con esto. más la probabilidad de que sobrevivan seis (0. si la hipótesis nula a probar fuera H0: P0 = 0.000). .121 0.000 Figura 15-3. Si se tratara de una prueba de dos colas (es decir. Es decir.)” (figura 15-2). porque el total superaría 0. se superaría el valor de a = 0. iniciando en dirección contraria de la hipótesis nula. P = 0. Así. b) se realizan los cálculos utilizando la fórmula de probabilidad binomial o se consulta la tabla del anexo C para n = 10 y P = 0. c) se suman las probabilidades extremas. primero llamamos a Epi Info 7 y. Observar menos de. Si utiliza los mismos valores del ejemplo explicativo 15-2. 10 y 30.3 (que se muestra en el cuadro 15-1). Aquí se detiene el cálculo. o el más próximo y menor. . Ya no se agregaría la probabilidad de encontrar seis sujetos. std. Distribución de probabilidad binomial para muestras de tamaño n = 10 y proporción poblacional P = 0.30 x 0 1 2 3 4 p 0. qué tan probable es que nueve sujetos sobrevivan más de un año.038.001 0. 10 de 10 sujetos sobrevivan más de un año.103 0. En el menú colgante. 9.)”. los números serán 8. Cuadro que muestra prueba de hipótesis e intervalos de confianza mediante la distribución binomial. Pruebas de hipótesis para una. Una vez en la ventana que se muestra en la figura 15-3. Decisión estadística.© Editorial El manual moderno Fotocopiar sin autorización es un delito.010). seleccione “Binomial (proportion vs.103). d) el valor crítico corresponde al valor de x de la probabilidad en que se termina de sumar. 7. porque si se sumara la siguiente probabilidad (0. seleccionamos STATCALC. Cuadro 15-1. respectivamente. más la probabilidad de que sobrevivan siete (0. desde el menú principal. el valor crítico es igual a seis.3) = 0. pero es inferior. los puntos críticos estarían definidos por 0 y 7.267 0.200 x 5 6 7 8 9 10 p 0.038 + 0. Menú de Epi Info 7 que muestra la opción “Binomial (proportion vs. más la probabilidad de que sobrevivan ocho (0. Figura 15-2. totalizando 0. " 5. 8. la zona de rechazo sería la que es igual a cero éxitos o la que es igual a siete y más éxitos. se rechaza la hipótesis nula.001). También podría utilizar los valores del ejemplo explicativo 15-1 (48.047.075). alimente las celdas “Numerator” (numerador). el punto crítico estaría definido por la probabilidad de que sobrevivan los 10 (0. Los resultados mostrarán la probabilidad para: 1. el procedimiento sería semejante. “Total observations” (total de observaciones) y “Expected percentage” (porcentaje esperado). Dado que la supervivencia superior a un año se presentó en 8 de 10 sujetos y supera el valor crítico. std.047). En el ejemplo. “<” 2.000 0.037 0. Observar más de. 400. " 4.000 = 0. 107 Cómo hacerlo en Epi Info.37 = 0. más la probabilidad de que sobrevivan nueve (0.233 0.000). “>” Los resultados también mostrarán el valor de p para una prueba de dos colas (Two-tailed p-value). De los 10 pacientes estudiados. Para poder utilizarla. 8 sobrevivieron. Así. 15-2 Epi Info 7 tiene un módulo para pruebas de hipótesis de proporciones con una sola muestra. pero sería necesario tomar en cuenta los dos extremos de la distribución binomial al acumular probabilidades hasta sumar 0. Recolección de datos y cálculo de los estadísticos necesarios.3). 10).009 0. Se concluye que “la supervivencia al año es superior a 30%” y que el resultado es estadísticamente significativo.001 + 0.037 + 0. por lo que se puede tomar el valor z inmediato anterior (p = 0. Para su análisis estadístico. sin importar cuál sea la proporción de cada población. sospecha que en un núcleo bien delimitado (grupo 2). c) Las muestras son independientes una de la otra. Si se tienen problemas en esta parte.3) En ésta. de los cuales 16 (10. las proporciones muestrales en el denominador de la fórmula 15. Selección del nivel de significancia. b) en la tabla de distribución normal no se encuentra el valor 0.10/2 = 0.8%) utilizan dos hipoglucemiantes orales. una de cada población a comparar. El valor crítico de la prueba. pero recordando que en este ejemplo explicativo = 0. Planteamiento de la hipótesis. en su área de cobertura. bajo el supuesto de la hipótesis nula no existe diferencia entre estos dos parámetros.2 se sustituyen por p o estimación de la proporción común z= ( pˆ1 pˆ 2 ) 0 pq pq + n1 n2 %$! En la fórmula anterior. © Editorial El manual moderno Fotocopiar sin autorización es un delito. H0: P1 = P2 o “la proporción de diabéticos en el grupo 1 que utilizan dos o más hipoglucemiantes orales en su tratamiento es igual a la de diabéticos en el grupo 2”. se puede consultar la misma sección en los ejemplos explicativos 15-1 y 15-2. 3. Por otra parte. 0.10. el sustituye a P1 – P2 porque. z= ( pˆ1 pˆ 2 ) ( P1 P2 ) ˆp1qˆ1 pˆ 2 qˆ2 + n1 n2 %"! Cuando se supone que P1 y P2 son iguales (hipótesis nula).45. Especificación de las regiones de rechazo y aceptación. en un área de 100 cuadras. x1 y x2 representan el número de elementos con la característica de interés en las muestras n1 y n2. el producto pqn ha de ser mayor o igual a cinco. procede de la siguiente manera: 1. Selección del estadístico pertinente.10. Por tanto. la proporción de tratamientos orales combinados no es uniforme.05. El investigador decide tomar este nivel de significancia.65) o una interpolación de ambos.45.645 (positivo y negativo). Ejemplo explicativo 15-3 Se regresará con el director interesado en diabetes mellitus del ejemplo explicativo 15-1. porque las consecuencias de un error tipo I no son graves. el investigador obtiene una muestra de 150 sujetos diabéticos en el grupo 1. = 0. el inmediato posterior (p = 0. que corresponde a 1.4505.5 – 0. Diferencia de proporciones.Bioestadística PRUEBA DE HIPÓTESIS SOBRE LA DIFERENCIA ENTRE DOS PROPORCIONES POBLACIONALES Z para la diferencia de proporciones a partir de muestras grandes Con frecuencia no existe un parámetro conocido que pueda servir de referencia al comparar una proporción muestral. 2. de modo que sea posible considerar que los universos de los que se tomaron son diferentes. menos de 10% de los pacientes lo hace. 4.7%) utilizan dos hipoglucemiantes orales.4495. 5. del grupo 2 obtiene una muestra de 125 sujetos diabéticos. 6. 108 . o proporción común de la población. Especificación del estadístico de prueba y consideración de su distribución. En la mayor parte del área de cobertura (grupo 1).05 = 0.645. de modo que las respuestas son del tipo “sí” o “no”. Para hacerlo. que define las regiones de rechazo y aceptación. Por lo anterior. La estimación de proporción combinada se representa con el símbolo p y se calcula mediante la fórmula p= x1 + x 2 n1 + n2 (15. Sin embargo. y a partir de ambas se decide si la diferencia entre los estadísticos es significativa. se toman dos muestras. respectivamente. 7. se localiza de manera semejante a la del ejemplo explicativo 15-1.64). los valores críticos corresponden a z = 1. aproximadamente 10% de los pacientes utiliza dos o más hipoglucemiantes orales para el control de su enfermedad. Recolección de datos y cálculo de los estadísticos necesarios. es razonable combinar los datos de las dos muestras para obtener una estimación combinada de P = P1 = P2. El estadístico de prueba es z. b) Para cada una de las muestras. de los cuales sólo 6 (4. Descripción de la población que interesa y planteamiento de las supuestos necesarios. z = 1. Éste resulta de: a) 0. H1: P1P2 o “la proporción de diabéticos en el grupo 1 que utilizan dos o más hipoglucemiantes orales en su tratamiento no es igual a la de diabéticos en el grupo 2”. Con esto. z = 1. que se distribuye normalmente con media igual a cero y desviación estándar igual a uno. Cuando es así. está interesado en saber si su impresión corresponde a la existencia de una diferencia estadísticamente significativa. a) La población es binomial. p1 – p2 . Él ha observado que. Cuando la información se resume de esta manera. se pueden aplicar algunos análisis estadísticos. 0. y. cada uno de los cuales ocurre en dos niveles.10). primero se estima la proporción común mediante p= 109 Cuadro 15-2. 15-3 Epi Info no tiene un módulo que permita realizar una prueba de Z para dos proporciones. 9. 0. se comparan estas frecuencias con las que se esperarían si fuera verdadera la hipótesis nula. Frecuencias observadas para los datos del ejemplo explicativo 15-3 Utilizan dos hipoglucemiantes orales Cuadro de contingencia 2 2 El cuadro de contingencia más utilizado es el conocido como 2 × 2. 0. Cómo hacerlo en Epi Info. pero sí se puede realizar una prueba de chi-cuadrada. se puede recurrir a pruebas de hipótesis estadísticas basadas en proporciones (véase ejemplo explicativo 15-3). se puede emplear z como estadístico de prueba. Por último. Siempre que se presenten resultados de este tipo.92) = + 150 125 8. es importante mencionar el nivel de significancia utilizado. Luego.7).048 0. .3.08(0.048)125 = 0. Ejemplo explicativo 15–4 El ejemplo explicativo 15-3 trata sobre diabéticos y esquemas de tratamiento. de los 275 sujetos estudiados. los investigadores definen categorías mutuamente excluyentes y registran la frecuencia observada con que los elementos de estudio se pueden incluir en estas categorías. Para realizar esta prueba. Prueba chi-cuadrada Cuando el análisis se basa en conteos o frecuencias de variables cualitativas (y no en medidas cuantitativas tales como centímetros. se rechaza la hipótesis nula. cuando H0 es verdadera. . el resultado encontrado por el investigador en el grupo estudiado se localiza en la región de rechazo de la hipótesis nula. 15-4. © Editorial El manual moderno Fotocopiar sin autorización es un delito. En el cuadro 15-3 se presentan los datos en un cuadro de contingencia de este tipo. Esos datos pueden presentarse en un cuadro de contingencia 2 × 2. tal como se describe en Cómo hacerlo en Epi Info. Por otra parte. kilogramos o puntajes).Pruebas de hipótesis para una.048) 0 = 180 .952 125 = 5. mientras que 134 del mismo grupo no los utilizan. los renglones y las columnas marginales presentan los totales. )150 + (0.107 0. Dado que las dos muestras son lo suficientemente grandes para utilizar la aproximación a la normal de la binomial (0. Ambas variables son cualitativas dicotómicas. Cuadros de contingencia Los cuadros de contingencia son arreglos ordenados de frecuencias que se acomodan en celdas definidas por columnas y renglones. Dado que el valor z calculado en el punto anterior es superior al valor z tabulado en el punto 6. Para ello. Conclusión. En el cuadro 15-3 se muestra que.05. A continuación se presenta una tabla de este tipo (cuadro 15-2). Si la diferencia entre las frecuencias observadas y las esperadas es demasiado grande para atribuirla a la casualidad. Tan sólo hay que notar que en cada celda se registran frecuencias absolutas y no relativas.08 150 + 125 para continuar calculando el valor de z que corresponde mediante z= ( 0107 . 16 del grupo 1 utilizan dos o más hipoglucemiantes. Resultados semejantes pueden lograrse mediante el uso de la prueba de chi-cuadrada.893 150 = 14. que consiste en una tabla con dos hileras y dos columnas en las cuales los sujetos se clasifican según dos criterios. Cuadro de contingencia 2 x 2 Segundo criterio de clasificación Sí No Total Primer criterio Sí a b a+b De clasificación No c d c+d Total a+c b+d a+b+c+d (0107 .92) 0. Decisión estadística.08(0. en particular cuando el valor de es diferente de 0. por lo que ésta se rechaza. entre los que se encuentran varias pruebas de chi-cuadrada y la prueba exacta de Fisher. Sí No Total Muestra del grupo 1 16 134 150 Muestra del grupo 2 6 119 125 Total 22 253 275 . seis sujetos del grupo 2 utilizan dos o más hipoglucemiantes y 119 no lo hacen. Para poder llegar a una de- Cuadro 15-3. La prueba de chi-cuadrada se basa en la independencia de dos criterios de clasificación. Se concluye que “la proporción de diabéticos en el grupo 1 que utilizan dos o más hipoglucemiantes orales en su tratamiento no es igual a la proporción de diabéticos que en el grupo 2 utilizan dos hipoglucemiantes orales” y que la diferencia es estadísticamente significativa (p < 0. Es decir. suponemos que las variables son independientes entre sí.8) 2 La distribución chi-cuadrada es una familia de distribuciones. donde “gl” son los grados de libertad. Cuando la hipótesis nula es verdadera. Para terminar. Determinación de los grados de libertad Para calcular los grados de libertad se utiliza la fórmula: gl = (r – 1)(c – 1).Bioestadística cisión sobre la independencia de dos criterios. Cuando la hipótesis nula es verdadera porque las dos variables son independientes. n. el estadístico X2 calculado mediante la fórmula 15.5. siguiendo la hipótesis de independencia. 2. Determinación de frecuencias esperadas Cuando dos eventos son independientes. “r” es el número de renglones o filas y “c” es el número de columnas.5 se aproxima a la distribución chi-cuadrada. 6. cuando las frecuencias esperadas son iguales o mayores de 5. generalmente se analizan los datos de dos o más muestras y se obtienen conclusiones acerca de la población a partir de los resultados de la muestra. 110 . Se considera que. La variable 2. el estadístico de prueba 2 se distribuirá aproximadamente como una distribución chi-cuadrada. Al hacerlo. en el anexo G se muestran los valores de 2 para varios grados de libertad y diversos valores de probabilidad. se multiplica cada una de las probabilidades conjuntas por el tamaño total de la muestra. Clasificar cada sujeto según las categorías de cada variable en estudio. Para facilitar el uso de esta distribución. Distribución 2 Si n x )2 ( xi s2 = i =1 n 1 es la varianza de una muestra aleatoria de tamaño n de una población distribuida normalmente con media y varianza 2. la probabilidad de que un sujeto tomado al azar en esta población esté caracterizado por algún nivel de ambos criterios se estima mediante (nj /n)(ni /n). Para aplicar esta prueba. 5. se obtiene Eij = (ni. pues existe una para cada grado de libertad. Tomar muestras aleatorias de las poblaciones de interés. hay que seguir los pasos que se describen a continuación: 1. se rechaza la hipótesis nula y concluimos que la diferencia observada es estadísticamente significativa. Comparamos las frecuencias esperadas y observadas mediante X2 = r c i =1 j 1 (O ij E ij ) 2 %%! E ij donde Oij es la frecuencia observada y Eij es la frecuencia esperada para la celda ij. E ij = ni n nj n n %&! Si se simplifica la ecuación. que se representa mediante el símbolo griego (chi) con el exponente 2. Entonces. © Editorial El manual moderno Fotocopiar sin autorización es un delito. cuando las frecuencias esperadas son pequeñas. Las celdas contienen los conteos o frecuencias de los elementos clasificados según la combinación de categorías de las variables en estudio. j ) n %?! que establece un método abreviado y conveniente para calcular las frecuencias esperadas. sólo toma valores positivos entre 0 e . En la figura 15-4 se muestra la distribución chi-cuadrada para varios grados de libertad. )(n. entonces (n – 1)s2/2 tiene una distribución que se conoce con el nombre de distribución chi-cuadrada. El área total limitada por la curva de la distribución chi-cuadrada y los ejes de la gráfica es igual a uno. 2 = (n 1)s 2 (15. esta aproximación no es tan cercana y su utilización puede conducir a errores de interpretación. Es necesario notar la diferencia conceptual entre X2 y 2: la primera es el resultado de la Fórmula 15. son lo suficientemente grandes para utilizar la distribución de chi-cuadrada. Sin embargo. Frecuencias esperadas pequeñas Cuando las frecuencias esperadas para cada celda son grandes. dado que se trata de una razón. mientras que 2 corresponde a la distribución de probabilidad que se presenta en el anexo G. 2. 4. el valor de 2 calculado se aproxima a 1 y es menor que el valor de 2 tabulado para los grados de libertad que $ " $ ~ $ Cuando el valor de X2 calculado es mayor que el de 2 tabulado. comparamos el valor calculado de 2 con el valor tabulado de 2. la probabilidad de su ocurrencia conjunta es igual al producto de sus probabilidades individuales. 2. Se calculan las frecuencias esperadas (véase más adelante) para cada celda. 3. Anotar los conteos o frecuencias en un cuadro de contingencia. Con el fin de obtener las frecuencias esperadas de las celdas de la tabla de contingencia. Recuerde que las categorías de una variable forman las filas de la tabla y las categorías de la otra variable forman las columnas. aunque generalmente se acepta como adecuada su utilización en cuadros de contingencia con más de cuatro celdas cuando en menos de 20% de las celdas se encuentran frecuencias esperadas menores de 5. se obtienen las frecuencias esperadas de la siguiente manera: Celda a = 22(150)/275 = 12 Celda b = 253(150)/275 = 138 Celda c = 22(125)/275 = 10 Celda d = 253(125)/275 = 115 las cuales se pueden acomodar en el cuadro 15-4. y mediante el auxilio de la tabla de distribución de chi-cuadrada del anexo G. que define las regiones de rechazo y aceptación.10. 4. (r – 1)(c – 1) = (2 – 1)(2 – 1) = 1.Pruebas de hipótesis para una. mediante la fórmula 15. éste define la región de rechazo y aceptación (figura 15-5). 111 1. cuando H0 es verdadera. con (r – 1)(c – 1) grados de libertad. no es indispensable la selección de un estadístico pertinente. para esta prueba. que para este ejemplo está formada por dos renglones y dos columnas. Distribuciones chi-cuadrada para varios grados de libertad. 2.10 = 0. se procede como sigue: i) Al total del área de la distribución (1. 7. d) Con lo anterior. Para realizar la prueba de chi-cuadrada. según el ejemplo explicativo 15-3. Descripción de la población que interesa y planteamiento de los supuestos necesarios. . H1: “el uso de dos o más hipoglucemiantes orales por parte de un enfermo de diabetes no es independiente del grupo al que pertenece”. la diferencia observada entre dos grupos puede hacerse notar mediante una diferencia de proporciones. = 0. Especificación de las regiones de rechazo y aceptación. que corresponden a 2. 2 gL 4 gL 6 gL 5. este supuesto puede confirmarse durante el procedimiento mediante el cual se calcula el estadístico de prueba).10. supóngase que el investigador seleccionó este nivel de significancia para la prueba. En el cuadro 15-3 se muestran las frecuencias observadas. la probabilidad de ocurrencia aleatoria de una p de ese tamaño o menor es igual o mayor de 0. Sin embargo. 3. también se puede decir que P1 = P2 o “la proporción de diabéticos en el grupo 1 que utilizan dos o más hipoglucemiantes orales en su tratamiento es igual a la proporción de diabéticos en el grupo 2”. c) Para la prueba de chi-cuadrada. Planteamiento de la hipótesis. Para este caso también se puede decir que P1 P2 o “la proporción de diabéticos en el grupo 1 que utilizan dos o más hipoglucemiantes orales en su tratamiento no es igual a la proporción de diabéticos en el grupo 2”. A partir de ellas. = 0. e) Una vez obtenido el valor crítico.0) se le resta el valor de a (1. Recolección de datos y cálculo de los estadísticos necesarios. Selección del estadístico pertinente. . la región de rechazo es una: se encuentra a la derecha de la distribución y está formada por aquella parte de la distribución chicuadrada que incluye todos los valores de 2 tales que. p1 – p2. 10 gL X2 Figura 15-4. H0: “el uso de dos o más hipoglucemiantes orales por parte de un enfermo de diabetes es independiente del grupo al que pertenece”.90).10. se localiza de la siguiente manera: a) La prueba de chi-cuadrada siempre es una prueba de dos colas. se procede de la siguiente manera: © Editorial El manual moderno Fotocopiar sin autorización es un delito. cada uno clasificado según dos categorías. b) Recordemos que. las respuestas son del tipo “sí” o “no”. 6. Selección del nivel de significancia. El valor crítico de la prueba. Para hacerlo. . b) No existen frecuencias esperadas pequeñas (en todo caso. El estadístico de prueba es X2. iii) Entre los renglones se buscan los grados de libertad que corresponden a la tabla de contingencia en que se acomodan los datos. a) La población es nominal.7. Ejemplo explicativo 15-5 Los datos presentados en el ejemplo explicativo 15-3 también pueden analizarse desde la perspectiva de la prueba chi-cuadrada. Para este caso.0 – 0.706. Dado que en este ejemplo se está haciendo la comparación entre dos grupos. c) Los sujetos que conforman las muestras han sido seleccionados de manera independiente. cada uno clasificado según dos criterios. Especificación del estadístico de prueba y consideración de su distribución. que se distribuye como 2 . cuando el interés es comparar dos grupos.90) se busca entre las columnas del cuadro de distribución chi-cuadrada del anexo G. ii) El valor resultado (0. además de las frecuencias en un cuadro de contingencia 2 x 2.10).9. Después de alimentar las frecuencias de un cuadro de contingencia 2 x 2. con corrección de Mantel-Haenszel y con corrección de Yates (figura 6-8). Recuérdese que es importante mencionar el nivel de significancia utilizado. 1. Para este caso se concluye que “la proporción de diabéticos en el grupo 1 que utilizan dos o más hipoglucemiantes orales en su tratamiento no es igual a la proporción de diabéticos en el grupo 2” y se señala que la diferencia es estadísticamente significativa (p < 0. + 0. En Epi Info. las frecuencias se presentan en un cuadro con cuatro celdas formadas por dos renglones y dos columnas. 2. se definen las variables de interés (revisar “Cómo hacerlo en Epi Info. mediante el comando “Tables” (tabla). por lo que ésta se rechaza. desde una tabla de datos en “Analyze Data” (analizar datos). Conclusión. 8.139 = 3188 . Cuadro 15-4. Dado que el valor 2 calculado en el punto anterior es superior al valor 2 tabulado en el punto 6. 6-2”).10) © Editorial El manual moderno Fotocopiar sin autorización es un delito.706 X 2 Figura 15-5. Frecuencias esperadas para los datos del cuadro 15-3 Utilizan dos hipoglucemiantes orales Sí No Total Muestra del grupo 1 12 138 150 Muestra del grupo 2 10 115 125 Total 22 253 275 Se continúa calculando el valor de X2 utilizando la fórmula 15. La chi-cuadrada con corrección de Mantel-Haenszel se calcula mediante 2 = X MH (n 1)(ad bc)2 (a + c)(b + d )(a + b)(c + d ) (15. (16 + 6)(134 + 119)(16 + 134)(6 + 119) Correcciones de Mantel-Haenszel y de Yates Cuando las muestras son pequeñas y las frecuencias esperadas menores de 5.5 de la siguiente manera: (16 12) 2 (134 138) 2 (6 10) 2 (119 115) 2 + + + 12 138 10 115 = 1333 .116 + 1600 . En estos casos se puede calcular el estadístico X2 utilizando la siguiente fórmula abreviada: X2 = 9. 6. encontraremos los mismos valores de chi-cuadrada (figura 6-11) que en el inciso anterior. los n ( ad bc ) 2 ( a + c)(b + d )( a + b )( c + d ) %Q! Ejemplo explicativo 15-6 Para el caso del ejemplo explicativo 15-3: X2 = 275(16 119 134 6) 2 = 3188 . en especial cuando el valor de es diferente de 0.2”). Cuando las dos variables son dicotómicas. resultados nos mostrarán. + 0. Fórmula abreviada de chi-cuadrada para tablas 2 x 2 Cuando se tiene un cuadro de contingencia formado por dos variables dicotómicas. 2 = z2. a medida que la muestra es más pequeña. se puede utilizar las correcciones propuestas por Mantel-Haenszel y por Yates a la fórmula 15.05. Cómo hacerlo en Epi Info. el resultado se localiza en la región de rechazo de la hipótesis nula. opción “Classic” (clásica). La prueba de chi-cuadrada y la prueba de hipótesis para la diferencia de dos proporciones permiten llegar a la misma conclusión cuando se trata de valores 2 con un grado de libertad. Región de rechazo y aceptación para el ejemplo ilustrativo 15-5. Decisión estadística.112 Bioestadística Aceptar Ho Rechazar Ho 0 2. la prueba es más estricta. X2 = . las estimaciones de Riesgo relativo y de Odds ratio (con sus intervalos de confianza) y los valores de chi-cuadrada sin corregir. Estas correcciones modifican el valor de n en la fórmula de tal manera que. 15-4 Epi Info cuenta con varios módulos en los que se pueden hacer pruebas de chi-cuadrada. En Epi Info se puede utilizar el módulo “StatCalc” (revisar “Cómo hacerlo en Epi Info. z o chi-cuadrada). ya que pqn para cada uno de los tratamientos es menor de cinco.. la hipótesis alterna concluiría que las variables no son independientes. se basa en los totales observados en columnas y renglones. 15-5 Revisar “Cómo hacerlo en Epi Info. Tampoco se pueden utilizar los procedimientos estudiados para la diferencia de proporciones mediante la distribución z. también se puede utilizar la prueba de chi-cuadrada. = pc. Al igual que para la prueba chi-cuadrada. Cuando se quieren comparar dos proporciones. donde el número de proporciones corresponde al número de poblaciones a comparar. Supóngase que un investigador está interesado en estudiar las complicaciones que resultan de tratar un grupo de enfermos con un nuevo tratamiento quirúrgico y compararlas con las de otro más convencional. Por último. la hipótesis nula adquiere la forma H0: p1 = p2 = p3 = . . aunque la interpretación de los resultados es muy compleja. la de Yates es la más estricta. En primer lugar. De las tres pruebas de chi-cuadrada descritas. se procede de la siguiente manera: . El procedimiento es semejante al descrito en el ejemplo explicativo 10–5. pero siempre serán mayores de uno.. cuando se rechaza la hipótesis nula. sí se puede utilizar la prueba exacta de Fisher. gl = (r – 1)(c – 1). Aunque a partir del resultado de significancia no sabríamos cuál de ellas es diferente. De rechazar la hipótesis nula. es necesario sumar todas las probabilidades de tablas con probabilidad menor o igual a la tabla que corresponde a los datos observados. y se puede probar la hipótesis nula. Entonces se utiliza la prueba exacta de Fisher. Se identifican todas las tablas de contingencia que tendrían los mismos totales de columna y renglón. el resultado de la prueba exacta de Fisher es el valor de p. mientras que la chi-cuadrada con corrección de Yates se calcula mediante 2 = X Yates (n 1)(| ad bc | n 2 ) 2 %! (a + c)(b + d )(a + b)(c + d ) donde “| |” significa “valor absoluto de . pero la hipótesis nula se refiere a la independencia de las variables y no se puede expresar simbólicamente.Pruebas de hipótesis para una. Sin embargo. la hipótesis alterna se expresa de la siguiente manera: “alguna de las proporciones es diferente a las demás”. pero sería difícil mostrar la magnitud de la asociación. Los datos recabados por el investigador se muestran en el cuadro 15-5. .. no se puede utilizar la prueba de chi-cuadrada. ya que en varias celdas la frecuencia esperada es menor de cinco. Los valores esperados y los grados de libertad se calculan de manera semejante a los cuadros de contingencia 2 2 y r 2. 2. Cómo hacerlo en Epi Info. En estos casos. La muestra que se presenta en el cuadro 15-5 es pequeña y no se puede utilizar el procedimiento de chi-cuadrada.”.. Ejemplo explicativo 15-7 Para el caso del ejemplo explicativo 15-3: 2 X MH = (275 1)(16 119 134 6)2 = 3. . Se calcula la probabilidad asociada con cada tabla de contingencia mediante la siguiente fórmula: (a + b)!(a + c)!(b + d)!(c + d)! %"! n !a !b !c !d ! En ésta. c y d corresponden a las frecuencias absolutas anotadas en las celdas correspondientes de un cuadro de contingencia 2 2.177 (16 + 6)(134 + 119)(16 + 134)(6 + 119) Verificación de hipótesis de una proporción entre varias poblaciones © Editorial El manual moderno Fotocopiar sin autorización es un delito. Ésta es un procedimiento estadístico de prueba de hipótesis que. 113 Muestras pequeñas: prueba exacta de Fisher Cuando existe interés en comparar dos grupos mediante proporciones y las muestras son tan pequeñas que pqn y las frecuencias esperadas son menores de cinco (en una tabla de contingencia). porque no existen restricciones en cuanto al tamaño de la muestra para ella. 15-4”. la fórmula para calcular los grados de libertad es la misma. . El procedimiento incluye los siguientes pasos: 1. y n es igual a a + b + c + d. con este procedimiento se evalúa la independencia entre las categorías correspondientes a los renglones y las columnas. cuando existe interés en comparar más de dos proporciones. Sin embargo. aunque es diferente de la prueba de chi-cuadrada. para calcular la probabilidad de obtener una diferencia entre los grupos al menos tan grande como la diferencia observada. se puede elegir entre una prueba de hipótesis para la diferencia de proporciones o una prueba chi-cuadrada. El procedimiento consiste en evaluar la probabilidad asociada con todos los cuadros 2 × 2 posibles que tendrían los mismos totales que el cuadro de contingencia con los datos observados. ya que ambas nos brindan resultados semejantes. ej. Por último. el resultado que se obtiene no tiene que compararse con tabla alguna. b. aunque existen algunas diferencias. Ejemplo explicativo 15-8 Tabla de contingencia r x c Cuando las dos variables de interés tienen más de dos categorías. Dado que el valor final es una probabilidad. 3. A diferencia de otras pruebas estadísticas (p. Así. la única opción es una prueba de chi-cuadrada. a. además de que demanda una gran cantidad de cálculos que pueden ser difíciles de realizar. Cuadro 15-5. al seleccionar los sujetos a estudiar se ha decidido que éstos han de estar pareados. 3. entre los que se encuentra el módulo STATCALC del paquete Epi Info.12. la selección de los sujetos que componen uno de los grupos de estudio no ha sido independiente. y de igual manera para las mujeres. como se muestra en el cuadro 15-7. la diferencia observada en los datos de este ejemplo explicativo es significativa para = 0. otro del sexo masculino se asigna al grupo B. Planteamiento de la hipótesis.Bioestadística 1. Tal como puede observarse.05. Se calcula la probabilidad asociada con cada tabla de contingencia mediante la fórmula 15. Se calcula la probabilidad de obtener una diferencia entre los grupos al menos tan grande como la observada: Z'K?W$QW0.02360'#% Sólo restaría comparar la probabilidad calculada en el punto anterior con la significancia asignada a la prueba de hipótesis. los grupos a estudiar han sido pareados atendiendo a una o más variables de control. la evolución y la respuesta al tratamiento que se observan entre varones y mujeres son diferentes. El procedimiento manual es entretenido. es decir. aun con la ayuda de una calculadora. Cómo hacerlo en Epi Info. 15-6 El resultado de la prueba exacta de Fisher se podrá encontrar en los cuadros de StatCalc (revisar la figura 6-11). H0: P1 = P2 o “la proporción de pacientes que sobreviven a la enfermedad en el grupo con tratamiento A es igual a la proporción de pacientes que sobreviven a la enfermedad en el grupo con tratamiento B”. Sin embargo. Por ello. las cuales se presentan en el cuadro 15-6. En esta enfermedad. Ejemplo explicativo 15-9 Supóngase que se tiene interés en el tratamiento de una enfermedad mortal. En estos casos. 114 . porque consume mucho tiempo. Cuadro 15-6. el pareamiento ha de tomarse en cuenta durante el análisis estadístico. Frecuencias observadas Complicaciones Sí No Total Tratamiento nuevo 1 5 6 Tratamiento convencional 8 2 10 Total 9 7 16 Muestras grandes En ocasiones. 1. se diseña un ensayo clínico mediante el cual se pretende comparar dos esquemas de tratamiento (A y B). En otras palabras. cuando un sujeto del sexo masculino es asignado al grupo A. Se supone que la proporción de pacientes que se pueden mantener con vida con un tratamiento es superior que con el otro. PRUEBA DE HIPÓTESIS PARA DIFERENCIA DE PROPORCIONES EN COMPARACIONES PAREADAS 2. Por tanto. Se identifican todas las tablas de contingencia que tendrían los mismos totales de columna y renglón. H1: P1 P2 o “la proporción de pacientes que sobreviven a la enfermedad en el grupo con tratamiento A es diferente a la proporción de pacientes que sobreviven a la enfermedad en el grupo con tratamiento B”. Tablas de contingencia que tienen los mismos totales de columna y renglón que la presentada en el cuadro 15-5 (i) (v) 0 6 9 1 4 2 5 5 (ii) (vi) 1 5 8 2 5 1 4 6 (iii) (vii) 2 4 7 3 6 0 3 7 (iv) 3 3 6 4 © Editorial El manual moderno Fotocopiar sin autorización es un delito. la prueba exacta de Fisher puede realizarse con gran facilidad en algunos programas de cómputo. la diferencia de proporciones muestrales. Durante el estudio. Diferencia de proporciones.4951. El estadístico de prueba es z. 5.02360 (iii) 2 4 7 3 0. porque la consecuencia de cometer un error en la interpretación de los resultados es muy trascendente. 700 sujetos fueron tratados en el grupo A y 700 sujetos pareados por sexo fueron tratados en el grupo B. Selección del estadístico pertinente. p1 – p2 .01/2 = 0.15734 (iv) 3 3 6 4 0. los datos se acomodan de la manera que se muestra en el cuadro 15-8: La información de los 700 pares de sujetos estudiados puede resumirse en el cuadro 15-9: A partir del cuadro anterior. Resultados del ensayo clínico con sujetos pareados del ejemplo explicativo 15-9 Par i Respuesta al tratamiento A Respuesta al tratamiento B 1 Sí Sí 2 Sí No 3 No Sí . que define las regiones de rechazo y aceptación. se calcula mediante p1 p2 = a +b npares a+c b c = npares npares %$! %#! El error estándar se calcula mediante p1 p2 = b+c npares %%! Cuadro 15-8.005 = 0. Cuadro 15-7. Así.01/2 = 2. 0.99999 2. La población es binomial. Especificación del estadístico de prueba y consideración de su distribución.36713 (v) 4 2 5 5 0. de modo que las respuestas son del tipo “sí” o “no”.. El valor crítico de la prueba. Descripción de la población que interesa y planteamiento de los supuestos necesarios. Antes de procesar los datos. con la única diferencia de que para este ejemplo explicativo = 0.33042 (vi) 5 1 4 6 0. y c corresponde al número de sujetos en el tratamiento A que no respondieron satisfactoriamente al tratamiento y los sujetos en el tratamiento B que sí lo hicieron. 4.495. se localiza de manera semejante al ejemplo explicativo 15-1.00087 (ii) 1 5 8 2 0. ..58) o una interpolación de ambos.5 – 0. se estudiaron 1 400 sujetos.575. z = 2. Por tanto. . 3. que se distribuye normalmente con media igual a cero y desviación estándar igual a uno. es necesario tener presente que el pareamiento modifica sustancialmente el manejo de los datos. © Editorial El manual moderno Fotocopiar sin autorización es un delito. por lo que se puede tomar el valor z inmediato anterior (p = 0. Es decir. 6.01049 Total P 0. z = 2.575 (positivo y negativo). = 0.11014 (vii) 6 0 3 7 0. Éste resulta de: a) 0.495. el inmediato posterior (p = 0. Especificación de las regiones de rechazo y aceptación. Recolección de datos y cálculo de los estadísticos necesarios.01. p1 – p2 . Probabilidades asociadas con cada una de las tablas mostradas en el cuadro 15-6 a b c d (i) 0 6 9 1 0. que corresponde a 2. Selección del nivel de significancia. b corresponde al número de pares en los cuales el sujeto en el tratamiento A respondió y el sujeto en el tratamiento B no respondió. los valores críticos corresponden a z0.57).01. Al tabular los datos pareados se tiene que cuantificar el resultado de los pares y no el resultado de cada sujeto.005. 7.4949. Supóngase que el investigador selecciona este grado de significancia.Pruebas de hipótesis para una. b c z= b+c 115 En ésta. b) En la tabla de distribución normal no se encuentra el valor 0. Resumen de la información proveniente del cuadro 15-8 Respuesta al tratamiento A Respuesta al tratamiento B Número de pares Representados mediante Sí Sí 99 a Sí No 82 b No Sí 16 c No No 503 d . 698 Sí Sí 699 No Sí 700 No No Cuadro 15-9. Cuando el número de pares discordantes es grande. se lee “valor absoluto de . Sin embargo. el valor de zc es menor que el de z.01).. Tan sólo se sustituye la fórmula 15.Bioestadística Muestra pequeñas Por último. © Editorial El manual moderno Fotocopiar sin autorización es un delito. sin tomar en cuenta el signo que se derive de la sustracción. Cuando las muestras son pequeñas.16) 82 16 b c = = 6. 116 . los valores de z y zc son semejantes. el procedimiento es semejante al anterior. Dado que el valor z calculado en el punto anterior es superior al valor z tabulado en el punto 6. indican que se tomará el valor absoluto del resultado. Por ello. Conclusión. que contempla una corrección de continuidad: zc = b c 1 b+c (15. cuando los pares discordantes son pocos.17.”.. Decisión estadística. Recuérdese que es conveniente señalar el nivel de significancia. en especial cuando el valor de es diferente de 0.16 por la fórmula 15. por lo que ésta se rechaza. Se concluye que “la proporción de pacientes que sobreviven a la enfermedad en el grupo con tratamiento A es diferente a la proporción de pacientes que sobreviven a la enfermedad en el grupo con tratamiento B” y que la diferencia es estadísticamente significativa (p < 0.17) Las dos líneas rectas que encierran el componente b – c. el estadístico de prueba es igual a z= = (b c) / n pares b + c / n pares (15.05. 9. el resultado se localiza en la región de rechazo de la hipótesis nula. ”| |”.67 b+c 82 + 16 8. datos . En cuál de los dos grupos (casos. Diga si la diferencia observada es estadísticamente significativa (p Cuadro 15-11 © Editorial El manual moderno Fotocopiar sin autorización es un delito. A partir de ellos: a. (1991). Desea comparar dos tratamientos (A y B) aplicados mediante gotas oftálmicas. 117 Ejercicios Ejercicio 1 Ejercicio 2 El cuadro 15-10 muestra los resultados de un estudio que busca identificar factores de riesgo de lesión sufrida al momento de bajar de un autobús destinado al transporte público. Calcule los porcentajes de las columnas. Diga si la diferencia observada es estadísticamente significativa ( 0. México: McGraw-Hill. A partir de los resultados del cuadro 15-10. W. Calcule la diferencia de proporciones en la respuesta satisfactoria b. Estadística con aplicaciones a las Ciencias Sociales y a la Educación. seleccionándolos aleatoriamente.cdc. y para cada una de las variables que se presentan: Cuadro 15-10 Casos # Controles % # X2 % Tenía prisa por llegar a su destino Sí 12 28 No 48 92 Sintió que otra persona le presionó al bajar Sí 14 30 No 46 90 No 11 7 Sí 49 113 Sí 25 13 No 35 107 Parada en el lugar solicitado El vehículo se movió cuando bajaba a. W. CDC. controles) se presenta con mayor frecuencia la exposición al factor de riesgo (identificado con el grupo “sí”. Grupo con tratamiento A Grupo con tratamiento B Con mejoría Sin mejoría Total de pares Con mejoría 7 9 16 Sin mejoría 6 8 14 Total de pares 13 17 30 REFERENCIAS Altman. L.. & Van Belle. Daniel. D. Disponible en http://wwwn. Londres: Chapman and Hall.05) Ejercicio 3 Un investigador está interesado en el tratamiento de la conjuntivitis viral. donde la exposición corresponde a “no”) b. G. (1988). . Calcule el valor de z correspondiente para muestras pareadas c.PruebasPresentación de hipótesis de para losuna.gov/epiinfo/ Fisher. Practical statistics for medical research. Biostatistics. New York: John Wiley & Sons. identifica un grupo de 30 pacientes con conjuntivitis a quienes aplica. Epi Info 7. (1993). D. Para hacerlo. los Odds Ratios y los valores que correspondan a una prueba chi-cuadrada. G. excepto para la “parada en el lugar solicitado”. un medicamento en el ojo derecho y otro en el ojo izquierdo. A methodology for the Health Sciences. El cuadro 15-11 muestra los resultados.. . N xi N i =1 16 Estimaciones de intervalo para una y dos variables N ( xi μ ) 2 cualitativas 2 i =1 = ESTIMACIÓN DE INTERVALO PARA UNA PROPORCIÓN MUESTRAL Cuando interesa conocer la proporción con que una característica se presenta en una población y sólo se dispone de la información que ofrece una muestra. Las estimaciones de intervalo permiten realizar inferencias estadísticas de variables cualitativas dicotómicas cuando se desconoce el parámetro de interés. lo cual representa una ventaja en relación con la prueba de hipótesis sobre una proporción poblacional única. Muestra grande © Editorial El manual moderno Fotocopiar sin autorización es un delito. se espera encontrar el parámetro de interés. es posible definir un rango de valores entre los cuales. con una confianza conocida. Cuando la muestra es grande. de tal manera que pqn. procede de la siguiente manera: 1. con una confianza de 95%. Así. o se estima mediante A partir de la muestra se obtiene el estadístico pˆ 0. la proporción poblacional de lesionados en acciden- 119 . xo + z /2 PQ / n (16. ( 0.05) = 0. por lo que para = 0. z = 1. El investigador decide estudiar una muestra aleatoria de 400 lesionados en accidentes de trabajo.05. para el presente ejemplo explicativo: p = 01 . así. Se calcula pˆ 0(que es la proporción de una sola muestra) p0 q0 / n.95.9 = 0.1 × 0.10.2) Cuando no se conoce el parámetro. Así. = PQ / n . 0.15 ) = 0. de tal manera que la fórmula 16. xi ) = po ± z IC(1 /2 p0 q0 / n (16.05 también se define el nivel de confianza que se pretende considerar. para 1 – 0.015 400 IC(1 0. El valor de z que se va a utilizar es el que se encuentra sumando el valor de la primera celda de izquierda a derecha en la fila y el valor de la primera celda de arriba hacia abajo de la columna.9 × 400 = 36. Se obtiene una muestra aleatoria simple de tamaño n.026 IC(1– 0. 2. pˆ i =1 N N 3.3) Por ello. la proporción muestral puede sustituir a la poblacional.1) La fórmula anterior también puede representarse como IC(1 ) = po ± z /2 PQ / n (16. 1 – . Al definir = 0.96 4. que se cruzan en (1– )/2. se puede utilizar la aproximación a la distribución normal al realizar inferencias estadísticas con estos datos. expresándolo en porcentaje. Se construye el intervalo sumando y restando a pˆ 0 el valor pˆ = PQ / n . Tomando como base a 1 – .05 corresponde un nivel de confianza de 0. de los 400 sujetos lesionados 40 eran adolescentes. se obtiene el valor apropiado de z mediante la tabla de la distribución normal estandarizada.10 ± 0.2 también se representa como Ejemplo explicativo 16-1 Un investigador está interesado en saber qué proporción de los lesionados en accidentes de trabajo son adolescentes. por lo que pˆ 0 = 0.05) = 0. Ya que pqn = 0. Se selecciona un coeficiente de confianza.029 se acostumbra multiplicar por 100 el grado de confianza. En el presente ejemplo explicativo.10 ± 196 . IC(1 ) = po z /2 PQ / n .10 ± 0. pˆ 0 = 5/25 = 0. corresponde a x k n! pUk (1 pU ) n k !( n k )! 0 k = /2 (16. 15-2”). 4. 16-1 Epi Info cuenta con dos módulos en los que se pueden calcular intervalos de confianza para una proporción. se selecciona “OpenEpi. Con esto. No obstante la importancia de su investigación.“Proporción” y. std. tal como se muestra en el cuadro de la figura 16-2. se calcula mediante n n! (16.8 × 25 = 4.071 y 0. Se calcula pˆ 0 (que es la proporción de una sola muestra). com” (figura 16-1). Ya que pqn = 0. sólo tendrá que calcularlas. Los resultados desplegados mostrarán. Ejemplo explicativo 16-2 .com.. cuenta con pocos recursos y su muestra debe ser pequeña. Por ello. produce menos molestias en el posoperatorio de los pacientes. En Epi Info 7. 2. Para esta prueba no es necesario buscar el valor de z en las tablas de distribución estandarizada.407. Cuando se abra la página. mediante el cual se encuentra que.5) Realizar las operaciones que demandan las fórmulas 16. desde STATCALC.) de Epi Info 7.2 × 0.129. se supone. después del cuadro de frecuencias. en “Introducir datos”. se recurre al módulo EPITABLE de Epi Info 7. Caso especial: x = 0 Cuando el parámetro a estimar está muy cerca de 0.)” tal como se mostró en la figura 15-2. Cuando éste es el caso: 1. Se construye el intervalo de la siguiente manera: El límite inferior del intervalo. Se selecciona un coeficiente de confianza. desde una tabla de datos en “Analyze Data” (analizar datos). los intervalos de confianza de 95% para cada una de las categorías que tenga la variable (figura 6-5). Supóngase que sólo dispone de recursos para estudiar 25 pacientes. se selecciona “Binomial (proportion vs. Si lo desea en proporción.5 puede tomar mucho tiempo. aun con el apoyo de una calculadora. En Epi Info 7. Cómo hacerlo en Epi Info. se utiliza la distribución binomial.4) p Lk (1 p L ) n k = / 2 k !( n k )! k x mientras que el límite superior. 6-1”). 3.0. se utiliza la estimación binomial para calcular el intervalo de confianza correspondiente. 3. 1. Muestra pequeña Cuando la muestra es pequeña y se desea estimar la proporción poblacional mediante un intervalo de confianza. Después de alimentar los datos (revisar “Cómo hacerlo en Epi Info. Figura 16-1. std. se hace clic en “Datos agrupados” . PU. el intervalo de confianza se mostrará en números absolutos (figura 15-3). ej.20. luego.6/n para estimar el nivel superior. pero los mismos resultados pueden lograrse utilizando alguno de los paquetes de cómputo dedicados a la estadística (p. © Editorial El manual moderno Fotocopiar sin autorización es un delito. “Binomial (proportion vs. PL. Después se alimentan los datos. De los 25 pacientes estudiados. Para un intervalo de confianza de 99% se utiliza 4. por lo que precisa estimar la proporción de pacientes que refieren molestias después del acto quirúrgico. En Epi Info 7. el módulo STATCALC.068 y 0. “Classic” (clásica) mediante el comando “Frequencies” (frecuencias) se definen las variables de interés (revisar “Cómo hacerlo en Epi Info. El procedimiento que se muestra a continuación es algo complejo.05. Cuando es así. sólo cinco refieren molestias después de la cirugía. no es posible utilizar la aproximación a la distribución normal al realizar inferencias estadísticas con estos datos.120 Bioestadística tes de trabajo que son adolescentes se encuentra entre 0. 2. 1 – . Una regla fácil de recordar consiste en que el intervalo de confianza de 95% tiene un límite inferior igual a 0 y un límite superior igual a 3/n. desde STATCALC. con una confianza de 95%.4 y 16. es muy probable que en una muestra no se identifique un solo sujeto que presente la característica de interés. Menú de Epi Info 7 que muestra la opción para OpenEpi. Un investigador está interesado en evaluar una técnica quirúrgica novedosa que. Se obtiene una muestra aleatoria simple de tamaño n. Se define = 0. la proporción poblacional de sujetos con malestares posquirúrgicos con la técnica en estudio se encuentra entre 0. Se obtiene una muestra aleatoria simple de tamaño n de cada población. Cuadro para introducir datos al calcular intervalos de confianza para una proporción. 1.Estimaciones de intervalo para. . y 125 sujetos en el grupo 2 (consúltese el ejemplo explicativo 15-3). El director de referencia estudió 150 sujetos en el grupo 1. Figura 16-3. en el cual un director de clínica está interesado en comparar la proporción de tratamientos combinados en dos grupos poblacionales de diabéticos. Ejemplo explicativo 16-3 Retómese el ejemplo explicativo 15-3. se mostrarán los intervalos de confianza calculados según varios métodos. ESTIMACIÓN DE INTERVALO PARA LA DIFERENCIA DE DOS PROPORCIONES MUESTRALES Muestras grandes La inferencia a partir de diferencias de proporciones también puede realizarse mediante estimaciones de intervalo. . Al hacer clic en “Resultados”. Resultados que muestran los intervalos de confianza en OpenEpi. Los re- sultados que se obtienen son semejantes a los de una prueba de hipótesis. . con una diferencia: las estimaciones de intervalo dejan bien claro en qué dirección se da la diferencia entre las muestras observadas. La opción resaltada en una barra de color sería la primera que se debe considerar (figura 16-3). 121 Figura 16-2. © Editorial El manual moderno Fotocopiar sin autorización es un delito. 2. mientras que la prueba de hipótesis. 1.Bioestadística 2.032 150 125 3.893 0. desde una tabla de datos en “Analyze Data” (analizar datos).7) Utilizando los datos del ejercicio. o 0. en “Introducir datos”. se puede calcular un intervalo de confianza. “Classic” (clásica) mediante el comando “Tables” (tabla) se definen las variables de interés (revisar “Cómo hacerlo en Epi Info. Obsérvese que el error estándar para la diferencia de proporciones que se muestra en esta sección.059 ± 0. se hace clic en “Resultados”. pero desde la perspectiva de las razones. se concluye que la igualdad de proporciones no se encuentra en el intervalo de confianza.10. se hace clic en “Datos agrupados” . 1 – . se acepta la hipótesis nula. una en cada población) y p1q 2 p2 q 2 + n1 n2 .059. que es el mismo que se empleó en el ejemplo explicativo 15–3.048 0. Cuando los límites inferior y superior del intervalo de confianza de una diferencia son del mismo signo (tal como en este ejemplo). El valor de z que se va a utilizar es el que se obtiene sumando los encabezamientos de la fila y la columna que se cruzan en 1 .006 a 0. el riesgo relativo es una razón de proporciones cuyo numerador está compuesto por la proporción de sujetos expuestos que presentaron el evento de interés (o incidencia en expuestos). y sus intervalos de confianza de 95% expresados como porcentajes (figura 6-8).048 = 0.952 + = 0. Cada grupo se clasifica según la característica de interés y las frecuencias observadas se acomodan de igual manera que en el cuadro 15–3. Ya que pqn > 5 para las dos muestras. Además. La significancia de este estadístico puede evaluarse mediante una Z para la diferencia de proporciones o una prueba de chi-cuadrada. p1q1 p2 q 2 z /2 + n1 n2 IC(1 ) = ( p1 p2 ) z /2 p1q1 p2 q 2 + . ESTIMACIÓN DE INTERVALO PARA LA RAZÓN DE DOS PROPORCIONES MUESTRALES Riesgo relativo En epidemiología. Al resultado se le conoce como riesgo relativo. 16-2 En Epi Info 7. luego. La razón de ello es que la estimación de intervalo no se sustenta en una hipótesis nula. tal como puede apreciarse al comparar estos resultados con los observados en el ejemplo explicativo 15-3. 122 . mientras que el denominador consiste en la proporción de sujetos no expuestos que presentaron el evento de interés. 0.112. Tomando como base a 1 – . Ejemplo explicativo 16-4 Se continuará con el ejemplo anterior. Entonces. 4. Cuando se abra la página.2”). Se selecciona un coeficiente de confianza. es frecuente que la fuerza de asociación que existe entre dos variables se exprese mediante una razón de proporciones. mientras que p1 p2 = p1 p2 = 0107 . Cómo hacerlo en Epi Info. z = 1. sí. Se calcula p1 – p2 (que es la diferencia de las proporciones obtenidas. Se obtiene una muestra aleatoria simple de tamaño n de cada población. se puede utilizar la aproximación a la distribución normal al realizar inferencias estadísticas con estos datos. Cuando las dos variables son dicotómicas. n1 n2 ( p1 p2 ) + z /2 p1q1 p2 q 2 + n1 n2 (16. A partir de las muestras seleccionadas se obtiene = 0. el intervalo de confianza de 90% está dado por 0. No debe olvidarse que se trata de 150 sujetos en el grupo 1 y 125 sujetos en el grupo 2. se busca el valor apropiado de z mediante la tabla de la distribución normal estandarizada. Cuando el signo de un extremo es diferente al del otro. es diferente al denominador de la fórmula 15./2. el cual se reproduce a continuación: © Editorial El manual moderno Fotocopiar sin autorización es un delito. Se construye el intervalo sumando y restando p1 – p2 a el valor . En términos de prueba de hipótesis.4. y corresponde al valor crítico que define las zonas de rechazo y aceptación para la prueba de hipótesis. los resultados nos mostrarán la Diferencia de riesgo (“Risk Difference RD%”).645.0526.“Tabla 2x2” y.6) La fórmula anterior también puede representarse como IC(1 ) = ( p1 p2 ) ± z /2 p1q1 p2 q 2 + n1 n2 (16. así. Después de alimentar los datos. significa que no se puede descartar que las dos poblaciones sean iguales. que es la diferencia de proporciones.107 – 0. Un resultado semejante también lo puede obtener desde STATCALC seleccionando “OpenEpi. Esto equivale a rechazar la hipótesis nula.com” (figura 16-1). Para este ejemplo se utilizará = 0. pˆ1 pˆ 2. se obtiene el valor apropiado de z mediante la tabla de la distribución normal estandarizada. mientras que 1 16 ÷ (16 + 134) 1 6 ÷ (6 + 119) + = 0. z = 1.10. Recuérdese que las celdas de esta tabla 2 × 2 han sido definidas con las letras a. .645(0. Las frecuencias correspondientes a las muestras seleccionadas se presentan en una tabla de 2 × 2. o bien. 4. el límite inferior del intervalo de confianza de 90% está dado por 2. b. Para este ejemplo se utilizará = 0. En estas circunstancias. una en cada población) y 1 a ÷ (a + b) 1 c ÷ (c + d ) + a c A partir de las muestras seleccionadas se obtiene p1 ÷ p2 = 0. En epidemiología.04.229e–1. 2.463) = 1. cuando se puede mantener el supuesto de que la frecuencia de la enfermedad que se estudia está por debajo de 10%. No obstante.107 0.78.368. así.229. que los grupos muestreados se han formado atendiendo a su grado de exposición (diseño de cohortes). Tomando como base a 1 – . !.645(0. 1 – . Este valor se obtiene mediante la siguiente fórmula: (16. Utilizan dos hipoglucemiantes orales No El riesgo relativo supone que el muestreo en la población se ha realizado de manera aleatoria y que posteriormente los sujetos se han clasificado según dos variables dicotómicas.645. 2. se puede utilizar una aproximación al riesgo relativo. Se calcula ! (que es igual a ad ÷ bc) y 1 1 1 1 + + + a b c d A partir de las muestras seleccionadas se obtiene ! = (16 × 119) ÷ (134 × 6) = 2. 1 – .463) = 4. IC (1 ) = ( pˆ1 ÷ pˆ 2 )e ±z /2 1 a ÷( a + b ) 1 c ÷( c + d ) + a c Cuadro 16-1. Se construye el intervalo multiplicando por p1 ÷ p2 el exponente de 1 a ÷ (a + b) 1 c ÷ ( c + d ) ±z /2 + a c así.463 16 6 3. Se selecciona un coeficiente de confianza. se evalúa mediante Z para la diferencia de proporciones.Estimaciones de intervalo para. mientras que el límite superior está dado por 2. Para este ejemplo se utilizará = 0.10) Al igual que para el caso del riesgo relativo. como en el cuadro 16–1.10.11) IC (1 )= e +z . Se calcula p1 ÷ p2 (que es la razón de las proporciones obtenidas. 4.645. o mediante chi-cuadrada. mientras que 1 1 1 1 + + + = 0. IC (1 z ) = ( p1 ÷ p2 ) e /2 1 a ÷ ( a + b ) 1 c÷ ( c+ d ) + a c IC (1 ) = ( p1 ÷ p2 ) e /2 .229e+1. conocida como odds ratio. Sí Odds ratio Ejemplo explicativo 16-5 (16. el mismo que se empleó en el ejemplo explicativo 15–3. . Se selecciona un coeficiente de confianza. no es factible estimar el riesgo relativo de manera directa (para una explicación más completa debe consultarse algún libro de epidemiología).495 16 134 6 119 3. Tomando como base a 1 – se obtiene el valor apropiado de z mediante la tabla de la distribución normal estandarizada. Y también se puede calcular un intervalo de confianza. Se construye el intervalo multiplicando j por el exponente de 1 1 1 1 ± z /2 + + + a b c d . la significancia del odds ratio. c y d (que con un fin explicativo se presentan entre paréntesis en el cuadro 16-1). (16. Frecuencias observadas para los datos del ejemplo explicativo 15-3 Odds Ratio = ad = bc (16.048 = 2. 1.8) +z 123 Total Muestra del grupo 1 16 (a) 134 (b) 150 Muestra del grupo 2 6 (c) 119 (d) 125 Total 22 253 275 IC (1 )= e z /2 1 1 1 1 + + + a b c d /2 1 1 1 1 + + + a b c d . z = 1. que es el mismo que se empleó en los ejemplos explicativos 15–3 y 15–4. 1 a ÷ ( a + b ) 1 c÷ ( c+ d ) + a c La fórmula anterior también puede representarse como: © Editorial El manual moderno Fotocopiar sin autorización es un delito. es frecuente que los grupos a comparar se formen a partir de la condición de enfermedad que se desea estudiar.9) Utilizando los datos del ejercicio. El procedimiento que se muestra a continuación se utiliza con muestras grandes y pequeñas. mientras que el límite superior está dado por PS ÷ 1 – PS. Cuando el número de casos y controles es el mismo. ESTIMACIÓN DE INTERVALO PARA LA DIFERENCIA DE DOS PROPORCIONES EN COMPARACIONES PAREADAS .645(0.15) = c en la que b y c representan los conteos de pares con respuestas diferentes.368e–1. Para este ejemplo se utilizará = 0. mediante “STATCALC” y en OpenEpi utilizando las opciones “Tabla 2x” (revisar “Cómo hacerlo en Epi Info. 6-2).109. y corresponde al valor crítico que define las zonas de rechazo y aceptación para la prueba de hipótesis. la estimación del riesgo relativo mediante odds ratio en muestras pareadas es igual a b (16. el mismo que se empleó en el ejemplo explicativo 15–9. se puede utilizar el procedimiento mostrado en el ejemplo explicativo 15–8. z0. se utiliza el mismo arreglo de datos que en el ejemplo explicativo 15–9.0943. el intervalo de confianza de 99% está dado por 0.015.01. z /2 b+c npares npares así. Se calcula p1 p2 = a +b npares a+c b c = (82-16)/700 = 0.01/2 = 2. mediante la distribución binomial (cálculo exacto o aproximación a la normal) se obtiene el intervalo de confianza para p = b ÷ (b + c). Cuando existe interés en comparar dos medias de grupos pareados.13) La fórmula anterior también puede representarse como IC(1 ) = ( p1 p2 ) ± z 1 /2 npares b+c (b c) 2 npares (16. Recuérdese que la muestra consiste en n pares de sujetos. los intervalos de confianza de riesgos relativos y de odds ratio se pueden obtener utilizando el comando “Tables” (tablas) en “Analyze Data” (analizar datos). Se designa como PI el límite inferior y como PS el límite superior del intervalo de confianza del cálculo binomial. Para esto último. = npares npares 3. Esto es particularmente cierto en estudios de casos y controles. IC(1 ) = ( p1 p2 ) z ( p1 p2 ) + z 1 /2 npares 1 /2 npares b+c (b c) 2 .495) = 1. y el intervalo de confianza se puede calcular utilizando la distribución binomial. npares b+c (b c) 2 npares (16. 16-3 En Epi Info 7.645(0. mientras que el otro ha recibido el tratamiento B. el resultado es equivalente a rechazar la hipótesis nula. o 0. Al igual que para el caso del riesgo relativo. Cómo hacerlo en Epi Info.575. Utilizando los datos del ejercicio. Se construye el intervalo sumando y restando a p1 – p2 el valor 1 (b c) 2 .35. n = b + c y x = b.05. 1 – . Ejemplo explicativo 16-6 Se retomará el ejemplo explicativo 15–9. mientras que el límite superior está dado por 2. cuando el intervalo de confianza no incluye la unidad. uno de los cuales ha sido tratado en el grupo A.495) = 5.12) 4. ESTIMACIÓN DE INTERVALO PARA LA RAZÓN DE PROPORCIONES EN COMPARACIONES PAREADAS Odds ratio Entre los estudios epidemiológicos no es extraño que surja la necesidad de parear las muestras a estudiar. 1. Se selecciona un coeficiente de confianza.14) Utilizando los datos del ejercicio explicativo 15–9. el límite inferior del intervalo de confianza de 90% está dado por 2.368e+1.Bioestadística 124 La fórmula anterior también puede representarse como IC (1 )= e ±z /2 1 1 1 1 + + + a b c d (16. Cuando es así. Se obtiene una muestra aleatoria simple de tamaño n pares.094 ± 0. 2.079 a 0. en el que se tenía interés en el resultado que pudieran tener dos tratamientos. Para evaluar la significancia de la prueba de hipótesis. el mismo ha de tomarse en cuenta durante el análisis estadístico. © Editorial El manual moderno Fotocopiar sin autorización es un delito. El límite inferior del odds ratio corresponde al cociente PI ÷ 1 – PI. 1 cuando se puede sostener el supuesto de normalidad. 16-4 Epi Info 7 aún no incorpora este análisis. 1. la “Variable Resultado” y la “Variable de emparejamiento”.4 y 16.748 ÷ 0. y la variable número de par. las fórmulas 16.Estimaciones de intervalo para. esto se puede hacer en la versión anterior de Epi Info (2000). no es necesario que el número de casos y de controles sea el mismo. donde los intervalos de confianza del odds ratio en muestras pareadas se pueden estimar de la siguiente manera.12. tres variables: la variable de exposición o tratamiento. En Epi Info 2000. es igual a 82 ÷ 16 = 5. cuando estimamos el odds ratio en muestras pareadas. Cómo hacerlo en Epi Info. Para el cálculo de los límites de confianza binomiales. Es importante hacer notar que. haga clic en la orden “Emparejar/Aparear”. 0 = tratamiento B. o de casos que de controles. o bien. mediante el comando “Match” (emparejar/aparear). Al hacer clic en “Aceptar”. defina la “Variable Exposición”. . la variable efecto o respuesta.31. tal como se muestra en la figura 16-4. . © Editorial El manual moderno Fotocopiar sin autorización es un delito. Con esos datos.097 = 9. 1395 698 1 0 1396 698 0 0 1397 699 1 0 1398 699 0 0 1399 700 1 0 1400 700 0 0 Par: La tabla contiene 1 400 sujetos. Respuesta: 1 = sí.5 cuando el número de pares discordantes sea pequeño (recuérdese que en ambos casos se puede contar con el auxilio de algunos programas de cómputo diseñados para el cálculo de intervalos de confianza). los resultados se mostrarán como aparecen en la figura 16-5. Para hacerlo. y el intervalo de confianza del odds ratio tiene un límite inferior de 0. el odds ratio. Ventana de la orden “Emparejar/Aparear (Match) … de Análisis en Epi Info 2000. En la ventana de diálogo. es posible utilizar la fórmula 16. 0 = no. que se encuentra en “Estadísticas básicas” de la ventana de “Órdenes”.97 y un límite superior de 0.903 ÷ 0. !. agrupados en 700 pares. desde una tabla de datos en “Analyze Data” (analizar datos). tal como se muestra en el cuadro 16-2. al menos. Para hacerlo en “Analizar Datos” [“Analyze Data”]. Ejemplo explicativo 16-7 Retómese el ejemplo explicativo 16–6 y cuadro 15-9. 125 Cuadro 16-2. donde el odds ratio ajustado corresponde al estimador que toma en cuenta el pareamiento. y que se podrá contar con mayor número de controles que de casos. donde la variable Par nos dice a qué grupo de apareamiento corresponde cada individuo. es necesario que la tabla de datos contemple en su estructura. Sin embargo. . Datos que contiene la tabla Bio3_16a i Par Tratamiento Respuesta 1 1 1 1 2 1 0 1 3 2 1 1 4 2 0 1 5 3 1 1 6 3 0 1 Figura 16-4.252 = 3. Tratamiento: 1 = tratamiento A. © Editorial El manual moderno Fotocopiar sin autorización es un delito.Bioestadística Figura 16-4. Resultados que se despliegan con el comando “Emparejar/Aparear” (Match) de Análisis. 126 . Para cada categoría. Sintió que otra persona le presionó al bajar Sí No Parada en el lugar solicitado No Sí El vehículo se movió cuando bajaba Sí No Controles % # 12 28 48 92 14 30 46 90 11 7 49 113 25 13 35 107 % OR IC95% . los Odds Ratios y sus intervalos de confianza. nutricionales y metabólicas 60 Resto de las causas 175 Total 2000 % IC 95% Ejercicio 2 El cuadro 16-4 muestra los resultados de un estudio que busca identificar factores de riesgo de lesión sufrida al momento de bajar de un autobús destinado al transporte público. deformidades y anomalías cromosómicas 357 Enfermedades del aparato respiratorio 200 Enfermedades infecciosas y parasitarias 127 Traumatismos o envenenamientos 125 Enfermedades endocrinas. Cuadro 16-4 Casos # Tenía prisa por llegar a su destino Sí No © Editorial El manual moderno Fotocopiar sin autorización es un delito. calcule el porcentaje y el intervalo de confianza de 95%. . Calcule los porcentajes de las columnas. . Cuadro 16-3 Causa # Ciertas afecciones originadas en el periodo perinatal 956 Malformaciones congénitas. 127 Ejercicios Ejercicio 1 El cuadro 16-3 muestra las causas de muerte de 2000 niños menores de 1 año.Estimaciones de intervalo para. por pacientes que no la presentan al momento del estudio. Disponible en http://wwwn. K. & Van Belle.com/v37/Menu/OE_Menu. G. Davis. © Editorial El manual moderno Fotocopiar sin autorización es un delito. Biostatistics. A methodology for the Health Sciences. Altman. Washington: Universidad de Washington.. Apuntes del curso de Bioestadística 513. htm Fisher. . Londres: Chapman and Hall. CDC. (1993).gov/epiinfo/ OpenEpi. New York: John Wiley & Sons. G. y los datos están en la tabla Ejer_16c del archivo Bioestadística_3ra. (1991). W. b) Calcule el intervalo de confianza de 95% de Odds Ratio pareado. L. Estadística con aplicaciones a las Ciencias Sociales y a la Educación. El cuadro 16-5 muestra los resultados. D. Cuadro 16-5 Casos Controles Con oncoproteína Sin oncoproteína Total de pares Con oncoproteína 3 19 22 Sin oncoproteína 6 2 8 Total 9 21 30 REFERENCIAS Epi Info 7. México: McGraw-Hill. D. Casos y controles han sido pareados por edad y fecha (mes y año) del diagnóstico de cáncer de mama. Daniel. Para el análisis.cdc. (1988). Disponible en http://openepi. W. A partir de ellos: a) Calcule el valor de Odds Ratio pareado. el grupo de casos está formado por pacientes con recurrencia y el grupo de controles. (1992). El estudio pretende estimar la fuerza de asociación de una oncoproteína con la recaída local del tumor. Practical statistics for medical research. Seattle.128 Bioestadística Ejercicio 3 Suponga un universo en estudio integrado por mujeres con cáncer de mama tratadas conservadoramente. 2. P = 0. seleccionado. De esta manera. cuyo rango sea igual a 0. decide tomar una muestra menor.035). Sin embargo. necesidad ética de evitar algún daño al paciente) también deben tenerse en cuenta. pero que le permita estimar un intervalo de confianza de 95%. resulta apropiado. )0.05). . al investigador le bastará estudiar 283 sujetos. z = 1.2 283 0. Q = 1 – P. 282. y disminuye a medida que P se aproxima a 0 o 1. d = mitad de rango del intervalo de confianza. como resultado de una muestra piloto o preguntándole a un experto.10 (tal como se estableció en el ejemplo explicativo 16-1).1 utilizando los siguientes valores: Cuando existe interés en estimar la proporción que una característica tiene en un grupo. d = 0. 0. la pregunta acerca del tamaño de la muestra que se va a tomar. es necesario definir con anticipación los siguientes valores: © Editorial El manual moderno Fotocopiar sin autorización es un delito. Dado que no cuenta con el tiempo suficiente para completar una muestra semejante a la del ejemplo. el valor máximo de n se obtiene haciendo que P = 0. Independientemente de Z y d. el tamaño de la muestra se calcula mediante z 2 PQ (17.07. ya que otros aspectos (disponibilidad de pacientes. cuando no se pueden encontrar estudios previos y tampoco se puede realizar una prueba piloto. contendrá la proporción poblacional. N Z = valor de Z en la distribución normal para el nivel de significancia. debe redondearse al entero inmediato superior. con una confianza de 95%.0352 d2 en la que el resultado. 2 (01 . aunque no indispensable si n/N . n= Cuando el muestreo se realiza sin reemplazo en una población finita. o cuando la muestra es pequeña en relación con el universo (nN (0. tales procedimientos sólo deben tomarse como una guía. P = proporción de elementos en el grupo que tienen la característica de interés.07 = 0. para estimar un intervalo que. al comenzar la etapa de planeación. 283. recursos.N xi 17 Tamaño de muestra para variables dependientes cualitativas 2 = i =1 xi i =1 N ( xi N μ) 2 i =1 N En cualquier investigación que tenga como objetivo una inferencia estadística surge.9 z 2 P(Q) 196 = = 282.1) d2 El tamaño de la muestra aumenta en relación directa con Z y disminuye en relación inversa con d. seleccionados aleatoriamente con reemplazo. El valor de P se puede obtener a partir de otros estudios previos.5 para calcular N n= Ejemplo explicativo 17–1 Considérese a un médico del trabajo que está interesado en reproducir el estudio descrito en el ejemplo explicativo 16-1. Para responder a esta pregunta es posible utilizar procedimientos estadísticos que orientan en el tamaño de la muestra. Por ello. TAMAÑO DE LA MUESTRA PARA ESTIMAR PROPORCIONES POBLACIONALES Para ello. se sustituyen los elementos de la fórmula 17. Así. algunos investigadores utilizan una P = 0.5.96 (que corresponde al grado de confianza y se localiza igual que para la estimación de intervalo). Cuando el muestreo se realiza con reemplazo.035 (que resulta de dividir el rango deseado para el intervalo de confianza entre dos. . 1 y n´ es el tamaño de la muestra cuando ésta se extrae sin reemplazo.05. 0. utilizar el CPF o factor de corrección de población finita (explicado en el capítulo 12) mediante la fórmula n n' = n (17. 129 .2) 1+ N en la que n se calcula mediante la fórmula 17. para una de 0. TAMAÑO DE LA MUESTRA PARA ESTIMAR LA DIFERENCIA DE DOS PROPORCIONES POBLACIONALES Cuando existe interés en comparar dos grupos atendiendo a la proporción en que en cada uno se observa una variable dicotómica. el tamaño de la muestra está dado por la siguiente fórmula: n= ( Z1 /2 + Z1 ) 2 ( p1q1 + p 2 q 2 ) ( p2 p1 ) 2 (17. en la ventana del tamaño de la población dejamos el valor 999 999 que se muestra en la ventanita (o uno mayor). haga clic en “Tamaño de muestra”. De esta manera. luego. haga clic en “Resultados” para encontrar el tamaño de muestra sugerido. se hace clic en “Sample Size & Power” (tamaño de muestra y poder) y. Cuando se muestre la página. Cuando el muestreo se realiza sin reemplazo y el tamaño de la muestra es grande (> 5% de la población). En Epi Info 7.05) y representa el riesgo de un resultado falso positivo. será necesario definir tres parámetros: el tamaño de la población (“Population size”). b) La frecuencia esperada es una aproximación al valor que se espera encontrar. el límite de confianza se expresará como la mitad del rango del intervalo de confianza que se espera obtener. Esta estimación puede ser tomada de un estudio previo. Cuando se han completado los datos.P2. = probabilidad de no encontrar una “diferencia significativa” cuando realmente existe una diferencia de magnitud P1 . en “Proporción” y en “Introducir datos”. ) ( p2 p1 ) 2 (17. En esta ventana. En EPITABLE. es necesario definir con anticipación los siguientes conceptos: p1 = proporción de éxito esperado en el grupo 1. Una vez definido lo anterior. como resultado de una prueba piloto o preguntándole a un experto. El poder o fuerza para detectar o encontrar la diferencia de magnitud p1 – p2 está dado o cuantificado por 1 – . Reflejan la expectativa y no se relacionan con los resultados. se mostrarán los tamaños de muestra para diferentes niveles de confianza (figura 17-2). donde el tamaño de la muestra debe ser de 282 sujetos. haga clic en EpenEpi. en “Population survey” (encuesta en población). 2.3) Una representación más simplificada se da en Figura 17-1. Ventana de tamaños de muestra en estudios descriptivos (una población) en STATCALC.130 Bioestadística Cómo hacerlo en Epi Info. Representa el riesgo de un resultado falso negativo. anotamos en la ventana el tamaño estimado del universo. Los valores de p1 y p2 son los porcentajes hipotéticos de éxito en cada grupo.4) © Editorial El manual moderno Fotocopiar sin autorización es un delito. Finalmente. . c) Por último. 17-1 Figura 17-2. a) Cuando el muestreo se realiza con reemplazo. en la opción STATCALC. o la muestra es pequeña (< 5%) en relación con el universo. tal como se muestra en la figura 17-1. Menú para el cálculo de tamaño de muestra en STATCALC.05. n= p1q1 + p2 q2 f( . En la siguiente ventana (figura 17-2). Epi Info brinda dos opciones para calcular tamaños de muestra en estudios descriptivos. = nivel de significancia usado para encontrar una “diferencia significativa” cuando no existe diferencia entre los dos grupos (por lo regular = 0. 1. el nivel de confianza es de 95%. el nivel de confianza está definido por 1 – (100). p2 = proporción de éxito en el otro grupo. Los otros dos cuadros [efecto de diseño (Design effect) y grupos (Clusters)] se dejan con el valor “1” a menos que tenga un buen motivo para cambiarlos. la frecuencia esperada del factor en estudio (“Expected frequency”) expresada en porcentaje y el límite de confianza (“Confidence limits”). Z = “error ” que se acepta. como en los estudios de casos y controles cuando la enfermedad es tan poco frecuente que es imposible completar un tamaño de muestra calculado. ) (error tipo I) Se revisarán de nuevo los ejemplos explicativos 15-3 y 16-3. TAMAÑO DE LA MUESTRA PARA GRUPOS DE TAMAÑO DESIGUAL Ejemplo explicativo 17-3 © Editorial El manual moderno Fotocopiar sin autorización es un delito.0 10.8 8.05 13.952) 10.2 2.5) 2 Cuadro 17-2.4 0. las muestras de los grupos a comparar deben ser del mismo tamaño.9? n= p1q1 + p2 q 2 0107 .01 17.10 1. se deben tomar en cuenta los dos grupos que presenten la menor diferencia. el hipotético director estudió 150 sujetos de un universo que se definió como grupo 1.96 1.00 . Siempre que sea posible. p2 = proporción de sujetos que.6) en la que: Z = “error ” que se acepta. Si quisiera repetir el estudio con los tamaños de muestra definidos en el ejemplo explicativo anterior.059 2 = 4261 . Ejemplo explicativo 17-2 Considérese el ejemplo explicativo 13–3.68 0.05 y con poder 1 – = 0. Estos tamaños de muestra no permitieron identificar como significativa una diferencia porcentual igual a 0. R = cociente de dividir el número de sujetos del grupo 1 entre el número de sujetos del grupo 2.64 0. P2 R + P1 1+ R n = número de pacientes del grupo 2.10 10. expresado en valor z considerando una distribución normal de una cola.5 0.64 1. Cuando se pretende evaluar más de dos grupos. cuyos valores están dados en el cuadro 17-1. presentan la característica de interés en el grupo muestral de menor tamaño. donde f(.059. que sea significativa al nivel = 0.8 13.9 3. Recuérdese que un director de unidad de primer nivel tenía interés en el uso de tratamientos combinados en la atención de la diabetes mellitus.8 0. o grupo 2.5 f( .84 0. Esto ocurre cuando la cantidad de información que se puede obtener por cada sujeto de un grupo requiere mayor cantidad de recursos en relación con los individuos del otro grupo.893) + 0.20 1. principalmente porque con mucha seguridad Probabilidad de error (error tipo II) Z (prueba de dos colas) Z (prueba de una cola) 0.0 10.048(0.Tamaño de muestra para.048 = 0.8 14.0 5.28 0. en la variable de estudio.2 0. En el ejemplo explicativo 15-3.1 0. p1 = proporción de sujetos que. en ocasiones la eficiencia del estudio demanda que el tamaño de la muestra de uno los grupos de estudio sea mayor que el otro. presentan la característica de interés en el grupo muestral de mayor tamaño. Valores de Z para otras probabilidades se pueden encontrar en el anexo B. 427 La fórmula señala que 427 elementos deben integrar la muestra de cada grupo de diabéticos. Valores de f (. En este momento. expresado en valor z considerando una distribución normal de dos colas.7 6. (0.28 0. ) es una función de y . .7 0.9 11. y 125 sujetos de otro universo o grupo 2. ¿Cuál sería el tamaño de muestra adecuado para identificar una diferencia de proporciones igual o superior a 0.6 6.059. Valores de Z para diversos niveles de y Cuadro 17-1.02 15. o grupo 1. En estos casos es posible calcular el tamaño de la muestra mediante las siguientes fórmulas: (Z n' = /2 (r + 1) pq Rp1q1 + p2 q2 Z1 R ( p2 p1 ) ) 2 (17.05 0.05 1.107 – 0. )= ( p2 p1 ) 2 0. .5 7. le sería muy difícil lograrlo. El valor de n indica el número de elementos de cada muestra para cada grupo a comparar. En el ejemplo explicativo 17-2 se pudo observar que el tamaño de muestra mínimo que permitiría identificar como significativa una diferencia de esa magnitud debería ser de 427 elementos por grupo.6 0. n= n' 2(r + 1) 1+ 1+ 4 n' r P2 + P1 131 2 (17. en la variable de estudio. p= Algunos valores de Z y Z correspondientes a probabilidades seleccionadas se presentan en el cuadro 17-2. Sin embargo. el investigador se enfrenta a un problema.50 0. Figura 17-3.048 4 (0. Cuando se muestre la página. 17-2 En EPITABLE.095 1+ 4 (1. o “Cohorte/EC” para estudios de cohorte o ensayo clínico.132 Bioestadística no podría completar el tamaño de muestra necesario en el grupo 2. = Pr Z > Z /2 2 pq ( p2 p1q1 + p2 q2 p1) n (17. seleccione OpenEpi. Para calcular el tamaño de muestra se procede de la siguiente manera: = Z = = Z = R= p1 = p2 = p= n= 0. © Editorial El manual moderno Fotocopiar sin autorización es un delito.10 1. d. Convencionalmente se utiliza una confianza de 95%. 17-3 Epi Info brinda varias opciones para calcular tamaños de muestra en estudios analíticos. Por ejemplo. o (1 – )100. c. 1 = 322. mientras que el grupo de referencia deberá ser igual a: 323(4) = 1 292. aunque el investigador lo puede cambiar.28)2 4 + 1 0. En términos cuantitativos.5 323 Ello indica que la muestra del grupo de interés debe integrarse por 323 elementos. luego. que el investigador puede cambiar. 1. se puede estudiar a cuatro sujetos del grupo 1 por cada sujeto del grupo 2 (el costo-beneficio de estudiar más de 4 a 1 es muy pequeño. Mientras más bajo sea el porcentaje. En STATCALC. de modo que por lo regular no es conveniente tomar cinco o más elementos en un grupo por cada elemento en el otro). haga clic en “Tamaño de muestra”. después. Número de no expuestos y de expuestos. Luego. Convencionalmente se utiliza un poder de 80%. Luego seleccione “CC no pareado” para estudios de casos y controles no pareados.107 0. e. se hace clic en “Potencia” y. sólo tiene que ser definido uno.095(0. b. . menor será el poder de la prueba. se hace clic en “Introducir datos” y. En EPITABLE.05 1. El nivel de confianza. Prevalencia de exposición en el grupo NO enfermo. El poder de la prueba se expresará como un porcentaje. podemos utilizar la siguiente fórmula: 0. Una solución consiste en tomar más sujetos del grupo 1 que del grupo 2. Cuando se muestra la página.048) 2 PODER DE UNA PRUEBA Para estimar el poder de una prueba de hipótesis que compara dos proporciones cuyas muestras son desiguales. El poder de la prueba. Dado que el ejemplo que vamos a mostrar es un estudio transversal que compara dos grupos.96 0. Estas dos opciones utilizan la misma fórmula y sólo se separan para adecuar la ventana al diseño de estudio.28 4/1 = 4 0. se selecciona el diseño de estudio en que se generaron los datos.96 + 1.107 0. según se trata del diseño de muestreo epidemiológico. Cómo hacerlo en Epi Info. De las opciones Risk ratio (riesgo relativo) Odds ratio y % outcome in exposed group (% de efecto en el grupo expuesto).048 + (4). en esta oportunidad utilizaremos la opción de cohorte o transversal (figura 17-3). nos dice cuál es la probabilidad de que no cometamos un error tipo II. en “Resultados”. Cómo hacerlo en Epi Info.7) El resultado nos dirá cuál es el poder de la prueba realizada. se hace clic en Epi Info “Sample Size & Power” (tamaño de muestra y poder) y luego. o (1 – )100. donde se tendrá que definir lo siguiente: a. Ventana en que se definen los parámetros al considerar el tamaño de muestra para estudios analíticos y sus propuestas según tres fórmulas diferentes. y los otros se ajustarán con base en el que se defina. tal como se muestra en la figura 17-1.0107 = 0. en “Cohort or cross-sectional” (cohorte o transversal) o “Unmatched case-control” (caso-control no apareado). haga clic en EpenEpi.905) 2. htm Fleiss. L. CDC. De qué tamaño tiene que ser la muestra si espera que su examen identifique correctamente a 90% de los sujetos y acepta que sus resultados tengan una precisión de más-menos 5%. . El investigador planea realizar un estudio de cohorte y desea que sus resultados puedan identificar como significativo un riesgo relativo igual o superior a 2.gov/epiinfo/ OpenEpi. Disponible en http://openepi.cdc. ed. Statistical methods for rates and proportions (2a. 9. 148-150.). con una confianza de 95%. Recuperado de http://www. Disponible en http://wwwn. J. la incidencia de bajo paso al nacer en hijos de madres no hipertensas es de 15%. B. ¿De qué tamaño ha de ser la muestra para cada grupo? REFERENCIAS © Editorial El manual moderno Fotocopiar sin autorización es un delito. En la población que estudia. Para hacerlo. Cad Aten Primaria. ed. Pértegas-Díaz. A practical approach. Chichester: John Wiley & Sons.Tamaño de muestra para. con una confianza de 95%.pdf Pocock. . S. Espera estudiar dos grupos: uno de hipertensas durante el embarazo y otro de no hipertensas. un poder de 80% y el estudio de una hipertensa por cada dos no hipertensas.fisterra. J. Otro investigador está interesado en explorar la asociación entre hipertensión durante el embarazo y bajo peso al nacer. (1983) Clinical trials. Fundamentals of biostatistics (3a. y Pita-Fernández. Cálculo del tamaño muestral en estudios de casos y controles. tiene que calcular una muestra de sujetos con la característica que quiere identificar en sus pacientes. (1981). S. 13 . Rosner. New York: Wiley. (2002).com/mbe/ investiga/muestra_casos/muestra_casos2. (1990). Epi Info 7. S. Boston: PWS-Kent Publishing.). 133 Ejercicios Ejercicio 1 Ejercicio 2 Un investigador está interesado en conocer la proporción de verdaderos positivos que puede identificar con un examen simple y fácil de realizar.com/v37/Menu/OE_Menu. . Planteamiento de la hipótesis. En ocasiones. x 5.05. b) población distribuida normalmente. = 0. y mediante el apoyo de la tabla de distribución normal del anexo B. b) Se recuerda que para esta prueba = 0. Selección del nivel de significancia. Especificación del estadístico de prueba y consideración de su distribución. que se distribuye normalmente con media igual a cero y desviación estándar igual a uno. d) Con lo anterior.50 – 0.05. se localiza de la siguiente manera: a) Se pone atención a qué tipo de prueba se realiza: H0: < 3 300 g. Como se trata de una prueba de una cola.N xi N i =1 18 Pruebas de hipótesis para una N y dos variables ( xi μ ) 2 cuantitativas 2 i =1 = VERIFICACIÓN DE HIPÓTESIS SOBRE UNA MEDIA POBLACIONAL ÚNICA Con frecuencia el objetivo de una investigación consiste en estimar el parámetro de una población para compararla con otra que ya ha sido estudiada. Especificación de las regiones de rechazo y aceptación. varianza poblacional desconocida. varianza poblacional conocida. b) Se conoce la varianza poblacional. el interés se ubica en una región de rechazo que consta de aquella parte de la distribución normal que se localiza en la derecha de la curva de distribución z.05. 1. El valor crítico de la prueba. la región de rechazo se encuentra en un extremo de la curva normal. H0: < 3 300 g. o “el peso promedio al nacer en la población de interés es menor o igual a 3 300 g”. 3. la población ya ha sido estudiada ampliamente y los parámetros de interés son conocidos.1) n 6. varianza poblacional conocida © Editorial El manual moderno Fotocopiar sin autorización es un delito. Ejemplo explicativo 18–1 Supóngase que un investigador está interesado en el peso al nacer de una población en la cual se sospecha que el promedio está por arriba de lo que se ha reportado. podemos encontrar que la muestra procede de alguna de las tres situaciones siguientes: a) población distribuida normalmente. Cuando nos interesa esto. Selección del estadístico pertinente.05 = 0. El investigador asume que el peso promedio al nacer es 3 300 g y que su desviación estándar es 500 g. la probabilidad de ocurrencia aleatoria de una z de ese tamaño o mayor es igual o menor de 0. la cual incluye todos los valores de z tales que. Para probar su hipótesis. 135 . que define las regiones de rechazo y aceptación. c) Entonces. se selecciona una muestra del universo de interés para calcular el estadístico y se le compara con el parámetro de la población que ya se conoce. desea medir el peso de los que nacieron en el transcurso del último año. a) Se sabe que los valores que adquiere la variable peso al nacer se distribuyen normalmente en la población de interés. 4. H1: > 3 300 g. Población distribuida normalmente. Descripción de la población que interesa y planteamiento de los supuestos necesarios. En estos casos. Media muestral. xi i =1 N N 2. cuando H0 es verdadera. y c) población no distribuida normalmente. El estadístico de prueba es z.45). x μ z= 2 (18. se procede de la siguiente manera: i) A la probabilidad de que el resultado sea mayor que la media de referencia (3 300 g) se le resta el valor de (0. Entre estos estudios se pueden encontrar los relacionados con el crecimiento y desarrollo de niños. o “el peso promedio al nacer en la población de interés es mayor de 3 300 g”. Bioestadística ii) El valor resultado (0. mientras que la región de aceptación la constituye el resto del área que se encuentra por debajo de la curva normal. ya que el valor de z correspondiente a 0. 7. y que el valor de z para 0. En la figura 18-1. el valor de z para 0.645. éste define las regiones de rechazo y aceptación. Así. Dado que el valor 0. Recolección de datos y cálculo de los estadísticos necesarios.4495 es 1.64.65.4505 es 1. el investigador encuentra en ellos que el promedio del peso al nacer es de 3 250 g.4500 debe ser 1. la región de rechazo se representa de color. Para saber qué valor de z". e) Una vez obtenido el valor crítico.4500) se busca en el cuerpo del cuadro de distribución normal del anexo B.4500 no se encuentra en la tabla. entonces se extrapolan los valores z para los valores más próximos. Después de estudiar a los 10 niños que nacieron en la población. 300 z= = 1. Población distribuida normalmente. H0: = 3 300 g. bajo el supuesto de la hipótesis nula.05. Esta distribución es semejante a la distribución normal en varios aspectos: tiene forma de campana. n – 1. o “el peso promedio de recién nacidos de madres adolescentes es diferente al peso de recién nacidos de madres de mayor edad”. = 0. 1. Ya que se han reportado diversos valores para la desviación estándar. 9. Por otra parte. la población se distribuye normalmente con = 3 300 g y = 500 g. Este caso se parece al anterior. se aproximan a la distribución normal. Mientras menos sean sus grados de libertad. Asúmase como cierto que el peso promedio de los niños al nacer de mujeres de 20 y más años es de 3 300 g. haciendo que su figura sea menos esbelta porque la amplitud de su base depende de sus grados de libertad. Pero su desviación estándar es mayor de 1. su media es igual a 0 y también nos permite realizar inferencias sobre medias poblacionales. Distribución t Cuando no es posible utilizar la distribución z porque se desconoce la desviación estándar poblacional. Sin embargo. se prefiere no tomar en cuenta los reportes de la misma. varianza poblacional desconocida Con mayor frecuencia que el caso anterior. se puede emplear x μ tn 1 = s2 n (18. 136 . La fórmula 18. Los valores que adquiere la variable se distribuyen normalmente en la población de interés.05)”.2) cuando el muestreo se hace en una población que está distribuida normalmente. Regiones de rechazo y aceptación para el ejemplo explicativo 18-1. se obtiene un resultado semejante utilizando la distribución t en lugar de la distribución z. μ 50% 1. H1: 3 300 g. Selección del nivel de significancia. el resultado encontrado por el investigador en el grupo estudiado se localiza en la región de aceptación de la hipótesis nula. Conclusión.645 2.550 3. -3σ -2σ -1σ 0 1σ 2σ 3σ Figura 18-1. hasta que llegan a infinito. sino varias distribuciones t de Student. Decisión estadística. Para probar su hipótesis. Ejemplo explicativo 18-2 Supóngase que se tiene interés en el peso de los niños recién nacidos y su relación con la edad de la madre al momento del embarazo. 3. su área total es igual a 1. Se plantea como hipótesis que el peso de los niños de madres adolescentes es diferente del de los niños de mujeres que se embarazan a mayor edad. pero sólo se conoce la media poblacional (o ésta se ha definido por algún otro mecanismo) y no la desviación estándar. © Editorial El manual moderno Fotocopiar sin autorización es un delito. o “el peso promedio de recién nacidos de madres adolescentes es igual al peso de recién nacidos de madres de mayor edad”. Se concluye que “la diferencia observada no es estadísticamente significativa (p > 0. a medida que sus grados de libertad aumentan.2 representa la distribución t de Student. Dado que el valor z calculado en el punto anterior es inferior al valor z tabulado en el punto 6. el investigador selecciona una muestra de 30 niños nacidos de adolescentes. Descripción de la población que interesa y planteamiento de los supuestos necesarios. Por ello se dice que no hay una. por lo que ésta no se rechaza. donde ambas distribuciones son iguales. más amplia es su base y mayor es su varianza. pero (dado que no se conoce el valor de ) no se puede calcular el valor de z. se realiza la siguiente ecuación: 3. Planteamiento de la hipótesis.58 500 2 10 8. sucede que la población ya ha sido estudiada. con una desviación estándar muestral de 650 g. pero se puede suponer que es próxima a la desviación estándar muestral.Pruebas de hipótesis para una y. 5. con la condición de que la muestra sea lo suficientemente grande (n > 30) como para aplicar el teorema del límite central. H0: = 3 300 g.94 8. © Editorial El manual moderno Fotocopiar sin autorización es un delito. ii) los grados de libertad se obtienen restando uno al tamaño de la muestra (30 – 1 = 29 gl). Especificación del estadístico de prueba y consideración de su distribución. Se concluye que. las regiones de rechazo se representan de color. s = 650 g. . El estadístico de prueba es t. .045. Para saber qué valor de t corresponde a una < 2 950 g.0452 -3σ -2σ 2. existe interés en una primera región de rechazo que consta de aquella parte de la distribución tn–1 que incluye todos los valores de tn–1 tales que. Especificación de las regiones de rechazo y aceptación.2. “el peso de recién nacidos de madres embarazadas durante la adolescencia es menor que el de recién nacidos de madres embarazadas en una edad posterior” y que esta diferencia es estadísticamente significativa (p < 0. éstos definen las regiones de rechazo y aceptación. 29.975). se encuentra que el promedio del peso al nacer fue de 2 950 g.025. cuando H0 es verdadera.975. Regiones de rechazo y aceptación para el ejemplo explicativo 18-2. que es igual a 2.05).025. buscamos el valor de t0. Media muestral. En estos casos.05.045. 9. cuando H0 es verdadera. Después de estudiar una muestra de 30 niños recién nacidos de madres adolescentes. Como se trata de una prueba de dos colas. la probabilidad de ocurrencia aleatoria de una tn–1 de ese tamaño o menor es igual o menor de 0.0452 -1σ 0 1σ 2σ 3σ Figura 18-2. el procedimiento es semejante al que se sigue con los que tienen una distribución normal. pero en negativo: –2. cuando la población se distribuye normalmente con = 3 300 g y es desconocida. y en una segunda región de rechazo que consta de aquella parte de la distribución tn-1 que incluye todos los valores de tn–1 tales que. se realiza la siguiente ecuación: 4. y mediante el apoyo de la tabla de distribución t del anexo E. el estadístico de prueba será z o t. El valor crítico de la prueba. Ya que la distribución t también es simétrica. por lo que la hipótesis nula se rechaza. d) Con lo anterior. Conclusión. Población no distribuida normalmente Con frecuencia existe interés en realizar inferencias de una población que no se distribuye de manera normal o de la cual no se tiene la certeza de que lo haga.05/2 = 0. iii) teniendo los dos números anteriores. En la figura 18-2. se procede de la siguiente manera: i) el nivel de significancia seleccionado se divide @ = 1 – 0. este resultado señala la columna de la distribución percentilar de t. . la probabilidad de ocurrencia aleatoria de una tn–1 de ese tamaño o mayor es igual o menor de 0. con base en lo encontrado en la muestra. 137 = 2. no es necesario buscar el valor de t que corresponde a la otra región de rechazo. bajo el supuesto de la hipótesis nula. basta con utilizar el mismo. se localiza de la siguiente manera: a) Se pone atención en qué tipo de prueba se realiza. que define las regiones de rechazo y aceptación. una en cada extremo de la curva normal. dependiendo de si se conoce la varianza poblacional o no. Selección del estadístico pertinente. μ 50% . Para este ejemplo explicativo. b) Se recuerda que para esta prueba = 0. El valor tn–1 calculado en el punto anterior se localiza en la región de rechazo de la hipótesis nula. x. Recolección de datos y cálculo de los estadísticos necesarios. la región de rechazo se encuentra dividida en dos partes. Cuando la muestra es superior a 30. c) Entonces. 7. Decisión estadística. que se distribuye normalmente con media igual a cero. e) Una vez obtenidos los valores críticos. tn 1 = x tn 1 = μ 2950 3300 650 2 30 s2 n 6. Ante ello. y en una segunda región de rechazo que consta de aquella parte de la distribución que incluye todos los valores de tn+n`" tales que. el investigador tomará una muestra de cada universo y. para ninguno de los cuales se conoce la media o la desviación estándar poblacionales.005. El valor crítico de la prueba. = 0.4) 6. la región de rechazo se encuentra dividida en dos partes. a) Los valores que adquiere la variable se distribuyen normalmente en ambas poblaciones. o “la presión arterial media en mujeres que consumen anticonceptivos orales es diferente a la presión arterial media de mujeres que no los consumen”. En este caso. una de cada universo. varianzas poblacionales desconocidas pero iguales Ésta es una de las situaciones que con mayor frecuencia enfrenta el investigador. Como se trata de una prueba de dos colas. se seleccionan dos muestras. 2. t n1 + n2 En la verificación sobre una media poblacional única se toman datos de una muestra y el resultado se compara con un parámetro que se supone conocido. b) Se recuerda que para esta prueba = 0. Cuando éste es el caso. inferirá la diferencia que existe entre ambos universos. es posible encontrar cuatro situaciones. las varianzas de las dos poblaciones en estudio son iguales. se busca el valor de t0. y se comparan los estadísticos de interés. una en cada extremo de la curva normal. 2 = ( x1 x2 ) ( μ 1 2 Sp Sp + n1 n2 μ2) 2 (18. Selección del estadístico pertinente. Selección del nivel de significancia.01. el componente definido por las medias poblacionales. Diferencia de las medias muestrales. 21 y s22 se pueden ponderar para obtener Sp2 utilizando la siguiente fórmula: Sp 2 = s12 (n1 1) s22 (n2 n1 + n2 2 1) (18. parecería no tener sentido. Si se piensa que.3) En la ecuación anterior es preciso hacer notar dos aspectos importantes.x2. b) Se desconoce la varianza poblacional. c) Entonces. 3. x1 . por lo que no es necesario que se conozcan las medias poblacionales. se localiza de la siguiente manera: a) Se pone atención en qué tipo de prueba se realiza: H0: μ1 = μ2. El estadístico de prueba es tn1 + n2 – 2. μ1 – μ2. Sin embargo. Especificación del estadístico de prueba y consideración de su distribución. aunque desconocidas. a partir de ellas. 4. Descripción de la población que interesa y planteamiento de los supuestos necesarios. la probabilidad de ocurrencia aleatoria de una tn+n`" de ese tamaño o mayor es igual o menor de 0. H1: 12. o “la presión arterial media en mujeres que consumen anticonceptivos orales es igual a la presión arterial media de mujeres que no los consumen”. ya que 21 y 22 son iguales. Especificación de las regiones de rechazo y aceptación. el interés reside en una primera región de rechazo que consta de aquella parte de la distribución tn+n`" que incluye todos los valores de tn+n`" tales que.995. Los procedimientos mostrados con anterioridad son útiles siempre que se conozca la media poblacional en que se basa la comparación. la probabilidad de ocurrencia aleatoria de una tn+n`" de ese tamaño o menor es igual o menor de 0. Poblaciones distribuidas normalmente. 198. d) Con lo anterior. Su interés está dirigido a la diferencia que puede existir entre dos universos. este resultado (sin importar qué valores sean) es igual a 0.005.01. bajo el supuesto de la hipótesis nula. Para realizar el estudio se muestrean 100 mujeres de 30 a 35 años de edad de cada grupo. En estos casos. cuando H0 es verdadera. ii) los grados de libertad se obtienen restando dos al total de sumar el tamaño de cada muestra (100 + 100 – 2 = 198). 1. iii) teniendo los dos números anteriores. © Editorial El manual moderno Fotocopiar sin autorización es un delito. Planteamiento de la hipótesis. H0: 1 = 2. El segundo aspecto se encuentra en el denominador: el símbolo Sp2 sustituye a las varianzas. cuando H0 es verdadera. 138 . sin embargo. se procede de la siguiente manera: i) el nivel de significancia seleccionado se divide entre dos y el resultado se le resta a uno (1 @ @ && la columna de la distribución percentilar de t. pero se supone que es la misma en las dos poblaciones. Dado que no se encuentra. que define las regiones de rechazo y aceptación. Se cree que la presión arterial media de cada uno de estos grupos es diferente. con mayor frecuencia se desconocen los dos parámetros a comparar. y mediante la ayuda de la tabla de distribución t del anexo E.Bioestadística VERIFICACIÓN DE HIPÓTESIS SOBRE LA DIFERENCIA ENTRE DOS MEDIAS POBLACIONALES 5. Ejemplo explicativo 18-3 Supóngase que se tiene interés en comparar la presión arterial media de mujeres que consumen anticonceptivos orales con la de mujeres que no los utilizan. El primero se encuentra en el numerador: dado que no se conocen las medias poblacionales. entonces 21 es una estimación de 22 y 22 estima 21. 821 100 + 100 2 Calculada la varianza ponderada.6006). muy pocas veces obtenemos el mismo valor de las varianzas en las dos muestras.6035 -1σ 0 1σ 2σ 3σ Figura 18-3.44) 0 = 2. Representación de la distribución F para tres series de grados de libertad diferentes Prueba F La prueba anterior. ya no es necesario buscar el valor de t que corresponde a la otra región de rechazo. 2 H1: 21 2 . Para demostrar que esto es posible se procede de la siguiente manera: 1.44 mm Hg. 9. Dado que la distribución t es simétrica.6035 -3σ -2σ 2. “no se encontró evidencia de que la presión arterial media en mujeres que consumen anticonceptivos orales sea diferente a la presión arterial media de mujeres que no los consumen”. Cuando de dos poblaciones con varianzas 21 y 22 se obtienen muestras. éstos definen las regiones de rechazo y aceptación. .6 4 y 25 gL 0. n1 = 100. De acuerdo con los datos anteriores 15.34 2 (99) + 18. pero en negativo: –2. Sin embargo. con base en las muestras estudiadas. Ejemplo explicativo 18-4 Considérese el ejemplo explicativo 18-3. 139 1 y 1 gL 0. tal como se muestra en el ejemplo explicativo 18-4. H0: 21 = 22 . las regiones de rechazo se representan de color 7.2 1 2 3 4 5 6 Figura 18-4. que es de 180 gl (2.5) tiene una distribución conocida como F con (n1 – 1) y (n2 – 1) grados de libertad. Para ello se realiza una prueba de hipótesis. v2 = n2 – 1 definen los grados de libertad en el numerador y denominador.4 0. respectivamente. basta con utilizar el mismo. tomar el señalado para menos grados de libertad en la tabla.27 283.23 mm Hg. se toma el mayor de ellos (2. Conclusión.2.232 (99) = 283. sólo resta completar el cálculo de Sp 2 = tn1 + n2 2 = (132. Regiones de rechazo y aceptación para el ejemplo explicativo 18-3. n2 = 100.6035. . la distribución F es asimétrica y tiende a la normalidad a medida que los grados de libertad del numerador y del denominador aumentan. o “la varianza poblacional de la presión arterial media del grupo que consume anticonceptivos orales no es igual a la varianza poblacional de la presión arterial del grupo que no consume anticonceptivos orales”. Después de estudiar cada muestra se tienen los siguientes valores: Usuarias de anticonceptivos orales: = 132. s1 = 15. s2 = 18. e) Una vez obtenidos los valores críticos. 8. Ya que los valores no son muy diferentes. lo que interesa es probar que la hipótesis nula (las dos poblaciones de las cuales surgieron las muestras son iguales) no se rechaza. μ 50% . o “la varianza poblacional de la presión arterial media del grupo que consume anticonceptivos orales es igual a la varianza poblacional de la presión arterial del grupo que no consume anticonceptivos orales”. en los que v1 = n1 – 1.34 mm Hg. Planteamiento de la hipótesis. v1. No usuarias de anticonceptivos orales: = 127. v2.821 283. por lo que ésta no se rechaza. Se concluye que. n1 y n2. conocida como prueba de t de Student.8 4 y 4 gL 0.86 mm Hg. Para probar la hipótesis nula de que ambas varianzas son iguales recurrimos a la distribución F. se puede elegir entre tres opciones: tomar el valor más próximo.821 + 100 100 © Editorial El manual moderno Fotocopiar sin autorización es un delito. Decisión estadística. la razón F= s12 s22 2 1 2 2 (18. o realizar una interpolación entre los dos anteriores. Recolección de datos y cálculo de los estadísticos necesarios. que es el de 200 gl (2. se basa en el supuesto de que las dos varianzas son iguales.Pruebas de hipótesis para una y.6035).6035). Tal como se muestra en la figura 18-4. En la figura 18-3. Al comparar dos varianzas. . el resultado se localiza en la región de aceptación de la hipótesis nula. Los valores de la distribución F que corresponden a cada combinación de grados de libertad se muestran en el anexo F y se especifican mediante los subíndices 1 – . Dado que el valor calculado en el punto anterior es inferior al valor tabulado en el punto 6. En él se asumió que las dos varianzas muestrales procedían de universos que tenían una misma varianza.86 127. 9) n2 Poblaciones no distribuidas normalmente Con frecuencia se tiene interés en realizar inferencias de una población que no se distribuye de manera normal o de la cual no se tiene la certeza de que lo haga. Dado que el valor F calculado cae en la región de aceptación de la hipótesis nula. a) Los valores que adquiere la variable se distribuyen normalmente en ambas poblaciones de interés. hacer una interpolación. que define las regiones de rechazo y aceptación. pero se tiene información sobre las varianzas poblacionales de cada uno de los grupos. 18-1 Epi Info ofrece varias opciones para pruebas de hipótesis con dos o más medias. Así. Por comodidad.05.v2 = 12 (18.7) 2 2 s s + n1 n2 que tiene una distribución aproximadamente normal cuando n1 + n2 > 30. Para obtener el valor crítico. 8. 21 ÷ 22 . Selección del estadístico pertinente. varianzas poblacionales desconocidas y diferentes En ocasiones. en vez de ponderar las varianzas muestrales. Para esta modificación de la prueba t de Student. que bajo el supuesto de la hipótesis nula adquiere la forma s2 Fv1 . se consulta el anexo F para F@= F0. Se emplea una aproximación a la prueba t. 3. se puede observar que este valor crítico no se encuentra en la tabla. se concluye que “no existe evidencia que haga pensar que las varianzas provienen de poblaciones diferentes”. la región de rechazo consta de todos los valores de F iguales o superiores a 1. dependiendo de si se conoce la varianza poblacional o no. En estos casos. varianzas poblacionales conocidas Es sumamente raro. Cuando éste es el caso. Con esto.47. 4. 5. Selección del nivel de significancia. b) Las muestras son independientes. Poblaciones distribuidas normalmente. el procedimiento es semejante al del ejemplo explicativo 18-3. Cuando la muestra es superior a 30. se puede tomar el que corresponda con los grados de libertad que se encuentran por debajo de los de las muestras del ejemplo. el procedimiento es semejante al que se sigue con las que tienen una distribución normal. Como no se rechaza la hipótesis nula. Poblaciones distribuidas normalmente. pero puede ser que exista interés en comparar la media de dos universos de los cuales se desconoce el parámetro. Se calcula la razón de varianza utilizando los datos presentados en el ejemplo explicativo 18-3. Conclusión. por lo que la prueba de t de Student se puede realizar tal como se muestra en el ejemplo explicativo 18-3.8) 2. Para ello. con la única diferencia de que como estadístico de prueba se utiliza z y no t. Cómo hacerlo en Epi Info. según la siguiente fórmula: z= ( x1 x2 ) ( μ 1 2 1 n1 + μ2 ) 2 2 (18. el valor de t se obtiene mediante: t n1 + n2 2 x1 = x2 2 1 (18. entonces no se rechaza. Se emplea una prueba no paramétrica. los grados de libertad se calculan mediante gl = (s 2 1 / n1 + s22 / n2 ) 2 ( s12 / n1 ) 2 ( s22 / n2 ) 2 + n1 + 1 n2 + 1 (18. 140 . el tamaño de muestra es de 100). 6.47. el estadístico de prueba será z o t.412. Especificación de las regiones de rechazo y aceptación. ya que sólo se proporciona para 60 y 120 grados de libertad. con la condición de que la muestra sea lo suficientemente grande (n > 30) como para aplicar el teorema del límite central.95 con v1 = 100 – 1 y v2 = 100 – 1 (para cada grupo del ejemplo explicativo 18–3. se toma como valor crítico el de 1. y porque garantiza una mayor rigidez en el resultado. En estos casos es posible utilizar una de las siguientes dos opciones: 1. Decisión estadística. Sin embargo. Para esta prueba se seleccionó un nivel de = 0. Especificación del estadístico de prueba y consideración de su distribución. Razón de varianzas. Descripción de la población que interesa y planteamiento de los supuestos necesarios.342 = 1. 7. o bien. El estadístico de prueba es F.232 ÷ 15. en donde 18. se les utiliza de manera independiente. © Editorial El manual moderno Fotocopiar sin autorización es un delito. 9. Recolección de datos y cálculo de los estadísticos necesarios.Bioestadística 2.6) s2 y se distribuye como v1 = n1 – 1 y v2 = n2 – 1 grados de libertad. el supuesto de homogeneidad de varianzas no se puede sostener. Pruebas de hipótesis para una y. . . 1. En Epi Info 7, desde una tabla de datos en “Analyze Data”, “Classic”, mediante el comando “Means” se definen las variables de interés (revisar “Cómo hacerlo en Epi Info, 7-2”). Al ejecutar la orden, en la ventana de resultados, después del cuadro de frecuencias y de las estadísticas, el programa mostrará (figura 7-4) los resultados de análisis de varianza (que se revisará en el capítulo 20), el estadístico t, el valor de p, la prueba (test) de Bartlett para igualdad de varianzas poblacionales y la prueba (test) de Mann-Whitney/Wilcoxon/Kruskal-Wallis para dos grupos (que se revisarán en el capítulo 22). De estos resultados, el estadístico t corresponde a la prueba t de Student, y el valor de p es la significancia estadística de la prueba. La prueba de Bartlett equivale a la prueba de F que compara dos varianzas y se interpreta de manera semejante: cuando el valor de p de esta prueba es menor de 0.05, se considera que las varianzas son diferentes. A partir de los resultados que se muestran en la figura 7-4, podemos concluir que las varianzas de los grupos que se comparan son semejantes, por lo cual podemos tomar en cuenta los resultados de la prueba t de Student, que nos indican que los pesos promedios de los dos grupos que se comparan (revisar “Cómo hacerlo en Epi Info, 7-2”) son estadísticamente significativos. El resultado también muestra los valores de significancia cuando se asume que las variancias son diferentes (método de “Satterhwaite”). Su interpretación es semejante a la interpretación del método ponderado (“Pooled”), y generalmente tienen una significancia muy próxima uno de otro. © Editorial El manual moderno Fotocopiar sin autorización es un delito. 2. Cuando se cuenta con la media, la varianza y el tamaño de la muestra de los grupos se puede realizar una prueba de hipótesis en OpenEpi. Para ello, entramos a OpenEpi y seleccionamos “Test t” en el menú de variables continuas. Luego, hacemos clic en “Introducir datos” y llenamos las celdas según se muestra en la figura 18-5. Para ver los resultados, hacemos clic en “Resultados” (figura 18-6). Figura 18-5. Cuadro de datos para prueba t de Student. 141 PRUEBA DE HIPÓTESIS PARA DIFERENCIA DE MEDIAS EN COMPARACIONES PAREADAS Con frecuencia, el interés es estimar la diferencia entre dos poblaciones, pero la selección de los elementos de los dos grupos no ha sido independiente. Es decir, al seleccionar los sujetos de una población se han establecido ciertas restricciones para elegir los sujetos del otro grupo. A este proceso se le conoce como pareamiento, y siempre que un muestreo se realiza de esta manera, el análisis estadístico debe tomar en cuenta que las muestras no son independientes entre sí. Los ejemplos de este tipo de muestreo son abundantes. Entre éstos se encuentran los siguientes: a) cuando un grupo de enfermos es tratado durante algún tiempo con un medicamento, y posteriormente con otro compuesto; b) cuando cada elemento del segundo grupo (o de referencia) se selecciona tomando en cuenta ciertas características de los elementos que conforman el primer grupo, tales como edad, sexo, gravedad del padecimiento, etc. Cuando éste es el caso, el procedimiento de inferencia estadística toma en cuenta la diferencia entre cada pareamiento de sujetos, en lugar de la diferencia global entre cada grupo. Luego de obtener las diferencias de cada par, lo que sigue es muy semejante a una prueba de hipótesis para una media cuando el parámetro de comparación es conocido e igual a 0. Ejemplo explicativo 18-5 Supóngase que se tiene interés en evaluar el cambio que presentan los valores de digoxina en suero a las 4 h de administrada respecto a los valores de digoxina a las 8 h. Para ello, se seleccionan nueve sujetos sanos de 20 a 45 años de edad, a quienes se les aplica una inyección rápida de digoxina. La concentración de digoxina en suero se determina a las 4 y 8 h después de la inyección y se encuentran los resultados que se expresan en el cuadro 18-1. 1. Planteamiento de la hipótesis. H0: d = , o “la concentración de digoxina en suero a las 4 h es igual a la concentración de digoxina en suero a las 8 h”. H1: d, o “la concentración de digoxina en suero a las 4 h es diferente de la concentración de digoxina en suero a las 8 h”. 2. Selección del nivel de significancia. = 0.05. 3. Descripción de la población que interesa y planteamiento de los supuestos necesarios. a) La población está formada por las diferencias obtenidas al restar entre sí los valores, registrados antes y después del cambio, de cada par. b) Los pares de elementos han sido seleccionados aleatoriamente. c) La población de diferencias está distribuida normalmente y su media es igual a cuando la H0 es verdadera. Bioestadística 4. Selección del estadístico pertinente. Para estos estudios pareados, el estadístico es la media de las diferencias obtenido mediante la siguiente fórmula, d = di / n. 5. Especificación del estadístico de prueba y consideración de su distribución. Cuando n es pequeña, el estadístico de prueba será tn 1 = μd d sd2 n e) Una vez obtenidos los valores críticos, éstos definen las regiones de rechazo y aceptación. En la figura 18-7, las regiones de rechazo se representan de color 7. Recolección de datos y cálculo de los estadísticos necesarios. En el cuadro 18-1 se muestran las lecturas individuales de digoxina sérica a las 4 y 8 h, así como la diferencia entre cada lectura. Además, al final de la última columna se muestran la media y la desviación estándar muestrales de las diferencias. Sólo resta calcular (18,10) t9 = 2 d donde s es la varianza de diferencias muestrales y t está distribuida con n – 1 gl. La varianza de las diferencias se obtiene mediante la siguiente fórmula: sd2 = (di d )2 (18,11) n 1 6. Especificación de las regiones de rechazo y aceptación. El valor crítico de la prueba, que define las regiones de rechazo y aceptación, se localiza de la siguiente manera: a) Se pone atención en qué tipo de prueba se realiza: d = . Como se trata de una prueba de dos colas, la región de rechazo se encuentra dividida en dos partes, una en cada extremo de la curva normal. b) Se recuerda que para esta prueba = 0.05. c) Entonces, el interés reside en una primera región de rechazo que consta de aquella parte de la distribución tn–1 que incluye todos los valores de tn–1 tales que, cuando H0 es verdadera, la probabilidad de ocurrencia aleatoria de una tn–1 de ese tamaño o menor es igual o menor de 0.025, y en una segunda región de rechazo que consta de aquella parte de la distribución tn–1 que incluye todos los valores de tn–1 tales que, cuando H0 es verdadera, la probabilidad de ocurrencia aleatoria de una tn–1 de ese tamaño o mayor es igual o menor de 0.025. d) Con lo anterior, y mediante el apoyo de la tabla de distribución t del anexo E, se procede como sigue: i) El grado de significancia seleccionado se divide entre dos, y el resultado se le resta a uno (1 – /2 = 1 – 0.05/2 = 0.975); este resultado señala la columna de la distribución percentilar de t; ii) Los grados de libertad se obtienen restando uno al número de diferencias de la muestra (10 - 1= 9 gl); iii) Teniendo los dos números anteriores, se busca el valor de t0.975, 9, que es 2.262. Ya que la distribución t es simétrica, no es necesario buscar el valor de t que corresponde a la otra región de rechazo, basta con utilizar el mismo, pero en negativo: –2.262. 0.080 0.079 2 10 = 3.20 8. Decisión estadística. Dado que el valor tn–1 calculado en el punto anterior es superior al valor tn–1 tabulado en el punto 6, el resultado encontrado por el investigador en el grupo estudiado se localiza en la región de rechazo de la hipótesis nula, por lo que ésta se rechaza. 9. Conclusión. Se concluye que, con base en lo encontrado en la muestra, “la concentración de digoxina en suero a las 4 h es diferente de la concentración de digoxina en suero a las 8 h (p < 0.05)”. Cuadro 18-1. Concentración de digoxina sérica de 9 sujetos a las 4 y 8 h después de inyección intravenosa (Tabla de datos Bio3-18a) Digoxina sérica (concentración en ng/mL) Sujeto 4 hs 8 hs diferencias (di) 1 1.0 1.0 0.0 2 1.3 1.3 0.0 3 0.9 0.7 -0.2 4 1.0 1.0 0.0 5 1.0 0.9 -0.1 6 0.9 0.8 -0.1 7 1.3 1.2 -0.1 8 1.2 1.0 -0.2 9 1.1 1.0 -0.1 10 1.0 1.0 0.0 d = -0.080 s = 0.079 d © Editorial El manual moderno Fotocopiar sin autorización es un delito. 142 Pruebas de hipótesis para una y. . . 143 Figura 18-6. Resultados de la prueba t de Student. μ 50% - 2.262 -3σ -2σ 2.262 -1σ 0 1σ 2σ 3σ Figura 18-7. Resultados de la prueba t9 de Student. © Editorial El manual moderno Fotocopiar sin autorización es un delito. Figura 18-9. Definición de la variable “diferencia”. Figura 18-8. “Cuadro de captura de datos en Epi Info 7 para la prueba de hipótesis en comparaciones pareadas. Figura 18-10. Asignación de un valor a la variable “diferencia”. Bioestadística Cómo hacerlo en Epi Info, 18-6 Epi Info 7 no realiza esta prueba, pero se pueden obtener los elementos para hacerla manualmente de la siguiente manera. Abra el archivo Bioestadistica_3ra y seleccione la tabla Bio3_18a. Para realizar una prueba t de Student con muestras pareadas, las dos lecturas tienen que capturarse en el mismo registro, tal como se muestra en la figura 18-8, donde el campo “I” corresponde al número de registro, y los campos “CUATRO” y “OCHO” son las lecturas a las 4 y 8 h. Si se desea revisar el acomodo de los datos en la tabla de datos, haga clic en “List”, en el apartado “Statistics”. En la ventana de diálogo que se despliegue, sin hacer cambios, haga clic en “OK”. Para continuar, lo siguiente es definir una nueva variable que contenga la diferencia de las dos lecturas. Para ello, hacemos clic en “Define” en el apartado “Variables”. En la ventana de diálogo que se despliegue, escribimos el nombre de la variable a definir (que será el de “diferencia” para esta demostración) y seleccionamos el tipo (“Variable Type”) numérico (“Number”). La orden se ejecuta haciendo clic “OK” (figura 18-9). El siguiente paso contempla asignar la diferencia de los dos campos en la variable recién definida. Para ello, hacemos clic en “Assign” en el apartado “Variables”. En la ventana de diálogo seleccionamos “diferencia” en la ventanita de “Assign Variable” y definimos “OCHO-CUATRO” en la ventanita “=Expression”, tal como se puede observar en la figura 18-10. Para definir la operación que se realizará en la ventana “=Expression”, no es necesario escribir; basta con que en la ventanita “Available Variables” seleccione el campo “OCHO”, luego haga clic en y seleccione “CUATRO”. La orden se completa haciendo clic en “OK”. Si se deseara observar los cambios realizados en la tabla de datos, será necesario repetir la orden “List” que se describió líneas arriba. Ya que la nueva variable ha sido definida, se hace clic en “Means”, en el apartado “Statistics”. En la ventana de diálogo que se despliega, se selecciona “diferencia” en el espacio de “Means of”. La orden se ejecuta haciendo clic en “OK”. En la pantalla de resultados se podrán encontrar el número de diferencias, así como la media, la desviación estándar y la varianza de las diferencias pareadas. Con ellas se podrá realizar la prueba según la fórmula 18,10. © Editorial El manual moderno Fotocopiar sin autorización es un delito. 144 Pruebas de hipótesis para una y. . . 145 Ejercicios Ejercicio 1 Ejercicio 2 A partir de los datos que se le presentan en el cuadro 18-2, calcule las diferencias de medias y los valores de t que correspondan. Conteste las siguientes preguntas: a) En cuál de los grupos de recién nacidos se presenta el peso promedio más bajo b) En no más de tres líneas escriba su interpretación de la diferencia de medias c) Señale si la diferencia observada es estadísticamente significativa ( = 0.05) Cuadro 18-2 Media (desviación estándar) n No deseado 3134.9 (562.5) 182 Deseado 3437.4 (536.4) 960 Variables Diferencia de medias t Embarazo Madre con hipertensión arterial Sí 3218.3 (517.1) 79 No 3397.5 (560.2) 1063 Consumo de alcohol durante el embarazo Sí 3183.2 (550.0) 434 No 3419.6 (529.1) 708 Tabaquismo durante el embarazo Sí, activo 3194.3 (533.3) 223 Sí, pasivo 3292.8 (540.5) 347 No 3405.2 (528.7) 572 © Editorial El manual moderno Fotocopiar sin autorización es un delito. REFERENCIAS Altman, D. G, (1991). Practical statistics for medical research. Londres: Chapman and Hall. Daniel, W. W. (1988). Estadística con aplicaciones a las Ciencias Sociales y a la Educación. México: McGraw-Hill. Epi Info 7. CDC. Disponible en http://wwwn.cdc.gov/epiinfo/ OpenEpi. Disponible en http://openepi.com/v37/Menu/OE_Menu. htm Fisher, D. L., & Van Belle, G. (1993). Biostatistics. A methodology for the Health Sciences. New York: John Wiley & Sons. N xi i =1 19 Intervalos de confianza para la estimación de medias N ESTIMACIÓN DE INTERVALO PARA UNA MEDIA MUESTRAL Cuando existe interés en estudiar una población de la cual no se ha reportado su media poblacional, no es posible utilizar los procedimientos descritos anteriormente. En estos casos, el interés ha de centrarse en estimar el parámetro a partir del resultado de una muestra. Ya se sabe que, a medida que aumenta el tamaño de una muestra, el estimador puntual tiene mayor probabilidad de encontrarse próximo al parámetro. Sin embargo, no existe una certeza de qué tan próximo puede encontrarse si no se define un rango de valores entre los que puede hallarse. Las estimaciones de intervalo permiten calcular ese rango, además de que señalan con qué confianza se puede esperar que el parámetro se encuentre entre esas cantidades. © Editorial El manual moderno Fotocopiar sin autorización es un delito. Población distribuida normalmente, varianza poblacional conocida N μ) 2 i =1 = N 2. Se calcula x 0 (que es la media de una sola muestra) y x = 2 / n. A partir de la muestra, se encuentra que x = 3 550 g. El investigador sabe que la desviación estándar, , descrita para otros grupos de niños es igual a 500 g, y supone que es semejante para el grupo estudiado. Por tanto, 2 x = 500 / 10 = 158.11 3. Se selecciona un coeficiente de confianza, 1 – En el ejemplo explicativo 18-1 se definió = 0.05. Para este ejercicio se utilizará el mismo valor de , pero se pueden seleccionar otros niveles de significancia. El valor de define el grado de confianza que se pretende considerar. Así, a 1 - 0.05 corresponde un grado de confianza de 0.95. El grado de confianza se convierte en la variable estandarizada z mediante la tabla de la distribución normal. El valor de z que se va a utilizar se obtiene sumando los encabezamientos de la fila y la columna que se cruzan en (1 – 0.05)/2, por lo que, para = 0.05, z = 1.96. 4. Se construye el intervalo sumando y restando a x 0 el 2 valor , z / n así, /2 IC (1 En algunas ocasiones, el interés reside en estimar una media poblacional cuando la varianza de la distribución se supone semejante a otra población. Tal podría ser el caso de estudios de crecimiento y desarrollo que se efectúan en subgrupos de una población ya estudiada. xi i =1 ( xi 2 N ) = xo z 2 /2 / n , xo + z 2 /2 / n (19,1) La fórmula anterior también puede representarse como IC (1 ) = xo ± z 2 /2 /n (19,2) por lo que para el ejemplo presente Ejemplo explicativo 19-1 Considérese el ejemplo explicativo 18-1 desde la perspectiva de la estimación de intervalo. 1. Se obtiene una muestra aleatoria simple de tamaño n. El investigador decide estudiar una muestra de 10 niños para conocer su peso al nacer. IC(1 0.05) = 3,550 ± 1.96(158.11) = 3,550 ± 309.90 Se acostumbra multiplicar por 100 el grado de confianza, por lo que éste se expresa en porcentaje. Así, con una confianza de 95%, el parámetro de la media del peso de los niños al nacer se encuentra entre 3 240.1 g y 3 859.9 g. 147 Al hacer clic en “Introducir datos”. puede ser de interés estimar la diferencia entre las medias poblacionales de ambos grupos. 4. 2.05 corresponde un grado de confianza de 0.n 1 s2 / n (19. Tomando como base a 1 – .05)) . se mostrarán los intervalos de confianza de 95% (figura 19-2).n 1 ) = xo t1 2 / . la desviación estándar y el tamaño de la muestra los intervalos de confianza se pueden calcular en OpenEpi. la muestra debe ser mayor de 30 sujetos para que se aplique el teorema del límite central y se procede según los ejemplos explicativos 19-1 o 19-2. entramos a OpenEpi y seleccionamos “IC Media” en la sección de variables continuas. xo t1 2 / . en el ejemplo explicativo 18–2. Si el muestreo se realizó sin reemplazo y la muestra es grande (n > 5%) en relación con el universo. 1 IC( / 2 . se mostrarán las celdas en que anotaremos los valores de la media.045( . 1 – . también tendremos que anotar el tamaño del universo estudiado. se estima x mediante s2 / n . la media es 2 950 g y la desviación estándar. A partir de la muestra seleccionada. Dado que se desconoce el parámetro de la varianza del peso en los recién nacidos. En el ejemplo explicativo 18–2 se definió = 0. .87) ESTIMACIÓN DE INTERVALO PARA LA DIFERENCIA DE DOS MEDIAS MUESTRALES Cuando se comparan dos poblaciones entre sí. Cuando la población se distribuye normalmente. 19-1 Con los datos del ejemplo explicativo 18-2.09 g. 1. Se obtiene una muestra aleatoria simple de tamaño n. para Intervalos de confianza para una media muestral Media muestral 2950 Desviación estándar de la muestra 650 Tamaño de la muestra 30 Error estándar Varianza Escriba uno Tamaño de la 999999 población Para los datos de este ejemplo explicativo.09 Se concluye diciendo que. y es el que se utilizará. en el cual existía interés sobre el peso de niños recién nacidos de madres adolescentes. dependiendo de si corresponde a la distribución z o t. Se selecciona un coeficiente de confianza. Se construye el intervalo sumando y restando a x0 el valor t s 2 / n .975.n 1 s / n (19.05. En estos casos. se debe proceder según el siguiente ejemplo explicativo. Recuérdese que. no se puede utilizar la distribución normal. Este valor define el grado de confianza que se desea para la estimación. el tamaño de la muestra fue de 30 recién nacidos de madres adolescentes. podremos llenar la celda de “tamaño de la población” con puros 9’s.045. Cómo hacerlo en Epi Info. en caso contrario. pero conociendo la media. dado que no se le puede calcular.91 g y 3 193. desviación estándar y tamaño de muestra para el cálculo de intervalos de confianza de la media. Cuando éste es el caso. varianza poblacional desconocida Población no distribuida normalmente Lo más frecuente es que se busque estimar el parámetro en una población cuya varianza se desconoce. .4) . Para este ejemplo. Si se desea obtener un intervalo de confianza diferente a 95%. Nivel de confianza (%) 95 Figura 19-1. Al hacer clic en “Resultados”. Ejemplo explicativo 19-2 . IC( C Epi Info 7 no calcula de manera directa intervalos de confianza para medias. 29 = 2. Para hacerlo. se puede sustituir mediante la distribución t. Se calcula x0 (que es la media de una sola muestra) y. la varianza y el tamaño de la muestra de cada grupo estudiado (figura 19-1). la media poblacional del peso de recién nacidos de madres adolescentes se encuentra entre 2 706. t0. así. aunque también sería posible cambiarlo.n 1 s / n .148 Bioestadística Población distribuida normalmente. por lo que a 1 – 0. La estimación de x es 2 . no obstante. con 95% de confianza. igual a 650 / 30 = 11887 3. 650 g. © Editorial El manual moderno Fotocopiar sin autorización es un delito.95. el valor de t que se va a utilizar se obtiene en la intersección de la fila correspondiente a n – 1 gl y de la columna marcada con t1 – . se calcula un intervalo de confianza. se puede presentar. Media muestral.3) La fórmula anterior también puede representarse como IC( ) = xo ± t1 / . se tendrá que cambiar el valor en la ventana de “Introducir datos”. n1 + n2 2 Sp 2 Sp 2 + . el valor de t que se va a utilizar es el que se obtiene en la intersección de la fila correspondiente a n1 + n2 – 2 gl y de la columna marcada con t@ . 3. fue de 127. s1. © Editorial El manual moderno Fotocopiar sin autorización es un delito. Sp 2 Sp 2 + n1 n2 A partir de la muestra. En el ejemplo explicativo 18-3 se definió = 0. el posterior (t0.995. x.01 corresponde un nivel de confianza de 0. 1 – . alguna de las circunstancias que se muestran a continuación.44 mm Hg y la desviación estándar. se puede sustituir por la distribución t.58 3192. .29 Límite superior 3182. la media. no obstante. se utilizó t0. una en cada población) y se estima x1 x2 mediante . así. Aunque se podría cambiar. Este valor define el grado de confianza que se desea para la estimación.x2 (que es la diferencia de las medias obtenidas. se recurre a la distribución t. de 15.821 (véase ejemplo explicativo 18–3). al desconocer la varianza poblacional. Dado que no se cuenta con evidencia para rechazar la hipótesis de que las varianzas son iguales (véase ejemplo explicativo 18-4). 1. la media de la presión arterial media en usuarias de anticonceptivos orales.n1 + n2 2 Sp Sp + n1 n2 2 . Para este ejemplo. en el que se tenía interés en comparar la presión arterial de dos grupos de mujeres: uno con medicación de anticonceptivos orales y otro sin ella. Intervalos de confianza de 95% para una media muestral.42 Prueba-t 2707.5) Sp 2 = 2 1 2 2 s (n1 1) s (n2 n1 + n2 2 1) 2 ( x1 x 2 ) + t1 / .995. 200= 2. 149 Intervalos de confianza para la media muestral Media muestral Desviación estándar de la muestra Tamaño de la muestra Tamaño de la población Intervalo de confianza Información de entrada 2950 650 Error estándar 118. 200) o realizar una interpolación entre ambos.x2 el valor t1 IC( / 2 . 4. Tomando como base a 1 – . Dado que el último procedimiento brinda el mismo valor que el correspondiente a 200 gl. mientras que para el grupo de no usuarias. De cada grupo se selecciona una muestra de tamaño 100. las varianzas de cada población deben ser iguales entre sí. .34 mm Hg.71 Figura 19-2. Ejemplo explicativo 19-3 Retómese el ejemplo explicativo 18-3.86 mm Hg y la desviación estándar. Dado que no se conoce el parámetro de la varianza del peso en los recién nacidos.01. por lo que a 1 – 0. se sostienen las restricciones que se aplicaron para la verificación de hipótesis sobre la diferencia entre dos medias poblacionales. 180).99. Se calcula x1 . Se obtiene una muestra aleatoria simple de tamaño n de cada población.n1 + n2 2 ) = ( x1 Sp 2 Sp 2 + n1 n2 . varianzas poblacionales desconocidas En este caso. se sustituye por una varianza ponderada que se calcula a partir de las varianzas de las muestras y. s1.601.Intervalos de confianza para la. Se construye el intervalo sumando y restando a x1 . Es decir. n1 n2 (19. de 18. pero se puede tomar el valor anterior (t0. 2. se asume que Sp2 = 283. en lugar de la distribución z. Poblaciones distribuidas normalmente. se utilizará el mismo nivel de significancia. fines prácticos. Si es así. x1. 198 no se encuentra en la tabla. es de 132.995. x2 ) t1 / .23 mm Hg.673 Varianza 422500 30 999999999 95% (100) 95% Confidence Limits for the Mean of 2950 Basado en: Límite inferior Prueba-z 2717.995. no se puede utilizar la distribución normal. t0. en la que. Se selecciona un coeficiente de confianza. x1 x2.14 y -0. también se puede estimar un intervalo de confianza para la diferencia de muestras pareadas.n sd2 / n .65 mm Hg.1 gl y de la columna marcada con t@.n sd2 / n (19. sd / n 2. d i / n (que es la media de las diferencias 2 obtenidas) y se estima mediante .Bioestadística La fórmula anterior también puede representarse como IC (1 ) = ( x1 x2 ) ± t1 / 2 . se obtienen muestras aleatorias grandes de cada universo (n1 + n2 > 30). 19-2 d )=d t1 / . tal como se muestra en “Cómo hacerlo en Epi Info. se puede sustituir por la distribución t. se construye el intervalo sumando y restando a x1 – x2 el producto del coeficiente de confianza multiplicado por el error estándar correspondiente.079.8. Este valor define el grado de confianza que se desea para la estimación..75 y 11. 9 = 2.42 2. 18-1” y las figuras 18-5 y 18-6. el valor de t que se va a utilizar es el que se obtiene en la intersección de la fila correspondiente a n . la diferencia que existe entre las medias poblacionales de la presión arterial media de las mujeres que consumen anticonceptivos orales y las que no los consumen se encuentra entre –0. / . Para obtener los intervalos de confianza.05.05) = 0.262.080 ± 0. Poblaciones distribuidas normalmente. d = –0. con 99% de confianza. Se retomará la significancia del ejemplo explicativo 18–5. Por último. Se calcula x1 – x2 y se estima x1 x2 s12 s22 Sp 2 Sp 2 + + n2 o con n1 n2 .079 2 / 10 = 0.080 ± 2. © Editorial El manual moderno Fotocopiar sin autorización es un delito. Para este ejemplo. t0.6) por lo que IC( C . Dado que no se conoce el parámetro de la varianza de las diferencias en la concentración de digoxina que existen entre las 4 y las 8 h después de la administración intravenosa del medicamento. = 0. por lo que a 1 – 0. varianzas poblacionales desconocidas y diferentes Cuando éste es el caso. en la opción de “Test t” de Variables continuas.01) . así.7) La fórmula anterior también puede representarse como IC( Cómo hacerlo en Epi Info.95. n1 + n2 2 Sp 2 Sp 2 + n1 n2 (19.262(0. Al igual que para los ejemplos anteriores. d x es 0. con 95% de confianza.080 y sd = 0. la diferencia entre las medias poblacionales de la concentración de digoxina a las 4 y 8 h posteriores a la administración intravenosa se encuentra entre -0. se estima mediante s 2 s 2 . ) ESTIMACIÓN DE INTERVALO PARA COMPARACIONES PAREADAS 5. 4. los grados de 1 + 2 n1 n2 libertad se calculan con la fórmula 18.42 ± 6. Ejemplo explicativo 19-4 Tomando el ejemplo explicativo 18-5: 1.975. Poblaciones no distribuidas normalmente Para esto.n sd2 / n (19.06 Se concluye diciendo que. t s2 / n 1 IC( )=d / 2 . no se puede utilizar la distribución normal. d t1 / . tal como se muestra en el ejemplo explicativo 19-3. Se selecciona un coeficiente de confianza. la desviación estándar y el tamaño de la muestra de cada grupo. Tomando como base a 1 – . Se calcula d = dx A partir de los datos señalados. Por tanto. 1 – . 02 ng/ml. 3. Se selecciona un coemediante n1 ficiente de confianza 1 – y se obtiene el valor apropiado de t. Se obtiene una muestra aleatoria simple de tamaño n diferencias. 150 .025.025) = 0.n t1 Epi Info 7 no calcula intervalos de confianza para diferencias de medias independientes. No obstante. Se construye el intervalo sumando y restando a d el valor . Los datos para la muestra de 10 diferencias se encuentran en el cuadro 18–1.05 corresponde un grado de confianza de 0. se podrá utilizar Epi Info para obtener la media. A partir de esos datos. El resto del procedimiento es semejante al del ejemplo explicativo 19-3. los intervalos de confianza se podrán calcular en OpenEpi.8) por lo que IC(1 0. (2. las muestras deben ser lo suficientemente grandes para que se aplique el teorema del límite central (n1 + n2 > 30).20 542 Se concluye diciendo que. el error estándar de la diferencia de medias muestrales. Epi Info 7. Daniel. A methodology for the Health Sciences.. Calcule el intervalo de confianza de 95% para las estimaciones. Disponible en http://wwwn.5) 182 Deseado 3437. W.2 7.cdc. G.9 33 Variables Media (desviación estándar) n No deseado 3134.3 (533. Londres: Chapman and Hall.6 0.5 (560. G. 151 Ejercicios Ejercicio 1 Ejercicio 2 En el cuadro 19-1 se presentan varios promedios y desviaciones estándar de variables antropométricas. activo 3194. D. REFERENCIAS Altman. L. Biostatistics.4 (536.5) 347 No 3405. A partir de los datos que se le presentan en el cuadro 19-2.6 33 Talla a la rodilla 50. .0 33 Longitud de la mano 18.Intervalos de confianza para la. . Disponible en http://openepi. (1993).7) 572 © Editorial El manual moderno Fotocopiar sin autorización es un delito. & Van Belle. calcule las diferencias de medias y los intervalos de confianza de 95%. .gov/epiinfo/ OpenEpi.2 (550.9 3. New York: John Wiley & Sons.1) 708 Tabaquismo durante el embarazo Sí. htm Fisher. México: McGraw-Hill. Cuadro 19-1 Cuadro 19-2 Media Desviación estándar n Peso (kg) 71. (1991).8 (540. pasivo 3292. Practical statistics for medical research.3 (517. D.2) 1063 Consumo de alcohol durante el embarazo Sí 3183.1) 79 No 3397. W. Estadística con aplicaciones a las Ciencias Sociales y a la Educación.0 9.4) 960 IC 95% Variables Diferencia de medias IC 95% Embarazo Madre con hipertensión arterial Sí 3218.9 (562.3) 223 Sí.com/v37/Menu/OE_Menu.2 (528. (1988).0) 434 No 3419.9 33 Talla 163. CDC.6 (529. . gl = n – 1. Grupo 1 2 3 .. Media y .. j j =1 y ) 2 k + nj j =1 i =1 (y ij y.N xi i =1 20 Análisis de varianza Recordemos que la varianza de un grupo de datos muestrales se mide generalmente por la varianza de la muestra. k y11 y21 y12 y22 y13 y23 .. pero no es adecuada cuando tenemos más de dos. Varianza . Cuando se estudia una muestra de valores cuantitativos cuyos elementos se han clasificado en dos o más grupos. podemos utilizar el análisis de varianza. T. su cálculo se simplifica de la siguiente manera: primero. ...... s12 s22 s22 s22 s2 . N nj j =1 i =1 (y y.1 T.. Si ya conocemos la desviación estándar de la muestra a estudiar. k ynk k nj j = 1 i =1 (y ij y ) 2 = k ( n j y. la desviación estándar. Este procedimiento estadístico evalúa la hipótesis nula de que no existe diferencia entre dos o más medias poblacionales.. Total T.3 .1 y . j ) 2 (20. se eleva al cuadrado para obtener la varianza. Al igual que la varianza. y es esta variabilidad la que se divide para realizar el análisis de varianza. podemos medir la variación total mediante s2 = © Editorial El manual moderno Fotocopiar sin autorización es un delito. s2.3 .. la suma total de cuadrados es una expresión de variación. Existen diferentes procedimientos. y1k y2k yi2 yi3 .2 T. que es un procedimiento que toma la variabilidad total de una serie de datos y la divide en dos o más fuentes de variación. la variabilidad total puede..k y . Acomodo de datos para análisis de varianza i =1 = k Para realizar el análisis de varianza... la variabilidad total se puede descomponer en dos: variabilidad entre los tratamientos y variedad dentro de los tratamientos. luego. la fórmula anterior también se representa mediante kqw'kqwzWkq{ 153 .2) Para abreviar su escritura. primero agrupamos la información de manera semejante al cuadro 20-1. representarse con la fórmula .1) n 1 El numerador de esta ecuación generalmente es conocido como suma total de cuadrados. En estos casos. entonces.2 y . y . N μ) 2 ( xi 2 xi i =1 N La distribución t de Student es muy útil al hacer inferencias comparando dos muestras simultáneamente.. En términos de sumas de cuadrados.. yn11 yn2 2 yn3 3 . ij ) 2 (20. yi1 N DIVISIÓN DE LA SUMA TOTAL DE CUADRADOS PRESENTACIÓN DE LOS DATOS Cuadro 20-1. s.k T. Si tenemos disponible para el análisis una muestra de datos que se puede presentar como en el cuadro anterior. para obtener la suma total de cuadrados. la varianza se multiplica por los grados de libertad.. Podemos considerar también a la suma total de cuadrados como medida de variación... pero en este capítulo sólo se mostrará el análisis de varianza de una vía. s2(n – 1) = (xi – x)2. 18 183.3)..57 6952 5072 + +. “suma de cuadrados de tratamiento” y “suma de cuadrados del error”. respectivamente. en el caso de que alguien tuviera que realizar los cálculos de modo manual.20 Cuadro 20-2.931. nj k yij2 C (20. n= nj 5 SCT = k .08 427.30 15.00 28.5) = (suma de todos los totales de los tratamientos al cuadrado divididos por el tamaño del grupo correspondiente) – C SCTR = + Ya que los cálculos de SCT y SCTR son más sencillos que el de SCE.10 16.68-20. 10 10 68.18 © Editorial El manual moderno Fotocopiar sin autorización es un delito. El acomodo de las celdas corresponde al del cuadro 20-1.3) j =1 i =1 = (suma de todas las observaciones al cuadrado) C De acuerdo con la información del cuadro anterior. 48 69 695.00 18. ya que son muy entretenidos de evaluar. son: donde T. SCTR y SCE se leen “suma total de cuadrados”.32 = 20.6).6) Total Media Varianza 52 T.00 18.94 C= SCE=SCT-SCTR=20.. 746. los resultados para SCT.70 17.4) 2 y yij2 C = 73 2 + 69 2 + .50 16.854) = = 68.00 69..5) y (20. j =1 i =1 n j. encontrará que las fórmulas que se presentan a continuación son más fáciles de realizar que la de la ecuación 20.931. Número de artículos olvidados según el grupo Tratamiento 1 2 3 4 73 1812 10 5 1854.99 507. el procedimiento matemático implícito en el análisis de varianza se realiza con la ayuda de programas de cómputo especializados.2 j =1 n j k C (20. Sin embargo. j =1 + 16 2 68.2: SCT = Ejemplo explicativo 20-1 Supongamos que tenemos interés en evaluar el número de olvidos que sufre cierta población de ancianos y el efecto de diversos tratamientos (grupos) sobre la memoria.00 50. según las ecuaciones (20. 180.32 50 n 2 k 2 nj C= yij T2 C = . SCTR y SCE.746..4).48=751. (20.68 SCTR = T.746.. A cada una se aplica un tratamiento diferente y se registra el número de objetos olvidados durante una semana. Los resultados hipotéticos se muestran en el cuadro 20-2.79 181.2 (1. Para ello se seleccionan cinco muestras. 2j j =1 nj 5 35 19 11 52 26 21 15 70 44 28 16 23 73 47 37 23 15 61 45 28 23 25 72 56 29 23 18 71 52 28 14 20 74 53 26 15 18 67 56 26 13 20 65 50 25 16 16 288..180. (20. éste último se obtiene mediante sustracción a través de la ecuación SCE = SCT − SCTR (20.80 16.. En la actualidad. 32 = 20. = n j =1 i =1 = n ( gran total ) (20.Bioestadística 154 donde SCT.00 37. Análisis de varianza Cuadro 20-3. Tabla de análisis de varianza (ANOVA) EVALUACIÓN DE LA VARIABILIDAD Fuente de variación Tratamientos El análisis de varianza se basa en la comparación de la variabilidad de los tratamientos y el error. Para hacerlo, se utiliza una prueba F, o razón de varianzas. Las varianzas a comparar se obtienen dividiendo las sumas de cuadrados de los tratamientos y del error entre sus grados de libertad. En la fórmula 7,6, presentamos la varianza total de una muestra, s2, como la suma de cuadrados, (xi – x)2, dividida entre sus grados de libertad, gl = n –1. En el análisis de varianza, las varianzas a comparar también se calculan dividiendo la suma de cuadrados entre sus grados de libertad, aunque los grados de libertad se calculan de manera diferente: para la variabilidad de los tratamientos, los grados de libertad son iguales al número de tratamiento (k) menos 1, gl = k – 1; mientras que los grados de libertad del error son iguales al tamaño de la muestra total menos el número de tratamientos, gl = n – k. Existe una diferencia más: en el análisis de varianza, a las varianzas se les designa con el término “media cuadrada”. De esta manera, la varianza total o media cuadrada total (MCT), la varianza de tratamientos o media cuadrada de tratamientos (MCTR) y la varianza del error o media cuadrada del error (MCE) se calculan mediante las siguientes ecuaciones: kqw@`!'}qw (20,7) kqwz@`!'}qwz (20,8) kq{@!'}q{ (20,9) Con base en la varianza de tratamiento y de error, o medias cuadradas de tratamiento y error, se procede a calcular la razón de varianzas mediante © Editorial El manual moderno Fotocopiar sin autorización es un delito. RV = MCTR MCE 155 (20,10) Esta razón de varianzas se evalúa mediante la distribución F, que ya se revisó en el capítulo 18, cuando se comparan dos varianzas en relación con una prueba t de Student para la diferencia de dos medias muestrales. PRESENTACIÓN DE DATOS PARA EL ANÁLISIS DE VARIANZA La información requerida para el análisis de varianza se presenta en una matriz semejante a la que se muestra en el cuadro 20-3. En ella se anotan los valores que corresponden a cada fuente de variación. Este arreglo es conocido como tabla de análisis de varianza o tabla ANOVA. Error SC SCTR SCE SCT Gl MC k - 1 MCTR = SCTR k–1 SCE n-k MCE = n-1 n–k RV MCTR MCE SUPUESTOS DEL ANÁLISIS DE VARIANZA DE UNA VÍA Al igual que las otras pruebas estadísticas que ya se han presentado, el análisis de varianza requiere que se cumplan algunos supuestos: 1. Cada elemento se ha seleccionado aleatoriamente dentro de cada grupo o tratamiento que se compara. 2. La población que representa cada muestra tiene una distribución normal. 3. Las poblaciones estudiadas tienen la misma varianza. INTERPRETACIÓN DE LA RAZÓN DE VARIANZAS Cuando se cumplen los supuestos de esta prueba y la H0 es verdadera, la razón de varianzas, RV, se distribuye de acuerdo con la distribución F, con v1 y v2 grados de libertad. Aceptamos la hipótesis nula cuando la RV es menor que el valor crítico que corresponde al nivel de significancia y grados de libertad en el numerador y denominador, que se muestran en el anexo E. La rechazamos cuando la RV es igual o mayor que ese valor tabulado. Ejemplo explicativo 20–2 El análisis de varianza es una prueba de hipótesis que se realiza de la siguiente manera: 1. Planteamiento de la hipótesis. H0: 1 = 2 = 3 = 4 = 5, o “todas la medias poblacionales son iguales”. H1: “no todas la medias poblacionales son iguales”. 2. Selección del nivel de significancia. Para esta prueba, se seleccionó un nivel de = 0.05. Al igual que en todas las pruebas de significancia, el valor de puede ser modificado por el investigador. Bioestadística 3. Descripción de la población y planteamiento de los supuestos necesarios. a) Las muestras son independientes. b) Los valores que adquiere la variable se distribuyen normalmente en todas las poblaciones de interés. c) La varianza es aproximadamente la misma para todas las poblaciones. Cuando todas las muestras son del mismo tamaño, basta comparar las dos varianzas que más difieran entre sí para comprobar el supuesto. Así, siguiendo el ejemplo explicativo 18-4, Fcalculada = 17.57/15.79 = 1.11, donde F0.95,9,9 = 3.18. Lo anterior brinda evidencia de que las varianzas respetan el supuesto de igualdad de varianzas para todas las poblaciones. 4. Selección del estadístico pertinente. Razón de varianzas = MCTR . MCE 5. Especificación del estadístico de prueba y consideración de su distribución. El estadístico de prueba es F, que bajo el supuesto de la hipótesis nula adquiere la forma Fv1 v2 SCTR / k 1 = SCE C /n k (20,11) en la que k representa el número de tratamientos, n es el tamaño de la muestra total y F se distribuye como v1 = k – 1 y v2 = n – k grados de libertad. 6. Especificación de las regiones de rechazo y aceptación. Para obtener el valor crítico que define las regiones de rechazo y aceptación, se consulta el anexo D para F@ = F0.95 con v1 = 5 – 1 y v2 = 50 – 5; encontramos que este valor crítico no se encuentra en la tabla, ya que sólo se proporciona para 40 o 60 gl en el denominador. Sin embargo, se puede tomar el que corresponda a los grados de libertad que se encuentra por debajo, o hacer una interpolación. Por comodidad, y porque garantiza una mayor rigidez en el resultado, se tomó como valor crítico el que corresponde a 4 gl en el numerador y 40 gl en el denominador, que es igual a 5.72. Este valor corresponde al valor superior. Así, la región de rechazo consta de todos los valores de F iguales o superiores a 5.72. COMPARACIONES ENTRE LAS MEDIAS DE LOS TRATAMIENTOS Considérese el ejemplo explicativo 20-2 en que se rechazó la hipótesis nula. Cuando se rechaza la hipótesis nula, se puede afirmar que alguna de las medias es diferente de las demás. Esta afirmación nos enfrenta con otro reto: identificar cuál es, o cuáles son, diferente(s). Un procedimiento sencillo consiste en realizar comparaciones pareadas, donde se comparan pares de todas las combinaciones de las medias muestrales y se calcula su significancia mediante pruebas de t de Student. El principal problema de realizar estas comparaciones múltiples de t consiste en que, a medida que el número de pruebas aumenta, la probabilidad de cometer un error tipo I es mayor. Un procedimiento desarrollado para minimizar este riesgo es la prueba de Tukey. Cómo hacerlo en Epi Info, 20-1 En Epi Info podrá hacerse de dos maneras diferentes. 1. En Epi Info 7, abra el archivo Bioestadistica_3ra y seleccione la tabla Bio3_20a. Después, haga clic en “OK”. Si tiene interés en conocer la estructura de esta tabla de datos, puede utilizar la orden “List” para ver cómo se registraron los sujetos estudiados, los tratamientos y las respuestas. Para continuar, haga clic en “Means”, en el apartado “Statistics”. En la ventana de diálogo que se despliega, seleccione “OLVIDOS” en el espacio de “Means of” y “TRATAMIENT” en la ventanita de “Crosstabulate by Value of”. En ese momento, la ventana deberá observarse como en la figura 20-1. Cuadro 20-4. Resultados tabla de análisis de varianza (ANOVA) del ejemplo explicativo 20-2 Fuente de variación SC gl MC RV Tratamientos 20 180.48 5-1 5045.12 302.22 Error 751.20 20 931.68 50 - 5 50 - 1 16.69 7. Recolección de datos y cálculo de los estadísticos necesarios. Para calcular la razón de varianza, se llena la tabla de ANOVA (cuadro 20-4). 8. Decisión estadística. Dado que el valor F calculado supera el valor de F tabulado, entonces se rechaza la hipótesis nula. 9. Conclusión. Como se rechazó la hipótesis nula, se concluye que alguna de las medias poblacionales es diferente a las demás. Figura 20-1. Ventana de la orden “Means” de análisis de datos. © Editorial El manual moderno Fotocopiar sin autorización es un delito. 156 Análisis de varianza 157 Después de hacer clic en “OK”, observará los resultados que se muestran en la figura 20-2, donde encontrará el número de observaciones, el total, la media, la varianza, la desviación estándar, el valor mínimo, el percentil 25, la mediana, el percentil 75, el valor máximo y la moda para cada una de las muestras, así como la tabla de ANOVA, el valor de p de la prueba de F, la prueba de Bartlett y la prueba de Kruskal-Wallis. En los resultados de la figura 20-2 se podrá notar que no se encuentra el valor de t que sí se observó en la figura 7-4. Este valor ha sido excluido porque sólo se calcula cuando se comparan dos medias. También se recordará que la prueba de Bartlett evalúa el supuesto de igualdad de las varianzas de los grupos en estudio (“Cómo hacerlo en Epi Info, 18-1”). Cuando esta prueba rechaza que las varianzas sean iguales, no se cumplen los supuestos del análisis de varianza, por lo que se deberá tomar en cuenta el resultado de la prueba de Kruskal-Wallis. 2. En OpenEpi, cuando se cuenta con la media, la varianza y el tamaño de cada muestra a comparar, se podrá utilizar la opción “ANOVA” de la sección “Variables continuas”. © Editorial El manual moderno Fotocopiar sin autorización es un delito. Figura 20-2. Resultados que se despliegan con el comando “Means” de análisis de datos. 158 Bioestadística Ejercicios Ejercicio 1 Suponga un experimento donde tres grupos de jóvenes sanos, entre 18 y 20 años de edad, con presión arterial media promedio de 83.2 mmHg (desviación estándar de 6.4 mmHg) fueron sometidos a tres diferentes niveles de estrés y su presión arterial fue medida antes y durante la intervención estresante. El cuadro 205 presenta las diferencias de presión Cuadro 20-5 registradas, para un mismo sujeto, antes y durante el estímulo estresante. Los datos están en la tabla Ejer_20a del archivo Bioestadística_3ra. a) Primero llene el cuadro de ANOVA que se muestra en el cuadro 20-6. b) Luego diga si las diferencias observadas son estadísticamente significativas. Cuadro 20-6. Tabla de análisis de varianza (ANOVA) Tratamiento Con estrés bajo Con estrés alto 1.8 -1.9 5.6 0.4 -0.3 2.2 1.7 -1.5 1.5 0.5 3.7 0.5 -0.7 2.6 1.1 0.8 0.0 1.3 1.2 3.8 0.9 -2.5 3.4 5.6 0.9 2.4 0.4 Fuente de variación SC gl MC RV Tratamientos Error 2.3 -0.7 3.7 -1.6 0.9 0.7 -1.9 -1.7 4.8 -0.6 -1.7 3.9 1.3 0.4 4.3 Total 3.6 9.4 36.5 49.5 Media 0.3 0.7 2.6 1.2 Varianza 2.2 4.5 3.8 4.4 REFERENCIAS Altman, D. G. (1991). Practical statistics for medical research. Londres: Chapman and Hall. Daniel, W. W. (1988). Estadística con aplicaciones a las Ciencias Sociales y a la Educación. México: McGraw-Hill. Epi Info 7. CDC. Disponible en http://wwwn.cdc.gov/epiinfo/ OpenEpi. Disponible en http://openepi.com/v37/Menu/OE_Menu. htm © Editorial El manual moderno Fotocopiar sin autorización es un delito. Sin estrés N xi 21 Tamaño de muestra para variables dependientes cuantitativas 2 = Cuando el objetivo de la investigación es la inferencia de parámetros cuantitativos, los procedimientos estadísticos que orientan en el tamaño de la muestra deben tomar en cuenta la naturaleza de las variables a estudiar. Nuevamente, el tamaño de la muestra calculado mediante estos procedimientos debe tomarse como una guía, ya que otros aspectos (disponibilidad de pacientes, recursos, necesidad ética de evitar algún daño al paciente) también deben tenerse en cuenta. TAMAÑO DE LA MUESTRA PARA ESTIMAR LA MEDIA DE LA POBLACIÓN Sabemos que, cuando la estimación poblacional es la meta inferencial de alguna investigación, una vez que se ha tomado la muestra y quedan los datos disponibles para el análisis, se construirá un intervalo de confianza por medio de la fórmula general. © Editorial El manual moderno Fotocopiar sin autorización es un delito. Estimador ± (factor de confiabilidad) ( ) Concentremos nuestra atención en el caso de que la población de donde se va a sacar la muestra esté normalmente 2/ n y la cantidad distribuida. El error típico será igual a 2/ n que se le va a sumar y restar a nuestro estimador, z que también se representa como n , es igual a la mitad de la amplitud del intervalo de confianza. Si antes de sacar una muestra podemos especificar la amplitud del intervalo de confianza que en último término quisiéramos construir, 2/ n habremos determinado la magnitud deseada de z . Al determinar la amplitud deseada del intervalo de confianza que buscamos, definimos qué tan cerca nos gustaría que estuviera nuestra estimación de la media verdadera. Supongamos que podemos determinar qué tan cerca deseamos que se encuentre nuestra estimación de la media verdadera. Supongamos también que conocemos la varianza de población y que, además, podemos especificar el nivel de confianza que deseamos. Entonces podemos establecer la i =1 N xi i =1 N ( xi N μ) 2 i =1 N siguiente ecuación y resolverla para n, con lo que se determinará el tamaño necesario de la muestra, d=z n En la ecuación anterior, d es la mitad de la amplitud del intervalo de confianza deseado (o qué tan cerca deseamos que se encuentre nuestra estimación de la media verdadera), z es el valor de la tabla normal estandarizada correspondiente al nivel de confianza deseado y es la desviación estándar de la población de donde se va a sacar la muestra. La solución de esta ecuación para n dará el tamaño de la muestra necesario para hacer la estimación con 100(1-)% de confianza de la media de una población cuya varianza es 2. La amplitud del intervalo de confianza será igual a 2d unidades. La resolución de la ecuación da 2 2 n= z 2 d (21,1) En la mayoría de las situaciones, el investigador está en condiciones de especificar fácilmente el nivel de confianza que desea tener en el intervalo de confianza y la proximidad que le gustaría que hubiera entre los límites de su intervalo y la media verdadera de la población. Poder especificar 2 presenta generalmente más de un problema, puesto que no es muy probable que se conozca la varianza de población. En la mayoría de los casos, será necesario hacer una estimación de 2. Las posibles maneras de hacerlo son las siguientes: 1. 2. 3. 4. Muestra piloto. Estudios previos. Estudios similares. Si se tiene la sensación de que la población de la cual se va a extraer la muestra está distribuida en forma normal, puede usarse el hecho de que el rango es aproximadamente igual a 6 desviaciones típicas y calcular " R/6. Dado que, al calcular un tamaño de una muestra, siempre es más conveniente que la desviación estándar que se utilice en la fórmula 21,1 esté sobrevalorada, un indicador de la varianza poblacional más adecuado consiste en dividir el rango entre 4, es decir, "R/4. 159 Bioestadística Ejemplo explicativo 21-1 Se volverá al ejemplo explicativo 19-1; en él aparecía un investigador interesado en estimar el parámetro del peso de los niños al nacer. Al final del ejemplo explicativo, encontró que, con una confianza de 95%, el intervalo que contiene el parámetro que se buscaba iba de 3 240.1 g a 3 859.9 g. Después de meditarlo detenidamente, el investigador comprende que el rango que se obtiene de los límites de confianza (619.8 g) no le permite establecer una conclusión que considere conveniente publicar. Él sabe que, si aumenta el tamaño de la muestra, el rango del intervalo de confianza será más estrecho, pero también tiene limitaciones en el presupuesto, por lo que no puede seleccionar una muestra muy grande. Por tanto, decide estudiar una muestra que le permita, con una confianza de 95%, estimar un intervalo de confianza en el cual el parámetro de interés media poblacional se encuentre dentro de un rango de 400 g. Para ello, se sustituyen los elementos de la fórmula 21,1 utilizando los siguientes valores: z= = d= Así, 1.96 (este valor se refiere al grado de confianza, que se toma del anexo B, correspondiente a la curva de distribución normal, y se utiliza el mismo procedimiento empleado en la estimación de intervalos de confianza). 500 g. 200 g (que resulta de dividir el rango deseado para el intervalo de confianza entre dos, 400/2 = 200). tesis nula de que no existe diferencia entre ellos, el tamaño de la muestra necesario para cada grupo tiene que definirse atendiendo a los siguientes aspectos: μ1 = μ2 = = = = media de la variable de interés en el grupo 1. media de la variable de interés en el grupo 2. desviación estándar del grupo 1 o del grupo 2, seleccionando la de mayor magnitud entre las dos (se asume que la desviación estándar es la misma para cada tratamiento, por lo que, si se sospecha diferencias entre ellas, se debe aumentar la de la fórmula). nivel de significancia usado para encontrar una “diferencia significativa” cuando no existe diferencia entre los dos grupos (por lo regular = 0.05) y representa el riesgo de un resultado falso positivo. probabilidad de no encontrar una “diferencia significativa” cuando realmente existe una diferencia de magnitud μ1 – μ2. Representa el riesgo de un resultado falso negativo. El poder o fuerza para detectar o encontrar la diferencia de magnitud μ1 – μ2 está dado o cuantificado por 1–. Los valores de μ1 y μ2 son las medias hipotéticas de éxito en cada grupo. Reflejan la expectativa y no se relacionan con los resultados. Una vez especificado lo anterior, el tamaño de la muestra requerido está dado por la fórmula n= z 2 2 1.96 2 (5002 ) n= 2 = = 24 d 2002 donde el resultado, 24, corresponde al número de niños recién nacidos que han de estudiarse para estimar la media poblacional del peso al nacer. Si la fórmula del tamaño de muestra proporcionara una fracción (p. ej., 24.5), el tamaño de la muestra tendría que redondearse al entero inmediato superior. Cuando n/N > 0.05, es necesario utilizar el cpf o factor de corrección de población finita mediante la fórmula n n' = 1+ n N (21,2) ( Z1 /2 + Z1 ) 2 2 (μ 2 μ1 ) 2 (21,3) 2 Una representación más simplificada se da en n= 2 2 ( μ 2 μ1 ) 2 f( , ) (21,4) En ésta, f (,) es una función de y , cuyos valores están dados en el cuadro 21-1. El valor de n indica el número de elementos de cada muestra para cada grupo a comparar. Cuando se pretende evaluar más de dos grupos, es necesario tomar en cuenta los dos grupos que presenten la menor diferencia. en la que n se obtiene mediante la fórmula 21,1 y n´ es el tamaño de la muestra cuando ésta se extrae sin reemplazo. TAMAÑO DE LA MUESTRA PARA ESTIMAR LA DIFERENCIA DE MEDIAS Muestras del mismo tamaño Cuando el objetivo de la investigación consiste en contrastar dos grupos, de tal manera que lo relevante es evaluar la hipó- Cuadro 21-1.- Valores de f (, ) (error tipo I) (error tipo II) 0.05 0.1 0.2 0.5 0.10 10.8 8.6 6.2 2.7 0.05 13.0 10.5 7.9 3.8 0.02 15.8 13.0 10.0 5.4 0.01 17.8 14.9 11.7 6.6 © Editorial El manual moderno Fotocopiar sin autorización es un delito. 160 Tamaño de muestra para. . . 161 Ejemplo explicativo 21–2 Retómese el ejemplo explicativo 18-3 y supóngase que aún se tiene interés en comparar la presión arterial media de mujeres que consumen anticonceptivos orales con la presión arterial media de mujeres que no los consumen. La pregunta es: ¿de qué tamaño debe ser la muestra de cada grupo para que permita identificar como significativa (con un nivel= 0.05 y un nivel = 0.1) una diferencia absoluta de la presión arterial media igual o mayor de 132.86–127.44 = 5.42 mm Hg? Sólo falta definir la desviación estándar para completar los elementos que contiene la fórmula 21-4. Para ello, se recurre al ejemplo explicativo 18-3. En él se mencionó que las usuarias de anticonceptivos orales presentaron una desviación estándar de la presión arterial media de 15.34 mm Hg, mientras que para las no usuarias fue de 18.23 mm Hg. Ya que para el cálculo del tamaño de la muestra es conveniente utilizar el valor más alto, se selecciona el segundo (s = 18.23). Con los datos anteriores se sustituyen los elementos de la fórmula 21,4: n= Figura 21-1. Datos para calcular tamaños de muestra des- iguales. 2 2σ2 f (α, β) = 2(18.232 ) 10.5 < 238 2 (μ1 – μ2) 5.42 En ésta se indica que la muestra de cada grupo debe integrarse por 238 elementos. Muestras de diferente tamaño Cuando el investigador enfrenta la posibilidad de que uno de los grupos sea mayor que el otro, las fórmulas para calcular los tamaños de muestra son σ + 2 1 © Editorial El manual moderno Fotocopiar sin autorización es un delito. n1 = n2 = σ22 κ (z1 –α/2 + z 1–β)2 (21,5) (μ1 – μ2) 2 (κσ21+σ22)(z1 –α/2 + z 1–β)2 (μ1 – μ2)2 (21,6) donde k = n2 ÷ n1. En otras palabras, k es igual al número de elementos que se estudiarán en un grupo por cada sujeto estudiado en el otro grupo. Figura 21-2. Resultados que presentan los tamaños de mues- tra desiguales según los datos de la figura 21-1. (1983).#100. J. Ejercicio 1 Ejercicio 2 Un investigador está interesado en saber cuál es el peso promedio de los recién nacidos del Hospital Civil de Zapopan. donde se anotarán los parámetros para el cálculo de los tamaños de muestra (figura 21-1). un poder de 80% y el estudio de una hipertensa por cada no hipertensa. Clinical trials.). seleccionamos la opción de “Diferencia de medias” en la sección de “Tamaño de la muestra”.)100. Estudios previos señalan que la desviación estándar del peso al nacer es de 550 g. Boston: PWS-Kent Publishing. ¿De qué tamaño tiene que ser la muestra para cada grupo? REFERENCIAS Kish & Leslie (1965). Survey Sampling. ed. Después. y d) las medias y desviaciones estándar de los grupos 1 y 2 corresponden a las descritas en relación con el ejemplo explicativo 18-3. la razón del tamaño de la muestra (grupo 2 ÷ grupo 1) es de tres. S. Fundamentals of biostatistics (3a. ¿Qué tan grande necesita ser una muestra para estimar la media del peso al nacer con una precisión de ± 100 g y una confianza de 95%? El mismo investigador de la pregunta anterior también está interesado en explorar la asociación entre hipertensión arterial durante el embarazo y bajo peso al nacer. Se sabe que la desviación estándar del peso al nacer en hijos de madres no hipertensas es de 550 g. Pocock. Espera estudiar dos grupos: uno de hipertensas durante el embarazo y otro de no hipertensas. b) la potencia es igual a (1 . 12-1 Epi Info 7 no tiene la opción para calcular el tamaño de muestra para estudios que pretendan estimar una media. New York: John Wiley & Sons. A practical approach. © Editorial El manual moderno Fotocopiar sin autorización es un delito. B. hacemos clic en “Introducir datos”. Ejercicios . se podrá encontrar lo mismo que en la figura 21-2. Para hacerlo en OpenEpi.162 Bioestadística Cómo hacerlo en Epi Info. En la figura 21-1 se aprecian los siguientes datos: a) el intervalo de confianza se refiere al valor que resulta de (1 . Rosner. con una confianza de 95%. Chichester: John Wiley & Sons. Para ello está planeando realizar un estudio descriptivo entre los recién nacidos del hospital. Al hacer clic en resultados. El investigador desea que sus resultados puedan identificar como significativa una diferencia igual o mayor de 100 g. c) para nuestro ejemplo. pero sí incluye (a través de OpenEpi) la opción del cálculo de tamaños de muestra para estudios que buscan comparar dos medias. (1990). los cálculos aritméticos son sencillos. Se selecciona una muestra aleatoria simple de cada población en estudio. son la única alternativa cuando el tamaño de la muestra es pequeña. las pruebas de t. menor o igual que la mediana). es necesario recordar que la mediana divide al grupo estudiado en dos partes iguales. que se conocen como pruebas no paramétricas. o muestra conjunta. 1. prueba exacta de Fisher). Con frecuencia.N xi i =1 22 Pruebas no paramétricas ( xi © Editorial El manual moderno Fotocopiar sin autorización es un delito. n2) y ubicación de su valor según el valor de la mediana (mayor que la mediana. el número de supuestos es menor que en las pruebas paramétricas. Son muy útiles cuando la medición de las variables se registra en conteos de frecuencia o escalas ordinales. A una se le identifica como n1 y a la otra. Para su interpretación. 2. Los conteos según estas características se presentan en un cuadro de contingencia 2 × 2 como en el cuadro 22-1. es posible agrupar los procedimientos estadísticos en tres grupos: a) aquellos que suponen la distribución normal de los datos e incluyen los parámetros en el cálculo de los estadísticos de prueba (p. 163 . 4. es posible utilizar esta prueba. siempre que sea posible. y F). encontramos las siguientes: 1. Supuestos: 1) las muestras son aleatorias e independientes y 2) la escala de medición es ordinal o cuantitativa. Generalmente. z. Incluye los pasos siguientes: VENTAJAS Y DESVENTAJAS DE LOS PROCEDIMIENTOS NO PARAMÉTRICOS Entre las ventajas que los procedimientos no paramétricos y los de libre distribución ofrecen. c) los procedimientos de inferencia que no se refieren a parámetros de población (chi-cuadrada. Por conveniencia. Procedimiento. 2. que se identifican como procedimientos libres de distribución. que en conjunto se reconocen como pruebas paramétricas. Ambas muestras se mezclan en un solo grupo. pero que sí incluyen un parámetro en el cálculo de probabilidad (el cálculo exacto de probabilidad mediante las distribuciones binomial y de Poisson). la principal desventaja de los procedimientos no paramétricos reside en que tienen menos poder y son menos eficientes que las pruebas paramétricas. PRUEBA DE LA MEDIANA Cuando no se cumplen los supuestos de una prueba t de Student para la comparación de dos medias en muestras independientes. como n2. Por otra parte. Según estos criterios. de tal manera que quienes no tengan grandes conocimientos matemáticos pueden realizarlos con facilidad. ej. la mayoría de los textos de estadística agrupan tanto los procedimientos verdaderamente no paramétricos como los libres de distribución y los presentan bajo el título de procedimientos no paramétricos. ha de utilizarse un procedimiento paramétrico en lugar de uno no paramétrico. 3. y en ella se determina la mediana. b) la población de la cual surgen los datos está distribuida normalmente.. La hipótesis nula para esta prueba corresponde a la siguiente expresión: “las dos muestras proceden de poblaciones que tienen la misma mediana”. En éste se exponen otros procedimientos no paramétricos que se pueden utilizar cuando los supuestos de distribución normal o la existencia de parámetros no pueden satisfacerse. Algunas de las pruebas que corresponden a los procedimientos no paramétricos y a los de libre distribución ya han sido presentadas en capítulos anteriores. b) aquellos que no consideran la distribución normal de los datos. Por ello. Para la mayoría de ellos. Las pruebas estadísticas pueden clasificarse según dos criterios: a) el procedimiento de inferencia o prueba de hipótesis se relaciona con la presencia de parámetros de población. = xi i =1 N 2 N N μ) 2 i =1 N 3. Cada observación en la muestra conjunta se clasifica según dos criterios: muestra de la que procede (n1. Especificación del estadístico de prueba y consideración de su distribución. el investigador se da cuenta de que no puede utilizar una prueba paramétrica que le permita comparar ambos grupos. 164 . Decisión estadística.01 9 0 2.57. Ejemplo explicativo 22-1 Un investigador tiene interés en evaluar el efecto de fumar cigarrillos en el metabolismo de la fenacetina. Dados los datos contenidos en el cuadro 22-2.84. una de 12 fumadores y otra de 14 no fumadores.05 3.61 8 0 2.80 13 0 3. el procedimiento es semejante al ejemplo explicativo 15-5. Conclusión.46. 7. 8. Selección del nivel de significancia. El resultado anterior permite rechazar la hipótesis nula. por el valor crítico 3.69 19 1 0. la prueba de la mediana le permite comparar ambos grupos. Descripción de la población y planteamiento de los supuestos necesarios. a todos los participantes se les cuantifica la concentración de fenacetina en plasma (mg/ml). se realiza una prueba de chi-cuadrada o una prueba exacta de Fisher. se ordenan y se calcula la mediana para el grupo en conjunto. Sin embargo. 6. Concentración de fenacetina por condición de fumador i Fuma.55 12 0 2. Los sujetos de ambas muestras se agrupan en una sola.52 7 0 1.45 15 1 0.83 20 1 0.40 18 1 0.55 1 = fumador.75 16 1 0. selecciona dos muestras. Las frecuencias resultantes se ubican en un cuadro de contingencia 2 × 2. Al igual que en el punto anterior. Selección del estadístico pertinente. Diferencia de las medianas muestrales.28 17 1 0.01 3 0 1. El estadístico de prueba es 2.02 5 0 1. 1.01 2 0 0. el valor calculado de X2 = 5. 0 = no fumador 4. 4.05. H0: “la mediana de la concentración de fenacetina en el grupo de fumadores es igual a la mediana de la concentración de fenacetina en el grupo de no fumadores”. Para ello. Se concluye que “la mediana de la concentración de fenacetina en el grupo de fumadores no es igual a la mediana de la concentración de fenacetina en el grupo de no fumadores”.12 10 0 2. Con base en el arreglo de las frecuencias en el cuadro de contingencia.48 24 1 1. En el cuadro 22-2.03 6 0 1. de tamaño N = 26. como en el cuadro 22-3.75 25 1 2. A continuación. = 0. H1: “la mediana de la concentración de fenacetina en el grupo de fumadores no es igual a la mediana de la concentración de fenacetina en el grupo de no fumadores”. Con los datos anteriores.81 26 1 3. mediana = 1. siempre y cuando la selección de los sujetos sea aleatoria y ambas muestras sean independientes entre sí.28 14 0 3. por lo que las regiones de rechazo y aceptación están definidas. Recolección de datos y cálculo de los estadísticos necesarios. se registra cuántas observaciones de cada una de las muestras originales son mayores que la mediana de las observaciones combinadas y cuántas son menores o iguales a ella. Planteamiento de la hipótesis.01 4 0 1.15 22 1 1.52 11 0 2. 2. y aquí se aplica lo explicado en el ejemplo explicativo 15-5. ya que la distribución de cada grupo en la muestra no es normal (por lo que es muy posible que las poblaciones tampoco lo sean) y el tamaño tan pequeño de la muestra no permite aplicar el teorema del límite central.30 23 1 1. Acomodo de los datos para realizar una prueba de la mediana Número de observaciones Muestra 1 2 Mayores que la mediana A B Menores o iguales a la mediana C D Cuadro 22-2.Nivel de fenacedor tina plasmática ([]g/ml) i Fumador Nivel de fenacetina plasmática ([]g/ml) 1 0 0.Bioestadística Cuadro 22-1. se presentan los valores registrados para cada grupo. Especificación de las regiones de rechazo y aceptación. a quienes administra fenacetina. según se cumpla o no el mínimo de frecuencias esperadas (revisar el capítulo 15). © Editorial El manual moderno Fotocopiar sin autorización es un delito. Después de 2 horas. para una = 0. 5.91 21 1 0. 9. La selección de los sujetos ha sido aleatoria y ambas muestras son independientes entre sí. Para ello. . Acomodo de los datos para realizar la prueba de la mediana Número de observaciones Fumador No Sí Mayores que la mediana 10 3 Menores o iguales a la mediana 4 9 6. continuamos revisando las columnas de valores críticos para cada nivel de significancia hasta que encontramos la última en que no se encuentra el estadístico calculado dentro de los valores que definen el rango.1) 7.5n1 (n1 + 1) T Cómo hacerlo en Epi Info. . Siempre que existan dos o más observaciones con el mismo valor.2 y 22. 4. o de cualquiera de las dos si tienen el mismo tamaño... Planteamiento de la hipótesis. El procedimiento fue desarrollado en dos versiones independientes que conducen a la misma conclusión: la de Mann y Whitney. . . o empatadas. respectivamente. Si ambas tienen el mismo tamaño. Sin perder su identificación de población (X o Y). y2.4) © Editorial El manual moderno Fotocopiar sin autorización es un delito.5. de 10 o más elementos en cada grupo. Se identifica a la muestra más pequeña con la letra X y a la otra con la letra Y. Procedimiento. . a las dos se les asigna la posición 7. . si dos observaciones tienen el valor 4 y les corresponden las posiciones 7 y 8. se les asigna la media de las posiciones que ocuparían si no hubiera empates. las dos muestras se combinan y se ordenan de menor a mayor.3. Como estadístico de prueba se puede seleccionar una de dos opciones: U o T. asignando la posición 1 a la observación con el valor más pequeño y la posición n1 + n2 a la observación con el valor más grande. . xn. ésta sustituye a aquellas que consideran la diferencia de medias entre dos grupos. x2. Se designan las observaciones de la muestra de tamaño n1 obtenida de la población X con x1. Ejemplo explicativo 22-2 El procedimiento estadístico utilizado en el ejemplo explicativo 22-1 puede sustituirse por el correspondiente a la prueba de Mann-Whitney-Wilcoxon.3) donde n1 y n2 son la muestra pequeña y grande. primero tiene que realizarse el conteo para completar el cuadro 22-1 y luego utilizar “StatCalc” para realizar la prueba de chi-cuadrada (véase “Cómo hacerlo en Epi Info. y la Wilcoxon. Hl: “la mediana de la concentración de fenacetina en el grupo de fumadores no es igual a la mediana de la concentración de fenacetina en el grupo de no fumadores”. 2. 15-4”). El estadístico U (propuesto por Mann y Whitney) se calcula mediante U = n1n2 + 0.05 . . = 0. Con base en las fórmulas 22. se procede según los siguientes pasos: 1. . 3. yn. . PRUEBA DE MANN-WHITNEY-WILCOXON 165 (22.Pruebas no paramétricas Cuadro 22-3. Selección del nivel de significancia. 22-1 Epi Info no realiza la prueba de la mediana. Si se quiere hacer en este programa. no tiene importancia qué letra les corresponde.. 5. el cual se compara con la distribución normal del anexo B. Para una prueba de dos colas. donde encontraremos los valores críticos de esta prueba.2) y desviación estándar Al igual que la prueba de la mediana. consultamos el anexo H. Cuando las muestras son grandes. Por ello se conoce como prueba de Mann-Whitney-Wilcoxon. Para buscarlos. 2. n1.. xi. . se puede calcular el estadístico de prueba z mediante z= T μT (22. Incluye los pasos siguientes: T = n2 μ T 6 (22. Se selecciona una muestra aleatoria simple de cada población en estudio. La decisión estadística de rechazar o no H0 depende de la magnitud de T (o de U) y del nivel de significancia. H0: “la mediana de la concentración de fenacetina en el grupo de fumadores es igual a la mediana de la concentración de fenacetina en el grupo de no fumadores”. Por ejemplo. el estadístico T tiene una distribución aproximadamente normal con media μT = n1 (n1 + n 2 + 1) 2 (22. yi. Supuestos: 1) las muestras son aleatorias e independientes y 2) la escala de medición es ordinal o cuantitativa. y las observaciones de la muestra de tamaño n2 obtenida de la población Y con y1. T 1. El estadístico T (propuesto por Wilcoxon) es el más fácil de calcular y corresponde a la suma de los rangos asignados a la muestra más pequeña. primero localizamos los tamaños de muestra correspondientes para cada una de las muestras (designamos como n1 la más pequeña de las dos). . . 52 7 7 0. Rechazamos la hipótesis nula cuando los valores de T son suficientemente grandes o suficientemente pequeños. 18-1”).45 6 6 0. 4.80 25 26 cuantitativa. Conclusión. se llega hasta la columna 0.01 10 9 1. pero el universo de valores no tiene una distribución normal. 7.01 3 4 0.01 2 3 0. Acomodo de los datos y rango que corresponde a cada observación i 1 2 Nivel de fenacetina plasmática (mg/ml) Y Cómo hacerlo en Epi Info.40 9 8 1.61 8 0. i 3 1.15 18 9 2. 5.03 5 0. se rechaza la hipótesis nula. Por tanto. 2. Se toma una muestra aleatoria independiente de cada población y en ellas se realiza el procedimiento descrito líneas arriba para calcular el estadístico de prueba que resulta Cuadro 22-4. En este caso.01.28 4 1. que es la última empezando de izquierda a derecha. o mayor o igual.69 15 6 1. o bien. ambas muestras son independientes entre sí y los datos representan medidas por lo menos en una escala ordinal. se rechaza H0 si la T calculada es menor o igual.55 21 11 2. Recolección de datos y cálculo de los estadísticos necesarios.Bioestadística 3. en la tabla del anexo H se busca en el renglón correspondiente a n1 = 12 y n2 = 14 cuál es la última columna en que no se encuentra T = 111 entre los dos números que definen los valores críticos para el nivel de significancia señalado por la columna. Cada una de las muestras ha sido tomada al azar de su población.81 23 13 3. PRUEBA DE KRUSKAL-WALLIS En ocasiones existe interés en comparar tres o más grupos cuyos sujetos han sido clasificados mediante una escala Nivel de fenacetina plasmática (mg/ml) X Rango que corresponde a la observación 1 0. 6. la cual no contiene dentro de los dos números marcados el valor 111. se utiliza la prueba de Kruskal-Wallis para probar la hipótesis de que los grupos estudiados tienen la misma mediana poblacional. se ha utilizado una escala ordinal. 166 . a los dos valores que se encuentran en el anexo H.28 24 12 14 3. ya que p 8. 7-2” y “Cómo hacerlo en Epi Info.48 20 11 2. 22-2 Epi Info realiza la prueba de Mann-Whitney-Wilcoxon cada vez que se utiliza la orden “Means” (véase “Cómo hacerlo en Epi Info. La selección de los sujetos ha sido aleatoria. T = la suma de los rangos que corresponden a la muestra más pequeña.02 4 5 0.91 17 8 2.52 14 5 1.75 T'W"W#W$W%W?WKWWW$W"W"%' donde 111 es la suma de los rangos asignados a las xi (en negritas en el cuadro 22-4).01 1 2 0. Descripción de la población y planteamiento de los supuestos necesarios. Decisión estadística. Así. así como entre las muestras. se concluye que “la mediana de la concentración de fenacetina en el grupo de fumadores no es igual a la mediana de la concentración de fenacetina en el grupo de no fumadores”. Hay independencia entre las observaciones dentro de cada muestra. Selección del estadístico pertinente: Diferencia de medianas muestrales. 3. © Editorial El manual moderno Fotocopiar sin autorización es un delito.83 16 7 1. Los siguientes supuestos son necesarios para verificar la hipótesis nula de que las medias poblacionales son iguales: 1.30 19 10 2.12 11 12 13 10 1. Para este ejercicio. Los datos representan medidas por lo menos en una escala ordinal. Al igual que en el ejemplo explicativo 22–1.75 22 12 2. Especificación del estadístico de prueba y consideración de su distribución. Supuestos.55 3. Por tanto. para el tamaño de muestra estudiado en cada grupo y el nivel de significancia seleccionado. Los datos se acomodan en una tabla r × c.. y1k y21 y22 . k y11 y12 . Selección del estadístico pertinente. 5. En este estudio. Se toma una muestra aleatoria independiente de cada población.. + nk = N. en el transcurso de los 10 días siguientes. Cuando el número de muestras o grupos es igual a tres y el tamaño de cada muestra es menor de seis. las muestras son independientes entre sí y los datos representan medidas por lo menos en una escala ordinal. Ejemplo explicativo 22-3 Supóngase que un investigador.. Cuando no hay empate en el orden de las observaciones. 4. otro de no hipertensos pero con antecedente de hipertensión en alguno de sus padres y otro grupo de no hipertensos sin antecedente familiar de hipertensión. interesado en estudiar la relación entre la hipertensión y la capacidad de los individuos para identificar el sabor salado.5) j =1 en la que k representa el número de muestras o grupos. Para buscarlos. 2.05 3.. H0: “la mediana de la percepción del sabor salado es igual en los tres grupos”. la fórmula es KW = 12 N ( N + 1) k n j R j2 3( N + 1) j =1 (22. Cuando el número de muestras o grupos es mayor de tres. Especificación del estadístico de prueba y consideración de su distribución. .6) g (t 1 3 i ti ( (N 3 N) 167 5. 2. Excepto por esa característica. la prueba de hipótesis comprende las siguientes etapas: © Editorial El manual moderno Fotocopiar sin autorización es un delito. pero el orden en que lo hicieron fue aleatorio. A continuación. La selección de los sujetos ha sido aleatoria. g es el número de agrupaciones empatadas en la misma posición y ti es el número de observaciones empatadas en la misma posición. Selección del nivel de significancia. según el cuadro 22-5. El frasco número 1 contenía agua bidestilada. Para obtener un valor del estadístico de prueba.1 gl. se localizan los tamaños de muestra correspondientes para cada una de las muestras (se designa como n1 la más grande. y2k yi2 . la posición 2 a la siguiente más pequeña y así sucesivamente hasta la posición N que se da a la más grande.. KW se calcula mediante una de las dos fórmulas siguientes. En caso de observaciones empatadas. Diferencia de las medianas muestrales. Los sujetos. o los tamaños de muestra son superiores a cinco. n1 + n2 + . tenían que decir si el sabor era salado o no. i =1 En ésta. 4. Cuadro 22-5. y del 2 al 10 contenían concentraciones progresivas de cloruro de sodio en agua. por lo que se utiliza la distribución del anexo G para el nivel de significancia seleccionado. los sujetos probaron el líquido de unos frascos numerados del 1 al 10. A las observaciones empatadas se les asigna la media de las posiciones que ocuparían si no hubiera igualdades... yn2 2 . La decisión de rechazar o no H0 en el nivel de significación a depende de la magnitud de KW. Todos probaron los 10 frascos. se utiliza 12 KW = N ( N + 1) k njR 2 j 3( N + 1) (22. N es el total de elementos en las muestras '$j es el promedio de las posiciones en la muestra o grupo j-ésimo. hay que empezar asignando el orden de la posición a las observaciones de las muestras combinadas. Se otorga la posición 1 a la más pequeña de las observaciones N. KW. Para verificar la hipótesis nula de que las medianas poblacionales son iguales: 1. yn11 ynk k 1. seleccionó tres grupos de sujetos: uno de hipertensos. yi1 . en el que las columnas representan los grupos muestreados. al probar el líquido. Acomodo de datos para prueba de KruskalWallis Grupo 1 2 . Como estadístico de prueba. Planteamiento de la hipótesis. 3. = 0. Descripción de la población y planteamiento de los supuestos necesarios.. el valor de KW sigue la distribución 2 con k . nj es el tamaño de la muestra en la muestra o grupo j-ésimo. los tres grupos eran semejantes entre sí. se consulta el anexo I. en el cual se encontrarán los valores críticos de esta prueba. Hl: “la mediana de la percepción del sabor salado es diferente en alguno de los grupos”... n2 la intermedia y n3 la más pequeña) y luego se revisan las columnas de valores críticos para cada nivel de significancia hasta que se encuentre que el valor de KW calculado es igual que el mayor al tabulado en la celda correspondiente a los tamaños de las muestras y al nivel de significancia..Pruebas no paramétricas Procedimiento. .. 6 para calcular el estadístico de prueba.0 3 3.5 7 14.5 6 12. el grupo de enfermeras recibe el adiestramiento y al finalizarlo se someten de nuevo a la prueba.” Cuadro 22-6. “al menos en uno de los grupos.38 es superior al tabulado. Cómo hacerlo en Epi Info.05 / 0. Datos del ejemplo explicativo 22-3 Grupo de no hipertensos sin antecedente hereditario de hipertensión Grupo de no hipertensos con antecedente hereditario de hipertensión Identificó el sabor salado en el frasco Identificó el sabor salado en el frasco Posición en la muestra total Grupo de hipertensos Posición en la muestra total Identificó el sabor salado en el frasco Posición en la muestra total 2 1. 18-1”). 9.5 3 3.05 y el denominador a 1 (33 3) + (43 4) + (33 3) + (23 2) + (23 2) = 0. se utiliza “–”. se llevan a cabo los pasos siguientes: 1.5 2 + 5 12. porque el valor calculado de KW. Planteamiento de la hipótesis. 22-3 Epi Info realiza la prueba de Mann-Whitney-Wilcoxon cada vez que se utiliza la orden “Means” (véase “Cómo hacerlo en Epi Info.0 5 10. El uso de esta prueba se basa en el supuesto de que cada par de sujetos muestreados son aleatorios.5 5 10. 5. Después de realizar el estudio.5 y x corresponde a número de pares “+” o “–” (por comodidad utilizamos el menor de los dos). se utiliza la fórmula 22.0 4 6. Posteriormente. Se concluye que.5 4 6. en el cual el valor de la concentración salina corresponde a la menor concentración en que los sujetos identificaron el sabor salado. Los datos obtenidos y las diferencias ubicadas para cada par de observaciones se pueden encontrar en el cuadro 22-7. 7. para este ejercicio se rechaza la hipótesis nula.168 Bioestadística 6. A partir de lo anterior. Ejemplo explicativo 22-4 Supóngase que un investigador piensa que el tiempo en que un grupo de enfermeras realiza un procedimiento puede ser acortado después de un periodo de adiestramiento. Para ello.96 = 9. Procedimiento. toma un grupo de enfermeras y mediante una prueba controlada mide el tiempo en que cada una de ellas lo realiza. pero las muestras han sido pareadas por alguna característica de interés y no se cumplen los supuestos para realizar una prueba de hipótesis para la diferencia de medias en comparaciones pareadas (capítulo 18). asignando a los valores empatados el promedio de la posición que les correspondería. Dado que en el cuadro 22-6 se observan valores empatados. los datos registrados se presentan en el cuadro 22-6. 7-2” y “Cómo hacerlo en Epi Info.38 8. Para cada par se designa con X a una lectura y con Y a la otra lectura. Si xi es mayor que yi. La decisión estadística depende de la distribución binomial (capítulo 13) para una n igual al número de pares discordantes. Es decir.96 15 3 15 PRUEBA DE LOS SIGNOS Esta prueba es una alternativa cuando se tiene interés en comparar dos medias. el par se identifica con el signo “+”.5 © Editorial El manual moderno Fotocopiar sin autorización es un delito.0 4 6. Para cada par se comparan los valores de X y Y. la mediana en la identificación del sabor salado es diferente a las correspondientes a los otros grupos”. Decisión estadística.0 7 14. De modo que KW = 9.0 5 10.5 4 6. p = 0.5. en la que el numerador corresponde a ( ) ( ) ( 12 5 4. Conclusión. Recolección de datos y cálculo de los estadísticos necesarios. en caso contrario. En el mismo cuadro se presenta el orden en que los valores se acomodaron.7 2 + 5 6. Supuestos.5.78. Por tanto.0 3 3. Se rechaza la hipótesis nula cuando el valor de KW calculado es igual o superior al tabulado en la tabla del anexo I para los tamaños de muestra correspondientes a cada muestra y el nivel de significancia seleccionado.5 6 12.8 2 15(15 + 1) ) 3(15 + 1) = 9. . “El tiempo en que se realiza el procedimiento en el grupo de enfermeras antes del adiestramiento es igual al tiempo en que se realiza el procedimiento en el grupo de enfermeras después del adiestramiento. H0: P(+) = P(–) = 0. H0: P(+) = P(–) = 0. con la ventaja 9. 22-4 Epi Info no realiza la prueba de los signos. Par de lecturas Tiempo en segundos en que realizan el procedimiento Antes del adiestramiento Después del adiestramiento Diferencia (di) 1 101 86 15 2 91 95 -4 3 91 90 1 4 90 80 10 4. . © Editorial El manual moderno Fotocopiar sin autorización es un delito. Figura 22-1.05. Para una prueba de dos colas y un nivel de significancia de 0. = 0. Al final. Selección del estadístico pertinente. se cuenta el número de sujetos que tienen diferencias negativas. Menú de Epi Info 7 con la opción “Binomial (proportion vs. 8. Descripción de la población y planteamiento de los supuestos necesarios. Especificación del estadístico de prueba y consideración de su distribución. Con base en los datos del cuadro 22-7. puede utilizar StatCalc para realizar un cálculo de probabilidad bionomial (figura 22-1). Si se quiere hacer en este programa. std)” colgando de “StatCalc”. La muestra de pares de datos fue seleccionada aleatoriamente. primero se tienen que calcular las diferencias para luego contar las que son negativas y positivas. 6. y aquí se aplica lo explicado en el ejemplo explicativo 12-2.” 2. Las regiones de rechazo se pueden definir consultando el anexo C. Decisión estadística. 5 107 79 28 6 99 65 34 5. Selección del nivel de significancia. Cómo hacerlo en Epi Info. Se concluye que “el tiempo en que se realiza el procedimiento en el grupo de enfermeras antes del adiestramiento es diferente al tiempo en que se realiza el procedimiento en el grupo de enfermeras después del adiestramiento”. Conclusión. Especificación de las regiones de rechazo y aceptación. y se encuentra que sólo existen tres. El resultado anterior permite rechazar la hipótesis nula. en la región de rechazo se encuentran todos los valores menores o iguales a 3 y mayores o iguales a 12. se pueden apreciar los resultados que se muestran en la figura 22-2.5. Cuando hacemos el cálculo binomial con los datos del ejemplo explicativo 22-4. Proporción de signos “+” o proporción de signos “–”. Tiempo en que una muestra de 15 enfermeras realiza un procedimiento antes y después de un adiestramiento 3. 169 PRUEBA DE WILCOXON La prueba de Wilcoxon para rangos con signo de pares comparados es alternativa a la prueba de los signos. 7 68 70 -2 8 121 97 24 9 117 65 52 10 97 76 21 11 97 94 3 12 62 80 -18 13 137 65 72 14 109 36 73 15 98 65 33 7. El estadístico de prueba se basa en la distribución binomial. en la tabla correspondiente a n = 15 y la columna de P = 0. Recolección de datos y cálculo de los estadísticos necesarios. Cuadro 22-7.05.Pruebas no paramétricas H1 @ |""cedimiento en el grupo de enfermeras antes del adiestramiento es diferente al tiempo en que se realiza el procedimiento en el grupo de enfermeras después del adiestramiento. 9) A partir de las fórmulas 22.8) y desviación estándar: Figura 22-2. 3.8 y 29. el estadístico T tiene una distribución aproximadamente normal con media: n(n + 1) 4 μR = (22. el total de observaciones y la proporción esperada para la obtención de la probabilidad con distribución binomial. z= T μR (22. Cada par de sujetos muestreados es aleatorio. Supuestos. Procedimiento T'k . Las observaciones proceden de una población con distribución simétrica.9 se puede calcular el estadístico de prueba z mediante: de que reconoce la magnitud de las diferencias observadas en cada par muestreado.10) R el cual se compara con la distribución normal del Anexo B.170 Bioestadística de muestra correspondiente y revisamos las columnas de valores críticos para cada nivel de significancia hasta que encontremos la última en que no se encuentra el estadístico calculado dentro de los valores que definen el rango. Ventana en que se definen los valores corres- pondientes al numerador. Cuando la muestra (o las n diferencias) es mayor de 25 o más elementos. R = n(n + 1) 2n + 1 24 (22. La variable de interés es cuantitativa. La prueba contempla los siguientes: 1. 2. . Siempre que existan dos o más observaciones con la misma diferencia. 1. si dos observaciones tienen el valor 5 y les corresponden las posiciones 7 y 8. y el tamaño de la muestra se reduce.! (22. Se calcula la diferencia para cada par. o empatadas. Diferencias y rangos que corresponden al tiempo en que una muestra de 15 enfermeras realiza un procedimiento antes y después de un adiestramiento Par de lecturas Diferencia (di) Rango 14 73 15 13 72 14 9 52 13 6 34 12 15 33 11 5 28 10 8 24 9 10 21 8 12 -18 7 1 15 6 4 10 5 2 -4 4 11 3 3 7 -2 2 3 1 1 © Editorial El manual moderno Fotocopiar sin autorización es un delito. los pares se ordenan de menor a mayor considerando la magnitud absoluta. Los pares con diferencia igual a 0 se eliminan. al de mayor diferencia se le asigna la última. 4. se les asigna la media de las posiciones que ocuparían si no hubiera empates. Calcular . Por ejemplo.7) 5. 3.5. localizamos el tamaño Cuadro 22-8. consultamos el anexo J en donde encontraremos los valores críticos de esta prueba. Al par con la menor diferencia se le asigna la primera posición. Para una prueba de dos colas. 2. Para buscarlos. a las dos se les asigna la posición 7. La decisión estadística de rechazar o no la hipótesis nula depende de la magnitud de T y del nivel de significancia. Sin tener en cuenta el signo de la diferencia. . 3. T' . H1: “la media del tiempo en que se realiza el procedimiento en el grupo de enfermeras antes del adiestramiento es diferente a la media del tiempo en que se realiza el procedimiento en el grupo de enfermeras después del adiestramiento”. Cada par de sujetos muestreados es aleatorio. Diferencia de las medias muestrales. Descripción de la población de interés y planteamiento de los supuestos necesarios. Especificación del estadístico de prueba y consideración de su distribución. las observaciones proceden de una población con distribución simétrica y la variable de interés es cuantitativa. En la evaluación estadística de los datos del ejemplo explicativo 22-4 también puede utilizarse la prueba de Wilcoxon para muestras pareadas. Para ello. 2.05. Planteamiento de la hipótesis. se procede según los siguientes pasos: 1. H0: “la media del tiempo en que se realiza el procedimiento en el grupo de enfermeras antes del adiestramiento es igual a la media del tiempo en que se realiza el procedimiento en el grupo de enfermeras después del adiestramiento”. 5. = 0. Selección del nivel de significancia. Selección del estadístico pertinente.Pruebas no paramétricas Ejemplo explicativo 22-5 © Editorial El manual moderno Fotocopiar sin autorización es un delito. 4. se rechaza la hipótesis nula. ya que p 8. que corresponde a la suma de los rangos con signos negativos. Decisión estadística. Se calcula T = suma de los rangos con signos negativos (cuadro 22-8). Recolección de datos y cálculo de los estadísticos necesarios. Conclusión. Las diferencias se ordenan sin tomar en cuenta el signo. Se toma una muestra aleatoria de pares y se obtiene la diferencia de la variable de interés antes y después del adiestramiento. Por tanto. El estadístico de prueba T. 171 6. . de izquierda a derecha. en la tabla del anexo J se busca en el renglón correspondiente a n = 15. es T'"W$W?'# 7. se busca la última columna en que no se encuentre el valor R = 13 entre los dos números que definen los valores críticos para el nivel de significancia señalado por la columna. Se consulta el cuadro del anexo J para el tamaño de muestra estudiado y el nivel de significancia seleccionado. en el cual. En este ejercicio. Se concluye que “la media del tiempo en que se realiza el procedimiento en el grupo de enfermeras antes del adiestramiento es diferente a la media del tiempo en que se realiza el procedimiento en el grupo de enfermeras después del adiestramiento”. Cuadro 22-9 Cuadro 22-10 Valores de colesterol en el grupo A i 1 170 12 160 2 178 13 182 3 146 14 239 4 163 15 201 5 157 16 238 6 193 17 175 7 200 18 215 8 156 19 270 9 238 20 193 10 175 21 250 11 231 22 195 Valores de colesterol en el grupo B i Expresión de dolor Antes del tratamiento Después del tratamiento 1 5 2 2 9 5 3 5 2 4 8 0 5 8 9 6 7 1 7 7 7 8 6 8 9 7 5 10 4 2 11 9 3 12 8 7 13 4 1 REFERENCIAS Altman. El cuadro 22-10 presenta los resultados. Jr (1988). el cuadro 22-9 presenta los valores de colesterol de dos grupos (A y B). Los datos los puede encontrar en Ejer_22a del archivo Bioestadística_3ra. mediante un número del 1 al 10.). pruebe la hipótesis nula de que no existe diferencia antes y después del tratamiento utilizando la prueba Wilcoxon.. A partir de esos datos. Nonparametric statistics for the behavioral sciences (2a. Suponga un estudio que compara la respuesta a dos tratamientos orientados a disminuir el dolor en un grupo de pacientes. i . J. (1991). Antes y después de la aplicación del tratamiento. New York: McGraw-Hill. G. © Editorial El manual moderno Fotocopiar sin autorización es un delito. & Castellan. Pruebe la hipótesis nula de que no existe diferencia entre ambos grupos utilizando cualquiera de las pruebas de Mann-Whitney o Kruskal-Wallis. N. qué tanto perciben su dolor.172 Bioestadística Ejercicios Ejercicio 1 Ejercicio 2 A continuación. Siegel. Practical statistics for medical research. ed. D. Londres: Chapman and Hall. los pacientes expresan. S. Señale si la diferencia observada es estadísticamente significativa. y en los diseños experimentales puede ser modificada por el investigador. se puede adivinar una relación directa entre los valores de X y Y.86 13.99 13 6. Cuando Y y X no son independientes.66 8.90 6.N xi i =1 23 Regresión y correlación simple ( xi N μ) 2 i =1 = N Esta relación.32 15. xi i =1 N 2 En ocasiones es necesario estudiar las relaciones que se dan entre dos variables cuantitativas en un mismo individuo. Valores hipotéticos correspondientes a dos variables cuantitativas medidas en un mismo sujeto i X Y i X 3. también lo hacen los de Y.98 6 3. N Y= 0 + 1 X+ (23.98 7 3.65 5 2.30 17.45 13. en que i representa un sujeto (numerado progresiva- En el análisis de regresión simple.83 11 4.61 12. evidente de manera gráfica.97 Y 10.06 11. Si se observa la figura 23-1. Una gráfica de puntos trazada con esta información se presenta en la figura 23-1.83 2 1. En estos casos.18 11.26 12 6.39 3.91 8.10 4.1) Cuadro 23-1. MODELO DE REGRESIÓN SIMPLE Ejemplo explicativo 23-1 Observemos la serie de datos que se presenta en el cuadro 23-1.03 173 .88 5.54 4 2. ambas observaciones pueden representarse mediante una gráfica de puntos o XY.14 8. Se nota con claridad que. la variable dependiente. podemos predecir un valor de Y para cada valor de X en el universo estudiado mediante la fórmula mente desde 1 hasta n) y las variables de estudio son X y Y.57 Y 1 0.24 8 9. la variable X se designa como independiente o de predicción.15 9 4. © Editorial El manual moderno Fotocopiar sin autorización es un delito. puede describirse matemáticamente mediante el modelo de regresión simple y el coeficiente de correlación. X es la variable independiente y Y.31 3.08 3 2.31 16 8.86 10 4.44 14 6.57 20 9.32 19 9. a medida que los valores de X aumentan.49 18 8.84 16.14 17 8.84 i 15 X 7. A la variable Y se le designa como dependiente o de respuesta.81 5.00 8. 005 5 2.453 -4.363 -3.679 6 3.202 18 8.121 0 = 9.249 11.953 -5.15 -4.776 1 = 166.487 15 7.777 .263) = 3.10 4.18 11.577 6.938 19 9.223 17 8. Esta línea representa el valor estimado de Y para cada X.123 -1.1 los valores correspondientes a 0. n n .163 -4.181 9.057 5.353 -1.578 = 1.98 3.637 2.61 12.14 -0.204 8.797 2.852 23.65 3.647 4 2.83 -3.859 1.706 16.00 (23.121(5.991 10.808 1.627 6.383 -4. El modelo de regresión proporciona una fórmula a partir de la cual se puede trazar una línea en la que se podría esperar encontrar los valores de Y para cada valor de X.30 17.999 3 2.00 4.287 1.054 0.00 n 1 = i =1 ( xi n i =1 x )( yi ( xi x) y) xi n i =1 n i =1 = x i =1 2 i 1 X 2.32 1.98 3.32 15.337 1.646 10.874 13.Bioestadística 174 en la que Y es el valor esperado para cada valor de x0 1 son los coeficientes de la regresión estimados mediante 20.553 © Editorial El manual moderno Fotocopiar sin autorización es un delito.84 -1. se puede trazar una línea en el gráfico de puntos que se representa en la figura 23-2.933 12.263 y = 9.746 2 1. Elementos para calcular 1 i x y 1 0. Cuadro 23-2.86 -3.1.66 8. Utilizando el modelo de regresión.304 22. para ello.875 + 1.254 9.117 13 6. Gráfica de puntos para los valores de X y Y del cuadro 23-1.00 yi i =1 xi yi x (23.873 -6. 1 y X.100 0. Al interpretar los valores de Y existe una limitante: no puede aplicarse para predecir valores que excedan los límites de la serie a partir de la cual fueron calculados los coeficientes.917 2.193 0.037 7. y = 0 + 1x = 3.672 9 4.204 105.00 8.88 5.205 11 4.54 3.57 1.916 2.343 166.578 148.132 12 6.00 n i =1 =y 0.49 -0.00 6.53 x = 5.293 1. Ejemplo explicativo 23-2 Ejemplo explicativo 23-3 Así pues.537 31.14 8.322 16 8.884 0.00 0.2) 2 n 2 10.84 16.467 0. basta con sustituir en la ecuación 23.503 1.603 -1.597 3.90 6.364 10 4.764 9.86 13.947 15.24 -4.57 9.81 5.814 7 3.44 -1.787 11.763 5.00 xi n 0 5.123 5.307 0.631 15.39 3.367 14.301 3.45 13.517 10.121(x).409 14 6.31 3. para calcular 1 se procede como se indica en el cuadro 23-2.00 Y 15.08 3.31 -0.3) Figura 23-1.263 -0.99 -1.794 4.26 195.83 2.03 1.347 2.064 -1.375 1.875 x1 – x y1 – y x1 – x y1 – y x1 – x 2 8.26 -2.831 8 3.544 5.862 2.06 11.00 10.187 3.97 10.417 20 9.91 8.00 8. Cuando las dos variables no están correlacionadas. Así pues. Las asociaciones encontradas no deben aplicarse indebidamente a valores que excedan los límites de las series estudiadas. 75 148. μY|X βo + β1x Y μY|X μY|X i =1 yi i =1 i =1 2 xi i =1 (23. más estrecha será la relación entre las dos variables. μY|X X Figura 23-3. Cuando la relación no es lineal. hay que elevar el resultado al cuadrado y expresarlo en porcentaje.00 Y 175 COEFICIENTE DE CORRELACIÓN 15. 3.553 331. r= 166.00 0.00 4. 3. el cálculo de la correlación es más difícil. se calcula mediante la ecuación n SUPUESTOS DEL MODELO DE REGRESIÓN LINEAL SIMPLE r= i =1 n i =1 (xi ( xi x )( yi n x) 2 i =1 y) ( yi n Para poder interpretar adecuadamente una regresión lineal es necesario que se respeten los siguientes supuestos: n n 1. El coeficiente de correlación habla de la relación lineal entre dos variables en una población bivariante. Puede asumir valores entre -1 y +1. se utiliza el mismo cuadro elaborado para calcular 1.00 5. . indistintamente del signo. r. Supuestos en que se sustenta la ecuación de regresión. el cual se completa con (yi – !!". El cálculo del coeficiente de correlación simple sólo se justifica cuando el gráfico señala que la asociación estudiada puede ser convenientemente resumida por una línea recta.4) © Editorial El manual moderno Fotocopiar sin autorización es un delito.00 Figura 23-2.25% de la variación de Y se explica por los cambios de X. El coeficiente de correlación poblacional se representa con la letra griega $. 2. r = –1. Línea donde se esperaría encontrar los valores de Y para cada valor de X definida según la ecuación de regresión. Si la relación entre dos variables es perfectamente lineal e inversa.00 0. Las medias de las subpoblaciones de Y forman una línea recta en la gráfica de correlación.00 10. 2.00 X 2. Si es lineal y directa. 578 = 0. Esto expresa qué proporción de la modificación de una variable se explica por el cambio de la otra. En la figura 23-3 se representan los supuestos anteriores. se puede decir que 0. Todas las subpoblaciones de Y tienen la misma varianza.00 10.Regresión y correlación simple 20. 851 Para interpretar adecuadamente el valor r. tal como se presenta en el cuadro 23-3. 5. lo que se representa mediante la fórmula μY| X = 0 + 1x (23. r = 0. Es importante tener presentes las siguientes recomendaciones: 1. Para cada valor de X existe una subpoblación de valores de Y que tienen una distribución normal. Asociación no es sinónimo de causalidad. Mientras más cerca esté el valor numérico del coeficiente de correlación a 1. tomando en cuenta r2.5) n xi n xi2 n 2 n xi y i i =1 = y) n i =1 2 n yi2 n yi i =1 Ejemplo explicativo 23-4 Para calcular r.75 x 0. Y es una variable aleatoria.00 8. La variable X puede o no ser aleatoria. 4.75 x 100 = 56.00 6. y su estadístico. pero se mide sin error. r = 1. Para el presente ejemplo. encontramos que ##K%'K&?QW$%& Coeficiente de determinación Si la variabilidad de una población se expresa mediante la suma total de cuadrados.726 8 1.6) Al tomar en cuenta todas las observaciones.855 6 33. Elementos para calcular r i y1 – y2 2 y1 – y2 i 2 y1 – y2 i 1 42.003 2 2.341 3 0. Regresando al ejemplo explicativo 23-5: Y c 15. Además.7) { { b a{ c 0. Pero ninguno de ellos habla de su significancia estadística.00 { { { a r2 = SCR = STC ( yc y)2 ( yi y)2 = 186.391 20 4. con los datos que se presentan en el cuadro 23-4. SCR y SCE representan. X y Y.00 8. Hay que observar que el término de la izquierda (STC) es el numerador de la ecuación mediante la cual se calcula la varianza. pero únicamente se han dejado dos observaciones y se ha agregado una línea horizontal que representa la media de Y.Bioestadística o desviación no explicada (yi – yc).468 11 10. Desviación total b. Descomposición de las desviaciones que puede presentar una observación Significancia estadística de la regresión De los estadísticos obtenidos mediante la regresión lineal. b) la que existe entre el valor estimado para la regresión (yc) y la media de Y o desviación explicada (yc – !! y c) la que existe entre la observación yi y el valor estimado para la regresión (yc) 20. se han representado las relaciones entre las observaciones y las líneas que expresan la media y la regresión de Y.106 2 331. Desviación no explicada Figura 23-4. r2.00 Ejemplo explicativo 23-5 Volviendo a nuestro ejemplo.00 10.00 a. la suma total de cuadrados.646 9 2. Para cada una de las dos observaciones que aparecen en el gráfico es posible definir tres distancias: a) la que existe entre la observación yi y la media de Y o desviación total (yi – !!.00 0.851 (yi – ȳ) = (yc – ȳ) + (yi + yc) (23. describe la fuerza de la asociación lineal observada entre dos variables.00 (23. SCR. y 1 habla de la pendiente. Obsérvese la figura 23-4.786 14 39. X 2. Al resultado se le conoce como coeficiente de determinación y su resultado es igual al cuadrado del coeficiente de correlación. el coeficiente de determinación. Desviación explicada c.00 (23. y parte de esa variabilidad está explicada por los tratamientos. entonces la expresión SCR/STC cuantifica la proporción de la variabilidad total explicada por los tratamientos. Entre estas tres distancias existe una relación que se representa mediante Cuadro 23-3. 0 identifica el valor de Y cuando X es igual a 0. o suma de cuadrados.56 331.484 13 14. la suma de cuadros de la regresión y la suma de cuadrados del error.004 5 20.00 4.637 4 24.151 16 53. se puede expresar una relación semejante mediante la sumatoria del cuadrado de las diferencias.730 19 4. respectivamente.497 17 7. podemos utilizar dos procedimientos: una razón © Editorial El manual moderno Fotocopiar sin autorización es un delito.840 10 21. La figura es la misma que la observada con anterioridad en el ejemplo explicativo 23-3.399 12 30.790 = 0.855 7 1.851 (23.9) b Ésta es semejante al valor de r2 calculado mediante el coeficiente de correlación visto con anterioridad.00 10.801 18 15. 176 . expresada por la fórmula y )2 = ( yi y )2 + ( yc ( yi yc ) 2 También se puede simbolizar de la siguiente forma: STC = SCR + SCE EVALUACIÓN DE LA ECUACIÓN DE REGRESIÓN 5.8) donde STC.00 6. Para encontrarla. o r2. STC.131 15 0. o cuánto es el cambio de Y cada vez que X cambia en una unidad. 810 15.402 6 3. o $ = 0. Error y Total).32 15.855 18.791 331.363 0.045 11 4.18 11.790 145.194 17 8.060 2 son iguales a 1.468 12. las fuentes de variación (Regresión.2) MCE (23.796 12.086 0.851 186.801 0.88 5.2. en la regresión lineal simple los grados totales de libertad son iguales a n .26 7.49 9.545 39.153 2.726 29. Con base en las sumas de cuadrados y sus grados de libertad para cada fuente de variación.312 42.31 3. los grados de libertad de la regresión cuando la variable independiente es cuantitativa 4.258 17.61 12. (n .855 19.840 13.290 4.786 2.388 7.66 8. Y al igual que para el análisis de varianza presentado en el capítulo 20.637 14.597 15.83 12.962 30.83 6.405 18.10) que está distribuido como F.99 7.391 1.57 11.269 0.033 8 3. H0.45 13.14 9.06 11.84 16. En la segunda columna se sitúan las sumas de cuadrados calculadas mediante la fórmula 23.98 14. Ambas pruebas son útiles para probar la hipótesis nula de no asociación.369 10.118 0.730 1.935 7 3.1. en la primera columna.1) – 1 = n .858 1.580 1.15 5. a través de la cual podremos calcular una razón de varianzas. esta variabilidad puede presentarse en una tabla de análisis de varianza.86 13.106 3.98 14.003 6.14 8.54 13.692 6.418 16 8.104 20.026 19 9.259 1.81 5.004 16.128 4. Desviaciones de las observaciones i x Y Y/X yi – y yc – y 2 yi – yc 1 0. RV.169 de varianzas o una prueba de t.10 4.646 21.31 9. con 1 y n-1 grados de libertad.230 24. En la tercera columna se presentan los grados de libertad que corresponden a cada fuente de variación.530 7.150 2 1.57 9.302 0. © Editorial El manual moderno Fotocopiar sin autorización es un delito.39 3.140 3.034 4.484 4. se calcula el estadístico RV = SCR / 1 = MCR SCE / ( n .959 5 2.341 11.30 17. El cuadro de Análisis de varianza muestra.521 4 2. y los grados de libertad del error son iguales a los grados totales de libertad menos los grados de libertad de la regresión.182 53.97 10.24 4. Cuadro de Análisis de varianza o de ANOVA Fuente de variación SC MC RV Regresión SCR Error SCE 1 MCR = SCR/1 MCR/MCE n-2 MCE = SCE/(n – 2) Total STC n-1 . la media cuadrada de cada una de ellas se calcula dividiendo el valor que corresponda a la suma de cuadrados entre sus grados de libertad.117 15 7.7 (siguiendo el ejemplo explicativo 23-5 y el cuadro 23-4).625 10 4.108 14. 2 Análisis de varianza Tal como hemos visto.100 2.399 7.317 9 4.Regresión y correlación simple 177 Cuadro 23-4.32 10.65 13. la variabilidad total de Y puede descomponerse en dos fuentes de variación: la explicada por la regresión y la que corresponde al error.84 8.291 12 6.00 8.981 3 2.375 8.08 13.979 18 8.131 2. como la que se muestra en el cuadro 23-5.44 8.327 1.03 11.91 8. Por último.151 0.269 21.457 0.994 13 6.772 6.90 6.497 0.166 8.064 14 6. que puede ser expresada de dos maneras: 1 = 0.587 33.220 20 9.86 6. Rechazamos la hipótesis nula cuando el valor de RV Cuadro 23-5.102 6.127 20. 2 144. 4375 Buscando en el cuadro. el valor de z`@" se sustituye por z`.12) donde YX = 0 + SYX = SY | X Verificación de H0: $ = 0 1 x 1+ x x n ( n 1) S x2 SY | X = MCE También se puede evaluar la significancia del estadístico r como estimador del parámetro $. Al sustituir las celdas por los cálculos correspondientes. Cuadro de Análisis de varianza o de ANOVA Fuente de variación SC Regresión 186.11 excede el valor de t para el nivel de significancia seleccionado y n –2. los valores del cuadro 23-7. sería importante identificar el intervalo de confianza para una y/x. también se rechaza H0 : = 0.178 Bioestadística calculado es mayor que el valor de F tabulado en el anexo F para el nivel de significancia seleccionado. . cuando el valor calculado con la ecuación 23. TAMAÑO DE MUESTRA PARA ESTUDIOS DE CORRELACIÓN Cuando existe interés en correlacionar dos variables cuantitativas y en su significancia estadística de dos colas. con 1 grado de libertad en el numerador y 18 grados de libertad en el denominador.18 = 2.11) tiene una distribución semejante a la t de Student con n . H0: $ = 0.05 = 144. Ejemplo explicativo 23-7 se encuentran. por lo que rechazamos la hipótesis nula.81 0.13) donde z`@"y z` corresponden. En el ejemplo anterior. Ejemplo explicativo 23-6 Los valores con los que se ha venido trabajando se pueden colocar tal como se presentan en el cuadro 23-5. Por último.18 = 4.9 Error Total gl MC RV 1 186.8 19 z1 / 2 + z1 1 1+ r 1n 2 1 r +3 (23.9/1 186.838 x = 5. Para el caso de una prueba de significancia de una sola cola.101 es inferior a 4. Los valores de z para y más comunes se muestran en el cuadro 23-8.81.9/18 331.2.41 es inferior a 23. En otras palabras. se encuentra que el valor t0.n 2 YX (23. por lo que se rechaza la hipótesis nula y se concluye que X y Y están relacionadas linealmente. En estos casos.263 S X2 = 7.2 grados de libertad. Esta prueba y el análisis de varianza son semejantes en relación con el nivel de significancia que se calcula. respectivamente.875 SY | X = 2. = 1. el intervalo de confianza correspondiente de y/x está dado por YX ± t1 S / 2 . encontraremos algo semejante al cuadro 23-6. por lo que se rechaza la hipótesis nula y se concluye que X y Y están relacionadas linealmente. al nivel de significancia y poder de la prueba.05 = 23. donde la RV es igual a 23. para el cálculo de un intervalo de confianza de 95%. Para ello. © Editorial El manual moderno Fotocopiar sin autorización es un delito. y r es el valor de la correlación más próximo a 0 que se desea identificar como significativo. se señalan intervalos de 95% para las estimaciones de la regresión en la población de la cual surgió la muestra.1. el tamaño de muestra necesario para ese fin puede calcularse mediante 2 n= Cuadro 23-6. buscando en el cuadro se encuentra que el valor F0. y para 1 gl en el numerador y n – 2 gl en el denominador.121 0 = 3. Si se grafican los datos pertinentes que se presentan en la figura 23-5. Siempre que se rechaza H0 : $ = 0.9 18 8.819 1 t=r n 2 1 r2 (23. se puede aprovechar que Ejemplo explicativo 23-8 Regresando al ejemplo de este capítulo.975.2. INFERENCIAS A PARTIR DE LA LÍNEA DE REGRESIÓN En ocasiones existe interés en calcular los límites de confianza de la regresión.1 = 186. 75 18 = 4.9/8. t = 0.95. 842 0.735 9.305 8.20 1.222 11.00 7.891 9. Y 20.00 6. X y Y.705 16.00 10.10 1.699 6.24 0.752 10.380 0.36 0.00 15. Línea de regresión y límites de confianza de 95%.00 12.Regresión y correlación simple 179 Cuadro 23-7.72 0.521 7.956 14.825 5.197 3.990 4.05 1.282 0.899 10.00 4.00 6.2 1n 2 1 + 0.761 Ejemplo explicativo 23-9 Supongamos que tenemos interés en calcular un tamaño de muestra para estudiar la asociación entre dos variables cuantitativas.637 8.960 1.415 17. cuya correlación esperamos sea igual o mayor de 0. Ventana de diálogo para la regresión de Y según la tabla de datos Bio3_23a .00 13.00 8.00 11.142 10.471 x 2.80.09 1.645 1. Con estos datos y la fórmula 23.84 1 1 + 0.645 0.976 6.282 1.282 0.774 1.00 Figura 23-5.842 © Editorial El manual moderno Fotocopiar sin autorización es un delito.96 + 0. Valores de Z para diversos valores de y Probabilidad de error z1–/2 (prueba de dos colas) z1– (prueba de una cola) z1– 0.00 0.00 5.00 5.229 10.00 3.506 8.00 8.077 11.657 9.00 9.8 Cuadro 23-8.830 5.038 8. Figura 23-6.85 0.645 1. 13.2.00 15.97 1.05 y un poder (1-) de 0.48 0.143 13.2 + 3 = 193.87 1.00 1. Cálculo de los límites de confianza de 95% para la línea de regresión y = 0 + 1x SYx Yx–#`@"n`"SYx Yx#`@"n`"SYx 0.821 6.00 X 10. el tamaño de muestra deberá ser 2 n= 1.00 2.272 12. con un nivel de significancia () de dos colas igual a 0.972 4.12 0.00 0.984 7. y redondeamos hacia el número entero superior para que el tamaño de muestra sea 194.60 0.178 2.00 10. por lo que para conocerlo tendrá que obtener la raíz cuadrada de r2.121 0. Resultado de la regresión de Y según la tabla de datos Bio3_23a. pero no el valor exacto. En ese momento.56 que es un buen redondeo.7483… El signo (positivo o negativo) de r será el mismo del coeficiente de 1. Coeficiente de determinación.562873… (que resulta de SCR/SCT en este ejemplo) es 0. tiene razón: Epi Info nos anuncia el coeficiente de correlación.790 186. La diferencia puede apreciarse al calcular el coeficiente de correlación mediante la raíz cuadra de r2.012125 Significancia estadística r2 Correlation Coefficient: r^2 = 0.233 23.851 = 0.96. En la ventana de diálogo que se despliega. . Si nos fijamos.180 Bioestadística Coeficiente de β0 Error estándar del coeficiente de β1 Coeficiente de β1 Linear Regression Variable Coefficient Std Error F-test P-Value X 1.380 7. y no 0. que sí aparece en los resultados de Epi Info. mientras que la raíz cuadrada de 0. Coeficiente de 0. pero realmente nos proporciona el coeficiente de determinación. 23-1 En Epi Info. Error estándar del coeficiente de 1. Luego. La tabla de Análisis de varianza (ANOVA).059 Total 19 331.8792 0. a partir de los números en la tabla de ANOVA.178 Análisis de varianza Cómo hacerlo en Epi Info.790 Residuals 18 145. tendrá que multiplicar el error estándar por 1. 6. La significancia estadística del coeficiente de 1. porque la raíz cuadrada de 0. la ventana deberá observarse como en la figura 23-6.56 (que es valor que se encuentra en la pantalla de resultados) es 0. Al hacer clic en “OK”.875 1. (Si en este momento piensa que hay un error.000162 CONSTANT 3. © Editorial El manual moderno Fotocopiar sin autorización es un delito. seleccione la opción “Linear Regression”. en el apartado “Statistics”. podrá encontrar lo siguiente en la ventana de resultados (figura 23-7). Para calcular el intervalo de confianza de 95% del coeficiente de 1. 5. 3. Punto malo para Epi Info).56 Source df Regression 1 186.1781 0. Coeficiente de 1. es necesario calcularlo a partir de las sumas de cuadrados en la tabla de ANOVA y no del valor de r2 que se muestra en los resultados. Si se desea el valor exacto de r.562873…. abra el archivo Bioestadistica_3ra y seleccione la tabla Bio3_20a. Recuerde que el coeficiente de correlación es igual a r. r 2. Figura 23-7.851 Sum of SquaresMean Square F-statistic 23. 1. 4.060 8.7502…. seleccione “Y” en la “Variable resultado” y “X” en “Otras variables”. y el resultado sumarlo y restarlo al valor del Coeficiente de 1.790/331. 2. el coeficiente de determinación es igual a SCR/SCT = 186. (2001).957 54 16 2.). W. S. Cad Aten Primaria. S.626 52 15 2. Pértegas-Díaz.879 51 14 2.pdf .125 50 19 2.119 50 3 3.262 52 11 2. Kupper LL & Muller KE (1988). Considere que el peso es la variable dependiente y la talla la variable independiente.694 52 © Editorial El manual moderno Fotocopiar sin autorización es un delito.05 Cuadro 23-9.408 52 20 3.170 54 17 2. Disponible en http://wwwn. REFERENCIAS Daniel. Estadística con aplicaciones a las Ciencias Sociales y a la Educación. Recuperado de http://www. CDC. W.062 51 13 3. Pesos y tallas de 20 recién nacidos i Peso en gramos Talla en centímetros i Peso en gramos Talla en centímetros 1 3. (1988).245 49 5 3. Boston: PWS-KENT Publishing Company. 209-211.gov/epiinfo/ Kleinbaum DG.224 47 18 3. México: McGraw-Hill.com/mbe/investiga/pearson/pearson2.631 50 7 4.525 51 4 2. 9. y acéptela o rechácela según el nivel de significancia de = 0. Epi Info 7.cdc. y Pita Fernández.022 50 12 3. Los datos los puede encontrar en Ejer_23a del archivo Bioestadística_3ra. Con esos datos: a) b) c) d) Calcule el coeficiente de correlación Interprete el valor r2 Calcule los coeficientes 1 y 0 Estime cuál sería el valor esperado del peso si la talla fuera 47.647 50 8 2. ed.417 48 6 3.690 48 2 3.087 50 9 3.005 46 10 3.Regresión y correlación simple 181 Ejercicios Ejercicio 1 En el cuadro 23-9 se presentan los pesos en gramos y las tallas en centímetros de 20 niños recién nacidos. Applied Regression Analysis and other multivariable methods (2a.fisterra. 49 y 51 cm e) Pruebe la hipótesis nula 1 = 0. Determinación del tamaño muestral para calcular la significación del coeficiente de correlación lineal. . ....................... Regresión y correlación múltiple ..............................................................231 © Editorial El manual moderno Fotocopiar sin autorización es un delito.................................................... Análisis estratificado y regresión logística .................... Análisis de supervivencia .................185 Capítulo 25..............................................209 Capítulo 26... Capítulo 27........239 183 ............................................................ Introducción a los modelos lineales generalizados ......................................................Sección V: Inferencia estadística para una variable dependiente y dos o más variables independientes Capítulo 24.......................................... . 08.001. 1 = 2. 0 0 0. r = 0.04. r = 0. pero éstas sí están asociadas con Y. r = 0. En la correlación de X1 con X2. 185 . Las relaciones entre las variables independientes (o covariables). © Editorial El manual moderno Fotocopiar sin autorización es un delito. 1 = 1. p = 0. podemos elaborar los gráficos de las figuras 24-1. A partir de estos tres análisis. Gráfica de correlación de X2 con Y.5 2 2. esta relación no siempre corresponde a la que encontramos en el ejemplo. Basándonos en las gráficas y los estadísticos de regresión. podemos suponer de qué manera se comportará Y cuando es influida simultáneamente por X1 y X2. 1.N xi i =1 24 Regresión y correlación múltiple 2 Cuando estamos interesados en estudiar las relaciones entre una variable dependiente cuantitativa y dos o más variables independientes (cuantitativas o cualitativas). 14 12 10 8 6 4 2 0 0 2 4 6 8 10 X2 Figura 24-2.62. y de éstas con la variable dependiente. En la correlación de X2 con Y.96. 24-2 y 24-3. y sólo pueden explorarse mediante un análisis de regresión múltiple. nos damos cuenta de que no existe asociación entre X1 y X2. 1 = 1.66. N xi i =1 N ( xi N μ) 2 i =1 = N 14 12 10 8 6 4 Ejemplo explicativo 24-1 2 Observemos la serie de datos del cuadro 24-1. podríamos simplificar el análisis y manejarlo como una serie de regresiones y correlaciones simples.63.5 X1 Figura 24-1.45. o bien si X1 y X2 estuvieran inversamente correlacionadas.17. Sin embargo. Gráfica de correlación de X1 con Y. p < 0. En la correlación de X1 con Y. afectan la predicción de Y. Tal sería el caso si el efecto de X1 fuera directo y el de X2 fuera inverso.5 1 Con base en esta información. p = 0. tal como se muestra en el siguiente ejemplo explicativo. 73 7. Linealidad. es conveniente tomar en cuenta sólo las variables © Editorial El manual moderno Fotocopiar sin autorización es un delito. Xk. Las observaciones de Y son estadísticamente independientes una de otra.83 8. Existencia.20 11. La varianza de Y es la misma para cada combinación fija de X1.Xk. es decir. X k 4.62 8. X2.44 8. Suponemos que los valores de Y están determinados por otras dos variables.85 4. De esta manera. supongamos que nos interesa predecir el valor de una variable dependiente. . etc. X k( 2 5.).39 9.76 5. %.07 2. que es una variable aleatoria con una cierta probabilidad de distribución y con una media y varianza finitas. esto es.Xk es una función lineal de X1.5 1 1. Para describir las relaciones que existen dentro de las variables Y. X 2 .Xk = Var (Y | X1 . 2.85 3.28 4. Por ejemplo.2) o El análisis de regresión múltiple puede ser entendido como una extensión de la regresión lineal cuando contempla más de una variable independiente.Xk. X2. k son los coeficientes de la regresión necesarios para la estimación. o alguna función de las variables básicas (ln(X1). X1 y X2. Independencia. denominada Y. X 1 2. X2. Xk pueden ser variables básicas independientes unas de otras. Serie de datos Bio3_24a i 1 2 3 4 5 6 7 8 9 10 11 x2 0.Bioestadística X2 186 10 9 8 7 6 5 4 3 2 1 0 Pero otros modelos también pueden ser considerados. Gráfica de correlación de X1 con X2. º .94 9. %.Xk = 0 + 1 X1 + 2 X2 + + k Xk (24.1) donde 0. X12.28 1. μY | X . º .12 2. X2. la variable Y está normalmente distribuida.49 8.04 2. tendríamos que considerar los tres modelos señalados (así como muchos otros) y seleccionar el que mejor se ajuste de acuerdo con ciertos criterios razonables. .39 x1 0 0 0 0 0 1 1 1 2 2 2 y 1. Las variables independientes X1. 2 ) TABLA DE ANOVA EN REGRESIÓN MÚLTIPLE Al considerar los diferentes modelos posibles de regresión múltiple. …. MODELO DE REGRESIÓN MÚLTIPLE . Por cada combinación específica de valores de las variables independientes X1. Xk . 3. X2. 1.30 4. º . esto es Y ~ N ( X1. %. Normalidad. SUPUESTOS DE LA REGRESIÓN MÚLTIPLE Cuadro 24-1.Xk. X 2 . X1 y X2. Para cada combinación de X1. .5 Y= 0 + 1 X1 + 2 X2 + 3 X1 X 2 + Y= 0 + 1 X1 + 2 X2 + 3 X 12 + 4 X 22 + 5 X1 X 2 + Si quisiéramos encontrar el mejor modelo predictivo.91 7. el modelo general para k variables independientes se representa con Y= 0 + 1 X1 + 2 X2 + + k Xk + (24. Homocedasticidad. como 0 0. X1 Figura 24-3. X 2 . X 2 . 2 Y | X1 . El valor de la media de Y para cada combinación específica de X1. .72 Al igual que en el caso de la regresión simple. en el de la regresión múltiple se definen varios supuestos que es necesario respetar para que las conclusiones sean válidas: 1. . º . ocurre un valor promedio de Y. X2.09 5. 2. podríamos utilizar el siguiente modelo: Y= 0 + 1 X1 + 2 X2 + Y= 0 + 1 X1 + 2 X2 + + k Xk + donde [&] refleja el error correspondiente de la diferencia entre una observación Y particular y el valor estimado mediante μ Y | X 1 .04 12.5 2 2. 45 3.22 3.81 212. 3.18 7.53 75.92 187.75 85.09 91.20 5.36 198.22 89. 05 x3 0.81 220.96 213.93 85.17 9.16 92.81 84.95 206.45 92.93 85.Regresión y correlación múltiple 187 Cuadro 24-2. Prueba de hipótesis para la adición de un grupo de variables.85 83.94 82. seleccione “Y” en la “Variable Resultado” y “X1”.49 2. En ese momento. Al igual que en la regresión simple.20 9. nuestro interés será conocer de qué manera cada 81.80 84.97 83. en la regresión múltiple podemos utilizar una tabla de ANOVA (cuadro 24-2) para representar un resumen general del análisis de la regresión.87 79.61 75.66 2. 24-1 En Epi Info 7. 05 x4 4.55 5.93 192.45 166.50 x2 0.67 8.26 6. en la ventana de “Órdenes”. “X2” y “X3” en “Otras Variables”. podemos decir que “la regresión utilizando todas las variables independientes no es significativa” o “las variables independientes consideradas en conjunto no explican de manera significativa la variación de Y”.56 90.k . la ventana deberá observarse como en la figura 24-4.3) y comparamos el valor calculado con el valor tabulado para F1-. en el apartado “Estadísticas avanzadas”.89 206.48 3.83 202.1 que brindan un aporte significativo a la predicción de la variable independiente.69 85.16 85.84 6.73 82. Una vez que hemos ajustado el modelo de regresión múltiple.10 92. Si el valor Fcalculado es mayor que el de Ftabulado. Esto lo podemos explorar mediante tres preguntas: 1. Se evalúa la significancia de todas las variables independientes en conjunto. Para la prueba de significancia.22 MCR/MCE 4 4 Para encontrar los valores de las ’s utilizamos un paquete estadístico y obtenemos Cuadro 24-3. 09 x1 + 2.49 = 2 = 3 = = k =0 Alternativamente. El formato de la tabla variará según la intención de presentar las variables independientes de manera conjunta.42 6.61 84.69 88. El modelo de regresión múltiple más simple con cuatro variables independientes sería 1 2 3 4 0 + x + 1 1 x + 2 2 x + 3 3 1 2 3 4 © Editorial El manual moderno Fotocopiar sin autorización es un delito.49 75. Cuadro de Análisis de varianza (ANOVA) para evaluar la significancia de la regresión múltiple Fuente de variación SC Gl Regresión SCR k Error SCE n-k-1 Total STC n-1 MCR = SCR/k PRUEBA DE HIPÓTESIS EN REGRESIÓN MÚLTIPLE Observemos la serie de datos que nos muestra el cuadro 24-3.59 8.n-k-1. Prueba de hipótesis para la adición de una variable.18 4.01 94.k.28 5.93 93. Después.35 8.44 75.59 9.44 9.57 SCR/STC una de las variables contribuye a predecir la variable Y.08 75. Prueba de hipótesis con todas las variables La hipótesis nula para esta prueba se puede expresar como x μ y|x x x x = 7. 2.12 7.24 7. seleccione la opción “Linear Regression”.82 0.26 87.72 219.32 5.51 190.60 1.48 0.45 4. Evalúa si una variable independiente en particular es importante para la predicción de Y. la H0 se rechaza. 72 3. . Al hacer clic en “OK”. En la ventana de diálogo que se despliega.35 209. Evalúa si dos o más variables independientes son importantes para la predicción de Y. Prueba de hipótesis con todas las variables.37 8. Serie de datos Bio3_24b x2 x3 x4 x1 R2 MCE = SCE/n . μ y| x x x x = F MC H0 : 191. abra el archivo Bioestadistica_3ra y seleccione la tabla Bio3_24b.04 3. utilizamos la tabla de ANOVA mediante el cálculo del valor F para nuestros datos mediante la ecuación F= y 1 MC error = (SCR ) / k SCE / ( n k 1) (24. Cómo hacerlo en Epi Info. podrá encontrar lo siguiente en la ventana de resultados (figura 24-5).65 80.65 173. A diferencia de la regresión simple. el resultado de nuestro ejemplo es 276.784 3.188 Bioestadística 1.05) y los grados de libertad que correspondan al numerador y denominador. Significancia estadística de los coeficientes. 3 y 4. Estas sumas de cuadrados pueden convertirse en varianzas (llamadas medias cuadráticas para el caso del análisis de varianza) cuando se dividen entre sus grados de libertad. Coeficientes de 0. Ejemplo explicativo 24-2 A partir de los resultados en la tabla de ANOVA de la figura 24-5 (que también se muestran en el cuadro 24-4). Los grados de libertad del error son iguales a n-k-1.654620 9.0851 0. Figura 24-4.4. R2. 3. Error estándar del coeficiente de β´s Coeficiente de β´s Coeficiente de β0 1 Linear Regression Coefficient Std Error F-test -3.736 P-Value 0. Tabla de Análisis de varianza (ANOVA).178 Total 14 3552.94. Ventana de diálogo para la regresión de Y según la tabla de datos Bio3_24b.6328 0. en la sección de Correlación.904 0. donde los grados de libertad de la regresión fueron iguales a uno.496 -0.000000 0.050 X1 X2 X3 X4 CONSTANT 7. Para calcular F.99 Source df Significancia estadística Sum of Squares Mean Square F-statistic Regression 4 3520. podemos probar la hipótesis nula H0 : = 2 = 3 = 4 =0 Al igual que para el caso de la regresión simple.2140 0.207 223.000000 0.938 880. (Observe que este coeficiente lo escribí con R y no con r. en la regresión múltiple los grados de libertad son iguales al número de variables independientes en la ecuación.95.090 2.108 0.171 0.234 Residuals 10 31. 1. Este resultado lo comparamos con el valor crítico de F en la tabla del anexo F para el nivel de significancia (generalmente = 0. sólo tenemos que dividir entre sí las dos varianzas. Variable .080 962.777132 0. Resultado de la regresión de Y según el modelo 276. 4. 2. dado que el valor tabular para F0.8204 0. la suma de cuadrados se puede descomponer en la variación explicada por la regresión y por el error (o lo que queda sin explicar). rechazamos H0.050 -0.94.941 Análisis de varianza 0 1x1 2x2 3x3 4x4 de la tabla de datos Bio3_24b © Editorial El manual moderno Fotocopiar sin autorización es un delito. k. En nuestro ejemplo.10 = 3.454810 R2 Correlation Coefficient: r^2 = 0. 2.48 es menor que Fcalculado = 276.6101 0. Error estándar de los coeficientes. Coeficiente de determinación. Más adelante.722 Figura 24-5. 5. podrá encontrar la explicación de este cambio). X p . X 2 .. por lo que rechazamos H0 si Fcalculado excede F1-. X 1 2 .. X * SCR X1 .Regresión y correlación múltiple Al interpretar los resultados.68 F 276.26).520. 3. X (24. 3.94 gl 4 Error 31. pero no X*. ejecute en Epi Info 7 la orden de Regresión lineal (“Linear Regression”) utilizando la variable Y como variable dependiente (“Outcome Variable”) y las combinaciones X1. de manera semejante al método descrito líneas arriba. podemos proceder. También podemos avanzar a partir de un modelo de regresión simple que incluya la variable independiente que muestre la mayor correlación con la variable dependiente. X2. . %. X2. Después. agregamos variables al modelo. X 2 . 24-2 Con la tabla de datos Bio3_24b.4) así como la diferencia entre los grados de libertad de la regresión que contiene la variable X* menos los grados de libertad de la regresión que no la contiene k . Primero revisamos las tablas de ANOVA de los modelos 0 + 1 x1 + 2 x2 + 3 x3 + 4 x4 y 0 + 1 x1 + 2 x2 + 3 x3.5) * Cuadro 24-4. 4.78 10 Total 3 552. Xp ya se encuentran en el modelo”. X2. Análisis de varianza del modelo 0 1x1 2x2 3x3 4x4 de la serie de datos del cuadro 24-3 Fuente de variación Regresión SC 3 520. X p = MCR X *| X .. según la fórmula 24. X p .. X p (24. X2 y X3 para el modelo μ y|x1 . que contiene X1. el que contiene todas las variables.520. Cada uno de los procedimientos tiene sus ventajas. X2.1. X 1 2 .23 3. Xp ya se encuentran dentro del modelo. Xp. ajustando los modelos a comparar: 1. el resultado de la resta anterior lo dividimos entre los grados de libertad del modelo que contiene X4 (cuadro 24-4. %.94) y le restamos el valor de la suma de cuadrados de la regresión del modelo que contiene las mismas variables excepto X4 (cuadro 24-5. Xp se encuentran en el modelo. x2 . dado que X1. Obtenemos la tabla de ANOVA para el modelo reducido.5. 1 2 .. incluida X*.520. %. X2 y X3. Básicamente. Para obtener el valor de F parcial para la variable X*. Xp y X* como variables independientes. comparando el modelo que incluye la variable que está siendo evaluada con el que no la incluye.. ¿La predicción de Y mejora cuando incluimos X*? La hipótesis nula para esta prueba se puede expresar como H0: * = 0 en el modelo completo. dado que en el modelo están presentes X1. y X4 nos ayudan a predecir significativamente el valor de Y. X 1 2 .. X2. El objetivo es determinar qué modelo es más apropiado tomando en cuenta qué tanta información adiciona X* al modelo. X 1 MCE X . X3. gl = 4) menos los grados de libertad del modelo que no contiene X4 (cuadro 24-5. SCR X *| X .18 189 donde MCR corresponde al valor obtenido con la fórmula 24.94 3. tomamos la suma de cuadrados de la regresión del modelo que contiene la variable X4 (cuadro 24-4.. Por último. 2. Siguiendo la fórmula 24. la SCR y la MCR (o SCR/1) son iguales. X p 2 .. las variables X1. X1. podemos concluir que. sean necesarias. 2.. .. Alternativamente. dividimos la MCR (SCR/1) entre . mientras que el de agregación distingue la importancia de cada una de ellas. X 3 = 3. Xp ya están incluidas en el modelo. que contiene X1. o sólo una. Esta razón tiene una distribución F con 1 y n-p-2 grados de libertad para la H0.. tomadas en conjunto. Obtenemos la tabla de ANOVA para el modelo completo. el que incluye X1..26 = 0. Luego.520. Xp. Calculamos la diferencia en la suma de cuadrados de la regresión entre los modelos completo y reducido mediante la fórmula SCR X * | X . X3 y X4 para el modelo μ y|x1x2 x3 x4 = 0 + 1 x1 + 2 x2 + 3 x3 + 4 x4. Ejemplo explicativo 24-3 Para evaluar la significancia de la variable X4. valor 3.. X 1 2 . el procedimiento consiste en comparar dos modelos: el modelo completo. .X3 = SCR X . Calculamos el valor de F FX *| X . es decir.X3 .. X 1 2 .94 3.72 14 MC 880. El orden en el cual las variables se excluyen o se agregan al modelo inicial depende de la asociación observada entre las variables independientes de interés y la variable dependiente durante las etapas iniciales del análisis (análisis bivariado).. dado que X1.X * SCR X1 . primero. es decir. Es posible que sólo algunas. X p = SCR X . Es necesario señalar que la interpretación anterior no quiere decir que las 4 variables independientes sean necesarias para predecir el valor de Y. pero no X* (asumiendo H1: * = 0). procedemos de la siguiente manera: 1. Es necesario notar que cuando sólo se cuenta con un grado de libertad. X2. %.. X2. x3 = 0 + 1 x1 + 2 x2 + 3 x3. MCR=SCR/k-k. %. Cómo hacerlo en Epi Info. %. X © Editorial El manual moderno Fotocopiar sin autorización es un delito.4 dividido entre la diferencia de los grados de libertad de los modelos.. X2. gl = 3). Prueba de F parcial Consideremos la siguiente pregunta: una vez que X1. podemos decir que “la inclusión de la variable independiente X* no mejora significativamente la predicción de Y cuando X1.k. X2.n-p-2.4... %. y el modelo reducido. El procedimiento de exclusión brinda a cada variable el mismo peso.. retiramos X4 del modelo de predicción y nos quedamos con X1. Análisis de varianza del modelo 0 1x1 2x2 de la serie de datos del cuadro 24-3 gl MC F 3 520.1.X3 . El valor de F parcial calculado lo comparamos con el valor de F tabulado.95. obtenemos SCR X *| X = SCR X .95. que para el caso de F0.644.Bioestadística la MCE del modelo que contiene la variable X4 (cuadro 24-4.66 2.42 = 0.4. 6.59 32. respectivamente).68 = 0. por lo tanto.X * = 0.74 Error F 642. que para el caso de F0.84.95.84 = 0.520. X = 2 . mantenemos X2 en modelo de predicción y nos quedamos con X1.18 Regresión 4.84 2 1 759. 2.90 = 1.5 1 2 MCR X *| X . X 1 2 . no rechazamos H0: 3 = 0.44 114. por lo tanto. Siguiendo la fórmula 24.26 3.78 13 264.519.X3 1 MCE X . Dado que el valor de Fcalculado es mayor que el de F tabulado. Siguiendo la fórmula 24. según la fórmula 24.1. Análisis de varianza del modelo 0 1x1 de la serie de datos del cuadro 24-3 Fuente de variación Regresión Error SC Gl MC F 0.X * = Fuente de variación 0. rechazamos H0: 2 = 0. por lo tanto.17 = 875.46 11 2. X2 y X3.42 397. X 1 1 2 2 .10 es 4. X = SCR X . Concluimos que X3 no aporta información a la predicción de Y y. Primero revisamos las tablas de ANOVA de los modelos 0 + 1 x1 + 2 x2 (cuadros 24-5 y 0 + 1 x1 + 2 x2 + 3 x3 y 24-6.74 1 Todavía falta ver si X1 aporta a la predicción.X * SCR X1 . según la fórmula 24.519. Cuadro 24-5. valor 31. no rechazamos H0: 4 = 0 5. Dado que el valor de Fcalculado es menor que el de F tabulado. X * 1 SCR X1 = 3.21 3. 6. Todavía falta ver si todas las variables restantes aportan a la predicción o si sólo una de ellas lo hace.35 Temporalmente nos quedamos con el modelo 0 + 1 x1 + 2 x2 para predecir el valor de Y. respectivamente). 1.44 © Editorial El manual moderno Fotocopiar sin autorización es un delito. 5. 5. dado que en el modelo están presentes X1 y X2: 1.95 1 SCR X1 = 3.26 3 1 173.78). X MCE X . X = Cuadro 24-6. que para el caso de F0. una vez que X2 ya se encuentra en el modelo. Siguiendo la fórmula 24. X * 1 Fuente de variación SC 4. 2.90 1 3. Dado que el valor de Fcalculado es menor que el de F tabulado. Pero continuamos de manera semejante al evaluar la significancia de la variable X3. X 1 2 1 2 .75. Primero revisamos las tablas de ANOVA de los modelos 0 + 1 x1 + 2 x2 y 0 + 2 x2 (cuadros 24-6 y 24-8. X 1 MCR X *| X .11 es 4. Luego.84 114.5 FX *| X = 1 MCR X *| X 1 MCE X . X * = 3. Temporalmente nos quedamos con el modelo 0+1x1+ 2x2+3x3 para predecir el valor de Y.12 es 4. El valor de F parcial calculado lo comparamos con el valor de F tabulado. retiramos X3 del modelo de predicción y nos quedamos con X1.404. procedemos de manera semejante comparando el modelo que incluye X1 y X2 con el modelo que incluye X2 pero no X1.94 1 114.94 3 437.4 obtenemos SCR X *| X = SCR X . Luego.14 2.404. El resultado es FX *| X . El valor de F parcial calculado lo comparamos con el valor de F tabulado.67 Cuadro 24-7. respectivamente).4. 2. X2.X3 2 . dado que en el modelo está presente X1: 1.242. Todavía falta ver si las dos variables restantes aportan a la predicción o si sólo una de ellas lo hace.96. Pero continuamos de manera semejante al evaluar la significancia de la variable X2. Análisis de varianza del modelo 0 1x1 2x2 3x3 de la serie de datos del cuadro 24-3 Regresión Error SC gl MC 3 519. Para hacerlo. Primero revisamos las tablas de ANOVA de los modelos 0 + 1 x1 + 2 x2 y 0 + 1 x1 (cuadros 24-6 y 24-7.88 12 2.94 = 3. 190 . X 2 3. Concluimos que X4 no aporta información a la predicción de Y y.1. = 3.519. X2.92 32. obtenemos SCR X *| X .42 FX *| X .95 4.84 2. Concluimos que X2 sí aporta a la predicción de Y y. X1 . X = 1 2 FX * . así como el valor de t y su significancia.. tomamos la suma de cuadrados de la regresión del modelo que contiene las variables X3 y X4 (cuadro 24-4. Primero revisamos las tablas de ANOVA de los modelos 0 + 1 x1 + 2 x2. X p .. X p (24. X *| X . X *| X . X 1 . X 1 Observando con detenimiento la figura 24-5..74 1 4. pero no el valor de t correspondiente. X * = preguntamos por qué no nos entretuvimos tanto en el otro procedimiento cuando éste es más sencillo. por lo que SCR X * . 0 + 1 x1 + 2 x2 + 3 x3 + 4 x4 y 2. La explicación tiene que ver con el manejo de variables “Dummy”.6) * donde * es el coeficiente de la variable en evaluación y s * es el error estándar de *.56 13 69. este programa proporciona el estadístico F.Regresión y correlación múltiple Cuadro 24-8....84).17 1 2 644.. X k 1 Sólo por curiosidad. X k 1 MCE X ... Dado que el valor de Fcalculado es menor que el de F tabulado.. SCR X * . X 2 = 2 = 0. .18 4.7. pero ambos son equivalentes.. X 2 .... X 2 * * 2 . X * | X . 1 2 . X *| X . 2 1 2 1 = 3. X k 1 1 = 2 . . X * | X ... Ejemplo explicativo 24-4 Prueba alternativa de significancia parcial s SCR X1 . Al concluir de esta manera. . .5 FX *| X = 875.94 3.12 es 4. X = 1 2 1 2 1 SCRX * .10 es 4. X1 . X = SCR X . ....59 2.. Concluimos que X1 sí aporta a la predicción de Y y.. Siguiendo la fórmula 24. pero adecuada al hecho de que las variables independientes a evaluar son dos o más. Análisis de varianza del modelo 0 2x2 de la serie de datos del cuadro 24-3 Fuente de variación Regresión Error SC gl MC 2 644. 24-3 A semejanza de otros programas. rechazamos H0: 1 = 0 5.17 908.519.95. . mantenemos X1 en modelo de predicción y nos quedamos con X1 y X2. El procedimiento para la prueba de hipótesis es semejante a la prueba de F parcial. X 1 . El valor de F parcial calculado lo comparamos con el valor de F tabulado. X 1 Cómo hacerlo en Epi Info. por lo tanto. X p 1 y FX * .95. El estadístico F con n-k-1 grados de libertad es igual al cuadro del estadístico t con n-k-1 grados de libertad. Luego. no rechazamos H0: 3 = 4 = 0.84 = 1. dado que en el modelo ya están presentes X1 y X2. X p .75.94) y le restamos el valor de la suma de cuadrados de la regresión del modelo que contiene las mismas variables excepto X3 y X4 (cuadro 24-6. tema que veremos más adelante.. En estos casos. En lugar del estadístico t..7) * * 2 . X *| X .89 F 1 MCR X *| X 1 MCE X . procedemos de la siguiente manera: 1. Epi Info 7 brinda entre sus resultados (figura 24-5) el coeficiente. 37. mientras que los coeficientes de X3 y X4 no lo son: la misma conclusión a la que llegamos siguiendo el ejemplo explicativo 24-3.. ..67 = 319. t= 191 (24. que para el caso de F0.83 Prueba de F múltiple-parcial 3.520.. X *| X . y encontrará que el modelo 0 + 1 x1 no es estadísticamente significativo. X 1 2 1 2 2 MCR X * .519.10. X p /k (24.. Para evaluar la significancia de las variables X3 y X4. valor 3. Utilizamos esta prueba cuando estamos interesados en evaluar si dos o más variables en conjunto contribuyen significativamente a mejorar la predicción de Y una vez que otras variables independientes ya han sido incluidas en el modelo.. su error estándar y nivel de significancia. seguramente nos SCR X1 . X k que tiene una distribución F con k y n-p-k-1 grados de libertad cuando asumimos la H0. los podemos encontrar en los resultados que regularmente brindan los programas de regresión. encontraremos que los coeficientes de X1 y X2 son estadísticamente significativos..55 0. X 2 . que para el caso de F0. 3.. X * | X . X 2 2 1 2 * * 2 .. Estos dos estadísticos.8) * * 2 .55 = 0..1. Dado que el valor de Fcalculado es mayor que el de F tabulado.173 3. la hipótesis nula se establece como H0 : 1* = *2 = L = *k = 0 en el modelo completo.520.10 MCRX * .2. X Una alternativa de la prueba de F parcial lo constituye la prueba t por medio de la fórmula * © Editorial El manual moderno Fotocopiar sin autorización es un delito. según la fórmula 24. X p SCR X * .. X 1 k 1 = SCR X ..... realice la regresión simple de X1 con Y. X 1 MCE X .. El valor de F parcial calculado lo comparamos con el valor de F tabulado. X4 Y 1.000 . por lo tanto. 2.. Su valor se estima mediante n RY2|x1 .. 192 . Matriz de correlaciones X1 X1 X2 X3 X4 Y 1 X2 X3 X4 Y r12 r13 r14 r1Y 1 r23 r26 r2Y 1 r34 r3Y 1 r4Y 1 RY |x1 . X2 (r2Y = . y luego continuar con X1 con X2..X2.Xk). 3. 4) se refiere a la correlación entre Xi y Xj. X k...026 ...000 X3 CORRELACIONES: MÚLTIPLE. tiene la forma que se muestra en el cuadro 24-9. la matriz de correlaciones sería la que se representa en el cuadro 24-10. Para encontrar el valor de cada correlación.. Es decir. 3. X2 con Y. y rij (i. Ejemplo explicativo 24-5 Para la serie de datos del cuadro 24-3. Como se puede ver. X k.. Matriz de correlaciones Cuando en la predicción de Y se incluyen dos o más variables independientes.10) n (y y)2 i= j n = d o n d e yi = 0 + 1 x1 + 2 x 2 +..300 . X1 y X4...000 X2 X2 X3 X4 Y .. X k = i =1 n i =1 ( yi ( yi ( y ) yi y) 2 y ) (24..Bioestadística 5.+ k y y = i =1 yi / n RY | X1 . es la correlación simple entre los valores observados de Y y los valores esperados de Y mediante la ecuación de regresión múltiple. Cuadro 24-10. En primer lugar. para cuatro variables independientes y una dependiente. X 2 . retiramos X3 y X4 del modelo de predicción y nos quedamos con X1 y X2. tenemos que hacer regresiones simples para X1 con Y. j = 1.180 .179 . 2.334 . X1 con X4. 4) representa la correlación entre Y y Xj...863) es la variable independiente con la relación lineal más intensa con Y. representado por RY | X 1 .. seguida de X3..863 1. 24-4 A diferencia de otros programas de estadística que pueden generar una matriz de correlaciones como la del cuadro 24-10. revise la sección “Cómo hacerlo en Epi Info.061 1. encontramos las correlaciones entre la variable dependiente y las covariables.9) i= j y n Cuadro 24-9. Cada una de las correlaciones tomadas separadamente describe la fuerza de la relación lineal entre las dos variables involucradas.000 . X3 con Y y X4 con Y. X k = i =1 ( yi y) 2 n i =1 ( yi y) 2 = n ( yi y) 2 SCR STC (24. las correlaciones simples (o de orden cero por el número de variables que están ajustando la asociación) que se dan entre las diferentes variables en la ecuación pueden representarse mediante una matriz de correlación que. 23-1”. © Editorial El manual moderno Fotocopiar sin autorización es un delito. Concluimos que X3 y X4 no aportan a la predicción de Y y.288 1. X2 con X3.456 -.. r.000 Cómo hacerlo en Epi Info. en Epi Info 7 es necesario generarla a partir de regresiones simples entre las dos variables que queremos correlacionar. X 2 . y de éstas entre sí. Matriz de correlaciones para la serie de datos del cuadro 24-3 X1 X1 1.. PARCIAL Y MÚLTIPLE-PARCIAL La correlación en el modelo de regresión se puede expresar de varias maneras. X 2 . Donde rjY (j = 1. COEFICIENTE DE CORRELACIÓN MÚLTIPLE El coeficiente de correlación múltiple.. X 2 . El coeficiente de correlación múltiple es una generalización directa del coeficiente de correlación simple.303 .. X2 con X4 y X3 con X4. X1 con X3. es una medida de la asociación lineal total de una variable dependiente (Y) con dos o más variables independientes (X1. . volibol 164 4 masc.Z p SCEZ1 . tomamos los valores correspondientes a la suma de cuadrados de la regresión (SCR) y los de la suma de cuadrados totales (SCT= SCR + SCE).90) la dividimos entre la suma de cuadrados del error del modelo que incluye X1.9904 3.1.. dado que X1 ya está en el modelo? Para calcularlo. volibol 160 2 masc.Regresión y correlación múltiple Cómo hacerlo en Epi Info. Para la serie de datos del cuadro 24-3... basquetbol 173 14 fem.437.. volibol 159 9 masc.11) SCEZ1 .. Coeficiente de correlación parcial SCEZ1 .437. Si las dos variables de interés son Y y X.88)..Z p La correlación parcial es una medida de fuerza de relación lineal entre dos variables después de ser controladas por el efecto de otras variables. Para conocer el coeficiente de correlación parcial de X2... procedemos de la siguiente manera: 1.9954. volibol 163 10 masc. o 0...Z p = 193 SCE X .552.84/3. Para calcular r2. basquetbol 174 11 fem.. El orden de la correlación parcial depende del número de variables que están controlando la correlación. utilizamos la fórmula rYX2 |Z1 . Para calcular r2. Z2. Primero revisamos las tablas de ANOVA de los modelos 0 + 1 x1 + 2 x2 y 0 + 1 x1 (cuadros 24-6 y 24-7).. rY2( X1 ..Z p Cuadro 24-11. 24-5”..Z1. entonces nos referimos al coeficiente parcial de correlación mediante rYX |Z1. futbol 165 15 fem.. Serie de datos Bio3_24c i Sexo Deporte Talla en cm i Sexo Deporte Talla en cm 1 masc. Z 1.Z2.Z p (24. futbol 165 (24.12) . futbol 171 17 fem.78) y 1..Z p SCE X1 .78 32.. p-ésimo orden tienen la forma rYX |Z1. concluimos que sólo X1 y X2 aportan a la predicción de Y..9952 .78 32.. X 2 SCE X1 3.72 = 0..437.. futbol 170 20 fem. basquetbol 172 18 fem.. pero no X2 SCE . 24-5 Para la serie de datos del cuadro 24-3. tomamos la suma de cuadrados del error en el modelo que contiene la variable X1.9907. concluimos que sólo X1 y X2 aportan a la predicción de Y.. 32..9907 = 0.Z p (cuadro 24-6. y. futbol 165 7 masc. el coeficiente de correlación múltiple será igual a R 2 = R . X k . sólo nos falta obtener la raíz cuadrada de rYX2 | X = 0. futbol 161 3 masc. pero no X2 SCEZ (cuadro 24-7. volibol 166 6 masc.. En la sección “Cómo hacerlo en Epi Info. 2. 2 1 Correlación múltiple-parcial La correlación múltiple-parcial se utiliza para describir la relación entre una variable dependiente y dos o más variables independientes mientras otras variables las controlan... El análisis de varianza de esta asociación se muestra en el cuadro 24-6.9904 para encontrar que rYX 2 | X1 = 0..Z1 ... en general.78 = 3. basquetbol 163 8 masc..... ¿cuál es el coeficiente de correlación parcial de X2..Z p rYX2 2 | X1 = SCE X1 SCE X1 ..Z1 .9954. parciales de segundo orden tienen la forma rYX | Z1.. dado que X1. futbol 173 19 fem.. en el ejemplo explicativo 24-2. Zp. y calculamos el coeficiente de correlación del modelo múltiple (R2): 3. X k )|Z1 ...404...Z2.519..88 = 3. volibol 159 5 masc... y las variables de control son Z1. Siguiendo la fórmula 24...Z p le restamos el valor de la suma de cuadrados del error del modelo que contiene las variables X1 y X2 SCE X . Para conocer el coeficiente de correlación múltiple del modelo 0 + 1 x1 + 2 x2.... A partir de este valor.Z p encontramos que el coeficiente de correlación múltiple es 0. La diferencia que resulte (3...Z2. en el ejemplo explicativo 24-2. correlaciones parciales de primer orden tienen la forma rYX | Z ..437. ..Z p = SCEZ1 .Z p..... utilizamos la fórmula Ejemplo explicativo 24-6 © Editorial El manual moderno Fotocopiar sin autorización es un delito. futbol 163 16 fem.88 = 0.. Ahora la pregunta sería.Z p.. Así. basquetbol 168 12 fem. valor 3.. futbol 175 13 fem.. las dos categorías se codifican en una variable numérica a la que se le asignan los valores 1 o 0. Por ejemplo. el modelo de predicción de la talla estará constituido por la ecuación: y= 0 + 1 x y obtenemos los siguientes resultados para las ’s en el modelo: Constante Coeficiente 1 7.59 3. podemos utilizarlas en nuestro análisis.5 ± 2. 4 162. la codificación para la variable deporte que presenta tres categorías implica la definición de las variables dicotómicas “Dummy” X1 y X2 que tendrán los valores 0 o 1 según el siguiente criterio: X1 1 = basquetbol 0 = otro deporte X2 1 = volibol 0 = otro deporte © Editorial El manual moderno Fotocopiar sin autorización es un delito. con frecuencia queremos considerar el impacto que tienen variables cualitativas en la variable dependiente.04 s donde t= X Cuadro 24-12. podemos obtener el mismo valor t que presentamos con anterioridad. El modelo de regresión múltiple puede extenderse de tal manera que incluya datos cualitativos entre sus variables predictivas. Si la variable independiente consta de más de dos categorías. 94972 (9) + 2.50 + 7. 11.0001 Con base en estos resultados.Bioestadística VARIABLES CUALITATIVAS EN REGRESIÓN Hasta este momento. si queremos saber en qué magnitud el sexo determina la talla. como tales. Para lograrlo es necesario incluir variables indicadoras que definan las categorías de interés. mediante la codificación adecuada.29 0.50 Error estándar t p 1. la codificación es algo diferente e implica.76. 90(1) = 170.494 5. a la variable dicotómica sexo la designamos como X y la codificamos de la siguiente manera: 170. Con frecuencia deseamos explorar la relación que la variable sexo (masculino. Calculamos la media de la talla para cada grupo y estimamos el parámetro de la diferencia de las medias y sus intervalos de confianza o realizamos una prueba de significancia. Por ejemplo. mediante los dos procedimientos. se les denomina “Dummy”. Sin embargo.50 + 7.50 μ talla|masculino = 162. Por conveniencia. 40 IC 95 % μmasculino μfemenino = 7. 04 10 10 Observamos que. Sin embargo. 3408 10 10 μ femenino = 170. primero.95 2. 3408 + 3. calculamos la media y desviación estándar muestrales de cada grupo y obtenemos los siguientes resultados: Sexo n x masculino femenino 10 10 170. Observemos el cuadro 24-11 que muestra una serie de datos correspondiente a una muestra de adolescentes de 15 años: Si nuestro interés está en comparar la talla entre sexo masculino y femenino. clasificamos a los sujetos en masculino y femenino. 11. 3408 + 3. identificamos al grupo que tiene la característica de interés con el 1 y al grupo de referencia con el 0.50 3. En el caso de variables dicotómicas. 76.40 162. hemos utilizado variables independientes cuantitativas.494 ) = 4. 194 . 29 3.90 0 162.59272 (9) = 3. obtenemos los mismos resultados. crear un número de variables indicadoras igual al número de categorías de la variable menos uno. A estas variables. 4 162.1009 3. 90( 0) = 162. en inglés. no pueden incluirse en el cálculo de una regresión. mientras que la estimación de la diferencia de medias se consigue mediante μ talla|femenino = 162.1009(1.9 ± 2. como el peso. 3408 = 4. 3408 18 IC 95% μ ma sculino 0 = femenino 1 = masculino De esta manera.5 = 5. Para ello. femenino) mantiene con la variable dependiente de interés. y representan una recodificación binaria de las categorías de una variable cualitativa independiente. Resultados de la regresión simple de la talla según el sexo de la serie de datos Bio3_24c Ejemplo explicativo 24-7 Sp 2 = Las categorías masculino y femenino. Para la variable sexo (con dos categorías) sólo necesitamos una variable indicadora. genere tres variables indicadoras y nómbrelas sexo_1. codificaremos la variable sexo. escriba “0”. en la ventanita para asignar valor a la variable. En el caso de Epi Info para Windows. hacemos clic en la orden “Assign” (en el mismo grupo de Variables. Cuando aparezca la ventana de diálogo. después de Abrir la base de datos (Bio3_24c para nuestro ejemplo). Según esta codificación. a) Iniciamos creando una o varias variables indicadoras que deben ser numéricas. Ventana de la orden “Define Variable”. hacemos clic en “Define” (en el bloque de Variables). tal como se aprecia en la figura 24-6. y en la ventana “=Expression”. tal como se aprecia en la figura 24-7. marcamos la opción estándar y la definimos como numérica (“Number”). Cuando aparezca la ventana de diálogo. dependiendo del programa que se esté utilizando. Primera opción (común a todos los programas de cómputo). deporte_1 y deporte_2. Utilizando la misma orden. Dentro del módulo de Analizar datos de Epi Info.Regresión y correlación múltiple Mediante este procedimiento. Por ejemplo. seleccione sexo_1. de la manera en que se aprecia en la figura 24-8. Figura 24-7. las tres categorías de la variable deporte han quedado definidas en dos variables dicotómicas de la siguiente manera: Cuadro 24-13. Para realizarlo en Epi Info 7. 195 Figura 24-8. le asignamos el valor de cero a cada una de las variables indicadoras. donde la categoría de referencia será la que tenga el 0 en todas la variables indicadoras (el futbol en el ejemplo). tenemos tres opciones: 1. las tres categorías de la variable deporte. asigne el valor 0 a las variables deporte_1 y deporte_2. b) Luego. Para definir variables indicadoras o “Dummy” se pueden utilizar diferentes procedimientos. y en las dos últimas. Ventana de la orden “Assign”. 24-6 Figura 24-6. Codificación de variables indicadoras para la variable deporte X1 X2 futbol Deporte 0 0 basquetbol 1 0 volibol 0 1 c) Terminamos asignando el valor 1 cuando corresponda a la característica. En la primera. utilizamos la orden If (en la sección “Select/If”). En nuestro ejemplo. . escribimos el nombre de la variable. apenas tres renglones debajo de “Define”). Para hacerlo. el modelo de predicción de la talla estará constituido por la ecuación y= 0 + x + 1 1 2 x2 Cómo hacerlo en Epi Info. Ventana de la orden “If”. pero para la variable deporte (tres categorías) necesitaremos dos variables indicadoras. para la categoría masculino del sexo le asignamos el valor 1 a la variable indicadora sexo_1. © Editorial El manual moderno Fotocopiar sin autorización es un delito. “volibol”. De esta manera. Para la tercera opción. después haga clic en el signo igual (“=”) y termine escribiendo la categoría en la celda “If Condition”. tendría dos códigos: 0 y 1. como es el caso de la tabla de datos Bio3_24c. Figura 24-9. que se mostró en la opción anterior (sexo_1). b) Si la variable fue capturada en texto. 1. © Editorial El manual moderno Fotocopiar sin autorización es un delito. sólo tiene que escribir el número (sin comillas). Recuerde utilizar comillas cuando escriba “basquetbol” y “volibol”. 1. La recodificación como variables “Dummy” se realiza directamente en la ventana de diálogo de la regresión lineal. Cuando cambie clic en el botón la ventana a su izquierda. primero llamamos la ventana de diálogo de la regresión lineal y luego definimos la variable talla como la variable resultado.Bioestadística Para completar las opciones en la ventana. estará agregando al grupo de futbol todo el grupo de basquetbol (X2 = 0). “basquetbol”. como es el caso de las variables deporte_1 y deporte_2 en la sección de cómo hacerlo en Epi Info anterior. sexo en este paso). que es dicotómica. tiene que transcribir el texto entre comillas. donde escribiremos los tres códigos (0. Luego haga de “Then:”. no podrá analizarlas por separado. como es el caso de Epi Info 7. 196 . 1 y 2. la variable sexo. La segunda opción sólo funciona cuando el programa. Cómo hacerlo en Epi Info. por ejemplo. al utilizar este procedimiento para definir las variables indicadoras. tendría tres códigos: 0. tendremos que generar una variable donde escribiremos los códigos de manera semejante al sexo. que tiene tres categorías. 2) de la variable deporte (“futbol”. desde el momento de la captura. Si. regresará a la ventana de diálogo de la figura 24-8. Si la variable en la base de datos es de texto. 2. La definición de la variable cualitativa dependerá de cómo fue codificada. Continúe con la variable indicadora deporte_1 haciendo que tenga el valor 1 cuando la variable deporte sea igual a basquetbol. 3. pondremos “List” (en “Statistics”). respectivamente). decide incluir sólo la variable indicadora deporte_2 y dejar fuera del análisis la variable indicadora deporte_1. la recodificación se realiza directamente en la ventana de diálogo de la regresión lineal. Si se generaron la variables indicadoras y se escribieron códigos binarios para representar las categorías de la variable de origen. Mientras que la variable deporte. haga clic en “Variables” y en “Assign” (figura 24-9) para que en la nueva ventana de diálogo defina que sexo_1 sea igual a 1 (figura 24-10). es capaz de generar variables “Dummy” a partir de variables numéricas donde fueron codificadas las categorías cualitativas como números. 24-7 Para realizar la regresión de la talla según la variable deporte y la variable sexo. a) En este caso. pero si es numérica. a menos que decida cambiar la codificación de la variable de origen. primero seleccione la variable origen (“Available Variables”. Ventana de la orden “If” mostrando los menús colgantes con las opciones “Variables” y “Assign” seleccionadas. o en una sola variable (deporte_012). IMPORTANTE: Se debe recordar que. y que la variable indicadora deporte_2 sea igual a 1 cuando la variable deporte sea igual a volibol. se empleen códigos numéricos. lo mejor es que. las dos variables indicadoras (o todas las variables indicadoras que se generaron para representar las categorías de la variable de origen) deberán seleccionarse entre las otras variables. Para confirmar que las variables indicadoras fueron codificadas correctamente. Cuando haga clic en “OK”. El segundo. “1”. en la barra “Make Dummy”. Al hacer clic en “OK”. el resultado mostrará que la variable deporte tiene dos coeficientes.041 1. (Para esta parte del ejercicio. entonces se podrá incluir la variable en el modelo y definirla como “Dummy” desde la ventana de diálogo de regresión lineal.278 2. Figura 24-11. haga que el “futbol” sea “0”. El programa las identificará como variables cualitativas y generará las variables indicadoras (“Dummy”) que sean necesarias (figuras 24-13 y 24-14). Resultados del análisis de regresión lineal de Epi Info a partir de la orden de la figura 24-11. trando las variables Dummy registradas previamente como texto. Al mismo tiempo.Regresión y correlación múltiple 197 2. no será necesario que las definamos como “Dummy”.256 10.5905 0. “basquet bol”.004850 0. en donde evaluamos Figura 24-13. INTERACCIÓN Y CONFUSIÓN EN REGRESIÓN © Editorial El manual moderno Fotocopiar sin autorización es un delito.111 1. Al ajustar el mejor modelo de regresión cumplimos con el primero de los dos.774 8453.430711 0.667 1. Para definir la variable como “Dummy”. Linear Regression Variable Coefficient sexo_1 deporte_012 (1/0) deporte_012 (2/0) CONSTANT Std Error F-test P-Value 6. y “voli bol”.3207 0. como es el caso del sexo y del deporte en nuestro ejemplo.6698 0. Al hacer clic en la barra “Make Dummy”. como puede apreciarse en la figura 24-11. no es necesario definirla como “Dummy” (figura 24-12). Cuando se trate de variables cualitativas que fueron registradas como texto durante la captura de datos.000000 Figura 24-12. Ventana con la orden “Linear Regression” mos- trando la variable Dummy creada entre paréntesis. las letras se resaltan. . Ventana de la orden “Assign”.6535 0. 3. Este procedimiento.579044 163. primero seleccione la variable haciendo clic con el mouse. “2”). observará que el nombre de la variable queda entre paréntesis.924 2. a pesar de que es el más sencillo. Ésa es la indicación de que se ha definido como variable “Dummy”.556 -1. Si la variable cualitativa fue capturada en un campo numérico (o este campo se generó posteriormente) y los códigos de captura son números enteros progresivos que empiezan en 0. Ventana con la orden “Linear Regression” mosFigura 24-10. Observará que se resaltará con una barra de color azul. El análisis de regresión tiene dos objetivos: 1) predecir el valor que la variable dependiente tendrá mediante el uso de una serie de variables independientes y 2) cuantificar la relación de una o más variables independientes con la variable dependiente. tiene un inconveniente: el programa toma como grupo de referencia el primero según el orden alfabético. Cuando una variable cualitativa sólo tiene dos categorías y se codifican con los números “1” y “0” (como en “sexo_1” de este ejercicio). 10 representa la media cuando X1 está presente.0 *Grupo de referencia 12.667 2. En este cuadro.0 Efecto individual de X1: 10 . por una de ellas o por ninguna.μ ) + (μ . pero no X2.0 = 11 . Bajo el supuesto de este modelo. La pregunta de interés es si han de incluirse y cómo han de incluirse en el modelo mediante el cual la asociación de interés puede ser estimada.556 -2.6367 0. debemos evaluar la presencia de interacción antes que considerar la confusión. es la condición donde la relación de interés es distinta en diferentes niveles de la variable externa. Sin embargo.0* 21. Así pues. ( μ11 .00 = 12. En caso de existir.0 18. la interacción y la confusión. es inapropiado hablar de confusión.000000 Cuadro 24-14. El modelo aditivo estima qué tanto del efecto se suma al nivel basal y toma como referencia la diferencia de parámetros (diferencia de medias para el caso particular de la regresión múltiple) como medida de asociación.6535 0. Modelo aditivo de la relación de dos variables dicotómicas independientes en una variable cuantitativa Presencia de la variable X2 No (0) Sí (1) Presencia de la No (0) 00 01 variable X1 Sí (1) 10 11 Figura 24-14. Modelo aditivo de la relación de dos variables dicotómicas independientes en una variable cuantitativa Media de Y según X1 y X2 X2 X1 No (0) Sí (1) No (0) 3.00 representa el efecto “conjunto” de X1 y X2. tal como tratar de identificar uno o más determinantes de la variable dependiente. no puede evaluarse el nivel de confusión. Interacción y confusión son dos conceptos diferentes que tienen en común el hecho de tomar en cuenta variables (de control.μ 00 ) + ( μ 01 . el efecto conjunto de X1 y X2 es igual a la suma de sus efectos individuales. X2) que se expresan dicotómicamente. pero no X1. 00 representa la media de la variable Y en la población blanco en ausencia de ambas variables independientes.01 Efecto individual de X2: 01 .298174 164. Por ello.0 No (0) 0. Interacción. X2) están presentes. asumiendo que ambos grupos presentan la misma exposición para otras variables diferentes a X1 o X2.6698 0. Resultados del análisis de regresión lineal de Epi Info a partir de la orden de la figura 24-13.833 2. Consideremos una variable dependiente cuantitativa (Y) y dos variables independientes (X1.B).μ 00 ) En estas condiciones se dice que no existe interacción en el modelo aditivo. y 11 nos indica la media cuando ambos factores (X1.236 5424. 01 cuando X2 está presente. Interacción Interacción (o modificación del efecto) se refiere al hecho de que la asociación entre la exposición y el evento final de estudio puede variar de acuerdo con la presencia y/o magnitud de un tercer factor. es decir . Se considera que hay interacción cuando el parámetro de un evento en presencia de dos o más variables difiere del parámetro esperado de la combinación de sus efectos individuales: en el caso de la regresión múltiple.0 Diferencia de medias X2 Sí (1) 15.635 10.00 = 18.041 1. el efecto de X1 y X2 en Y se representa en la figura 24-15. representa 10 . El sesgo que se introduce mediante esta relación entre las variables ha de controlarse durante el diseño de la investigación o durante el proceso de análisis.430711 1. si existe fuerte interacción.0 + 12.μ ) = 3 + 12 + 6 = 21 11 00 01 00 10 00 De manera gráfica. Decimos que hay confusión si encontramos diferencias de interpretación cuando una covariable es incluida o ignorada durante el análisis de datos. externas o covariables) que afectan la asociación entre dos o más variables. durante el análisis y la presentación de los datos del estudio deberá enfatizarse la interacción describiendo esta relación entre las variables y en cómo la asociación de interés es modificada por un factor de estratificación.00 representa el efecto “individual” de X2 en ausencia de X1 y 11 . de la manera en que se muestran en el cuadro 24-14.00 el efecto “individual” de X1 en ausencia de X2.924 2. pero debe reportarse. durante el análisis de los datos. Si existe interacción importante. La interacción no puede controlarse.10 Efecto conjunto X1 y X2: 11 .00 = 6.μ 00 ) = ( μ10 .0 = 11 . El cuadro 24-15 muestra un ejemplo donde 11 puede estimarse mediante μ = μ + (μ .0 Sí (1) 9. Si el efecto conjunto observado excede la suma de los efectos individuales. tiene importancia cuando la pregunta de investigación se relaciona con la etiología de la enfermedad.198 Bioestadística Linear Regression Variable Coefficient SEXO (masculino/femenino) DEPORTE (fut bol/basquet bol) DEPORTE (voli bol/basquet bol) CONSTANT Std Error F-test P-Value 6.1563 0. podemos hablar de sinergismo. por otra parte. donde el comportamiento de Y se representa mediante trazos paralelos.667 1.0 © Editorial El manual moderno Fotocopiar sin autorización es un delito. Si el efec- Cuadro 24-15. Una asociación puede estar afectada por confusión e interacción.004850 0. 01 . su interpretación se fundamenta en un modelo aditivo y en la diferencia de parámetros (A .0 = 6.0 6. el antagonismo es una interacción negativa.14 De acuerdo con el modelo aditivo. y X 1 =1 - y X 1 =0 = 27.22 . una de sinergismo y otra de antagonismo. ya que.36 . Representación gráfica de dos interacciones. hablamos de antagonismo. encontramos que el efecto conjunto de X1 y X2 en Y es igual a 6.07. Tenemos que © Editorial El manual moderno Fotocopiar sin autorización es un delito. en la relación de dos variables dicotómicas independientes en una variable cuantitativa. la diferencia entre lo esperado y lo observado es importante. menos la media de Y sin las variables independientes.59 = 8. en donde X1 y X2 interactúan antagónicamente en Y. Representación gráfica del modelo aditivo de relación de dos variables dicotómicas independientes en una variable cuantitativa. Para ello. En este modelo. 11 . evaluamos el modelo μ y|x = 0 + 1 x1 + x + 2 2 x 3 3 donde x3 = x1 x2. cuyos valores se presentan en el cuadro 24-16. Aunque podríamos esperar alguna variación debida al muestreo. Esto no ocurre. El sinergismo es una interacción positiva. si nuestro interés recae en X2 y no existe relación alguna con X1.19. para representar la magnitud del cambio de Y según X1 simplemente sustraemos de la media de Y cuando X1 está presente ( y X1 =1) el valor de la media de Y cuando X1 no está presente ( y X 1 = 0).77. Si fuera el caso que X1 no tuviera alguna relación con X2. X2 = 1 X2= 0 Y X2 = 1 X2 = 0 0 X1 1 Sinergismo X1 Antagonismo Figura 24-16. ya que el valor observado de la media del efecto de Y cuando están presentes X1 y X2 menos el efecto de la media de Y cuando X1 y X2 están ausentes. La figura 24-16 muestra dos ejemplos donde Y pierde su paralelismo. 10. En el sinergismo las líneas se separan y en el antagonismo las líneas tienden a cruzarse. Supongamos que nuestro interés es determinar de qué manera la variable dependiente Y se afecta ante la presencia de la variable independiente X1.63 0 1 X1 Figura 24-15. Ejemplo explicativo 24-8 Consideremos el caso de dos variables independientes (X1 y X2) y una variable dependiente (Y). 11.14 + 8. es inferior a la media que esperaríamos mediante el modelo aditivo. la diferencia de la media esperada para el efecto conjunto. to conjunto observado es menor que la suma de los efectos individuales.63 = 16. debe ser aproximadamente igual a 8. al estratificar la información del cuadro 24-16.14 unidades el valor promedio de Y. tal como se muestra en el cuadro 24-17. . el efecto de X2 en Y será igual a X2 = 1 X2 = 0 Y 199 y X 2 =1 y X 2 = 0 = 27.18. De igual manera.Regresión y correlación múltiple por lo que diríamos que X1 tiene el efecto de aumentar 8.22 = 8. nos valemos del modelo de regresión múltiple.43.00= 11. la H0: 3 = 0 evalúa la significancia de la inclusión de x3 = x1 x2 en el modelo. Aquí surge una pregunta: ¿hasta dónde la variación de muestreo puede justificar que el efecto conjunto esperado sea diferente del observado? Para tomar esta decisión. por lo que no tienen que ser definidas como variables “Dummy”.84 11 0 0 17.95 9 1 1 28. tal como se aprecia en la figura 24-17.33 24. primero generamos una nueva variable que es igual a x1 x2 y luego realizamos una F parcial.43 *Grupo de referencia © Editorial El manual moderno Fotocopiar sin autorización es un delito. CONFUSIÓN El sesgo de confusión implica la posibilidad de que la asociación observada entre dos variables (una independiente y otra dependiente) sea explicada.54(1) + -3.41(0) = 24.39 es decir. podemos encontrar que.63 12 1 1 28. = 11 . las mismas medias que se muestran en el cuadro 24-17.51 5 1 1 26.92 13 1 1 27.46 19 0 1 24.10 = 4.19 17 0 1 24. totalmente o en parte. 00 = 10 = 01 = 11 = .03 Efecto individual de X2: 01 . Serie de datos Bio3_24d i X1 X2 Y i X1 X2 Y 1 0 0 16.41(0) = 17. para evaluar la interacción. A partir de los resultados mostrados en el cuadro 2418. Para generar la interacción. X2 en la variable cuantitativa Y del cuadro 24-16 Media de Y según X1 y X2 X2 Cómo hacerlo en Epi Info.00 = 1.41(0) = 24. al hacer clic en Aceptar.54(1) + -3. o calculamos la significancia mediante el coeficiente de 3 y su error estándar para encontrar los estadísticos que se muestran en el cuadro 24-18.15 2 0 0 18.93 8 0 0 18.33 + 6. Cuadro 24-17.87 No (0) 0.54(0) + -3. También encontrará que la barra de “Make Dummy” cambia a “Make Interaction”.54 Efecto individual de X1: 10 .93 Sí (1) 11.33 + 6.61 6 0 0 16.32 20 0 1 24.40 6.200 Bioestadística Cuadro 24-16.51 Efecto conjunto X1 y X2: 11 .043) y deberá permanecer en el modelo multivariado.70 18 0 0 19.54(0) + -3.87 17.92 4 1 1 29.33 14 0 0 18.93(0) + 7. Finalmente. observará los resultados que se muestran en la figura 24-18.07 7.00 = 4.00 16 0 0 15.92.26 17.93(1) + 7.26 28. las dos variables (primero haga clic en X1 y luego en X2). 24-8 En Epi Info 7. Llame la ventana de diálogo de Regresión lineal (“Linear Regression”) y defina la variable Y como la Variable resultado. abra el archivo Bioestadistica_3ra y seleccione la tabla Bio3_24d. Al hacer clic en “Make Interaction”.00 = 6.92 10 1 1 30. la interacción es estadísticamente significativa (p = 0.76 Ejemplo explicativo 24-9 Continuando con el ejemplo explicativo 24-8.06 3 1 0 24. Estas dos variables son dicotómicas y están codificadas como 0 (no tiene la característica) y 1 (tiene la característica).01 = 2.33 17. según el modelo 0 + x + "x" #xx" 17.41(1) = 28. Modelo aditivo de la relación de las variables dicotómicas independientes X1. seleccione No (0) X1 Sí (1) Diferencia de medias X2 No (0) 17. Observará que las dos variables quedarán resaltadas en una barra azul. = 11 . mediante Para el caso de este ejemplo ilustrativo.0* Sí (1) 24.40. la que se mostrará en la ventana de “Interaction Terms” como X1*X2.93(0) + 7.01 7 0 0 15.33 + 6.93(1) + 7. y a X1 y X2 como las covariables (“Other Variables”).33 + 6. las variables seleccionadas formarán la interacción. que nos muestra que la variable de interacción x3 = x1 x2 tiene que ser incluida en el modelo y nos indica que el efecto de la variable X1 en Y debe interpretarse tomando en cuenta el nivel de la variable X2.29 15 1 0 23. c) El potencial factor de confusión no debe ser un eslabón intermedio de la cadena causal entre la variable independiente de interés y la variable dependiente. entonces hay que ajustar aunque no exista asociación significativa entre la exposición o el evento de estudio.54 <0.001 0 17. Ventana que muestra la definición de una interacción en el procedimiento de Regresión lineal en Epi Info . Para evaluar esto. En todo caso. debe estar asociado con la exposición en estudio y modificar la variable a predecir.Regresión y correlación múltiple Cuadro 24-18. o factor de confusión. mientras que. De manera intuitiva. Figura 24-17. Algunos mencionan que un cambio entre el coeficiente crudo y el ajustado de 10% o más debe hacer pensar en confusión. cuando una lectura cruda es diferente a una ajustada. Estadísticos de interacción de la serie de datos del cuadro 24-16. El símbolo ' representa asociación no causal y * se refiere a una asociación causal. si concluimos que la asociación en estudio está confundida por una tercera variable. © Editorial El manual moderno Fotocopiar sin autorización es un delito. no únicamente entre los casos. la confusión debe ser entendida como una mezcla del efecto de la variable independiente en estudio con otra variable independiente (factor de confusión) que influye en la variable dependiente. para el modelo 0 + 1X1 + 2X2 + 3X1X2 Coeficiente Constante Significancia 3 -3. incluso. y éste debe ser tomado en cuenta al momento de decidir sobre la relación entre ellas. si encontramos que ambos coeficientes (el crudo y el ajustado) son muy semejantes. independientemente de la variable predictora en estudio. b) El factor de confusión debe estar asociado con la variable independiente en la población base. o casi siempre.33 201 La figura 24-19 muestra tres situaciones en que el factor confunde la variable independiente/variable dependiente. subestimar e.043 2 7. La asociación entre el factor de confusión y la variable dependiente puede ser causal o no causal.41 0. En la práctica. presentamos el que muestre la mayor precisión (el Intervalo de confianza menos amplio). es necesario información externa al estudio. si al ajustar por el potencial factor de confusión se observa una variación sustantiva y si el conocimiento del investigador sobre el tema hace suponer que es preferible la estimación ajustada. incluso en ausencia de la variable independiente en estudio. si el ajuste por una variable no modifica sustancialmente la estimación. la asociación entre las dos variables independientes ha de tener un sentido lógico. En la figura 24–20 se representan situaciones en la cuales el factor no confunde la asociación variable independiente/ variable dependiente. nos enfrentamos a la siguiente pregunta: ¿Qué tanto ha de cambiar el coeficiente para considerar que una asociación está siendo confundida por una tercera variable? La verdad es que no hay un punto definido. cambiar la dirección en la estimación de la asociación a evaluar.93 <0. Como siempre. Por último. Tres condiciones son necesarias para que un factor sea considerado de confusión: a) El factor debe de estar asociado con la variable dependiente. hay que ignorarla sin importar que el potencial factor de confusión esté asociado “significativamente” con la variable dependiente. Por otra parte.001 1 6. El sesgo que introduce un factor de confusión puede sobreestimar. Evaluación de la confusión una distribución desigual entre los grupos de estudio de otros factores diferentes a la exposición de interés que también influyen en la variable dependiente. entonces debemos presentar en nuestros resultados las estimaciones ajustadas. Este tercer factor. donde una de ellas (Factor) confunde la asociación de las otras dos. y los resultados han de compararse con lo que se espera encontrar.202 Bioestadística Linear Regression Variable Coefficient X1 X2 X1 * X2 CONSTANT Std Error F-test P-Value 6. así como para cada subgrupo pertinente. DIAGNÓSTICO DE LA ECUACIÓN DE REGRESIÓN La interpretación que hagamos del modelo predictivo mediante la regresión múltiple está sujeta a que sus supuestos se sostengan. el cambio ha sido tan extremo que la estimación ha dejado de ser significativa y concluimos que el sesgo introducido por X2 en la asociación entre X1 y Y era tan intenso como el efecto observado de X2 en Y y la asociación existente entre X1 y X2. en valores extremos (outliers). V. es necesario revisar los datos poniendo particular atención en los residuales. Unidades de medida de cada variable. y c) gráficas de los datos. en el modelo ajustado (X1. b) identificación de los valores mínimo y máximo. Dependiente Factor Figura 24-19. Antes de concluir que una variable confunde a otra es necesario recordar que ninguna de ellas debe estar en la cadena causal. Tal es el caso de los supuestos de existencia y de independencia. el coeficiente crudo de X1 fue estadísticamente significativo. Valores mínimos y máximos que pueden alcanzar las variables en estudio. homocedasticidad y normalidad.94 unidades. Dependiente Factor V. Independiente V. cuadro 24-20) nos damos cuenta de que el coeficiente de X1 es 5. Diagramas que representan las relaciones entre variables. pero cuando agregamos X2 a la ecuación (X1.0423 0. Mediante la regresión simple (sólo incluimos X1 y Y en el modelo. Este análisis descriptivo ha de realizarse para toda la muestra en conjunto. V. 3.539 -3. así como el cálculo de la media y la desviación estándar para variables cuantitativas. Algunos querrán presentar el crudo. Resultados del análisis de regresión lineal de Epi Info a partir de la orden de la figura 24-17. el coeficiente ajustado perdió su efecto y significancia estadística. Consideremos la serie de datos que se presenta en el cuadro 24-19 y supongamos que estamos interesados en el efecto de X1 sobre Y. el coeficiente de X1 es -0. 2.486 1270.407 1. Características de las unidades de observación. tenemos una gran duda: ¿cuál de los dos coeficientes debemos de presentar? Por una parte. particularmente de los cuantitativos mediante histogramas. Algunos de ellos pueden quedar claramente explicados mediante la descripción de la metodología con que se obtuvieron los datos. .94. y ya listos para presentar nuestros resultados. Características de la recolección de datos. pero lo correcto será presentar el ajustado y destacar la confusión que introduce la covariable X2. Independiente Antes de iniciar el análisis de los datos.934 7.973 1.538 39. linealidad.141 0. Ejemplo explicativo 24-10 Realizado lo anterior. Precisado lo anterior.000016 0. Para nuestros datos.0786 4.9621 60.000000 Figura 24-18. Dependiente Factor Características de los datos V. X2 y Y en el modelo.9087 0. para evaluar el resto de los supuestos.000001 0. es importante que iniciemos nuestro análisis con la descripción estadística de las variables de interés. Ésta deberá incluir: a) tablas de frecuencias para variables cualitativas y cuantitativas que tengan pocos grupos de valores. y en la colinealidad entre covariables. considerando el diseño de estudio y el conocimiento sobre las variables.06.041572 17. X2 y Y ) el efecto de X2 en Y ¡ha desaparecido! Concluimos que la estimación de la asociación entre X1 y Y estaba confundida por X2. Sin embargo. A continuación observamos si el coeficiente de X1 cambia de uno a otro modelo: encontramos que mientras en el modelo crudo (X1 y Y) la presencia de X1 aumentaba el promedio de Y en 5.331 0. cuadro 24-21). Independiente V. El segundo paso consiste en realizar gráficas de correlación entre pares de variables para explorar sus relaciones entre sí. 4. debemos estar seguros de los siguientes aspectos que nos ayudarán a interpretar los resultados: 1. © Editorial El manual moderno Fotocopiar sin autorización es un delito. por la otra. pero. Independiente V.62 80 1 1 23.56 67 1 1 23.73 .10 44 1 1 23.80 19 0 0 3.41 18 0 0 3.38 7 1 0 3.02 9 1 0 3.83 24 1 0 3.52 41 1 1 23. Independiente V. Independiente V.34 71 1 1 23.02 48 1 0 3.85 21 1 1 23.77 66 1 1 23.77 26 1 1 23.52 2 1 1 23.28 76 1 1 23.21 35 1 1 23. Dependiente Factor Factor V.10 5 1 1 23.56 27 1 1 23.21 75 1 1 23. © Editorial El manual moderno Fotocopiar sin autorización es un delito.39 43 1 1 23.80 20 0 0 3. Diagramas que representan las relaciones entre variables.67 72 1 1 23.80 58 0 0 3.88 78 1 1 23.82 34 1 1 23.55 22 1 1 23.38 29 1 1 23.65 39 1 1 23.89 37 1 1 23.24 50 1 0 3. Dependiente Factor Figura 24-20.09 12 0 1 23.80 13 0 1 23. Independiente V.58 70 1 1 23.82 74 1 1 23.39 4 1 1 23.91 63 1 1 23.24 65 1 1 23.09 51 0 1 23.58 30 1 1 23.89 77 1 1 23. Serie de datos Bio3_24e i x1 x2 y x1 x2 y x1 x2 y x1 x2 y 1 1 1 23.62 40 1 1 23.94 14 0 1 23.05 56 0 0 3.05 17 0 0 3. donde el factor no confunde la asociación entre la variable independiente y la variable dependiente.72 45 1 1 23.28 36 1 1 23.Regresión y correlación múltiple V.40 42 1 1 23.24 25 1 1 23. Dependiente Factor 203 V.14 68 1 1 23. Cuadro 24-19.65 79 1 1 23.91 23 1 1 23.14 28 1 1 23.89 49 1 0 3.43 15 0 1 23.55 62 1 1 23.70 16 0 0 3. Dependiente Factor V.85 61 1 1 23.72 6 1 0 3.40 33 1 1 23.34 31 1 1 23.94 53 0 1 23.31 47 1 0 3.80 59 0 0 3.38 46 1 0 3.43 54 0 1 23. Dependiente V.38 69 1 1 23.80 52 0 1 23.89 10 1 0 3.41 57 0 0 3.83 64 1 0 3.24 11 0 1 23.67 32 1 1 23. Independiente V.31 8 1 0 3.70 55 0 1 23.88 38 1 1 23.73 60 0 0 3.40 73 1 1 23.40 3 1 1 23. tomando en cuenta los valores individuales que corresponden a un individuo en particular.14) donde Cómo hacerlo en Epi Info. Los residuales. Análisis de residuales . para realizar el procedimiento. los residuales observados.58 Significancia • Residual estudentizado: ri = 0. En este grupo. generalmente tiene un valor observado.15) Para la serie de datos del cuadro 24-3. • Residual estandarizado: zi = ei / s Las herramientas más poderosas para analizar residuales son los gráficos. residuales y variables predictoras. &. Esa cantidad es conocida como valor esperado. el gráfico muestra una banda uniforme sin trazo que suponga alguna tendencia sistemática. 24-9 s= 2 i e n k 1 (24. Estos gráficos también nos ayudan a evaluar la independencia de las observaciones. brindan poca información. valores esperados de Y. al tiempo que aproximadamente 95% de las observaciones se encontrarán entre -1. (24. es necesario graficar los residuales en relación con la variable de secuencia.06 0. • Gráficos de dos dimensiones. ya que podría influir en los resultados (experiencia para captar datos.13) Yi es decir. Resultados del modelo de regresión múltiple a partir de los datos del Cuadro 24-19 Coeficiente Constante 2 20. Ese sujeto. en el ejemplo explicativo 24-4. Los residuales. predecir qué valor corresponde a la variable dependiente. Siempre que los datos sean captados y registrados de manera secuencial. La diferencia entre el valor esperado y el observado se conoce como residual: ei = Yi (24. sin embargo. residual estudentizado y residual recortado (jackknife. yi. nos hablan de algunos de los supuestos en los que se basa el análisis de regresión. ei. leverage (en inglés) o apalancamiento (en español). Si el modelo predictivo que se ha logrado mediante la ecuación de regresión es adecuado.13. • Residual recortado: Significancia r( i) = ri s2 s 21 (24. etc.96 y 1.). • Gráficos de una dimensión. concluimos que solo X1 y X2 aportan a la predicción de Y. b) los esquemáticos (caja y línea) y c) los de distribución acumulada de probabilidad. diferente al esperado.17) 2 donde s 1 es la varianza residual calculada después de eliminar la observación i-ésima.204 Bioestadística Cuadro 24-20. aun cuando la variable tiempo no esté considerada en el modelo predictivo. Cuando se cumplen los supuestos en que se sustenta la regresión. ya sean sólo residuales o los que relacionan residuales con alguna otra variable.96 en la escala que corresponde a los residuales. Entre los más utilizados encontramos: a) los histogramas (entre los que se incluyen los polígonos de frecuencias y los gráficos de tallo y hoja). Estos incluyen gráficos que correlacionan cualquier par de las siguientes variables: valores observados de Y. deben tener características similares. El análisis de regresión se basa en el supuesto de que el componente de la variación de Y que queda sin explicar. en inglés).16) donde hi. es una medida de la importancia de la observación i-ésima en el modelo ajustado. Análisis gráfico de residuales Mediante el modelo de regresión múltiple podemos.01 Cuadro 24-21.57 ei rei = 1 hi s 1 hi (24. Resultados del modelo de regresión simple a partir de los datos del Cuadro 24-19 Coeficiente Constante 1 5. que se distribuye normalmente con media igual a cero y desviación estándar homogénea para diferentes valores de X.39 0 3. $. Así.02 0. por lo que debemos realizar alguna transformación para que sean más informativos. una de las gráficas más útiles es la correlación de residuales (particularmente estudentizados o recortados) y valores esperados de Y. es una variable aleatoria e independiente. por lo tanto.94 0 13. tal como se calcularon en la fórmula 24. Para mostrar el análisis de residuales © Editorial El manual moderno Fotocopiar sin autorización es un delito. Estos gráficos nos permiten evaluar el apego al supuesto de normalidad de los residuales.00 1 -0. se puede hablar de residual estandarizado. que son estimaciones de &. un residual es aquello que queda sin explicar una vez que el modelo ha sido ajustado. Con las variables generadas podremos realizar los gráficos con los que evaluaremos los supuestos de la regresión. • Una observación válida que no tiene explicación. k es igual a 2. estas observaciones se encuentran a tres o más desviaciones estándar de la media del conjunto de datos. sólo nos falta dividir el valor de cada residual entre su desviación estándar.0 0. primero ajustamos el modelo de tal manera que obtengamos los coeficientes de la regresión que se muestran a continuación 0 + 1 X1 + 2 X 2 = 4.0 Valor estandarizado de Y 1. Generalmente. particularmente cuando se utilizan datos estandarizados.3484.655. Así que la varianza de los residuales en nuestro modelo será igual a 2.55 3. sin tomarlos en cuenta. como los que se muestran en la figura 24-21.48X2. la presencia de valores influyentes extremos puede modificar la dirección de la pendiente a tal punto que podríamos llegar a conclusiones contradictorias dependiendo de si se incluyen o no en la serie de datos. son útiles porque permiten identificar las observaciones que se encuentran a más de 2 o 3 desviaciones estándar. y la desviación estándar de los residuales será igual a su raíz cuadrada.740. 1 0 -1 -2 -3 160 A 205 180 200 220 Valor observado de Y Figura 24-21. Para obtenerla. y la línea más oscura muestra la pendiente cuando son incluidos.0 -2. Para calcular los residuales estandarizados. • Una observación válida que se explica por una situación extraordinaria. Los histogramas con estos datos. podremos calcular los residuales estandarizados. 2. 3. • Una observación ordinaria que resulta de una combinación excepcional de variables.0 240 B -1. que comparan los valores observados de Y y los residuales. Gráficas de correlación de residuales. Los valores influyentes extremos pueden ser explicados por varias razones: • Un error al registrar el dato.0 -2. con dos variables independientes en el modelo(X1 y X2).55 . así como las gráficas de correlación. Los valores influyentes extremos están representados mediante triángulos. apalancados (leverage) o la distancia de Cook (otra medida de influencia que muestra cuánto cambia un coeficiente de regresión cuando se elimina la observación que está siendo evaluada).0 Residual estandarizado 3 2 Residual de Y © Editorial El manual moderno Fotocopiar sin autorización es un delito. que es 2. El resultado también nos brinda la varianza. primero tenemos que multiplicarla por n-1 (que son los grados de libertad que utilizó Epi Info para calcularla) para obtener la suma de cuadrados.0 0.48 X 2 Después definimos una nueva variable (que podremos llamar “esperado”) en la tabla de datos y su valor mediante la ecuación 4. Luego la dividimos entre n-k-1 (donde k son los grados de libertad de la media cuadrática de la regresión). En nuestro ejemplo. Para identificarlos es útil listar los cinco valores extremos (mínimos y máximos) de la serie de datos observados o de los residuales. pero también podemos pedirle a Epi Info la media de la variable “residual” (la que generamos en el párrafo anterior).3. o 1.12X1 + 2.0 -3. la pendiente es la línea débil. Las figuras 24-22 A y B muestran dos ejemplos: como puede observarse. utilizaremos la misma serie de datos.pero esa varianza no es la de los residuales. Identificación de valores influyentes extremos Un valor influyente extremo es aquella observación cuyo impacto en la regresión es mucho mayor o menor que en el resto de las observaciones. Podemos hacerlo tal como se muestra en la fórmula 24.0 2. En algunos programas de cómputo se facilita su identificación mediante el estudio de los residuales recortados (jackknife). Ya con los residuales en la tabla de datos.Regresión y correlación múltiple en Epi Info 7.15. así como los valores estandarizados de Y y los residuales estandarizados.0 1.0 -1.3484(14)/12=2. Para hacerlo. Luego definimos la variable “residual” y la definimos como “Y”-“esperado” (valor en la variable “Y” menos valor en la variable “esperado”).0 .12 X 1 + 2. Primero calculamos la desviación estándar de los residuales. En caso de identificar colinealidad.206 Bioestadística 20 20 15 15 10 10 5 5 0 0 0 2 4 6 8 10 0 2 4 6 8 10 Figura 24-22. EVALUACIÓN DE COLINEALIDAD El concepto de colinealidad se refiere a las relaciones que existen entre las covariables. Ejemplo de una regresión polinomial.0 10. . y no entre éstas y la variable dependiente. Siempre que se observe un valor extremo influyente.0 6. Siempre que Y es un valor positivo. De manera general. como la que se muestra en la figura 24-23.0 © Editorial El manual moderno Fotocopiar sin autorización es un delito. Entre las opciones que pueden utilizarse se encuentran las siguientes: • Modelo polinomial. una matriz de correlaciones identificará a dos covariables con una correlación cercana a uno.0 + 1 X1 + 1 X1 + 3 X3 2 X2 En cada uno de estos tres modelos. El modelo incluye. esta transformación se utiliza para: estabilizar la varianza de Y que aumenta en relación directa con el valor de Y. será necesario corregirlo y repetir el análisis. Cualquier decisión en este sentido será difícil. será necesario verificar el dato en la fuente de donde se obtuvo.0 8. que será igual a 1 cuando exista una colinealidad perfecta. De esta manera. Por otra parte.0 2. el modelo para ajustar la regresión no lineal que se muestra en la figura 24-23 será Y= 0 + 1 X1 + 2 X12 + 2 X13 • Transformación logarítmica de Y (Y’ = log(Y)).0 8.0 2. Existe colinealidad siempre que una misma variable es medida de dos maneras diferentes. por cada cambio de dirección en el trazo de la curva se incluirá un nuevo elemento en el modelo de regresión. 4.0 Figura 24-23. homocedasticidad o normalidad no se pueden sostener durante el análisis de residuales. De esta manera. el modelo Y= 0 + 1 X1 + 2 X2 + 3 X3 será analizado mediante los siguiente modelos: X1 = 0 + X2 = 0 + X3 = 0 2 X2 + 3 X3 TRANSFORMACIÓN DE DATOS Si los supuestos de linealidad. Pero ese no será el caso cuando los dos análisis conduzcan a conclusiones contradictorias. elevar a una potencia inmediata superior una variable independiente. progresivamente. la atención se dirigirá a los valores de R2. Efecto de valores influyentes extremos en dos grupos de datos. En estas condiciones. Lo utilizamos cuando queremos ajustar una regresión no lineal.0 6. entonces las variables que participan en el modelo se pueden transformar para cumplir con estos supuestos. Otra manera para identificar colinealidad consiste en realizar regresiones múltiples sustituyendo la variable dependiente por las covariables. el investigador siempre se enfrentará a un dilema: incluir o no los valores influyentes extremos. Cuando el resultado de ambos análisis es semejante. normalizar la variable depen- 12. Una de las soluciones posibles consiste en presentar los dos análisis: uno con los valores influyentes extremos y otro sin ellos. no existirá mayor problema en las conclusiones. 12.0 0. será necesario eliminar las mediciones redundantes. si no existiera error en el registro del dato. Si existiera un error.0 10.0 4. Se utiliza para estabilizar la varianza si disminuye con el promedio de Y. • Transformación mediante la raíz cuadrada (Y’ = Y ). Se emplea para estabilizar la varianza de Y si es una proporción o una tasa. diente cuando la distribución de residuales está sesgada positivamente y linealizar el modelo de regresión cuando Y muestra una curva ascendente mientras el valor de X aumenta. • Transformación cuadrada (Y’ = Y2). Si los supuestos de normalidad y homocedasticidad no pueden ser cubiertos. • Transformación del arco del seno (Y’ = arcsin Y = sin-1 Y ). 207 normalizar la variable dependiente si la distribución de los residuales está sesgada negativamente y linealizar el modelo de regresión cuando Y muestra una curva descendente mientras el valor de X aumenta. Se utiliza para estabilizar la varianza si es proporcional al promedio de Y. puede utilizarse el análisis de modelos generalizados (capítulo 27). Se usa para estabilizar la varianza si es proporcional a la cuarta potencia de la media de Y. • Transformación recíproca (Y’ = 1/Y).Regresión y correlación múltiple © Editorial El manual moderno Fotocopiar sin autorización es un delito. . realice los siguientes análisis: Ejercicio 1 Ejercicio 2 Calcule los coeficientes crudos y ajustados que correspondan a las cuatro variables independientes y llene el cuadro 24-23 con los resultados. Evalúe la interacción de esas dos variables y diga si es estadísticamente significativa.9 36. “1” y “2”.3 37.8 19.0 102.0 35.8 Y 15.6 14.4 106.5 103.2 17.0 111.3 14.3 91.6 112.6 27. C y D.2 D 87.5 13.7 30.1 93.7 i 16 17 18 19 20 21 22 23 24 25 26 27 28 29 A 1 1 0 0 1 1 0 1 1 1 0 0 0 0 B 0 2 2 1 1 0 1 1 0 1 2 1 2 1 C 31. Los datos los puede encontrar en Ejer_24a del archivo Bioestadística_3ra.gov/epiinfo/ Kleinbaum DG. “C” y “D” son variables cuantitativas.5 36.4 14. Cuadro 24-22 i A 1 0 2 1 3 0 4 0 5 0 6 1 7 0 8 0 9 1 10 1 1 11 12 1 13 0 14 0 15 0 B 2 2 2 0 0 2 2 0 1 0 1 2 2 1 0 C 28. En el modelo ajustado que incluye las cuatro variables (A. B.9 16.7 96. C y D) en una variable dependiente cuantitativa (Y).7 30.8 16.5 13.3 91.2 96. “B” es una variable cualitativa que clasifica a los sujetos en tres categorías: “0”.1 102. Concluya definiendo cuál sería el modelo multivariado más sencillo y diga qué tanto del cambio de “Y” es explicado por el cambio de las variables incluidas en ese modelo.1 Y 12.3 15.1 114.8 24.1 15.9 12.6 28.8 94.6 19.8 107.7 D 88.6 16. B.1 13.8 15.5 35. © Editorial El manual moderno Fotocopiar sin autorización es un delito.8 14.0 79.1 88.3 14.0 14. sólo dos coeficientes son estadísticamente significativos. Ejercicio 4 C D * El modelo ajustado incluye las cuatro variables independientes. PWS-KENT Publishing Company.1 88.8 18.2 14.2 73.3 94.3 13.0 18.2 19.4 35.cdc.0 45.3 25. Kupper LL & Muller KE.2 15.6 26.2 12.7 17.0 40.0 105. Applied Regression Analysis and other multivariable methods. Disponible en http://wwwn.2 89.4 13.0 94.9 95.208 Bioestadística Ejercicios El cuadro 24-22 presenta los datos de una investigación que exploró la relación que tienen cuatro variables independientes (A. Variable Coeficiente crudo p Coeficiente ajustado* p A B b=1 b=2 Ejercicio 3 En el cuadro 24-23 se puede observar que uno de los tres coeficientes crudos que son estadísticamente significativos deja de serlo en el análisis ajustado.9 15.7 13. “A” es una variable cualitativa dicotómica que clasifica a los sujetos en dos categorías: “0” y “1”. CDC.6 79.4 21. cuadro 23-13). 1988.4 38. Cuadro 24-23 . Second edition.2 97.4 90.2 37. REFERENCIAS Epi Info 7. Boston.5 15. Cómo explica este cambio y qué variables están involucradas.5 24.8 A partir de los datos del cuadro 24-22.3 13.7 33.6 86.7 28.2 16. mientras que 50 enfermaron entre los no expuestos. a los que tendría que seguir durante todo un año. en la muestra de 80 controles encontraría 13 expuestos y 67 no expuestos. 30 habrían estado expuestos a “X” y 50 no.6% expuestos. Ejemplo explicativo 25-1 Consideremos una población en riesgo de desarrollar diabetes mellitus formada por dos subgrupos: uno de 10 000 expuestos a “X” y el otro de 50 000 sin esa exposición. ambos pueden explicarse a partir de un diseño de cohorte. es decir. el riesgo relativo sería igual a RR = = xi i =1 N 2 DISEÑOS EPIDEMIOLÓGICOS ANALÍTICOS N N μ) 2 i =1 N no enfermaron durante ese año (controles). una muestra total de 16 608 sujetos. entre los expuestos a “X”. 30 enfermaron de diabetes mellitus en el transcurso de un año. el tamaño de cada grupo sería de 8 804. y que fuera capaz de identificar un odds ratio igual o mayor de 3. A cada sujeto en estudio le preguntaría si estuvo expuesto a “X” o no. sólo demandaría 80 casos y 8o controles. © Editorial El manual moderno Fotocopiar sin autorización es un delito.4% no expuestos). Datos hipotéticos de un estudio de casos y controles Expuestos a “X” Casos Controles Sí 30 13 No 50 67 209 . una muestra con el mismo nivel de confianza y poder que la calculada para el estudio de cohorte descrito líneas arriba. Como el investigador sólo estudiaría una muestra de los que no enfermaron. 83. y los que primero identifican la condición del evento y luego buscan la condición de exposición (estudios de casos y controles). En estas condiciones. a partir de los cuales podría calcular el odds ratio mediante = ad 30 67 = = 3. pero que sí está muy próximo. De ellos. Mediante este diseño. Asumamos que. tendría que seleccionar 80 controles entre los 59 920 sanos (16. el investigador podría utilizar un diseño de casos y controles donde captaría a los 80 enfermos (casos) que se presentan durante un año en la población de estudio y los compararía con una muestra de los que Cuadro 25-1. 30 / 10000 =3 50 / 50000 Si un investigador tuviera interés en estudiar esa asociación en la población con un diseño de cohorte por medio de dos muestras del mismo tamaño (una de expuestos y otra de no expuestos). ensayos clínicos).09 bc 13 50 un resultado que no es igual al obtenido mediante el riesgo relativo. Con estos datos podría presentar los números que se muestran en el cuadro 25-1. con una confianza de 95% y un poder de 80%. encontraría 80 casos: todos los que enfermaron durante el año de estudio en la población de interés a la que se refiere este ejemplo explicativo. Al realizar su estudio.N xi i =1 25 Análisis estratificado y regresión logística ( xi Los diseños analíticos básicos en epidemiología son dos: los que primero identifican la condición de exposición y luego miden la frecuencia del evento (estudios de cohorte. A pesar de que el proceso muestral de estos diseños es diferente. Si la muestra de 80 controles sigue las leyes de la probabilidad. Por otra parte.0. 000 OR 1. es necesario revisar con cuidado el cuadro 25-2.033 0.583 1. pero.03 0.083 13.000 30.000 5. Obsérvese que.000 1.0.064 3.333 0.30 0. cuando la frecuencia del fenómeno (incidencia o prevalencia) en expuestos y no expuestos es la misma.000 OR 0. Frecuencia en no expuestos . 2.667 2.278 0.574 1.10 0.000 1.15 0.750 1.20 0.750 42.100 0.000 6.333 OR 0.000 4.024 0. de tal manera que las variables y sus categorías estén acompañadas de las Cuadro 25-2.353 4.250 0.702 2.333 5.255 0.091 0. Para entender la relación que existe entre ambos números.000 3.20 0.000 1. particularmente cuando los dos estimadores se alejan de 1. Relación numérica entre riesgo relativo y odds ratio 0.000 6.000 1.485 0.750 1.125 0.06 0.765 3.250 3.250 0.200 0.600 1.500 0.000 8.40 RR 1. que mostrará la fuerza de asociación que existe entre la variable independiente y la variable dependiente.556 RR 0.000 3.444 0. donde el investigador tratará de mostrar que los dos grupos en el estudio son comparables.211 6.333 0.0.741 2.600 1.667 10. Por otro lado. Siempre que la frecuencia del fenómeno estudiado en los grupos es diferente.333 1.150 0.149 0.000 1.706 1.15 0.03 0.000 10.857 21.000 RR 0.079 0.667 OR 0. el odds ratio puede ser muy diferente al riesgo relativo.167 0.300 0.375 0. Análisis inicial.471 24.143 12.298 0.05 0.667 OR 0.412 0. Para hacerlo.333 OR 0.05 0.30 0.857 6.167 0. que busca identificar interacciones o ajustar factores de confusión que pudieran influir en los resultados.000 OR 0.000 3.000 6.000 OR 0.714 10.096 0.500 2.667 RR 0.000 1.917 6.192 0.259 0.714 2. el odds ratio estará más alejado de 1.333 2. algunos investigadores los utilizan indistintamente.667 2.588 2.10 0.200 2. los dos números son muy semejantes. cuando el fenómeno estudiado es frecuente.000 OR 0. el riesgo relativo y el odds ratio tienen el mismo valor: 1. los dos estimadores son diferentes pero muy cercanos.500 0.123 0.000 1.362 0.319 11.556 RR 0.706 8.667 1.000 6.000 1.588 1. Análisis inicial Esta primera etapa del análisis consiste básicamente en mostrar que los grupos son comparables.211 0.833 1.825 1.643 1.000 © Editorial El manual moderno Fotocopiar sin autorización es un delito.000 1.158 0.500 0.000 3.500 3.500 0.111 3.500 2.000 1. ANÁLISIS DE DATOS El análisis de los datos obtenidos en un estudio epidemiológico analítico se desarrolla en tres etapas: 1.417 2.175 0.01 0.000 15.000 2.06 0.000 1.100 0. 3.200 0.40 Frecuencia en expuestos 0.444 RR 0.150 0.213 2.474 0.000 20.210 Bioestadística ODDS RATIO COMO UNA APROXIMACIÓN AL RIESGO RELATIVO Es necesario hacer notar que el odds ratio no es igual al riesgo relativo.667 RR 0.429 3.327 1.000 17.072 0.333 5.046 0.400 0.067 0.375 0. Cuando la frecuencia es diferente pero el evento es raro.057 0.265 0. Análisis crudo.075 0.000 1.000 40.01 0. Análisis multivariado.667 1. cuando se cumplen ciertas condiciones. La mayoría de los epidemiólogos considera que un evento es raro cuando la frecuencia del fenómeno es menor de 10%.124 0.300 0.015 0.778 RR 0.000 RR 0.500 0.167 0.429 66. Por ello.200 0.000 13. las frecuencias se presentan de manera tabular.025 0.040 0.750 8.000 3.630 1.050 0.0 que el riesgo relativo.000 4.593 5.000 1.000 1.062 5. La tendencia actual favorece la presentación de los intervalos de confianza en lugar de los valores de significancia.0 60 60.0 41 41.05).05). 2.0 Medio 15 30. el cuadro 25-4 muestra que los grupos de enfermos y no enfermos tienen grandes diferencias en sus porcentajes para las tres variables tabuladas (en algunas categorías. podrían confundir la asociación entre éste y la variable dependiente.0 54 54.0 10 10. RA) o la razón (riesgo relativo. Los porcentajes del cuadro 25-3 nos hacen ver que. la diferencia es superior a 15. procedemos de la siguiente manera: 1. Presentación de datos de un estudio de casos y controles Variable Enfermos No enfermos n % n % Masculino 35 70.0 Medio 14 28.0 59 59.0 20 a 29 10 20. los grupos que se están comparando (enfermos. no]). entonces tendríamos dos cuadros 2 x 2.0 27 27. pero se le agregan dos columnas más. pero cuando no se puedan calcular intervalos de confianza. Algunos investigadores suelen acompañar este cuadro con intervalos de confianza o con valores de significancia. Definimos la asociación a estudiar mediante la identificación de una variable independiente o factor de riesgo (como consumo de tabaco durante el embarazo [sí. OR) en que se basa la estimación y otra para los intervalos de confianza. 211 Cuadro 25-4. Sin embargo. pero no en cuanto a sus frecuencias absolutas y relativas.0 46 46.0 Grupo de edad Nivel socioeconómico Alto 15 30. y las pequeñas diferencias observadas no son estadísticamente significativas (p > 0. Cada uno de estos cuadros de contingencia se designará como estrato. Los datos también se presentan de manera tabular.0 19 19.Análisis estratificado y regresión logística frecuencias absolutas y los porcentajes de columna para cada categoría de la variable dependiente. Si se tuviera interés en estratificar por una variable que tenga dos categorías.0 Bajo 20 40. uno para cada nivel de la covariable: el estrato 1 estaría formado por todos los sujetos que tengan la categoría “0” de la covariable y en el estrato 2 estarían todos los . como se muestra en el cuadro 25-6. una prueba de significancia (chi-cuadrada) en las variables del cuadro 25-4 mostrará que las diferencias observadas no son estadísticamente significativas (p > 0. como en el cuadro 25-3. se podrán presentar los valores de p. En la segunda etapa del análisis.0 30 30.0%).0 40 a 49 23 46. no]) y una variable dependiente o efecto (como producto con bajo peso al nacer [sí.0 Femenino 20 40. Presentación de datos de un estudio de casos y controles Enfermos n No enfermos % n % Sexo Masculino 30 60. Ejemplo explicativo 25-2 Compárense los cuadros 25-3 y 25-4: los dos cuadros son semejantes en cuanto a las variables descritas. Si estas tres variables (sexo. Para hacerlo. Análisis crudo © Editorial El manual moderno Fotocopiar sin autorización es un delito. De hecho. RR. como se muestra en el cuadro 25-5: una para mostrar la diferencia (riesgo atribuible. grupo de edad y nivel socioeconómico) estuvieran asociadas con el factor de riesgo.0 54 54.0 40 a 49 26 52. Con estas dos variables se conforma un cuadro de contingencia 2 x 2.0 Análisis ajustado mediante estratificación El análisis estratificado se puede realizar cuando la variable dependiente es dicotómica y las variables independientes son cualitativas (casi siempre nominales). el objetivo es mostrar la fuerza de asociación que existe entre una variable independiente y Cuadro 25-3.0 60 60. en lo referente a sexo. no enfermos) son muy semejantes (las diferencias entre uno y otro grupo no van más allá de 3%). no obstante. en ocasiones pueden distraer del objetivo que tiene este primer cuadro.0 Alto 15 30.0 Femenino 15 30. tal como se muestra en el cuadro 25-3. pero no es absolutamente necesario.0 30 a 39 14 28.0 Sexo Grupo de edad Nivel socioeconómico una variable dependiente.0 Bajo 21 42. odds ratio.0 30 a 39 15 30.0 33 33.0 39 39. grupo de edad y nivel socioeconómico.0 28 28. Luego se tabulan los datos de tal manera que se presente un cuadro de contingencia para cada categoría de la covariable (o combinación de covariables) de interés.0 20 a 29 12 24. Entre las variables que se exploran en esta etapa del análisis se encuentran las características sociodemográficas y algunas otras variables que no se incluyen en el objetivo principal del análisis.0 15 15.0 25 25. Si los dos estimadores son semejantes.9 1. Se considera que la interacción es estadísticamente significativa cuando p 6. se procederá a comparar los estimadores crudo y ajustado.5 para RA.2 a 8.1 1. 1. Continuamos evaluando las interacciones entre covariables.0 n % n % ≥ 20 años 99 66. Al evaluar la interacción. se considera que existe confusión cuando la diferencia entre la estimación cruda y la ajustada es mayor de 10%.9 para RR y 25. Por otra parte. el tercero por la categoría “0” en la covariable “A” y la categoría “1” en la covariable “B”. el segundo estrato por la categoría “1” en la covariable “A” y la categoría “0” en la covariable “B”.4 77 < 20 años 50 33. Acomodo de datos para un análisis estratificado de tres variables con 2 2 4 celdas Estrato 1 Estrato 2 Exposición Enfermo No enfermo Exposición Enfermo No enfermo Sí a1 b1 Sí a2 b2 No c1 d1 No c2 d2 Estrato 3 Estrato 4 Exposición Enfermo No enfermo Exposición Enfermo No enfermo Sí a3 b3 Sí a4 b4 No c3 d3 No c4 d4 © Editorial El manual moderno Fotocopiar sin autorización es un delito.9 5.212 Bioestadística Cuadro 25-5. al igual que los de RR y OR. se considerará que la covariable confunde la asociación. Si se descarta interacción.0 . Las estimaciones ajustadas podrán presentarse en el mismo cuadro que las estimaciones crudas.3 No fumadora 60 40. Las estimaciones ajustadas de RR y OR se pueden calcular mediante varios procedimientos. RR u OR. concluiríamos que existe interacción y los estimadores de cada estrato deberán presentarse por separado.2 a 3.3 118 78. Sin embargo. dirigimos nuestro interés a las estimaciones de interés (RA.3 28 18. para lo cual Cuadro 25-6. RR. 3. que podrá ser RA.0 Sí 60 40. de los cuales el de Mantel-Haenszel (fórmula 25. Para el caso de RR y de OR. Los estadísticos calculados para cada estrato se ponderan mediante un estimador ajustado. entonces aumentaría el número de estratos en la misma cantidad que el número de categorías de la covariable. El ajuste de RA. se puede realizar mediante el método directo (fórmula 25.6 para RR y 25. 4.0 49. Presentación de datos de un estudio de casos y controles Variable Casos Controles OR IC 95% 51.5 1. si los dos estimadores son sustancialmente diferentes. Este criterio no se aplica al análisis con RA. sujetos que tuvieran la categoría “1” de la covariable. Si la covariable tuviera más de dos categorías. se considerará que la asociación entre la variable independiente y la variable dependiente no está confundida.7 33 27. Para hacerlo.21 para OR). entonces el primer estrato estaría formado por la categoría “0” en cada covariable.9 2. 7.5 3.8 < 12 g/día 114 76.4 a 5.6 136 90.0 1. lo hacemos mediante una prueba chi-cuadrada (fórmula 25.1 1.1 para RA. si quisiéramos estratificar por dos covariables dicotómicas.0 No 89 59.7 123 81. Para cada estrato se calcula el estadístico de interés.6 74 Edad Tabaco Fumadora 89 59.4 Gen 5. 25. OR) en cada estrato: si fueran muy diferentes.5 15 9.0 1.0 1. 25.0 3.13 para RR y 25. y el cuarto estrato por la categoría “1” en las dos covariables.8 Consumo de alcohol ≥ 12 g/día 35 23.14 para OR) es el más conocido.17 para OR).8 a 5. 15) ) donde / 2 EE(ln RRMH ai (ci di ) ni / 2 EE(ln ORMH (25.3) s = (25.13) s i =1 i =1 2 Var [ln( RRi )] Prueba de interacción s ln( RRDirecto )] /2 s wi 2 n 1 (25.5) Var ( RAi ) donde%RAi! =1/wi RR mediante Mantel-Haenszel RRMH ORMH e ± Z1 ai n0i n = i =s1 i bi n1i i =1 ni s ) i =1 i =1 ci (ai bi ) ni (25. o bien podrían presentarse en un cuadro separado.7) cuando ( ai + ci )(ai + bi )(ci + di ) s PR 1 1 EE (ln ORMH ) = donde s (25.16) .12) i =1 [ln( RRi ) i =1 Z1 /2 s Prueba de interacción 2 n 1 RADirecto ± Z1 wi Intervalo de confianza © Editorial El manual moderno Fotocopiar sin autorización es un delito. 213 RR mediante ajuste directo s wi ln ( RRi ) i =1 s (25.11) Intervalo de confianza wi = EE (ln RRMH ) = ai / ai + bi ci / ci + di RRi = wi i =1 + ( PS i i + Qi Ri ) i =1 s s Ri 2 i =1 Si i =1 s Q1S1 + i =1 2 s Si 2 i =1 (25.4) i =1 [ RAi s = RADirecto ] donde Var [In(RRi)]=1/wi OR mediante Mantel-Haenszel ai di n = i =s1 i bi ci i =1 ni ORMH 2 (25.Análisis estratificado y regresión logística se tendrían que agregar dos columnas más (una para los estimadores ajustados y otra para sus intervalos de confianza).10) s wi ln( RAi ) i =1 (25.14) Intervalo de confianza s s (25.9) w RRDirecto = e i =1 donde wi = Fórmulas para el análisis estratificado RA mediante ajuste directo 1 ci d + i ai ni bi ni (25.6) Intervalo de confianza ORMH e ± Z1 (25. En cualquiera de los dos casos será necesario que en las notas al pie de cuadro se definan las covariables que están incluidas en el estimador ajustado.8) Qi = (bi + ci ) / ni Ri = ai d i / ni Si = bi ci / ni 2 s Ri i =1 Pi = (ai + di ) / ni ai ci ni / ni2 i =1 2 (25.1) s RADirecto = e donde 1 ai bi ci di + (ai + bi )3 (ci + di )3 RAi = ai ai + bi (25.2) ± RRDirecto e ci ci + di (25. (25. 18) Interacción ai di bi ci (25. RR o OR) que se esté utilizando. o inicial. no es estricto.58 OR crudo 5.80 en el primero. se comparará con el estimador ajustado (que tomará en cuenta al posible factor de confusión).99 RR crudo 3.00 © Editorial El manual moderno Fotocopiar sin autorización es un delito.27 0. En este caso. ya que diferencias porcentuales menores pueden ser consideradas como evidencia de confusión cuando se sabe (por estudios previos) que ésta se asocia con la exposición (variable independiente) y con el efecto (variable dependiente).Bioestadística OR mediante ajuste directo s wi ORi (25. y no debe ser un eslabón intermedio de la cadena causal entre la variable independiente de interés y la variable dependiente. Estrato 2 Total RA 0. Este criterio. 214 .80 OR 3. Por otra parte. Cuando los dos estimadores (crudo y ajustado) sean semejantes. Cuando no se identifica interacción para uno de ellos. se podrá concluir que sí existe confusión. se considerará que no existe confusión. la evaluación de la interacción será diferente según el estimador (RA. el estimador crudo. una gran cantidad de investigadores consideran que la diferencia porcentual entre ambos estimadores deberá ser de 10% o mayor. aunque no es el mismo para cada estrato (1.00 Sí 112 200 RA 0.24 RR ajustado 2.19 0. el factor de confusión deberá estar asociado con la variable dependiente y con la variable independiente. cuando los dos estimadores sean diferentes. la interacción Cuadro 25-7.21) donde Var [In(ORi)]=1/wi CONFUSIÓN E INTERACCIÓN CUANDO LA VARIABLE DEPENDIENTE ES DICOTÓMICA En términos generales. sin embargo.05. Análisis estratificado que muestra interacción para el estimador OR Enfermedad sí no sí 150 100 No 500 1000 Exposición Estrato 1 Confusión El concepto de confusión con variables dependientes dicotómicas es semejante al descrito para el caso de la regresión múltiple (capítulo 24). ya que también se refiere al hecho de que la asociación entre la exposición y el evento final de estudio pudiera variar según la presencia y/o magnitud de un tercer factor.17) i =1 s ORDirecto = e w i =1 donde wi = 1 1 1 1 1 + + + ai bi ci di ORi = (25.50 Sí 262 300 No 1009 6000 RA crudo 0. para que una covariable confunda la asociación entre la variable independiente y la variable dependiente. el concepto de interacción con variables dependientes dicotómicas es semejante al descrito para el caso de la regresión múltiple (capítulo 24). Para el caso de RR y de OR.32 P de interacción RA ajustado 0.56 0.27 No 509 5000 RR 3.19) Intervalo de confianza ± Z1 /2 s (25.89 en el segundo). Así. Sin embargo.19 OR ajustado 4. El primero se refiere a los datos de una investigación ficticia que tiene el mismo RA para cada estrato (RA = 0.89 OR 5. ante un mismo grupo de datos. Esta conclusión coincide con la que se obtendría al comparar el riesgo relativo que.27). 3.27 RR 1. Al igual que para la regresión múltiple. 25-8 y 25-9. 2 (25. con frecuencia se presenta para uno o dos de los restantes.20) wi ORDirecto e i =1 Prueba de interacción 2 n 1 = s i =1 [ln(ORi ) ln(ORDirecto )] Var [ln(ORi )] En este momento del análisis surge la pregunta: ¿qué tanto tendrán que ser diferentes los estimadores crudo y ajustado para asegurar que existe confusión? Esta pregunta no siempre es fácil contestar. la significancia de la interacción será mayor de . A manera de ejemplo se presentan los cuadros 25-7. Cada cuadro muestra sus estimaciones de OR y RR.Análisis estratificado y regresión logística 215 Cuadro 25-8. a la de RR. porque la escala de OR no siempre es igual.50 para el segundo).19 p de interacción RA ajustado 0. mientras que el RR y el OR son razones donde el criterio de interacción es multiplicativo.01). al parecer caótico.33 1. abra el archivo Bioestadística_3ra y seleccione la tabla Bio3_25a. sí no sí 150 100 RA 0. pero sí para uno o dos de los otros. 6-2”. así como sus intervalos de confianza y pruebas estadísticas. se explica con facilidad al notar que los tres estimadores se calculan de manera diferente: el RA se calcula mediante una sustracción. en la ventana de resultados podrá encontrar un cuadro 2 x 2 (GEN y CASO) para cada estrato de TABACO.80 OR 3. Para hacerlo en “Analyze Data”. 5. Además. y el criterio de la interacción es aditivo. los cuadros 25-8 y 25-9 muestran otros dos estudios donde RR u OR se mantienen constantes para 1.00 Cómo hacerlo en Epi Info.02 Cuadro 25-9.00 RR crudo 2. Para realizar el análisis estratificado. cuando se toma en cuenta el OR de cada estrato (3.09 sí 120 500 no 602 5000 sí 270 600 no 1102 6000 RR 1.00 0.00 6000 0.54 OR 3. aunque se evalúan en la misma escala multiplicativa. que representa los datos de un estudio de casos y controles. Análisis estratificado que muestra interacción para los estimadores RA y OR Enfermedad Exposición Estrato 1 Estrato 2 Total sí no sí 150 100 RA 0. como podría ser “TABACO” en “Stratify by”. Este comportamiento.27 no 500 1000 RR 1. Para calcular el OR crudo. uno para el estrato “0”. Análisis estratificado que muestra interacción para el estimador RA Enfermedad Exposición Estrato 1 © Editorial El manual moderno Fotocopiar sin autorización es un delito. Para nuestro ejemplo serían tres cuadros.00 RR crudo 2.00 OR ajustado 3. De manera semejante. seleccione nuevamente el comando “Tables” para definir las variables de interés: “ARGON” como “Exposure Variable” y “CASO” como “Outcome Variable”.13 OR crudo 3.00 RA 0. definimos una o varias variables. proceda como se describe en “Cómo hacerlo en Epi Info. o próxima.33 RR ajustado 2.14 no 500 5000 RR 2.00 Total sí 300 600 no 1000 RA crudo 0. el análisis estratificado puede realizarse de dos maneras: en “Analyze Data” o en “StatCalc”. otro para el estrato “1” y otro para el estrato “2” de la covariable “TABACO”. Ventana de opciones de la orden “Tables”. Sin embargo.00 no alcanza a ser estadísticamente significativa para el tamaño de muestra que se presenta.80 OR 1. sí 150 500 RA 0.79 1.16 0. entre al módulo.16 p de interacción RA ajustado 0. RA crudo 0. 25-1 En Epi Info. pueden ser diferentes.99 Figura 25-1.80 OR 3. Estrato 2 cada estrato y no existe interacción para esos estimadores. las que después de ser seleccionadas se podrán observar en la ventana que se encuentra debajo de esta opción (como se aprecia en la figura 25-1).00 para el primero. Estos dos.27 no 500 1000 RR 1.00 RR ajustado 1. Después de estos cuadros se .80 OR crudo 2. concluimos que sí existe interacción (p < .11 0.45 OR ajustado 2. Al hacer click con el ratón en “OK”. 6276 1. Al introducir los datos en todos los estratos. los únicos estimadores que podemos tomar en cuenta para este ejemplo serán los de OR. así como sus intervalos de confianza.7845 (R) 3. Como se supone que los datos proceden de un estudio de casos y controles. hacemos clic en la ceja “Strata 2” y anotamos los datos del segundo estrato (figura 25-4). Las estimaciones crudas y ajustadas del RR. 5. Las pruebas estadísticas (tests estadísticos) chicuadrada para la significancia del análisis estratificado. R=RGB. después de anotar las frecuencias de cada celda en el primer estrato. 4. obtenemos los resultados que se muestran en la figura 25-3. Figura 25-3.9413 1.1084 1.2155 (F) Crude Risk Ratio (RR) 1. Ajusted OR (MLE) 3.0502 1. calculadas con varios procedimientos diferentes.0713 1. 5.1836 (F) Ajusted OR (MH) 2.8082. 216 .0254 (T) 2.9272. El análisis estratificado también puede realizarse en el módulo de Statcalc. Las estimaciones crudas y ajustadas del OR.0489 0.uncorrected 21.5880 1. donde encontraremos: Point 95%Confidence Interval Estimate Lower Upper Crude OR (cross product) 3. Al comparar las figuras 25-2 y 25-5.Bioestadística SUMMARY INFORMATION mostrará el resumen del análisis (figura 25-2).0450 (M) 1. calculadas con varios procedimientos diferentes.corrected 19. Crude (MLE) 3. e ignoraremos los de RR.0000 MH Chi-square . Luego.1150 1. M=Exact mid-P. Análisis ajustado mediante regresión logística La regresión logística es uno de los procedimientos estadísticos más utilizados por los investigadores epidemiológicos © Editorial El manual moderno Fotocopiar sin autorización es un delito. Parameters 2. Odds Ratio Estimates Risk Ratios (RR) (T=Taylor series. Para el segundo estrato.0000 Figura 25-2. 6-2” hasta que. notará que presentan resultados muy semejantes (aunque no necesariamente iguales). 5. Para hacerlo.2299.2602.8236. así como sus intervalos de confianza. 2. se notará que el programa mostrará el resumen de resultados (“Summary Results”). 2. F=Fisher exact) STATISTICAL TESTS (overall association) Chi-square 1-tailed p 2-tailed p MH Chi-square . se procede de manera semejante a lo revisado en el inciso tres de “Cómo hacerlo en Epi Info.8792 0. Ventana de resultados de la orden “Tables”.8781. 5.9309. Primer estrato.1021 Adjusted RR (MH) 1. hacemos clic en el siguiente estrato para completar los datos (figura 25-5). y probablemente lo seguirá siendo por muchos años más en este siglo XXI. La manera en que se utiliza tiene muchos elementos comunes con la regresión múltiple.Análisis estratificado y regresión logística 217 © Editorial El manual moderno Fotocopiar sin autorización es un delito. . Tercer y último estrato. Segundo estrato. La regresión logística se utiliza con mucha frecuencia para analizar datos cuando las variables dependiente e independiente son dicotómicas y han sido codificadas como “1” cuando los sujetos tienen la característica de interés y “0” cuando no la tienen. aunque la regresión logística tiene particularidades importantes que la distinguen y le dan su propia personalidad. Figura 25-4. Dada la complejidad de las operaciones que el procedimiento demanda. y constantemente nos estaremos refiriendo a lo descrito en el capítulo 24. Figura 25-5. en las últimas dos décadas del siglo XX. para el cálculo de los coeficientes de la regresión se utiliza un programa de cómputo como Epi Info. Como puede observarse en la figura 25-9. M=Mid-P. En la ventana de diálogo que se despliega.E. 3. a medida que el valor de z aumenta Un elemento fundamental de la regresión logística es la función logística f ( z) = 1 1+ e z (25.2602 15.8559 1 0.1177 1. porque este modelo establece un umbral de riesgo que puede aplicarse a una gran variedad de condiciones de salud-enfermedad.corrected (Yates) 21. Pruebas de hipótesis del modelo en conjunto.00% Row% 91. Figura 25-8. La forma de la función logística es otra de las características que la han hecho muy útil para el análisis multivariado en epidemiología. Estadísticos del procedimiento propiamente dicho.I. cualquier cantidad asignada a z se transformará en un número entre 0 y 1.F.33% 100.1362 0.1856 0. donde se aprecia que cuando z es igual a menos infinito el valor de f(z) es igual a 0. 4.0000 Figura 25-7. 6.uncorrected 23.0000016706 Fisher exact 0. podrá encontrar lo siguiente en la ventana de resultados (figura 25-7): 1. Si el mismo análisis lo realiza con el comando “Tables”.1836 (T) PARAMETERS: Risk-based Risk Ratio (RR) Risk Difference (RD%) 1. Significancia estadística de los coeficientes. Valor de z.00% 100. 5.0000039223 Mid-p exact 0.0253 1. Intervalo de confianza de 95%.1084 1.22) CASO ARGON 0 1 Total 154 519 365 0 70.8781 5. Coeficiente de regresión. 2.00% Row% 8. Ventana del comando “Logistic Regression”.67% 33.1150 3.0254 5.00% Col% Single Table Analysis Point Estimate 995% Confidence Interval Lower Upper PARAMETERS: Odds-based Odds Ratio (cross product) Odds Ratio (MLE) 3. Resultados de la orden “Logistic Regression”.0000026402 Chi-square . 25-2 Para realizar una regresión logística en Epi Info 7.0000026700 Chi-squere .0000 * * * -0.1150 1.00% Row% 100.00% 100. Seleccione la opción “Logistic Regression” en el apartado “Advanced Statistics”. F=Fisher exact) STATISTICAL TESTS Chi-square 1-tailed p 2-tailed p Chi-square .67% 100.1021 38. © Editorial El manual moderno Fotocopiar sin autorización es un delito.0450 5. abra el archivo Bioestadística_3ra y seleccione la tabla Bio2_25a. Odds ratio.0000 CONSTANT Coefficient S. Ésta es una característica muy conveniente cuando se trata de calcular probabilidades.2440 4.50% Col% 200 600 400 TOTAL 66. como es el caso de las estimaciones de riesgo en la investigación epidemiológica. la ventana deberá observarse como en la figura 25-6.218 Bioestadística Unconditional Logistic Regression Cómo hacerlo en Epi Info. donde e denota la función exponencial y z es cualquier $$ Z ^Z $ ecuación. Z-Statistic P-Value Converged Convergence: Iterations: 4 Final-2*Log-Likelihood: 741.9806 0.9272 1.0000025588 0.6566 0.0000034796 Figura 25-6. utilizando “ARGON” como variable independiente y “CASO” como variable dependiente (figura 25-8).9814 0. sus intervalos de confianza calculados mediante Serie de Taylor y la significancia (valor de p) calculada mediante chi-cuadrada sin corrección serán los mismos.5993 (T) (M) (F) (T) (T=Taylor series.8629 0.0000 Likelihood Ratio 21.9612 600 Cases included: P-Value Test Statistic D. En ese momento.21% 56.79% 100. Error estándar de los coeficientes. C=Cornfield.0961 -8. 7. que representa los datos de un estudio de casos y controles.00% 13.6276 27. Term ARGON (Yes/No) Odds Ratio 95% C. MODELO DE REGRESIÓN LOGÍSTICA .00% 86.25% 77.9309 5. seleccione “CASO” en “Outcome Variable” y “ARGON” en “Other Variables”. 3. Al hacer clic en “OK”.75% 23. 8. Resultados de la orden “Tables”.33% 29. llame al módulo “Analyze Data”.1856 1 0.9309 1.1470 0. encontrará que el odds ratio calculado mediante razón de productos cruzados. Score 23.Mantel-Haenszel 23.50% Col% 46 35 81 1 43.6361 2. No obstante.1362(1)) = 0. obtendremos un (25.6 0.+ k X k (25. Diagrama de la función logística. Distribución de frecuencias y porcentajes de renglón en un cuadro 2 × 2 Variable Casos Controles n P (renglón) n P (renglón) Ejemplo explicativo 25-3 ARGON Tomemos el cuadro 25-8.432 × 0.297 365 0. donde los coeficientes son estimados mediante un procedimiento conocido como máxima verosimilitud (o maximum likelihood. Para hacerlo.4 0.297 Como podrá apreciarse. obtenemos el modelo logístico mediante la sustitución z por 0+ 1X1+ 2X2+ kXk. se trate de un diseño de cohorte. mediante el modelo logístico. + k Xk 1 1+e –(–0.. al tiempo que “Y” es la variable dependiente y colocamos sus categorías (caso.5 0.23) ) © Editorial El manual moderno Fotocopiar sin autorización es un delito.703 0. se obtienen los resultados que se muestran en la figura 25-7.568 × 0. 46 × 365 = (25. en inglés). y calculamos las proporciones que corresponden a cada celda según el total de cada renglón. Cuando estos coeficientes son conocidos.8629) + 1.24.0 -15 -10 219 -5 0 5 10 15 z Cuando estos mismos datos se utilizan en una regresión logística. la probabilidad de que en la muestra se seleccione un sujeto que tenga la característica Y = 1 cuando X = 0 será igual a también lo hace el valor de f(z). calcular la probabilidad de que un individuo presente un evento de interés –si la variable dependiente es dicotómica– utilizando la fórmula P(Y = 1| X 1 . NO) en los renglones. control) en las columnas. de modo que f ( z) = 1 1+ e z = 1 1+ e ( 0 + 1 X1 + 2 X 2 +.115 Entonces. obtendremos un arreglo semejante al cuadro 25-10.568 35 0.9 (SÍ. el trazo de la pendiente sigue un patrón semejante hasta que f(z) es igual a 1 cuando z ^Z A partir de la función logística. los resultados de la regresión logística también pueden utilizarse para calcular odds ratios. 1 1+e –(–0.8629) + 1..703 .25) P( y ) donde In se puede leer como “logit de P(y)”. Pero no ocurre así cuando los datos proceden de un estudio de casos y controles. de tal manera que al llegar a z = 0 el valor de f(z) es igual a 0.. Con estos valores y la ecuación 25. Cuando hacemos que “X” sea la variable independiente (ARGON) y situamos sus categorías Sí 46 0. si representamos cada celda con la fórmula para calcular la probabilidad de interés.1362(0)) = 0. sin importar que se utilicen frecuencias absolutas o relativas. recordemos que. el odds ratio se calcula mediante ad/bc. donde el coeficiente de ARGON (1) es igual a 1. podremos calcular la probabilidad de que en la muestra se seleccione un sujeto que tenga la característica Y = 1 cuando X = 1 mediante P(Y = 1 | X = 1) = Figura 25-9..24) ) Una expresión alternativa del modelo logístico se representa mediante ln P(Y = 1 | X = 1) = 35 × 154 = 0. A partir de este punto. X k ) = 1 1+ e ( 0 + 1 X1 + 2 X 2 +. de casos y controles o de estudio transversal.+ k X k P( y ) = 1 P( y ) 0 + 1 X1 + 2 X 2 + . la probabilidad calculada mediante la fórmula 25.8629. De esta manera. al principio muy lentamente hasta que z se encuentra cercano a 0 y la pendiente del gráfico cambia de dirección rápidamente. 1 P( y ) Cuadro 25-10. cuando las frecuencias se acomodan en un cuadro 2 x 2. los resultados en el cálculo de probabilidad son los mismos que los mostrados en el cuadro 25-10.568 De manera semejante..2 0.5.3 0. Cuando los datos proceden de un diseño de cohorte o de un ensayo clínico.8 0. f(z) 0. X 2 ...1362 y el de la constante (0) es igual a -0.0 0...432 No 154 0..24 corresponde a una incidencia acumulada. podemos.7 0.Análisis estratificado y regresión logística 1.297 = 3. para los datos del cuadro 25-10.1 0. 0730+1. Por ejemplo.1569(1)+0.28 podemos calcular el odds ratio para cualquier combinación de exposiciones. a partir del cual podremos calcular el odds ratio mediante = ad = cb e β 0+ β 1X1 1 1 + e β 0+β 1X1 1 + e β 0 e β0 1+ eβ0 1 1 + e β 0+β 1X1 = e β0 + β1 e β0 = e β1 A partir de estos resultados.5648(0)] = e1..1569 = 3.27 y 25.1569 Interpretación de los coeficientes de regresión En la sección anterior.6) el exponente de un coeficiente de regresión logística es igual al odds ratio.220 Bioestadística arreglo como el que se muestra en el cuadro 25-11.1569(0)+0.5648(1)]–[–1.0730+1.1802 = e[–1.0730+1. Este ejemplo puede extenderse para incluir más de una variable independiente en la ecuación.1569(1)+0. k X k .5648(1)] = e1.5648(0)]–[–1. de tal manera que e e 0 + 1 X1 + 2 X 2 +. encontramos que (como conclusión de la ecuación 25. el riesgo de bajo peso al nacer en el grupo expuesto a hipertensión arterial durante el embarazo será igual a (25.1569(0)+0.0730+1. utilizando las fórmulas 25.26) = e[–1.. . . F.1569 0.9616 5. ! donde el nivel de confianza está definido por Z1-/2.0000 Figura 25-10.0000 ALCOHOL (Yes/No) 1. Resultados de la orden “Logistic Regression”.2464 4.7591 1.0730 0.0021 * * * -1.4080 2 P-Value 0.3209 2 0. el intervalo de confianza de 95% sería igual a IC95%: e β±Z1–0.27 es necesario que se cuente con los coeficientes obtenidos mediante regresión logística.28) b Unconditional Logistic Regression 95% C. Y 1 1 1 1+ e 0 ( 0 + 1 X1 ) 1 1+ e ( 0) 0 0 + 1 X1 = e 1+ e = e0 1+ e 0 + 1 X1 0 Z-Statistic P-Value Convergence: Converged Iterations: 4 Final-2*Log-Likelihood: 732.0000 Term Ejemplo explicativo 25-4 Para poder utilizar la fórmula 25. como los que se muestran en la figura 25-10. De esta manera..8651 0. 1 1 1+ e 1 ( 0 + 1 X1 ) 1 1+ e ( 0) = 1 1+ e = 1 1+ e 0 + 1 X1 0 © Editorial El manual moderno Fotocopiar sin autorización es un delito.05/2(SE) = e1.5194 0. se utilizará la fórmula genérica . cuando el análisis no muestra evidencia de interacción.27) 0 + 1 X1 + 2 X 2 +.1802 1.6945 0. límite superior. k X k Límite inferior.1833 3. e0. Estas dos variables fueron codificadas con 1 siempre que: ARGON = SÍ y ALCOHOL = SÍ. e1.E.1210 -8.2464) (25. CONSTANT Coefficient Test Statistic D.1550 1.6740=1. ARGON (Yes/No) Odds Ratio 3. Para obtener los mismos valores. conseguidos a partir de la tabla de datos Bioestadistica3_25a que utilizamos anteriormente en este mismo capítulo.0000 Likelihood Ratio 31.1550. se codificó . Score 32.4961 600 Cases included: Cuadro 25-11.1569±1.6398 = 5. sólo será necesario repetir el ejemplo presentado en “Cómo hacerlo en Epi Info 25-2” seleccionando las variables independientes ARGON y ALCOHOL.2283 2. = Para el cálculo de los intervalos de confianza. En caso contrario..9619.0817 0.5648 0. Antes de continuar es necesario recordar que ea = ea eb (25.96(0.I. Cálculos de probabilidades para cada celda según la fila en un cuadro 2 x 2 X S. donde el asterisco identifica al modelo con el menor número de variables.5 1.0 3. y otra conocida como prueba de Wald. tal como se hace en regresión múltiple (véase capítulo 24). y otro final. la variable numérica podrá transformarse. V D = 2 ln I VF 221 1 2 3 Variable cuantitativa agrupada en 5 categorías 4 0 B 1 2 3 4 Variable cuantitativa agrupada en 5 categorías Figura 25-11. De la función de verosimilitud se calculan dos momentos: uno inicial. Ambos valores son menores de 1. o bien agruparse en categorías y manejarse como variable cualitativa utilizando variables dummy.0 1.5 0. a menos que se decida cambiar el criterio de codificación. Con ambos números se puede calcular la devianza. o D. con base en la distribución normal. Cuando el interés se dirige a una prueba parcial (es decir.0 0. mientras que la figura “B” no tiene linealidad.2 0.4 0.0 2.Análisis estratificado y regresión logística Variables cualitativas y cuantitativas Las variables independientes en regresión logística se manejan de manera semejante en regresión múltiple: • Las variables cualitativas dicotómicas (que sólo tienen dos categorías) se codifican utilizando los valores 1 y 0. Variable cuantitativa agrupada en cinco categorías.6 0. • Las variables cualitativas con más de dos categorías se codifican generando variables dummy. pero no es útil cuando estamos interesados en la evaluación simultánea de la significancia de dos o más coeficientes. En caso contrario. el conjunto de variables dummy que representan una variable ha de entrar y salir del modelo en conjunto.8 0.30 se modifica un poco para incluir las verosimilitudes finales de cada modelo a comparar. Elija la opción “Logistic Regression” y en la ventana de diálogo que se despliega Coeficiente de la regresión 3. VF.31) que se distribuye como 2 con K – K* grados de libertad. como sería el caso de la figura 25-11B. El valor de Z se calcula dividiendo el valor del coeficiente entre su error estándar. tal como se ilustra en la figura 25-11A. .5 2. En estas condiciones. VI. Esta prueba es útil cuando se tiene interés en la significancia de una variable cuantitativa o de una variable cualitativa dicotómica. o R.29 porque frecuentemente los programas de cómputo brindan -2 ln(VI) y -2 ln(VF) en lugar de VI y VF como parte de sus resultados. Mediante la razón de verosimilitud.5 1. La prueba de Wald utiliza el estadístico Z y la distribución normal para probar la hipótesis nula de que un coeficiente en particular. 25-3 Desde “Analyze Data” abra el archivo Bioestadistica_3da y seleccione la tabla Bio3_25a. . en regresión logística se tienen varias opciones de prueba de hipótesis: una basada en la función de verosimilitud.29 también puede escribirse como D = [ 2ln(VI )] 2ln(VF )] (25. La ecuación 25. La figura “A” muestra linealidad. a sólo algunas de las variables incluidas en el modelo). podremos probar la hipótesis nula de que una o más de las variables independientes incluidas en el modelo son iguales a 0.2 1. es igual a 0.30 es más conveniente que la fórmula 25. y VI < VF. como es el caso de una prueba de hipótesis múltiple parcial. asociada a la distribución chi-cuadrada. mediante la fórmula (25. es su distribución.4 Coeficiente de la regresión © Editorial El manual moderno Fotocopiar sin autorización es un delito. Pruebas de hipótesis en regresión logística Al igual que para el caso de regresión múltiple. • Las variables cuantitativas pueden incluirse como tales en el modelo de regresión siempre que muestren una relación lineal con el aumento del coeficiente de regresión. la ecuación 25.0 0 A [ La fórmula 25. 1.30) D = [ 2ln(VF * )] [ 2ln(VF )] (25. Cómo hacerlo en Epi Info. pues lo hace como la variable 2 con k grados de libertad. en términos de una prueba de hipótesis.29) La característica más importante de D. y el resultado se compara con los valores de la distribución normal.0 0. que para este caso tendría la forma Interacción La interacción en regresión logística se evalúa de manera semejante a la realizada en regresión múltiple. procedemos de la siguiente manera: el OR para el grupo no expuesto a GEN ni a ARGON. Cuando éste corresponde a una variable cuantitativa o a una cualitativa dicotómica. Esta nueva variable se agrega al modelo que incluye las variables que se están evaluando. encontraremos dos pruebas de hipótesis del modelo (“Score” y “Likelihood Ratio”). la cual se deberá incluir en el modelo final. a diferencia de la regresión múltiple. la expresión “ARGON*GEN” se agregará a la ventana de “Interaction Terms”. pero no VI. las variables serán resaltadas mediante una barra azul. obtendrá los resultados que se muestran en la figura 25-13. Como el valor calculado es mayor que el valor tabulado. rechazamos la hipótesis nula. los resultados de la misma deberán presentarse señalando el riesgo para cada combinación posible de exposición a las variables incluidas en la interacción.Bioestadística seleccione “CASO” en “Outcome Variable” y “ALCOHOL” y “ARGON” en “Other Variables”. Para el grupo expuesto a GEN pero no a ARGON. como se presenta en el cuadro 25-12. pero es necesario revisar algún texto avanzado de epidemiología para identificar las diferencias conceptuales que existen entre los modelos aditivos y multiplicativos de riesgo. 222 . Es necesario señalar que. porque están incluidas dos variables independientes (ARGON y ALCOHOL). Cuando las dos estén seleccionadas. el resultado de la prueba de Wald es difícil de interpretar. En la ventana de diálogo que se despliega. En caso de que la interacción no sea significativa. En este último caso. seleccione “CASO” en “Outcome Variable” y “ARGON” y “GEN” en “Other Variables”. con 2 el valor crítico de 0. Compare los resultados de la figura 25-10 con los de la figura 25-7 y ponga atención en los grados de libertad. En los resultados de la figura 25-7 sólo se tiene 1 grado de libertad. obtendrá los resultados que se muestran en la figura 25-10. entonces se considera que existe interacción. Al hacerlo. Después de hacer clic en “OK”. En ese momento. con las variables de interés se genera una nueva variable que es el producto de sus valores. Para su elaboración. Cómo hacerlo en Epi Info. una vez que la variable ARGON ya está incluida en el modelo. porque el modelo sólo incluye una variable independiente (ARGON). así como para el grupo expuesto a ARGON pero no a GEN. la variable de la interacción no se incluirá en el modelo final. el botón “Make Dummy” cambiará a “Make Interaction”. Ventana de opciones de la orden “Logistic Regression” que incluye una interacción.0. particularmente cuando la prueba en una de las variables dummy es significativa y en la otra no. Entre los resultados de la regresión logística. la ventana de diálogo se encontrará como lo muestra la figura 25-12. Observe también que los resultados muestran V F (Final-2*log-Likelihood). 25-4 Desde “Analyze Data” abra el archivo Bioestadistica_3ra y seleccione la tabla Bio3_25a.4651. mientras que el modelo de la figura 25-10 tiene dos grados de libertad. 9. el de la prueba de Wald se muestra en la columna “Valor de Z”.95 del Anexo G (que para un grado de libertad es igual a 3. Al hacer clic en “Make Interaction”. que es el grupo de referencia. que se representa en el modelo mediante dos o más variables dummy. Comparamos la diferencia. Después de hacer clic en “OK”. Con este valor se puede probar que la hipótesis nula ALCOHOL es igual a . © Editorial El manual moderno Fotocopiar sin autorización es un delito. Ambas están probando la hipótesis nula 1 = 2 =…= k = . Pero el OR de la interacción GEN*ARGON que presenta la figura 25-12 no corresponde al resultado que se anotará en el cuadro.9612 y le restamos VF =732.84). Para obtener este valor de OR. donde se podrá observar que el coeficiente de la interacción de “ARGON*GEN” si es estadísticamente significativo. tomamos el valor de VF* = 741. es 1. Elija la opción “Logistic Regression” en “Advanced Statistics”. es necesario utilizar la fórmula 25-27. Cuando el análisis multivariado muestre que existe interacción entre dos o más variables. tomamos los OR y sus intervalos de confianza de los resultados de la figura 25-12. Para los fines del modelo matemático no existen más implicaciones. No ocurre así cuando la prueba de hipótesis se realiza con una variable cualitativa con más de dos categorías. Es decir.4961. Figura 25-12. Si el coeficiente de la nueva variable que resultó del producto de las otras es significativo. Luego haga clic en las etiquetas “ARGON” y “GEN” en la ventana de “Other Variables”. Al final de los resultados mostrados en la figura 2510. en la regresión logística la interacción que se evalúa está en una escala multiplicativa y no aditiva. Para hacerlo. el resultado es semejante al obtenido mediante la comparación de verosimilitudes. Este problema puede simplificarse si se aborda de otra manera.3636 0.Análisis estratificado y regresión logística 223 Unconditional Logistic Regression 95% C. la nueva variable podrá incluirse en un modelo multivariado que permita identificar y controlar otras variables que podrían confundir su asociación con la variable dependiente.7020 2. y 3 para ARGON = sí. GEN = no.F.3926 0. por ejemplo) donde definiremos cuatro categorías: 0 para ARGON = no.9).9405 2. es semejante al de la regresión múltiple y al expresado líneas arriba en relación con el análisis estratificado.3620 1.E.1877 3 0.3495 0.I.1027 53. creada a partir de las variables ARGON y GEN.7308 * CONSTANT Coefficient * * S.0043 -1.3) y sus intervalos de confianza de 95% (13.7.9428 4.1221 -10. 2 para ARGON = no.3926 0.2145 6.6 a 6. Figura 25-13.5069 0. Su cálculo es algo más complejo.4 0.5880 6.3925 0.8267 2.1221 -10.3495 0. Confusión El concepto de confusión. Para identificar un factor de confusión.9474 0. Si ambos coeficientes son semejantes.0000 Term ARGON (Yes/No) * GEN (Yes/No) 10.I. Resultados de la orden “Logistic Regression” que incluye una interacción.1877 3 0. se Unconditional Logistic Regression 95% C. Luego realizamos la regresión logística sustituyendo las variables ARGON y GEN por la nueva variable ARGON_GEN. que deberá definirse por medio de variables dummy.7384 5. ARGON_GEN(1/0) Odds Ratio 1.3 a 247.9 2. El intervalo de confianza para el OR de la interacción que se aprecia en el renglón ARGON(Yes/No)*GEN(Yes/No) tampoco corresponde. Es necesario recordar que esta variable (ARGON_GEN).7020 2.9 Test Statistic D. y que de ella no se pueden eliminar categorías sin cambiar la codificación de las variables originales.0549 600 Cases included: Test Statistic D.0000 Likelihood Ratio 103.2934 ARGON No vs Yes at GEN=No © Editorial El manual moderno Fotocopiar sin autorización es un delito. entre los que se podrá identificar el OR de la interacción (58.0000 -1.0000 Score P-Value Figura 25-14.7621 3 0.3434 GEN (Yes/No) 3.2145 6.E. 1 para ARGON = sí.0 Sí Sí 58. 103.7624 0. Z-Statistic P-Value 2.2627 0.0660 0. Los resultados de la regresión logística se muestran en la figura 25-14. GEN = sí.3383 0.F.3434 Convergence: Converged Iterations: 6 Final-2*Log-Likelihood: 660. GEN = sí.3713 0.0000 Term ARGON_GEN (3/0) * CONSTANT Cuadro 25-12. podemos generar una nueva variable (que podrá llamarse ARGON_GEN.7181 0.5880 6.9405 2.2627 0.7624 0.0156 0. Para obtener el intervalo de confianza que nos haría falta en el cuadro 25-12.7621 3 0. Z-Statistic P-Value 0.3311 0.0000 1.0000 Convergence: Converged Iterations: 6 Final-2*Log-Likelihood: 660.0000 Score P-Value Odds Ratios for ARGON * GEN Interaction Label Estimate 95% Confidence Limits 0.3925 0.7204 247.3256 13. Cuadro de resultados que muestra los OR de la interacción y sus intervalos de confianza de 95% * Coefficient * S.3311 0.9474 ARGON_GEN (2/0) 3. así como el control de las variables que la introducen. ha ingresado a la ecuación como una variable dummy. 103.0676 0.8 No Sí 3. GEN = no.3713 0. De ser necesario.0000 58.4246 ARGON No vs Yes at GEN=Yes 0.6292 2.7 a 2.0 IC 95% Sí No 1. es necesario comparar el coeficiente de la variable posiblemente confundida de dos modelos: uno que no incluye el posible factor de confusión y otro que sí lo incluye. principalmente porque la fórmula para hacerlo incluye algunos valores de covarianza que pocos programas de cómputo proporcionan (Epi Info no los incluye). 247.3 13. Resultado con la variable ARGON_GEN que se formó con las variables ARGON y GEN para estimar los intervalos de confianza de la interacción.0000 Likelihood Ratio 103.3383 0. ARGON (Yes/No) Odds Ratio 1.8589 0.0549 600 Cases included: Exposición a ARGON GEN OR No No 1.0000 1. . e incluyen la comparación de los grupos estudiados. sólo tenemos interés en estudiar la relación de una variable independiente con una variable dependiente. El primer criterio se basará en la significancia estadística y se identificará mediante las pruebas de Wald o las razones de verosimilitud. con el objetivo de mostrar que son comparables o de identificar sesgos potenciales. presencia del gen en estudio (GEN). Luego es necesario explorar la interacción que pudiera existir entre variables. Para hacerlo. al menos. Las variables incluidas en esta base de datos tienen los siguientes códigos: enfermo (CASO). 224 . 0 = mujer. Para definir la lista de variables candidatas. el modelo estará formado por las dos variables de interés (independiente y dependiente) y por aquellas covariables que interactúen o confundan a la variable independiente. si la diferencia entre los dos coeficientes es distinta. A estas variables también se deberán agregar aquellas que tengan alguna importancia en relación con la variable dependiente o con las variables independientes más importantes. 0 = no. se deberán considerar todas aquellas que tengan un nivel de significancia menor de 0. Concluimos evaluando la bondad de ajuste del modelo. sobre todo a su linealidad. Las siguientes etapas corresponden a la identificación de las variables que se incluirán en el análisis. a menos que el investigador decida modificar su codificación. 2 = fumador activo. Con frecuencia. 0 = no. 1 = sí. y el análisis crudo. • Identificación de las variables que se incluirán.Bioestadística considerará que no existe confusión. se identificarán las variables que tengan una importancia estadísticamente significativa en el modelo. Se considera que una diferencia cercana o mayor de 10% en el cambio del coeficiente indica confusión. Sin embargo. el modelo se podrá construir agregando variables a partir de aquella que muestra la mayor asociación. Por lo pronto. la excluiremos del análisis en nuestro ejemplo. Además. en los términos descritos en la sección de “Variables cualitativas y cuantitativas”. retirar aquellas que muestren la menor asociación. 0 = no. Al igual que para el caso de la regresión múltiple. Supongamos que nuestro interés primario es describir la asociación de las variables independientes en estudio con la condición de caso. la identificación de factores de confusión y la bondad de ajuste del modelo definitivo. De otra manera. Una vez obtenido el modelo que incluya las variables esenciales. 2 = 45 y más años.72 a 1. 0 = menor de 30 años. exposición al humo de tabaco (TABACO). aunque tengan una asociación estadísticamente significativa con la variable dependiente. podrán ser excluidas del modelo y. Es necesario recordar que las variables dummy formadas a partir de aquellas con más de dos categorías deberán ser incluidas o retiradas en grupo. Ejemplo explicativo 25-5 Consideremos los datos de la tabla Bio3_25a del archivo Bioestadistica_3ra con los que se han presentado los ejemplos de este capítulo de cómo hacerlo en Epi Info 7.25 del cuadro 25-13 nos hace ver que la variable “ALCOHOL” pierde su significancia estadística (pasa de p = 0. 1 = 30 a 44 años. sexo del paciente (SEXO).0025 en el modelo bivariado a p = 0. En otras palabras. • Después de definir la lista de variables candidatas para el modelo multivariado. 1 = sí. 1 = sí.03 (una reducción de más de 10%). Este cambio podría ser explicado porque la variable ALCOHOL es confundida a causa de alguna de las otras variables del modelo. dos aspectos: la significancia estadística y la probable confusión que introduzcan en las asociaciones de interés. deberemos prestar atención a las variables cuantitativas.25. se considerará que sí existe confusión y la variable confundidora deberá mantenerse en el modelo de regresión logística independientemente de la significancia estadística que muestra la variable que confunda. se deberán tomar en cuenta. e independientemente del criterio anterior.9178 en el modelo multivariado) y su estimación de riesgo (mediante OR) pasa de 1. analizarse en otro momento. 1 = fumador pasivo. 0 = no. Más adelante. La agregación o eliminación de variables a partir del modelo inicial podrá hacerse individualmente o en grupo. Después identificamos las variables confusoras. la búsqueda de interacciones. exposición a gas argón (ARGON). el modelo múltiple también deberá incluir aquellas variables que muestran un efecto confusor. 0 = no. sin importar su significancia estadística dentro de él. 1 = sí.25). la obtención de un modelo inicial que incluya las variables pertinentes. Alternativamente se podrá integrar un modelo con todas las variables candidatas y. el análisis multivariado mediante regresión logística implica varias etapas que deben tomarse en cuenta. Aclarado lo anterior. un aspecto importante en relación con las covariables es la colinealidad. esa variable ha • • • • • de incluirse en el modelo. Otras variables. grupo de edad (EDAD). En este caso. si durante el análisis se encuentra que una variable es factor de confusión. alcoholismo (ALCOHOL). poco a poco. • Para seleccionar las variables con las que se definirá el modelo. sólo se convertirá en una excursión de pesca. © Editorial El manual moderno Fotocopiar sin autorización es un delito. quizá. 1 = hombre. • Estrategias de análisis multivariado En este momento es importante destacar que la selección de las variables para un análisis multivariado debe apoyarse en un marco teórico o conceptual coherente. Una regresión logística (figura 25-15) que incluya en el mismo modelo las cuatro variables con valor de significancia < 0. Es necesario tomar en cuenta que no es indispensable incluir en el modelo todas las variables que sean estadísticamente significativas. El análisis bivariado (cuadro 25-13) nos muestra que cuatro de las seis variables son candidatas a incorporarse al modelo multivariado (las variables “EDAD” y “SEXO” no las consideraremos para el análisis multivariado porque tienen una valor de p > 0. Las primeras dos ya han sido descritas al principio de este capítulo. tocaremos este tema con mayor detalle. 1000 0.0082 0.9445 2. tendremos que comparar el riesgo crudo con el riesgo ajustado por las otras covariables.3471 0. pero eso no es posible.4321 Test Statistic D. Para este momento del análisis.3726 0.3145 0.4004 0. © Editorial El manual moderno Fotocopiar sin autorización es un delito. pierde significancia estadística (p = 0.8550 6.2547 0.4173 1.3461 1.0025 ARGON 3.9896 0. quizá ya encontró algunas particularidades en los resultados que llaman la atención.2465 0.I.6878 ARGON (Yes/No) * TABACO (2/0) 0.0000 CONSTANT 0. todas las variables que se incluyen en esa interacción deberán mantenerse en el modelo.0001 95% C. Z-Statistic P-Value ARGON (Yes/No) * GEN (Yes/No) 10. donde notaremos que la variable confusora sería TABACO. después de retirar las interacciones no significativas.72 0.5245 0. el hecho de que la variable ALCOHOL.0162 0.4511 0. no es estadísticamente significativa en el análisis multivariado.0658 6.0868 2. que era estadísticamente significativa en el análisis crudo. buscamos interacciones entre las tres variables restantes.8137 0. Resultados del comando “Logistic Regression”.5743 1.2862 4.8806 0.6913 0.0266 0.0573 1. .7688 0.41).2480 -7. En primer lugar. ARGON (Yes/No) 2.5787 0.0000 Likelihood Ratio 121.2725 3.9533 0.0263 0.2614 1. es factible que exploremos más de una interacción en un solo procedimiento.6675 0.0000 TABACO (1/0) 1. ALCOHOL (Yes/No) Odds Ratio 1.0940 0.0056 ARGON (Yes/No) * TABACO (1/0) 0.E.I.3361 0.3035 0.6009 1.4169 0.0995 1.0000 P-Value Unconditional Logistic Regression Odds Ratio 0. podremos concluir que el modelo que mejor estima el riesgo es el que se muestra en la figura 25-17.1565 * * * -1.2831 0.5125 0.8363 -0. el modelo final es el que aparece en la figura 25-17.9603 0.7321 6.1032 ARGON (Ye/No) 2.4072 1.9559 0.0004 GEN (Yes/No) 5.7146 0.9726 0.8359 2.7628 0.5197 GEN (Yes/No) * TABACO (2/0) 2. porque una vez que hemos decidido que una interacción es significativa.7968 3.2131 0.0000 * -2.7879 0. pero no entre ARGON y TABACO ni entre GEN y TABACO. Este resultado nos podría hacer pensar que deberíamos excluirla del modelo y dejar sólo la interacción.00 SEXO (Hombre) 0. Term 225 Figura 25-16.0600 GEN (Yes/No) * TABACO (1/0) 1.4018 0.3037 3. 95% C.0609 -1.2086 7.6315 0.0001 Coefficient S.5684 1. Resultados de la orden “Logistic Regression” que incluye la evaluación simultánea de tres interacciones.6232 1.4669 4.1202 1. OR y nivel de significancia estadística para la asociación de las variables con la condición de caso Variable Los resultados de la regresión logística que se muestran en la figura 25-16 nos permiten identificar la existencia de interacción entre las variables ARGON y GEN.944 5.7416 0.0738 GEN (Ye/No) 2. Así que. Cuando la muestra es lo suficientemente grande y las relaciones entre las variables así lo permiten.9708 1.4565 0.2259 0.4552 0.5766 0. tal como se muestra en el cuadro 25-14. una vez que tenemos su interacción con GEN en el modelo (figura 25-17). Cuadro 25-13.5171 7.2129 Term * CONSTANT * Coefficient S. tal como se muestra en los resultados de la figura 25-16.5701 0. Asociación con la condición de caso (p) ALCOHOL 1.7447 -1.0816 TABACO (2/0) 3.0226 5 0.46 <0.8174 600 Cases included: Al final.9666 1.6439 0.0001 EDAD 30 a 44 años ≥ 45 años 0. Score 119.Análisis estratificado y regresión logística Después de identificarlas como significativas en el modelo multivariado.6664 0.5316 4.9068 8.2562 0.9996 5 0.49 0. así que concluimos que estaba confundida a causa de alguna de las covariables que están incluidas en el modelo multivariado.85 3.6809 -0.F.1387 3.2933 3.9178 Convergence: Converged Iterations: 5 Final-2*Log-Likelihood: 641.89 1.12 <0.6126 1.3637 1. Para saber cuál es la(s) variable(s) confusora(s).9948 0.9012 0.0001 GEN 5.0000 Figura 25-15.90 TABACO Fumador(a) pasivo(a) Fumador(a) activo(a) 1.4552 2.0357 TABACO (1/0) 1.1924 TABACO (2/0) 3. OR Unconditional Logistic Regression También podemos notar que la variable ARGON.E. Z-Statistic P-Value -9.4515 0.5253 <0.9663 52. Convergence: Converged Iterations: 6 Final-2*Log-Likelihood: 630.3921 0.4063 GEN (Yes/No) 4.05). Bondad de ajuste 2.6659 2. 25-5 Para evaluar la bondad de ajuste en los términos descritos en la sección anterior.3986 0. 3.F.8328 0.24) de cada individuo de presentar el evento. Tabular (“Frequency”) la nueva variable “P” para saber cuántos sujetos tiene cada probabilidad calculada en el paso anterior (columna “Total” del cuadro 25-15).2285 600 Cases included: Test Statistic D.2589 (tabaco_2). Por lo general.9667 2. Resultados de la orden “Logistic Regression” que incluye la evaluación de una interacción.5885 5 0.E. Cómo hacerlo en Epi Info.226 Bioestadística Unconditional Logistic Regression Term 95% C.9081 2. donde se registrará la probabilidad (utilizando la fórmula 25. aunque con frecuencia se omite. Egret).4886 (tabaco_1) + 1. procedemos según el siguiente ejemplo explicativo.2989 (argon) + 1. Con los valores de cada individuo. Por último.2335 1. Evaluar la bondad de ajuste del modelo en que hemos concluido es una parte importante del análisis. será necesario: 1. una manera sencilla de llevarlo a cabo consiste en comparar las frecuencias observadas de “Y” (variable dependiente) iguales a “1” con las esperadas a partir del modelo. Como puede apreciarse. Z-Statistic P-Value ARGON (Yes/No) Odds Ratio 1.0233 2. éstas son complejas y requieren de software especializado (SPSS.4886 0. La prueba de Hosmer y Lemeshow en SPSS (que mide la bondad de ajuste) con los mismos datos nos daría una significancia estadística de . “TABACO_2” = 1 cuando “TABACO” sea igual a 2 y “TABACO_2” = cuando “TABACO” tenga otro valor. A partir de esos resultados.53. las frecuencias observadas y esperadas del cuadro 25-16 se comparan para cada grupo de probabilidad.24 P(Y = 1) = 1 1+ e (z) Donde z = -1. © Editorial El manual moderno Fotocopiar sin autorización es un delito.0000 TABACO (1/0) 1.0000 Score P-Value Figura 25-17. En nuestro ejemplo.0000 11. se agrupan tal como se presenta en el cuadro 25-15.3484 0.0000 ARGON (Yes/No) * GEN (Yes/No) * CONSTANT * Coefficient S. TABACO_2). existen varias pruebas estadísticas y presentaciones gráficas.8304 0.2458 5.I. Definir (“Define”) las variables dummy necesarias según sea el caso cuando el modelo incluya variables con más de dos categorías. la bondad de ajuste evaluará si el modelo que hemos obtenido refleja los datos de los que hemos partido.2129 -9. Supóngase que después de analizar los datos hemos concluido que los resultados que se muestran en la figura 25-17 corresponden al modelo que consideramos más adecuado para representar las asociaciones que se estudian.3600 0. Sin embargo.0042 * -1. así que concluimos que la ecuación tiene una bondad de ajuste más o menos adecuada. Calculamos la probabilidad de presentar el evento de interés que cada individuo tiene a partir de la combinación de factores de riesgo. Ejemplo explicativo 25-6 1. como se muestra en el cuadro 25-16.6301 0.0833 0. donde lo que se busca es aceptar la hipótesis nula (p > . 127.8617 0.2234 6.5923 5 0.2314 0. 2. De manera general.2989 0.2666 1.7488 0.5967 6. El cuadro 25-15 se puede simplificar para presentar sólo las frecuencias esperadas y observadas de cuatro grupos. Para hacerlo.8382 2. El cálculo de cada valor de P (Y = 1) se puede realizar fácilmente en una hoja de cálculo. utilizamos la fórmula 25.0668 TABACO (2/0) 3.1752 5. Para hacerlo. Definir (“Define”) una nueva variable (“P”) en la tabla de datos. las frecuencias esperadas y observadas no son muy diferentes.0000 Likelihood Ratio 133. 3. hay que recordar que la variable TABACO tiene que representarse mediante variables dummy (TABACO_1. 4. evaluamos la bondad de ajuste de este modelo de la siguiente manera: .9336 + 0.9336 0. la variable “TABACO” deberá transformarse en las variables indicadoras (dummy): “TABACO_1” = 1 cuando “TABACO” sea igual a 1 y “TABACO_1”= cuando “TABACO” tenga otro valor diferente a 1.2589 0.1214 0.7011 1.7303 0.1294 56.3921 (gen) + 0.0081 2.5215 2. Para hacerlo. cada grupo de pareamiento deberá estar identificado con un número. La figura 25-18 muestra los datos de la tabla Bio3_25b. Así. 5.49 50.73 18 13.5 % >0. uno de los grupos integrado por Cuadro 25-14. En estas condiciones.52 21 0.94 46 0.5 23 0. © Editorial El manual moderno Fotocopiar sin autorización es un delito. Para terminar. para calcular la columna de esperados (columna “E” en el cuadro 25-15). será necesario definir cuál es la variable de apareamiento o “Matching variable”.24. que es la variable por la que fueron pareados. Comparación de frecuencias observadas y esperadas para evaluar la bondad de ajuste de un modelo de regresión logística P Total E O P Total E O 0.67 48 32.13 141 18. Resumen en cuartiles de los datos mostrados en el cuadro 25-15 Probabilidad Esperados Observados OR crudo (sin ajustar) 1. Cambio porcentual del OR de la variable alcohol según el ajuste de la covariable que se agrega al modelo Variable que ajusta la estimación de OR de la variable ALCOHOL OR de la variable ALCOHOL Cambio porcentual uno o más casos y uno o más controles se identificará con el número 1.72 ≤ 0. Para conocer la frecuencia observada. la regresión logística condicional en Epi Info se realiza de manera semejante a la regresión logística no condicional. y la variable PAR identifica el grupo de pareamiento.14 16 P: Probabilidad de ser casos según la combinación de factores de riesgo.49 50 24. El número de observados corresponderá a la frecuencia de casos para cada probabilidad. por ejemplo. por lo que en ocasiones nos preguntaremos si el pareamiento deberá Cuadro 25-16.19 41. El análisis pareado agrega una dificultad a la ejecución del análisis y a la interpretación de los resultados.3% >0.41 19 7. Al revisar esa lista de datos.81 37 TABACO 0. Cuando los registros incluyen la variable que identifica al grupo de pareamiento. 4.56 9 5. E: Esperados.37 31 11.05 57 GEN 1.16 16 2. REGRESIÓN LOGÍSTICA CONDICIONAL Siempre que la selección de casos y controles no sea independiente y que ambos grupos estén pareados por una o más variables. sólo tendrían que agruparse las observaciones según el cuartil que corresponda y comparar las frecuencias observadas y esperadas (cuadro 25-16). multiplicamos la probabilidad (columna “P”) por el total (columna “Total”).80 -53. Estas dos diferencias no afectan la interpretación de los coeficientes de regresión. notará que por cada caso (“CASO” = 1) hay dos controles (“CASO” = 0) y que para cada grupo de pareamiento los tres sujetos tienen la misma exposición de “TABACO”.37a ≤ 0.7 % >0.Análisis estratificado y regresión logística 227 Cuadro 25-15. aunque no se podrá calcular valores de P mediante la ecuación 25.37 62. Incluye a todos los sujetos que son casos con el mismo valor de P.24 11 2.56 4 0.76 2.19a ≤ 0. Después.41 44 ARGON 1.47 8 0.52 8 0.44 8 3. Se calcula multiplicando el valor de P por el Total.49 35.64 3 0.04 9 0. Ambos procedimientos de regresión logística tienen diferencias importantes.87 8.79 6 0.34 62 . en Epi Info ejecutamos la orden “Tables” con las variables “P” y “Caso”. Total: Incluye a todos los sujetos que presentan la misma probabilidad de ser casos. la elección inicial para la regresión logística será la condicional. donde los sujetos estudiados fueron pareados según su edad. aunque aquí sólo mencionaremos dos: para ejecutar una regresión logística condicional. el análisis deberá considerar mantener el pareamiento. el segundo grupo se identificará con el número 2 y así sucesivamente hasta completar el número de grupos pareados.19 108 20. Para poder realizarla.34 141 47.16 37 0. y el resultado que se despliega no "$ 0 (figura 25-19) que se muestra como la constante en la regresión logística no condicional. 6.33 19 0. O: Observados. entonces el análisis podrá continuarse sin necesidad de mantener el pareamiento. Unconditional Logistic Regression Term alcohol (Yes/No) Odds Ratio 1. Listado de los primeros registros de la tabla de datos Bio3_25b. Score Test 0. el análisis deberá iniciar como pareado.228 Bioestadística Figura 25-18.6274 Convergence: Converged Iterations: 3 Final-2*Log-Likelihood: 219.2941 Z-Statistic P-Value 0. Al respecto. sin embargo.1534 95% C.E. Resultados de la orden “Logistic Regression” que considera una regresión logística condicional.I. si se puede . 0.F. © Editorial El manual moderno Fotocopiar sin autorización es un delito. de mantenerse.2372 1 0.0528 Coefficient 0.4854 0.6272 Likelihood Ratio 0.4853 300 Cases included: Statistic D. mostrar que los resultados pareados son semejantes a los que se obtienen sin tomar en cuenta el pareamiento. 0.2358 1 P-Value 0. podremos actuar de la siguiente manera: si al momento del muestreo la selección de los sujetos fue condicionada por un criterio de pareamiento.6481 2.1428 S.6262 Figura 25-19. © Editorial El manual moderno Fotocopiar sin autorización es un delito. E. Estudios epidemiológicos de casos y controles.. D. . Logistic Regression. No olvide anotar los intervalos de confianza de 95% (IC95%) de cada OR. L.Análisis estratificado y regresión logística 229 Ejercicios Los valores contenidos en Ejer_25a del archivo Bioestadística_3ra representan los datos de un estudio de casos y controles que exploró la relación que tienen cinco variables como factores de riesgo de asfixia por inmersión en el hogar sufrida por niños de 1 a 4 años de edad. Salud Pública de México. Salud Pública de México. sólo tres variables muestran una asociación estadísticamente significativa. Con esos datos realice los siguientes análisis: Ejercicio 2 En el resultado del cuadro 25-17. “Edo_Civil” igual a “1” se refiere a soltera y “Edad_ma” igual a “1” se refiere a una madre menor de 20 años de edad. Lazcano-Ponce. 230-241. “NSE” igual a “1” representa un “nivel socioeconómico bajo” y “0” corresponde a nivel medio o alto. Lazcano-Ponce.gov/epiinfo/ Hosmer. variantes y aplicaciones. Salazar-Martínez. Ejercicio 3 Evalúe las interacciones de esas tres variables y diga si son estadísticamente significativas. Salazar-Martínez. Fundamento teórico. Estudios de cohorte. (1994). W. E. & Lemeshow. Excursión a la Regresión Logística en Ciencias de la Salud. cuál es el riesgo de asfixia por inmersión de un niño que vive en un hogar con nivel socioeconómico bajo y que tiene pozo de agua comparado con un niño que vive en un hogar con nivel socioeconómico medio o alto y que no tiene aljibe. Kleinbaum. Salud Pública de México. (2001).. C. Madrid: Díaz de Santos.. M. Excluya las dos variables que no tienen una asociación estadísticamente significativa. 43. A self-learning text. y Hernández-Ávila. E. y con las tres restantes llene el cuadro 23-18. REFERENCIAS Calva-Mercado. Estudios clínicos experimentales. New York: Springer. (1995). E. (2000). “Pozo” y “Aljibe” igual a “1” significa que existían esos depósitos de agua en el hogar al momento del evento. Applied Logistic Regression. Cuadro 23-18 Variable ORa* IC95% Ejercicio 1 Calcule los Odds Ratios crudos y ajustados que correspondan a las cuatro variables independientes y llene el cuadro 25-17 con los resultados. Casos Controles ORc IC ORa* IC 95% 95% Edad de la madre < 20 años ≥ 20 años Estado Civil Soltera Casada Nivel socioeconómico Bajo Medio o alto Aljibe en la vivienda Sí No Pozo de agua en la vivienda Sí No * El modelo ajustado incluye las cinco variables independientes. CDC.cdc. 349-358. y HernándezÁvila. Epi Info 7. 42. J. Disponible en http://wwwn. Silva Ayçaguer.. J. Metodología. 135-150. E. M. D. (2000). S. G. New York: John Wiley & Sons. (1989). Cuadro 23-17 Variable * El modelo ajustado incluye las tres variables. 42. sesgos y aplicaciones. Fernández. Ejercicio 4 Si los datos son verdaderos. . Los eventos de interés más frecuentes son: muerte. Este método es un procedimiento estadístico no paramétrico que asume un supuesto: los sujetos que se pierden al seguimiento no son diferentes de los que se mantienen en él. alta hospitalaria y regreso al trabajo. que en español podría traducirse como datos truncados o individuos censurados. curación. recaída. Total del tiempo de observación (horas. Los datos podrían presentarse tal como se muestran en el cuadro 26-1. Si se ha presentado o no un evento de interés. Entre las condiciones por las cuales un sujeto en observación sale del estudio se encuentran las siguientes: se termina el estudio sin que el sujeto presente el evento. El análisis de supervivencia puede realizarse en estudios de cohorte o en ensayos clínicos siempre que para cada individuo en observación se registre el tiempo que transcurre desde la exposición o tratamiento hasta que en él se presente el evento terminal de interés o concluya su seguimiento durante el estudio.N xi i =1 26 Análisis de supervivencia ( xi PROBABILIDAD DE SUPERVIVENCIA © Editorial El manual moderno Fotocopiar sin autorización es un delito. días. Aunque algunos de éstos podrían presentarse en más de una ocasión. el sujeto abandona el estudio. B-8 y B-9). particularmente en lo referente al desenlace que se estudia. inicio de una enfermedad. su seguimiento habría sido truncado. algo que en inglés se conoce como censoring. En la mayoría de los sujetos estudiados. el tratamiento produjo en ellos un efecto indeseable y tuvieron que suspender el tratamiento. Estos datos nos dirían que el estudio registró 39 días de seguimiento y que sólo tres completaron este tiempo (los sujetos A-9. competencia de riesgo) 2. Característica única de este análisis es el manejo estadístico de las pérdidas al seguimiento. donde se registran el tiempo acumulado en observación (T) y la curación (1) como evento de interés (. Pero cinco salieron del estudio sin registrar curación por diversas causas: el estudio terminó. el sujeto A-1 tardó 17 días en curar. meses.1) nt 231 . que es particularmente útil cuando existen datos truncados. = 1). = xi i =1 N 2 N N μ) 2 i =1 N Ejemplo explicativo 26-1 Supóngase un ensayo clínico que compare dos tratamientos. semanas. el seguimiento concluyó cuando presentaron el evento de interés (. Este análisis supone la integración de dos elementos: 1. Para calcular la supervivencia al tiempo t se utiliza la fórmula d 1 t S (t ) = t (26. años) que acumuló ese individuo desde que ingresó al estudio hasta que salió de él. cuando los sujetos en estudio salen sin haber presentado el evento de interés. Cuando el diseño del estudio permite registrar estos datos.). uno representado por el grupo A y otro por el grupo B. para los fines del análisis solamente se toma el primero (según sea definido por el investigador). el investigador tendrá interés en calcular la probabilidad de que un paciente pueda sobrevivir desde el tratamiento o exposición hasta completar un tiempo determinado: esto se conoce como análisis de supervivencia. MÉTODO DE KAPLAN-MEIER El análisis de supervivencia puede realizarse mediante el método de Kaplan-Meier. Así. u otro evento grave (como la muerte por otra causa) impidió que siguieran en observación. decidieron retirarse del estudio. mientras que el sujeto A-1 y el B-2 tardaron 20 días. el sujeto fallece por una causa distinta de la del estudio o es retirado del estudio por otra razón de fuerza mayor (complicación terapéutica. por ejemplo. efectos secundarios al tratamiento en estudio. Para estos cinco sujetos. INTERVALOS DE CONFIANZA Para calcular los intervalos de confianza de la supervivencia. y se mantiene sin cambios cuando los sujetos en observación se truncan.67 0. t = 0.76 A-3 23 1 B-3 24 1 3 A-4 30 1 B-4 30 1 4 30 6 1 0.42 6 36 3 1 0.00 B-1 20 1 1 20 9 1 0.89 24 7 1 0. En la columna del tiempo de sobrevida sólo se anota el momento en que se retira un sujeto del estudio. el in "$ ~ $ S (t )e ( z / 2 [EE] ( (26.89 B-2 22 0 2 22+ 8 0 1. y del 17 pasamos al 20 porque tampoco hay eventos o pérdidas en los días 18 al 19.76.) - 0 9 0 1.00 1.80 0.89 x 0. dt > dt nt Supervivencia.) A-1 17 1 A-2 20 1 Tiempo de supervivencia.14 1. Nótese que en la supervivencia sólo se observan cambios cuando se presenta una o más defunciones.86 0. Al inicio del estudio. S(t) Tiempo (T) en días Evento (.00 1.86 = 0.83 0. dt > dt nt Supervivencia.00 0.51 A-6 34 1 B-6 34 1 6 34 4 1 0.50 0. nt es el número de sujetos en riesgo de fallecer al inicio del tiempo t y [-]. lo hacemos según el cuadro 26-3.75 0. 232 .56 Para calcular la sobrevida del grupo A en el cuadro 26-1.50 0. 3. significa “multiplicar todo”.88 x 0. Grupo A Orden Tiempo de Número sobreen riesgo.00 x 0. o multiplicatorio. De esta manera. en el cuadro 26-2 empezamos en 17 porque antes no existen eventos o pérdidas al seguimiento. En la última columna de los cuadros se anota la supervivencia acumulada según la fórmula (26.00 0.67 Ejemplo explicativo 26-2 4 30 6 1 0. procedemos según se muestra en el cuadro 26-2.3) © Editorial El manual moderno Fotocopiar sin autorización es un delito. Con lo anterior. sea porque presenta el evento o porque se trunca su seguimiento.78 3 23 7 1 0.88 0.83 0.38 39 2 1 0.00 1 17 9 1 0. 2. vida. Datos hipotéticos de un estudio de seguimiento Cuadro 26-3.63 A-5 30 0 B-5 33 1 5 33 5 1 0.89 0.19 A-7 36 1 B-7 35 0 7 A-8 37 1 B-8 39 0 8 A-9 39 0 B-9 39 1 donde dt corresponde al número de defunciones en el momento t. Es conveniente destacar algunos aspectos importantes de estos cuadros: 5 34 4 1 0. desde t = 0 hasta completar el tiempo de seguimiento en que se desea calcular la sobrevida. Cuadro 26-2.86 = 0.89 x 1.38 35+ 3 0 1. t Número en riesgo. la sobrevida siempre es igual a 1 porque se asume que todos los pacientes se encuentran con vida.67.00 x 0. nt Defunciones. S(t) - 0 9 0 1.14 8 39 1 0 1.86 0. primero será necesario calcular el error estándar mediante la fórmula EE = 1 (ln[S (t )])2 di ni (ni di ) (26.89 2 20 8 1 0.75 0.2) donde ln representa al logaritmo neperiano y S(t) a la supervivencia acumulada al tiempo t. mientras que para calcular la sobrevida del grupo B.00 0.28 7 37 2 1 0.89 0. mientras que para el grupo B al tiempo 24 la supervivencia es igual a 1. Obsérvese que la supervivencia del grupo A al tiempo 23 es igual a 1.Bioestadística Cuadro 26-1. Grupo B Grupo A Grupo B Orden Registro Registro Tiempo (T) en días Evento (.1).00 x 0. t nt Defunciones. Seleccione el comando “Kaplan-Meier Survival” para definir las variables de interés: “EVENTO” como “Censored Variable” (esta variable se codifica como “1” cuando se presenta el evento de interés durante el seguimiento del sujeto [“uncensored”]. “TIEMPO” como “Time Variable” (se refiere al tiempo que el sujeto ha acumulado durante el estudio al momento de presentar el evento de interés.5 de la supervivencia acumulada en el eje de las ordenadas hasta el punto donde esta perpendicular cruce con la curva de Kaplan-Meier. PRUEBAS DE HIPÓTESIS Hay varios procedimientos para comparar la sobrevida global entre dos o más grupos mediante una prueba de hipótesis.96(0. Representación de la superviviencia de dos gru- pos (“A” y “B”) mediante la curva de Kaplan-Meier.180) = 0. Cuando las curvas se cruzan. Esta prueba es el método más indicado cuando el evento de interés es poco frecuente o cuando las curvas de supervivencia (véase sección de Curva de Kaplan-Meier en este mismo capítulo) son divergentes. la probabilidad de sobrevivir. Curva de Kaplan-Meier Los análisis de supervivencia siempre se acompañan de una curva de Kaplan-Meier. Para el caso de los datos con los que se realizó este ejemplo. mediante las fórmulas 26. que representa el cambio de la supervivencia a medida que avanza el tiempo de observación.3.72 0. o como “” cuando el sujeto abandona el estudio sin presentar el evento [“censored”]).4 0.508e+1.2 respectivamente.2 y 26. “GRUPO” como “Group Variable” y “1” como valor de NO censados (“Value for Uncensored”). el error estándar de la supervivencia de S(33) sería igual a 1 1 1 1 1 + + + = 0.8 Supervivencia acumulada EE = 233 0.96(0. que representa los datos de un ensayo clínico. La media de la supervivencia se calcula trazando una perpendicular desde el punto donde se encuentra el 0. el valor de p de ambas pruebas nos indica que no existe una diferencia """""" .0 15 20 25 30 35 40 Tiempo © Editorial El manual moderno Fotocopiar sin autorización es un delito.508]) 9 8 7 6 6 5 5 4 y los límites inferior y superior del intervalo de confianza serían iguales a 0. Al hacer clic en “OK” en la ventana de resultados. La hipótesis nula (la sobrevida global es la misma en los dos grupos) se rechaza cuando el valor de p de estas pruebas es menor o igual al valor de seleccionado. Después de seleccionarlas se podrán observar tal como se aprecia en la figura 26-2. pero la mayoría de los programas de cómputo utilizados para realizar análisis de sobrevida lo muestran entre sus resultados.36 0. El primero es una línea que avanza horizontalmente a medida que el tiempo se acumula sin que se presenten eventos de interés. 26-1 Para hacer una curva de Kaplan-Meier en Epi Info 7. podrá encontrar el gráfico y los resultados de las pruebas de Log-Rank y de Wilcoxon (figura 26-3).0 De acuerdo con los datos del cuadro 26-2. Cómo hacerlo en Epi Info. El procedimiento para su cálculo es complejo.180 2 (ln[0. o cuando abandona el estudio). El más conocido es la prueba de Log-Rank. el eje de las abscisas representa el tiempo que transcurre y el eje de las ordenadas. entre al módulo“Analyze Data”. A B Dato truncado Figura 26-1.6 0.180) = 0. Además. se podrá seleccionar la “Unidad de tiempo” [“Time Unit”] y el “Tipo gráfico” [“Graph Type”]. como las de Wilcoxon o de Breslow.Análisis de supervivencia Ejemplo explicativo 26-3 1. abra el archivo Bioestadistica_3ra y seleccione la tabla Bio3_26a. es mejor utilizar otras pruebas.508e 1. 0. En este gráfico. la cual cambia a una línea vertical cuando éstos se presentan (figura 26-1). 24 26 28 30 32 34 36 38 40 © Editorial El manual moderno Fotocopiar sin autorización es un delito.4 0. Cuando existen dos o más variables independientes. ) es una tasa instantánea. Pero también es indispensable que al menos exista una tercera variable que permita clasificar a los sujetos del estudio en dos o más grupos.7 . Resultados de la orden “Kaplan-Meier Survival”.3 0. que se calcula dividiendo los sucesos ocurridos en ese instante entre el total de sujetos en riesgo en ese instante.2 0. se debe de contar con el tiempo de seguimiento y la condición del sujeto al concluir el mismo.F. Ventana de opciones de la orden “Kaplan-Meier Survival”.35 0. la regresión de Cox también nos permite controlar el efecto que pueden introducir algunas variables que actúan como factores de confusión.95 0.1693 Wilcoxon 0.45 0.65 0. por lo general también pueden analizarse mediante una regresión de Cox. P-Value 1 0.25 0. curación.234 Bioestadística Figura 26-2.6807 1 0. al igual que para el de supervivencia.6 0. entre las cuales se comparará la tasa con que se presenta el evento de interés (muerte. Dos elementos centrales en la interpretación de la regresión de Cox son el hazard y el hazard ratio. Survival probability 0. Para este modelo de análisis.5 0.85 0. hazardt = t = d eventos en el instante t = t sujetos en riesgo en el instante t nt 1 (26.15 2 4 6 8 10 12 14 16 18 20 22 Time Test Statistic Log-Rank 0.2315 D. Hazard (representado mediante la letra griega lambda. recaída) mediante una medida de asociación conocida como hazard ratio.9 0.4) Grupo = A Grupo = B 0.6304 Figura 26-3.55 0.8 0.75 0. REGRESIÓN DE COX Cuando los datos de una investigación pueden examinarse mediante un análisis de sobrevida. o identificar la interacción que pueda existir entre ellas. el hazard difiere de la densidad de incidencia (que también es una tasa) en que es una medida instantánea. Cuadro 26-4.17 33 5 1 0. podremos calcular los hazard. 235 36 3 1 0. al tiempo 30 (HR = 0. al tiempo 20 (20 = 1/8 = 0..50 t = tiempo nt = número en riesgo al momento t dt = eventos al momento t El modelo de regresión de Cox también permite ajustar las curvas de supervivencia por medio de otras variables que determinan el resultado. haga clic en “Predictor Variables” y seleccione “ARSENICO” y “NSE_BAJO”. El modelo de Cox es un análisis estadístico no paramétrico que asume el supuesto de que el hazard ratio (o razón de tasas instantáneas) es constante a lo largo del tiempo. porque en ese grupo no se registraron eventos en esos momentos... y se expresa mediante la fórmula (t | X 1 . no se acostumbra traducirlo al español porque podrían surgir confusiones con otro término epidemiológico: la incidencia acumulada. Modelo de la regresión de Cox © Editorial El manual moderno Fotocopiar sin autorización es un delito. El modelo de Cox pondera los hazard ratio en los momentos en que se producen los eventos. pero no al tiempo 39.12). A partir del modelo de regresión de Cox se pueden estimar los hazard ratio mediante la ecuación HR = (t )e 0 (t )e 1 X1 + 2 X 2 +.+ k X k (26.11)..13/0. que los hazard son proporcionales y que las curvas se mantienen separadas (figura 26-4 “A”) y no se cruzan (figura 26-4 “B”).. no es raro que los trazos se superpongan o se lleguen a cruzar (figura 26-1).14 30 6 1 0.50 39 1 0 1. sólo selecciónela y haga clic en el botón “Make Dummy” cuando se active.Análisis de supervivencia Es necesario hacer dos aclaraciones en relación con el término hazard.. En otras palabras.11 = 1.5) Esta fórmula nos dice que el hazard es el producto de dos cantidades: 0(t).+ k X k 1 X1 + 2 X 2 +. De manera semejante..11 1. X k ) = 0 (t )e 1 X1 + 2 X 2 +.. Sin embargo.13 23 30 34 7 6 4 1 1 1 A partir de los datos del cuadro 26-4...13). cuando las curvas de supervivencia de dos grupos son semejantes. Así. o hazard basal cuando las variables independientes (X’s) son iguales a 0..+ k X k ) t nt dt HR 20 9 1 0.. Por otra parte. que es independiente de t..+ k X k = e( 1 X1 + 2 X 2 +. pero no en los otros tiempos del estudio.17 = 1. En la ventanita de “Value for Uncensored”. En ese momento. mientras que la densidad de incidencia es una expresión que promedia el número de eventos entre el tiempo de observación acumulado....+ k X k (26.33 37 2 1 0. en el grupo B.25). al tiempo 24 (24 = 1/7 = 0. podremos calcular los hazard al tiempo 17 (17 = 1/9 = 0.20 34 4 1 0. y el exponente de la sumatoria de iXi.14 0.6) también puede expresarse como e e 1 X1 + 2 X 2 +.17 0.+ k X k 1 X1 + 2 X 2 +.0) y al tiempo 34 (HR = 0. Para agregar covariables. podremos calcular los hazard al tiempo 20 (20 = 1/9 = 0. “TIEMPO” en “Time Variable” y “MANGANESO” en “Group Variable”. Elija la opción “Cox Proportional Hazards” y en la ventana de diálogo que se despliega seleccione “EVENTO” en “Censored Variable”.17/0. Cálculo de los hazard en los grupos “A” y “B” Grupo A Grupo B t nt dt 17 9 1 0.+ k Xk = e e 1 X1 + 2 X 2 +.. Si se desea que alguna de las “Otras Variables” se convierta en Dummy. .25/0. porque en ese grupo no se registraron eventos en ese momento. que también es conocida como riesgo..+ k X k ) ( 1 X1 + 2 X 2 +.. El hazard ratio es una razón de hazard.11).6) Recordemos que la fórmula (26. aunque habría que señalar que el hazard ratio es una razón entre dos tasas instantáneas y no entre dos incidencias acumuladas. y los presentamos de la manera en que se muestran en el cuadro 26-4.12 22+ 8 0 24 7 1 0.00 0... Cómo hacerlo en Epi Info. 26-2 Desde “Analyze Data” abra el archivo Bioestadistica_3ra y seleccione la tabla Bio3_26b. En primer lugar. en el grupo “A”.14).+ k X k 0 1 X1 + 2 X 2 +.25 Ejemplo explicativo 26-4 Si tomamos los datos de los cuadros 26-2 y 26-3.00 1. la ventana de diálogo se encontrará como lo muestra la figura 26-5. Con frecuencia se llega a interpretar de la misma manera que un riesgo relativo. pero no al tiempo 22 ni al 35.25 35+ 3 0 39 2 1 0. por ejemplo. que podría traducirse como riesgo o peligro. X 2 . también se podrán calcular los hazard ratios (HR) al tiempo 20 (HR = 0.. seleccione “1”.11 20 8 1 0. 0 1. A) Curva con riesgos proporcionales. la evaluación de los factores de confusión e interacción.0 0.4 0. 3. © Editorial El manual moderno Fotocopiar sin autorización es un delito.6 0. Este término no se encuentra en la regresión logística no condicional. como en la regresión de Cox. En la regresión de Cox no hay una constante entre los resultados. éste es un buen momento de hacerlo. y los valores de significancia del modelo en conjunto. encontrará los elementos para la evaluación de la prueba de hipótesis. en primer lugar. se destacan algunas diferencias que es necesario tomar en cuenta: 1. En ella encontrará. 4.0 0. Después de hacer clic en “OK”.4 0. B) Curvas con riesgos no proporcionales (los trazos se cruzan). De la regresión logística se obtienen estimaciones de odds ratio. al contrario de la regresión logística condicional donde.6 0. Figura 26-5. Interpretación de resultados Los resultados de la regresión de Cox y de la regresión logística son muy parecidos.2 0. el error estándar (SE) y los valores de z y de p. 2. los coeficientes de la regresión. Ventana de opciones de la orden “Cox Proportional Hazards”. mientras que de la regresión de Cox se obtienen estimaciones de hazard ratio. La regresión de Cox permite un ajuste diferente al realizado cuando las covariables se incluyen en el modelo: a esta modalidad se le conoce como procedimiento estratificado de Cox. la curva de supervivencia ajustada por las covariables en el modelo. Sin embargo.2 0. Por último.8 0. el hazard ratio. tampoco se encuentra. obtendrá los resultados que se muestran en la figura 26-6. Es posible que alguna de las covariables interactúe con el tiempo. lo que tendría que evaluarse mediante un modelo extendido de Cox. los intervalos de confianza. los intervalos de confianza. .Bioestadística 236 1. -2 * Log-Likelihood. Ejemplos de curvas de sobrevida. la interpretación. porque no los repetiremos aquí.0 A 0 10 20 30 40 B 0 10 20 30 40 Figura 26-4. A diferencia de las ventanas de regresión múltiple y regresión logística. por lo que el manejo. las pruebas de hipótesis y las estrategias de análisis multivariado son semejantes. Luego podrá observar los términos de la regresión de Cox. en ésta no se generan variables de interacción. Si no se ha revisado el capítulo de 25.8 0. 35 0.4471 0.6 0.Análisis de supervivencia 237 1 0.0028 0.0510 0. Z-Statistic P-Value MANGANESO (Yes/No) 1.85 Survival probability 0.8 0.3 2 4 5 10 15 20 25 30 35 40 45 50 Time Cox Proportional Hazards Hazard Ratio 95% C.0006 Likelihood Ratio 16.6961 2. P-Value Score 17. La evaluación de la proporcionalidad de hazard puede realizarse de manera gráfica mediante una prueba de bondad de ajuste (diferente a la mostrada para la regresión logística) y el modelo extendido de Cox. Coefficient S.6238 0.55 Manganeso = 0 Manganeso = 1 0. -2 * Log-Likelihood: 452.95 0.1807 0.9316 1.9823 3.5377 ARSENICO 1.4 0. El tema podrá ser revisado en alguno de los textos especializados que con mayor extensión se han escrito sobre este tema.E.9042 0.6098 0.2696 0. Las últimas tres diferencias entre la regresión logística y la regresión de Cox no se ampliarán en este capítulo.7 0.0296 3.F.1661 0.75 0.6162 0.0403 Term Convergence: Coverged 4 Iterations: © Editorial El manual moderno Fotocopiar sin autorización es un delito.5 0.9 0.65 0.0569 NSE_BAJO 1.3034 3 0.0008 Figura 26-6.3210 2.I.7177 Test Statistic D.8401 0. 5.6584 0.3203 1. . Resultados de la orden “Cox Proportional Hazards”.7440 3 0.45 0. M. “Evento” igual a “1” corresponde a la muerte por cualquier causa no violenta del sujeto durante el seguimiento.). & Lemeshow. A. (2006). (1999). (1995). Parmar. En M. Martínez-González. New York: Springer. D. W. ed. & Machin. REFERENCIAS . (1996). A practical approach. A. D. G. Chischester: Wiley. Survival Analysis. Resultados del ejercicio 2 Variable HRa* IC95% * El modelo ajustado incluye las tres variables. Fajardo (Eds. K. Calcule los Hazard Ratios (HR) crudos y ajustados que correspondan a las cuatro variables independientes y llene el cuadro 26-5 con los resultados. Bioestadística amigable (2a. Applied Survival Analysis. Epi Info 7. Elabore una gráfica de Supervivencia de Kaplan-Meier donde la variable de agrupamiento sea el manganeso. “NSE“ igual a “1” representa un “nivel socioeconómico bajo” y “0” corresponde a nivel medio o alto. New York: John Wiley & Sons.cdc.). D. A. el tiempo está registrado en años de seguimiento. Sánchez-Villegas y J. M. Cuadro 26-5. A self-learning text. No olvide anotar los intervalos de confianza de 95% (IC95%) de cada HR.238 Bioestadística Ejercicios Los valores contenidos en Ejer_26a del archivo Bioestadística_3ra representan los datos de un estudio de cohorte que exploró la relación que tienen cuatro variables como factores de riesgo de muerte por cualquier causa no violenta. Con esos datos realice los siguientes análisis: Ejercicio 1 Ejercicio 2 Usted tiene interés en el efecto que tiene el manganeso en la salud de la población. F... Kleinbaum. B.gov/epiinfo/ Hosmer. y Basterna-Gortari. CDC. Introducción al análisis de supervivencia. F. Survival Analysis. España: Díaz de Santos. Disponible en http://wwwn. S. “Rural” igual a “1” se refiere a una residencia en un poblado con menos de 2500 habitantes y “Mangane” y “Arsénico” igual a “1” se refiere a que en el agua de consumo humano se encontraron manganeso o arsénico. Sánchez-Villegas. J. © Editorial El manual moderno Fotocopiar sin autorización es un delito.. Martínez-González. A. cuando se usan correctamente (véase Zuur et al. variables dummy). y el resultado del análisis puede llegar a ser afectado también por la confusión y colinealidad entre variables. LIMITANTES DE LA REGRESIÓN LINEAL En la última década se ha introducido en los estudios ecológicos el uso de los modelos lineales generalizados. uno de los supuestos que debe cumplir la variable dependiente Y a evaluarse es la distribución normal y la varianza homogénea o constante de las subpoblaciones de datos en relación con cada valor de X (figura 23-3). se invalida la teoría subyacente en el análisis empleado.g. los supuestos mencionados. cuyo resultado equivale al que obtendríamos por medio de la regresión lineal múltiple. vale la pena subrayar que una de las grandes ventajas de utilizar los GLM como herramienta al analizar variables ecológicas. efectos fijos e independencia de las variables. la ecuación general del modelo generalizado es prácticamente igual a la revisada en la regresión múltiple (ecuación 24. interacciones. algún dato cualitativo o cuantitativo resumido en proporciones (e. F-Fisher. El término lineal de la ecuación puede estar conformado por los mismos elementos que integran un modelo de regresión lineal múltiple (variables independientes. p) en poco confiables. Los modelos lineales generalizados nos permiten evaluar todas las variables mencionadas que presentan distribuciones de probabilidad diferentes a la normal y varianzas inconstantes. proporción de fallecimientos por sexo). si no se comprueban. En términos formales. CARACTERÍSTICAS DE LAS VARIABLES © Editorial El manual moderno Fotocopiar sin autorización es un delito. deben comprobarse al obtener los resultados (diagnóstico de la ecuación de regresión. Por tanto. Como veremos más adelante en este capítulo.g.1).g. concentración de alguna hormona). polinomiales. las variables infladas con un gran número de ceros) que difícilmente se ajustarán a los supuestos de normalidad. regresión logística) de los que se puede hacer uso cuando la variable de interés bajo Cuando queremos evaluar la relación o contribución de una o más variables predictoras a la variable dependiente o respuesta usamos la regresión.g. Parecería redundante presentar los modelos lineales generalizados cuando ya se ha leído a lo largo del libro que hay diversos procedimientos estadísticos (e. en toxicología. Lo anterior es una limitante cuando queremos evaluar la respuesta de algún proceso biológico medido como variable cuantitativa que no siga una distribución normal (e. volumen. variables de densidad (número por área. es su capacidad de abordar a priori y objetivamente el incumplimiento de los supuestos del modelo de regresión lineal de acuerdo con el tipo de datos que se maneje. se revisen y retomen los conceptos descritos en el capítulo 24 de este libro. a la par de la lectura del presente capítulo y durante la aplicación de los modelos generalizados. Sin embargo. garantizando una correcta selección y especificación del modelo. transformación de los datos) y tipos de modelos (e. 239 .g. periodo) como la tasa de incidencia acumulada (e.g. tasa de suicidios por año) o alguna variable con respuesta binaria (e.g. valores de t-Student. Una variable cuantitativa con distribución normal (Gaussiana) también puede ser evaluada por medio de un análisis lineal generalizado. 2009. como ya hemos visto en los capítulos 23 y 24. presencia – ausencia de enfermedad). lo que convierte a los resultados (e..N xi 27 Introducción a los modelos N lineales generalizados 2 Los modelos lineales generalizados (GLM. capítulo 24). homogeneidad de varianza. adecuadas afirmaciones sobre el proceso en estudio e inferencias acordes sobre la población estudiada.g. asumidos a priori durante los análisis clásicos de regresión. = N i =1 xi i =1 ( xi N μ) 2 i =1 N estudio presenta tal o cual característica y cumple ciertos supuestos. los cuales son otra herramienta estadística que ha resultado sumamente útil cuando se trabaja con variables o procesos ecológicos (e. para una descripción detallada de procedimientos y aplicaciones de los GLM). Por ello se recomienda que. por sus siglas en inglés) pueden considerarse una extensión del análisis de regresión lineal múltiple. igual a la ecuación de regresión lineal múltiple (24. área... Para ello. la cual relaciona cada valor observado yi con el valor medio estimado por el modelo Yi. La parte derecha de la ecuación 27. Walpole y Myers (1992). y debido a que la variable dependiente puede seguir una distribución diferente a la normal. X i 2 . (2009) o algún libro especializado en probabilidad. La estructura del error del modelo lineal generalizado a construir se elegirá a priori. %. Cuadro 27-1. se recomienda revisar los capítulos 12 y 13 de p xik k (27.. X ik ) = Estructura del error La bondad de los modelos lineales generalizados consiste en que se pueden aplicar con datos que siguen diferentes distribuciones de probabilidad sin necesidad de transformarlos cuando no se ajustan al supuesto de normalidad. profundidad. Es importante aclarar que la distribución de las variables predictoras o independientes no definirá la estructura del error que asumirá el modelo generalizado. ya que. y sus diferentes tipos de error (el cambio de la varianza con respecto a la media). la información del cuadro 27-1 se puede utilizar como guía general.. Distribuciones de probabilidad .. Para profundizar en las distribuciones de probabilidad discretas (Poisson. binomial) y continuas (gamma. exponencial). y estará determinada por el tipo de distribución que siga la variable respuesta (dependiente). Tasas Conteos agrupados Incidencia acumulada Error binomial Conteos con un límite superior y con la misma probabili..Conteo de personas infectadas de un total de dad de presentar el evento pacientes internados Conteos expresados en proporciones Proporción de pacientes agrupados por sexo Datos de presencia-ausencia Presencia o ausencia de enfermedad Error gamma Cuantitativas continuas con coeficiente de variación Alternativa a la distribución normal constante Error exponencial Datos de probabilidad de supervivencia Tiempo transcurrido hasta el evento terminal (capítulo 26). X i 2 . Distribución del error Tipo de variable Ejemplos Error normal (Gaussiano) Cuantitativas continuas Talla Determinaciones bioquímicas Error Poisson Cuantitativas discretas: Número de pacientes Conteos sin un límite superior y sin valores menores de 0 Variables de densidad: Densidad poblacional Conteos por unidad de volumen.1) en donde el valor medio estimado de Yi está explicado por la función lineal predictiva /. Xi2. Función lineal predictiva La función predictiva del modelo / corresponde a la suma lineal de los efectos de cada una de las variables predictoras Xk sobre la variable respuesta Yi. y en donde k corresponde a los coeficientes o parámetros de la regresión estimados a partir de los datos. rango.240 Bioestadística ECUACIÓN DEL MODELO LINEAL GENERALIZADO Los modelos lineales generalizados tienen en su estructura tres propiedades: • Estructura del error ei • Función lineal predictiva / (Xi1. la combinación específica de las variables predictoras Xi1. es necesario hacer uso de una función enlace que relacione la estructura lineal del modelo con los valores estimados.1): μYi = ( X i1 . + k X ik (27. este libro. según lo visto en el capítulo 23. μYi = ( X i1 . X ik ) = 0 + 1 X i1 + 2 X i 2 + L. El tipo de error (distribución) que se empleará en el modelo se definirá con base en el conocimiento que se tenga sobre la variable respuesta. %.2 se conoce como estructura lineal del modelo. Xi2. La elección del mejor modelo estará siempre determinada por el tipo de datos que se tengan.Xik) • Función enlace La ecuación del modelo lineal generalizado es. es decir.. son variables aleatorias que se miden sin error.. los parámetros para k número de variables. © Editorial El manual moderno Fotocopiar sin autorización es un delito. Zuur et al.2) k =1 en donde xik son los valores que asumen las diferentes variables predictoras y . en términos generales...Xik. que produzca la menor devianza residual (variabilidad no explicada). Así como sucede en la regresión lineal múltiple. y no los datos al modelo. Determinar los valores de los parámetros (de las variables predictoras) que mejor ajusten el modelo con los datos (máxima verosimilitud). La modelación estadística tiene dos objetivos principales: 1. Nótese que al considerar la distribución normal. dicha función será la logarítmica y el valor recíproco devolverá el valor de las estimaciones a las unidades originales de la variable.. © Editorial El manual moderno Fotocopiar sin autorización es un delito.. de manera que garantizará que éstas se mantengan dentro de los límites y condiciones razonables marcados por el tipo de distribución de Y. La función enlace transformará las estimaciones.3) El valor medio estimado por la función lineal predictora se obtendrá entonces al transformarlo con la función enlace g. es importante señalar que el modelo se ajustará a los datos. es decir.Introducción a los modelos lineales. donde se asume siempre el mismo tipo de modelo. debemos elegir una función específica g que relacione los valores medios estimados Yi con la función lineal predictiva . Si existe duda sobre qué distribución del error considerar. De todo el conjunto de modelos que potencialmente pueden utilizarse para explicar el conjunto de datos (cuadro 27-3). μYi = X i1 X i 2 X ik μYi = e ( X i 1 . X ik ) (27. Cuadro 27-2 Función enlace y recíprocos empleados en los modelos lineales generalizados Error Función enlace g(Yi) g-1(Yi) Normal Identidad h = mYi mYi = h Poisson Log h =log(mYi) mYi = eh Binomial Logit Gamma Recíproco μYi ( = log = 1 ( μY = e (1 μYi ) μYi (1+ e ) i μYi = 1 Ejemplo explicativo 27-1 Considérese que se quiere evaluar el efecto de la edad. debe considerarse el efecto de la colinealidad entre las variables independientes (covariables) para decidir sobre su inclusión en el análisis del modelo (capítulo 24). el cual genera estimadores no sesgados que minimizan la varianza. Una de las ventajas de la modelación estadística es que no existe un solo modelo posible. como ocurre en la regresión tradicional y en el análisis de ANOVA. resulta necesario utilizar una función enlace que garantice que las estimaciones no tomarán valores negativos o menores 241 de 0. los cuales arrojarán las predicciones que más se asemejen a los datos observados. siempre y cuando la variable dependiente de ambos modelos a evaluar sea la misma. Un modelo adecuado y conveniente siempre será aquel que explique de la manera más sencilla posible el sistema o fenómeno estudiado. Se debe tener en mente que no existe un modelo cien por ciento realista que explique completamente la respuesta que observamos (medida en nuestra variable dependiente). . De acuerdo con el conjunto de datos y el modelo seleccionado. Encontrar el modelo mínimo adecuado que mejor explique o describa los datos (a la variable respuesta). Es importante recordar . Los parámetros del modelo son estimados por medio del método de máxima verosimilitud.. el valor de la función enlace es el mismo que el valor promedio de Y (el análisis resulta equivalente a la regresión lineal múltiple). Función enlace Debido a que nuestra variable respuesta o dependiente sigue un tipo de distribución particular (no normal). . Las predicciones que genere el modelo no pueden interpolarse fuera del rango de datos bajo el cual fueron estimados los parámetros del modelo (ejemplo explicativo 23-3). Para conocer el valor medio estimado Yi en las unidades originales de la variable Y. podrá compararse la bondad de ajuste de dos modelos generalizados construidos con función enlace distinta (distribución del error). Al escribir la ecuación del modelo con la cual se iniciará el análisis generalizado. se utilizará el recíproco de la función enlace g-1 (Yi). También debemos recordar que el modelo está limitado al conjunto de datos conforme al cual fue creado. g (μYi ) = (27. se estimarán los parámetros. se podrá incluir o no en el término lineal de la ecuación variables categóricas o cualitativas (dummy) e interacciones entre dos variables (capítulo 24). En el cuadro 27-2 se presentan las funciones enlace comúnmente empleadas de acuerdo con la distribución del error que siga la variable dependiente o respuesta.4) TIPOS DE MODELOS Un modelo es una representación de la realidad. Para comprender el segundo punto. el mejor será aquel modelo mínimo (criterio de parsimonia) que explique la mayor variabilidad de los datos (ajustado). El desempeño del modelo se juzgará (entre otros criterios) en términos de la similitud que tengan las predicciones del modelo con los datos observados. En este ejemplo. el índice de masa corporal y la temperatura ambiental sobre la tasa de suicidios calculada para un periodo de 10 años.. Debido a que conocemos que la variable respuesta (tasa de suicidios) sigue una distribución de Poisson (cuadro 27-1). La función enlace apropiada será aquella utilizada en el modelo que genere el menor valor de devianza residual (varianza no explicada). X i 2 . 2. SPSS. índice de masa corporal) dependerá del objetivo del modelo. 242 . El archivo que utilizaremos como ejemplo en este capítulo se denomina “Cap27_GLM”.g. Consola RCommander que muestra el menú “Datos” y el submenú “Importar datos” con la opción “desde con- junto de datos Excel” seleccionada. pero se mantiene significativo Grados libertad: / – p´ – 1 Primero abrimos el programa R y cargamos el paquete RCommander (ejemplo explicativo 4-4). seleccionamos el menú “Datos” y elegimos la opción “Importar datos”. El programa abrirá Figura 27-1.Bioestadística Cuadro 27-3. Selección de la función enlace a utilizar >library(Rcmdr) Una vez abierta la consola de RCommander. de las respuestas que se esperan obtener de él acerca de la variable respuesta y del conocimiento biológico del sistema estudiado. Tipos de modelos estadísticos mínimo ajustado. Construcción del modelo máximo 2. La selección e inclusión en el análisis de una u otra variable redundante (e. Access o dBase” (figura 27-1). la cual abrirá un submenú con diferentes opciones de importación de datos en formato texto. cualitativos e interacciones) Ajuste: algunos de los términos no contribuyen de manera significativa Grados libertad: / – p – 1 Poder explicativo: depende de los términos incluidos y su interacción con la variable respuesta Modelo simplificado con 0 < p´< p Ajuste: menor al modelo máximo. Selección de la distribución del error que sigue la variable respuesta de interés 3. talla vs. En este submenú seleccionamos la opción “desde conjunto de datos Excel. © Editorial El manual moderno Fotocopiar sin autorización es un delito. comenzaremos el análisis generalizado con los tres pasos siguientes: 1. Tipo de modelo Interpretación Modelo saturado Contiene un parámetro por dato i Ajuste perfecto Grados libertad: ninguno Poder explicativo: ninguno Construcción del GLM en RCommander 27-1 Modelo máximo Contiene todas las variables predictoras de interés (términos cuantitativos. Minitab e incluso desde el portapapeles. El paquete lo podemos llamar desde RStudio seleccionando la casilla “Rcmdr” en la lista de paquetes (ejemplo explicativo 4-4) o escribiendo directamente en la consola de R: Modelo mínimo adecuado 2 Poder explicativo: r = SCR Modelo nulo STC Incluye sólo un parámetro igual al valor de la media Y Ajuste nulo Grados de libertad: / – 1 Poder explicativo: ninguno que variables predictoras estrechamente correlacionadas y redundantes no se deberán incluir en el análisis debido a que tendrán un fuerte efecto en la selección final del modelo Retomando todo lo anterior. Recuerde que en esta opción el programa será el que defina al grupo de referencia (variables cualitativas en regresión. capítulo 24). la primera variable indicadora (cualitativa) será la que esté registrada en el primer dato de la base de datos. . luego. En este ejemplo. Seleccionamos el menú “Estadísticos”. RCommander reconoce y permite codificar las variables categóricas con texto. y para el recuadro derecho todas las variables independientes de interés. Para editar o ver el conjunto de datos. si se trabaja con alguna versión posterior de Excel. como se observa en la variable X6 de la figura 27-3. dejaremos fuera del modelo la variable X6 y elegiremos el resto (figura 27-7). el submenú “Ajuste de modelos” y la opción “Modelo lineal generalizado” (figura 27-6). una ventana donde nos pedirá el nombre que queremos darle al conjunto de datos (aparecerá “Datos” de manera automática). RCommander sólo permite importar archivos en formato Excel versión 2003 o anteriores. Figura 27-2. Si las variables categóricas fueron previamente codificadas con números (ejemplo explicativo 24-6). por lo que el programa asignará a la variable 243 indicadora “SANO” el valor 1 y a “LESIONADO” el valor 0 o grupo de referencia. seleccionaremos para este ejercicio la “Familia” del error “Gaussian” e “identity” de la función enlace haciendo doble clic (figura 27-7). es necesario indicar a RCommander que dicha variable (X7. Consola RCommander que indica que el conjunto de datos fue importado y contiene 43 filas y 8 columnas. © Editorial El manual moderno Fotocopiar sin autorización es un delito.Introducción a los modelos lineales. es necesario guardar la base de datos en versión “Libro de Microsoft Excel 97-Excel 2003”. el renglón 1 corresponde a datos de un individuo clasificado como “SANO”. En este ejemplo. la consola deberá mostrar solamente una lista de comandos y el tamaño del archivo importado en la parte inferior de la casilla “Mensajes” (figura 27-2). seleccionamos el cuadro superior “Editar conjunto de datos” y hacemos clic sobre el nombre de la variable (columna) que queremos editar para que aparezca la ventana “Variable editor”. SPSS o Access. Una vez lista la base de datos. es necesario poner atención a las versiones del programa en que se trabaja. . Al terminar los pasos anteriores. . abrirá la ventana con el directorio de Windows para especificar la ubicación del archivo a importar y. En RCommander. en la cual seleccionaremos “character” (figura 27-5).Si se tienen problemas al importar archivos creados en Excel. Finalmente. finalmente (en el caso de archivo Excel). por lo que en la ventana de edición de datos “Editar conjunto de datos” se podrá generar una nueva variable X7 con la recodificación de la variable categórica (figura 27-4). Es probable que se tenga el mismo inconveniente para bases de datos creadas en Access o SPSS. Para esto. Elegiremos para el recuadro izquierdo la variable Y. se deberá seleccionar alguno de los cuadros de la parte superior del programa: “Editar conjunto de datos” o “Visualizar conjunto de datos” (figura 27-3). nos pedirá que seleccionemos la hoja de cálculo correspondiente. figura 27-4) es un factor en lugar de una variable numérica. construiremos el modelo máximo a analizar. Las variables se eligen posicionando el cursor en el recuadro de la “Fórmula del modelo” y haciendo doble clic en la variable correspondiente. En la ventana “Modelo lineal generalizado” construiremos el modelo seleccionando la variable de interés en cada recuadro de la opción “Fórmula del modelo”. En este ejemplo puede resultar inconveniente considerar a los lesionados como grupo de referencia. 244 Bioestadística Figura 27-4. Consola RCommander que muestra la ventana “Editar conjunto de datos” con una nueva recodificación para la variable X6 almacenada en la variable X7. Consola RCommander que muestra la ventana de visualización de datos. . © Editorial El manual moderno Fotocopiar sin autorización es un delito. Figura 27-3. . Figura 27-6. Consola RCommander que muestra el menú “Estadísticos” con la opción “Modelo lineal generalizado”. variable. seleccionada del submenú “Ajuste de modelos”.Introducción a los modelos lineales. Consola RCommander que presenta la ventana de edición del conjunto de datos y la ventana del editor de la © Editorial El manual moderno Fotocopiar sin autorización es un delito. . . 245 Figura 27-5. Si se quiere comprobar su relevancia en términos estadísticos. se deberá ampliar el tamaño de muestra. explique la mayor variabilidad de los datos observados. En cualquier modelo.5) en donde p corresponde al número de parámetros del modelo y “log-likelihood” es el valor del logaritmo de la verosimilitud. incluya únicamente aquellas variables que contribuyen de manera significativa a la explicación de la variable respuesta observada. No debe mantenerse en el modelo una variable por el simple hecho de haber sido la más costosa en términos de esfuerzo y dinero. deben considerarse. el cual establece que la explicación correcta siempre será la más simple. © Editorial El manual moderno Fotocopiar sin autorización es un delito. El modelo final mínimo ajustado será el que. después de haber evaluado paso por paso el efecto de incluir o excluir a cada variable predictora. lo cual limita el ajuste del modelo. Al trabajar con la distribución del error de Poisson. Por tanto. • Preferir las variables que resultan más sencillas o económicas de medir (con fines de aplicación en estudios posteriores) a las más complicadas y costosas. se deben considerar tres criterios: . el criterio AIC es una medida del ajuste del modelo y de su complejidad. por lo que deberá considerarse a la devianza residual como criterio de bondad de ajuste durante el ajuste del mejor modelo. Figura 27-7. repetir el experimento o generar una mejor clasificación de categorías. donde se construye el modelo máximo a analizar. Para seleccionar el mejor modelo. al sistema estudiado medido mediante la variable respuesta. t-Student o el valor de z) y sus valores de probabilidad p que generan los programas de regresión. diferentes puntos: • No incluir en el modelo variables redundantes y agrupar en una sola categoría los niveles de las variables categóricas que no difieran entre sí (entre menos factores mejor). El criterio de información de Akaike (AIC) es un estadístico que penaliza el número de parámetros superfluos incluidos en el modelo añadiendo el término "pW! a la devianza: AIC = 2*log likelihood+ 2( p + 1) (27. La significancia estadística se evalúa por medio de los estadísticos (e. el mejor modelo será el que incluya el menor número de parámetros y que. Consola RCommander que presenta la ventana “Modelo lineal generalizado”. Lo anterior se ajusta a la definición del concepto de parsimonia. con lo cual se mide la contribución de cada variable en el modelo. es decir. a menos que la significancia de su contribución al ajuste del modelo lo justifique. plausibles en términos del conocimiento actual sobre el sistema en estudio y comprobables. como se dijo arriba. 1.246 Bioestadística • Conservar en el modelo solamente las variables que mejoren significativamente el ajuste del modelo. aunado al concepto de parsimonia. Limitarse de incluir variables cercanas al nivel de significancia sólo porque se consideran importantes. en términos del modelo estadístico.g. 2. ya sea con la evidencia presente o mediante nuevos estudios (nuevas hipótesis). • La decisión sobre la inclusión o exclusión de una variable en el proceso de simplificación del modelo dependerá en ocasiones de la experiencia adquirida con este tipo de análisis y del conocimiento del investigador sobre el sistema estudiado. Entre más pequeño sea su valor mejor será el ajuste del modelo. La significancia estadística de cada uno de los coeficientes en el modelo. Criterios de selección del modelo y de bondad de ajuste MÉTODOS DE SELECCIÓN DEL MODELO MÍNIMO ADECUADO Los GLM evalúan el efecto simultáneo de múltiples variables independientes sobre una variable dependiente de interés. Durante la selección de las variables que se incluirán en el modelo máximo (a analizar) y en el modelo mínimo ajustado (seleccionado). sin embargo. De esta manera. • Preferir variables que ayuden a generar explicaciones sencillas. no podrá utilizarse el criterio AIC. esto se contrapone forzosamente con la parsimonia requerida en el número de parámetros. el ajuste será mayor (mayor % de variabilidad explicada) conforme aumente el número de variables predictivas. y se basa en el cambio del criterio AIC.53 100 = 53% 485 importante el ajuste del modelo. cuadro 27-5) genera el menor valor de AIC (del nuevo modelo) entre todo el conjunto de variables. El procedimiento de simplificación del modelo puede hacerse de cuatro modos diferentes como se indica en el cuadro 27-5. mientras que en el segundo se sustrajo una de las variables cuadro 27-4.devianza residual 100 = % devianza nula (27. tenemos para el modelo 1 el siguiente resultado: 485 225 = 0. . En la simplificación hacia atrás. Cuando en el análisis se incluyen variables predictivas correlacionadas entre sí y con la variable respuesta. entre más pequeño sea el valor de la devianza residual mejor será el ajuste del modelo. Ejemplo explicativo 27–3 Y para el segundo modelo. ya que la variabilidad explicada atribuida al conjunto de variables en el modelo puede verse modificada significativamente cuando las covariables se extraigan o añadan.6) La fórmula anterior expresa el porcentaje de la variabilidad explicada por el modelo. Si utilizamos la fórmula 27. el orden en que se incluyan o se sustraigan del modelo afectará la interpretación de cada uno.Introducción a los modelos lineales. Siguiendo el principio de parsimonia. Valores de devianza durante la selección del modelo mínimo ajustado Devianza Modelo 1 y = 0 + 1 + 2 + 3 Modelo 2 y = 0 + 1 + 2 Nula 485 485 Residual 225 235 Hacia atrás Se sustrae una variable en cada paso Hacia delante Se añade una variable en cada paso Adelante/atrás Se añade una variable y en el mismo paso se sustrae otra Atrás/adelante Se sustrae una variable y en el mismo paso se añade otra . En los modelos generalizados no se obtiene un valor de R2. Por ello resulta sumamente importante evaluar la colinealidad (capítulo 24) de la base de datos antes del análisis. La devianza residual es un criterio de bondad de ajuste sumamente útil tanto para evaluar la contribución de las variables durante su proceso de selección como para evaluar el ajuste general del modelo. En cada paso. la devianza residual equivale a la suma de cuadrados del error (SCE). eliminar del modelo máximo variables redundantes y ejecutar siempre la simplificación del modelo de manera sistemática.6. el cual explica 51% de la variabilidad de los datos con sólo dos variables. pero un resultado semejante puede obtenerse por medio de la evaluación de la devianza residual en relación con la devianza nula del modelo: devianza nula . evaluando el cambio en el ajuste del modelo en cada paso (adición o sustracción de variables). La colinealidad puede afectar el proceso de selección y simplificación del modelo. una variable que al ser removida no causa un aumento significativo de la devianza/AIC puede quedar fuera. se tiene: © Editorial El manual moderno Fotocopiar sin autorización es un delito. 247 485 235 = 0. podemos concluir que la contribución de la variable 3 al modelo es mínima y la sustracción de la misma no modifica de manera El programa RCommander (y algunos otros paquetes estadísticos de regresión) realiza la simplificación por pasos mediante un solo comando. Procedimientos de simplificación del modelo por pasos Cuadro 27-4. El primer modelo está conformado por tres variables (4 parámetros). primero se genera el modelo máximo y sobre éste se comienza a extraer una a una las variables para evaluar en cada paso el cambio en el ajuste del modelo. De igual manera que el AIC.9). Una variable que al ser removida del modelo genera un aumento significativo en la devianza residual o del AIC debe permanecer en el modelo. Ejemplo explicativo 27–2 Considérese que se está evaluando el ajuste general de dos modelos para elegir alguno de ellos como el modelo mínimo ajustado. por el contrario. la variabilidad no explicada por el modelo. Cuando se realiza la simplificación de un modelo con error Poisson. 3. el programa evalúa cuál de todas las variables sustraídas (o añadidas. Proceso de simplificación del modelo Para simplificar el modelo se utiliza el método por pasos (stepwise). la mejor decisión será elegir al modelo 2 como el modelo mínimo ajustado. la devianza nula equivale a la suma total de cuadrados (STC) y explica la variabilidad total de la variable respuesta en estudio. en el que se suprimió la variable 3. mientras que el modelo al que se le sustrajo la variable 3 explica 51%. . Así como sucede con el coeficiente de determinación (fórmula 23. Cuadro 27-5.51 100 = 51% 485 El modelo con cuatro parámetros explica 53% de la variabilidad. Con esta información. se utiliza la devianza residual como criterio. Los grados de libertad. Primer paso hipotético de eliminación Variable AIC -X2 415 -X1 416. En la consola de RCommander. 248 .1 -X4 416. © Editorial El manual moderno Fotocopiar sin autorización es un delito. Segundo paso hipotético de eliminación Variable AIC -X1 414 Ninguna 415.6 El modelo final será el conformado por la variable X4 con un valor de AIC = 414. Para esto. Los coeficientes estimados del modelo mínimo ajustado (por ser el último paso sin eliminación de variable). de hacerlo así. En este caso. 5. Una vez que se ha especificado el modelo. por lo que quedará un modelo con p>" parámetros y un valor de AIC = 414. 3. El valor de los residuales del modelo. El resultado que observamos en la figura 27-8 corresponde al estándar generado por el programa estadístico que evalúa la contribución de todas las variables independientes sobre la variable respuesta de manera simultánea. Este procedimiento continuará hasta encontrar un modelo en el que la sustracción de cualquier variable genere un valor de AIC mayor del que presenta el modelo del paso anterior: Cuadro 27-8.Bioestadística Consideremos un modelo con p parámetros y un AIC = 500. El significado de los códigos. el valor del estadístico t-Student y su valor de probabilidad p. En este punto. Una de las ventajas de RCommander es que. La estimación de los coeficientes. se selecciona la opción “aceptar”. la devianza residual y el AIC del modelo ajustado. el error estándar. La devianza nula del modelo con sus grados de libertad. evaluando en cada paso la significancia estadística de cada parámetro estimado (variable independiente) y el cambio en la devianza residual del modelo. las variables X3 y X7 son las que contribuyen significativamente a explicar los datos. ya que el valor del AIC tiende al infinito y la opción del programa de simplificación por pasos no es útil. Para evitar lo anterior. lo que limita el análisis con una distribución del error tipo Poisson. 4. seleccionaremos en el menú la opción “Modelos” y luego “Selección de modelo paso a paso” (figura 27-9a). la distribución del error y la función enlace en la ventana “Modelo lineal generalizado” (figura 27-7). 3. se puede hacer la simplificación del modelo por pasos de manera automática. Para estos casos se requiere hacer el proceso de simplificación por pasos de manera manual y directa en la consola de R. 4. 2.6 En el segundo paso se eliminará del modelo la variable X1. Sin embargo. en donde el programa indica los coeficientes de las variables que permanecieron en el modelo y la siguiente información: 1. Construcción del GLM en RCommander 27-2 Realizaremos la simplificación del modelo y elegiremos el modelo mínimo ajustado a partir del que construimos en la sección construcción del GLM en RCommander 27-1. y podríamos caer en errores en la selección de variables por efecto de la colinealidad.4 -X4 416. se hará una nueva evaluación: Cuadro 27-7. veremos la evaluación paso por paso seleccionando en cada uno la variable que generó el menor valor de AIC (o la menor devianza residual). Sobre este nuevo modelo. podríamos elegir ambas variables y concluir que el modelo para explicar la variable respuesta es y = #X# ?X?. Cuando se utiliza la devianza residual como criterio. solicitaremos a RCommander realizar la simplificación del modelo por pasos. la devianza nula. El modelo que se revisara en el último paso evaluado con un AIC=314. con p>parámetros y un valor de AIC = 415. En la consola de RCommander veremos el resultado estándar del análisis (figura 27-8) con la siguiente información: 1. no estaríamos simplificando el modelo de la manera correcta y sistemática. Tercer paso hipotético de eliminación Variable AIC Ninguna 414 -X4 416.6 Al eliminar la variable X2 el nuevo modelo tendrá el AIC más bajo en comparación con lo que pasaría si se eliminara la variable X1 o X4. elegiremos las variables X1 a X7 (excluyendo la variable X6) como variables independientes con una distribución Gaussiana del error y función enlace identidad.43. Si en el primer paso eliminamos del modelo la variable 2. 2. Los valores de la devianza residual y el AIC que resultan de la eliminación de cada una de las variables. La devianza residual del modelo estándar con sus grados de libertad. por medio de un comando. se siguen los mismos pasos. En este ejercicio. Se abrirá una ventana en donde elegiremos la opción de simplificación hacia “Atrás” bajo el criterio “AIC” (figura 27-9b) y haremos clic en “aceptar”. En la figura 27-10 se observa el último paso. el nuevo modelo tendrá un valor de AIC de 415: Cuadro 27-6. La desventaja es que la simplificación en esta consola se basa únicamente en el criterio AIC. La ventaja de esto es que el investigador manipula la inclusión/exclusión de las variables y tiene total control sobre la creación del modelo mínimo ajustado. . A B Figura 27-9. . Consola de RCommander que muestra a) el menú “Modelos” con la opción “Selección de modelo paso a paso” seleccionada y b) la ventana de “Selección de modelo paso a paso” con las opciones “Atrás” y “AIC” seleccionadas. 249 © Editorial El manual moderno Fotocopiar sin autorización es un delito. Figura 27-8. . Consola de RCommander con el resultado estándar del análisis generalizado.Introducción a los modelos lineales. © Editorial El manual moderno Fotocopiar sin autorización es un delito. y elegir el modelo más parsimonioso. Consola de RCommander que muestra a) los resultados del modelo mínimo ajustado con función enlace “identidad” y b) los resultados del mismo modelo ajustado con función “log”. evaluar los resultados obtenidos mediante diferentes opciones de simplificación (cuadro 27-5) y funciones enlace. con una función enlace “identidad” (Gaussian). el mejor modelo será el que no presente patrones en los residuales.250 Bioestadística valores del nivel de significancia de cada parámetro que serán reportados (figura 27-11a). El ajuste entre dos modelos también puede compararse analizando los residuales de cada uno. El autor deberá realizar una exploración más exhaustiva al trabajar con sus datos. que no resulta del todo significativo y convincente (figura 27-11a). el modelo que considera una relación entre la varianza y la media (error) tipo Poisson resulta ser más adecuado. sin embargo. es necesario volver a construir el modelo desde el menú “Modelo lineal generalizado” (figura 27-7) y añadir. . los modelos Gaussiano y Poisson generaron la misma interpretación biológica (mismas variables) y explican 35% de la variabilidad de los datos. Si se analizan en profundidad los datos que se han utilizado del archivo “Cap27_GLM”. pero bajo una distribución del error tipo Poisson (figura 27-11b). En el ejemplo (figura 27-11). Consola de RCommander con el resultado final del proceso de simplificación del modelo. para así obtener los Figura 27-11. tendríamos un modelo simplificado hacia atrás. Figura 27-10. lo cual se puede comprobar por la diferencia observada en la devianza. el cual sólo puede tomar valores positivos y presentar una varianza que aumente linealmente con la media. Una vez terminada la simplificación por pasos. Esto se debe a que la variable Y del ejemplo fue tomada de una variable de datos reales correspondiente a un índice de salud. significativamente menor cuando se usa la función enlace “log” (figura 27-11). esta vez. sólo las variables elegidas en la simplificación. plausible y significativo en términos de los parámetros y devianza explicada. Si nos quedáramos sólo con la información obtenida hasta este punto. podremos concluir que el mejor modelo ajustado es el que presenta las variables elegidas durante la simplificación del modelo. “Diagnósticos numéricos” y “Gráficas” (figura 27-12). significancia estadística (el estadístico t-Student y su valor de probabilidad p) e intervalo de confianza de cada parámetro estimado. 3. . 251 En el diagnóstico gráfico del modelo se buscará cualquier patrón que presenten los residuales. donde se encuentran los comandos “Intervalos de confianza”. si se desea. La diferencia es que en lugar de presentar el valor de R2 se presentará la devianza nula y la devianza residual. Lo más conveniente es presentar un cuadro con los siguientes valores: © Editorial El manual moderno Fotocopiar sin autorización es un delito. residuales contra valores observados o valores estandarizados. significa que no se eligió correctamente la distribución del error. Ecuación del modelo mínimo ajustado construida con los parámetros (coeficientes) estimados. contra variables predictoras no incluidas en el modelo máximo. Consola de RCommander que presenta las opciones del menú “Modelos” con la opción “Test de hipótesis” seleccionada. 1. Nivel de significancia del modelo mínimo ajustado: el estadístico F de Fisher y su valor de probabilidad p (Gaussian). Construcción del GLM en RCommander 27-3 Todos los resultados mencionados pueden generarse en RCommander desde el menú “Modelos”. por lo que podrá usarse el comando “Gráficas básicas de diagnóstico” de RCommander sin problemas. lo mejor es utilizar los residuales de la devianza. Si se encuentra algún patrón (relación 0) en los residuales. y. Coeficientes estimados: valor. apalancados (leverage) o la distancia de Cook (capítulo 24). la devianza nula y la devianza residual (Poisson) o el criterio AIC. . En el menú “Gráficas” se halla el comando “Gráficas básicas de diagnóstico”. Cuando se trabaja con error de distribución de Poisson. El programa R usa automáticamente los residuales de la devianza. que el supuesto de independencia con la variable predictora graficada no se cumple o que la variable graficada no incluida en el modelo máximo debe incluirse en él. respectivamente. 4. el porcentaje de la variabilidad explicada por el modelo (ecuación 27-5). “Test de hipótesis”.Introducción a los modelos lineales. en donde se grafican los residuales. Algún gráfico con el diagnóstico del modelo: residuales contra predicciones. Si el modelo tiene distribución binomial. que se usa para presentar los resultados de un modelo con una distribución de error normal. lo más correcto es utilizar los residuales de Pearson o los residuales de la devianza. Presentación de resultados Los resultados más importantes que deberán informarse después de un análisis generalizado son los mismos que los reportados en una regresión lineal múltiple (figura 24-5). residuales recortados (jackknife). 2. incluso. Los residuales podrán graficarse contra los valores predichos. contra cualquier variable predictora utilizada en el modelo o. En el menú “Test de hipótesis” puede encontrarse la “Tabla de ANOVA”. . Algunos autores y revisores de las publicaciones científicas sugieren presentar en un cuadro las variables predictoras consideradas en el análisis (modelo máximo) que fueron excluidas del modelo ajustado junto con sus valores de devianza y significancia. 5. e incluso Figura 27-12. 002 X 3 + 0. por lo que no es necesario instalar ningún paquete adicional a la sesión de trabajo de R. Ejemplos de aplicación de los modelos lineales generalizados en proyectos de investigación sobre salud humana Variable respuesta Interpretación de los coeficientes. índice de masa materna en mujeres sud. En los modelos que incluyan variables categóricas se debe generar el mismo número de ecuaciones por categorías presentes en la variable. frecuencia en el consumo de alimentos del mar (pescado. Baja California Sur (19852008).95+ 0.065 X 5 y=e Concentración de mercurio total medido en cabello de mujeres sudcalifornianas.38+ 0. 252 . donde © Editorial El manual moderno Fotocopiar sin autorización es un delito.03 X 4 + 0.corporal. californianas. duración rio total medido en leche de la lactancia. el cual es una función del paquete estadístico “stats”.065 X 5 Sanos y = e1.38+ 0.03 X 4 + 0.Bioestadística pueden compararse dos modelos distintos (siempre y cuando la variable respuesta sea la misma) con la opción “Comparar dos modelos” (figura 27-12).03 X 4 + 0. ninguno). En los documentos de ayuda de R (o RStudio) se puede encontrar más información sobre la descripción. exposición al tabaco (fumador.002 X 3 + 0. &~ especifica el modelo a evaluar y en “familia” se especifica el tipo de distribución que se desea utilizar. Actividad de las enzimas antioxidantes catalasa (CAT). mariscos.03 X 4 + 0.002 X 3 + 0.38+ 0.065 X 5 0. Variables predictivas Concentración de mercu. Siguiendo el ejemplo del ejercicio (construcción del GLM en RCommander 27-1).43(0) Sanos y = e2. 0.38+ 0.. número de gestas. Grado de peroxidación de lípidos en individuos obesos diabéticos y en diabéticos sin obesidad (diabetes tipo 2).43 X 7 2. fría).Xn.7) por lo que siempre se deberá generar el parámetro del grupo control manualmente.002 X 3 + 0.Edad.38+ 0. ambos. EJEMPLOS DE APLICACIÓN EN CASOS DE SALUD HUMANA y = e2. fumador pasivo. y = e2.002 X 3 + 0. family=poisson) en donde “glm” es la función para generar el análisis. los usos y los argumentos que utiliza el comando >glm. Cuadro 27-9.Temperatura ambiental.002 X 3 + 0. Los programas estadísticos siempre generan el número de parámetros igual a (número de categorías − 1) Ejemplo explicativo 27–4 La interpretación de los coeficientes en un GLM es igual que en los modelos de regresión (capítulo 24). (27..43(1) Lesionados cuyo resultado final es: El análisis lineal generalizado puede realizarse directamente desde la consola de R mediante el comando >glm.065 X 5 0. superóxidodismutasa (SOD) y glutatión peroxidasa (GPx). Tasa de suicidios por uni.065 X 5 0. número de embarazos. se ha establecido como grupo control a los individuos sanos: X7 = 0 Sanos Índice de masa corporal. temporada dad de tiempo (año) en (cálida.065 X 5 Lesionados La aplicación de los modelos lineales generalizados ha resultado muy útil en el estudio de la salud humana. ANÁLISIS GENERALIZADO EN LA CONSOLA R 1 Lesionados Debido a que en nuestro modelo tenemos una variable cualitativa con dos categorías (factores). deberemos generar dos ecuaciones con base en los resultados de la figura 27-11b de la siguiente manera: y = e2.03 X 4 + 0.43 X 7 Sanos Lesionados Los parámetros finales para cada una de las categorías se obtendrán sumando el valor del coeficiente 0 al coeficiente de la variable categórica b7 . Las personas con conocimiento más avanzado del programa R pueden usar el comando y la estructura siguiente: >glm(Y~X1+X2+X3.03 X 4 + 0. ninguno). J. antropométricas. A. 28(6). Gaxiola-Robles. J. . y Méndez-Rodríguez. Peroxidación de lípidos y la respuesta del sistema de defensa antioxidante en el diabético tipo 2 obeso en comparación con el diabético tipo 2 sin obesidad. Acosta.. A. Salud Mental. L. T. V. C. 28(3). Celis de la Rosa. Celis. Crawley. Díaz-Castro. S. K. Méndez-Rodríguez. Saveliev. England: John Wiley and Sons Ltd. L... Zuur. . . Gaxiola-Robles.. G. Walker. 421-427.. Nutrición Hospitalaria. C. C. tabaco y otros factores maternos. L. T. A. El cambio climático y su posible relación con el suicidio en la población sudcaliforniana 1985–2008.. (2007). V. M. F. Concentraciones de mercurio en leche de mujeres del noroeste de México.. para explicar la respuesta observada del fenómeno de interés a partir de su relación con diversas variables predictoras. 934-942.. Veléz-Alavez. Zenteno-Savín. J. A. Bitzer-Quintero. O. 2013.. García-González. Gaxiola-Robles. A. & Smith. En el cuadro 27-9 se enlistan diferentes estudios transversales ecológicos en los que se utilizó el análisis de modelos lineales generalizados y la 253 simplificación del modelo por pasos. New York: Springer. Mixed Effects Models and Extensions in Ecology with R.. Labrada-Martagón.. Nutrición Hospitalaria.. J.. M. Labrada-Martagón V. T. B. y Zenteno-Savín. Ramírez-Jirano. 1905-1911. R. posible asociación a la dieta. E. Labrada-Martagón. REFERENCIAS © Editorial El manual moderno Fotocopiar sin autorización es un delito. (2009). es común tener interés por estudiar variables respuesta con distribuciones diferentes a la normal. (2013). (2013). R. J.. N. clínicas y ambientales medidas en los sujetos del grupo estudiado.. Ieno. The R Book.Introducción a los modelos lineales.. A. N. 36(5). Zenteno-Savín.. R. M. . 12.O..N.9 No 2 18.C. 15.0 32.1 10 76. y4 = 115.0 75.27 No (grupo de referencia) 0.1 17 73. 9.90 1.0 Si -2.72 Fumadora pasiva 4.O. 11.5 47. y5 = 100.. Ejercicio A1 Variables Bajo peso al nacer Si No Sexo del RN Femenino Masculino Exposición al tabaco Fumadora activa Fumadora pasiva No Consumo de alcohol Si No Frecuencia Porcentaje 10 30 25.C..D.90 No (grupo de referencia) 0.C.4 Masculino 4 21.N xi i =1 Respuestas a los ejercicios N μ) 2 ( xi = xi i =1 N 2 N i =1 N Ejercicio A2 CAPÍTULO 1 Variables Ejercicio 1 Niños con % (de Niños sin % (de bajo peso renglón) bajo peso renglón) Sexo del RN 1.5 16 13 11 40.0 21 19 52. 14..00 1. 10. w3 = 25.N.. Consumo de alcohol CAPÍTULO 6 © Editorial El manual moderno Fotocopiar sin autorización es un delito.C. y3 = 103.5 13 76.10 1.N.D.0 Fumadora activa 13. w2 = 27.. 5. 7.8 Si 4 23.5 255 .. 2.6 15 71. 16. 3.0 Exposición al tabaco Ejercicio 2 w1 = 24.D.8 Pasiva 3 23...5 Ejercicio A3 Variables Sexo del RN Exposición al tabaco Consumo de alcohol 17 23 57.N. 6.60 0..5 No 6 26.N..C.00 1..3 11 68.C. 4.50 1. 8. x4 = 48.9 Riesgo atribuible Riesgo relativo Femenino 7..36 Masculino (grupo de referencia) 0.5 42.5 27.. 13.00 1.. z5 = no. z4 = sí. x3 = 57.2 9 81. z6 = no.9 Fumadora activa 5 31.. Femenino 6 28.1 15 78. x2 = 50. 99 0. 50.642 15.43 -0.00 3 170.785 9.27 50.91 3 098.55.35.25 (pero también cualquier valor mayor que 49 y menor que 50).47 0.96 14.18 0. 256 . desviación estándar poblacional = 576.00 Frecuencia Sexo del RN Masculino Femenino Exposición al humo de tabaco Fumadora activa Fumadora pasiva No Consumo de alcohol Si No Diferencia de medias CAPÍTULO 8 Ejercicio A1a Variables Media de la talla 12 10 8 6 4 2 0 Fumadora activa Fumadora pasiva No fumadora © Editorial El manual moderno Fotocopiar sin autorización es un delito.00 3 348.44 18 7.00 -1.00 Ejercicio Aa Peso al nacer Bajo peso Ejercicio A1b media = 50.193 1999 2000 2001 2002 Cambio porcentual -13.57 0. recorrido intercuartilar = 782. rango = 8.75 (pero también cualquier valor mayor que 548 y menor que 995). mediana = 50. rango = 2 165.88 51.69 42.25 (pero también cualquier valor mayor que 3 425 y menor que 3 626).279 10.71 0.00 49.75 (pero también cualquier valor mayor que 2 y menor que 3).00 49. mediana = 3 140.0. desviación estándar poblacional = 2.55 0.76 CAPÍTULO 7 Variables Sexo del RN Masculino Femenino Exposición al humo de tabaco Fumadora activa Fumadora pasiva No Consumo de alcohol Si No media = 3 102.82 51. percentil 25 = 49.71 -503.03.45 3 332.50 (pero también cualquier valor mayor que 2 631 y menor que 2 877). recorrido intercuartilar = 2. Ejercicio A2a Peso normal Ejercicio Ab Media del peso Diferencia de medias Tabaquismo durante el embarazo 3 105.27.17 0.00 2 914.71 -178. percentil 75 = 52.5.44 -417.44 -0. percentil 75 = 3 475.Bioestadística Ejercicio B Año Ejercicio A2b Casos reportados 10. percentil 25 = 2 692.00 50.00 16 14 2 845. Ejercicio b Ejercicio e H. A. G. G. D. Talla al nacer CAPÍTULO 10 Ejercicio c D. Ejercicio a Ejercicio d H. D. G. 53 55 257 . G. C.Respuestas a los ejercicios Ejercicio Ba Peso al nacer según sexo 6 Femenino Frecuencia 5 Masculino 4 3 2 1 1775 2225 2675 3125 3575 4025 4475 Peso al nacer Ejercicio Bb 4 500 Peso al nacer 4 000 3 500 3 000 2 500 2 000 1 500 45 47 49 51 © Editorial El manual moderno Fotocopiar sin autorización es un delito. G. F. I. B. K. J. E. A. 382 (distribución binomial) o p = 0.67 90 75. H) p = 0. I) p = 0.218.23. C = 11/41 = 0. F) p = 0.136 (distribución binomial) o p = 0.33 107 89. D = 843/1000 = 0. b) z (para muestras pequeñas) = 0.345 (aproximación a la normal).732.127. b) sí es estadísticamente significativa.533 . Variable “Sintió presión”: a) en los controles.683.100. B) p = 0.67 0. b) sí es estadísticamente significativa.647.17 6.153.33 30 25. Ejercicio 3 No 11 18.00 0.00 92 76.843. D) p = 0.683. E = 30/41 = 0. B = 187. G) p = 0.83 Sí 49 61.841.67 113 94. F = 146/956 = 0.122. c) La diferencia no es estadísticamente significativa.433 = 0.83 No 35 58.021.00 28 23. Ejercicio 2 A) p = 0.5. C) p = 0.83 Ejercicio 2 Variable “Tenía prisa”: a) en los controles.06 Parada en el lugar solicitado A) p = 0. Ejercicio 3 A) p = 0. D) p Ejercicio 2 Sí 14 23. B) p = 0. B) p = 0. B) p = 0.782.041. Casos # X2 Controles % # % Tenía prisa por llegar a su destino CAPÍTULO 12 Ejercicio 1 Sí 12 20. b) no es estadísticamente significativa.26 Sintió que otra persona le presionó al bajar A) p > 0.363.94 El vehículo se movió cuando bajaba CAPÍTULO 13 Ejercicio 1 A) p = 0. b) no es estadísticamente significativa. C) p = 493 (distribución binomial) o p = 0. Variable “Parada en el lugar solicitado”: a) en los casos.00 No 46 76.14.114. .52.5.33 No 48 80.115 (aproximación a la normal). Variable “El vehículo se movió”: a) en los casos.13/30 = 0.0. C) p = 0.258 Bioestadística CAPÍTULO 11 Ejercicio 1 CAPÍTULO 15 Ejercicio 1 A = 11.644.33 7 5.433 (aproximación a la normal). A) p = 0.050. © Editorial El manual moderno Fotocopiar sin autorización es un delito.05.67 13 10.17 22. B) p > 0. C) p > 0. Ejercicio 3 a) 16/30 . B) p = 0. D) p = 0.05. E) p = 0. Sí 25 41.248. 00 Sí. pasivo 3 292.17 1.2 a 7.0 2.22 Madre con hipertensión arterial Ejercicio 2 Sí 3 218.67 1. nutricionales y metabólicas 60 3. n total = 291.5 6.2) 1063 Consumo de alcohol durante el embarazo Casos # Controles % # OR IC95% % Tenía prisa por llegar a su destino 3 183.6 Enfermedades del aparato respiratorio 200 10.76 -236.00 1. b) el peso promedio de los niños recién nacidos producto de madres que consumieron alcohol durante el .72 a 12.10 No 3 405.0 Total 2000 100.00 Ejercicio 3 a) OR = 3. Causa # % IC 95% Ciertas afecciones originadas en el periodo perinatal 956 47.67 90 75. Variable “Consumo de alcohol”: a) en los recién nacidos producto de madres que consumieron alcohol durante el embarazo. deformidades y anomalías cromosómicas 357 17. Variable “Hipertensión arterial”: a) en los recién nacidos de madre con hipertensión arterial.38 a 1.1) 708 Tabaquismo durante el embarazo Sí 12 20.8 Variables Resto de las causas 175 8.1) 79 No 3 397.3 a 7.82 0.04 No 48 80.8 16.83 3.33 107 89.5 g menor que el de los niños recién nacidos producto de un embarazo deseado.00 28 23.89 No 46 76. c) la diferencia de pesos es estadísticamente significativa.33 a 9.26 a 7. b) el peso promedio de los niños recién nacidos producto de un embarazo no deseado es 302.2 5.6 a 50. CAPÍTULO 18 Media (desviación estándar) n Diferencia de medias t Embarazo No deseado 3 134. b) el peso promedio de los niños recién nacidos de madre con hipertensión arterial es 179.8 7.2 (528.5 Traumatismos o envenenamientos 125 6.7) 572 Sintió que otra persona le presionó al bajar © Editorial El manual moderno Fotocopiar sin autorización es un delito.67 113 94.44 a 1.4 3.6 a 10.17 1.8 (540.0 8.4) -302. activo 3 194.00 92 76.88 2.0) 434 No 3 419.83 5. Sí Sí 14 23.90 Sí 49 81.3 (517.0 Malformaciones congénitas.62 1.4 7.5) 347 -112.00 0.9 5.6 (529.76 Sí.2 2. n de expuestas = 97.71 No 35 58.33 7 5.3 a 3. c) la diferencia de pesos es estadísticamente significativa.4 Ejercicio 1 Enfermedades endocrinas.2 g menor que el de los niños recién nacidos de madre sin hipertensión arterial.67 13 10.8 45.92 -179.0 Ejercicio 2 n de no expuestas = 194.17.33 30 25.2 (550.2 a 19.4 (536.00 Parada en el lugar solicitado No 11 18.91 0.4 Enfermedades infecciosas y parasitarias 127 6. 1.9 (562.Respuestas a los ejercicios CAPÍTULO 16 259 CAPÍTULO 17 Ejercicio 1 Ejercicio 1 n = 139.4 5. Ejercicio 2 Variable “Embarazo deseado”: a) en los recién nacidos producto de embarazos no deseados.3) 223 -210.5) 182 Deseado 960 3 437.7 a 11. b) IC 95%.5 (560.33 0.3 (533.93.00 El vehículo se movió cuando bajaba Sí 25 41. Variable “Tabaquismo”: a) en los recién nacidos de madres con tabaquismo activo. b) el peso promedio de los niños recién nacidos de madres con tabaquismo activo es 210.9 -293. con p = 0. c) la diferencia de pesos es estadísticamente significativa.5 (560.1) 79 No 3 397.3 (517.3 a -128.36.6 a -172. Ejercicio 2 La diferencia es estadísticamente significativa.6 0.0 33 49.7) 572 Mann-Whitney = 28.2 No 3 405.25 Error 137.Bioestadística 260 embarazo es 236.9 g menor que el de los niños recién nacidos de madres que no fumaron.0 Longitud de la mano 18. Ejercicio 2 Madre con hipertensión arterial Sí 3 218.4 Sí.06 2 22.2 -306.4 g menor que el de los niños recién nacidos de madres que no fumaron.9 Al menos una de las medias es diferente a las demás y la diferencia es estadísticamente significativa. CAPÍTULO 21 Ejercicio 2 Media (desviación estándar) n No deseado 3 134.4 (536.2 (550.5 a 74.6 33 160. -179.5 a 165.5) 182 Deseado 3 437.4 g menor que el de los niños recién nacidos de madres que no consumieron alcohol durante el embarazo.59 41 Ejercicio 1 Variables Media Desviación estándar n IC 95% Ejercicio 1B Peso (kg) 71. con p © Editorial El manual moderno Fotocopiar sin autorización es un delito. Variables .3 a 18. Kruskal-Wallis = 4.1) 708 -236.53 39 3.6 (529.5) 347 -112.4) 960 Diferencia de medias IC 95% -302.8 a 52.2) 1063 n = 475.7 Ejercicio 1 Embarazo n = 117.3) 223 -210.4 -300.5. c) la diferencia de pesos es estadísticamente significativa.9 33 18.7 CAPÍTULO 22 Consumo de alcohol durante el embarazo Sí 3 183.6 a -41.7 a -51.9 (562.2 (528.03 6.3 (533.9 3.0 9.2 7.5 Talla 163.2 a -126. mientras que el peso de los recién nacidos de madres con tabaquismo pasivo es 112.9 Talla a la rodilla 50.5 -388.4 -183.0) 434 No 3 419. CAPÍTULO 19 CAPÍTULO 20 Ejercicio 1A Fuente de variación SC gl MC RV Tratamientos 44. pasivo 3 292.8 (540. activo 3 194. la diferencia es estadísticamente significativa.53 181.2 Ejercicio 1 Tabaquismo durante el embarazo Sí.4.9 33 67. 2 No 12 25 1.7 g cuando la talla es de 16 cm.2 g cuando la talla es de 47 cm. Ejercicio 1C 0 = -100 088.02 -0.91.7 4. Ejercicio 4 El modelo multivariado más sencillo estaría formado por “A” y “C”.9 1. principalmente. porque p < 0.841 < 0.01 B Bajo 32 18 3.6 a 6.49 0.6 2. .9 1.7 1.01 0.0 0.5 a 3.9 0. Ejercicio 1D CAPÍTULO 25 El valor esperado del peso es de 2 166.13 Pozo de agua en la vivienda b=2 -0.056 0. * El modelo ajustado incluye las cinco variables independientes.70 0.3 1.17 * El modelo ajustado incluye las cuatro variables independientes. por las variables “C” y “A”.2 g cuando la talla es de 51 cm.63 Sí 15 4 C 0.01 No 35 46 D 0.4 4.0 Aljibe en la vivienda Sí 38 25 3.2 6.516 0.3 a 7. Este modelo explicaría 78% de la variabilidad de “Y”.083 < 0.0 Estado Civil © Editorial El manual moderno Fotocopiar sin autorización es un delito.6 a 13.9 a 18. Ejercicio 1A r = 0.0 1.116 < 0.3 a 36.5 a 4.83 indica que 83% de la variabilidad del peso está explicada por las variaciones de la talla.970 < 0.433 0.7 1. CAPÍTULO 24 Nivel socioeconómico Ejercicio 1 Variable A Coeficiente crudo p Coeficiente ajustado* p 1. Ejercicio 3 Ejercicio 1B El efecto de la variable “D” en “Y” está confundido.75.5 a 16. Ejercicio 1 Variable Casos Contr.0 b=1 -0. 0 =0. r2 = 0.925.2 2.5 0.9 Casada 31 38 1. El valor esperado del peso es de 3 209.9 Edad de la madre Ejercicio 1E Se rechaza la hipótesis nula.2 Medio o alto 18 32 1.024 0.0 Soltera 19 12 1.8 a 4.05).0001. 1 = 260. < 20 años 10 8 1. ORc IC95% ORa* IC95% 0.01 1.3 ≥ 20 años 40 42 1.248 0.4 a 7. El valor esperado del peso es de 2 687.Respuestas a los ejercicios 261 Ejercicio 2 CAPÍTULO 23 La interacción de “A” con “C” no es estadísticamente significativa (p > 0.2 9.146 0. 2 a 35.9 Survival_Probability 0.1 No 1.5 0.3 0 5 10 15 20 25 Años 30 35 40 45 50 © Editorial El manual moderno Fotocopiar sin autorización es un delito.0 2.0 1.7 a 11. 0.7 .262 Bioestadística Ejercicio 2 Ejercicio 3 Ninguna de las tres interacciones posibles (NSE*Aljibe.4 0.8 No 1.6.8 0.0 0.0 Nivel socioeconómico Ejercicio 4 OR = 54.0 * El modelo ajustado incluye las tres variables.5 Pozo de agua en la vivienda Sí 8. Variable ORa* IC95% Bajo 7. NSP*Pozo.8 2. Aljibe en la vivienda Sí 4.5 a 11.5 Medio o alto 1. Aljibe*Pozo) son estadísticamente significativas. CAPÍTULO 26 Ejercicio 1 Manganeso = 1 Manganeso = 0 1.6 0. Tabla de números aleatorios 5 3 3 9 3 0 5 4 3 7 2 9 3 2 3 4 8 8 3 2 4 2 2 1 2 2 9 7 2 3 6 2 4 2 5 7 6 5 3 7 2 1 2 6 0 2 7 0 4 2 1 4 5 7 8 5 8 2 2 3 1 1 2 3 5 7 9 8 5 8 3 6 8 7 3 7 0 0 7 1 8 3 5 5 5 1 7 7 9 1 0 4 8 5 1 0 4 5 7 7 2 8 4 0 7 4 9 9 3 1 7 6 6 8 6 6 2 0 8 5 2 8 3 5 0 8 1 9 2 2 0 9 2 0 4 4 7 4 4 8 5 4 3 8 7 2 3 3 4 2 4 9 9 4 8 6 7 7 0 1 5 8 4 3 1 2 4 8 9 7 6 0 7 5 0 8 4 6 8 4 6 6 4 7 7 0 5 7 0 0 8 9 6 6 1 2 0 1 6 4 0 4 8 2 3 7 8 3 1 2 8 9 8 7 5 3 9 8 5 9 6 3 4 3 6 7 9 7 2 5 2 0 0 6 2 5 7 5 0 6 3 3 1 7 2 8 2 5 7 3 7 0 4 9 4 6 4 7 5 5 1 3 0 4 2 4 9 7 7 3 7 8 9 2 8 4 8 9 4 7 4 9 6 2 4 6 4 0 3 7 3 0 3 9 7 0 0 5 4 1 4 0 2 1 7 7 3 6 7 1 9 7 4 1 3 0 2 6 5 5 5 2 8 0 6 5 5 4 4 6 1 4 4 5 7 2 1 2 1 6 8 3 0 9 4 2 3 9 4 1 8 3 4 7 5 1 8 7 2 1 4 6 6 7 8 5 4 6 2 4 0 4 0 8 5 1 0 3 7 0 0 2 5 2 7 1 0 2 1 8 0 0 9 9 9 5 7 7 7 2 0 7 0 6 5 8 5 9 3 5 0 1 5 2 5 6 7 7 3 1 8 9 2 7 9 3 2 3 3 4 8 6 9 2 4 1 5 0 4 4 6 9 3 3 4 6 5 2 7 5 0 2 8 5 4 1 1 1 5 7 8 0 7 2 8 5 9 1 1 6 3 3 8 2 4 1 9 9 4 5 5 6 4 1 5 8 0 7 1 6 7 2 0 9 8 3 9 8 5 9 4 9 8 2 2 5 2 5 5 9 0 1 5 4 0 6 0 8 1 4 6 0 9 5 5 0 9 4 0 2 4 1 3 0 8 9 6 8 3 7 6 5 6 1 8 5 5 3 6 0 3 2 1 1 5 0 5 3 3 6 7 9 4 1 0 1 0 0 0 6 6 0 6 2 4 9 1 0 0 9 6 0 6 8 7 8 0 5 6 0 8 3 7 8 7 7 8 1 6 6 3 9 7 5 8 8 4 6 2 6 5 6 0 9 0 0 1 3 7 7 8 6 2 4 3 9 9 0 0 3 2 5 6 6 1 9 2 5 9 6 4 1 9 5 7 2 8 5 9 0 1 5 7 3 9 1 0 6 4 6 7 4 6 5 6 0 6 9 1 4 3 4 1 9 6 6 6 8 8 8 0 2 8 7 1 0 1 4 2 0 5 3 1 1 4 5 9 2 1 7 8 2 5 8 9 8 3 8 7 3 5 3 6 2 7 8 3 6 7 1 5 6 2 3 9 5 4 3 8 9 3 9 8 1 2 3 6 4 1 9 1 3 4 4 9 4 0 8 4 3 263 .N xi N i =1 Anexo A i =1 N = N μ) 2 ( xi 2 xi i =1 N © Editorial El manual moderno Fotocopiar sin autorización es un delito. . © Editorial El manual moderno Fotocopiar sin autorización es un delito. N xi Anexo B i =1 N ( xi 2 = N xi i =1 μ) 2 N i =1 N Áreas de la curva normal 265 . 3621 0.1026 0.3665 0.4756 0.4265 0.4949 0.3830 0.4406 0.2823 0.07 0.4955 0.2704 0.0398 0.1255 0.1179 0.4812 0.4987 0.1772 0.3461 0.4953 0.4978 0.3997 0.0 0.3 1.4985 0.3 2.08 0.4842 0.4463 0.3554 0.4980 0.4985 0.2764 0.4772 0.0 0.4913 0.4957 0.4976 0.2580 0.3212 0.4641 0.5 2.4750 0.4147 0.4864 0.2088 0.0359 0.4970 0.4929 0.1331 0.4664 0.3962 0.1628 0.3315 0.1517 0.4616 0.4608 0.4826 0.4925 0.4394 0.4960 0.4875 0.4808 0.4981 0.4803 0.4788 0.9 3.4821 0.2549 0.0948 0.4207 0.0120 0.2910 0.0040 0.4345 0.9 2.3413 0.3531 0.3944 0.3365 0.4936 0.0636 0.2611 0.4 1.4893 0.2 1.4987 0.4817 0.2291 0.4713 0.1 0.1591 0.1293 0.7 0.4969 0.4535 0.4564 0.3106 0.4131 0.4975 0.4738 0.4251 0.4525 0.1700 0.4554 0.2517 0.0319 0.4732 0.0910 0.3289 0.0160 0.4984 0.4943 0.3264 0.4909 0.1736 0.1103 0.3980 0.6 0.4972 0.2190 0.0 2.4370 0.1368 0.0596 0.05 0.4222 0.4726 0.4162 0.06 0.1950 0.3078 0.3508 0.0080 0.4706 0.4977 0. .4904 0.4963 0.1808 0.3925 0.4441 0.0517 0.4830 0.3770 0.1985 0.3023 0.4940 0.0557 0.1443 0.4066 0.4956 0.3869 0.03 0.2 2.8 1.3708 0.0753 0.09 0.4989 0.4032 0.4961 0.1406 0.2019 0.4988 0.7 1.3159 0.2967 0.3 0.1844 0.4686 0.4332 0.4656 0.4761 0.4648 0.4292 0.4982 0.00 0.3810 0.4977 0.4319 0.4049 0.2422 0.2324 0.3186 0.4871 0.4878 0.0714 0.4964 0.3389 0.8 0.3051 0.2123 0.4082 0.4971 0.4989 0.4671 0.2357 0.4974 0.4932 0.3485 0.8 2.4920 0.4429 0.4633 0.3888 0.4382 0.2995 0.4115 0.4834 0.4868 0.1 1.4015 0.4887 0.2 0.3599 0.4625 0.0000 0.0987 0.4968 0.1480 0.4177 0.0239 0.3849 0.4306 0.4854 0.4951 0.4988 0.3133 0.4898 0.4 2.4783 0.4983 0.2794 0.3729 0.1141 0.4693 0.4798 0.4911 0.4850 0.4979 0.4545 0.01 0.3907 0.04 0.4884 0.4778 0.4846 0.2486 0.4192 0.4599 0.4986 0.2054 0.2454 0.1064 0.1915 0.3686 0.4974 0.4946 0.0793 0.4 0.0438 0.4916 0.4973 0.2673 0.2389 0.4959 0.0832 0.4484 0.4945 0.4495 0.4987 0.3643 0.4982 0.4744 0.4918 0.1664 0.4099 0.4927 0.4938 0.4767 0.1217 0.3790 0.4591 0.4474 0.4981 0.4962 0.6 1.4965 0.266 Bioestadística z 0.3438 0.2939 0.4699 0.4901 0.5 1.0279 0.4986 0.0478 0.3238 0.4990 © Editorial El manual moderno Fotocopiar sin autorización es un delito.4990 0.4515 0. Los valores en el cuerpo de la tabla representan la proporción estandarizada del área bajo la curva tomando de 0 a z.6 2.4984 0.3340 0.4989 0.4934 0.4857 0.4922 0.3749 0.4881 0.4649 0.0199 0.4236 0.2642 0.4582 0.2257 0.0675 0.0871 0.0 1.4952 0.7 2.4573 0.4979 0.5 0.4678 0.4931 0.4357 0.4719 0.4890 0.4505 0.9 1.4967 0.2224 0.4418 0.2852 0.4452 0.2734 0.2157 0.4906 0.4279 0.1554 0.2881 0.1879 0.4861 0.4793 0.02 0.4966 0.4838 0.3577 0.1 2.4941 0.4896 0. N xi i =1 Anexo C ( xi = xi i =1 N 2 N N μ) 2 i =1 N © Editorial El manual moderno Fotocopiar sin autorización es un delito. Distribución binomial de probabilidad 267 . 600 0.19 0.077 0.41 0.28 0.111 0.706 0.08 0.063 0.400 0.550 0.095 0.04 0.397 0.35 0 0.449 0.840 0.029 0 1 0.290 0.343 0.593 0.036 0.950 0.17 0.14 0.471 0.180 0.135 0.14 0.113 0.33 0.230 0.210 0.385 0.004 0.22 0.930 0.650 0.023 0.182 0.330 0.35 0 0.058 0.27 0.410 0. 0.185 0.497 0.548 0.757 0.325 0.630 0.43 0.850 0.068 0.07 0.150 0.160 0.03 0.044 0.804 0.47 0.30 0.080 0.311 0.884 0.040 0.292 0.22 0.340 0.620 0.659 0.980 0.320 0.420 0.336 0.310 0.09 p 0.46 0.490 0.000 0.476 0.130 0.580 0.03 0.159 0.109 0.31 0.01 x n=1 0.360 0.09 p 0.394 0.500 0.533 0.360 0.37 0.500 0.45 0.41 0.221 0.510 0.820 0 0.11 0.487 0.260 0.255 0.729 0.39 0.13 0.412 0.250 0.50 0.880 0.672 0 0.770 0.38 0.123 1 2 0.029 0.008 0.450 0.02 0.608 0.384 0.014 0.11 0.073 0.700 0.860 0.152 0.640 0.750 0.180 1 0.102 0.865 0.484 0.498 0.295 1 0.48 0.01 0.460 0.314 0.660 0.903 0.147 0.689 0.25 0.06 0.490 0.760 0.100 0.831 0.614 0.08 0.420 0.078 0.410 0.940 0.137 0.440 0.624 0.462 0.18 0 1 2 0.250 0.593 0.23 0.11 0.170 0.830 0.504 0.295 0.040 0.922 0.05 0.913 0.754 0.590 0.490 0.196 0.705 0.32 0.000 0.130 0.18 1 0.260 0.46 0.04 0.010 0.810 0.857 0.12 0.005 0.370 0.003 0.810 0.779 0.270 0.032 2 0.403 0.681 0.120 0.02 0.13 0.050 0.680 0.42 0.900 0.130 0.339 0.723 0.168 0.28 0.058 0.39 0.670 0.49 0.560 0.970 0.281 0.010 0.26 0.690 0.07 0.10 0.38 0.084 0.25 0.160 0.26 0.870 0.800 0.774 0.058 0.020 0.493 0.21 0.36 0.636 0.039 0.16 0.0.20 0.270 0.354 0.846 0.500 0.48 0.303 0.34 0.476 0.03 0.44 0.43 0.50 0.012 0.365 0.348 0.15 0.01 x n=3 0.332 0.203 0.890 0.240 0.980 0.09 p 0.269 0.29 0.470 0.212 0.740 0.030 0.500 0.351 0.428 0.16 0.176 0.530 0.47 0.29 0.230 0.572 0.44 0.518 0.211 0.720 0.30 0.350 1 0.001 0.085 0.090 0.45 0.026 0.203 0.960 0.31 0.006 0.920 0.570 0.002 0.04 0.790 0.49 0.02 0.563 0.656 0.19 0.610 0.941 0.640 x n=2 0.461 0.308 0.520 0.372 0.730 0.480 0.449 0.048 0.32 0.23 0.020 0.390 0.24 0.578 0.190 0.226 0.710 0.540 0.885 0.279 0.499 0.42 0.240 0.053 0.10 0.12 0.05 © Editorial El manual moderno Fotocopiar sin autorización es un delito.110 0.21 0.442 0.15 0.300 0.05 0.970 0.17 0.280 0.780 0.017 0.33 0.435 0.12 0.164 0.941 0.24 0.14 0.070 0.194 0.096 0.08 0.282 0.320 0.27 0.06 0.910 0.990 0 0.36 0.220 0.15 0.250 0.16 0.10 0.740 0.792 0.116 0.828 0.436 0.243 0.960 0.423 0.17 268 Bioestadística .466 0.060 0.13 0.40 0.380 0.430 0.261 0.144 0.07 0.20 0.140 0.455 0.06 0.495 0.480 0.40 0.325 0.020 0.37 0.090 0.241 0.375 0.224 0.200 0.34 0. 24 0.022 0.07 0.057 0.44 0.298 0.393 0.414 0.38 0.069 0.125 0.249 0.269 0.176 0.28 0.24 0.249 0.551 0.089 0.003 0.166 0.104 0.442 0.016 0.334 0.444 1 0.26 0.157 0.531 0.005 0.390 0.547 0.438 0.15 0.43 0.075 0.049 0.402 0.111 0.278 0.067 0.096 0.141 0.368 0.14 0.435 0.498 0.412 0.000 0.20 0.239 2 0.475 0.28 0.389 0.374 0.003 0.405 0.457 0.19 0.216 0.080 0.000 0.292 0.005 0.063 0.185 0.27 0.23 0.316 0.047 0.293 0.343 0.254 0.000 0.154 0.922 0.229 0.422 0.0.010 0.284 0.036 0.205 0.001 0.047 0 0.424 0.211 0.359 0.000 0.265 0.522 0.493 0.36 0.000 0.288 0.004 0.41 0.10 0.001 2 3 4 0.30 0.009 0.363 1 0.018 0.000 3 0.716 0.037 0.188 0.20 0.42 0.316 0.177 0.47 0.22 0.058 0.16 0.001 0.444 0.441 0.961 0.849 0.416 0.006 3 0 0.314 0.001 2 0 0.000 0.389 0.396 0.002 0.076 0.439 0.408 0.149 0.269 0.202 0.370 0.219 0.420 0.104 0.006 0.18 0.042 0.007 0.003 0.627 0.003 0.225 0.12 0.009 0.402 0.439 0.000 0.373 0.404 0.37 0.444 0.012 0.001 0.000 0.065 0.435 0.011 0.31 0.34 0.118 0.275 0.233 0.000 0.03 0.016 0.199 0.000 0.34 0.06 0.030 0.05 0.082 0.044 0.512 0.010 0.110 0.057 0.026 0.419 0.389 0.48 0.008 0.39 0.271 0.000 0.113 0.001 0.410 0.001 0.379 0.105 0.077 0.18 0 0.441 0.064 0.301 0.165 0.29 0.119 0.418 0.019 0.382 0.32 0.018 0.33 0.244 0.32 0.007 0.391 0.000 0.781 0.21 0.003 0.087 0.002 0.002 0.033 0.04 0.254 0.27 0.13 0.310 0.375 0.421 0.35 0.415 0.033 0.096 0.422 0.46 0.051 0.227 0.013 0.397 0.142 0.356 0.209 0.397 0.000 0.024 0.443 0.334 0.002 0.072 Distribución binomial de probabilidad 269 .000 0.40 0.222 0.069 0.08 0.50 0.000 0.098 0.043 3 0.25 0.000 2 0.29 0.343 0.407 0.085 0.262 0.001 0.055 0.019 0.004 0.011 0.000 0.01 0.22 0. 0.008 0.21 0.358 0.032 0.038 0.421 0.325 0.199 0.014 0.748 0.200 0.214 0.051 0.005 0.000 0.000 0.327 0.000 3 0.040 0.009 0.351 0.422 0.007 © Editorial El manual moderno Fotocopiar sin autorización es un delito.142 0.002 0.000 0.190 0.475 0.25 0.005 0.001 0.30 0.49 0.375 0.259 0.19 0.885 0.080 2 0.428 0.33 0.418 0.014 0.033 0.074 0.001 0.091 0.009 0.003 0.000 0.367 0.008 0.573 0.027 0.329 0.001 0.014 0.097 0.307 0.352 0.384 0.014 0.238 0.169 0.284 0.600 0.133 0.022 0.300 0.005 0.23 0.26 0.131 0.002 0.414 0.001 0.000 0.09 0.45 0.452 0.088 n=4 x 0.002 0.000 4 1 0.125 0.31 0.432 0.131 0.815 0.430 0.189 0.171 0.287 0.686 p 0.432 0.227 0.012 0.17 0.275 0.11 0.004 0.444 0.342 0.141 0.001 0.000 0.410 0.150 0.052 0.402 0.160 0.039 1 0.409 0.006 0.059 0.122 0.022 0.250 0.108 0.029 0.020 0.039 0.195 0.025 0.000 0.420 0.027 0.656 0.427 0.302 0.005 0.240 0.179 0.02 0. 227 0.034 0.302 0.196 0.009 0.111 0.49 0.050 0.128 0.403 0.002 0.000 0.116 0.191 0.191 0.083 0.376 0.201 0.40 0.444 0.293 0.05 0.43 0.42 0.332 0.312 0.179 2 0.154 0.360 0.080 0.001 0.017 0.404 0.250 0.33 0.01 0.192 0.08 0.136 0.371 0 0.008 0.085 0.138 0.346 0.774 0.28 0.018 0.276 0.003 0.000 0.49 0.193 0.815 0.24 0.38 0.001 0.158 0.267 0.250 0.156 0.316 0.734 0.375 0.29 0.000 0.22 0.039 0.085 0.121 0.238 0.370 0.308 0.372 0.001 0.262 0.000 0.07 0.14 0.181 0.254 0.39 © Editorial El manual moderno Fotocopiar sin autorización es un delito.185 0.337 0.013 0.332 0.259 0.04 0.001 0.020 0.45 0.558 0.005 0.105 0.326 0.046 0.13 0.002 0.280 0.156 0.249 0.066 0.161 0.017 0.019 0.370 0.004 0.319 0.001 0.001 0.390 0.498 0.001 0.48 0.054 0.035 0.084 0.138 0.042 0.099 0.163 0.000 0.50 0.113 0.216 0.349 0.11 0.097 0.165 0.328 0.040 0.059 0.107 0.384 0. 0.37 0.528 0.50 0.000 0.088 0.012 0.342 0.374 0.009 0.21 0.147 0.12 0.398 0.322 0.125 0.44 0.200 0.337 0.130 0.133 0.16 0.306 0.207 0.624 0.031 0.002 0.270 0.036 0.46 0.138 0.333 0.360 0.003 0.204 0.021 0.292 0.049 0.135 0.023 0.001 0.301 0.318 0.031 0.217 0.172 0.351 0.42 0.375 0.27 0.028 0.274 0.260 0.032 0.002 0.368 0.345 0.029 0.409 0.281 0.156 0.211 0.43 p 0.000 5 1 0.44 0.068 0.287 0.324 0.008 0.002 0.39 0.40 0.23 0.03 0.340 0.065 0.313 0.383 0.045 0.006 0.000 0.011 0.284 0.206 0.005 3 4 5 0.340 0.309 0.289 0.041 0.20 0.18 0 1 2 3 4 0.323 0.09 p 0.092 0.345 0.41 0.039 3 0 0.360 0.409 0.418 0.240 0.015 1 2 3 4 0.132 0.071 0.006 0.037 0.028 0.270 0.000 0.26 0.264 0.004 0.344 0.055 0.019 0.313 0.46 0.364 0.34 0.113 0.000 0.004 4 0.079 0.001 0.063 0.345 0.35 0 n=4 0.096 0.051 0.344 0.36 0.10 0.47 0.008 0.290 0.351 0.152 0.299 0.142 0.090 0.114 0.179 0.25 0.470 0.001 0.346 0.271 0.372 0.210 0.063 0.17 270 Bioestadística .30 0.230 0.021 0.065 0.237 0.392 0.309 0.291 0.026 0.377 0.098 0.180 0.045 0.37 0.168 0.336 2 0.000 0.15 0.000 0.248 0.000 0.234 0.121 0.48 0.025 0.000 0.859 0.004 0.078 0.058 0.050 0.001 0.02 0.32 0.001 0.000 0.129 0.007 0.010 0.152 0.106 0.383 0.168 0.073 0.044 0.41 0.119 0.47 0.659 0.258 0.362 0.329 0.148 0.19 0.356 0.354 0.240 0.222 0.013 0.125 0.340 0.284 0.400 0.06 0.061 0.016 0.048 0.073 0.951 0.077 0.053 0.000 0.230 0.696 0.205 0.407 1 0.38 0.220 0.394 0.011 0.025 0.407 0.024 0.022 0.030 0.166 0.008 0.038 0.028 0.098 0.319 0.45 0.346 0.230 0.034 0.105 0.002 0.590 0.092 0.015 0.071 0.005 0.017 0.333 0.006 0.000 0.35 0.328 0.145 0.060 0.170 0.072 0.0.049 0.342 0.328 0.003 0.368 0.031 0.123 0.013 0.058 0.171 0.253 0.015 0.021 0.003 0.092 0.396 0.328 0.311 0.221 0.342 0.014 0.904 0.309 0.181 0.003 0.36 x n=5 0.410 0.023 0.111 0.31 0.299 0.242 0.145 0.175 0. 176 0.220 2 0.36 0.067 0.312 0.061 0.19 0.128 0.196 0.073 0.050 0.397 0.009 0.39 0.087 0.007 0.311 0.002 0.388 0.47 0.20 0.003 0.34 0.037 0.005 0.354 0.196 0.278 0.346 0.377 0.233 0.29 0.003 0.035 0.165 0.244 0.155 0.253 0.08 0.11 0.25 0.396 0.025 0.16 0.006 0.299 0.262 0.196 0.690 0.09 p 0.311 0.094 0.396 0.283 0.294 0.004 0.091 0.317 0.000 0.001 2 0 0. 0.17 Distribución binomial de probabilidad 271 .232 0.132 0.056 0.15 0.138 0.191 0.10 0.042 0.004 0.267 0.000 0.112 0.647 0.073 0.001 5 5 0.001 0.03 0.038 0.020 0.38 0.094 0.602 0.405 0.37 0.225 0.316 0.157 0.066 x 0 1 n=7 0.09 p 0.053 0.111 0.380 0.055 0.06 0.383 0.390 0.15 0.014 0.075 0.012 0.047 0.293 0.297 0.006 0.186 0.395 0.178 0.001 0.000 0.005 0.337 0.0.002 0.323 0.21 0.698 0.033 0.033 0.000 0.23 0.000 0.000 0.003 0.000 0.13 0.175 0.28 0.531 0.304 0 0.314 0.004 0.101 0.31 0.002 0.021 0.176 0.324 0.164 0.000 0.023 0.000 0.000 0.328 0.000 0.568 0.07 0.808 0.042 0.289 0.108 0.33 0.12 0.121 0.558 0.148 0.042 0.306 0.245 0.004 0.365 0.000 5 0.464 0.007 0.50 0.04 0.14 0.41 0.351 0.103 0.303 0.26 0.253 0.002 0.069 0.372 0.161 0.358 0.257 0.014 0.099 0.374 0.002 0.024 0.258 0.356 0.06 0.246 0.003 0.43 0.735 0.000 0.783 0.10 0.142 0.001 0.000 0.001 0.145 0.328 0.04 0.022 0.193 0.313 0.08 0.206 0.325 0.124 0.45 0.002 0.48 0.292 0.381 0.083 0.261 0.000 4 1 0.316 0.185 0.001 0.282 0.118 0.02 0.000 0.208 0.034 0.029 0.108 0.270 0.018 0.045 0.279 0.255 0.176 0.055 0.307 0.02 0.01 0.16 0.002 0.401 0.377 0.24 0.063 0.262 0.30 0.009 0.000 0.27 0.000 0.000 0.001 0.019 0.000 0.008 0.05 © Editorial El manual moderno Fotocopiar sin autorización es un delito.833 0.49 0.393 0.264 0.164 0.276 0.316 0.941 0 0.000 0.011 0.000 0.052 0.015 0.299 0.016 0.326 0.932 0.244 0.209 0.153 0.000 0.000 0.129 0.073 0.001 0.206 0.031 0.327 0.060 0.002 0.127 0.006 0.000 0.35 6 0.001 0.336 0.000 6 0.098 0.041 0.000 0.304 0.303 0.109 0.478 0.145 0.868 0.118 0.13 0.291 0.038 0.606 0.005 0.008 0.048 0.114 0.080 0.393 0.011 0.006 0.136 0.18 x 2 0.018 0.01 x n=6 0.886 0.016 0.389 0.286 0.095 0.395 0.012 0.321 0.03 0.079 0.130 0.442 0.497 0.198 0.020 0.086 0.101 0.369 0.057 1 0.041 0.11 0.07 0.751 0.269 0.321 0.013 0.216 0.001 0.288 0.269 0.409 0.219 0.083 0.295 0.12 0.015 0.46 0.139 0.007 0.42 0.000 0.000 0.026 0.004 0.167 0.120 0.049 0.329 0.389 0.064 3 4 0.151 0.309 0.004 0.311 0.000 0.220 0.234 0.025 0.010 0.069 0.225 0.001 0.029 0.271 0.020 0.327 0.000 3 0.215 0.000 0.001 0.011 4 0.234 0.32 0.001 0.018 0.187 0.399 0.243 0.175 0.206 0.005 0.009 0.031 0.235 0.000 0.000 0.22 0.14 0.155 0.232 0.17 0.517 0.082 0.348 0.44 0.434 0.329 0.402 0.226 0.000 0.320 0.057 0.000 0.648 0.340 0.002 0.40 0.090 0.066 0.400 1 3 0.012 0.05 0.028 0.279 0.290 0.016 0.029 0. 091 0.721 0.0.007 0.001 0.129 0.000 0.292 0.009 x 0.001 7 0.45 0.074 0.029 0.008 p n=7 0.337 0.075 0.24 0.173 0.26 0 0.000 0.010 0.324 0.290 0.49 0.002 0.142 0.164 0.049 0.46 0.002 0.008 0.007 0.089 0.247 0.003 0.022 0.020 4 0.004 0.33 0.097 0.037 0.212 0.036 0.44 0.029 0.000 0.245 0.003 5 2 0.126 0.194 0.000 0.239 272 Bioestadística .000 0.011 0.347 0.09 0.316 0.252 2 0.292 0.106 0.012 0.234 0.004 0.001 0.028 0.022 0.071 0.002 0.135 0.009 0.001 0.121 0.041 3 0.513 0.017 0.080 0.01 0.115 0.194 0.784 0.273 0.034 0.089 0.196 0.000 0.010 0.222 0.002 0.001 n=8 0.184 0.006 0.389 0.369 0.383 1 0 0.261 0.357 0.017 0.239 0.087 0.139 0.000 0.089 0.48 0.002 0.001 0.176 0.072 4 0.000 0.000 0.221 0.273 0.058 0.016 0.062 0.923 0.141 0.012 0.50 0.385 0.470 0.43 0.017 0 0.073 0.042 0.032 0.000 0.194 0.18 0.252 0.47 0.007 0.283 0.336 0.184 0.061 0.217 0.020 0.100 0.184 0.367 0.214 0.000 0.109 0.044 0.035 0.14 0.000 0.224 0.045 0.004 0.315 0.284 0.045 0.082 0.145 0.115 0.36 0.025 0.40 0.249 0.000 0.000 0.001 0.293 0.42 0.001 0.005 0.192 0.021 0.301 0.318 0.313 0.27 0.002 0.004 5 0.000 0.252 0.001 0.17 0.311 0.150 0.146 0.261 0.290 0.000 0.174 0.279 0.126 0.209 0.02 0.001 0.110 0.060 0.247 0.103 0.273 0.125 0.309 0.394 0.278 0.22 0.204 0.002 2 0.227 0.010 0.304 0.035 0.001 0.311 0.017 0.000 0.039 0.000 0.149 0.225 0.100 0.000 x 0.085 0.065 0.210 0.378 0.154 0.253 0.010 0.138 0.293 0.006 0.000 0.008 0.294 0.020 0.001 0.051 0.071 0.240 0.31 0.003 0.30 0.106 0.851 0.236 0.38 0.039 0.055 0.319 0.000 0.274 0.392 0.055 0.151 0.39 0.299 0.10 0.000 0.015 0.133 0.173 0.37 0.161 0.049 0.177 0.285 0.279 0.027 0.131 0.07 0.185 0.103 0.360 0.031 0.000 0.028 0.23 0.430 0.261 0.064 0.20 0.003 0. 0.187 0.092 3 1 0.002 p 0.007 0.004 0.205 0.270 0.168 0.077 0.164 0.248 0.001 0.08 0.194 0.222 0.008 6 0.357 0.154 0.006 0.051 0.372 0.009 0.25 0.040 0.19 0.28 0.287 0.560 0.005 0.238 0.002 0.03 0.134 0.023 0.072 0.254 0.066 0.070 0.41 0.044 0.000 0.15 0.003 0.029 0.055 0.052 0.285 0.268 0.000 0.12 0.016 0.34 0.144 4 0.013 0.05 0.279 © Editorial El manual moderno Fotocopiar sin autorización es un delito.21 0.082 0.376 0.117 0.000 0.019 0.003 0.299 0.000 0.033 0.06 0.004 0.013 0.000 0.109 0.002 0.298 0.383 0.000 0.230 0.003 0.015 0.000 0.047 5 0.293 0.16 0.124 0.229 0.162 0.225 0.000 0.268 0.025 2 0.005 0.35 0.036 0.160 0.025 0.001 0.095 0.272 0.29 0.04 0.260 0.663 0.000 6 0.265 0.001 0.328 0.080 0.092 0.610 0.112 0.292 0.311 0.000 0.390 0.002 0.11 0.160 0.055 0.067 0.014 0.053 0.000 0.004 0.024 0.122 1 0.022 0.234 0.243 0.287 0.210 0.264 0.32 0.000 7 3 0.005 0.013 0.000 0.000 0.014 0.000 0.275 0.206 0.319 0.197 0.000 0.13 0.058 0.164 0.000 0.307 0.392 0.001 0.008 0.203 0.011 0.317 0.286 0.174 0. 152 0.003 0.309 0.013 0.276 0.281 0.106 0.025 0.002 0.001 0.272 0.096 0.121 0.000 0.101 0.630 0.197 0.311 0.013 0 0.036 0.172 0.188 0.336 0.16 0.045 0.019 0.428 0.001 0.058 0.259 0.240 0.147 0.279 0.329 0.035 0.018 0.261 0.000 0.001 6 0.208 0.001 0.011 0.199 0.42 0.15 0.24 0.50 0.32 0.025 1 0.246 0.003 0.093 0.077 0.300 0.230 0.20 0.230 0.023 0.031 0.137 0.281 0.250 0.245 0.48 0.232 0.051 0.083 0.000 0.002 0.046 0.082 0.003 0.33 0.43 0.000 0.013 0.066 0.000 0.345 0.212 0.007 0.031 0.061 0.309 0.043 0.027 0.305 0.196 0.000 0.001 0.182 0.046 0.020 0.267 0.090 0.090 4 0.22 0.004 0.000 0.390 0.010 0.008 0.001 0.279 0.035 0.019 0.003 0.005 0.001 0.23 0.311 0.051 0.49 0.137 0.004 0.184 0.834 0.185 0.019 0.311 0.001 0.001 0.135 0.353 0.061 0.028 0.148 0.232 0.004 0.001 0.254 0.258 0.211 0.011 0.084 0.187 0.001 0.167 0.032 0.067 0.031 0.041 0.037 0.004 0.04 0.08 0.240 0.118 0.41 0.014 0.002 0.253 0.047 0.000 2 0.387 0.000 0.178 0.249 0.044 0.010 0.348 0.067 0.107 0.016 0.27 0.106 0.014 0.016 0.072 0.002 0.005 0.134 0.28 0.219 0.136 0.377 0.022 0.042 0.005 0.026 0.137 0.001 0.007 0.003 0.002 0.387 0.268 0.30 0.002 0.193 0.006 0.286 0.019 0.003 0.000 0.25 0.270 0.111 3 0.246 0.052 0.299 0.350 0.283 0.124 0.359 0.008 0.046 0.032 0.693 0.157 0.36 0.008 0.055 0.041 0.059 0.276 0.225 0.219 0.153 0.013 0.109 0.080 0.009 0.02 0.005 0.302 0.106 0.40 0.000 0.000 0.208 0.081 0.115 0.229 0.023 0.073 0.151 0.121 0.282 0.001 0.17 0.760 0.219 0.31 0.235 0.273 0.267 0.000 3 © Editorial El manual moderno Fotocopiar sin autorización es un delito.063 0.21 0.212 0.009 0.11 0.002 0.10 0.276 0.218 0.157 0.124 0.281 0.084 0.064 0.003 0.388 0.128 0.01 0.162 0.001 0.914 0.041 0.072 0.09 0.268 0.021 0.022 0.087 0.152 0.029 0.100 0.001 0.001 0.049 0.207 0.005 0.000 0.167 0.210 0.239 0.204 0.015 0.172 0.077 0.007 0.002 0.147 0.0.296 0.003 0.000 0.000 7 1 0.127 0.000 0.368 0.188 0.316 0.000 0.370 0.263 0.47 0.001 0.26 0.272 0.257 0.45 0.12 0.011 0.000 0.033 0.053 0.238 0. 0.003 x 0.053 0.253 0.276 0.38 0.003 0.14 0.07 0.002 0.282 0.028 0.309 0.381 0.198 0.260 0.224 0.44 0.168 0.384 0.39 0.074 0.143 0.209 0.290 0.001 p 0.002 0.024 0.001 0.039 0.000 0.056 0.227 0.025 0.272 0.016 0.070 0.093 0.285 0.000 0.05 0.260 0.000 0.033 0.005 0.06 0.026 0.004 0.012 0.294 0.201 0.002 0.005 0.065 0.009 0.097 0.129 0.000 0.017 0.46 0.147 0.243 0.03 0.006 5 0 0.000 0.006 0.37 0.006 0.172 0.011 0.323 0.028 0.29 0.000 5 0.000 n=9 0.014 0.282 0.273 0.019 0.009 0.19 0.306 0.098 0.039 0.13 0.191 0.267 0.357 0.117 0.160 0.472 0.35 0.061 0.177 0.006 0.126 0.185 0.000 0.000 0.000 2 3 4 5 6 7 8 x 0 1 2 3 0.109 0.160 0.089 0.18 0.081 0.058 0.272 0.133 0.007 0.008 0.096 0.573 0.001 0.216 0.263 0.108 Distribución binomial de probabilidad 273 .036 0.107 0.015 0.295 0.000 4 0.001 0.069 0.085 0.000 0.172 0.520 0.012 0.116 0.34 0.257 0. 151 0.007 0.011 0.16 0.210 0.144 0.219 0.000 0.12 0.262 0.095 0.172 0.000 6 0.31 0.257 0.028 0.287 0.009 0.267 0.138 0.30 0.434 0.182 0.000 0.44 0.102 0.234 0.100 0.120 0.246 0.000 0.001 0.194 0.085 0.213 0.305 0.002 6 0.005 0.016 0.033 0.021 0.001 0.196 0.11 0.174 0.066 0.201 0.04 0.000 0.000 0.46 0.260 0.082 0.091 0.000 0.059 0.018 0.020 0.060 0.18 x 0 0.213 0.000 0.132 0.016 0.010 0.027 0.32 0.205 0.312 0.116 0.002 0.001 0.27 0.095 0.002 0.01 x n = 10 0.189 0.000 0.001 0.251 0.003 0.024 0.296 0.034 0.140 0.161 0.38 0.001 0.10 0.300 0.021 0.304 0.018 0.049 4 0.25 0.297 0.143 0.007 0.000 0.389 0.290 0.000 0.49 0.246 0.000 0.172 0.150 0.000 0.070 0.248 0.001 0.002 0.003 0.037 0.39 0.000 0.029 0.05 0.0.024 0.002 0.001 0.000 0.018 0.001 0.028 0.183 0.221 0.306 0.024 0.331 1 1 0.046 0.246 0.267 0.349 0.064 0.004 0.099 0.000 0.47 0.007 0.15 0.000 0.257 0.005 0.010 0.004 0.008 0.001 0.150 0.067 0.051 0.014 0.270 0.001 0.227 0.221 0.051 0.006 0.000 0.302 0.121 0.000 0.014 0.257 0.035 0.039 0.117 0.067 0.000 0.075 0.004 0.000 7 4 0.202 0.045 0.000 4 n=9 0.227 0.000 0.203 0.057 0.251 0.023 0.164 0.015 0.006 0.048 0.005 p 0.007 0.186 0.000 6 7 8 9 0.012 0.118 0.002 0.002 0.275 0.244 0.000 0.134 0.036 0.003 0.003 0.000 0.259 0.002 0.737 0.001 0.082 0.33 0.271 0.001 0.128 0.018 0.070 0.234 0.26 0.42 0.272 0.109 0.033 0.237 0.001 0.599 0.005 0.000 0.120 0.000 0.904 0 0.003 0.000 5 0.167 0.197 0.000 0.028 0.002 0.054 0.241 0.078 0.054 0.003 0.000 0.000 0.156 0.012 0.283 0.013 0.002 0.090 0.015 0.17 0.29 0.139 0.50 0.004 0.20 0.225 0.484 0.235 0.000 8 0.157 0.023 0.259 0.001 0.085 0.07 0.229 0.240 0.031 0.06 0.006 0.182 0.212 0.45 0.000 0.175 0.005 0.007 0.279 0.043 0.093 0.36 0.000 0.000 0.111 0.008 0.48 0.269 0.013 0.241 0.058 0.032 0.128 0.083 0.066 0.204 0.248 0.035 0.074 0.048 0.002 0.011 5 3 0.192 0.010 0.090 0.000 0.09 p 0.000 0.057 0.011 0.24 0.266 0.250 0.020 0.257 0.221 0.075 0.176 0.125 0.085 0.260 0.074 0.010 0.018 0.216 0.098 0.242 0.258 0.000 0.003 0.004 0.013 0.000 0.006 0.018 0.168 0 0.067 0.001 © Editorial El manual moderno Fotocopiar sin autorización es un delito.000 0.000 0.665 0.026 0.14 0.107 0.177 0.254 0.002 0.002 0.224 0.211 0.000 0.000 0.106 0.041 0.196 0.148 0.272 0.13 0.001 0.228 0.001 0.110 0.021 0.164 0.107 0.317 0.306 0.21 0.169 0.34 0.000 0.28 0.155 0.163 0.046 0.060 0.23 0.184 0.273 0.014 0.161 0.40 0.008 0.017 0.130 0.000 0.009 0.19 0.038 0.291 2 0.000 0.001 0.003 0.001 0.000 0.262 0.43 0.539 0.135 0.042 0.37 0.817 0.005 0.001 0.154 0.35 5 0. 0.41 0.238 0.001 0.256 0.255 0.001 0.024 0.000 0.02 0.08 0.000 0.273 0.004 0.149 3 2 0.001 0.000 0.193 0.040 0.030 0.052 0.22 0.075 0.302 0.03 0.251 0.007 0.005 0.041 274 Bioestadística . 005 0.36 0.32 0.000 0.037 0.111 0.380 0.173 0.166 0.360 0.002 0.108 0.001 0.298 0.033 0.033 0.000 0.025 0.252 0.032 0.008 0.33 0.277 0.002 0.021 0.002 0.15 0.019 0.156 0.261 0.066 0.075 0.048 0.000 0.000 10 0.000 0.169 0.081 0.011 0.099 0.006 0.176 0.37 0.044 0.302 0.099 0.000 0.235 0.044 0.031 0.121 0.200 0.000 0.266 0.062 0.23 0.000 0.000 8 0.003 0.011 0.145 0.091 1 0.127 0.005 0.075 0.000 0.251 0.190 0.069 0.117 0.264 0.250 0.000 0.107 0.051 0.192 0.006 0.071 0.18 x 3 4 5 6 0.007 0.302 1 0.238 0.38 0.187 0.058 0.067 0.213 0.264 0.049 0.028 0.037 0.069 0.018 0.177 0.239 0.021 0.214 0.002 0.000 0.036 0.301 0.267 0.004 0.02 0.246 0.000 0.085 0.244 0.122 0.002 0.001 0.009 0.058 0.206 0.004 0.084 0.274 0.45 0.000 0.000 0.000 0.000 0.007 0.187 0.028 0.123 0.000 0.179 0.001 0.121 0.001 0.224 0.018 0.121 0.060 0.000 0.000 0.001 0.015 0.371 0.252 0.171 0.051 0.000 0.40 0.27 0.10 0.347 0.30 0.000 0.385 0.257 0.276 0.009 0.000 0.169 0.232 0.017 0.013 0.016 0.39 0.062 0.244 0.378 0.188 0.219 0.293 0.130 0.298 2 0.110 0.220 0.065 0.000 0.045 0.344 0. 0.000 0.006 0.35 4 0.20 0.115 0.12 0.014 0.133 0.005 0.034 0.21 0.075 0.213 0.142 0.173 0.268 0.238 0.102 0.22 0.164 0.134 0.255 0.26 0.301 0.001 0.016 0.233 0.000 7 2 0.205 0.026 0.000 0.018 5 1 0.282 0.238 0.364 0.010 0.057 0.023 0.146 0.008 0.44 0.001 0.266 0.197 0.004 0.032 0.111 0.164 0.001 0.013 0.249 0.31 0.052 0.000 0.000 0.246 0.032 0.13 0.033 0.174 3 0 0.000 0.005 0.133 0.250 0.218 0.024 0.50 0.013 0.315 © Editorial El manual moderno Fotocopiar sin autorización es un delito.054 0.000 0.203 0.001 0.021 5 6 7 0.037 0.093 0.07 0.123 0.000 9 3 0.265 0.243 0.001 0.28 0.180 0.387 0.042 0.242 0.003 0.318 Distribución binomial de probabilidad 275 .085 0.246 0.011 0.19 0.24 0.47 0.011 0.003 0.46 0.001 0.000 0.41 0.000 0.002 0.224 0.49 0.000 0.015 0.223 0.026 0.113 0.043 0.201 0.007 0.027 0.000 0.000 0.083 0.225 0.076 0.001 0.246 0.001 0.34 0.286 0.084 0.040 0.003 0.000 0.067 4 0.000 0.29 0.010 0.17 0.000 0.153 0.000 0.091 0.042 0.09 0.103 0.072 0.001 0.250 0.131 0.102 0.000 0.385 0.04 0.250 0.057 0.000 0.000 0.049 0.000 0.05 0.242 0.233 0.215 0.099 0.003 6 0.246 0.000 0.16 0.148 0.209 0.037 0.001 0.209 0.027 0.000 0.111 0.160 0.095 0.000 0.25 0.048 0.14 0.002 0.077 0.004 0.08 0.188 0.285 0.154 0.077 0.008 0.064 0.150 0.003 0.222 0.040 0.167 0.000 0.199 0.000 0.201 0.006 0.004 2 0.234 0.016 0.43 0.018 0.256 0.000 0.294 0.000 0.001 0.158 0.228 0.088 0.002 0.03 0.261 0.06 0.010 0.140 0.42 0.211 0.055 0.194 0.188 0.000 0.000 0.003 0.122 0.243 0.099 0.48 0.160 0.000 0.000 0.022 0.082 0.003 0.130 0.055 0.090 0.183 0.233 0.099 0.227 0.000 0.000 0.093 0.000 0.000 0.146 0.001 0.146 0.093 0.000 0.0.143 0.048 0.000 0.020 0.234 0.232 0.001 0.159 0.229 0.249 0.11 0.004 0.025 0.006 0.000 0.136 0.002 0.013 0.216 0.288 0.046 0.024 0.333 0.073 0.117 0.137 0 0.056 0.011 0.001 0.001 0.012 0.205 0.000 0.002 0.000 0.264 0.000 0.000 0.015 0.196 0.01 0. 049 0.400 0.017 0.028 0.026 0.233 0.010 0.086 0.000 0.233 0.247 0.022 0.163 0.001 0.213 0.000 0.05 0.147 0.148 0.32 0.241 0.017 0.185 0.001 0.40 0.167 0.258 0.020 0.061 0.011 0.000 0.056 0.012 0.033 0.000 0.121 0.013 0.277 0.000 p 0.004 0.299 2 0.013 0.014 0.027 0.12 0.000 0.090 0.31 0.001 0.001 0.27 0.037 0.287 0.017 0.001 0.001 0.065 0.011 0.000 0.001 0.16 0.008 0.028 0.004 0.25 0.000 0.278 0.000 0.000 0.000 0.111 0.008 0.000 0.005 0.035 0.355 0.49 0.41 0.023 0.000 0.297 0.057 0.262 0.001 0.38 0.000 0.28 0.000 0.054 0.113 0.254 0.46 0.023 0.241 0.257 0.008 0.26 0.021 0.004 0.001 0.168 0.003 0.000 0.081 0.23 0.141 0.450 0.000 0.47 0.007 0.22 0.155 0.0.006 0.027 0.003 0.123 0.08 0.052 0.33 0.003 0.015 0.010 0.001 0.003 0.000 0.000 0.000 x n = 11 8 9 10 n = 10 0.39 0.221 0.000 0.295 0.42 0.005 0.020 0.000 0.015 0.014 0.087 0.29 0.000 0.140 0.001 0.203 0.09 p 0.000 © Editorial El manual moderno Fotocopiar sin autorización es un delito.012 0.50 0.45 0.098 0.000 0.002 0.48 0.17 276 Bioestadística .03 0.183 0.012 0.19 0.000 0.072 0.187 0.000 0.054 0.003 0.027 5 1 0.075 0.002 0.000 0.039 0.064 0.021 0.291 0.37 0.044 0.001 0.005 0.152 0.000 0.000 0.071 0.021 0.001 0.000 0.119 0.001 0.086 0.001 0.000 0.005 0.023 0.000 0.036 0.001 0.059 0.02 0.000 0.007 0.046 0.046 0.004 0.018 0.143 0.008 0.019 0.382 0.001 0.20 0.000 0.000 0.038 0.032 0.103 0.216 0.254 0.293 0.000 0.212 0.043 0.10 0.071 0.272 1 0.36 0.093 0.243 0.000 0.000 0.172 0.04 0.000 0.174 0.111 0.080 0.000 0.057 0.017 0.293 0.098 0.027 0.000 0.003 0.000 0.237 0.006 0.031 0.506 0.164 0.004 0.006 0.010 0.001 0.44 0.064 0.210 0.000 0.044 0.219 0.000 0.15 0.000 0.329 0.008 0.010 0.001 0.002 0.236 0.191 0.005 0.022 0.075 0.386 0.002 0.032 0.638 0.000 0.002 0.000 0.002 0.001 0.265 0.129 0.089 0.166 0.034 0.000 0.043 0.066 0.284 0.017 0.042 0. 0.290 0.005 0.18 1 2 3 4 5 6 7 0.715 0.000 0.031 0.30 0.009 0.355 0.002 0.183 0.11 0.000 0.083 0.004 0.268 0.07 0.007 0.001 0.35 6 7 8 9 0.074 0.373 0.001 0.341 0.003 0.002 0.001 0.197 3 0 0.040 0.232 0.377 0.006 0.227 0.308 0.008 0.020 0.132 0.384 0.100 0.086 4 0.262 0.050 0.001 0.224 0.004 0.261 0.000 0.128 0.000 0.039 0.01 0.007 0.104 0.190 0.000 0.06 0.030 0.354 0.202 0.013 0.21 0.009 0.368 0.298 0.43 0.000 0.241 0.001 0.251 0.000 0.260 0.001 0.000 0.002 0.005 0.151 0.002 0.258 0.010 0.000 0.113 0 0.006 0.002 0.005 0.036 0.001 0.006 0.000 0.000 0.011 0.008 0.170 0.13 0.153 0.099 0.14 0.236 0.895 0 0.194 0.277 0.200 0.233 0.245 0.314 0.569 0.34 0.001 0.135 0.009 0.001 0.000 0.247 0.004 0.220 0.001 0.000 0.002 0.248 0.136 0.002 0.005 0.032 0.000 0.001 0.006 0.801 0.24 0.062 0.212 0.024 0.253 0.180 0.002 0.000 0.003 0.160 0.325 0.008 0.015 0.001 0.001 0.115 0.000 0.016 0.175 0.000 0.000 0.014 0. 002 0.045 0.000 0.249 0.038 0.205 0.071 0.032 0.120 0.015 0.188 0. 0.138 0.192 0.021 0.208 0.118 0.000 0.366 0.188 0.016 0.224 0.15 0.44 0.540 0.11 0.015 0.120 0.019 0.065 0.257 0.40 0.221 0.383 0.208 0.013 0.140 2 0.000 0.419 0.004 0.217 0.296 0.126 0.065 0.001 0.126 0.027 0.214 0.207 0.003 0.215 0.037 0.072 0.001 0.128 0.257 0.023 0.246 0.007 0.040 0.072 0.26 0.244 0.116 0.042 0.215 0.194 0.081 0.006 2 0.000 0.005 0.079 0.07 0.001 0.000 0.232 0.137 0.099 0.048 0.227 0.053 0.203 0.070 0.198 0.193 0.142 0.233 0.027 0.232 0.000 0.000 0.089 0.20 0.194 0.080 0.004 0.080 0.169 0.35 0.089 0.161 0.157 0.282 0.107 1 0 0.31 0.233 0.03 0.113 0.255 0.000 0.243 0.098 © Editorial El manual moderno Fotocopiar sin autorización es un delito.147 0.036 0.017 0.141 0.031 0.063 0.215 0.122 0.000 0.22 0.046 0.290 0.243 0.019 0.058 0.001 0.157 0.17 Distribución binomial de probabilidad 277 .171 0.235 0.000 4 0.167 0.189 0.221 0.27 0.258 0.237 0.49 0.255 0.002 0.09 p 0.010 4 5 6 0.000 0.183 0.027 0.172 0.020 0.008 0.216 0.181 0.151 0.069 0.157 0.012 0.103 0.39 0.613 0.226 0.082 0.208 0.000 7 3 0.059 0.099 0.146 0.010 0.017 0.353 0.008 0.28 0.010 0.114 0.33 0.070 0.306 0.001 0.13 0.001 0.06 0.114 0.040 0.265 0.172 0.007 0.236 0.000 6 0.020 0.052 0.056 0.341 0.231 0.014 0.24 0.006 0.179 0.225 0.080 0.000 0.108 0.294 0.025 0.022 0.230 0.004 0.221 0.005 0.18 0.002 0.004 0.32 0.001 0.031 0.142 0.202 0.207 0.058 0.183 0.131 0.081 0.000 0.041 0.000 0.146 0.043 0.010 0.08 0.000 0.123 0.220 0.069 0.159 0.377 0.34 0.226 0.45 0.42 0.118 0.023 0.023 0.029 0.000 0.30 0.240 0.206 0.057 0.004 0.164 0.035 0.014 0.247 0.000 0.36 0.108 0.384 0.107 0.085 0.14 0.171 0.277 0.102 0.244 0.001 0.283 0.337 0.092 0.12 0.132 0.080 0.235 0.095 0.011 0.258 0.236 0.201 0.078 0.127 0.694 0.103 0.054 0.230 0.235 0.001 0.05 0.301 0.155 0.19 0.092 0.148 0.002 0.004 0.027 0.012 0.003 0.063 0.198 0.046 0.43 0.286 0.098 0.047 0.238 0.04 0.136 0.206 0.086 0.476 0.091 0.027 0.188 0.263 0.000 0.000 0.225 0.10 0.886 0 0.250 0.50 0.106 0.120 0.46 0.098 0.251 0.368 0.25 0.009 0.000 0.012 0.003 0.161 0.48 0.0.049 0.244 0.212 0.000 0.37 0.055 0.38 0.000 0.236 0.001 0.155 0.000 5 2 0.045 0.062 0.016 0.000 0.053 0.107 0.051 0.242 0.266 0.000 0.003 0.127 0.088 0.000 0.236 0.118 0.039 0.128 x n = 12 0.104 0.168 0.226 0.296 0.051 0.180 0.070 0.000 0.200 0.256 0.005 0.108 0.137 0.192 0.378 0.037 0.16 0.21 0.001 0.322 0.008 0.215 0.000 0.000 0.166 0.043 0.015 0.017 0.029 0.196 0.02 0.143 0.000 0.000 0.282 0.183 0.188 0.185 0.41 0.158 0.276 0.240 0.062 0.093 0.133 0.156 0.244 0.073 0.037 0.002 0.292 0.176 0.785 0.006 0.365 0.188 0.001 0.230 0.232 0.001 0.024 0.010 0.005 0.001 0.034 0.002 0.226 0.226 0.29 0.177 0.003 0.47 0.007 0.019 0.000 0.000 3 x 4 5 6 7 8 9 10 0.238 0.01 0.031 0.320 0.23 0.220 0.000 0.044 0.068 0.000 0.000 3 1 0.011 0.002 0. 020 0.000 8 9 10 x 0 1 2 3 4 5 6 7 8 9 10 11 ?&Q "$ "% " K?K % ? 0 1 2 3 4 5 6 7 & % "? &?# # 0.002 0.200 0.004 0.032 0.177 0.000 0.005 0.042 0.35 0.002 0.212 0.048 0.158 0.0.007 0.174 0.084 0.000 0.092 0.000 0.158 0.177 0.131 0.110 0.064 0.139 0.008 0.016 0.046 " $ " "K "Q "#& KQ ? 0.131 0.000 0.007 0.000 0.234 0.000 0.003 0.149 0.001 0.002 7 n = 12 % ## $" #? $$? & 0.000 0.201 0.025 0.054 0.001 0.083 0.005 0.000 0.003 0.140 0.011 0.000 0.000 0.006 0.000 0.020 0.195 0.109 0.001 0.001 0.000 0.185 0.002 0.150 0.037 0.017 0.037 0.168 0.039 0.000 0.001 0.47 0.228 0.092 0.024 0.49 0.014 0.225 0.003 0.021 " " $? #K "?% ##& Q " 0.204 0.080 0.207 0.000 0.41 0.059 0.002 0.029 $ " ? ?$ "Q "QK $ $ 0.000 0.001 0.001 0.229 0.36 0.012 0.002 0.006 0.007 Q $? ?" #K #KQ ? 0.040 " K ## QK "% "Q# "%? $ & 0.001 0.067 0.138 0.000 0.216 0.006 0.000 0.012 0.072 0.000 0.000 0.000 0.185 0.034 0.111 0.000 0.225 0.111 0.093 0.052 278 Bioestadística .057 0.060 0.42 0. " 0.009 0.005 0.120 0.015 0.221 0.170 0.010 0.020 0.003 " K #Q %KK $ 0.006 © Editorial El manual moderno Fotocopiar sin autorización es un delito.000 0.193 0.001 0.000 0.226 0.189 0.153 0.000 0.000 0.034 & "? K$ Q "Q$ "?? " % 0.009 " $ &$ QQ #K" ##K K 0.223 0.002 0.102 0.000 0.023 0.068 0.46 0.213 0.000 0.168 0.075 0.160 0.089 0.002 x n = 13 0.001 0.001 0.38 0.042 0.193 0.008 0.016 0.006 0.000 0.014 0.005 0.230 0.101 0.000 0.009 0.017 0.015 0.128 0.019 0.050 0.001 0.000 0.001 0.013 0.003 0.179 0.130 0.001 0.227 0.218 0.40 0.001 0.002 0.029 0.000 0.001 0.061 0.004 0.102 0.225 0.008 0.022 0.000 0.37 0.45 0.163 0.002 0.207 0.003 0.004 # " #% %# % 0.054 0.001 0.226 0.222 0.010 0.002 0.027 0.193 0.000 0.121 0.032 0.075 0.237 0.017 0.099 0.228 0.012 0.001 0.032 0.025 # & %K %& "K% #K &$ # 0.002 0.000 0.014 p & "K "$% #&? "%$ 0.054 0.010 0.084 0.003 0.000 0.005 0.017 K #? Q "&" #%# "" 0.211 0.185 0.024 0.001 0.221 0.142 0.213 0.48 0.004 0.50 0.002 0.004 0.001 0.44 0.028 0.004 0.004 0.000 0.076 0.006 0.121 0.197 0.001 0.217 0.028 0.048 0.002 0.000 0.121 0.003 0.068 0.39 0.011 p $ " K ""$ #?? "Q# Q 0.044 0.000 0.205 0.220 0.148 0.037 0.43 0. 209 0.074 0.024 0.035 0.185 0.091 0.000 0.003 0.36 0.091 0.093 0.234 0.000 0.104 0.001 0.157 0.041 0.277 0.177 0.248 0.25 0.220 0.027 0.000 0.004 0.091 0.014 0.50 0.045 0.001 0.285 2 0 0.052 0.208 0.219 0.121 0.23 0.010 0.217 0.000 0.000 0.001 0.044 0.170 0.029 0.002 0.197 0.000 0.032 0.143 0.39 0.028 0.000 0.001 0.208 0.015 0.002 0.011 0.059 0.213 0.246 0.017 0.080 0.251 0.064 0.008 0.040 0.157 0.165 0.001 0.221 0.007 0.000 0.233 0.021 0.234 0.001 0.19 0.229 0.000 0.010 0.216 0.255 0.21 0.115 0.003 0.47 0.001 0.026 0.000 0.202 0.011 0.003 0.066 0.011 0.106 0.050 5 0.222 0.20 0.005 0.232 0.034 0.000 0.035 0.134 0.000 0.063 0.002 0.000 0.114 0.000 5 6 7 8 9 10 11 12 0.184 0.113 0.41 0.083 0.075 0.254 0.165 0.019 0.238 0.35 0.005 0.31 0.008 0. 0.192 0.224 0.229 3 0.209 0.193 0.059 0.179 0.215 0.004 0.182 0.046 0.103 0.006 0.005 0.052 0.012 0.009 0.009 0.000 0.056 0.197 0.058 0.252 0.074 0.033 0.001 0.039 0.176 0.055 0.048 0.46 0.004 0.254 0.125 0.033 0.49 0.000 0.40 0.109 0.012 0.014 0.001 0.002 0.000 0.169 0.001 8 3 0.209 0.126 4 1 0.000 0.041 0.235 0.000 0.152 0.024 0.205 0.000 0.051 0.000 0.28 0.112 0.003 0.001 0.051 0.242 0.140 0.268 0.021 0.003 0.217 0.102 0.010 0.219 0.005 0.216 0.43 0.014 0.138 0.165 0.189 0.000 0.035 0.030 0.223 0.199 0.026 0.130 0.016 0.004 0.043 0.038 0.026 0.040 0.001 0.047 0.121 0.111 0.131 0.212 0.218 0.073 0.016 0.028 0.001 0.215 0.001 0.000 0.087 0.257 0.018 0.012 0.022 0.008 0.145 0.218 0.030 0.206 0.019 0.005 0.190 0.001 0.004 0.000 0.003 0.004 0.002 0.002 0.203 0.211 0.006 0.080 0.001 0.093 0.161 0.008 0.004 0.091 0.045 0.028 0.017 0.059 0.29 0.001 0.231 0.199 0.32 0.37 0.069 0.050 0.26 0.24 0.062 0.015 0.079 0.002 0.000 9 0.187 0.013 0.221 0.178 0.145 0.007 0.38 0.017 0.100 0.073 0.003 7 0.184 0.205 0.082 0.103 0.030 0.000 0.18 x 0.001 0.210 0.065 0.010 0.201 0.006 0.034 0.001 0.198 0.066 0.22 © Editorial El manual moderno Fotocopiar sin autorización es un delito.002 0.128 0.082 0.020 0.102 0.233 0.002 0.155 0.154 0.047 0.092 0.000 10 4 0.054 0.192 0.000 0.003 0.024 0.016 0.0.066 0.115 0.001 0.001 0.038 0.118 0.008 0.227 0.149 0.132 0.160 0.44 0.193 0.127 0.084 0.002 0.002 0.124 0.164 0.003 0.076 0 0.022 0.126 0.160 0.166 0.001 0.216 1 0.27 0.141 0.040 0.180 0.056 0.002 0.010 0.223 0.001 0.087 0.010 0.096 0.175 0.008 0.005 0.002 0.001 0.101 0.023 0.139 0.071 0.167 0.083 0.014 0.30 0.000 0.001 0.154 0.034 0.227 0.245 0.000 0.34 Distribución binomial de probabilidad 279 .023 0.004 0.215 0.217 0.145 0.33 0.015 6 2 0.000 0.173 0.058 0.48 0.175 0.022 0.190 0.000 0.000 0.007 0.008 0.45 0.000 0.148 0.000 0.000 0.007 0.000 0.137 0.179 0.205 0.004 0.116 0.002 0.019 0.012 0.151 0.155 0.197 0.211 0.066 0.071 0.135 0.005 0.019 0.42 0. 000 0.156 0.000 0.046 0.000 0.213 0.154 0.000 0.055 0.000 0.206 0.063 0.25 0.869 0 0.000 4 1 0.010 0.233 0.003 0.009 0.001 0.015 0.46 0.025 0.157 0.214 0.008 0.007 0.072 0.000 0.000 0.33 0.220 0.012 0.002 0.000 0.035 0.044 0.653 0.007 0.219 0.062 0.071 0.001 0.07 0.283 0.15 0.030 0.000 0.095 0.007 0.063 5 6 7 8 9 10 11 x 0 1 2 0.021 0.028 0.000 0.05 © Editorial El manual moderno Fotocopiar sin autorización es un delito.216 0.362 0.14 0.154 0.056 0.005 0.195 0.142 0.002 0.028 0.281 0.013 0.006 0.008 0.000 0.055 0.001 0.246 0.029 0.019 0.272 0.000 0.003 0.094 0.000 0.000 0.180 0.001 0.000 0.000 0.011 0.064 0.004 0.008 2 0 0.215 0.013 0.41 0.239 0.254 0.083 0.43 0.379 0.19 0.01 x n = 14 0.215 0.000 0.070 0.240 0.000 0.30 0.137 0.113 0.001 0.130 0.10 0.000 3 0.000 7 0.172 0.052 0.115 0.272 0.035 0.000 0.002 0.021 0.004 0.000 0.000 0.083 0.005 0.000 0.225 0.32 0.34 0.028 0.001 0.073 0.015 0.063 0.000 0.047 0.015 0.012 0.12 0.079 0.000 5 0.000 0.026 0.008 0.000 0.289 0.126 0.000 0.002 0.179 0.001 0.123 0.09 p 0.006 0.000 0.114 0.010 0.001 0.205 0.000 0.000 0.110 0.382 0.134 0.298 0.049 0.012 0.007 0.138 0.032 0.003 0.001 0.115 0.011 0.172 0.000 0.002 0.187 0.018 0.194 0.000 0.754 0.005 0.230 0.229 0.000 0.057 0.250 0.287 0.292 0.223 0.015 0.252 0.000 6 2 0.023 0.098 0.000 0.13 0.232 0.21 0.000 0.152 0.31 0.013 0.002 0.002 0.108 0.000 0.16 0.03 0.160 0.074 0.329 0. 0.046 0.205 0.001 0.089 0.001 0.191 0.184 0.000 0.004 0.040 0.006 0.033 0.18 0.359 0.073 0.000 0.094 0.062 0.169 0.015 0.000 0.000 0.36 0.001 0.222 0.40 0.021 0.000 0.000 0.000 0.012 0.026 0.229 0.002 0.370 0.001 0.017 0.209 0.216 0.000 0.001 0.000 0.009 0.06 0.009 0.02 0.002 0.010 0.38 0.008 0.000 0.001 0.001 0.190 0.50 0.000 8 3 0.105 0.000 0.188 0.49 0.37 0.210 0.183 0.230 0.26 0.003 0.047 0.042 0.000 0.010 0.100 0.203 0.001 0.173 0.356 0.000 0.257 0.211 0.074 0.47 0.000 0.032 0.026 0.252 0.038 0.023 0.319 0.044 0.031 0.001 0.005 0.005 0.44 0.11 0.147 0.20 0.283 0.262 0.039 0.196 0.123 0.000 0.016 0.000 0.000 0.007 0.000 0.005 0.0.122 0.167 0.056 0.000 0.035 0.001 0.000 0.08 0.000 0.001 0.037 0.004 0.004 0.003 0.000 0.103 0.026 0.001 0.158 0.000 0.016 0.24 0.237 0.48 0.276 0.000 0.019 0.003 0.000 0.012 0.121 0.166 0.033 0.040 0.000 0.135 0.086 0.230 0.196 0.209 0.27 0.000 0.002 0.074 0.003 0.39 0.089 0.167 0.005 0.42 0.007 0.004 0.000 0.488 0.29 0.000 0.565 0.102 0.000 0.001 0.159 0.007 0.027 0.021 0.002 0.126 0.000 0.339 0.023 0.144 4 0.17 280 Bioestadística .008 0.04 0.250 0.054 0.001 0.037 0.35 0.002 0.000 0.311 0.002 0.229 0.250 0.003 0.267 0.001 0.087 0.45 0.246 0.041 0.001 0.147 0.148 0.000 0.123 1 0.007 0.098 0.044 0.421 0.171 0.002 0.376 0.195 0.053 0.22 0.000 0.081 0.000 0.28 0.226 0.091 0.000 0.003 0.000 0.004 0.000 0.014 0.058 0.291 0.006 0.137 0.23 0.214 0.000 0.238 0.018 0.225 0.020 0.018 0.016 0.002 0.085 0.001 0. 100 0.063 0.061 0.114 0.064 0.000 0.053 0.000 0.114 0.031 0.069 0.24 0.060 0.000 0.161 0.004 0.125 0.094 0.07 0.003 0.254 0.542 0.30 0.230 0.199 0.010 0.000 0.23 0.395 0.116 0.149 0.000 0.174 0.112 0.249 0.009 0.077 0.366 0.001 0.278 0.000 0.175 0.165 0.000 0.046 0.032 0.02 0.142 0.182 0.000 0.000 0.206 0.000 0.027 0.33 0.083 0.239 0.200 0.073 0.035 0.000 0.20 0.051 0.031 0.014 0.03 0.213 0.000 0.209 0.10 0.018 0.001 0.081 0.134 0.149 0.023 0.031 0.194 0.000 0.000 0.000 0.34 0.001 0.049 0.156 0.170 0.003 0.042 0.188 0.279 0.003 0.009 0.007 0.148 0.000 0.001 0.103 0.019 0.05 0.003 0.002 0.128 0.250 0.150 0.08 0.001 0.000 0.005 0.000 0.19 0.016 0.209 0.26 0.000 0.11 0.000 0.207 0.015 0.182 0.137 3 0.250 0.739 0.183 0.209 0.04 0.21 0.018 0.042 0.206 0.32 0.001 0.197 0.183 0.007 0.000 0.002 0.003 0.000 0.06 0.170 0.054 0.000 0.047 0.055 0.142 0.145 0.290 0.124 0.01 0.085 0.129 0.051 0.004 0.108 0.204 0.132 0.116 0.002 0.269 0.167 0.043 0.035 0.104 0.001 0.005 0.152 0.000 0.001 0.061 0.000 0.209 0.026 0.099 0.217 0.188 0.001 0.008 0.337 0.085 0.118 0.189 0.022 0.191 0.000 4 5 6 7 8 9 10 11 12 13 0.339 0.069 0.022 0.004 0.211 0.013 0.002 0.227 0.175 0.000 0.226 0.077 0.207 0.011 0.378 0.000 0.024 0.005 0.001 0.004 0.000 0.011 0.029 0.022 0.076 0.162 x 0 1 2 3 4 5 6 7 8 x 0 1 2 3 4 n = 15 0.001 0.004 0.29 0.198 0.107 0.021 0.000 0.208 0.000 0.001 0.000 0.047 0.0.003 0.023 0.058 0.361 0.15 0.009 0.084 0.016 0.215 0.000 0.101 0.006 0.218 0.006 0.001 0.036 0.045 0.006 0.020 0.055 0.218 0.201 0.000 0.094 0.243 0.194 0.009 0.130 0.155 0.000 0.089 0.219 0.066 0.134 0.035 0.000 0.184 0.194 0.030 0.102 0.258 0.200 0.000 0.301 0.216 0.003 0.000 0.294 0.002 0.17 Distribución binomial de probabilidad 281 .028 0.147 0.227 0.053 0.231 0.092 0.135 0.279 0.015 0.186 0.202 0.015 0.202 0.000 0.212 0.140 0.086 0.000 0.058 0.218 0.124 0.061 0.201 0.157 0.209 0.000 0. 0.195 0.041 0.022 0.000 0.204 0.188 0.168 0.211 0.104 0.065 0.030 0.066 0.176 0.146 0.001 0.120 0.000 0.185 0.006 0.104 0.189 0.002 0.633 0.000 0.206 0.013 0.147 0.011 0.128 0.171 0.111 0.13 0.103 0.009 0.000 0.09 p 0.040 0.000 0.061 0.132 0.026 0.000 0.290 0.000 0.16 0.373 0.25 0.036 0.249 0.074 0.170 0.005 0.085 0.228 0.002 0.138 0.010 0.000 0.245 0.013 0.005 0.175 0.026 0.246 0.240 0.12 0.196 0.017 0.019 0.215 0.055 0.067 0.211 0.122 0.176 0.463 0.205 0.169 0.002 0.190 0.008 0.048 0.225 0.007 0.000 0.067 0.094 © Editorial El manual moderno Fotocopiar sin autorización es un delito.234 0.287 0.207 0.223 0.001 0.036 0.231 0.071 0.286 0.092 0.016 0.002 0.158 0.000 0.001 0.187 0.005 0.323 0.27 0.076 0.087 0.226 0.221 0.000 0.245 0.022 0.860 0.380 0.14 0.179 0.001 0.000 0.001 0.000 0.122 0.018 0.000 0.31 0.000 0.158 0.115 0.166 0.18 0.006 0.002 0.002 0.009 0.122 0.130 0.203 0.267 0.225 0.032 0.216 0.28 0.000 0.001 0.22 0.131 0.042 0.068 0.286 0.343 0. 187 0.041 0.011 0.165 0.47 0.005 0.148 0.157 0.35 2 0.182 0.185 0.054 0.003 0.114 0.000 0.024 0.04 0.006 0.008 0.201 0.000 0.146 0.213 0.010 0.004 0.000 0.201 0.083 0.035 0.041 0.034 0.108 0.114 0.200 0.108 0.176 0.009 0.147 0.054 0.178 0.44 0.207 0.018 0.000 0.111 0.001 0.304 0.289 0.001 0.136 0.001 0.289 0.043 0.087 0.000 0.001 0.078 5 n = 15 0.210 0.001 0.000 0.007 0.180 0.124 0.0.010 0.125 0.020 0.001 0.008 0.092 0.039 0.11 0.10 0.193 0.004 0.058 0.035 0.07 0.263 0.002 0.000 0.37 0.001 0.239 0.39 0.008 7 0.027 0.003 0.001 0.070 0.072 0.371 0.155 0.061 0.143 0.000 0.196 0.006 0.006 0.000 0.166 0.002 0.313 0.176 p 0.003 0.42 0.41 0.051 0.063 0.214 0.006 0.011 0.284 0.027 0.077 0.01 0.275 0.021 0.132 0.089 0.016 0.020 0.169 0.000 0.042 0.046 0.147 0.285 0.002 0.185 0.203 0.268 0.122 0.024 0.15 0.000 11 0.204 0.016 0.072 0.002 0.009 0.153 0.090 0.142 0.05 0.003 0.178 0.134 0.159 0.724 0.001 0.016 0.196 0.000 0.614 0.012 0.061 0.009 0.000 0.000 0.001 0.001 0.100 0.036 0.001 0.037 0.003 0.001 0.372 0.036 0.204 0.120 0.056 0.006 0.277 0.197 0.46 0.001 0.090 0.103 0.000 0.039 0.002 0.001 0.156 0.201 0.167 0.116 0.026 0.440 0.000 0.366 0.027 0.138 0.000 0.022 0.205 0.000 0.329 0.010 0.005 0.201 0.152 0.129 0.140 0.029 0.255 0.000 0.111 0.003 0.118 0.000 0.195 0.003 0.154 0.000 0.260 0.092 0.002 0.074 0.000 0.010 1 2 0.063 0.017 0.048 0.377 0.000 0.011 0.50 0.000 0.014 0.282 0.029 0.054 0.091 0.000 0.210 0.013 0.258 0.007 0.086 0.000 9 0.003 0.014 0.09 0.051 0.186 0.081 0. 0.12 0.012 0.000 0.013 0.43 0.030 0.137 0.048 0.161 0.209 0.010 0.14 0.214 282 Bioestadística .116 0.02 0.002 0.002 8 0 0.128 0.055 0.184 0.196 0.035 0.379 0.099 0.000 0.38 0.001 0.206 0.030 0.005 0.005 0.212 0.078 0.003 0.045 0.347 0.007 0.101 0.042 0.005 0.001 0.014 0.111 0.08 0.009 0.170 0.081 0.017 0.033 0.013 0.002 0.014 0.203 0.001 0.130 0.000 0.129 © Editorial El manual moderno Fotocopiar sin autorización es un delito.000 0.000 0.029 6 0.069 0.002 0.06 0.095 0.004 0.108 0.071 0.002 0.041 0.200 0.080 0.206 0.006 0.233 0.025 0.061 0.199 0.004 0.16 0.192 0.043 0.48 0.008 0.049 0.350 0.001 0.021 0.306 0.105 0.051 0.001 0.001 0.000 0.031 0.047 0.003 0.017 0.003 0.000 10 1 0.177 0.022 0.001 0.007 0.004 0.019 0.048 0.173 0.002 0.000 0.012 0.004 0.071 0.001 0.000 3 4 5 6 7 8 9 10 11 12 13 0.013 0.03 0.202 0.150 0.070 0.032 0.001 0.002 0.019 0.186 0.092 0.191 0.193 0.127 0.002 0.851 x 0 n = 16 0.063 0.49 0.165 0.138 0.169 0.035 0.001 0.101 0.236 0.006 0.45 0.153 0.000 0.090 0.190 0.142 0.221 p 0.000 0.17 0.023 0.162 0.106 0.206 0.40 0.13 0.185 0.520 0.081 0.179 0.074 0.184 0.169 0.000 0.36 0.062 0.001 0.000 0.096 0.000 0.000 0.213 0.160 0.191 0.023 0.066 0.014 0.103 0.003 0.005 0.000 0. 056 0.015 0.000 0.32 0.001 0.048 0.000 0.0.008 0.035 0.030 0.006 0.102 0.112 0.227 0.001 0.049 0.095 0.005 0.001 0.26 0.005 0.000 0.011 0.146 0.210 0.143 0.009 0.180 0.146 0.007 0.002 0.038 0.163 0.107 0.49 0.010 0.000 0.093 0.248 0.31 0.000 0.236 0.004 0.004 0.001 0.174 0.27 0.177 0.004 0.001 0.001 0.179 0.000 0.19 0.027 0.197 0.43 0.110 0.012 0.000 4 0.164 0.203 0.000 0.211 0.000 0.189 0.006 0.209 0.034 0.40 0.133 0.147 0.097 0.47 0.003 0.004 0.002 0.000 0.009 0.000 0.001 0.122 0.006 0.000 0.000 0.013 0.029 0.035 0.216 0.005 0.000 0.143 0.120 0.030 0.000 0.080 0.194 0.023 0.195 0.21 0.070 0.005 0.000 0.003 0.083 0.000 p 0.001 0.000 0.090 0.35 0.001 0. 0.020 0.216 0.002 0.019 0.122 0.041 0.122 0.008 0.098 0.073 0.000 0.000 0.035 0.25 0.33 0.001 0.001 0.000 0.000 0.003 0.007 0.29 0.34 0.000 0.018 0.000 0.015 0.010 0.228 0.50 0.147 0.067 0.002 0.000 0.012 0.221 0.030 0.208 0.008 0.000 0.002 0.002 0.41 0.054 0.018 0.000 0.019 0.001 0.000 0.000 0.155 0.024 0.134 0.014 0.218 0.000 0.089 0.084 0.001 0.030 0.000 0.039 0.067 0.18 0.015 0.019 0.012 0.011 0.229 0.020 0.015 0.057 0.224 0.201 2 3 4 5 6 7 8 9 10 11 12 n = 16 x 0 1 2 3 4 5 0.000 0.242 0.211 0.48 0.053 0.170 0.114 0.000 0.012 0.065 0.000 0.000 6 0 0.000 0.007 0.011 0.000 0.036 © Editorial El manual moderno Fotocopiar sin autorización es un delito.041 0.003 0.38 0.098 0.30 0.120 0.217 0.006 0.023 0.165 0.189 0.064 0.025 0.001 0.113 0.110 0.207 0.204 0.083 0.037 0.171 0.195 0.073 0.222 0.000 0.004 0.013 0.177 0.000 0.003 0.001 0.133 0.022 0.211 0.000 0.065 0.003 0.000 0.201 0.001 0.000 0.001 0.001 0.200 0.000 0.000 0.000 0.010 0.196 0.184 0.056 0.056 0.032 0.007 0.002 0.021 0.010 0.122 0.112 0.018 0.24 0.007 0.000 0.004 0.001 0.025 0.014 0.098 0.047 0.009 0.000 0.172 0.002 0.189 0.001 0.081 0.001 0.010 0.196 0.000 0.006 0.016 0.209 0.142 0.038 0.063 0.080 0.000 0.035 0.184 0.000 0.001 0.003 0.000 0.070 0.065 0.000 7 0.000 0.075 0.000 0.045 0.044 0.144 0.045 0.000 0.023 0.004 0.003 0.248 0.133 0.002 0.211 0.001 0.051 0.28 0.148 0.000 0.153 0.042 0.028 0.187 0.027 0.000 0.224 0.002 0.000 0.006 0.45 0.001 0.134 0.073 0.015 0.162 0.003 0.009 0.180 0.166 0.027 0.055 0.076 0.000 0.002 0.000 5 0.013 0.003 0.027 0.046 0.225 0.107 0.001 0.002 0.120 0.000 0.000 0.244 Distribución binomial de probabilidad 283 .000 0.000 0.061 0.061 0.032 0.000 0.37 0.131 0.000 0.205 0.42 0.042 0.39 0.133 0.20 0.016 0.36 0.000 0.003 0.000 0.044 0.101 0.093 0.087 0.025 0.238 0.23 0.44 0.099 0.066 0.188 0.002 0.020 0.000 3 0.000 0.144 0.037 0.159 0.112 0.001 0.002 0.46 0.092 0.018 0.000 0.122 0.050 0.085 0.038 0.001 0.000 0.075 0.023 0.001 0.074 0.129 0.000 0.002 0.000 0.000 0.000 0.003 0.242 0.133 0.003 0.000 0.101 0.052 0.006 0.22 0.001 0.021 0.012 0.028 0.182 0.000 8 1 0.000 0.054 0.002 0.162 0.079 0.004 0.082 0.010 0.000 0.032 0.007 0.010 0.155 0.006 0.246 0.000 0.009 0.159 0.000 0. 103 0.201 0.142 0.000 0.213 0.002 0.187 0.000 0.011 0.029 0.000 0.012 0.221 0.082 0.238 0.062 0.025 0.225 0.009 0.000 0.209 0.090 0.246 0. 0.001 0.088 0.000 0.033 0.16 0.191 0.067 0.000 0.000 7 8 9 10 11 12 13 14 0.029 0.002 0.000 0.34 0.024 0.067 0.018 0.000 0.039 0.000 0.001 0.006 0.02 0.249 0.213 0.33 0.221 0.01 x n = 17 0.111 0.043 0.043 0.27 0.001 0.008 0.004 0.060 0.031 0.000 0.195 0.004 0.009 0.041 0.418 0.373 0.020 0.004 0.036 0.023 0.118 0.175 0.001 0.264 0.002 0.15 0.268 0.224 0.132 0.000 0.000 0.015 0.338 0.007 0.28 0.202 0.094 0.14 0.132 0.04 0.009 0.150 0.024 0.025 0.084 0.058 0.014 0.051 0.001 0.003 0.267 0.114 0.077 0.024 0.596 0.028 0.059 0.13 0.003 0.067 0.278 0.044 0.354 0.194 0.059 0.008 0.204 0.176 0.000 0.198 0.198 0.194 0.004 0.0.226 0.075 0.187 0.009 0.288 0.004 0.150 0.000 0.012 0.122 0.093 0.143 0.001 0.20 0.177 0.092 0.077 0.025 0.158 0.005 0.000 0.017 0.080 0.32 0.060 0.26 0.006 0.184 0.211 0.001 0.000 0.009 0.06 0.291 0.313 0.243 0.007 0.128 0.17 284 Bioestadística .000 0.290 0.159 0.168 0.189 0.315 0.077 0.024 0.052 0.045 0.033 0.000 0.000 0.000 0.201 0.001 0.114 0.052 0.189 0.005 0.160 0.001 0.196 0.175 0.043 0.196 0.051 0.196 0.143 0.045 0.05 0.18 0.002 0.012 0.084 0.170 0.012 0.25 0.006 0.239 0.23 0.052 0.183 p 0.167 0.10 0.246 0.112 0.000 0.07 0.181 0.034 0.223 0.000 0.004 0.196 0.013 0.000 0.19 0.709 0.08 0.022 0.000 0.000 0.21 0.177 0.11 0.142 0.000 0.000 0.021 0.000 0.189 0.000 0.000 0.014 0.031 0.012 0.168 0.000 0.005 0.112 0.280 0.094 0.158 0.216 0.001 0.001 0.191 0.050 0.040 0.122 0.010 0.001 0.108 0.128 0.000 0.217 0.006 0.004 0.000 0.001 0.070 0.161 0.014 0.067 0.122 0.000 0.003 0.162 0.063 0.000 0.017 0.005 0.000 0.008 0.001 0.001 0.034 0.000 0.112 0.000 0.223 0.012 0.000 0.001 0.160 0.176 0.145 0.166 0.011 0.001 0.017 0.020 0.000 0.12 0.080 0.202 0.014 0.000 0.002 0.103 0.125 0.24 0.189 0.240 0.006 0.075 0.001 0.198 0.000 0.223 0.112 0.236 0.29 0.042 0.001 0.198 6 n = 16 0.09 p 0.000 0.034 0.002 0.189 0 1 2 3 4 5 6 7 8 9 x 0 1 2 3 4 0.002 0.843 0.000 0.358 0.167 0.100 0.001 0.129 0.202 0.132 0.001 0.255 0.067 0.002 0.000 0.000 0.175 0.009 0.007 0.374 0.208 0.038 0.31 0.22 0.094 0.111 0.379 0.000 0.000 0.001 0.002 0.147 0.008 0.232 0.028 0.242 0.30 0.246 0.156 0.285 0.000 0.000 0.176 0.001 0.000 0.000 0.137 0.036 0.084 0.002 0.039 0.194 0.046 0.054 0.197 0.181 0.030 0.000 0.000 0.000 0.167 0.017 0.007 0.059 0.146 0.151 0.000 0.141 0.093 0.000 0.017 0.244 0.177 0.201 © Editorial El manual moderno Fotocopiar sin autorización es un delito.175 0.096 0.000 0.000 0.151 0.03 0.122 0.132 0.200 0.287 0.021 0.003 0.000 0.138 0.155 0.349 0.213 0.078 0.152 0.002 0.000 0.191 0.187 0.003 0.163 0.005 0.001 0.101 0.193 0.018 0.196 0.500 0.000 0.102 0.001 0. 190 0.001 0.000 0.001 0.040 0.273 0.185 0.073 0.000 0.15 0.189 0.088 0.067 0.020 0.161 0.001 0.047 0.000 0.000 0.015 0.46 0.000 0.004 0.012 0.018 0.000 0.012 0.101 0.001 0.103 0.128 0.000 0.12 0.001 0.172 0.000 0.017 0.194 0.121 0.021 0.019 0.014 0.39 0.099 0.001 0.360 0.003 0.191 0.029 0.034 0.003 0.001 0.004 0.000 0.002 0.000 0.397 0.037 0.120 0.000 0.006 0.188 0.000 0.149 0.012 0.000 0.039 0.000 0.127 0.057 0.046 0.034 0.035 0.064 0.123 0.011 0.43 0.071 0.003 0.104 0.322 0.206 0.008 0.000 0.029 0.053 0.002 0.45 0.054 0.005 0.40 0.173 0.022 0.38 0.000 0.16 0.000 0.000 0.177 0.182 0.028 0.033 0.098 0.052 0.04 0.068 0.367 0.002 0.188 0.007 0.179 0.223 0.074 0.000 0.246 0.002 0.177 0.015 0.000 0.018 0.17 0.36 0.158 0.000 11 0.114 0.021 0.185 0.010 0.039 0.035 0.030 0.007 0.168 0.136 0.000 0.003 0.009 0.001 0.017 0.014 0.087 0.178 0.003 0.124 0.103 0.116 0.097 0.108 5 0.089 0.157 0.005 0.023 0.048 0.180 0.165 0.176 0.000 10 1 0.000 0.001 0.197 0.003 0.194 0.139 0.046 0.189 0.002 0.145 0.012 0.001 0.061 0.000 0.199 0.000 0.001 0.031 0.000 12 2 0.018 0.000 0.161 0.002 0.002 0.000 0.191 0.01 0.129 0.109 0.150 0.097 0.191 0.018 0.041 0.001 0.055 0.005 0.152 0.133 0.193 0.326 0.001 0.219 0.13 0.49 0.187 0.012 0.022 0.004 0.003 0.000 0.190 0.191 0.48 0.107 0.148 0.018 0.000 0.007 0.015 0.47 0.062 0.002 0.480 0.208 0.176 0.001 0.185 0.043 0.002 0.139 0.002 0.132 0.001 0.184 0.578 0.198 0.026 0.001 0.141 0.152 3 4 5 6 7 8 9 10 11 12 13 14 15 n = 18 x 0 1 0.040 0.131 0.175 0.000 0.001 0.117 0.161 0.028 0.079 0.035 0.001 0.194 0.170 0.025 0.004 0.023 0.003 0.07 0.143 0.002 0.124 0.000 0.160 0.047 6 0.080 0.154 0.021 0.181 0.070 0.004 0.054 0.50 0.004 0.130 0.000 0.328 0.015 0.012 0.057 0.022 0.151 0.043 0.349 0.001 0.05 0.41 0.377 0.000 0.11 0.087 0.003 0.026 0.005 0.093 0.068 0.000 0.034 0.0.004 0.09 0.150 0.168 0.271 0.02 0.000 0.082 0.08 0.069 0.061 0.008 0.006 0.000 0.000 0.198 0.000 0.207 0.062 0.078 0.10 0.005 0.001 0.030 0.170 0.136 0.000 0.300 0.000 0.070 0.010 0.009 0.122 0.06 0.005 0.005 0.001 0.148 0.015 0.001 0.183 p 0.184 0.001 0.000 0.138 0.168 0.110 0.003 0.107 0.047 0.190 0.000 0.056 0.014 0.003 0.000 0.37 0.000 0.100 0.041 0.14 0.110 0.091 0.149 0.004 0.049 0.162 © Editorial El manual moderno Fotocopiar sin autorización es un delito.000 0.185 0.000 0.078 0.203 0.255 0.002 0.006 0.195 0.000 0.016 7 0.053 0. 0.148 0.000 0.007 0.193 0.183 0.35 0.011 0.027 0.010 0.203 0.060 0.001 0.010 0.001 0.004 0.162 0.000 0.169 0.001 0.002 0.048 0.000 0.03 0.008 0.170 0.000 0.120 0.001 0.002 0.000 0.008 0.001 0.026 0.066 0.002 0.018 0.006 0.006 0.113 0.057 0.153 0.199 0.009 0.050 0.000 0.001 9 0.091 0.376 0.000 0.033 0.133 0.083 0.094 0.024 0.198 0.077 0.026 0.44 0.117 0.185 0.001 0.192 Distribución binomial de probabilidad 285 .040 0.082 0.008 0.835 0.000 0.000 0.128 0.001 0.046 0.006 0.000 0.076 0.208 0.000 0.007 0.695 0.42 0.094 0.001 0.004 8 0 0.085 0.143 0.065 0. 015 0.028 0.005 0.19 0.105 0.070 0.000 0.000 0.000 0.000 0.235 0.29 0.224 286 Bioestadística .184 0. 0.070 0.072 0.157 0.241 0.184 0.28 0.022 7 3 0.002 0.000 0.46 0.256 0.006 0.001 0.027 0.000 0.206 0.002 0.010 0.221 0.003 0.015 0.39 0.019 0.241 0.119 0.19 0.063 0.197 0.004 0.006 0.000 0.000 0.038 0.045 0.079 0.191 0.001 0.009 0.124 0.093 0.187 0.047 0.069 0.000 0.028 0.052 0.000 0.008 0.258 0.32 0.000 0.003 0.000 0.151 0.073 0.274 p 0.008 0.058 0.206 0.285 0.000 0.001 0.005 0.018 0.055 0.123 0.043 0.005 0.046 0.28 0.47 0.23 0.001 0.023 0.049 0.047 0.009 0.000 0.139 0.001 0.062 0.008 0.027 0.20 0.007 0.002 0.001 0.148 0.013 0.207 2 0.127 0.008 0.058 6 0.012 0.029 0.053 0.109 0.052 0.006 0.006 0.091 0.22 0.124 0.009 0.144 0.233 0.157 0.007 0.44 0.18 4 5 6 7 8 9 0.014 0.003 0.003 0.25 0.016 0.007 0.039 0.32 0.000 0.000 0.000 0.000 0.027 0.175 0.002 0.000 0.013 0.31 0.23 0.000 0.001 3 0.012 0.002 0.003 0.37 0.166 0.000 0.157 0.279 0.003 0.009 0.49 0.168 0.022 0.21 0.130 0.000 0.003 0.000 0.000 0.287 0.181 0.006 0.033 0.005 0.123 5 2 0.004 0.004 0.127 0.219 0.000 0.116 0.009 0.063 0.111 1 0.22 0.112 0.001 0.000 0.032 0.108 0.000 0.24 0.205 0.008 0.155 0.143 0.022 0.012 0.137 0.033 0.011 0.000 0.002 0.221 0.31 0.209 0.001 0.021 0.004 0.004 0.007 0.002 0.230 0.001 0.18 0.245 0.038 0.26 0.048 0.093 0.218 0.071 0.202 0.016 0.213 0.015 0.0.007 0.102 0.000 0.054 0.017 0.009 0.000 0.001 0.35 8 9 10 11 12 0.145 0.000 0.085 0.42 0.013 2 n = 18 0.002 0.040 0.001 0.061 0.004 0.096 0.001 0.002 0.034 0.000 0.200 4 0.155 0.184 0.000 0.035 0.117 0.000 0.081 0.000 0.027 0.222 0.000 0.133 0.044 0.34 0.000 0.176 0.000 0.009 0.009 0.011 0.001 0.174 0.000 0.107 0.040 0.268 0.000 0.000 0.168 0.003 0.45 0.082 0.43 0.50 0.000 0.010 0.205 0.142 0.004 0.27 0.168 © Editorial El manual moderno Fotocopiar sin autorización es un delito.189 0.000 0.005 0.179 0.145 0.001 0.000 0.190 0.011 0.122 0.061 0.018 0.106 0.199 0.001 0.006 0.030 0.003 0.34 0.070 0.000 0.023 0.023 0.028 0.004 0.138 0.203 0.001 0.000 0.000 0.065 0.38 0.082 0.001 0.001 0.003 0.159 0.33 0.003 0.196 0.001 0.000 0.104 0.030 0.001 0.039 0.172 0.084 0.000 0.244 0.094 0.29 0.028 0 0.093 0.284 0.001 0.000 0.165 0.002 0.003 0.004 0.012 0.000 0.237 0.002 0.081 0.017 0.000 0.000 0.003 0.196 0.088 0.215 0.206 0.095 0.207 0.000 0.002 0.163 0.041 0.000 0.25 0.018 0.004 0.000 0.000 0.000 0.132 0.001 0.031 0.27 0.023 0.000 0.192 0.070 0.36 0.053 0.001 0.001 0.000 0.220 0.001 0.025 0.000 0.197 0.173 0.195 0.198 0.006 0.30 0.41 0.034 0.000 0.017 0.188 0.013 0.012 0.000 0.071 0.046 0.002 0.000 0.000 0.023 0.24 0.001 0.005 0.120 0.019 0.001 0.094 0.000 0.039 0.014 0.000 0.209 0.002 0.006 0.002 0.48 0.193 0.40 0.33 0.005 0.020 0.001 0.002 0.025 0.001 0.175 0.082 0.21 0.000 0.001 0.054 0.189 0.000 0.170 0.30 0.003 0.002 0.014 0.20 0.014 0.000 0.243 3 1 0.26 0.017 0. 002 0.022 0.089 0.094 0.014 0.179 0.178 0.115 0.027 0.000 0.238 0.016 0.006 0.08 0.000 0.009 0.002 0.048 0.137 0.121 0.201 0.135 0.24 0.004 0.001 0.014 0.033 0.26 0.063 0.007 0.191 0.033 0.185 0.000 0.243 0.028 0.34 0.115 0.000 0.000 0.000 0.17 Distribución binomial de probabilidad 287 .045 0.189 0.012 0.037 0.228 0.360 0.15 0.10 0.005 0.015 0.010 0.001 0.001 0.075 0.012 0.000 0.243 0.187 0.006 0.066 0.04 0.018 0.133 8 0.000 0.137 0.112 0.054 0.086 0.329 0.118 0.000 0.050 0.003 0.033 0.180 0.008 0.184 0.125 0.000 0.000 0.186 0.000 0.03 0.280 0.021 0.051 0.000 0.000 0.000 0.000 0.147 0.007 0.004 0.002 0.176 0.016 0.071 0.119 0.032 0.089 0.377 0.000 0.19 0.001 0.027 0.27 0.167 0.000 0.029 0.000 0.264 0.179 0.183 0.000 0.01 0.040 0.083 0.157 0.460 0.002 0.079 0.006 0.166 5 0.000 0.000 0.11 0.190 0.092 0.001 0.104 0.091 0.011 0.148 0.044 0.000 0.004 0.099 0.109 0.000 0.108 0.131 0.156 0.071 0.180 0.16 0.020 0.007 0.285 0.000 0.029 0.012 0.000 0.037 0.057 0.040 0.031 0.000 0.132 0.186 0.068 0.000 0.003 0.017 0.163 0.023 0.000 0.05 0.001 0.102 0.185 0.128 0.015 0.11 0.018 0.074 0.826 0.167 0.001 0.000 0.020 0.113 0.180 0.084 0.681 0.053 0.121 0.001 0.001 0.166 0.185 0.018 0.131 0.096 0.364 0.175 0.067 0.058 0.009 0.128 0.012 0.000 0.14 0.374 0.000 0.03 0.185 0.004 0.09 0.099 0.004 0.002 0.008 0.22 0.003 0.000 0.158 0.339 0.059 0.173 0.146 0.134 0.000 0.208 0.036 0.046 0.157 0.037 0.285 0.000 0.018 0.160 0.151 0.002 0.000 0.182 0.118 0.001 0.285 0.000 0.000 0.143 0.000 0.215 0.252 0.061 0.014 0.096 0.183 0.011 0.160 0.20 0.33 0.257 0.30 0.04 0.105 0.183 0.001 0.014 0.044 0.001 0.007 0.171 0.071 0.004 0.153 0.029 0.07 0.080 0.000 0.041 0.07 0.10 0.013 0.068 0.01 0.007 0.000 0.011 0.032 0.035 0.138 0.000 0.005 0.167 p 0.09 0.125 0.000 0.001 0.265 0.205 0.17 0.049 0.155 0.099 0.030 0.309 0.000 0.0.173 0.047 0.186 0.244 0.015 0.179 0.001 0.002 0.001 0.187 0.012 0.007 0.104 0.081 0.32 0.194 6 0.229 0.000 0.166 0.000 0.000 0.022 0.021 0.001 0.001 0.001 0.002 0.152 0.055 0.077 0.155 0.122 0. 0.198 0.038 0.169 0.052 0.070 © Editorial El manual moderno Fotocopiar sin autorización es un delito.14 0.078 0.000 0.009 0.004 0.136 0.12 0.110 4 0.149 0.000 0.098 0.179 7 0 0.138 0.002 0.000 0.003 0.13 0.15 0.001 0.023 0.13 0.167 0.000 0.258 0.048 0.034 0.271 0.186 0.217 0.001 0.25 0.017 0.001 0.200 0.000 0.080 0.000 0.173 0.002 0.06 0.242 0.005 0.006 0.060 0.109 0.08 0.106 0.142 0.002 0.159 0.000 0.000 0.011 0.005 0.009 0.12 0.279 0.027 0.06 0.000 0.18 10 11 12 13 14 15 16 n = 19 x 0 1 2 3 x 4 5 6 7 8 9 0.002 0.000 0.000 0.002 0.057 0.377 0.079 9 1 0.000 0.21 0.000 0.006 0.076 0.012 0.000 0.021 0.003 0.313 0.28 0.003 0.29 0.005 0.000 0.189 0.000 0.058 0.000 0.000 0.561 0.061 0.001 0.018 0.244 0.089 0.02 0.000 0.046 0.001 0.226 0.16 0.001 0.000 0.062 0.088 0.000 0.048 0.010 0.140 0.038 0.005 0.025 0.022 0.045 0.003 0.173 0.092 0.02 0.006 0.000 0.025 0.31 0.000 0.05 0.23 0.000 0.000 0. 010 0.122 0.098 0.153 0.38 0.192 0.151 0.009 0.024 0.014 0.176 0.002 0.000 0.001 0.064 0.000 0.106 0.119 0.157 0.008 0.40 0.199 0.140 0.022 0.41 0.069 0.181 0.011 0.002 0.176 0.030 0.107 0.091 0.011 0.066 0.005 0.130 0.48 0.001 0.034 0.172 0.0.144 0.061 0.37 0.093 0.182 0.207 4 0.45 0.020 0.49 0.194 0.161 0.146 0.155 0.004 0.029 7 2 0.057 0.000 0.35 0.039 0.087 0.061 0.004 0.000 0.000 0.043 0.137 0.096 0.020 0.019 0.181 0.001 0.001 0.50 0.000 0.40 0.000 12 0.132 0.177 0.079 0.152 0.000 0.193 0.161 0.003 0.157 0.069 0.098 0.021 0.000 0.138 0.36 0.197 0.109 0.185 0.188 0.125 0.004 0.005 0.086 0.011 0.135 0.069 0.157 0.175 0.104 0.062 0.019 0.202 0.144 0.003 0.106 0.032 0.009 0.020 0.001 0.045 0.033 0.044 0.176 0.077 0.016 0.152 0.180 0.42 0.116 0.045 0.021 0.183 0.005 0.002 0.000 0.38 0.000 0.036 0.145 0.219 0.000 0.169 0.026 0.136 0.001 0.061 0.194 0.017 0.044 0.184 0.010 0.050 0.096 0.46 0.014 0.000 13 5 x 0.002 0.37 0.124 0.016 0.088 0.121 0.025 0.125 0.028 0.085 0.049 0.137 5 1 0.47 0.228 0.201 0.171 0.002 0.003 0.001 0.186 0.155 0.113 0.001 0.204 0.076 0.007 0.109 0.214 0.054 0.167 0.115 0.168 0.025 0.001 0.031 0.001 0.002 0.001 0.009 8 0.184 0.043 0.046 0.081 0.050 0.162 0.097 0.004 0.001 0.023 0.194 0.149 0.037 0.187 0.003 0.016 0.082 0.033 0.126 0.220 0.023 0.053 0.000 0.118 0.005 0.027 0.041 0.067 0.007 0.128 0.008 0.095 0.052 0.077 0.003 0.000 0.180 0.218 0.029 0.194 0.153 0.000 0.45 0.001 0.114 0.033 0.005 0.167 0.065 0.176 0.002 7 8 9 10 11 12 13 0.005 0.040 0.161 0.030 0.074 0. 0.125 0.181 0.192 0.036 0.107 0.002 0.149 0.36 0.011 0.175 0.000 0.109 0.003 0.186 0.008 0.016 0.173 0.013 0.105 0.071 0.000 0.189 0.087 0.000 0.000 0.000 0.204 0.125 0.078 0.236 3 0.160 0.002 0.007 0.018 0.053 0.44 0.41 0.163 0.121 © Editorial El manual moderno Fotocopiar sin autorización es un delito.001 0.013 0.017 0.176 0.207 0.179 0.001 0.001 0.011 0.146 0.190 2 n = 19 0.000 0.215 0.088 0.135 0.138 0.153 0.076 0.057 0.180 0.059 0.002 0.009 0.093 0.021 0.017 0.134 0.097 0.000 0.210 0.075 0.176 0.111 0.099 0.078 0.095 0.166 0.39 0.003 9 3 0.000 11 4 0.008 0.173 0.017 288 Bioestadística .178 0.50 0.46 0.44 0.039 0.183 0.051 0.167 0.014 0.164 0.184 0.087 0.080 0.027 0.001 10 0.000 0.046 0.180 0.102 0.000 0.007 0.001 0.012 0.165 0.143 0.004 0.012 0.177 0.000 0.47 0.042 0.147 0.037 0.006 0.135 0.039 0.022 0.48 0.180 0.054 0.053 0.184 6 0.002 0.003 0.192 0.137 0.034 0.160 0.42 0.083 0.098 0.036 0.49 0.058 0.000 0.028 0.009 0.069 p 0.127 0.060 0.43 0.006 0.173 0.000 0.136 0.030 0.005 0.167 0.117 0.218 0.012 0.014 0.070 6 0.154 0.000 0.007 0.168 0.004 0.000 0.002 0.024 0.001 0.087 0.001 0.43 0.202 0.025 0.182 0.116 0.067 0.000 0.069 0.006 0.007 0.000 0.172 0.013 0.185 0.39 0.108 0.049 0.038 0.000 0.002 0.028 0.145 0.052 0.047 0.000 0.35 0.144 0.001 0.171 0.059 0. 007 0.095 0.169 0.138 0.003 0.001 14 0.007 0.005 0.000 0.000 0.009 0.178 0.262 0.000 0.078 0.001 0.007 0.017 0.028 0.002 0.188 0.377 0.000 6 0.005 0.027 0.285 0.198 0.084 0.229 0.000 0.009 0.184 0.002 0.002 0.002 0.000 16 0.001 0.002 0.005 0.001 0.099 0.252 0.095 0.006 0.009 0.191 0.001 0.130 0.000 0.224 0.171 0.106 0.062 0.004 0.123 0.002 0.005 0.006 0.109 0.148 0.001 0.002 0.195 0.189 0.300 0.075 0.13 0.022 0.000 0.18 0.001 0.205 0.282 0.005 0.234 0.31 0.018 0.001 0.28 0.000 10 0.000 0.044 0.028 0.179 0.282 0.034 0.014 0.001 0.021 0.038 0.000 0.16 0.019 0.000 0.016 2 0.33 0.065 0.012 0.000 0.004 0.211 0.187 0.000 0.33 0.23 0.033 0.092 0.072 0.000 0.149 0.0.049 0.668 0.017 0.184 0.000 0.057 0.009 0.022 0.008 0.167 0.058 0.001 0.007 0.149 0.001 0.29 0.114 0.228 0.28 0. 0.000 7 3 0.141 0.235 0.000 0.010 0.26 0.192 0.016 0.081 0.040 0.000 0.183 0.001 0.004 0.003 0.022 0.217 0.005 0.201 0.336 0.243 0.167 0.003 0.015 0.086 0.039 0.137 0.134 0.241 0.000 0.136 0.062 0.000 0.000 0.184 0.163 0.016 0.000 0.001 6 7 8 9 10 0.209 0.085 0.118 0.20 0.192 0.040 0.103 0.012 0.24 0.122 0.090 0.060 0.006 0.110 0.106 0.001 0.013 0.114 0.190 0.167 0.088 0.024 0.001 0.000 4 0.190 0.000 0.25 0.048 0.000 0.036 0.002 0.105 0.003 0.000 0.010 0.212 0.099 0.119 0.023 0.155 0.818 0 0.135 0.241 0.043 0.000 0.149 0.000 0.146 0.000 0.30 0.000 0.023 0.213 0.000 0.207 0.060 0.173 0.000 5 2 0.051 0.182 0.120 0.165 1 1 0.005 0.19 0.000 8 0.146 0.036 0.002 © Editorial El manual moderno Fotocopiar sin autorización es un delito.20 0.02 0.032 0.000 0.217 0.10 0.000 0.11 0.100 0.015 0.035 0.013 0.21 0.152 0.000 15 0.34 0.076 0.000 0.087 0.056 0.070 0.015 0.010 0.055 0.27 0.218 0.15 0.170 0.025 0.156 0.001 0.175 0.155 0.189 0.199 0.22 0.009 0.004 0.000 0.193 0.012 0.000 0.019 0.000 0.043 0.017 0.006 0.143 0.007 0.000 0.145 0.370 0.225 0.001 0.001 0.181 0.000 0.000 0.34 0.000 9 4 0.191 0.148 0.290 0.000 0.04 0.045 0.003 0.011 0.358 0.007 0.000 0.09 0.057 0.082 0.097 0.001 0.000 0.013 0.048 0.31 0.001 0.07 0.30 0.247 0.130 0.236 0.000 0.052 0.240 0.271 0.026 0.12 0.135 0.001 0.019 0.005 0.000 0.045 0.078 0.004 0.000 0.17 Distribución binomial de probabilidad 289 .003 0.000 0.159 0.002 0.23 0.24 0.000 0.045 0.179 0.159 0.053 0.053 0.069 0.000 0.272 0.154 0.001 0.442 0.000 0.036 0.065 0.103 0.274 0.163 0.120 0.08 0.048 0.136 0.06 0.184 0.05 0.000 0.039 0.091 0.083 0.000 0.002 0.26 0.000 0.000 0.094 0.037 0.027 0.160 0.095 0.25 0.18 5 0.124 0.035 0.14 0.013 0.164 0.000 0.004 0.03 0.198 0.006 0.000 0.353 0.000 0.192 0.125 0.052 0.061 0.000 0.177 0.002 0.001 0.001 0.544 0.328 0.000 0.000 0.001 0.001 0.000 0.112 0.008 0.213 0.003 0.368 0.000 0.177 0.22 0.27 0.082 0.000 0.01 x 0 0.003 0.013 0.137 0.178 0.001 0.000 0.031 0.031 0.032 0.201 0.107 0.000 0.003 0.022 0.21 0.217 0.000 0.000 0.067 0.117 0.018 0.008 0.270 0.022 0.29 0.002 0.32 0.000 0.19 0.057 p 0.028 0.192 0.071 0.001 3 n = 20 x 0.071 0.188 0.32 0.069 0.205 0.020 0.003 0.202 0.012 0.015 0.000 0.002 0.001 0. 249 0.213 0.176 0.015 0.165 0.000 0.119 0.120 0.277 0.000 0.166 0.034 0.03 0.126 0.030 0.000 0.000 0.021 0.050 0.010 0.003 0.002 0.000 0.073 0.136 0.001 0.007 0.159 0.10 0.307 0.001 0.001 0.002 0.009 0.101 0.179 0.001 0.002 0.179 0.000 0.000 0.116 0.058 0.166 0.13 0.091 0.084 0.37 0.074 0.163 0.047 0.139 0.012 0.069 0.066 0.36 0.260 0.001 0.000 0.003 0.180 0.001 0.000 0.050 0.097 0.054 0.011 0.043 0.16 0.000 0.032 0.50 0.013 0.174 0.104 0.778 0.266 0.177 0.146 0.000 0.135 0.001 0.001 0.017 0.001 0.155 0.12 0.000 0.000 0.008 0.066 0.014 0.000 0.071 0.005 0.076 0.002 0.009 0.000 14 1 0.000 0.206 0.003 0.000 0.127 0.183 0.005 0.037 0.000 0.000 0.140 0.048 0.011 0.026 0.308 0.160 0.000 0.01 x n = 25 0.107 0.000 0.40 0.022 0.049 0.003 0.022 0.015 0.49 0.144 0.05 0.009 0.015 0.000 0.119 0.196 0.018 0.050 0.010 2 0.145 0.000 0.036 0.083 0.002 0.02 0.153 0.177 0.024 0 1 2 0.035 0.15 0.005 0.35 0.116 0.228 0.075 0.023 0.005 0.064 0.002 0.000 0.124 0.110 0.075 0.074 0.005 0.168 0.000 0.000 0.105 0.000 0.124 0.171 0.000 0.199 0.04 0.234 0.14 0.154 0.153 0.06 0.0.000 0.000 0.004 p 0.005 0.282 0.168 0.132 0.128 0.41 0.018 0.001 0.002 0.001 0.000 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 0.467 0.48 0.003 0.043 0.45 0.130 0.000 0.43 0.161 0.008 0.361 0.000 0.112 0.004 0.340 0.176 0.001 0.09 p 0.031 0.006 0.095 0.134 0.001 0.173 0.147 0.019 0.135 0.001 0.004 0.000 0.120 0.270 0.001 0.094 0.127 0.365 0.47 0.003 0.000 0.007 0.38 0.056 0.44 0.026 0.023 0.177 0.031 0.040 0.000 0.000 0.031 0.002 0.161 0.176 0.000 0.000 0.160 0.001 0.000 0.139 0.115 0.000 0.001 0.171 0.001 0.001 0.006 0.031 0.145 0.42 0.000 13 0.099 0.082 0.109 0. 0.025 0.075 0.360 0.000 0.171 0.278 0.072 0.009 0.001 0.000 0.002 0.000 0.173 0.003 0.000 0.054 0.008 0.188 0.000 0.056 0.014 0.001 0.160 0.603 0.158 0.000 0.001 0.000 0.000 0.004 0.000 12 0.022 0.080 0.012 0.022 0.002 0.028 290 Bioestadística .162 0.001 © Editorial El manual moderno Fotocopiar sin autorización es un delito.000 0.000 0.000 0.015 0.17 0.000 0.001 0.166 0.065 0.002 0.000 11 n = 20 0.064 0.006 0.102 0.026 0.11 0.141 0.049 0.002 0.122 0.061 0.375 0.000 0.094 0.000 0.000 0.174 0.08 0.041 0.001 0.017 0.003 0.000 0.177 0.042 0.000 0.057 0.001 0.277 0.021 0.017 0.117 0.006 0.074 0.012 0.018 0.025 0.027 0.000 0.231 0.001 0.089 0.005 0.000 0.137 0.175 0.150 0.001 0.015 0.114 0.001 0.000 0.000 0.07 0.001 0.001 0.009 0.088 0.184 0.093 0.002 0.008 0.084 0.030 0.168 0.001 0.004 0.46 0.152 0.000 0.094 0.035 0.015 0.057 0.181 0.002 0.173 0.018 0.172 0.078 0.037 0.000 0.005 0.002 0.004 0.043 0.012 0.062 0.003 0.170 0.037 0.004 0.002 0.007 0.007 0.000 0.010 0.041 0.000 0.004 0.000 0.163 0.000 0.006 0.39 0.001 0.010 0.012 0.184 0.006 0. 012 0.047 0.018 0.001 0.139 0.001 0.000 6 0 0.179 0.000 0.014 0.033 0.171 0.002 0.003 0.001 0.000 0.161 0.000 0.26 0.012 0.027 0.000 0.000 0.003 0.000 0.19 0.29 0.000 0.009 0.000 0.060 0.078 0.000 0.010 0.000 0.004 0.012 0.000 7 0.054 0.000 0.085 0.25 0.001 0.002 3 0.023 0.001 0.005 0.179 0.111 0.073 0.000 0.000 0.32 0.160 0.133 0.006 0.000 0.000 0.000 0.30 0.093 0.22 0.021 0.006 0.056 0.000 0.013 0.000 0.125 0.002 0.127 0.124 0.000 0.001 0.003 0.051 0.157 0.014 0.091 0.037 0.034 0.26 0.015 0.001 0.076 0.056 0.108 0.004 0.000 0.000 0.194 0.000 0.194 0.163 0.039 0.004 0.000 0.000 5 0.002 0.143 0.147 0.103 0.010 0.011 0.115 0.000 0.003 0.011 0.000 4 0.044 0.000 0.18 3 0.169 0.000 0.000 0.000 0.000 10 2 0.045 0.000 0.033 0.054 0.016 0.165 0.000 0.217 0.016 0.006 0.000 0.33 0.29 0.30 0.015 0.032 0.160 0.113 0.165 0.211 0.007 0.003 0.005 0.002 0.000 0.037 0.069 0.000 0.000 0.132 0.146 0.124 0.007 0.000 0.024 0.040 0.000 0.017 0.012 0.188 0.205 0.34 0.027 0.229 0.196 0.070 0.031 0.001 0.000 0.183 0.18 0.012 0.002 0.174 0.001 0.002 0.025 0.067 0.058 0.184 0.134 0.001 0.226 0.000 0.021 0.001 0.000 0.138 0.000 0.104 0.000 0.060 0.124 0.000 0.153 0.001 0.034 0.118 0.182 0.003 0.006 0.135 0.32 0.020 0.020 0.236 0.000 0.000 11 0.000 9 0.000 0.197 0.087 0.153 0.24 0.236 0.037 0.170 0.002 0.000 0.174 0.239 0.004 0.003 0.004 0.122 0.174 0.005 0.28 0.0.083 0.112 0.195 0.000 0.010 0.101 0.001 0.152 0.066 0.21 0.010 0.000 0.006 0.175 0.000 0.22 0.002 0.104 0.000 0.002 0.006 0.165 0.168 0.001 0.011 0.002 0.025 0.000 0.153 0.000 0.000 0.002 0.017 0.000 0.000 8 1 0.000 0.059 0.061 0.045 0.000 0.158 0.165 0.001 0.000 0.23 0.211 0.20 0.000 0.31 0.000 0.168 0.003 0.000 0.115 0.156 0.027 0.000 0. 0.148 0.063 0.000 0.004 0.001 0.093 © Editorial El manual moderno Fotocopiar sin autorización es un delito.001 0.187 0.071 0.090 0.069 0.213 0.092 0.25 0.009 0.161 0.119 0.103 0.062 0.030 0.007 0.097 0.024 0.203 0.041 0.20 0.172 0.038 0.019 0.003 0.067 0.006 0.023 0.050 0.19 0.000 0.002 0.000 0.048 0.001 0.143 0.001 0.166 0.000 0.080 0.024 0.152 0.27 0.000 0.000 0.137 0.017 0.001 0.074 0.083 0.001 0.081 0.048 0.019 0.000 0.000 0.101 0.001 0.150 0.175 0.21 0.000 0.000 0.010 0.170 0.012 0.001 0.000 0.064 0.000 0.021 0.001 0.004 0.042 0.183 0.024 0.011 0.008 0.103 0.000 0.000 0.001 0.016 0.002 0.003 0.28 0.034 0.160 0.184 0.113 0.000 0.007 0.005 0.033 0.002 0.048 0.045 0.000 0.024 0.000 0.171 0.156 0.001 0.002 0.000 0.141 0.092 0.174 0.136 0.000 0.078 0.001 0.000 0.008 0.029 0.31 0.145 0.005 0.000 0.23 0.190 0.001 0.33 0.000 0.128 0.000 0.190 0.24 0.206 0.000 4 5 6 7 8 x 9 10 11 12 13 14 15 16 0.030 0.032 0.000 0.017 0.030 0.012 0.000 0.016 0.008 0.008 0.004 0.083 0.001 0.046 0.000 0.123 0.100 0.029 0.089 0.124 0.065 0.056 0.000 0.002 0.000 0.140 0.27 0.040 0.007 0.090 0.000 0.000 0.113 0.005 0.076 0.000 0.091 0.000 0.005 0.057 0.027 0.004 0.005 0.008 0.211 0.003 0.004 0.136 0.166 0.160 0.048 0.102 0.001 0.34 0.001 0.013 0.179 0.187 Distribución binomial de probabilidad 291 .000 0. 000 0.152 0.04 0.158 0.000 0.004 0.069 0.012 0.07 0.024 0.057 0.003 0.000 0.003 0.136 0.171 0.000 0.109 0.000 0.008 0.002 0.017 0.001 0.000 0.102 0.000 0.000 0.000 0.107 0.000 0.002 0.050 0.000 0.001 0.022 0.109 0.020 0.002 0.17 0.083 0.12 0.000 0.17 292 Bioestadística .000 0.000 0.000 0.061 0.002 0.102 0.015 0.001 0.006 0.000 0.004 0.002 0.123 0.157 0.261 0.018 0.126 0.000 0.006 0.113 0.145 0.032 0.000 0.011 0.005 0.000 0.000 0.003 0.000 0.000 0.000 0.000 0.000 0.047 0.036 0.058 0.000 0.000 0.15 0.001 0.000 0.003 0.020 0.002 0.000 0.107 0.004 0.195 0.226 0.011 0.120 0.000 0.05 © Editorial El manual moderno Fotocopiar sin autorización es un delito.000 0.045 0.154 0.000 0.000 0.022 0.000 0.202 0.157 0.167 0.046 0.218 0.181 0.16 0.025 0.10 0.000 0.161 0.000 0.10 0.03 0.196 0.046 0.086 0.084 0.000 0.146 0.071 0.000 0.06 0.036 0.046 0.062 0.14 0.010 0.15 0.136 0.000 0.007 0.001 0.000 0.197 0.001 0.026 0.013 0.000 0.271 0.006 0.054 0.336 0.055 0.000 0.000 0.000 0.220 0.149 0.000 0.04 0.005 0.170 0.142 0.001 0.000 0.089 0.256 0.044 0.001 0.130 0. 0.000 0.000 0.002 0.143 0.126 0.068 0.025 0.036 0.001 0.002 0.038 0.002 0.004 0.000 0.000 0.000 0.087 0.000 0.186 0.125 0.01 n = 50 x 0.000 0.000 0.015 0.000 0.157 0.107 0.210 0.100 0.000 0.005 0.001 0.000 0.029 0.220 0.169 0.033 0.150 0.149 0.139 0.000 0.045 0.001 0.09 p 0.077 0.000 0.000 0.000 0.003 0.167 0.133 0.083 0.000 0.000 0.013 0.011 0.134 0.171 0.035 0.000 0.005 0.276 0.000 0.471 0.010 0.034 0.029 0.000 0.002 0.001 0.027 0.000 0.077 0.009 0.000 0.108 0.000 0.009 0.14 0.001 0.185 0.000 0.222 0.184 0.019 0.009 p 0.000 0.066 0.008 0.008 0.000 0.001 0.108 0.023 0.000 0.000 0.13 0.133 0.337 0.050 0.004 0.001 0.106 0.124 0.000 0.000 0.000 0.001 0.143 0.099 0.141 0.226 0.027 0.044 0.07 0.038 0.000 0.000 0.000 0.000 0.06 0.088 0.03 0.033 0.060 0.001 0.002 0.004 0.000 0.000 0.003 0.000 0.012 0.026 0.049 0.01 x n = 75 0.000 0.229 0.135 0.000 0.000 0.000 0.005 0.000 0.006 0.357 0.000 0.064 0.006 0 1 2 3 4 0.149 0.000 0.076 0.014 0.000 0.000 0.007 0.169 0.164 0.133 0.12 0.13 0.068 0.078 0.000 0.000 0.372 0.270 0.000 0.007 0.000 0.204 0.05 0.02 0.000 0.003 0.000 0.000 0.020 0.000 0.019 0.017 0.003 0.000 0.013 0.106 0.136 0.000 0.018 0.000 0.003 0.003 0.000 0.000 0.11 0.231 0.086 0.066 0.001 0.254 0.042 0.000 0.001 0.069 0.364 0.007 0.236 0.085 0.000 0.203 0.045 0.000 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 0.000 0.000 0.011 0.000 0.126 0.129 0.199 0.002 0.011 0.000 0.16 0.089 0.000 0.000 0.180 0.000 0.000 0.147 0.167 0.011 0.163 0.09 0.0.090 0.007 0.002 0.013 0.015 0.184 0.001 0.000 0.015 0.002 0.040 0.001 0.000 0.02 0.001 0.067 0.130 0.000 0.08 0.000 0.109 0.073 0.029 0.173 0.001 0.000 0.033 0.000 0.000 0.006 0.605 0.015 0.002 0.000 0.000 0.180 0.106 0.306 0.021 0.08 0.000 0.199 0.045 0.11 0.055 0. 000 0.003 0.000 0.001 0.008 0.080 0.002 0.000 0.020 0.001 0.075 0.000 0.123 0.134 0.000 0.002 0.000 0.000 0.000 0.121 0.038 0.000 0.000 0.000 0.001 0.045 0.004 0.018 0.000 0.156 0.000 0.068 0.115 0.004 0.000 0.000 0.001 0.000 0.070 0.000 0.002 0.009 0.000 0.001 0.140 0.001 0.001 0.004 0.039 0.054 0.000 0.000 0.000 0.003 0.050 0.000 0.022 0.000 0.001 0.000 0.016 0.001 0.0.000 0.069 0.000 0.008 0.002 0.000 0.000 0.001 0.009 0.001 0.063 0.012 0.000 0.160 0.000 0.111 0.004 0.000 0.002 0.008 0.000 0.000 0.140 0.000 0.138 0.108 0.000 0.000 0.000 0.000 0.049 0.000 0.005 0.031 0.004 0.037 0.000 0.000 0.000 0.050 0.000 0.034 0.000 0.000 0.013 0.000 0.000 0.074 0.092 0.000 0.000 0.004 0.045 0.167 0.003 0.000 0.004 0.118 0.000 0.003 0.021 0.089 0.000 0.000 0.009 0.000 0.165 0.033 0.106 0.000 0.119 0.144 0.000 0.013 0.000 0.081 0.007 0.000 0.000 0.102 0.025 0.000 0.000 0.000 0.000 0.007 0.021 0.065 0.106 0.000 0.000 0.000 0.000 0.000 0.075 0.000 0.009 0.000 0.006 0.000 0.009 0.000 0.000 0.101 0.123 0.000 0.176 0.000 0.091 0.000 0.017 0.088 0.000 0.000 0.008 0.115 0.020 0.000 0.020 0.000 0.110 0.135 0.000 0.000 0.000 0.003 0.001 0.004 0.049 0.147 0.020 0.158 0.000 0.000 0.000 0.000 0.083 0.081 0.015 0.002 0.121 0.000 0.000 0.037 0.001 0.000 0.000 0.004 0.000 0.001 0.000 0.032 0.012 0.007 0.042 0.109 0.005 Distribución binomial de probabilidad 293 .000 0.013 0.000 0.154 0.000 0.000 0.019 0.000 0.001 0.091 0.047 0.138 0.018 0.000 0.001 0.000 0.000 0.001 0.030 0.009 0.000 0.087 0.000 0.102 0.000 0.000 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 0.000 0.000 0.000 0. 0.000 0.042 0.145 0.000 0.000 0.081 0.000 0.127 0.000 0.097 0.045 0.000 0.094 0.053 0.056 0.132 0.000 0.129 0.000 0.058 0.000 0.061 0.131 0.131 0.001 0.180 0.000 0.046 0.109 0.024 0.038 0.000 0.096 0.000 0.000 0.111 0.054 0.000 0.000 0.000 0.104 0.087 0.074 0.000 0.002 0.120 0.009 0.002 0.024 0.125 0.000 0.000 0.123 0.002 0.149 © Editorial El manual moderno Fotocopiar sin autorización es un delito.000 0.000 0.000 0.122 0.000 0.000 0.000 0.000 0.000 0.014 0.000 0.000 0.000 0.026 0.000 0.036 0.058 0.021 0.000 0.136 0.000 0.000 0.063 0.000 0.027 0.000 0.000 0.000 0.000 0.126 0.096 0.015 0.121 0.140 0.068 0.002 0.118 0. . N xi i =1 Anexo D ( xi = xi i =1 N 2 N N μ) 2 i =1 N © Editorial El manual moderno Fotocopiar sin autorización es un delito. Distribución de probabilidad de Poisson 295 . 819 0.20 0.004 0.001 0.009 0.577 5 4 0.06 0.110 0.020 0.268 0.020 1 0.183 4 0.65 0.003 0.047 0.339 1.638 0.044 0.171 0.200 0.008 0.218 0.001 1.010 0 1 0.106 0.002 0.22 296 Bioestadística .006 0.033 0.00 0.054 0.082 0.24 0.472 0.001 0.359 0.45 0.85 0.030 0.013 0.852 0.061 0.076 0.014 0.005 0.002 0.100 0.016 0.247 0.001 0.887 0.006 0.184 0.80 0.004 0.265 0.002 0.12 2 0.670 0.951 0.038 0.087 0.087 0.039 0.001 0.001 0.09 1 0.26 0.003 0.028 0.002 0.164 0.549 0.091 2.251 0.100 2.138 0.020 0.016 0.705 0.366 0.368 0.427 0.10 0.16 3 0.001 0.40 0.284 0.003 0.323 0.065 0.144 0.914 0.189 0.270 0.074 0. 9 8 7 6 0.001 0.449 0.01 x 0.55 0.001 0.005 0.363 0.032 © Editorial El manual moderno Fotocopiar sin autorización es un delito.00 0.203 0.90 1.35 0.133 0.006 0.001 0.932 0.017 0.011 0.048 0.003 0.048 0.036 0.268 0.970 0.008 0.961 0.287 0.70 0.40 0.072 0.113 0.90 0.018 0.95 1.50 0.024 0.07 0 0.042 0.024 0.905 0.001 0.005 0.30 0.261 0.150 0.30 0.122 2.038 0.367 0.990 0.165 0.013 0.003 0.019 0.004 0.002 0.002 0.010 0.014 0.002 0.126 0.001 0.004 0.006 0.202 0.003 0.001 0.015 0.049 0.317 0.180 0.242 0.012 0.354 0.361 0.10 0.055 0.099 0 1.003 0.001 0.007 0.20 0.015 0.005 0.209 0.122 0.756 0.074 0.165 0.007 0.021 0.980 0.345 0.247 0.001 0.064 0.065 0.054 0.189 0.835 0.099 0.354 0.271 0.002 0.010 0.20 0.011 0.273 2 0.122 0.043 0.125 0.270 0.001 0.869 0.175 0.001 0.060 0.002 0.30 0.942 0.090 0.40 0.212 0.001 0.387 1.18 0.002 0.002 0.002 0.033 0.057 0.787 0.771 0.741 0.008 0.009 0.150 5 0.008 0.607 0.298 0.026 0.244 0.001 0.70 0.366 0.05 0.368 1.161 0.80 0.08 0.111 2.303 0.222 0.02 3 2 0.04 x 0.197 0.005 0.001 0.231 0.001 0.031 0.60 0.522 x 1.264 0.002 0.108 0.329 0.10 0.50 0.803 0.026 0.001 0.923 0.348 0.022 0.03 0.117 0.003 0.177 0.135 2.60 0.217 0.28 0.150 0.023 0.301 1.011 0.258 0.14 0.311 0.201 0.257 0.154 0.001 0.268 0.029 0.271 0.223 3 0.136 0.004 0.026 0.407 0.055 0.002 0.335 0.333 1.497 0.0.75 0.090 0.230 0.081 0. 153 0.140 0.096 0.006 0.133 0.136 0.072 0.037 0.043 0.084 0.145 0.033 3.156 0.143 0.095 0.127 0.194 0.018 0.017 0.106 0.041 3.128 0.00 3 7.155 0.063 0.029 0.045 0.161 0.018 0.012 0.114 0.166 0.019 0.050 0.175 0.60 0.078 0.169 0.160 0.025 0.160 0.024 0.003 0.220 0.065 0.098 0.80 x 5.0.063 0.134 0.085 0.130 0.022 3.011 0.003 0.214 0.191 0.20 0.080 0.013 0.006 0.147 0.119 0.035 0.058 0.146 0.161 0.073 0.009 0.141 0.029 6.140 0.067 2.113 0.195 0.061 0.223 0.008 0.069 0.030 0.032 0.156 0.205 0.001 0.003 7.186 0.002 0.149 0.00 0.009 0.024 0.195 0.152 0.163 0.175 0.099 0.003 0.113 0.003 0.081 0.212 0.028 0.163 0.160 0.149 0.138 0.008 4.046 0.00 0.004 0.151 0.209 0.074 0.70 0.174 0.231 0.055 2.041 0.028 0.002 6 0.003 0.182 0.120 0.030 0.149 0.021 0.178 0.058 0.156 0.238 0.219 0.012 4.001 8 0.177 0.004 7.019 0.134 0.60 0.031 0.051 0.001 0.194 0.058 0.032 0.003 0.034 0.20 5.026 0.006 6.070 0.001 0.002 0.036 0.142 0.40 0.050 3.116 0.089 0.50 x © Editorial El manual moderno Fotocopiar sin autorización es un delito.185 0.085 0.168 0.162 0.022 0.170 0.147 0.60 13 12 11 10 2.001 0.104 0.014 0.001 0.076 0.003 8.073 0.050 0.001 0.087 0.158 0.067 0.057 0.60 0.193 0.004 0.90 5.175 0.124 0.134 0.60 0.052 0.149 0.021 0.218 0.082 0.149 0.113 0.022 0.004 0.005 0.162 0.015 0.149 0.092 0.040 0.045 0.004 0.116 0.106 0.122 0.142 0.027 3.148 0.051 0.016 0.075 0.019 0.009 0.007 0.014 0.015 4.002 0.094 0.083 0.006 0.002 0.152 0.193 0.004 0.001 0.143 0.005 0.008 0.125 0.002 0.036 0.001 0 1 2 3 4 5 6 7 8 9 0.147 0.126 0.129 0.170 0.036 0.011 0.015 0.40 0.138 0.001 0.222 0.20 0.132 0.084 0.224 0.20 0.002 5 0.054 0.046 0.108 0.140 0.224 0.001 5.60 2 6.003 0.001 0.066 0.20 1 6.00 7.060 0.001 0.001 7 0.015 0.034 0.002 8.245 0.224 0.011 0.188 0.001 0.091 0.159 0.005 0.017 0.144 0.087 0.042 0.026 0.40 0.173 0.135 0.156 0.00 0.80 0.168 0.001 0.005 0.80 6.012 0.094 0.160 0.098 0.251 0.061 2.101 0.007 0.149 0.114 0.80 0.001 0.039 0.20 0.010 0.005 0.205 0.074 2.192 0.145 0.052 0.257 0.104 0. 0.007 5.119 0.173 0.001 0.010 0.001 0.120 0.175 0.013 0.40 0.001 0.065 0.099 0.001 0.008 0.181 0.80 0.006 0.80 0.00 Distribución de probabilidad de Poisson 297 .40 4 0.139 0.002 0.008 0.108 0.128 0.010 4.018 4.005 7.041 0.012 0.132 0. 096 0.066 0.00 0.139 8.003 0.002 0.001 0.002 0.077 0.062 0.026 0.026 0.112 © Editorial El manual moderno Fotocopiar sin autorización es un delito.60 0.20 x 298 Bioestadística .0.041 0.002 0.069 0.077 0.004 0.121 0.053 8.002 0.042 0.127 0.003 0.001 0.010 5.010 0.003 0.014 0.049 0.009 0.019 0.117 0.017 0.007 0.066 0.002 0.045 0.047 0.001 0.103 0.004 0.001 9 10 11 12 x 13 14 15 0.50 9.090 0.015 0.024 0.043 7.001 0.001 0.017 0.20 0.80 x\h 8.033 0.063 0.80 0.80 2 9.002 0.010 0.007 0.038 0.022 11.104 0.065 0.106 0.068 0.014 6.007 5.001 0.004 0.089 0.030 0.001 6 0.074 0.001 0.80 0.101 0.003 0.00 0.078 0.60 4 11.067 0.001 0. 0.60 0.40 0.091 0.097 0.138 7.094 0.001 0.079 0.103 6.073 0.099 0.002 9.001 0.40 1 9.60 0.008 0.00 0.002 8 0.00 0.008 0.081 5.001 0.028 0.004 0.005 0.013 0.046 0.50 0.015 0.137 0.006 5.20 0.101 0.071 0.048 8.044 0.004 0.20 0.117 0.005 0.134 7.002 0.002 0.110 6.125 0.017 0.083 0.029 0.025 0.042 0.003 0.001 7 0.005 0.096 5.40 0.00 0.072 0.004 0.005 0.013 0.101 0.039 7.089 0.001 0.001 12.026 0.40 0.001 0.004 0.001 0.034 7.121 0.20 0.80 0.014 0.80 0.00 0.036 0.055 0.042 0.005 0.008 10.012 0.117 0.012 0.002 0.40 9.00 0.023 0.001 0.016 6.053 0.059 0.60 0.022 0.023 6.027 0.010 0.031 0.040 0.80 0.002 0.129 0.050 0.002 0.138 0.00 0.20 0.113 0.002 0.055 0.50 0.124 0.009 5.002 0.003 0.061 0.047 0.001 0.008 0.130 7.005 0.020 0.127 0.001 0.030 7.40 0.053 0.40 20 19 18 17 16 5.051 0.019 0.089 5.122 0.20 13.033 0.056 0.00 0.007 0.107 0.013 0.035 0.010 0.005 0.011 0.80 0.001 8.001 0.60 0.00 8.085 0.020 0.061 0.082 0.005 0.134 0.017 0.009 0.140 8.003 0.011 0.021 0.089 0.132 0.006 0.001 0.046 0.038 0.078 0.004 0.136 7.20 0.031 0.132 0.012 0.055 0.007 0.095 0.003 0.002 12.110 0.007 0.034 0.026 7.126 6.038 0.001 13.015 0.116 6.001 0.20 3 10.60 0.00 5 0.041 0.022 0.019 6.009 0.016 0.001 0.020 0.001 0.065 0.50 0.121 6.005 0.001 0.60 0.072 0.40 0.076 0.006 0.023 0.022 0.112 0.003 0.139 7.006 0.011 6.001 0.005 0.003 0.077 0.051 0.030 0.020 0.035 0.009 0. 011 0.119 0.006 0.001 0.015 0.001 9.042 0.050 0.026 0.044 0.002 0.00 15.118 0.007 0.058 0.00 0.022 0.005 0.40 0.00 0.006 10.001 0.001 0.113 0.001 0.018 0.022 0.005 0.002 0.50 0.086 0.063 0.005 0.088 0.082 0.001 0.047 0.106 0.032 0.032 0.50 0.121 0.031 0.072 0.002 0.00 0.00 0.009 19.006 0.035 0.129 4 16.063 0.50 0.024 0.063 0.109 0.105 0.113 0.040 0.001 0.002 0.090 0.131 21.101 0.091 0.50 0.004 0.003 0.001 14.001 0.013 0.027 13.019 0.068 0.001 0.015 0.123 0.063 0.00 0.003 0.003 0.50 0.002 0.001 0.076 0.002 9.004 10.098 0.010 0.001 0.010 0.100 0.004 0.001 20.093 0.50 0.037 0.007 0.103 0.001 0.015 0.015 0.50 0.002 0.025 0.064 0.125 0.001 0.102 0.013 0.008 0.096 0.124 0.110 0.00 0.028 0.021 12.108 0.080 0.114 0.60 0.001 0.131 14.078 0. 21.011 0.001 0.114 0.040 0.083 0.052 0.002 0.004 0.037 0.016 12.007 0.101 0.013 0.013 0.017 0.002 0.053 0.131 26 25 24 23 22 21 20 0.105 0.005 0.019 0.003 0.00 0.031 0.111 0.046 0.008 0.50 0.00 0.009 0.119 0.083 0.068 0.004 0.002 0.105 0.00 16.020 0.00 0.093 0.001 8.073 0.118 0.001 10 11 12 13 14 15 16 17 18 x\h 19 0.056 Distribución de probabilidad de Poisson 299 .055 0.066 0.001 0.00 0.001 0.008 0.109 0.026 0.044 0.001 0.006 0.006 0.002 0.125 0.093 0.054 0.002 0.011 0.80 0.001 0.50 0.50 0.003 0.055 0.004 18.005 0.001 0.20 0.001 17.40 0.073 0.003 0.001 0.002 0.073 0.003 0.129 9 © Editorial El manual moderno Fotocopiar sin autorización es un delito.125 5 17.097 0.002 8.072 0.009 0.118 0.007 0.017 0.082 0.013 0.50 0.109 0.003 0.063 0.110 0.012 11.001 0.001 0.034 13.095 0.114 0.048 0.108 0.004 0.131 0.045 0.003 9.119 0.010 0.001 0.095 0.005 0.003 9.018 0.059 0.003 0.124 0.001 8.081 0.60 0.023 0.004 0.047 0.010 0.038 0.029 0.029 0.113 0.002 0.0.077 0.087 7 19.017 20.001 0.022 0.001 0.132 x 15.007 0.002 0.105 0.001 0.001 0.109 6 18.109 0.097 0.006 0.088 0.127 0.112 0.004 0.00 0.087 0.80 0.036 0.008 11.001 0.116 0.50 0.002 9.008 0. 034 0.098 0.093 0.080 0.00 0.028 0.004 18.024 0.00 0.008 0.093 0.086 0.099 0.002 0.085 0.090 0.003 0.017 0.106 0.071 0.046 0.068 11.037 9.056 10.001 21.086 0.082 0.020 0.047 0.077 12.029 0.001 0.065 0.007 0.013 0.009 0.033 0.096 0.012 16.028 0.014 0.032 0.058 0.00 © Editorial El manual moderno Fotocopiar sin autorización es un delito.073 11.084 0.004 0.050 0.025 0.093 0.50 0.050 0.063 0.006 0.096 0.089 0.036 0.074 0.080 12.004 0.011 0.068 0.005 0.006 0.013 0.040 0.001 20.094 0.089 0.043 9.024 0.048 0.050 9.50 0.027 0.074 0.052 0.098 0.087 0.00 0.021 0.014 0.081 0.016 0.035 0.029 0.051 0.005 0.003 0.076 0.50 0.036 0.50 0.015 0.001 8 9 10 11 12 13 14 15 16 17 18 19 20 21 x\h 22 23 24 25 26 27 0.105 0.049 0.089 0.015 15.078 0.007 0.030 0.042 0.091 0.055 0.062 10. 14.002 19.50 0.008 0.102 0.009 0.037 0.60 0.00 0.102 0.00 0.010 0.058 0.065 0.012 0.040 0.022 0.023 0.00 0.00 x 0.007 0.034 0.003 0.019 0.093 0.058 0.050 0.015 0.095 0.026 0.016 0.066 0.011 0.091 0.0.041 0.50 0.012 0.034 0.050 0.001 21.043 0.099 0.066 0.019 15.085 0.090 0.045 0.004 0.012 0.072 0.056 0.003 0.058 0.077 0.088 0.028 0.071 0.025 9.078 0.021 0.020 8.80 0.045 0.088 0.084 0.009 16.087 0.080 0.033 0.056 0.083 13.017 0.00 0.069 0.50 0.20 0.60 0.039 0.023 0.079 0.025 0.006 0.006 0.072 0.003 18.096 0.031 9.045 0.002 0.076 0.088 0.005 0.002 0.075 0.087 0.007 0.004 0.070 0.101 0.020 0.086 0.058 0.40 0.098 0.071 0.091 0.039 0.006 0.005 17.106 0.035 0.045 0.024 0.075 0.008 0.075 0.093 0.50 0.00 0.018 0.061 0.084 0.049 0.038 0.081 0.071 0.002 0.008 0.017 0.009 0.80 0.091 0.019 8.044 0.064 0.013 0.010 0.007 17.062 0.085 0.092 0.019 0.098 0.079 0.083 0.073 0.083 0.003 0.080 0.102 0.042 0.025 0.043 0.066 0.50 0.032 0.034 0.001 20.096 0.063 0.026 0.00 0.030 0.094 0.040 0.044 0.002 19.030 0.014 0.044 0.062 0.50 0.087 0.066 0.40 0.024 14.012 0.005 0.002 0.052 0.027 0.00 0.067 0.091 0.016 8.008 0.083 0.081 0.057 0.056 0.088 0.50 300 Bioestadística .091 0.089 0.011 0.083 0.099 0.056 0.050 0.018 0.088 0.087 0.063 0.074 0.031 0.050 0.014 0.028 0.077 0.002 0.061 0.096 0.102 0.079 0.001 0.065 0.021 0.030 0.084 13.086 0.038 0.001 0.051 0.005 0.039 0.056 0.069 0.091 0.058 0.096 0.00 0.015 0.011 0.049 0.086 0.056 0.058 0.070 0.019 0.041 0.038 0.076 0.084 0.50 0.066 0.032 0.023 0. 016 0.001 0.001 0.005 0.007 0.001 0.008 0.002 0.002 0.023 0.003 0.009 0.004 0.002 0.001 0.002 0.006 0.005 0.015 0.001 0.001 0.013 0.007 0.002 0.004 0.002 0.001 0.006 0.001 0.003 0.004 0.003 0.003 0.008 0.011 0.026 0.001 0.002 0.002 0.001 0.031 Distribución de probabilidad de Poisson 301 .018 0.004 0.022 0.003 0.001 0.011 0.009 0.019 0.002 © Editorial El manual moderno Fotocopiar sin autorización es un delito.005 0.001 0.001 0.003 0.001 0.001 0.004 0.010 0.002 0.001 0.001 0.001 0. 0.013 0.006 0.005 0.001 0.016 0.001 0.002 0.002 0.001 0.001 0.001 0.37 36 35 34 33 32 31 30 29 28 0.004 0.012 0.001 0.001 0.008 0.001 0.003 0. " $ ? # " "Q $ %" &$ ?$ K K% K% K ?$ &% Q " # $ % & ? K Q " " "" "# "$ "% ? ?? K" K$ K" ?? &K %K $& #% "% ? & # " ""% ?# ?Q K# K# ?Q ?" &# %" $ # " $ K % " "# ?& K K" K ?& &K %? $& #& "& K ? $ " "#% © Editorial El manual moderno Fotocopiar sin autorización es un delito. "" x ?K K K ?K ? &" %" $ # "" % Q % # "$ ?Q K ?Q ?$ &? %? $? #& "? K " ? $ " "$% K K ?& ? &" %" $" #" "# % & # " "% $" $ $ #Q #K #? #& #% #$ ## #" # # "Q "K "? "& x " # $ & $ " "? #% $% %% "" " # % K " ? "# # $ % & ""% " # % ? % " "K #& $% %% &% "# " " $ & Q # K "$ #" $ % & &Q "#% " # % ? % " "K #& $% %% &$ ?" "$ " # $ & Q # K "% #" $ % %Q &K ?% "$% " $ % K & "" "Q #? $% %$ &# ? ?& "% 302 Bioestadística . © Editorial El manual moderno Fotocopiar sin autorización es un delito. N xi Anexo E i =1 N ( xi 2 = N xi i =1 μ) 2 N i =1 N Percentiles de distribución t 303 . 500 5.750 3.093 2.356 1.476 2.592 © Editorial El manual moderno Fotocopiar sin autorización es un delito.850 21 1.Bioestadística gl t0.086 2.813 2.120 2.363 1.995 t0.110 2.397 1.707 27 1.408 8 1.9995 1 3.756 3.132 2.721 2.701 2.492 2.638 2.845 3.183 4.725 2.306 2.761 2.878 3.763 3.598 3 1.353 3.101 2.650 3.313 1.508 2.747 4.052 2.383 1.012 4.831 3.518 2.318 13 1.440 1.372 1.228 2.015 2.708 2.045 2.437 12 1.316 1.718 3.330 1.337 1.328 1.060 2.467 2.323 1. 304 .724 3.796 2.303 6.345 1.030 2.950 t0.746 2.920 4.447 3.782 2.169 4.771 2.143 3.106 4.767 24 1.998 3.925 31.819 22 1.250 4.041 9 1.179 2.602 2.314 12.604 8.659 30 1.314 1.319 1.073 16 1.438 2.714 2.807 3.145 2.341 1.365 2.883 20 1.869 6 1.706 2.321 1.032 6.571 3.717 2.924 4 1.821 3.977 4.306 1.779 3.657 636.479 2.771 3.462 2.900 t0.080 2.764 3.473 2.457 2.485 2.132 2.201 2.965 9.819 3.699 2.959 7 1.690 28 1.821 63.533 2.350 1.646 35 1.355 5.624 2.781 10 1.500 2.792 23 1.048 2.318 1.921 4.056 2.729 2.539 2.690 2.753 2.078 6.262 2.975 t0.365 4.055 4.725 26 1.552 2.074 2.325 1.707 5.965 18 1.706 31.015 17 1.415 1.221 14 1.787 3.896 3.583 2.990 t0.140 15 1.587 11 1.069 2.064 2.734 2.619 2 1.711 2.947 4.861 3.943 2.697 2.703 2.315 1.922 19 1.528 2.333 1.610 5 1.567 2.310 1.311 1.745 25 1.776 3.042 2.160 2.541 5.740 2.797 3.895 2.860 2.833 2.674 29 1.681 3.841 12.886 2.898 3. 301 1.950 t0.350 2.601 3.374 2.423 2.362 160 1.995 2.611 3.412 2.021 2.662 1.303 1.390 2.653 1.658 1.296 1.289 1.521 50 1.678 3.645 1.576 3.497 60 1.436 80 1.980 2.358 2.326 2.290 1.975 2.391 120 1.990 2.345 2.660 1.009 2.288 1.960 2.618 3.973 2.604 3.987 2.551 45 1.972 2.676 2.990 t0.9995 40 1.403 2.294 1.684 2.975 t0.381 2.900 t0.014 2.995 t0.299 1.402 100 1.286 1.291 305 .292 1.353 2.665 1.705 3.671 2.639 3.664 1.347 2.690 3.626 3.400 1.291 1.660 3.977 2.667 1.368 2.000 2.653 1.632 3.286 1.461 70 1.417 90 1.364 2.287 1. Percentiles de distribución t gl t0.282 1.607 3.353 180 1.648 3.679 2.656 1.346 200 1.374 140 1.© Editorial El manual moderno Fotocopiar sin autorización es un delito.984 2. . © Editorial El manual moderno Fotocopiar sin autorización es un delito. N xi Anexo F i =1 N ( xi 2 = N xi i =1 μ) 2 N i =1 N Percentiles de distribución F 307 . 68 10.52 5.54 7.18 4.83 12.65 5.88 199.39 13.61 12.31 26.99 4.07 5.03 6.20 5.28 4.08 8.11 11.33 22.33 23439.35 44.51 8.93 7.99 7.04 12.63 16.07 5.39 199.17 5.89 4.26 47.61 4.58 5.89 6.47 4.18 4.35 7.07 6.76 6.21 7.83 3.94 22.81 3.75 4 4.83 9.24 14.78 4.02 5.92 6.64 5.30 23055.60 10.82 5 4.68 6.14 43.52 11.56 5.05 12.06 10.52 6.21 5.54 18.16 6.30 6.92 16.37 11.95 5.94 9.46 14.48 5.88 7.16212.19 8.07 14.85 4.09 7.52 4.80 199.54 7.38 10.43 199.50 8.80 10.08 5.81 10.55 31.92 8.69 13.91 5.87 7.91 9.67 4.47 8.32 4.23 6.03 15.30 6.63 9.54 4.13 7.23 7.16 21614.09 5.26 4.96 4.86 5.15 46.66 4.39 24091.96 5.00 6.12 6.82 5.66 6.88 12.69 8.54 4.51 21.94 5.44 4.23 11.53 6 Grados de libertad en el numerador F0.37 5.49 4.01 4.96 21.81 6.38 4.04 4.36 23715.34 8.70 7.26 5.73 5.20 7 3.05 4.75 3.56 4.72 4.47 199.25 5.14 4.96 8.36 2 3 5.35 5.79 14.13 199.22 10.39 4.95 9.56 23.68 4.48 6.75 11.94 4.50 55.09 4.37 5.69 4.56 4.28 49.30 9.73 6.73 9.51 10.34 7.20 199.01 19997.76 4.57 13.10 6.51 7.43 10.89 10.88 3.53 24.20 21.72 9.78 18.26 4.84 199.20 4.45 9 308 Bioestadística .86 6.69 3.98 44.24 22500.97 6.54 5.80 6.07 9.62 44.11 4.88 3.77 21.03 5.13 © Editorial El manual moderno Fotocopiar sin autorización es un delito.81 8 3.55 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 6.39 4.38 23923.995 3.68 6.16 11.69 7.42 6.58 10.60 8.34 4.25 4.46 198.50 5.46 45.40 14.52 5.79 6. 1 Grados de libertad en el denominador 4.27 5.88 7.85 5. 60 3.59 199.49 25358.40 6.76 3.55 3.52 6.17 42.97 9.34 4.18 7.07 5.93 3.25 8.51 3.18 30 2 9.81 13.23 29 24221.45 24836.69 3.71 6.47 199.35 3.81 3.31 9.23 4.07 4.76 4.39 199.66 3.47 6.36 12.41 6.00 42.70 43.94 4.15 199.91 5.90 20.23 4.53 19.49 6.68 8.06 4.30 5.87 4.05 5.26 4.48 25 4.14 4.66 6.73 4.08 199.85 5.51 20 3.15 20.18 120 43.22 3.64 4.29 7.85 3.88 4 8.89 3.97 4.55 3.05 120 2.24 5.28 3.54 5.56 3.74 4.64 3.62 4.45 12.92 4.61 3.14 19.19 5.28 28 1 9.38 20.35 6.34 4.45 3.41 4.97 5.31 199.84 3.48 25041.43 4.65 3.46 4.94 3.53 9.83 199.72 3.78 3.34 27 10 9.75 5.42 24426.79 4.77 3.95 3.48 25145.03 13.01 8.48 7.97 13.32 41.54 6.995 3.40 30 Grados de libertad en el numerador 3.32 5.02 4.99 199.48 25253.23 4.74 60 2.09 4.42 5.15 4.84 9.89 42.52 3.36 5.74 5.38 4.12 12.30 4.40 7.35 3.47 41.43 3.72 5.27 19.43 24631.44 3.48 3.66 4.86 5.15 5.81 3.40 19.62 9.27 4.88 12.24 5.81 7.49 3.08 8.78 199.86 5.19 9.49 60 3 8.82 4.70 4.06 7.66 19.39 9.46 4.03 6.61 7.83 6.73 3.01 3.60 5 6 7 8 9 10 11 12 13 14 7.20.75 42.15 4.08 Percentiles de distribución F 309 .25 4.41 26 Grados de libertad en el denominador 9.95 7.01 4.83 40 199.44 6.51 25466.74 2.27 5.61 42.55 4.90 4.71 40 2.29 3.42 9.37 4.45 24959.65 3.28 5.75 9.41 5.64 5.62 2.73 12 5.79 6.90 3.62 © Editorial El manual moderno Fotocopiar sin autorización es un delito.28 4.10 4.18 10.07 6.53 4.44 43.74 3. F0.62 6.98 5.06 4.76 20.50 4.76 3.09 3.21 6.09 3.12 4.65 5.62 10.59 12.58 3.98 4.13 3.38 7.44 25 3.86 4.45 4.33 4.71 3.24 12.60 15 4.99 4.00 12.42 5.30 6.23 7. 53 1.38 3.54 3.11 3.39 2.06 2.73 2.37 3.32 3.43 1.96 2.73 2.77 2.55 2.41 2.69 2.77 2.10 4.05 3.21 3.71 2.70 3.59 2.34 3.03 3.85 2.36 2.27 4.29 2.81 2.07 2.20 3.74 2.86 3.04 3.18 2.38 3.61 2.98 2.59 40 1.12 3.72 2.93 2.67 2.25 12 © Editorial El manual moderno Fotocopiar sin autorización es un delito.75 1.18 3.66 2.25 2.60 2.42 10 15 Grados de libertad en el denominador 2.99 3.30 3.81 2.37 2.50 2.20 3.61 1.52 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 2.11 3.86 2.68 3.82 2.92 3.54 3.18 2.69 30 Grados de libertad en el numerador F0.98 3.61 3.56 2.19 2.48 2.08 2.79 3.48 2.30 3.73 3.33 2.00 1.87 2.63 2.33 3.24 3.84 2.37 2.88 2.07 3.41 3.66 2.90 2.60 3.13 3.97 3.48 60 1.77 2.33 3.12 2.68 3.93 2.12 3.71 2.00 3.90 2.67 1.25 3.00 3.02 3.45 2.98 3.77 25 1.47 3.07 15 2.27 2.97 4.30 2.06 3.59 3.4.89 2.52 2.45 2.29 3.77 2.43 3.44 3.14 4.26 310 Bioestadística .37 120 1.45 3.15 3.40 2.61 2.54 3.63 2.50 3.85 3.71 2.55 2.74 2.78 2.78 3.28 3.30 2.40 3.66 2.42 3.49 3.22 3.06 3.21 3.21 2.31 3.77 3.00 2.87 2.43 2.25 3.59 3.10 3.11 3.18 3. 4.57 2.49 3.995 1.92 2.69 1.95 3.83 2.69 2.42 2.93 3.19 2.48 2.95 3.52 2.95 3.56 2.82 2.41 3.33 2.88 20 1.64 3.38 2.21 3.01 3.82 2.19 2.10 3.89 2.36 1.36 3.92 4.54 2.50 3.88 2.87 2.01 3.79 1.60 2.20 3.76 3.62 3. 93 7.20 16.47 6.64 3.10 4.95 8 3.18 8.55 6.31 4.78 3.91 6.33 5858.67 3.03 6.45 9.70 6.24 99.86 8.14 4.99 8.01 4.61 6.00 4999.70 3.27 18.01 6.15 11.39 5.89 4.89 5.44 4.21 7.04 4.47 10.50 34.78 12.00 4.53 8.72 4.09 5.14 4.61 5.02 7.18 98.25 4.77 Grados de libertad en el denominador 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 5.25 5624.46 99.99 7.82 4.79 3.67 4.10 10.87 3.65 9.19 5.51 3.39 6022.75 12.64 4.52 3.62 4.21 27.66 27.41 3.63 3.03 4.82 99.33 7 3.56 10.35 5.25 11.98 28.85 5.53 © Editorial El manual moderno Fotocopiar sin autorización es un delito.34 99.98 10.50 4.56 4.01 7.04 5.16 5403.94 5.03 4.50 3.16 14.87 4.84 3.45 3.12 21.39 4.71 3.26 4.30 5763.99 4.81 3.04 9.02 8.54 3.63 3.21 5.06 16.37 4.49 99.06 5.40 8.57 5.60 3.06 5.77 3.32 4.80 27.44 4.72 7.17 4.46 3.89 4.36 3.99 6.33 9.76 3.69 4.78 5.91 99.43 4.95 7.46 3.80 6.19 8.40 9 Percentiles de distribución F 311 .18 4.22 3.56 3.42 5.94 4.77 4.42 7.90 3.55 10.95 6.71 3. 4.32 3.67 99.85 9.72 5.30 3.46 4.82 7.68 3.89 5.36 5928.01 5.96 5 3.26 3.82 5.86 5.74 5.71 99.99 3.28 4.67 15.67 5.68 8.20 4.94 3.00 30.93 6.52 28.10 4.26 10.20 5.84 8.34 2 3 4.98 27.06 6.07 8.58 4.29 8.65 9.30 4.29 5.51 6.95 6 Grados de libertad en el numerador F0.76 4.23 6.26 13.38 5980.74 5.64 6.32 5.88 7.35 3.63 4.50 4.85 3.26 10.59 8.37 7.41 5.56 8.66 5.97 15.18 6.10 8.69 29.07 5.92 13.19 4.94 5.22 4.59 3.39 15.68 4.36 6.29 14.46 8.75 10.93 4.56 5.46 14.26 4 3.40 3.34 4.63 7.22 6.11 6.1 4052. 69 99.03 5.09 3.72 1 26 Grados de libertad en el denominador 3.58 99.05 7.31 4.49 5.14 4 2.99 3.73 3.41 4.36 6.31 40 2 7.31 4.57 4.56 30 6055.54 4.64 3 4.72 14.75 3.59 312 Bioestadística .31 4.29 8 3.29 13.45 6208.78 3.48 3.78 4.47 6260.75 26.02 26.51 4.48 6312.97 © Editorial El manual moderno Fotocopiar sin autorización es un delito.05 99.14 9.50 99.40 4.89 14. 14.66 20 3.48 5.65 5.08 60 99.23 3.55 4 6.25 4.30 5 6 7 8 9 10 11 12 4.64 28 10 7.26 3.82 2.54 4.40 4.39 5.17 4.42 5.34 3.30 3.60 29 1 7.00 4.91 4.98 5.47 3.23 9.95 5.91 7.45 13.93 7.30 9.78 3.01 4.63 27.62 5.41 99.12 5.12 3.20 13.87 99.31 7.71 5.84 26.43 6156.33 3.16 7.50 3.43 40 2.86 5.04 4.06 7.32 3.96 5.37 27.53 3.17 3.85 120 3 7.87 6.25 4.39 3.02 3.86 4.69 4.68 12 4.10.20 3.36 3.23 6.35 30 Grados de libertad en el numerador F0.10 4.56 4.51 120 2.42 7 3.55 14.46 26.02 4.17 3.18 5.60 3.67 6.56 3.32 99.62 3.65 26.02 13.47 7.61 4.54 3.76 4.51 2.38 13.08 4.68 27 Grados de libertad en el denominador 7.12 3.99 3.79 2.06 9.07 3.56 9.89 3.91 26.29 3.42 6106.52 6.22 99.79 4.15 3.18 9 3.12 3.66 2.57 5.51 3.97 9.01 4.48 6286.11 5.94 4.72 9.16 4.41 2.88 9.95 3.82 7.96 3.74 6.71 5.97 60 2.59 6 3.45 5.46 6239.81 5.26 4.49 6339.56 2.40 9.65 3.11 13.70 3.07 4.82 5 Grados de libertad en el numerador F0.64 2.20 5.53 2 15 3.86 25 3.56 26.26 6.95 4.50 6365.13 99.11 4.72 2.83 4.40 7.81 5.65 6.70 3.995 3.99 7.45 3.85 4.36 3.20 26.13 4.86 4.60 4.80 2. 84 2.84 2.21 3.58 2.60 2.09 3.02 3.09 3.26 3.37 3.30 3.63 2.27 2.03 3.00 3.84 2.27 3.66 2.94 2.18 2.35 3.79 2.13 2.57 2.57 2.43 1.70 2.43 3.06 3.46 3.98 2.20 2.66 2.88 2.96 © Editorial El manual moderno Fotocopiar sin autorización es un delito.10 3.49 2.03 3.80 3.55 2.00 3.37 3.42 2.07 3.94 3.51 1.80 3.06 2.00 2.39 2.76 2.73 2.69 2.85 2.67 3.35 2.59 3.58 2.82 1.76 1.92 2.78 2.59 1.66 1.03 2.70 2.36 2.58 2.99 3.35 2.16 3.51 2.17 3.52 3.10 2.60 1.83 2.50 2.65 2.75 2.17 3.42 2.00 3.64 2.98 3.57 2.54 2.38 2.55 3.80 2.20 2.94 3.03 2.66 1.25 1.13 3.09 3.72 2.03 2.08 3.37 2.10 2.50 2.60 2.38 1.37 3.87 2.93 2.10 3.77 1.28 3.88 2.66 3.69 3.12 3.64 2.90 2.18 3.52 2.75 2.84 2.32 1.84 2.75 2.23 2.01 2.75 2.02 2.41 2.46 2.26 2.73 1.70 1.34 2.86 2.47 1.32 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 2.31 3.93 2.91 2.41 3.55 2.36 2.54 2.33 2.34 1.15 3.35 2.67 2.26 3.67 2.45 2.23 3.21 3.17 2.54 2.47 2.16 3.14 2.57 1.27 2.51 3.20 2.93 2.78 2.62 2.89 2.53 1.40 2.81 2.74 2.80 2.96 3.17 Percentiles de distribución F 313 .26 2.69 2.05 3.41 3.51 3.31 3.29 2.87 3.31 2.66 2.11 2.31 2.07 3.44 2.83 2.84 2.03 3.04 2.93 3.19 2.4.21 2.47 2.30 2.17 2.40 2.48 2.73 2.78 2.50 2.21 2.92 3.11 2.92 3.13 3.96 2.45 2.61 2.23 2.49 2.98 3.00 1.63 2.45 2.33 2. 2.23 3.52 2. 51 3.36 4.23 7.12 4.29 3.06 3.13 3.98 9.38 3.88 2.36 948.34 3.98 5.52 6.98 15.84 2.80 3.00 799.77 3.92 5.87 5.65 5.42 5.04 5.50 3.69 4.82 3.07 14.60 3.66 3.41 6.50 3.91 2.01 3.51 3.15 9.73 3.18 3.48 3.07 7.70 2.85 9.04 39.47 39.39 9.81 8.62 4.10 5.47 4.43 4.78 2.09 3.32 4.87 2.82 5.79 38.33 937.60 7.48 4.10 3.86 4.48 2 3 3.31 3.88 4.15 © Editorial El manual moderno Fotocopiar sin autorización es un delito.86 3.51 4.38 3.53 4.30 6.975 2.83 5.61 3.20 7 2.17 3.96 3.93 2.35 4.29 5.55 6.99 3.52 6.73 39.48 3. 1 Grados de libertad en el denominador 3.41 3.00 4.85 4.76 9.16 3.80 2.79 5.22 3.66 3.42 4.05 3.78 4.89 6.06 6.51 17.95 4.12 6.08 4.43 10.02 3.65 16.20 3.57 7.33 3.37 956.73 2.20 14.05 5.29 3.44 3.41 3.21 3.39 3.20 4.47 4.05 3.76 8.10 4.44 3.38 4.25 3.44 3.54 39.54 7.21 6.07 4.72 3.12 5.77 4.64 8 2.28 9 314 Bioestadística .20 6.78 3.01 4.26 5.76 3.72 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 4.60 6.76 2.44 39.11 6 Grados de libertad en el numerador F0.99 5.88 39.72 6.36 14.29 3.24 4.647.89 4.32 4.10 39.68 8.46 5.75 3.97 5.26 8.56 3.35 4.05 3.98 3.56 4.01 8.90 5.08 5.22 3.59 3.97 3.63 4.30 921.98 14.44 12.90 14.84 2.60 4 3.61 3.90 2.39 963.72 5.94 6.15 4.82 6.90 3.87 2.60 15.46 4.82 5.89 4.12 3.25 899.28 3.12 3.75 5.73 3.81 2.28 4.03 4.04 4.22 3.70 6.17 864.95 4.58 3.71 6.66 3.93 2.24 4.62 39.01 3.38 3.15 3.99 7.83 5.83 5 2.22 10. 72 3.93 4.94 2.53 3.20 4.51 3.01 3.35 2.88 3.46 998.31 13.11 2.18 3.00 3.05 4.66 2.34 3.39 3.13 2.63 2.08 3.04 39.60 40 2.66 14.29 3.20 4.65 3.73 2.27 8.42 3.95 3.90 39.975 2.59 2.69 3.29 2.25 1 2 3 4 5 6 7 8 9 10 11 12 13 10 5.31 3.15 3.94 4.87 4.94 3.40 5.46 14.20 3.33 3.84 2.90 2.07 3.08 20 2.14 4.62 5.59 5.41 2.31 3.89 4.04 3.29 5.28 3.33 3.07 8.41 2.63 2.02 8.20 4.43 984.72 12 3.80 3.75 14.87 2.00 4.92 2.85 3.30 2.85 2.52 8.65 2.79 2.23 3.96 6.17 39.27 6.52 3.18 8.79 60 2.27 4.63 5.11 6.29 15 3.48 1009.52 2.57 5.91 3.12 39.56 3.18 4.84 6.50 14.84 4.24 4.56 14.57 2.95 39.78 2.34 39.03 3.10 3.60 3.10 4.78 2.47 5.87 © Editorial El manual moderno Fotocopiar sin autorización es un delito.72 2.33 8.41 14.67 2.65 2.22 2.96 3.50 1018.01 3.37 3.49 1014.27 3.36 13.73 4.60 2.63 3.89 3. 2.88 3.08 39.61 5.04 120 2.90 6.25 39.12 3.62 2.67 4.08 3.40 14.25 4.57 5.33 2.75 2.53 2.46 3.72 2.26 13.71 2.30 3.74 2.67 3.22 4.13 3.82 2.46 1001.47 1005.43 3.78 4.31 5.76 4.15 5.23 3.12 3.35 3.25 3.07 6.68 2.97 2.63 39.45 993.09 25 2.57 2.69 25 3.14 3.51 2.69 3.23 8.5.90 3.67 2.26 3.06 3.46 4.26 Percentiles de distribución F 315 .37 6.36 5.96 3.40 30 Grados de libertad en el numerador F0.19 2.79 2.80 2.76 2.05 3.01 6.16 3.45 2.42 5.59 3.62 3.67 4.75 2.42 8.67 5.79 2.33 3.17 6.06 3.61 2.39 2.45 3.69 2.77 4.43 8.88 2.61 3.99 39.66 26 Grados de libertad en el denominador 5.02 27 28 29 30 40 60 120 968.85 6.12 8.41 976. 72 1.51 2.55 2.49 2.44 2.69 2.50 2.82 2.43 2.48 1.91 1.16 2.59 2.84 20 1.92 2.61 1.12 2.67 2.81 1.82 1.16 2.18 2.87 2.38 2.72 2.12 2.43 1.67 1.32 2.88 2.85 1.08 2.46 2.20 2.53 2.06 2.21 2.36 2.45 2.16 2.79 2.23 2.44 2.29 2.89 2.40 2.86 2.01 2.05 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 1.67 40 1.39 2.51 2.64 2.82 1.20 2.36 2.30 2.57 2.26 2.31 1.08 2.29 2.03 2.25 2.39 2.27 2.68 2.41 2.57 1.23 2.60 2.99 2.95 15 1.34 2.13 2.27 2.99 2.94 2.17 2.16 2.95 1.31 2.00 1.04 2.68 2.18 2.3.83 1.64 2.07 2.09 2.87 1. 3.33 2.32 2.14 2.38 2.73 2.64 1.78 25 1.11 2.69 1.36 2.72 2.25 2.98 2.01 2.49 2.55 2.94 2.42 2.33 2.05 2.51 2.21 2.96 1.22 2.14 2.82 2.62 2.27 1.28 2.46 2.64 2.93 1.91 1.41 2.61 2.88 1.76 2.51 2.44 2.62 2.26 2.32 2.61 60 1.53 1.39 2.89 1.32 2.98 2.55 120 1.77 2.74 1.83 1.38 2.05 2.80 1.54 2.03 2.49 316 Bioestadística .70 2.57 2.59 2.75 1.06 2.52 2.00 2.71 1.25 2.18 2.97 2.13 2.11 2.21 2.09 2.73 30 Grados de libertad en el numerador F0.57 2.50 2.15 2.35 2.87 1.05 2.48 1.07 2.32 2.05 12 © Editorial El manual moderno Fotocopiar sin autorización es un delito.04 2.15 10 14 Grados de libertad en el denominador 1.27 2.61 2.18 2.77 2.29 2.94 2.47 2.58 1.94 2.39 1.40 2.31 2.79 1.96 3.11 2.45 2.09 2.53 2.44 2.57 2.67 2.975 1.18 2.19 2.94 1.07 2.56 2.24 2.63 1.00 2.94 1.21 2.39 2.47 2. 01 3.59 5.90 2.28 19.35 4.39 2.34 2.51 2.45 18.86 4.99 5.37 3.77 7 2.07 4.45 4.77 2.99 6 Grados de libertad en el numerador F0.00 8.58 3.41 4.41 3.33 233.74 3.95 3.82 2.01 3.55 3.01 3.30 2.46 2.15 4.18 3.38 4.96 4.09 3.87 4.33 3.44 3.78 2.32 2.71 © Editorial El manual moderno Fotocopiar sin autorización es un delito.94 9.59 9.44 2.28 2.52 3.23 3.95 2.94 19.40 3.55 19.73 4.93 2. 2.49 3.85 2.07 3.42 3.60 2.71 3.96 3.53 2.84 2.32 4.37 238.79 6.81 2.49 4.04 8.16 215.46 2.55 2.65 2.71 6.53 5.57 2.51 2.07 3.68 2.49 3.66 2.66 2.54 2.16 8.26 3.11 3.39 3.50 3.76 5.29 3.24 3.37 2.70 2.59 3.58 4 2.99 3.45 2.51 2.85 2.13 7.12 19.76 2.77 2.75 4.59 3.90 2.76 2.48 2.42 2.19 6.13 3.28 4.80 2.1 161.06 3.83 2.35 4.71 2.67 4.74 5.97 4.11 3.01 19.42 2.54 9 Percentiles de distribución F 317 .39 3.68 3.24 Grados de libertad en el denominador 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 3.38 240.88 8 2.74 2.66 2.59 2.12 4.51 10.87 2.63 2.14 5.36 2.00 199.34 3.64 2.80 2.61 5.28 4.25 224.40 2.48 3.74 2.54 2.05 3.26 4.20 3.89 3.79 2.70 2.49 2.90 3.36 3.60 2.85 2.54 4.30 230.63 3.62 2.49 2.98 4.35 236.50 2 3 2.34 2.03 3.85 19.09 8.02 3.95 6.91 3.26 4.05 6.40 2.60 4.10 4.79 4.77 6.00 3.92 3.89 19.12 4.10 4.16 5 2.69 3.20 3.71 2.58 2.84 4.39 5.46 4.88 6.42 2.84 4.81 19.10 3.39 9.49 2.68 4.44 3.22 3.47 3.55 2.71 2.26 9.96 3.63 3.64 2.48 3.16 3.30 4.14 3.37 2.59 2.32 5.41 6.82 6.29 3.03 3.81 3.18 3.61 2.21 4. 53 2.40 5.79 5.33 2.02 2.47 2.67 4.3.93 3.94 3.57 19.08 3.45 248.10 2.51 3.35 3.08 4.49 2.37 2.66 2.62 19.77 2.25 2.25 2.46 2.62 2.37 4.29 2.52 5.95 2.86 8.47 251.63 19.10 2.75 27 28 29 30 40 60 120 ¥ Grados de libertad en el denominador 1 2 3 4 5 6 7 8 9 10 11 12 15 2.14 40 2.55 2.24 2.95 2.27 2.06 3.53 2.42 2.83 3.50 5.65 2.48 252.33 3.73 2.60 2.90 12 3.61 2.69 8.96 2.56 5.91 3.84 10 241.38 2.01 2.17 2.07 3.27 3.37 2.30 2.56 2.43 245.83 4.73 2.00 3.34 3.47 6 2.09 2.64 3.74 4.04 2.07 3.20 60 1.74 19.11 3.45 2.34 2.86 3.17 4.23 3.00 4.91 8.69 2.66 19.21 2.32 8 2.29 2.57 2.53 19.76 2.25 2.45 2.43 5.34 3.75 2.21 2.59 19.43 2.40 8.70 4.50 2.45 2.22 2.32 318 Bioestadística .62 5.71 2.31 2.70 19.72 8.80 8.44 3.04 3.95 2.53 2.79 3.15 3.77 8.18 2.97 3.14 2.35 2.45 2.94 2.63 8.89 3.32 3.72 2.37 5.23 4.12 2.95 © Editorial El manual moderno Fotocopiar sin autorización es un delito.54 2.98 2.18 4.75 8.22 3.37 2.58 2.49 253.87 4.88 1.74 4. 2.01 3.41 243.70 2.26 25 2.98 3 2.25 120 1.27 9 2.68 5.21 4.66 8.93 2.28 3.15 3.20 4.02 20 2.38 3.40 2.70 2.57 4.34 2.84 2.69 2.28 2.96 4.23 3.18 2.39 7 2.00 3.35 2 1 Grados de libertad en el denominador 26 2.85 2.46 249.68 2.62 2.43 2.57 2.30 3.10 30 Grados de libertad en el numerador F0.59 5 Grados de libertad en el numerador F0.92 3.94 4.40 3.92 2.71 2.50 254.36 2.74 4 2.88 19.01 3.60 2.46 5.54 2.85 3.96 2.81 4.46 250.79 2.77 4.55 19. 75 1.02 2.69 1.76 1.25 1.25 2.78 1.11 2.50 1.94 1.75 1.97 2.00 1.91 1.83 4 9.16 2.11 2.98 2.38 59.19 2.77 1.80 1.15 2.14 2.02 2.40 2.81 1.22 2.38 9.35 2.94 1.75 1.93 1.25 2.07 2.00 49.81 1.33 58.46 2.86 9 1.48 2.41 1.91 1.99 1.60 1.71 1.53 2.12 2.23 2.88 1.10 2.23 2.27 2.84 1.64 1.13 2.06 2.18 2.45 17 39.67 1.85 1.84 1.16 2.18 2.08 1.01 2.16 53.15 2.69 1.74 1.37 59.64 1.75 1.87 1.49 16 1 2.57 1.35 58.06 2.91 1.2.01 2.92 2.54 15 1 2.82 1.89 1.79 1.73 1.97 2.53 1.88 1.84 1.69 1.03 2.92 1.46 9.05 2.13 2.86 1.47 1.04 2.98 2.58 1.00 2.83 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 8.23 2.39 2.95 1.03 2.60 3 1.44 8 1.01 2.11 2.38 2.74 1.94 1.24 2.97 1.89 1.90 1.05 2.88 1.30 2.22 1.34 2.87 1.24 5 9.78 1.18 2.93 1.90 1.50 2 1.32 2.28 2.18 2.32 1.07 2.73 1.99 2.79 1.10 2.18 2.04 2.41 18 2 2.83 1.75 1.42 2.71 1.20 2.11 2.35 2.07 2.20 2.87 1.38 2.67 13 9.27 2.96 1.09 2.85 1.15 2.31 2.92 1.16 2.19 2.77 1.68 1.70 1.65 1.34 9.84 1.20 6 Grados de libertad en el numerador 1.33 2.60 14 Grados de libertad en el denominador 2.96 2.51 1.92 1.23 2.27 2.25 2.15 2.39 1.96 1.28 2.90 1.35 1.24 55.34 2.91 7 1.21 Percentiles de distribución F 319 .86 2.09 2.20 2.84 1.53 9.92 1.19 2.31 2.67 1.01 2.01 2.92 2.28 2.12 2.89 1.96 1.51 1.39 1.43 1.16 2.99 2.94 1.13 2.79 1.30 9.20 2.07 2.59 © Editorial El manual moderno Fotocopiar sin autorización es un delito.55 1.31 2.96 1.11 2.53 2.06 2.82 1.00 2.22 2.65 1.10 2.29 57.03 2.84 1.06 2.07 2.46 1.25 1. F0.84 1.59 1.62 1.66 1.81 1. 72 2.02 2.14 2.20 2.05 3.36 2.01 2.96 1.16 2.29 3.15 2.31 2.24 9 320 Bioestadística .00 2.17 2.31 5 2. 1 Grados de libertad en el denominador 2.95 5.24 2.39 2.96 3.46 3.56 2.09 2.14 3.93 1.19 2.11 3.83 3.29 2.25 8 1.52 2.96 1.27 2.16 2.98 5.28 2.92 3.61 2.92 2.55 2.69 2.94 5.66 2.59 2.30 2.08 2.01 2.95 1.51 2.03 3.81 2.56 2.23 3.13 2.04 2.94 2.99 2.13 2.12 2.44 2.52 2.62 2.55 2.48 2.47 2.12 2.01 3.86 2.54 4.39 2.38 2.05 3.56 2.18 2.96 3.34 2.95 1.93 1.10 2.62 2.33 2.61 2.88 3.59 3.10 3.5.18 2.70 2.22 2.02 2.93 2.32 3.92 1.54 2.75 2.07 3.91 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 2.97 2.27 2.19 5.02 2.92 3.98 3.04 2.23 2.08 2.59 2.40 2.42 2.26 3.11 3.07 3.28 2.98 2.36 3.24 2.52 2.05 2.20 2.01 3.06 2.35 2.64 2.89 1.18 3.91 1.76 2.22 2.37 3.38 2.78 3.78 4.28 6 Grados de libertad en el numerador F0.04 2.61 2.18 2.81 2.94 1.97 1.46 2 © Editorial El manual moderno Fotocopiar sin autorización es un delito.33 2.11 5.32 5.34 4 2.10 2.96 2.33 2.97 1.45 4.13 2.36 2.67 2.39 2.61 2.29 3.57 2.09 2.19 2.46 2.24 2.73 2.44 2.62 4.41 2.53 2.16 2.21 2.31 2.98 1.88 1.03 2.90 1.34 2.08 2.81 2.35 2.27 2.92 1.39 3 2.15 2.27 7 1.06 2.23 2.34 3.54 4.06 3.43 2.99 2.11 2.45 2.21 2.35 2.06 2.11 2.01 5.18 3.25 2.09 2.46 3.00 2.95 2.67 2.52 4.05 5.06 2.21 2.73 2.98 2.31 2.09 2.54 2.49 2.01 2.40 4.32 2.46 2.73 2.78 3. 42 2.46 2.74 1.91 1.82 5.14 3.11 2.79 60 2 2.09 2.01 2.89 1.82 1.47 62.97 2.48 63.84 5.34 2.22 © Editorial El manual moderno Fotocopiar sin autorización es un delito.13 2.93 2.11 3.02 2.33 Percentiles de distribución F 321 .45 62.70 2.88 1.5.88 1.44 61.77 1.74 3.22 9.26 30 Grados de libertad en el numerador F0.27 3.89 1.08 2.12 3.16 9.80 3.05 2.04 2.14 2.77 1.76 3.93 1.24 2.03 4 5 6 7 8 9 10 11 12 13 14 15 16 2.96 2.90 1.36 2.56 2.63 1.90 1.44 2.06 2.92 1.98 1.14 2.79 1.96 2.47 62.87 3.95 1.17 2.12 2.87 1.84 40 60.89 1.08 2.53 40 1.76 5.88 30 1 2.19 3.21 2.99 2.79 5.93 1.86 1.78 3.10 2.01 2.42 2.15 2.27 2.47 2.76 1.00 2.99 2.85 1.95 2.78 1.79 60 1.24 3.25 2.93 1.78 5.80 5.10 2.05 2.63 2.94 2.18 9.67 1.38 2.08 2.74 20 1.97 2.68 1.99 2.15 2.20 9.90 1.84 3.23 2.21 2.94 1.20 2.32 2.96 2.13 2.28 2.46 62.83 1.85 1.50 2.40 2.85 1.98 2.23 2.67 2.94 1.87 1.06 120 1.72 1.34 2.92 3.17 9.49 63.75 1.94 1.19 2.06 2.16 2.19 2.17 1.89 29 10 2.16 2.79 1.90 5.90 1.00 1.00 2.03 2.17 3.29 2.72 3.87 1.59 2.81 1.49 2.28 2.49 2.42 61.14 9.50 2.86 1.05 2.05 2.71 3 2.57 2.07 1.38 2.90 3.89 1.83 5.84 1.72 1. 1.10 2.82 1.83 1.90 27 1.87 1.80 1.25 2.15 9.99 2.93 1.86 1.05 25 1.00 2.18 2.30 2.16 2.54 2.17 9.28 2.87 5.13 9.39 2.30 2.23 3.30 1.35 2.16 3.50 2.82 1.29 2.71 12 2.90 1.30 2.93 1.41 60.17 2.10 2.77 1.72 1.03 2.18 2.39 2.06 2.85 1.51 15 2.87 1.51 2.81 3.01 2.91 1.06 2.54 2.32 2.06 2.21 3.89 28 Grados de libertad en el denominador 2.75 120 9. 56 1.67 1.87 1.79 1.47 1.71 1.55 1.71 1.66 1.71 1.59 1.76 1.61 1.57 1.88 1.90 1.74 1.41 1.70 1.80 1.86 1.73 1.96 1.55 1.64 1.78 40 1.61 1.67 1.57 1.52 1.49 1.76 1.42 1.82 1.63 1.17 1.57 1.78 1.48 1.81 30 Grados de libertad en el numerador F0.91 15 1.29 1.72 1.53 1.42 1.63 1.69 322 Bioestadística .35 1.78 1.37 1.83 1.44 1.81 1.74 1.57 1.78 1.81 1.69 1.67 1.70 1.60 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 © Editorial El manual moderno Fotocopiar sin autorización es un delito.26 1.73 1.59 1.83 1.34 1.90 1.54 1.73 1.62 1.61 1.59 1.53 1.86 1.72 1.80 1.70 1.76 1.84 1.67 1.71 1.85 1.92 1.46 1.71 1.40 1.59 1.78 1.52 1.64 1.1.65 1.81 1.83 25 1.96 2.86 1.66 1.83 1.89 1.64 1.57 1.60 1.87 1.50 1.68 1.32 1.60 1.80 1.48 1.62 1.66 1.89 1.77 1.55 1.56 1.79 1.24 1.50 1.60 1.30 1.54 1.82 1.75 1.74 1.69 1.62 1.69 1.66 1.72 1.48 1.54 1.84 1.44 1.70 1.58 1.84 1.66 1.64 1.61 1.38 1.93 12 10 Grados de libertad en el denominador 17 1.63 1.60 1.58 1.98 1.51 1.68 1.78 1.75 60 1.19 1.76 1.47 1.63 1.68 1.49 1.73 1.65 1.69 1.67 1.54 1.76 1.91 1.00 1.72 1.65 1.75 1.66 1.00 1.77 1.72 120 1.55 1.86 20 1. 1.74 1.89 1.61 1.94 1.50 1.38 1.51 1.66 1.84 1.64 1. N xi i =1 Anexo G ( xi = xi i =1 N 2 N N μ) 2 i =1 N © Editorial El manual moderno Fotocopiar sin autorización es un delito. Percentiles de distribución 2 323 . 919 19.851 28.575 17.484 0.328 74.151 36.307 20.589 10 2.379 91.808 14.908 7.275 48.153 60.216 0.461 15.869 31.397 79.646 44.167 12.348 11.819 14 4.262 7.498 124.378 9.987 18.672 24. 324 .017 14.764 63.507 17.527 90.711 7.412 31.708 39.923 45.812 22.860 5 0.638 44.565 113.256 43.023 21.700 3.615 32.275 19.420 76.962 23.671 35.991 32.091 32.629 6.181 24 9.119 29.645 28 12.997 21 8.733 13.791 18.379 35.412 0.666 23.603 3.652 40.401 13.691 66.563 38.689 13.841 5.217 28.236 11.697 7.995 1 0.434 9.957 73.180 2.321 90 59.342 60.067 16.597 3 0.391 96.813 33.0000393 0.920 24.892 53.566 39.592 14.802 53.314 46.796 23 9.325 14.222 77.488 30.832 15.676 1.982 12.204 30.024 6.493 40.074 4.535 20.231 9.582 20 7.844 15.170 37.251 7.265 8.848 33.816 4.357 34.338 30.769 27.505 61.990 2 0.807 140.509 51.362 15.329 116.449 16.588 52.342 129.647 69.531 95.013 18.156 3.605 5.278 50.023 100.344 2.337 26.591 29.635 10.433 26.886 12.479 38.725 26.390 25.l.047 17.009 5.924 36.548 7 0.684 16.005 2 0.382 37.141 31.087 42.989 1.601 6.126 107.629 112.156 19 6.352 6.278 8 1.307 24.210 10.885 41.542 26.994 29 13.172 57.879 106.955 9 1.300 13 3.337 44.283 11.645 12.196 65.520 13.483 23.722 49.980 45.117 27.410 34.578 101.0039 2.812 18.298 88.996 27.192 20.805 55.838 4 0.611 34.844 8.086 16.688 29.237 1.425 104.779 9.188 74.409 35.145 9.226 18.0010 0.209 25.113 43.706 3.362 24.0717 0.299 100 67.573 16.144 32.026 23.482 43.773 46.952 70 43. 2 0.892 19.488 11.758 51.787 16.289 42.364 42.154 79.750 6 0.207 0.587 30.757 12 3.805 37.160 13.736 27.267 17 5.801 16 5.975 2 0.564 8.196 36.549 21.366 30.090 21.928 37.172 38.643 10.415 39.565 5.136 124.781 40.932 41.963 49.142 6.116 128.308 16.569 22.475 20.907 10.900 2 0.766 45 24.950 2 0.404 5.831 1.852 36.191 33.845 32.050 2 0.758 59.991 7.685 26.143 13.000 34.675 21.260 11.410 69.815 9.989 28.335 30 13.558 25 10.656 65.103 4.290 27 11.076 41.718 18 6.707 24.461 48.261 22.075 5.557 45.612 57.916 41.690 2.064 23.635 7.188 11 2.979 50.275 40 20.059 49.203 57.465 46.007 35.195 46.025 2 0.034 10.120 14.167 67.534 40.145 118.166 50 27.215 80 51.741 40.526 34.879 2 0.561 135.Bioestadística g.0100 0.940 15.051 0.121 16.928 26 11.311 28.642 48.929 118.739 85.277 14.070 12.735 2.342 63.490 60 35.505 71.401 22 8.247 3.191 38.170 © Editorial El manual moderno Fotocopiar sin autorización es un delito.591 10.578 32.296 28.345 12.082 83.672 35 17.319 15 4.571 21. 1 0. Valores críticos para una prueba Mann-Whitney-Wilcoxon n1 n2 0.01 3 3 6-15 3 4 6-18 4 4 11-25 2 5 3-13 3 5 7-20 6-21 4 5 12-28 11-29 5 5 19-36 17-38 2 6 3-15 3 6 8-22 7-23 4 6 13-31 12-32 10-34 5 6 20-40 18-42 16-44 6 6 28-50 26-52 23-55 2 7 3-17 3 7 8-25 7-26 4 7 14-34 13-35 10-38 5 7 21-44 20-45 16-49 6 7 29-55 27-57 24-60 7 7 39-66 36-69 32-73 2 8 4-18 2-19 3 8 9-27 8-28 4 8 15-37 14-38 11-41 5 8 23-47 21-49 17-53 6 8 31-59 29-61 25-65 7 8 41-71 38-74 34-78 8 8 51-85 49-87 43-93 10-26 15-40 325 .N xi i =1 Anexo H ( xi = xi i =1 N 2 N N μ) 2 i =1 N © Editorial El manual moderno Fotocopiar sin autorización es un delito.05 0. Bioestadística n1 n2 0.1 0. 326 .01 2 9 4-20 3-21 3 9 10-29 8-31 6-33 4 9 16-40 14-42 11-45 5 9 24-51 22-53 18-57 6 9 33-63 31-65 26-70 7 9 43-76 40-79 35-84 8 9 54-90 51-93 45-99 9 9 66-105 62-109 56-115 2 10 4-22 3-23 3 10 10-32 9-33 6-36 4 10 17-43 15-45 12-48 5 10 26-54 23-57 19-61 6 10 35-67 32-70 27-75 7 10 45-81 42-84 37-89 8 10 56-96 53-99 47-105 9 10 69-111 65-115 58-122 10 10 82-128 78-132 71-139 2 11 4-24 3-25 3 11 11-34 9-36 6-39 4 11 18-46 16-48 12-52 5 11 27-58 24-61 20-65 6 11 37-71 34-74 28-80 7 11 47-86 44-89 38-95 8 11 59-101 55-105 49-111 9 11 72-117 68-121 61-128 10 11 86-134 81-139 73-147 11 11 100-153 96-157 87-166 © Editorial El manual moderno Fotocopiar sin autorización es un delito.05 0. Valores críticos para una prueba Mann-Whitney-Wilcoxon n1 n2 0.1 0.© Editorial El manual moderno Fotocopiar sin autorización es un delito.05 0.01 2 12 5-25 4-26 3 12 11-37 10-38 7-41 4 12 19-49 17-51 13-55 5 12 28-62 26-64 21-69 6 12 38-76 35-79 30-84 7 12 49-91 46-94 40-100 8 12 92-106 58-110 51-117 9 12 75-123 71-127 63-135 10 12 89-141 84-146 76-154 11 12 104-160 99-165 90-174 12 12 120-180 115-185 105-195 2 13 5-27 4-28 3 13 12-39 10-41 7-44 4 13 20-52 18-54 13-59 5 13 30-65 27-68 22-73 6 13 40-80 37-83 31-89 7 13 52-95 48-99 41-106 8 13 64-112 60-116 53-123 9 13 78-129 73-134 65-142 10 13 92-148 88-152 79-161 11 13 108-167 103-172 93-182 12 13 125-187 119-193 109-203 13 13 142-209 134-215 125-226 2 14 6-28 4-30 3 14 13-41 11-43 7-47 4 14 21-55 19-57 14-62 5 14 31-69 28-72 22-78 6 14 42-84 38-88 32-94 7 14 54-100 50-104 43-111 8 14 67-117 62-122 54-130 9 14 81-135 76-140 67-149 10 14 96-154 91-159 79-161 11 14 112-174 106-180 96-190 12 14 129-195 123-201 112-212 13 14 147-217 141-223 129-235 14 14 166-240 160-246 147-259 327 . 1 0.Bioestadística n1 n2 0.01 2 15 6-30 4-32 3 15 13-44 11-46 8-49 4 15 22-58 20-60 15-65 5 15 33-72 29-76 23-82 6 15 44-88 40-92 33-99 7 15 56-105 52-109 44-117 8 15 69-123 65-127 56-136 9 15 84-141 79-146 69-156 10 15 99-161 94-166 84-176 11 15 116-181 110-187 99-198 12 15 133-203 127-209 115-221 13 15 152-225 145-232 133-244 14 15 171-249 164-256 151-269 15 15 192-273 184-281 171-294 © Editorial El manual moderno Fotocopiar sin autorización es un delito. 328 .05 0. N xi i =1 Anexo I ( xi = xi i =1 N 2 N N μ) 2 i =1 N © Editorial El manual moderno Fotocopiar sin autorización es un delito. Valores críticos para una prueba de Kruskal-Wallis 329 . 65 5.60 4 2 1 4.65 5 4 1 3.55 5.65 5.63 8.71 4.06 5.36 5.96 5 3 2 4.16 5 3 1 4.62 5.71 3 3 1 4.25 3 2 1 4.53 5.1 0.13 5 5 2 4.62 5.99 4.55 5.06 5 5 4 4.53 5.33 4 3 1 4.02 4.17 4.54 5.36 3 3 3 4.68 8.11 5 4 3 4.14 3 3 2 4. 330 .32 5 5 5 4.11 5.01 2 2 2 4.50 5 4 4 4.32 4 4 4 4.69 8.46 5.56 5.57 5.29 3 2 2 4.71 9.97 4 4 2 4.51 4.27 8.62 5.44 4 3 3 4.50 4 2 2 4.24 © Editorial El manual moderno Fotocopiar sin autorización es un delito.60 8.00 5 5 1 4.56 5.02 8.34 8.Bioestadística n1 n2 n3 0.25 5 3 3 4.99 5 4 2 4.45 4 4 3 4.64 9.54 5.68 5 5 3 4.00 5 2 2 4.71 5.73 4 4 1 4.65 5 2 1 4.62 9.21 4 3 2 4.20 5.78 9.55 5.05 0. N xi i =1 Anexo J ( xi = xi i =1 N 2 N N μ) 2 i =1 N © Editorial El manual moderno Fotocopiar sin autorización es un delito. Valores críticos para una prueba Wilcoxon 331 . 332 .Bioestadística n1 % $ % >% & ">Q >" ? #>"% ">"& K %># #>## >#& Q K>#? %>$ >$$ >$% K>$? #>%" #>%# >%& %>& " ?>& #>&% ?>? # ">? ?>?$ Q>K" $ "%>K ">K$ ">Q# % #>Q "%>Q% %>% & #%> "Q>? Q>? ? $>" #$>Q "#># K $?>"$ $># "?>$$ Q %#>#? $&>$$ #">%K " &>% %">%K #?>?# " &?>&$ %K>?# $">KQ "" ?%>?K &&>K? $K>% "# Q#>Q# ?#>"# %$>""" "$ Q>"Q K>"Q &>"#Q "% >""% KQ>"#& &K>"%? © Editorial El manual moderno Fotocopiar sin autorización es un delito. 32 Captura de datos. 110 2 × 2. 13 Conclusión. 220 interpretación de. 51 elaboración de. 192 múltiple. 175 múltiple. 252 en la consola R. 18 formas de. 16 autoadministrados. 7 Curva(s) de distribución normal. 80 de Kaplan-Meier. 19 Calidad de vida. 252 Cohorte histórica. 48 bivariado. 265 de rechazo y aceptación de hipótesis. 39 amplitud de cada. 71 representación tabular de. 211 de datos. 231 de varianza. 51 Computadoras. 214 evaluación de. 51 título de. inferior de. 38 de supervivencia. 246 Cuadro(s) de contingencia. 15 estratificado. 192. 31 Análisis ajustado mediante. 99 Arreglo ordenado. 18 de residuales. 109 estadístico(s). 173 Criterio de información de Akaike. 177 comparaciones entre medias de tratamientos. 209 generalizado. 51 Cuestionarios. 227 Área(s) de la curva normal. 252 multivariado. 24 búsqueda y registro de datos. 233 normal. 213 regresión logística y. 71 intersección de dos. 251 interpretación de. 38 Cáncer uterino.N xi i =1 Índice ( xi = xi i =1 N 2 N N μ) 2 i =1 N NOTA: Los números de página en negritas indican cuadros y en cursivas corresponden a figuras © Editorial El manual moderno Fotocopiar sin autorización es un delito. 4 Correcciones de Mantel-Haenszel. 251 gráfico de residuales. 193 parcial. 251 presentación de resultados. intervalo de. 153. intervalos de clase. 39 Coeficiente de confianza. 226 C Cálculo(s) de probabilidades binomiales. 89 estadísticos. 16 Clase(s) intervalos de. 72 nulo. 51 encabezados de. 100 Confusión. 24 Alcohol. 193 simple. 15. 39 definir el número de. 51 cuerpo de. 155 estadístico. 99 características de. 71 teoría de conjuntos y. 109. 201 Conjuntivitis. A Actividad física. 3 agrupados. 71 infinito. 192 parcial. 3 333 . 15 cálculo de estadísticos. 38 cálculo de estadísticos necesarios. 72 unión de dos. 224 pareado. 51 notas explicativas de. 265 D Dato(s). 211 regresión logística. 112 Correlación(es) matriz de. 15 interpretación de resultados. 110 Coriza. 39 superior de. 15 reporte final del trabajo. 4 Conjunto(s). 220 estimados. 192 coeficiente de. 192 coeficiente de. 247 Columna matriz. 15 captura y transformación de datos. 18 Cédulas de captura. 259 Contingencia. 224 crudo. 71 B Bases de datos. 72 Consumo de alcohol. 80 áreas de la. 22 Colinealidad. 216 ANOVA. 192 múltiple-parcial. 73 2x2. 156 división de suma total de cuadros. 7 Cambio porcentual. 16 administradores de. 259 durante el embarazo. 176 de regresión. 38 tabular. 51 fuente de. 38 resultados del. 153 evaluación de variabilidad. 155 interpretación de razón de. 185. 155 presentación de datos. 209. 204 de riesgo. 16 Bioestadística. 72 número de elementos en. 100 Confianza. 204 lineal generalizado. 51 columna matriz de. 119 de correlación. 110 cuadro de. 15 tabulación de datos. 71 dos iguales. 73 Azar. 224 estrategias de. 39 límite. estratificación. 15 revisión de la captura. 193 de determinación. 15 presentación de propuesta o proyecto. 211 fórmulas para el. 259 Alcoholismo. 72 vacío. consumo de. 112 de Yates. 48. 226 evaluación de. 200. 15. 71 finito. 31 Bondad de ajuste. 153 supuestos de una vía. 4 Fórmula abreviada de chi-cuadrada para tablas 2 x 2. 240 Poisson. 147 para una proporción muestral. 148 de dos proporciones en comparaciones pareadas. 46 de una distribución de frecuencias. 240 exponencial. 202 evaluación de. 131 H Hazard. 124 de dos proporciones muestrales. 5 Kelvin. 55 de sectores. 5 consumo de alcohol por la madre durante. 83 Determinación de frecuencias esperadas. 334 . 11 continuos. 32 arreglo de datos para. 98 pertinente. 7 fuente primaria. 22 de clasificación. 209 de seguimiento. 75 vitales. 24 mutuamente excluyentes. 55 de puntos. 100 © Editorial El manual moderno Fotocopiar sin autorización es un delito. 31 Estimación alternativa. 247 DI (densidad de incidencia). 155 Evento(s) independientes. 15 Estadístico de prueba. 4 ordinales. 32 Diagnóstico gráfico. 202 diagnóstico. 97 Escala cualitativa. 85 de Poisson. 99 Definición operativa. 52 cuerpo de. 307 muestral(es). 121 para la razón. 147 Estimación puntual. 232 nominales. 24 descriptivos.Decisión estadística cómputo de. 53 gráfico. 22 paradigma de. 98 selección del. 122 de proporciones en comparaciones pareadas. 92 de probabilidad. 39 relativa acumulada. 7 observación. 89 con variables cuantitativa. 130 tamaño de muestra para. 16 F Factor de corrección de población finita. 46 Distribución binomial. 31. 259 Hipótesis. 76 morbosos. 89 Entrevistas personales. 97 . 39 casos de. 85 forma funcional de. 79. 34 cálculo de. 240 Gaussiano. 176 de la confusión. 5 Gráfica(s) básicas de diagnóstico. 24 de cohorte. 204 notas explicativas de. 31 Densidad de incidencia. 24 Diferencia de dos proporciones poblacionales. 33 clasificación con estándar de oro. 18 Error(es) binomial. 110 de grados de libertad. 82 características. 240 normal. 85. 256 típica. 110 pequeñas. 147 intervalos de confianza para. 110 Función de probabilidad. 18 Epidemiólogos. 83 acumulada. características de datos. 136. 110 percentiles de. 51 recogidos. 4 para calcular tamaños de muestra desiguales. 4 Demencia. 106 de probabilidad. de dos medias muestrales. 24. 23. 204 de pastel. 251 Diagrama(s) de barras. 31 viral. 89 X2 (chi-cuadrada). 55 valores aleatorios. 240 gamma. 52 objetivos de. 52 Grupo(s) comparación de. 21 cegamiento del tratamiento. 100 Estrategias de análisis multivariado. 10 revisión y corrección de. 7 representación de la captura de. 34 Estadística definición operativa. 130 Diseños epidemiológicos analíticos. 110 Devianza nula. 53 compuestas. 29 cuantitativa. 96 conclusión de. 71 Embarazo características de mujeres durante el. 24 de seguimiento. 90 F (distribución F). 7 hipotéticos de un estudio de casos y controles. 227 de tamaño desigual. 72 Dieta. 177 estándar. 85 tipo. 89 de Poisson. 209 Distancia intercuartilar. 4 descriptiva. 23 Evaluación de ecuación de regresión. 161 presentación de. 71 Fiebre. 52 de cuadro y línea. 24 Exantema. 100 alterna. 10 recolección de. 52. 43 Espacio muestral. 95. 34 Depresión. 323 de diferencia. 85 estructura del. 240 que pueden cometerse en una prueba de hipótesis. 131 tamaño de la muestra para. 39 Hipertensión arterial. 21 asignación aleatoria. 97 II. 21 cuasi-experimental. 247 residual. 52 de Venn. 53 dobles. 98. 47 de pareamiento. 251 estadísticas. 52 principales. 21 de casos y controles. 79 procedimientos libres de. 7 Epi Info 7. 130 significativa. 119 para una y dos variables cualitativas. 224 Estrés. 234 Hepatitis viral. de dos proporciones muestrales. entre dos medias muestrales. 71 Especificidad. 91 de frecuencia. 27. 21 doble ciego. 100 Estimación de intervalo. 120 presentación de resultados. 178 de incidencia. 7 fuente secundaria. 240 de regresión. . 259 exposición al humo de tabaco durante. 80 enlace. 8 Enfermedad(es) en bioestadística. 98 especificación del. 4 Ensayo(s) clínico(s). 24 elementos de. 232 datos hipotéticos de. 240 distribución del. 251 de correlación de residuales. 34 Diabetes mellitus. 5 forma de registro de. 34 datos ficticios para el cálculo de. 7 Estudio(s) analíticos. 23 transversales analíticos. 24 de prevalencia. 7 Desviación de observaciones. 295 de una proporción muestral. 46. 98 E Ecuación de modelo lineal generalizado. 34. 41 Encuestadores. 21 de Bernoulli. 7 discretos. 24 ecológicos. 232 de series de enfermos. 201 de variabilidad. 39 en México. 5 de una fuente primaria. 240 G Grado(s) Celsius. 148 poblacional. 15 Elemento. 54 de correlación. 79. 41 deseado. 303 percentiles de. 97 I. diagnóstico de. 99 recolección y revisión de. 97 típico de la media. 98 percentiles de. 101 prueba de hipótesis y. 101 Estimación de medias. 213 Frecuencias esperadas. 174 de tallo y hoja. 39 representaciones gráficas de. 120 muestra pequeña. 119 caso especial: x=0. 53 de dos dimensiones. 80 acumulada. 241 lineal predictiva. 21 comunitario. 124 para una media muestral. 98 Estado de enfermedad. 240 estándar. 112 para análisis estratificado. 100 para la diferencia. 82 con variables cualitativas. 101 t (t de Student). 303 z. 267 binormal. 129 Fenómenos de azar. 178 tamaño de muestra para. 205 de puntos. 4 Excel. 17 revisión de. 234 ratio. 86 entre dos proporciones muestrales. 61 ejercicio de. 52 de una dimensión. 7 Decisión estadística. 52 título de. 98. 55 Gráfico(s). 24. 52 de medias muestrales. 22 de correlación. 176 del modelo mínimo ajustado. 3 Inteligencia. 99 falsa. 73 acumulada. 8 selección de. 32 función de. 95 prueba de. 97 verdadera. crudo. 108 pequeñas. 63 tipos de. 43 unicidad de. 64. 120 EPITABLE. 43 Menú de Epi Info 7. 55 Hojas de cálculo. 210 como una aproximación al riesgo relativo. 256 aritmética. relacionadas con la investigación. 100. 30 Método(s) de Kaplan. 8 utilizar un lenguaje. 263 uso de. 8 Investigador. 8 precisas y sin ambigüedades. 7 L Lenguaje binario. 63 sistemático. 89 clásica. 239 ecuación del. 246 Moda. 95. 150 finita. 59 Índice de masa corporal. 69 estratificado. 7 recolección y revisión de datos. 147 varianza poblacional desconocida. 100 procedimiento de verificación de. 138 sobre una media poblacional única. 247 procedimiento de simplificación. 95 selección del nivel de significancia. 65 tabla de. 55 Pregunta(s). 8 Prevalencia. 66 resultados que muestran intervalos de confianza. 7 objetivo. 106. 71 especificidad y. 206 Listas. supuestos del. 8 cargadas. X2. 17. 69 de conveniencia. 148 poblacional única. 43. 105. 239 mínimo adecuado. 7 Medida(s) de dispersión. 120 STATCALC. 96 áreas de rechazo y aceptación de. 24 Inferencia estadística. 95 selección del nivel de significancia. 247 polinomial. 8 general. 239 características de las variables. 8 social. 31 Medición física. 76 . 8 epidemiológica. 8 estandarizar las. 246 Percentil(es). 11 Lotus. 97 Normalidad. 246 método de selección del. 7 Odds ratio. 97 planteamiento de. 210 inicial. 95 nula. 256 de distribución. 8 fácil de comprender. de Cox. 16. cultural. 256 valor de la. 73 a priori. 89 cálculo de. 68 de bola de nieve. 44. 7 Interacción. 235 lineal simple. 210 OpenEpi. 75 de Poisson. 63. 24 Observación directa. 183 para una variable dependiente. 82 factor de corrección de. I IA (incidencia acumulada). 135 Histerectomía. 83. 247 proceso de simplificación del. 63 de diferente tamaño. 95 para verificar una. 8 económico. 79 binomiales. 69 N Nivel de significancia. 178 Linealidad. 19 Línea de regresión. 43 muestral. 66 generar números aleatorios en. 36. 21 introducción a los diseños de. 73 condicional. 129 no distribuida normalmente. 45 de posición. 113 sobre la diferencia entre dos medias poblacionales. 192 Media. 198 de regresión. 210 relación numérica entre riesgo relativo y. 15. 148. aditiva de. 161 del mismo tamaño. 251 valores de devianza. 11 Parsimonia. 232 Investigación contexto de. 137. 74 multiplicativa de. 44 Medicina familiar. 105. convencional. 267 elementos de. 114 Z para la diferencia de proporciones a partir de. 84. 138 varianza poblacional desconocida y diferentes. 54 boceto del. 68 Matching variable. 79 binomial de. 96 sobre una proporción poblacional única. 69 de casos consecutivos. 7 química. 116 Muestreo(s). 140. 218 múltiple. 68 probabilístico. 67 resultados a partir de. 44. 231 de Kaplan-Meier. 11 formato de concentración de datos para uso de. 44 propiedades de. 140. 79 cálculo de. 76 Indicadores básicos de salud. 8 útiles. 186 simple. 8 en negativo. 206 por pasos. 132 Polígono de frecuencias. 17 Homocedasticidad. 32 densidad de. 12 lineales generalizados. 240 estructura del error. 123 análisis. 45. 11 de selección del modelo mínimo adecuado. 210 multivariado. 198 Intercuartilar. 68 datos de un. 12 simple. 17 representación de captura de datos. 63 a criterio. 69 por conglomerados.Histerectomía de una proporción entre varias poblaciones. 96 presentación de resultados. 74 distribución. 32 prevalencia. 103 para dos o más variables independientes. 263 generados en OpenEpi. 34 Independencia de eventos. 173 de tarjeta. con perforación marginal. 79 regla. 79 distribución acumulada. 15 de programación. 113 estadística. 150 Poder. 66 números aleatorios generados en. 247 Módulo binomial. 227 Matriz de correlaciones. dependiente. 45 Modelo aditivo de relación de dos variables dicotómicas independientes en una variable cuantitativa. 70 aleatorio simple. 95. 68 no probabilístico. 98 descripción de. 8 respuestas cortas y. 183 para variable. 43 Mediana. 246 criterios de selección del. 175 lineal simple. 210 de los datos. 175 logística. 68 por racimos. 7 Intervalos de confianza. 71 para la inferencia estadística. 105 verificación de. 103 independiente. 67 conglomerados. 31 diferencia de. 4 Marco muestral. 140. 121 335 P Palotes. 103 Información. 66 para seleccionar los elementos a utilizar. 160 grande. 66 menú de. 32 Incidencia acumulada. 16 M Manchas de Koplik. 246 mínimo ajustado. 113. 98 discreta. 21 forma de registro de datos. 31 Probabilidad. 231 de un evento simple. 64. 256 Interrogatorio. 3. 206 Notas explicativas. 8 con dos respuestas. 120 Muestra(s). 79 función de. 43 simplicidad de. 65 O Obesidad. 295 distribución de. 136. 135 varianza poblacional conocida. 240 limitantes de regresión lineal. 8 fraseo de. 96. 8 en un contexto. 178 inferencias a partir de. 51 Números aleatorios. 32 Histograma. 240 función lineal preductiva. 135 ponderada. 246 bondad de ajuste. 35 fórmula para calcular. 307 Población. 323 F. 82 distribuida normalmente. 295 de supervivencia. específico. 231 de los palotes. 71 a posteriori. 149 varianza poblacional desconocida pero iguales. 206 © Editorial El manual moderno Fotocopiar sin autorización es un delito. 95 planteamiento de. 36 Odds ratio como una aproximación al. 74 de Bayes. 101 ventajas de procedimientos no paramétricos. 169 procedimiento. 227 Matching variable de.Procedimiento(s) según la frecuencia relativa de ocurrencia. 170 supuestos. 114 para una y dos variables cualitativas. 73 sensibilidad y. 216. 187 en regresión logística. 221 en regresión múltiple. 119 poblacional. 221 variables cuantitativas. 35 Recién nacidos bajo peso al nacer. 15. 95 no paramétricos. 35 relativo. 336 . 19. 24. 33 Servicios de medicina familiar. 99 Regla(s) aditivas de probabilidades. 20 SPSS (Statistical Package for Social Science). la diferencia de dos proporciones poblacionales. 48. 12 simples. 132 sobre la diferencia entre dos proporciones. 165. 105 con todas las variables. 210 RR (riesgo relativo). 15. 89 de una prueba t de Student. 98 t de Student. 221 variables cualitativas. 9 cerradas. 139 de Bartlett. 233 regresión de Cox para. 31 Programa(s) de cómputo. 35 Rango. 48. 163 de la mediana. 252 ejemplos en aplicación de casos. 191 selección del nivel de. 247 Studio. 233 interpretación de resultados. limitantes de. 325 no paramétricas. 158 de contingencia. cualitativas. 44 sexo del. 12 Tasa(s) bruta de natalidad. 260 Tabla(s) de análisis de varianza (ANOVA). 202 ecuación de. 186 prueba de hipótesis de. 246 parcial. 44 de madres que no fumaron. 34 y especificidad. 33 clasificación con estándar de oro. 19 Commander. 15. 191 anterior. 32 arreglo de datos para el cálculo de. 31 muestral. 209. 122 diseño de cohortes. 221 variables cualitativas dicotómicas. 176 simple. 113 F. 96 estadística. 202 interacción en. 101. 72 complemento del. 18 Subconjunto. 260 durante el embarazo. 59 fetal. 91. 60 de natalidad. 139 Mann-Whitney-Wilcoxon. 38. 18 R. 263 Tabulaciones estadísticas. 60 por causa específica. 18 Promedio. 4 Sensibilidad. 35 de prevalencias. 5 Tendencia central. 204 estandarizado. 227 pruebas de hipótesis en. 236 intervalos de confianza. 105 presentación de. 16 Proceso de Poisson. 64. 31 humana. 231 pruebas de hipótesis. 46 Región(es) de aceptación. 227 modelo de. 59 materna. 163 desventajas de. 221 múltiple. 31 Prueba(s) alternativa de significancia parcial. 187 supuestos de. 17 uso de. 221 variables de apareamiento de. 252 indicadores básicos de. 34 datos ficticios para el cálculo de. 51 Tallas de un grupo de 100 niños. 76 Regresión confusión en. de mortalidad. 163 Procesadores de texto. 98 exacta de Fisher. 105 para una y dos variables cuantitativas. 163 ventajas. 59 se calcula mediante. 43 © Editorial El manual moderno Fotocopiar sin autorización es un delito. 221 de Wilcoxon. 43 unicidad de. 92 salud-enfermedad. 329 acomodo de datos para. 197 lineal. 33. 77 multiplicativa de probabilidades. 32 subjetiva. 60 infantil. 59 de natalidad. 101 poder de una. 34 cálculo de. 166. 331 R RA (riesgo atribuible). 97 múltiple parcial. 186 significancia estadística de. 231 de Kaplan-Meier para. 59 general de fecundidad. 231 curva de Kaplan-Meier para. 59 Temperatura en grados Celsius. 197 de Cox. 31 Sarampión. 132 potencia de una. 9 ordinales. 19 para presentaciones. 235 diagnóstico de la ecuación de. 181 sanos. 4 Sistema de cómputo. 41 Recorrido intercuartilar. 185 confusión. 8 dicotómicas. 59 de fecundidad específica por edad. 43 propiedades de. 227 variables independientes. 15 Epi Info. 108 de Hosmer. 113 de números aleatorios. 59 de letalidad. 204 recortado. específica por edad. 60 de mortalidad. 226 de Kruskal-Wallis. 141 para diferencia de proporciones en comparaciones pareadas. 39 Tamaño de muestra para estimar. 189 de hipótesis. 168 de Mann-Whithey-Wilcoxon. 74 Procedimiento(s) de computación. 325 valores críticos para. 226 de los signos. 59 servicios de. 15 introducción. 48 de chi-cuadrada. 43 Proporción(es). 36 r × c. 160 la media de la población. 95. 131 para variables dependientes. 24 Salud-enfermedad-salud en un sujeto. 31 Significancia. 41 un grupo de. 99 de rechazo. 175 logística. 331 valores críticos para. 130 la diferencia de medias. 153 Supervivencia análisis de. 260 activo. 59 cruda. 218 no condicional. 234 T Tabaco. 159 Tarjetas con perforaciones marginales. 8 múltiples. 129 cuantitativas. 178 para grupos de tamaño desigual. 36 diseño transversal analítico. 35 2 × 2. 329 de Lemeshow. de Kaplan para. 101 desventajas de procedimientos no paramétricos. 45 Razón. 35. 130 tamaño de la muestra para. 43 simplicidad de. 33 datos ficticios. 163 desventajas. 232 método. 48 Riesgo atribuible. 168 procedimiento. 18 OpenEpi. múltiple-parcial. nominales. 239 simple. 48 descriptivos. 18 estadísticos. 96 Síntomas prodrómicos. 29 en epidemiología. 163 ventajas de. 216 condicional. 186 tabla de anova en. 231 probabilidad de. 163 paramétricas. 41 características de. 129. 173 Residual análisis de. 221 para diferencia de medias en comparaciones pareadas. 227 análisis ajustado mediante. 38 Tabaquismo. 9 cortas. 223 modelo de. 13 SPSS (Statistical Package for Social Science). 48 de Wald. 170 estadístico de. 135 poder de una. 129 para estudios de correlación. 5 Kelvin. 204 Respuesta(s). 9 Resultado(s) binomial. 234 modelo de. 109. 204 estudentizado. 31 secuencia. 204 gráfico de. 35 S Salud estado adverso de. 129 única. 32 arreglo de datos para. 159 proporciones poblacionales. 167 valores críticos para. 166. 73 Suma total de cuadros. 113 de F. 167 procedimiento. 9 estandarizar formato de. 191 parcial. 260 pesos y tallas de. 48 Wilcoxon. 9 abiertas. 187 errores que pueden cometerse en. 11 de verificación de hipótesis. 135 desconocida. 129 tamaño de muestra para. 21 de interés. 71 de probalilidad de un evento. 45. 11 independiente. 159 dependientes dicotómica. 206 mediante la raíz cuadrada. 153 división de la suma total de cuadros. 4 Trabajos estadísticos. 71 V Valor(es) binomiales. 5 dependientes. 11 tipos de. 74 Universo. 47 de medias muestral. 79 continuas. 63 Transformación cuadrada. 85 Teoría de conjuntos. 207 logarítmica de Y. 77 del límite central. 15. 194 cuantitativas. 138 Verificación de H0: $ = 0. 84 interpretación de la razón de. 207 recíproca. 183 dependientes cualitativas. 205 percentilares. 71 de la probabilidad. 136 desconocida pero iguales. conocida. 205 identificación de. 4 Varianza. 207 Tuberculosis. 31 © Editorial El manual moderno Fotocopiar sin autorización es un delito. 63 objetivos. 4 ordinales. 5 grupo de edad. 153 presentación de datos. 119 en regresión. 214 confusión e interacción cuando. 178 Vías urinarias. 5 cualitativas. 183 nominal. 46 análisis de. ERRNVPHGLFRVRUJ . 79 de intervalo. 4. 77 de probabilidad total. 99 influyentes extremos. 31 U Unión de dos eventos. 129 dependientes cuantitativas. 63 elementos del. 54 Variable(s). 3 aleatoria. 155 poblacional. 46 fórmula para. 3 finito. 47. 3 de estudio. 153 cálculo de. 46 para estimar la. 207 del arco del seno. 214 discretas. 90 crítico. 5. 4 337 sexo. 63 Tos.Teorema Teorema de Bayes. 73 Tomografía axial computarizada (TAC).