Introducción GLM para data binaria GLM para conteos Modelos Aditivos GeneralizadosAnálisis de datos Categóricos Introducción a los Modelos Lineales Generalizados Ms Carlos López de Castilla Vásquez Universidad Nacional Agraria La Molina 2012-1 Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Introducción Modelo Lineal Generalizado GLM para variable respuesta continua Tipo de análisis según el GLM Devianza Introducción a los Modelos Lineales Generalizados En los capítulos 2 y 3 se discutieron métodos para analizar tablas de dos vías. Sin embargo, muchos estudios incluyen más de dos variables explicativas algunas continuas y otras categóricas. El objetivo es describir los efectos de las variables explicativas sobre la variable respuesta. Un buen modelo debe evaluar los efectos de las variables explicativas, incluir las interacciones relevantes y porporcionar estimaciones suavizadas para la variable respuesta. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Introducción Modelo Lineal Generalizado GLM para variable respuesta continua Tipo de análisis según el GLM Devianza Introducción a los Modelos Lineales Generalizados En este capítulo se introduce la familia de Modelos Lineales . Esta familia incluye los modelos más importantes para una variable respuesta categórica, así como los modelos estándar que consideran una variable respuesta continua. Nelder y Wedderburn (1972) introducen la familia de GLM's (Generalized Linear Models). Otra buena referencia es Annette J. Dobson (2002) An introduction to Generalized Linear Models. Generalizados Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Introducción Modelo Lineal Generalizado GLM para variable respuesta continua Tipo de análisis según el GLM Devianza Modelo Lineal Generalizado (GLM) Un Modelo Lineal Generalizado (GLM) se especica a partir de tres componentes. Un componente aleatorio que identica la variable respuesta Y y su distribución de probabilidad. Un componente sistemático que identica las variables explicativas usadas en una función predictor lineal. Una función de enlace que especica la función del E (Y ) que hace que el modelo sea igual al componente sistemático. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos θi ) = a (θi ) b (yi ) exp {yi Q (θi )} El valor del parámetro θi puede variar para i = 1. N dependiendo de los valores de las variables explicativas. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . yN ) a partir de una distribución que pertenece a una familia exponencial natural. · · · . Esta familia tiene distribución de probabilidad o densidad de la forma: f (yi .Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Introducción Modelo Lineal Generalizado GLM para variable respuesta continua Tipo de análisis según el GLM Devianza Componentes de un GLM El componente aleatorio consiste de una variable respuesta Y con observaciones independientes (y1 . · · · . El término Q (θ) es llamado el parámetro natural. entonces: p ηi = βj xij i = 1. ηN ) con las variables explicativas a través de un modelo lineal. Sea xij que denota el valor del predictor j para el sujeto i . N j =1 Esta combinación lineal de variables explicativas es llamada el predictor lineal. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . · · · .Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Introducción Modelo Lineal Generalizado GLM para variable respuesta continua Tipo de análisis según el GLM Devianza Componentes de un GLM El componente sistemático relaciona un vector (η1 . · · · . diferenciable y enlaza µi = E (Yi ) con las variables explicativas a través de: p g (µi ) = j =1 βj xij i = 1.Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Introducción Modelo Lineal Generalizado GLM para variable respuesta continua Tipo de análisis según el GLM Devianza Componentes de un GLM Cuando xij = 1 para todo i el coeciente βj es llamado intercepto y es denotado por α. N Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . · · · . La función de enlace g es monótona. El tercer componente es la función de enlace que conecta los componentes sistemático y aleatorio. Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Introducción Modelo Lineal Generalizado GLM para variable respuesta continua Tipo de análisis según el GLM Devianza Componentes de un GLM La función de enlace: g (µ) = µ. un GLM es un modelo lineal para el valor esperado de una variable respuesta que tiene una distribución que pertenece a una familia exponencial natural. La función de enlace que transforma la media hacia el parámetro natural es llamado enlace canónico. es decir: g (µi ) = Q (µi ) = j βj xij En resumen. es llamada enlace identidad. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . π ) = π y (1 − π )1−y = (1 − π ) exp y log π 1−π y pertenece a una familia exponencial natural. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . La función de probabilidad es: f (y . La distribución de Bernoulli es un caso especial de la distribución binomal con n = 1.Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Introducción Modelo Lineal Generalizado GLM para variable respuesta continua Tipo de análisis según el GLM Devianza Modelo logit binomial Muchas variables respuesta son binarias ya que representan éxitos o fracasos. Los GLM que usan el enlace logit son usualmente llamados modelos logit.Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Introducción Modelo Lineal Generalizado GLM para variable respuesta continua Tipo de análisis según el GLM Devianza Modelo logit binomial Identicando: a (π ) = 1 − π b (y ) = 1 Q (π ) = log π 1−π El parámetro natural es el logaritmo del odds para y = 1. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . lo cual es llamado logit de π y representa el enlace canónico. Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Introducción Modelo Lineal Generalizado GLM para variable respuesta continua Tipo de análisis según el GLM Devianza Modelo loglineal de Poisson La distribución de Poisson suele utilizarse para modelar conteos. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . Sea Y la variable aleatoria que representa los conteos tal que E (Y ) = µ . µ) = e −µ µy y ! = e −µ 1 y ! exp {y log µ} que pertenece a una familia exponencial natural. La función de probabilidad para Y ∼ P (µ) es: f ( y . · · · . Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . El modelo usando el enlace anterior es: p log µi = βj xij i = 1. N j =1 Este modelo es llamado modelo loglineal de Poisson .Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Introducción Modelo Lineal Generalizado GLM para variable respuesta continua Tipo de análisis según el GLM Devianza Modelo loglineal de Poisson Identicando: a (µ) = e −µ b 1 (y ) = y ! Q (µ) = log µ La función de enlace canónica es η = log µ. La distribución normal es una familia exponencial natural que incluye un parámetro de dispersión. El parámetro natural para la distribución normal es la media. El modelo de regresión ordinario para E (Y ) es un GLM cuya variable respuesta Y tiene distribución normal. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos .Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Introducción Modelo Lineal Generalizado GLM para variable respuesta continua Tipo de análisis según el GLM Devianza GLM para variable respuesta continua La clase de GLM tambien incluye modelos para una variable respuesta continua. Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Introducción Modelo Lineal Generalizado GLM para variable respuesta continua Tipo de análisis según el GLM Devianza Tipo de análisis según el GLM Tabla 1: Tipo de análisis según GLM Componente aleatorio Normal Normal Normal Binomial Poisson Multinomial Enlace Identidad Identidad Identidad logit log logit Componente sistemático Continuo Categórico Mixto Mixto Mixto Mixto Modelo Regresión ANVA ANCOVA Logístico Loglineal Respuesta multinomial Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . y) − L (y. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . Los grados de libertad corresponden a la diferencia entre el número de parámetros en el modelo saturado y en el modelo a comparar. y)] y corresponde a la estadística de razón de verosimilitud para comparar un modelo particular con el modelo saturado. La devianza tiene distribución asintótica chi-cuadrado con N − p grados de libertad.Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Introducción Modelo Lineal Generalizado GLM para variable respuesta continua Tipo de análisis según el GLM Devianza Devianza La devianza de un GLM de Poisson o Binomial se dene por: −2 [L (ˆ u. Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Introducción Modelo Lineal Generalizado GLM para variable respuesta continua Tipo de análisis según el GLM Devianza Ventajas de la formulación GLM Los GLM proporcionan una teoría unicada de modelamiento que incorpora los modelos más importantes para variables discretas y continuas. Existen muchos software que estiman los GLM: R. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . Minitab. SPLUS. etc. La razón de restringir los GLM hacia las distribuciones de familia exponencial es que pueda aplicarse el mismo algoritmo para toda la familia sea cual sea la función de enlace. xp ). Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . La media E (Y ) = Pr (Y = 1) se denota por π (x) donde x = (x1 . La varianza de Y es: Var (Y ) = π (x) (1 − π (x)) Por simplicidad se usa solo una variable explicativa.Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo lineal de probabilidad Modelo de regresión logístico GLM binomial para tablas 2×2 Función de enlace probit GLM para data binaria Sea Y una variable respuesta binaria cuyos posibles resultados son denotados por 0 y 1. · · · . Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos .1).Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo lineal de probabilidad Modelo de regresión logístico GLM binomial para tablas 2×2 Función de enlace probit Modelo lineal de probabilidad Para una variable respuesta binaria. El modelo anterior tiene el inconveniente de considerar la posibilidad que π ˆ (x ) se encuentre fuera del intervalo (0. Se trata de un GLM con componente aleatorio binomial y función de enlace identidad. el modelo de regresión: π (x ) = α + β x es llamado un modelo lineal de probabilidad. 099 0.055 0. Tabla 2: Relación entre los ronquidos y las enfermedades del corazón Ronquidos Nunca Ocasionalmente Casi siempre Siempre Enfermedad del corazón Si No 24 1355 35 603 21 192 30 224 Análisis de datos Categóricos Proporción Si 0.Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo lineal de probabilidad Modelo de regresión logístico GLM binomial para tablas 2×2 Función de enlace probit Ejemplo: Ronquidos y enfermedades del corazón La siguiente tabla muestra los resultados obtenidos en un estudio sobre el nivel de ronquido como factor de riesgo para las enfermedades del corazón.118 Ms Carlos López de Castilla Vásquez .017 0. No existe una elección obvia de los scores para las categorías de x . 2.0169 + 0.Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo lineal de probabilidad Modelo de regresión logístico GLM binomial para tablas 2×2 Función de enlace probit Ejemplo: Ronquidos y enfermedades del corazón El modelo considera que la probabilidad de tener enfermedades del corazón se encuentra relacionada lineamente con el nivel de ronquido x . 5).0200x Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . en este ejemplo se usa (0. Se consideran las las de la tabla como muestras binomiales independientes. Usando R se obtiene: π ˆ (x ) = 0. 4. 0011341 14.000646 *** Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos .4.638. 21/213. weights=c(1379.2.0168723 0. 30/254) > glm(prop~ronquido. Error t value Pr(>|t|) (Intercept) 0.0200380 0.0005094 39.254)) Coefficients: Estimate Std.88 0.5) > prop<-c(24/1379. 35/638.Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo lineal de probabilidad Modelo de regresión logístico GLM binomial para tablas 2×2 Función de enlace probit Ejemplo: Ronquidos y enfermedades del corazón > ronquido<-c(0.004488 ** ronquido 0.33 0.213. Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo lineal de probabilidad Modelo de regresión logístico GLM binomial para tablas 2×2 Función de enlace probit Modelo de regresión logístico monótona Por lo general la data binaria presenta una relacion no lineal entre π (x ) y x . Un cambio en x usualmente causa un menor impacto cuando π (x ) se encuentra cerca de 0 ó 1 que cuando se encuentra cerca de 0. Las curvas en forma de S son típicas. La más importante corresponde al modelo de regresión logístico: π (x ) = exp {α + β x } 1 + exp {α + β x } Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos .5. Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo lineal de probabilidad Modelo de regresión logístico GLM binomial para tablas 2×2 Función de enlace probit Modelo de regresión logístico Cuando x → ∞. el logaritmo del odds tiene relacion lineal: log π (x ) = α + βx 1 − π (x ) Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . π (x ) ↓ 0 cuando β < 0 y π (x ) ↑ 1 cuando β > 0. A partir del modelo anterior el odds es: π (x ) = exp {α + β x } 1 − π (x ) Luego. Los modelos de regresión logísticos son llamados modelos logit. El modelo de regresión logístico es un GLM con componente aleatorio binomial y función de enlace logit.Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo lineal de probabilidad Modelo de regresión logístico GLM binomial para tablas 2×2 Función de enlace probit Modelo de regresión logístico La transformacion usada es el logaritmo del odds llamada logit. El logit es el parámetro natural de las distribución binomial. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . Como π (x ) se encuentra en el intervalo (0. luego el enlace logit es su enlace canónico.1) entonces el logit puede ser cualquier número real. 8663 + 0. como α + β x . Luego.3973x ˆ reeja el incremento en la incidencia de El valor positivo de β enfermedades al corazón para niveles mayores de ronquido.Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo lineal de probabilidad Modelo de regresión logístico GLM binomial para tablas 2×2 Función de enlace probit Modelo de regresión logístico Los números reales son el rango para el predictor lineal. este modelo no tiene el problema estructural que se mencionó en el modelo lineal para π (x ). que forma el componente sistemático de un GLM. Para la tabla 1. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . R reporta los siguientes resultados: logit [ˆ π (x )] = −3. 94e-15 *** Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos .Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo lineal de probabilidad Modelo de regresión logístico GLM binomial para tablas 2×2 Función de enlace probit Modelo de regresión logístico > si<-c(24.05001 7.39734 0.21.945 1.no)~ronquido.16621 -23.family=binomial(link=logit)) Coefficients: Estimate Std.603.30) > no<-c(1355.224) > glm(cbind(si.261 < 2e-16 *** ronquido 0.35. Error z value Pr(>|z|) (Intercept) -3.86625 0.192. Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo lineal de probabilidad Modelo de regresión logístico GLM binomial para tablas 2×2 Función de enlace probit GLM binomial para tablas 2×2 Suponga que para alguna función de enlace: enlace [π (x )] = α + β x Se describe el efecto de X por: β = enlace [π (1)] − enlace [π (0)] Para el enlace identidad: β = π (1) − π (0) Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo lineal de probabilidad Modelo de regresión logístico GLM binomial para tablas 2×2 Función de enlace probit GLM binomial para tablas 2×2 Para el enlace log: β = log [π (1)] − log [π (0)] = log π (1) = log r π (0) Para el enlace logit: β = logit [π (1)] − logit [π (0)] = log π (1) 1−π (1) π (0) 1−π (0) = log Ω Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . Lo anterior sugiere un modelo para una variable respuesta binaria de la forma: π (x ) = F (x ) para alguna función de distribución acumulada F . Sea Φ la función de distribución acumulada estándar de una familia de distribuciones.Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo lineal de probabilidad Modelo de regresión logístico GLM binomial para tablas 2×2 Función de enlace probit Función de enlace probit Una curva de regresión monótona por lo general tiene la forma de una función de distribución acumulada de una variable aleatoria continua. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo lineal de probabilidad Modelo de regresión logístico GLM binomial para tablas 2×2 Función de enlace probit Función de enlace probit Se propone el modelo: π (x ) = Φ (α + β x ) Si Φ es estrictamente creciente entonces: Φ−1 (π (x )) = α + β x es decir. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . la función de enlace para el GLM es Φ−1 . Si Φ es la función de distribución acumulada de la distribución normal estándar el model anterior es llamado modelo probit. El logaritmo de la media es el parámetro natural de la distribución y corresponde al enlace canónico para su GLM. El modelo loglineal de Poisson con variable explicativa x es: log µ = α + β x La media satisface la siguiente relación exponencial: µ = exp {α + β x } = e α e β x Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos .Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo loglineal de Poisson Sobredispersión para un GLM de Poisson GLM con distribución binomial negativa GLM de Poisson para independencia Modelo loglineal de Poisson La distribución de Poisson tiene media µ > 0. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . la condición de la columna vertebral. Cada cangrejo hembra tiene un cangrejo macho residente en su nido. El estudio investigó los factores que hacen que un cangrejo hembra tenga otros machos no residentes llamados satélites.Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo loglineal de Poisson Sobredispersión para un GLM de Poisson GLM con distribución binomial negativa GLM de Poisson para independencia Ejemplo: Apareamiento del cangrejo Se presenta un GLM de Poisson para un estudio sobre el apareamiento del cangrejo de herradura. el peso y el ancho del caparazón del cangrejo hembra. Las posibles variables explicativas son el color. 5255 + 0.3048 + 0. Sea µ el número esperado de satélites de un cangrejo hembra y x el ancho de su caparazón. Usando R: µ ˆ = −11.1641x La gura 1 muestra que el E(Y ) tiene una relación aproximadamente lineal con el ancho del caparazón.5493x Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos .Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo loglineal de Poisson Sobredispersión para un GLM de Poisson GLM con distribución binomial negativa GLM de Poisson para independencia Ejemplo: Apareamiento del cangrejo La variable respuesta es el número de satélites de un cangrejo hembra. Usando R: log µ ˆ = −3. 30476 0. Error z value Pr(>|z|) (Intercept) -3.Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo loglineal de Poisson Sobredispersión para un GLM de Poisson GLM con distribución binomial negativa GLM de Poisson para independencia Ejemplo: Apareamiento del cangrejo > glm(Sat~Ancho.family=poisson(link=log).10e-09 *** Ancho 0.50 <2e-16 *** Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos .fit)) Coefficients: Estimate Std.216 < 2e-16 *** > glm(Sat~Ancho.54224 -6.data=Cangrejo) Coefficients: Estimate Std.family=poisson(link=identity).01 <2e-16 *** Ancho 0.54925 0.start=coef(log. data=Cangrejo. Error z value Pr(>|z|) (Intercept) -11.67767 -17.02968 18.16405 0.52547 0.095 1.01997 8. Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo loglineal de Poisson Sobredispersión para un GLM de Poisson GLM con distribución binomial negativa GLM de Poisson para independencia Ejemplo: Apareamiento del cangrejo Figura 1: Apareamiento del cangrejo de herradura Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . Una causa para la sobredispersión es la heterogeneidad en los sujetos. Se puede observar que las varianzas son mayores que las medias. Esta variabilidad que es mayor que la estimada por el componente aleatorio del GLM reeja sobredispesión.Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo loglineal de Poisson Sobredispersión para un GLM de Poisson GLM con distribución binomial negativa GLM de Poisson para independencia Sobredispersión para un GLM de Poisson La tabla 3 muestra la media y varianza muestral para el número de satétiles en cada categoría considerada para el ancho del caparazón. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . 24.25 .25 27.29.25 26.25 .25 > 29.54 11.29 Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos .38 6.26.00 1.25 .88 8.88 8.86 3.25 .69 2.39 2.28.25 23.87 3.Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo loglineal de Poisson Sobredispersión para un GLM de Poisson GLM con distribución binomial negativa GLM de Poisson para independencia Sobredispersión para un GLM de Poisson Tabla 3: Media y varianza muestral para el número de satétiles Ancho (cm) < 23.25 24.14 Varianza 2.77 8.88 6.25 Casos 14 14 28 39 22 24 18 14 Media 1.25 28.25 .43 2.25 25.94 5.81 16.27.25 .25. Para la distribución binomial y Poisson. la varianza es función de la media. Cuando el modelo para la media es correcto pero la distribución no es de Poisson. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . los estimadores de máxima verosimilitud son aún consistentes pero sus errores estándar son incorrectos. sin embargo.Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo loglineal de Poisson Sobredispersión para un GLM de Poisson GLM con distribución binomial negativa GLM de Poisson para independencia Sobredispersión para un GLM de Poisson La sobredispersión no representa un problema en una regresión ordinaria con distribución normal para Y debido a que la varianza es un parámetro separado. 2. k . Cuando k −1 → 0 entonces Var(Y ) → µ y la distribución binomial negativa converge a la distribución de Poisson. El término k −1 es llamado parámetro de dispersión. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos .Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo loglineal de Poisson Sobredispersión para un GLM de Poisson GLM con distribución binomial negativa GLM de Poisson para independencia GLM con distribución binomial negativa La distribución binomial negativa tiene función de probabilidad: f Γ (y + k ) ( y . 1. µ) = Γ (k ) Γ (y + 1) k k µ+k 1− k y µ+k para y = 0. · · · tal que E(Y ) = µ y Var(Y ) = µ + µ2 /k . estos modelos consideran que el parámetro k es el mismo para todas las observaciones.Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo loglineal de Poisson Sobredispersión para un GLM de Poisson GLM con distribución binomial negativa GLM de Poisson para independencia GLM con distribución binomial negativa Usualmente k −1 es desconocido y su estimación ayuda a estudiar el grado de sobredispersión. Por simplicidad. Para k jo la función de probabilidad anterior puede expresarse en la forma de una familia exponencial natural. Un modelo con componente aleatorio con distribución binomial negativa es un GLM. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . 8998.5540x ˆ −1 = 0. para esta distribución se tiene disponible una variedad de funciones de enlace.6329 + 0. Además k Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . El GLM estimado para la distribución binomial negativa usando el enlace identidad en R es: µ ˆ = −11.Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo loglineal de Poisson Sobredispersión para un GLM de Poisson GLM con distribución binomial negativa GLM de Poisson para independencia GLM con distribución binomial negativa Así como los GLM para data binaria. start=coef(log.data=Cangrejo.55395 0.63290 0.75 <2e-16 *** (Dispersion parameter for family taken to be 0.0.04713 11. link="identity").8997994) Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos .Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo loglineal de Poisson Sobredispersión para un GLM de Poisson GLM con distribución binomial negativa GLM de Poisson para independencia GLM con distribución binomial negativa > library(MASS) > glm(Sat~Ancho. Error t value Pr(>|t|) (Intercept) -11.75 <2e-16 *** Ancho 0.family=negative.fit)) Coefficients: Estimate Std.binomial(theta=1.98973 -11. la mediana del ingreso. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos .Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo loglineal de Poisson Sobredispersión para un GLM de Poisson GLM con distribución binomial negativa GLM de Poisson para independencia Regresión de Poisson para tasas Cuando los eventos de un determinado tipo se producen en una unidad de tiempo o espacio es preferible modelar la tasa en las que éstos ocurren en lugar que el número de ellos. el porcentaje de residentes que completan secundaria. etc. El modelo podría describir como la tasa de homicidios depende de variables como la tasa de desempleo. un estudio de los homicidios ocurridos en un año para una muestra de ciudades se podria modelar el número de homicidios por año divididos por el tamaño de la población. Por ejemplo. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . αi∗ = log αi y βj∗ = log βj .Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo loglineal de Poisson Sobredispersión para un GLM de Poisson GLM con distribución binomial negativa GLM de Poisson para independencia GLM para Poisson de independencia Suponga que una tabla tiene conteos independientes tales que Yij ∼ P (µij = µαi βj ) donde: i αi = j βj = 1 El modelo anterior puede transformarse en un predictor lineal usando el enlace log: log µij = λ + αi∗ + βj∗ donde λ = log µ. el tamaño de muestra total n = i j Yij ∼ P µ = i j µij .Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelo loglineal de Poisson Sobredispersión para un GLM de Poisson GLM con distribución binomial negativa GLM de Poisson para independencia GLM para Poisson de independencia Como los {Yij } son independientes. Condicionado sobre n el modelo anterior es multinomial y satisface πij = αi βj = πi + π+j que corresponde a la independencia en una tabla de dos vías. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos . Además condicionado a n. {Yi + } ∼ M {πi + = αi } y {Y+j } ∼ M {π+j = βj }. Condicionados sobre n los conteos en las celdas tienen distribución M {πij = µij /µ = αi βj }. Al igual que los GLM. este modelo especica una función para para el componente aleatorio y una función de enlace g .Introducción GLM para data binaria GLM para conteos Modelos Aditivos Generalizados Modelos Aditivos Generalizados Modelos Aditivos Generaizados (GAM) La estructura g ( µi ) = g j βj xij se generaliza hacia: (µi ) = j S j (xij ) donde Sj () es una función suave no especicada del predictor j . por ejemplo el spline cúbico. El modelo resultante es llamado Modelo Aditivo Generalizado (Hastie y Tibshirani 1990) Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos .