3.4.1 MEDIDAS DE CORRELACION Para medir el grado de asociación entre dos o más variables se utilizan los coeficientes de correlación. Existen varios tipos de correlación que pueden calcularse y dependen de la escala de medición en que se hallan medido cada una de las variables, enfatizando que la escala más fuerte es la de razón por lo que la estructura general se obtiene bajo este enfoque y el coeficiente de correlación de Pearson es la forma general de obtener un coeficiente de correlación lineal, los otros tipos son casos especiales, que se describirán en las secciones próximas. Sin embargo el coeficiente de correlación de Pearson, es el más importante y en la mayoría de los trabajos de investigación, debiera orientarse a obtener este tipo de información para cada uno de las variables, para luego pasar a las otras escalas más débiles si el estudio lo requiere. A seguir se presentan varios tipos de coeficientes de correlación, iniciando por aquellas que se aplican a las escalas de medición más fuerte y finalizando con aquellas que se aplican a la escala de medición más débiles. 3.4.1.1 CORRELACION DE PEARSON Este coeficiente de correlación es el más conocido y usado, se denota por “r” y se aplica cuando las variables en estudio han sido medidos en la escala de medición por intervalos o de razón, su expresión matemática de la relación entre las dos variables aleatorias, esencialmente se define como la covarianza estandarizada entre las variables X e Y, es decir : r= SXY / SX SY, pero la expresión más conocida es la razón entre la suma de producto de las variables entre la raíz cuadrada de la suma de cuadrados de ambas variables, es decir: n 1 ∑ ( X − X´ ) ( Y −Y´ ) n i=1 r= √ n n 1 2 1 2 ∑ n i=1 ( X − X´ ) ∑ ( Y −Y´ ) n i=1 El coeficiente de correlación “r” se utiliza para: (a) Comprobar que existe una relación lineal entre dos variables aleatorias, antes de proceder al análisis de regresión; (b) Resumir en un solo número ( r) la intensidad de la relación lineal entre estas dos variables. El coeficiente de correlación r no debe utilizarse para: (a) Establecer relaciones causales entre dos variables; (b) Suplantar el análisis de regresión; (c) Analizar la coherencia entre mediciones. Y dentro de los requisitos para su uso se tiene que cumplir con: Disponer de un mínimo de dos observaciones por individuo, medidas en una escala numérica ( Por intervalos o de razón, es decir las variables deben ser continuas); aunquetambién pueden estarlo en escala ordinal con 5 o más puntos para codificar las categorías ordinales, El conjunto de observaciones que constituyen la muestra, debe ser representativo de la población; pues la presencia degrupos heterogéneos en una muestra, por ejemplo el incluir individuos jóvenes y ancianos en la mismamuestra para estudiar la relación entre la edad y la presión sanguínea, puede resultar inapropiada; El conjunto de observaciones no debe contener datos extremos, ya que el coeficiente de correlación res muy sensible a su presencia; Las observaciones no deben contener errores de medición o éste ha de ser relativamente ínfimo ya quela baja fiabilidad de las observaciones atenúa el valor de r ; Las variables deben estar relacionadas linealmente, es decir el gráfico de dispersión sigue una línea recta diagonal, las relaciones curvilíneas pueden producir rno significativos; La forma de la distribución de las variables debe ser igual. Si no tienen la misma distribución, aunque elajuste sea perfecto, se observará un r <1, y cuanto menos se parezcan las distribuciones más seatenuará r. Este efecto es importante cuando se correlaciona una variable en escala de intervalo conotra ordinal o dicotomizada, Además, la distribución de los pares (X,Y) debe ser bivariada normal. Es importante desde el puntode vista inferencial, cuando se trata de valorar la intensidad y la significación estadística de lacorrelación. Cuando la distribución no sea normal, el intervalo de r puede que no sea [−1 , 1]. Sinembargo, el teorema central del límite demuestra que para muestras grandes los índices implicados enlas pruebas de significación se distribuyen normalmente incluso cuando las propias variables no lo sean.De cualquier forma, cuando se prefiera evitar este tipo de conflicto, puede recurrirse a utilizar un cálculono paramétrico como la ρ de Spearman o un estadístico no paramétrico como la “”de Kendall; La varianza de las variables debe ser homogénea (variables homoscedásticas) y no restringida. Si lavarianza es truncada o restringida en una o varias variables, por ejemplo por un muestreo deficiente, elcoeficiente de correlación puede verse afectado. También por truncación del intervalo de la variable pordicotomización de datos continuos o reducción de la escala. Para establecer la calificación dela magnitud del coeficiente de correlación se usa la partición del intervalo (0,1) en varias partes iguales y luego asignar sus calificaciones respectivas, para el lado negativo la calificación es simétrica. Por ejemplo si dividimos este intervalo en 05 partes, cada una con la misma longitud, se tiene las siguientes calificaciones: 0.21 a 0.81 a 1. H0 :1 = 2 versus H1 : 12.50 es moderadamente bajo. puede decirse que un coeficiente de 0. Z Cal = 1 ln ( ( 1+ r 1 )( 1−r 2 ) ( 1−r 1 ) ( 1+r 2 ) ) 2 1 1 + n 1−3 n 2−3 . entonces mediante la transformación de Fisher se encuentra la distribución muestral.40 Bajo 0. se implementara la siguiente prueba de hipótesis: H0 : = 0 versus H1 : 0. 1 z= ln 2 1+r 1−r ( ) 1 ≅ Normal ln 2 1+ ρ .80 Alto 0. el cual se implementa con el estadístico de prueba t-student.60 es calificado como moderadamente alto. 1−ρ n−3 1 { ( ) } Por lo que usando el estadístico de prueba de Z Cal .61 a 0. Donde el estadístico de prueba es dado por la ecuación: Z Cal = 1 ln ( (1+r ) ( 1−ρ0 ) (1−r ) ( 1+ ρ0 ) ) 2 1 n−3 Y para el caso de la hipótesis que comparara dos coeficientes de correlación. se usara el estadístico de prueba.00 Muy Alto Observe que en la calificación moderada. cuando el tamaño de la muestra esmayor a 25 (n25). l √ 1−r 2 0 n−2 Sin embargo. La significación del coeficiente de correlación de Pearson se realiza mediante la siguiente prueba de hipótesis: H0 : =0 versus H1 : 0.60 Moderado 0.41 a 0.51 a 0.20 Muy Bajo 0.00 a 0. el mismo que es dado por la expresión: r t Cal = ≅ H t −Student ( n−2 ) g . y de 0.41 a 0. 287 8 3 11. Y´ = ∑ Y i = =12.707 5 5 12.09 2. bipersonales y para estudios grupales fuera de las aulas de clase.4 2.59 0. En cuanto a la población de los posibles usuarios potenciales de dichos módulos. Por su naturaleza de las dos variables usadas.11 0.3 -1.377 3 6 12. desde el cual se ha decidido tomar una muestra como el 0.79 1.49 1.Ejemplo: La administración bibliotecaria universitaria ha formulado un proyecto de inversión en infraestructuras físicasde la educación superior.71 1.6 -2.9 1.3 -0. se implementara una prueba estadística sobre el coeficiente de correlación de Pearson para verificar la implicancia entre las variables consideradas. calificación promedio de las evaluaciones (Y).01 0.99 1.177 7 3 11.31 3.3 -0.077 6 4 11. con el objetivo de poder implementar el cálculo del coeficiente de correlación de Pearson mediante su fórmula conocida. a partir de estas dos columnas se obtienen las tres últimas columnas. y con el fin de evaluar la importancia de dichos modulo en el proceso de enseñanza y aprendizaje. Dichos promedios son reportados en la siguiente tabla.027 9 2 11 -2.207 4 5 13.5 -0.507 10 2 11.8 1.127 Total 43 120.2 0.7 0.1 -1. dichos módulos han sido implementados durante el último semestre. y el promedio de sus evaluaciones en el periodo lectivo correspondiente. se ha contabilizado en total a los N=4000.537 2 6 12. Estudiante Horas Rendimiento X i− X´ Y i−Y´ ( X i− X´ )( Y i −Y´ ) estudio X Promedio Y 1 7 13.7 0. el número promedio de horas diarias de estudio fuera del aula de clases en los módulos educativos.9 10 i=1 10 10 i=1 10 . y las horas de estudio en los módulos educativos fuera del aula de clase(X). a quienes se les registro para el último periodo lectivo. es decir se seleccionara aleatoriamente a n=10 estudiantes.1 0.3 -0.3 -1. en donde la columna X denota al número promedio de horas de estudio fuera del aula de clases. se ha reportado los resultados de un examen aplicado.03 10 10 1 43 1 120. la columna Y denota a los promedios de todas sus evaluaciones en el periodo lectivo en cuestión.9 0 1.7 1.7 0. el cual considera la construcción de módulos personales.25% del tamaño poblacional. La hipótesis formulada consiste en verificar la importancia o no importancia de los módulos educativos para estudios fuera del aula de clase en el rendimiento académico del estudiante.9 X´ = ∑ X i= =4.3 -0.3 .7E-15 13.81 1.7 1. para saber si esta influencia es significativa se realizara la prueba de hipótesis.31. ∑ ( X i− X´ )(Y i−Y´ ) =13.9104 2 10−2 Donde la hipótesis estadística es formulada como: H0: El funcionamiento de los módulos educativos no es importante en el rendimiento de los alumnos H1: El funcionamiento de los módulos educativos es importante en el rendimiento de los alumnos El valor del estadístico de prueba. una forma tradicional de aplicar una encuesta con ítems medidas a través de la escala de .1 . por lo que se rechaza que no exista influencia entre las variables.303 r= = = =0. concluyéndose que si existe relación entre las horas de estudio en los módulos educativos fuera de las aulas y el rendimiento promedio.4.1 ) 10 (7.student.2241 0. ∑ ( Y i−Y´ ) =7. mediante el estadístico t. que es igual a 2.1.9104 1. ubicándose en la zona de rechazo de la hipótesis nula. 3.9104 0.2 CORRELACION PARA VARIABLES ORDINALES Cuando las variables en estudio han sido medidas en la escala ordinal. 0.431156 √ 1 √ 1 10 10 1 2 1 2 ∑ ( X − X´ ) 10 ∑ ( Y −Y´ ) 10 ( 28.1462 √ 1−0.03) 1.03 i=1 I 01 i=1 Por tanto el coeficiente de correlación de Pearson es calculado como: 10 1 1 ∑ ( X − X´ ) ( Y −Y´ ) 10 i=1 10 (13.289 . 10 10 10 2 2 ∑ ( X i− X´ ) =28.9104 t Cal = = =6.289) 10 i=1 i=1 Existe una asociación alta entre las horas diarias de estudio fuera del aula en los módulos educativos y el rendimiento académico promedio. supera al valor tabular t-Student con 8 grados de libertad. el de Spearman y el Kendall. a seguir se obtienen las diferencias entre los rangos que asume las variables. para ello. es decir. o si debemos mantener lo afirmado en la hipótesis de investigación( Hipótesis alternativa). 07 puntos. . Para ilustrar el cálculo de este coeficiente de correlación entre los rangos de las variables en estudio. 3. y en la columna 5 se reporta las diferencias entre los rangos respectivos. dichos valores se expresan en el cuadro siguiente: Valores Rangos Valores Rangos Diferencia Xi R(Xi) Yi R(Yi) di = R(Xi). para estos casos se tienen dos coeficientes de correlación.5 1 9 6 8 5 1 Si hay empates se pone el rango promedio. se utiliza el siguiente ejemplo hipotético. por lo que se asigna los puestos intermedios. para luego calcular el estadístico de prueba para comprobar si podemos rechazar la hipótesis nula de que no existe correlación.5 0 1 2 1 0 8 5 10 6 -1 6 4 7 3. sobre estas diferencias se obtendrá el coeficiente de correlación de Spearman según la siguiente ecuación. las observaciones originales de las variables (X e Y) son reemplazadas por sus respectivos rangos. los puestos 3 y 4 están empatados. 06.Likert de 05.. dentro del conjunto de datos y partir de ellos encontrar observación por observación las diferencias entre los rangos respectivos del valor de la variable X y del valor de la variable Y.5.5 -0. en donde 2 y 4 constituyen los rangos de de cada variable. A) COEFICIENTE DE CORRELACION DE SPEARMAN(r S ) Este coeficiente de correlación tiene un enfoque no paramétrico y se obtiene mediante los rangos o puestos de cada variable.R(Yi) 3 2 4 2 0 5 3 7 3. por ejemplo en los rangos para Y. cuyas definiciones se dan a seguir. Por tanto la prueba de hipótesis: H0 :s =0 versus H1 : s0. puede ser contrastado mediante la distribución t-student con n-2 grados de libertad. el cual es dado por: rS Z Cal = √ 1 n−1 De manera que. la literatura estadística. un intervalo de confianza al nivel de significación del 5%. y toma valores entre -1<rS<1. n 2 6 ∑ di i=1 r S =1− 2 n( n −1) Donde: rS:es el coeficiente de correlación por rangos de Spearman. es implementada por el estadístico de prueba: rs t Cal = √ 1−r 2s n−2 También usando la distribución muestral asintótica. El coeficiente de correlación de Spearman. Un valor cercano a “0” indica que las variables apenas están relacionadas. di: es la diferencia entre el valor ordinal de la variable X. para el coeficiente de correlación verdadero es dado por: . → r S n → ∞ Normal ρS . { 1 n−1 } Por lo que la prueba de significación puede llevarse a cabo también por el estadístico “Z”. cuando n10. en el elemento i. y el de la variable Y. que la significación estadística del coeficiente de correlación de Spearman puede realizarse usando los resultados siguientes.ésimo n :es el tamaño de la muestra. sugiere. dichas corrección se obtienen a través de las siguientes ecuaciones. T Yi = 12 12 tXi : es el número de empates en el rango “i” de la variable X. se ha considerado las siguientes dimensiones e indicadores: El desempeño policial(X). tYi : es el número de empates en el rango “i” de la variable Y. es medida mediante sus 03 dimensiones: Reducción de los Delitos(Y1). y el accionar policial(Y3). Capacitación de las Juntas vecinales(X2). n X 2 +Y 2−∑ d 2i i=1 rS = 2(√X Y ) 2 2 Donde: k k n3 −3 n3−3 −∑ T Xi . 1 1 r S −1. cada una de las dimensiones han sido evaluadas mediante 05 indicadores en la Escala de Likert de 05 puntos.33 2. 2= en desacuerdo. Y = −∑ T Yi 2 2 X = 12 i=1 12 i=1 t 3Xi−t Xi t 3Yi −t Yi T Xi= . Ejemplo : Para medir las implicancias del desempeño policial en la seguridad ciudadana en la ciudad de Huacho. 4= de acuerdo.96 < ρS <r S +1. 5= totalmente de acuerdo.9 15 13 2. cuyas denominaciones fueron 1= En total desacuerdo. es medido por las dimensiones de patrullaje móvil(X1). mientras que la seguridad ciudadana(Y). 3= más o menos.00 . Las características y la interpretación del coeficiente de correlación de Spearman son similares a las del coeficiente de correlación de Pearson.00 4. y la capacidad de respuesta de auxilio(x3). los puntajes promedios de ambas variables son presentadas en el siguiente cuadro: R(Yi Xi Yi R(Xi) di d2 ) 1 2.96 √ n−1 √ n−1 Si hay un gran número de empates en las variables se recomienda realizar una corrección. Reducción de las faltas(Y2). 00 0 3 3 5.5 - 1 1.13 1.50 6.00 0.2 1. En tanto para el caso delas Y s hay también 03 empates.2 1. y en puesto “5” hay 02 empates luegotX5 =2 y el valor TX5 =(23 -2)/12=6/12.53 4 5. luego tX1 =5 y el valor TX1 =(53 -5)/12=120/12.5 0. 2 9.25 Total 20. en el puesto “5” existen 3 observaciones empatadas luego tY5 =3 por lo que TY5 = (33 -3)/12=24/12 .0 1.55 3 3 0.50 5 15 9. por lo que t Y4=4.27 1. luego tX4 =4 y el valor TX4 =(43 -4)/12=60/12.00 13 12.2 1. en el puesto “9” hay 2 observaciones empatadas luego t Y9 =2.00 7 3 9 . Para la columna de las X s hay 03 empates: en el puesto “1” hay 05 empates. por lo que TY9 = (23 -2)/12=6/12.6 8.5 .5 .0) 1422 r S =1− =1− =1−0.5 12 - 1.5 - 1 1.65 3. 25.5 9 12.0 1 1.65 3.00 0 5 9.50 2.57678 15(225−1) 3360 Sin embargo como existe de varios empates se realizara la corrección respectiva.25 12 1 1.5 72.53 2 2.53 4 5.0 1.25 11 3 5.5 14.2 3 1 2.50 0.9 30.6 1. en el puesto “4” hay 04 empates .75 1.5 5.0 1.00 0 8 7 2 25. en el puesto “4” hay 04 empates.5 14.25 4 9.5 9 12.6 2. 2 5 120 120 0. y el valor de TY4 = (43 -4)/12=60/12·.50 6.5 11 - 1.65 6.50 5 14 14 5.87 1.50 5 10 1.6 6 5.2 237. 25.50 6.6 1. 36. de este modo se tienen que hacer la siguiente corrección: k n3 −3 153 −3 120+ 60+6 3186 −∑ T Xi = 2 X = − = 12 i=1 12 12 12 .00 00 6 (237.00 4.4232=0.25 6 1 1.00 0 9 12.6 2.53 1. por ejemplo. X. si “X” recoge las puntuaciones asignadas a los casos según el primer criterio.5603 t Cal = = =2. se procede de la siguiente forma: Se ordenan los pares de puntuaciones de acuerdo con el orden natural de las puntuaciones asignadas según el primer criterio. 3 k 3 n −3 15 −3 60+24 +6 3282 −∑ T Yi = 2 Y = − = 12 i=1 12 12 12 n X 2 +Y 2−∑ d 2i 3186 3282 + −237. con cada uno de los que le siguen. B) COEFICIENTE DE CORRELACION DE KENDALL Otro de los coeficientes de correlación que es aplicable cuando ambas variables son ordinales. es decir se puede mejorar la seguridad ciudadana. de esta manera se concluye que existe un impacto significativo entre el desempeño policial y la seguridad ciudadana.0 rS = = = =0. una discordancia (-1) cuando el orden está invertido y un empate (0) cuando coinciden ambas puntuaciones.43899 √ √ 2 2 1−r s 1−0. el cual se basa en el cálculo de las concordancias y las discordancias entre los rangos de lavariable dependiente. e “Y” según el segundo criterio. .5603 n−2 15−2 Mientras que el valor tabular de la distribución de t con 13 grados de libertad es de 2.6406 2 ( √X Y 2) √ 2 3186 3282 2 12 12 El cual resulta ligeramente menor.para la obtención de concordancias y discordancias que aparecen entre los dos criterios. Se compara cada valor deY. es decir para el cálculo se considera lo siguiente: El número de concordancias y discordancias que aparecen al comparar las puntuaciones asignadas a los mismos casos según dos criterios (o jueces) diferentes.5603 538.160. recae en el coeficiente de correlación de Kendall. y se registra una concordancia (+1) cuando los dos valores siguen el orden natural.0 i=1 12 12 302. mejorando el desempeño policial. cuyo valor es dado por: rs 0. El contraste es realizado mediante el estadístico t-student. ésimo rango de Y. por tanto para calcular el coeficiente de correlación de Kendall. y se ordena los pares según el primer criterio (rangos de X) en su forma natural. y de otro lado sea bh la cantidad de rangos Y(h) que cumplen la propiedad Y(h)< Y(i) . se Procede del siguiente modo: Para h>i sea a h la cantidad de rangos Y(h) que cumplen la propiedad Y(h)> Y(i) . Y(n)= ? Para cada rango de la variable X en su forma natural. El número total de comparaciones incluyendo empates es n(n-1)/2. el cual puede ser implementado mediante el estadístico de prueba(cuando n8 : rτ Z Cal = ≅ Nornal { 0. se tendrá que: X X(1) =1 X(2) =2 ……… X(i) =i ……. es decir el numero de concordancias en cuanto al ranking.. ah – bh es la diferencia entre concordancias y discordancias en los rangos cuando se compara el h. Luego el coeficiente de Kendall es definido por: P−Q r ❑= n(n−1) 2 P : número total de veces que se registra una concordancia.. si el orden es ascendente. Se calculan el valor de “P” que representa el número total de las concordancias.1 } √ 2(2 n+5) 9 n(n−1) . Por ejemplo. y el valor de “Q” el numero el total de las discordancias y “E” el número total de empates. Q: Numero de veces que se registra una discordancia La prueba de hipótesis correspondiente es: H 0 : =0 Versus H1 : 0. X(n) =n Y Y(1) = ? Y(2) = ? ……… Y(i) = ? ……. se le asocia el rango de la otra variable. es decir el numero de discrepancias entre el ranking de ambas variables. Por tanto cantidad efectiva de rangos escalculada por: n −1 n −1 S=∑ ah−∑ bh=P−Q h =1 h =1 Donde. Este estadístico Gamma excluye los casos que presentan la misma puntuación en las dos variables (empates). Este estadístico considera el menor número de casos no empatados que presentan X o Y. Este coeficiente incorpora los empates contemplando por separado los que aparecen en la primera variable EX y los que aparecen en la segunda variable E Y. y se destacan las siguientes formas: 1. 3. para implementar la prueba de hipótesis.. P−Q γ= P+Q 2. Coeficiente de Correlación Tau-b de Kendall.También puede usarse el estadístico de prueba de la t-student. para luego corregir el calculo del coeficiente de correlacion mediante la ecuacion: P−Q r τb = {√ 12 n ( n−1)−E }{12 n ( n−1)−E } X Y Donde los empates son definidos por: n n 1 1 EX= ∑ 2 i=1 t Xi ( t Xi −1 ) . y se define como. Coeficiente de Correlación Gamma “ ” . r❑ t Cal = √ 1−r 2❑ n−2 En la literatura se encuentran varias modificaciones del coeficiente de correlación de Kendall. Coeficiente de Correlación Tau-c de Kendall. y se define del siguiente modo: . y EY = ∑ t Yi ( t Yi−1 ) 2 i=1 Y los tXi. tYi son los números de empates en el rango “i” de cada variable respectivamente. es decir. se ha considerado una muestra aleatoria de n=8 madres a las cuales se les ofreció una capacitación educativa. entonces d=(P-Q)/(P+Q+E X ) Todas estas medidas toman valores entre -1 y +1. En el segundo supuesto. En el primer caso. el mismo que se determina en el siguiente cuadro. en donde la variable X ha sido ordenada de menor a mayor y sus rangos expresan su forma natural de obsevacion. EJEMPLO: Para investigar el impacto delacapacitación educativa de la madres en el desarrollo mental de sus hijos en una comunidad rural. se diferencia del estadístico Gamma en que incluye los empates de la variable que considera dependiente. cuyos resultados se presentan en la siguiente tabla. y sus características e interpretación son similares a las del coeficiente de correlación de Pearson. Si la variable dependiente es X. . P−Q r τC = 2 n (k −1) Siendo k el menor número de casos no empatados que presentanX ó Y. y alcanza los valores extremos cuando existe concordancia o discordancia perfecta. el cual fue medida por el grado de educación o escolaridad alcanzada por la madre. Coeficiente de correlación “d” de Somers: A diferencia de los anteriores este estadístico considera que las variables pueden ser simétricas o dependientes. el estadístico “d” de Somers coincide con la Tau-b de Kendall. 4. Para realizar el cálculo del coeficiente de correlación de Kendall se encontrara la cantidad de concordancia y discordancias. y el desarrollo mental de sus niños han sido medidos según la escala de Gesel. Valores próximos a 0 indican ausencia de asociación. Variables Originales Variables Ordenadas Rangos Ordenados Escolaridad de Desarrollo X Y Rango Rangos la madre(X) mental del de menor a mayor según s de de: Y(i) niño (Y) X :X(i) 1º Secundaria 90 Analfabeta 75 1 1 1º Primaria 87 1º Primaria 87 2 5 Profesional 89 3º primaria 84 3 3 6º Primaria 80 6º Primaria 80 4 2 3º Secundaria 85 1º Secundaria 90 5 7 3º Primaria 84 3º Secundaria 85 6 4 Analfabeta 75 Preparatoria 91 7 8 Preparatoria 91 Profesional 89 8 6 La hipótesis de investigación es formulada como: “Existe un impacto entre el grado de escolaridad de las madres y el desarrollo mental de los niños”. 4.3 CORRELACION PARA VARIABLES: UNA DICOTOMICA Y OTRA DE INTERVALO O DE RAZON A) CORRELACION BISERIAL Se utiliza para establecer el grado de correlación entre dos variables. h=1.2. r❑ 0. resulta ser menor. 3. luego no existen evidencias estadísticas para afirmar que el grado de escolaridad de las madres esté relacionado con el desarrollo mental de los niños . .4142 √ 1−r 2❑ n−2 √ 1−0. de :X(i) de: Y(i) S S ah .50 Luego el coeficiente de correlación de Kendall es. Rangos Ordenados Cantidad de Diferencias Y(h) -Y(i)>0 Y(h) -Y(i)<0 Rangos Rangos CONCORDANCIA DISCORDANCIA ah – bh .1. en este caso se trata de una modificación del coeficiente de correlación de Pearson entre una variable continua X . .5 t Cal = = =1.52 8−2 El cual al ser comparado con “t” tabular con 6 grados de libertad (2. por lo que las simplificaciones convergen en la definición del coeficiente para un caso especial. y otra Y que se ha sido dicotomizada.n-1 bh 1 1 7 0 7 2 5 3 3 0 3 3 4 1 3 4 2 4 0 4 5 7 1 2 -1 6 4 2 0 2 7 8 0 1 -1 8 6 . - Total 21 7 14 21−7 14 r ❑= = =0.…. de las cuales uno es dicotomizada. 8(8−1) 28 2 Cuya significación se implementa por el estadístico de prueba.45). Este coeficiente al igual que las anteriores se desprende de la estructura general del coeficiente de correlación de Pearson. B) COEFICIENTE DE CORRELACIÓN BISERIAL PUNTUAL Como una variante. la calificación de la respuesta a un . además. y se refiere a aquellas variables en su concepción original presenta únicamente dos modalidades. una igual a p y otra igual a q. aunque con idéntica interpretación y similar notación y expresión. tales como el sexo (varón-mujer). que se utiliza para medir la correlación entre una variable continua y otra dicotómica por naturaleza. cuando la correlación es alta y el requisito de normalidad de Y no se cumple de forma estricta. esdefinido por: X´ p − X´ q ´ − X´ r bp = SX X √ pq= p SX √ p q Es conviene precisar lo que entendemos por variable dicotómica por naturaleza. el coeficiente de correlación biserial puede valer más de 1 o menos de -1. se debe tener presente el coeficiente de correlación biserial-puntual. Se interpreta de forma análoga al coeficiente de correlación de Pearson en lo referente a la intensidad de la relación. no a su sentido.Para la correlación biserial“r b ” se tiene que su definición tiene la siguiente expresión: X´ p− X´ q pq X ´ − X´ p r b= SX ( ) y = p SX y () donde: X es la variable continua Y es la variable dicotomizada X´ p es la media de X cuando Y vale 0 X´ q es la media de X cuando Y vale 1 X´ es la media de la distribución marginal de X S X es la desviación típica de la marginal de X p es la proporción de elementos con asignación 0 en la variable Y q es la proporción de elementos con asignación 1 en la variable Y se define como q=1-p y es el valor de la ordenada correspondiente a un valor de x que divide el área de la distribución normal tipificada en dos partes. Nota Condición Nota Condición media PIP (Y) media PIP (Y) 18 0 10 0 12 0 15 1 14 1 16 1 16 1 13 0 14 0 12 0 9 0 19 1 20 1 20 1 16 1 15 0 17 1 16 0 14 0 14 0 . los resultados se muestran ene siguiente cuadro en donde (X) representa a los promedios de la prueba de evaluación. suelen atribuirse a estas modalidades los valores 0 y 1. es decir. Cuanto mayor sea la distancia entre la media de los sujetos que presentan la primera modalidad y la media del total de sujetos. Un coeficiente negativo deberá ser interpretado en sentido contrario. etc. y a puntuaciones bajas aquélla cuya proporción es p. Propiedades a) Se demuestra que el coeficiente r bp es resultado de aplicar el coeficiente de correlación de Pearson al caso en que una de las variables tiene carácter dicotómico b) El valor de rbp no puede ser mayor que 1 ni menor que -1 es decir. aunque no habría inconveniente en asignar 1 y 2. ó cualquier otro par de valores. mientras que a puntuaciones bajas de X corresponde pertenecer a la categoría cuya proporción es q. En general. y los restantes 12 colegios no tuvieron beneficios de contar con PIP. Ejemplo:Para evaluar las implicancias de los Proyectos de Inversión Pública en los colegios del Distrito de Ventanilla se han seleccionado a 21 colegios de los cuales en 09 de ellos se beneficiaron con los PIP. a puntuaciones altas de X correspondería la categoría cuya proporción es q.ítem (acierto-error). y no contar con un PIP codificado con “0”. más próximo a 1 ó -1 será el coeficiente de correlación que obtengamos c) Un coeficiente de correlación positivo indicará que a puntuaciones altas de X corresponde pertenecer a la categoría cuya proporción es p. terminado la ejecución de los proyectos de inversión pública se aplico una prueba sobre la formación en comunicación integral y lógico matemática. y la variable Y representando a la condición de contar con un PIP codificado con “1”. se cumple -1 <rbp < 1. 5714 A continuación calculamos los valores de la media de la variable X.4286.8571 21 i=1 √ 21 S X= 1 21−1 (∑ ( i=1 2 ) ´ ) =2. calcularemos el valor de las proporciones de colegios que recibieron PIP (p). se usara el coeficiente de correlación.5714√=0.0 9 i =1 A partir de estos valores estamos en disposición de calcular el coeficiente de correlación biserial puntual.6211 Por tanto. la media de la variable X para los 9 colegios que recibieron PIP y la desviación típica de X.857 0. le corresponde mayores valores de Y. 12 0 Para determinar la implicancia de los PIP en infraestructura y el rendimiento académico de los alumnos.988 X i− X 9 1 X´ P= ∑ X Pi=17. y de colegios que no recibieron PIP (q).4286 q = 2. la significación es realizada por el estadístico de prueba t-student. y al tratarse de un coeficiente de signo positivo. p = 9/21 = 0. 21 1 X´ = ∑ X i=14.00−14. y trandose de una variable continua(X) y una variable dicótoma (Y). resulta. el valor del coeficiente de correlación entre ambas variables es 0. se aplicara el coeficiente de correlación biserial puntual.. Realizando los cálculos oportunos. para el cual seguiremos el siguiente procedimiento: en primer lugar. q =12/21 = 0.988 0. que dejamos al lector. Aplicando una de las expresiones de cálculo de rbp obtendremos X´ p − X´ r bp = SX √ p 17.6211. se interpreta que a mayores puntuaciones de la variable X. es decir para los colegios que revieron PIP los rendimientos académicos son mayores. . j …. Bk Total A1 n11 n12 …..k n.. es decir que los PIP en infraestructura tiene una implicancia significativa sobre los rendimientos académicos de los alumnos en los colegios del distrito de ventanilla.4. y para descubrir la relación de dependencia entre dos factores. r❑ 0.6211 t Cal = = =3. n2j …. n1j …. esta pueden ser representadas en una tabla de contingencia.. Observe que las notaciones puntuales son escritas como: . por ejemplo si dos variables con “h” y “k” categorías. n2k n2.2 …. nik ni. nhj …. están pueden ser presentadas como la siguiente tabla de contingencia: Variable Y B1 B2 …… Bj …. Total n. n.1.1 n. cuya determinación responde al análisis del valor que toman cada una de sus celdas. nhk nh.4544 √ √ 2 1−r ❑ 1−0..... Ah nh1 nh2 ….4 CORRELACION PARA VARIABLES NOMINALES Cuando las variables son presentadas en categorías. Ai ni1 ni2 …. …. A2 n21 n22 …. Variable X …. n.6211 2 n−2 21−2 El mismo que verifica la hipótesis de investigación. n1k n1.. nij …. se pueden usar el coeficiente 2 denominado Chi-cuadrado. 3. CUADRADO Este coeficiente se utiliza para medir el grado de asociación entre dos variables cualitativas con “h” y “k” categorías respectivamente. V de Cramer.j )/n. y su valor es calculado por la expresión: h k 2 ( Oij −eij ) ❑ =∑ ∑ 2 i=1 j=1 eij Donde: Oij : son las frecuencias observadas en cada celda. A) COEFICIENTE 2 CHI . es de difícil interpretación por sí sola. i = (e i. de contingencia. Su valor depende del número de observaciones y de las categorías en que éstas se dividen. Son varios los coeficientes de correlaciones usados para estos fines... eij : Son las frecuencias teóricas o esperadas y se calculan por. para contestar las interrogantes:¿Cuál es la intensidad de la asociación entre esas variables? ¿Cuál es la dirección en que se produce la asociación?. n. =∑ nij . j=∑ nij . pero al tratarse de una medida no acotada. Entre ellos se pueden citar los coeficientes: Phi. si bien.5 ) ❑ =∑ ∑ i=1 j=1 e ij El coeficiente siempre toma valores no negativos. k h h k ni .e. …etc. por tanto el coeficiente 2 y sus derivados no son comparables con cualquier otro coeficiente obtenido con distinto número de categorías. cuanto más relacionadas estén las variables sometidas a estudio más se alejará el coeficiente del valor “0”. Y se utilizan una vez que la hipótesis nula es rechazada. n. Cuando la tabla de contingencia es 2 X2 se aplica la corrección de Yates resultado en un estadístico modificado el cual es dado por: 2 2 2 2 (|Oij −e ij|−0. =∑ ∑ nij j=1 i=1 i=1 j=1 Usando las frecuencias observadas y esperadas de cada celda de la tabla de contingencia se calcula el estadístico chi cuadrado para determinar si existe o no existe dependencia entre las variables. El estadístico de prueba está basado en la comparación de las frecuencias observadas con lasesperadas bajo la hipótesis nula de que existe independencia. . teniendo la desventaja de no alcanzar el valor de 1. es estrictamente menor que 1. que a diferencia del estadístico chi cuadrado no depende del tamaño de la muestra. D) COEFICIENTE “V” DE CRAMER Un coeficiente que supera la desventaja del coeficiente anterior. Esto origina otra desventaja. a menos que ellos sean calculados de tablas de contingencias del mismo tamaño. y se define por la expresión: C= √ ❑2 n+❑ 2 Para cualquier valor de “n” el valor del coeficiente de contingencia mide la magnitud de la asociación sin indicar la dirección. es el coeficiente V de Cramer que es obtenido por la expresión: . pues su obtención es realizada dividiéndolo precisamente entre el tamaño de la muestra. en cambio para una tabla 3X3 es 0. C Max = √ u−1 u . cuando ellas están representados en sus categorías respectivas. es decir. √ 2 φ= ❑ n C) COEFICIENTE DE CONTINGENCIA “C” Este coeficiente es usado para medir el grado de asociación entre las variables X e Y. el máximo valor de C es 0.7071. B) COEFICIENTE (Phi) Una importante medida para determinar la dependencia entre dos variables está basado en el estadístico 2 chi cuadrado. Por lo que se define el valor máximo de “C” por. En el caso de una tabla 2X2. dos coeficientes de contingencias no son comparables. y se denomina coeficiente (Phi). donde u=Min(h . k ) El valor máximo que puede alcanzar el coeficiente de contingencia depende del número de categorías de las variables estudiadas.8165. 1 n . n2.2 Las frecuencias observadas y las marginales se describen en la tabla de contingencia anterior. toma valor “0” cuando todas las frecuencias observadas son iguales a todas las frecuencias esperadas. En cuanto a su interpretación. Donde m=Min(h . por lo que coeficiente de chi cuadrado es igual a “0”. n. y toma valor “1” cuando las dos variables tienen iguales marginales. por lo que es similar al coeficiente de Pearson. la intensidad de la asociación . El coeficiente verifica que: 0 ≤ V≤ 1. el coeficiente toma valores en el intervalo -1≤ ≤ 1.2 n. E) COEFICIENTE “” PARA TABLAS 2x2 Se trata de un coeficiente especialmente indicado para medir la asociación entre dos variables dicotómicas. Total n.1 n.. V= √ ❑2 . indicando que son dependientes. indicando que las variables son independientes. cuya representación se da en la siguiente tabla de contingencia: Variable Y B1 B2 Total Y=0 Y=1 Variable X A1 (X=0) n11 n12 n1. Luego el coeficiente Phi es definido por: n 11 n22−n21 n12 φ= √ n1. y se interpreta igual que el coeficiente de contingencia. k ) n(m−1) Este coeficiente alcanza valores entre “0” y “1”. A2 (X=1) n21 n22 n2. teniendo en cuenta que sólo proporciona información sobre la relación entre las variables y no sobre el sentido de la misma. entre las dos variables. salvo que alguna de las frecuencias nij sea nula. en cuyo caso el coeficiente vale 1 ó -1. .