Estadistica con Mitab.pdf

May 13, 2018 | Author: Jesus Escobar | Category: Sampling (Statistics), Statistics, Scientific Method, Science, Mathematics


Comments



Description

CAPÍTULO 1INTRODUCCIÓN En este capítulo, primero se introducirán algunos conceptos estadísticos básicos, luego se dará una definición y división de la estadística. Finalmente se hará una clasificación de los distintos tipos de datos que aparecen en un estudio estadístico y de que forma pueden ser recolectados. 1.1 Conceptos Estadísticos Básicos a) Po!aci"n# De una manera bastante general, una población es un conjunto de individuos u objetos que poseen la característica que se desea estudiar. En un sentido más estadístico, una población es el conjunto de mediciones de una cierta característica en todos los individuos u objetos que poseen dicha característica. Ejemplos !as edades de todos los estudiantes de una universidad. !as contestaciones, "# o $o, de todos los estudiantes de universidad a la pregunta Fuma% !os niveles de colesterol de todas las personas con problemas cardiacos. ) $%est&a# Es una parte de la población, y es el conjunto de mediciones que han sido realmente recolectados. !a e&tracción de la muestra es un paso bien importante porque es a partir de ella que se sacan conclusiones acerca de la población. El tama'o de una muestra depende del esquema que se usa para su selección. "i el dise'o es sencillo la muestra tiene que ser relativamente grande, alrededor de un ()* del tama'o de la población. "i el dise'o es bien sofisticado el tama'o de la muestra puede ser bien peque'o y a+n dar conclusiones confiables. ,or ejemplo, en las encuestas políticas de un pais donde hay millones de electores una muestra de tama'o entre (,))) y -,))) puede dar e&celentes conclusiones. c) $%est&a A!eato&ia# Es una muestra bien representativa de la población. "e considera que cada elemento de la población ha tenido la misma oportunidad de formar parte de la muestra. !as conclusiones basadas en una muestra aleatoria son confiables. Ejemplo "i se hace una encuesta de carácter político a nivel nacional, $. sería una muestra aleatoria si solo se entrevistan personas en los pueblos donde histórícamente cierto partido es siempre ganador. d) 'a&ia!e# Es la característica que se desea estudiar. Ejemplos edad, peso, opinión, ra/a, tipo de sangre. e) Dato# Es un valor particular de la variable. ,or ejemplo si la variable es el n+mero de hermanos entonces los datos pueden ser ), (, -,0,1,2,3,4,..... () Pa&á)et&o# Es un valor que caracteri/a a una población. El valor del parámetro es constante y por lo general es desconocido. Ejemplos !a edad promedio de todos los estudiantes de una universidad. El nivel de colesterol promedio de todos los pacientes con problemas cardiacos. Edgar 5cu'a 6apítulo ( #ntroducción El porcentaje de todos los electores de un país que favorecen a cierto candidato. *) Estadístico# Es un valor que se calcula en base a los datos que se toman en la muestra y el cual es usado para estimar el valor del parámetro. El valor del estadístico es conocido y varía con la muestra tomada. Ejemplos !a edad promedio de una muestra de 0) estudiantes de una universidad. El nivel de colesterol promedio de los pacientes con problemas cardiacos que estan hospitali/ados. El porcentaje de votantes que favorecen a cierto candidato en una muestra de tama'o -)). +) Censo# Es un listado de una o más características de todos los elementos de una población. !os censos poblacionales se hacen cada () a'os a nivel mundial, el pró&imo será en el a'o -)(). 7ay tambi8n otros tipos de censos como censos de vivienda donde se trata de determinar la cantidad y el tipo de vivienda que hay en un país. 6ensos agrícolas donde se trata de determinar las cantidades totales de la producción agrícola del país, incluyendo cultivos y animales. i) Enc%esta# Es un listado de una o más características de todos los elementos de una muestra. 9n ejemplo son las encuestas de investigación de mercados donde se desea establecer las preferencias del consumidor con respecto a cierto tipo de producto comercial. 1., De(inici"n de !a Estadística. !a Estadística es la ciencia donde se aprende acerca de la población a partir de la información recolectada de una muestra e&traída de ella. !a Estadística comprende los m8todos usados para recolectar la muestra, la organi/ación y presentación de los datos recolectados y la e&tracción de conclusiones mediante la aplicación de t8cnicas adecuadas a los datos de la muestra. !as diversas t8cnicas usadas para e&traer la muestra constituyen el :uestreo Estadístico. ,or otro lado, al e&traer conclusiones acerca de la población es inevitable que se cometa un error, el cual es medido usando probabilidades. !a figura (.( muestra un esquema del análisis estadístico. 1.- Di.isi"n de !a Estadística Estadistica Desc&ipti.a# 6onjunto de t8cnicas y m8todos que son usados para recolectar, organi/ar, y presentar en forma de tablas y gráficas información num8rica. ;ambi8n se incluyen aquí el cálculo de medidas estadísticas de centralidad y de variabilidad. - ,oblación ,arámetro :uestreo Estadístico Edgar 5cu'a 6apítulo ( #ntroducción Fig (.(. <ráfica del 5nálisis Estadístico Estadistica In(e&encia!# 6onjunto de t8cnicas y m8todos que son usados para sacar conclusiones generales acerca de una población usando datos de una muestra tomada de ella. 1./ Tipos de Datos Es importante clasificar los datos estadísticos porque hay algunas gráficas y m8todos estadísticos que son solamente adecuados para cierto tipo de datos. !a siguiente es la clasificación de datos más frecuentemente usada. A. Datos C%antitati.os. "on aquellos que resultan de hacer mediciones o conteos. "e clasifican a su ve/ en dos subtipos A1. Datos Disc&etos. "on los que resultan de hacer conteos y por lo general son n+meros enteros. Ejemplos $+mero de llamadas que llegan a un cuadro telefónico en un período de () minutos. $+mero de personas que habitan una casa. $+mero de accidentes que ocurren semanalmente en una fábrica. A,. Datos Contin%os. "on los que resultan de hacer mediciones y pueden asumir cualquier valor de la recta real. Ejemplos tiempo de espera para ser atendido en un banco. ;emperatura, peso, altura, salario, etc. B. Datos C%a!itati.os o Cate*"&icos. "on aquellos que e&presan atributos o categorías. ,ara facilitar el análisis estadístico de este tipo de datos frecuentemente se codifican a n+meros, esta codificación da lugar a dos subtipos de datos categóricos B1. Datos No)ina!es. "on aquellos que pueden ser codificados num8ricamente pero donde hay una relación arbitraria entre los n+meros asignados y el valor de la variable. Ejemplo "e&o, se puede asignar indistintamente la codificación ) ó ( a femenino y masculino. . inclusive usar otros n+meros. .tros ejemplos son =a/a de la persona, ,rograma de estudio, ;ipo de "angre. B,. Datos O&dina!es. "on aquellos que al ser codificados num8ricamente deben guardar una correspondencia entre los n+meros asignados y el verdadero valor de la variable. 0 :uestra Estadístico Estadística #nferencial Estadística Descriptiva ,robabilidad Edgar 5cu'a 6apítulo ( #ntroducción Ejemplo. !a respuesta a una pregunta de un cuestionario de evaluación puede ser Deficiente, regular, promedio, bueno y e&celente. 5l momento de codificar estos datos debería usarse ), (, -, 0, 1, o una secuencia ordenada de n+meros similar a ella, pero no se puede asignar algo como 0, 2, 1, (, - porque se perdería el significado de los verdaderos datos. .tros ejemplos son 6ategoría de ,rofesor #nstructor, 6atedrático 5u&iliar, 6atedrático 5sociado, 6atedrático ,rincipal. $ivel de empleo Desempleado, subempleado, empleado. 1.0 T1cnicas de $%est&eo !as siguientes son las maneras más usadas de e&traer muestras de una población. a> $%est&eo A!eato&io. "e usa cuando a cada elemento de la población se le quiere dar la misma oportunidad de ser elegido en la muestra. b> $%est&eo Est&ati(icado. "e usa cuando se concoce de antemano que la población está dividida en estratos, que son equivalentes a categorías y los cuales por lo general no son de igual tama'o. !uego, de cada estrato se saca una muestra aleatoria, usualmente proporcional al tama'o del estrato. !a muestra combinada formará la muestra estratificada. c> $%est&eo po& con*!o)e&ados 23C!%ste&s4). En este caso la población se divide en grupos llamados conglomerados. !uego se elige al a/ar un cierto n+mero de ellos y todos los elementos de los conglomerados elegidos forman la muestra. 9n ejemplo típico es cuando se hacen encuestas en una ciudad y cada uno de los bloques de la misma, forma un estrato. d> $%est&eo 5iste)ático. "e usa cuando los datos de la población están ordenados en forma num8rica. !a primera observación es elegida al a/ar de entre los primeros elementos de la población y las siguientes observaciones son elegidas guardando la misma distancia entre si. ,or ejemplo, supongamos que la población es de tama'o ())) y deseamos sacar una muestra de tama'o -), en este caso se divide a la población en ()))?-) @ 2) partes. !uego de entre las observaciones ( al 2) se elige una de ellas al a/ar, supongamos que salió la observación 04, ese sería el primer elemento de la muestra, los siguientes serían elegidos de 2) en 2). !a muestra consistiría de las observaciones 04, A4, (04, (A4, -04, -A4, 004, 0A4, 104, 1A4, 204, 2A4, 304, 3A4, 404, 4A4, A04, AA4, B04 y BA4. 1.6 $ane&as de Reco!ecta& Datos a> 7aciendo entrevistas personales. b> 7aciendo entrevistas por tel8fono. c> :ediante cuestionarios. d> ,or observación directa. e> 5 trav8s de la #nternet. 1 CAPÍTULO 2 UNA INTRODUCCIÓN A MINITAB 2.1Entrando a MINITAB Hay dos maneras de entrar a MINITAB 1) Eligiendo la secuencia Start Program Minitab 1 !or "indo#$ y, 2) Oprimiendo el ícono de MINITAB ue aparece en la pantalla inicial !"#es$top")% 2.2 La$ %&ntana$ d& MINITAB &o ue atrae a muc'as personas a usar un programa en (IN#O() es ue casi todo se *asa en elegir opciones de un men+ oprimiendo !,-lic$ing.) el ,mouse.% Anteriormente, 'a*ía ue escri*ir las instrucciones !comandos) ue ueriamos ue 'iciera la computadora, lo cual 'acía ue se tomara m/s tiempo en programaci0n y adem/s propicia*a la posi*ilidad de cometer errores de sint/1is% Esta alternati2a a+n est/ disponi*le en la 2ersi0n actual de MINITAB. El uso del "mouse" 'ace ue se a'orre tiempo en programaci0n y ue las posi*ilidades de cometer errores se aminoren, pero tiene la des2enta3a de ue el usuario tiene cada 2e4 menos idea de lo ue la computadora 'ace para lle2ar a ca*o cierto an/lisis estadístico% En la 5igura 2%1 se muestran las 2entanas e íconos ue aparecen cuando se selecciona el ícono de MINITAB . En la parte superior de la pantalla aparece 'a barra d& m&n($, ue contiene las opciones de )i'&, Edit, Data, Ca'*, Stat, +ra,-, Editor, Too'$, "indo# y .&',% Inmediatamente de*a3o aparecen una barra d& /*ono$ ue se usan para e3ecutar r/pidamente ciertas operaciones, tales como a*rir un arc'i2o, guardar el tra*a3o e6ectuado en un arc'i2o, imprimir, llamar 2entanas de MINITAB, pedir ayuda etc% 5inalmente aparecen las dos 2entanas principales de MINITAB, ue son S&$$ion y Data. -ada 2entana tiene una *arra en la parte superior donde aparece el título al lado i4uierdo precedido del ícono ue la representa y tres íconos ue aparecen al lado derec'o% En la 5igura 2%2 se muestra esta *arra para la 2entana $&$$ion. Edgar Acu7a -apítulo 2 8na Introducci0n a Minita* 5igura 2%1% &as 2entanas ue aparecen al entrar a MINITAB% 5igura 2%2% &a Barra de título de la 2entana session% El ícono 9 se usa para minimi4ar la 2entana, esto signi6ica ue el contenido de la 2entana desaparece y para recuperarlo otra 2e4 'ay ue oprimir el ícono ue representa a la 2entana $&$$ion en la *arra de íconos% El segundo ícono, se usa para ma1imi4ar la 2entana, esto 'ace ue la 2entana apare4ca ocupando toda la pantalla% :ara 'acer ue la 2entana 2uel2a a su tama7o original se oprime nue2amente el mismo ícono% El ícono ; se usa para cerrar la 2entana, en este caso ya no se puede recuperar nue2amente el contenido de la 2entana% &a 2entana Data es similar a una 'o3a de c/lculo y cuando se introducen datos por primera 2e4 es titulada "or0$-&&t !'o3a de tra*a3o)% )i Data contiene una 'o3a de tra*a3o < Edgar Acu7a -apítulo 2 8na Introducci0n a Minita* ue ya 'a sido guardada anteriormente entonces es titulada con el nom*re de la 'o3a de tra*a3o% &os datos de cada 2aria*le se 2an poniendo en las celdas de una misma columna% &as 6lec'as se pueden usar para mo2erse de una celda a otra% Todo el con3unto de datos es guardado en una Ho3a de Tra*a3o !,(or$s'eet.) ue s0lo MINITAB puede leerla% &a 2entana S&$$ion contendr/ resultados de todos los comandos ue se e3ecutan cuando se oprime el ,mouse. en una sesi0n de MINITAB% Tam*i=n es posi*le 'acer aparecer los comandos automaticamente &os comandos tam*i=n pueden ser entrados por el usuario ue en lugar de usar el ,mouse. pre6iere el estilo antiguo de MINITAB. Hay otras dos 2entanas> .i$tor1 e In!o2 la primera contiene un listado de todos los comandos ue se 'an e3ecutado en la sesi0n de tra*a3o y la segunda contiene in6ormaci0n acerca del contenido de las columnas de la 'o3a de tra*a3o% Adem/s cada 2e4 ue se 'ace una gr/6ica se crea una 2entana ue tiene como título el nom*re de la gr/6ica respecti2a% Para activar una ventana hay que oprimir el “mouse” en cualquier parte de la ventana. Se sabe que una ventana está activada cuando la barra de título aparece de color azul. 2%? La Barra d& M&n($ &a Barra de Men+s de MINITAB contiene 1@ entradas> )i'&, Edit, Data, Ca'*2 Stat2 +ra,-, Editor, Too'$, "indo# y .&',, cada una de las cuales tienen 2arias opciones% )i al lado de la opci0n aparece el sím*olo entonces, al elegir esta opci0n aparecer/ un su*men+ de alternati2as% )i la opci0n termina en tres puntos%%% entonces aparece una 3&ntana d& Di4'ogo como el de la 5igura 2%?% En el recuadro principal de la 2entana de #i/logo aparecer/n listadas todas las 2aria*les a las cuales puede aplicarse el procedimiento elegido% Tam*i=n aparecer/ un recuadro 3ariab'&$ en donde el usuario tiene ue colocar las 2aria*les a las cuales le 2a a aplicar el procedimiento% Esto lo puede 'acer de tres maneras> Primero escri*iendo las 2aria*les a ser anali4adas% Segundo, marcando las 2aria*les del listado y oprimiendo luego el *ot0n S&'&*t y Tercero, oprimiendo dos 2eces en la 2aria*le ue aparece en el listado% 8na 2entana de di/logo tam*i=n tiene usualmente los *otones .&',, O0 y Can*&' A Edgar Acu7a -apítulo 2 8na Introducci0n a Minita* 5igura 2%?% E3emplo de una 2entana de di/logo% 2.5.1 E' M&n( )i'& -ontiene mayormente opciones ue sir2en para manipular las 'o3as de tra*a3o y para guardar e imprimir el contenido de las 2entanas de MINITAB% En la siguiente 6igura se muestra las opciones del men+ )i'&. 5igura 2%B% &as opciones del men+ 5ile% C Edgar Acu7a -apítulo 2 8na Introducci0n a Minita* El men+ )i'& contiene las siguientes opciones> O,*i6n A**i6n NeD A*re un nue2o proyecto o nue2a 'o3a de tra*a3o% Open :ro3ect A*re un proyecto ue ya 6ue guardado% )a2e :ro3ect Euarda un :royecto% )a2e :ro3ect As Euarda un proyecto con otro nom*re% :ro3ect #escription Edita una descripci0n del proyecto% Open (or$s'eet A*re una 'o3a de Tra*a3o ue ya 6ue guardada% )a2e -urrent (or$s'eet Euarda una Ho3a de Tra*a3o% )a2e -urrent (or$s'eet As Euarda una Ho3a de Tra*a3o con otro nom*re% (or$s'eet #escription !F) #a in6ormaci0n acerca de la 'o3a de tra*a3o% -lose (or$s'eet !F) -ierra una 'o3a de tra*a3o% Guery #ata*ase!O#B-) &lama a los datos guardados en una Base de #atos% Open Erap' A*re una gr/6ica de MINITAB% Ot'er 5iles &lama datos en otro tipo de arc'i2os% )a2e )ession (indoDs As !F) Euarda el contenido de la 2entana session !pide un nom*re para el arc'i2o)% :rint )ession (indoDs !F) Euarda el contenido de la 2entana session% :rint (or$s'eet Imprime el contenido de una 'o3a de tra*a3o% :rint )etup -am*ia la con6iguraci0n de la impresora% E1it )ale de MINITAB% !F) Estas dos opciones cam*ian cuando la 2entana $&$$ion o una %&ntana d& gr4!i*a est/n acti2a% &as +ltimas 'o3as de tra*a3o o proyectos ue se 'an usado aparecen al 6inal del men+ )i'& y pueden ser acti2ados si se los seleccionan con el ,mouse.. 2.5.2 E' M&n( Edit El men+ Edit contiene opciones ue permiten editar el contenido de las celdas de las columnas del ,(or$s'eet. o el contenido de la 2entana S&$$ion% &a siguiente 6igura muestra las opciones del men+ Edit cuando la 2entana "or0$-&&t est/ acti2a% 5igura 2%H% &as opciones del men+ Edit 1 Edgar Acu7a -apítulo 2 8na Introducci0n a Minita* &a siguente ta*la muestra las acciones de cada opci0n del men+ Edit cuando la 2entana Data est/ acti2a% O,*i6n A**i6n -lear -ells Borra el contenido de la celda% #elete -ells Elimina -eldas% -opy -ells -opia el contenido de las celdas% -ut -ells Elimina celdas% :aste -ells Inserta celdas% :aste &in$ Esta*lece una conecci0n entre una aplicaci0n especi6icada y MINITAB% (or$s'eet &in$s -onecta MINITAB con otras aplicaciones% )elect all -ells )elecciona todas las celdas de una columna% Edit &ast #ialog &lama a la +ltima 2entana de #i/logo% -ommnad &ine Editor A*re una 2entana donde escri*ir el comando de línea% )i la 2entana $&$$ion est/ acti2a y se 'a marcado un te1to en ella, entonces Copy o Cut permiten copiar el contenido ue se 'a marcado al C'i,board para luego ser e1portado a un procesador de pala*ras tal como, "ORD o "ordP&r!&*t. Para marcar un texto, se coloca el cursor al inicio del texto, mediante un “clic” del “mouse” y lue!o se mantiene oprimido hasta lle!ar al "inal del texto. :or otro lado, Paste permite copiar el contenido del C'i,board en la 2entana S&$$ion% -uando se 'acen gr/6icas, en el men+ Edit aparece la opci0n Copy #raph ue permite en2iar la gr/6ica al C'i,board para luego ser e1portada a un procesador de pala*ras, tal como $%&' o $ordPer"ect. 2.5.5 E' M&n( Data El men+ Data contiene opciones para manipular todo el contenido de las columnas de una 'o3a de tra*a3o% En la siguiente 6igura se muestran las opciones del men+ Data y las alternati2as ue 'ay para la opci0n Chan!e 'ata (ype. 1 Edgar Acu7a -apítulo 2 8na Introducci0n a Minita* 5igura 2%I% &as opciones del men+ Data y de la opci0n C-ang& Data T1,&% &a siguiente ta*la descri*e todas las opciones de Data. O,*i6n A**i6n )u*set (or$s'eet -rea una nue2a 'o3a de tra*a3o usando una condici0n en la 'o3a de tra*a3o ue se est/ usando )plit (or$s'eet -rea 'o3as de tra*a3o *as/ndose en una columna ue contiene grupos% Merge (or$s'eets Junta dos 'o3as de tra*a3o -opy -olumns -opia datos de una columna en otra columna 8nstac$ -olumns )epara una el contenido de una columna en 2arias columnas% )tac$ Junta el contenido de dos o m/s columnas !o 6ilas) en una sola columna !o 6ila)% Transpose -olumns -on2ierte columnas de datos en 6ilas )ort Ordena los datos de una columna Kan$ #a los ordenamientos de los datos de una columna #elete KoDs Elimina 6ilas de una o 2arias columnas Erase Laria*les Elimina columnas de datos -ode Asigna c0digos a columnas -'ange #ata Type -am*ia el tipo de dato ue tiene la columna% E1tract 6ron #ateMTime E1trae un dato 'orario y lo con2ierte en num=rico o te1to% -oncatenate Junta 6ila por 6ila el contenido de dos columnas #isplay #ata Muestra los datos de la 'o3a de tra*a3o en la 2entana $&$$ion E7&m,'o 2.1 !89ntar do$ *o'9mna$ d& dato$) )upongamos ue tenemos edades de 'om*res y mu3eres en dos columnas separadas> 1 Edgar Acu7a -apítulo 2 8na Introducci0n a Minita* Hom*res Mu3eres 1C 1< 2? 2@ 2< 1C 1A 22 22 2? 2B 1A 1A 21 21 2B 21 si deseamos 3untarla en una sola columna llamada Edad&$, se crea una columna llamada S&:o ue permite identi6icar el grupo al cual pertenece el dato% 8sando la secuencia Data Sta*0 Co'9mn$. &a 2entana de di/logo aparecer/ así> 5igura 2%<% &a 2entana de di/logo para 3untar columnas -omo resultado se o*tendr/ dos nue2as columnas> Edad&$ y S&:o en la misma 'o3a de tra*a3o como se o*ser2a en la gr/6ica siguiente% 1 Edgar Acu7a -apítulo 2 8na Introducci0n a Minita* 5igura 2%A Ho3a de tra*a3o ue aparece al 3untar dos columnas% 2.5. E' M&n( Ca'* El men+ Ca'* contiene opciones para 'acer operaciones aritm=ticas con las columnas de la 'o3a de tra*a3o, por e3emplo, tomar logarítmos a una columna, y para calcular medidas estadísticas de las 6ilas y columnas% Tam*i=n es posi*le o*tener al a4ar un con3unto de datos con una distri*uci0n predeterminada y calcular pro*a*ilidades y percentiles de las distri*uciones m/s conocidas% &a +ltima entrada del men+ Ca'* es )atrices2 la cual permite 'acer operaciones con matrices% En la 5igura 2%C se muestra las opciones del men+ Ca'* y las alternati2as de la opci0n Probability 'istributions. 1 Edgar Acu7a -apítulo 2 8na Introducci0n a Minita* 5igura 2%C% &as opciones del men+ CALC y de la opci0n Probabi'it1 Di$trib9tion$. En la siguiente ta*la se descri*en todas las opciones del men+ Ca'*. O,*i6n A**i6n -alculator :ermite 'acer operaciones aritm=ticas con las columnas% -olumn )tatistics -alcula medidas estadísticas de una columna% KoD )tatistics -alcula medidas estadísticas por 6ilas% )tandari4e Estandari4a una columna de datos !por lo general 'aciendo ue la media sea cero y la 2arian4a 1)% Ma$e :atterned #ata Eenera datos en secuencia con un patr0n dado% Ma$e Mes' #ata Eenera datos ue son usados para 'acer una malla% Ma$e Indicator Laria*les -rea 2aria*les indicadoras de una columna num=rica% )et Base Esta*lece el 2alor inicial para generar n+meros aleatorios% Kandom #ata Eenera datos al a4ar de 2arias distri*uciones conocidas% :ro*a*ility #istri*utions #a la 6unci0n de pro*a*ilidad, la distri*uci0n acumulada y los percentiles de las distri*uciones m/s conocidas% Matrices :ermite 'acer operaciones con matrices% E7&m,'o 2.2 !8so de Ca'*9'ator) )upongamos ue tenemos el siguiente con3unto de datos> 4 7 12 15 17 18 25 13 1 Edgar Acu7a -apítulo 2 8na Introducci0n a Minita* y deseamos calcular la e1presi0n ) 11 N Σ1 2 O !Σ1) 2 Mn , donde n es el n+mero de datos, Σ1 representa la suma de los datos, y Σ1 2 representa la suma de los cuadrados de los datos% Asumiendo ue los datos son entrados en la columna -1% )e sigue la secuencia Ca'* Ca'*9'ator. &uego la 2entana de di/logo se completar/ como sigue> 5igura 2%1@% Lentana de di/logo para la opci0n Ca'*9'ator En la 'o3a de tra*a3o aparecer/ una segunda columna con el nom*re ) 11 con una entrada igual a ?@@%A<H% )i uno desea ue la cantidad sea tratada como una constante y no como una columna entonces se de*e escri*ir $1 en la 2entanita correspondiente a Stor& r&$9't in %ariab'&. )in em*argo el 2alor de 01 no aparecer/ en la pantalla a menos ue se siga la secuenca Data Di$,'a1 Data !2er la secci0n 2%H) y se eli3a la constante $1% 2.5.; E' M&n( Stat El men+ Stat contiene opciones ue permite lle2ar a ca*o la mayoría de los procedimientos estadísticos% En este te1to s0lo se 2er/n algunas de las opciones de este men+, auellas ue son usadas en un primer curso de Estadística% &a siguiente 6igura muestra las opciones del men+ Stat y el su*men+ de la opci0n (ables. &as opciones de Stat son descritas en la siguiente ta*la> O,*i6n A**i6n Basic )tatistics Incluye el c/lculo de medidas estadísticas, prue*as de 'ip0tesis acerca de la media po*lacional, de proporciones, comparaci0n de dos 2arian4as 1 Edgar Acu7a -apítulo 2 8na Introducci0n a Minita* de di6erencia de medias y de proporciones, c/lculo de la correlaci0n% Kegression Incluye an/lisis de regresion simple y m+ltiple, los m=todos para elegir el me3or modelo de regresion y regresi0n logistica% ANOLA Hace el an/lisis de 2arian4a de dise7os e1perimentales */sicos% #OE Anali4a dise7os de e1perimentos a2an4ados% -ontrol -'arts Er/6icas de -ontrol de -alidad% Guality Tools M/s gr/6icas de -ontrol de -alidad% Keali*ityM)ur2i2al Incluye los m=todos de an/lisis de super2i2encia y de con6ia*ilidad% Multi2ariate Incluye m=todos multi2ariados> -omponentes :rincipales, An/lisis 6actorial, An/lisis #iscriminante, por conglomerados y an/lisis de correspondencia% Times )eries Anali4a datos en series de tiempo% Ta*les Ordena datos en 6orma ta*ular, y anali4a ta*las de contingencia% Nonparametrics Incluye los m=todos estadísticos nopar/metricos, auellos ue no reuieren la suposici0n de Normalidad% E#A Incluye los m=todos del An/lisis E1ploratorio de datos> ,stem9and9lea6., ,*o1plots., etc% :oDer and )ample )i4e -alcula la potencia y el tama7o de muestra para 2arias prue*as estadísticas% 5igura 2%11 &as opciones del men+ STAT y de la opci0n Tab'&$% En este te1to se usaran las opciones> Basic )tatistic, Kegression, Ano2a, Ta*les, Nonparametrics y E#A% 1 Edgar Acu7a -apítulo 2 8na Introducci0n a Minita* Algunos e3emplos de aplicaciones de estas opciones seran dados en los siguientes capítulos de este te1to% 2.5.< E' m&n( +ra,- El men+ +ra,- contiene opciones ue premiten 'acer una gran 2ariedad de gr/6icas estadísticas desde Histogramas 'asta gr/6icas tridimensionales% En la siguiente 6igura se muestra las opciones del men+ +ra,-2 y las opciones de la opci0n Character #raphs% 5igura 2%12% &as opciones del men+ +ra,-% En la siguiente ta*la se descri*en todas las opciones del men+ +ra,-= O,*i6n A**i6n )catterplot Hace un diagrama de dispersi0n% Matri1 :lot Hace un plot en 6orma matricial para mostrar la relaci0n entre 2arias 2aria*les% Marginal :lot Hace un diagrama de puntos acompa7ado de 'istogramas, *o1plots o 1 Edgar Acu7a -apítulo 2 8na Introducci0n a Minita* dotplots de las 2aria*les ; e P% Histogram Hace un Histograma% #otplot Hace un gr/6ico de puntos de alta resoluci0n% )tem9and9&ea6 Hace un ,stem9and9lea6. de un con3unto de datos% :ro*a*ility :lot Hace plots de pro*a*ilidad% Empirical -#5 Era6ica la 6unci0n de distri*uci0n acumulati2a de un con3unto de datos y la compara con una 6unci0n de distri*uci0n conocida% Bo1plot Hace un ,Bo1plot.% Inter2al :lot Era6ica las medias de 2arios grupos con sus respecti2os inter2alos de con6ian4a% Indi2idual Lalue :lot Hace diagramas de puntos de dos maneras> por 2aria*les o por grupos% Bar -'art Hace gr/6ica de Barras para datos cualitati2os% :ie -'art Hace gr/6icas circulares% Time )eries :lot Hace gr/6icas para datos en series de tiempo% Area Erap' Hace gr/6icas de /reas% -ontour :lot Hace un plot de contorno% ?# )catterplot Hace un digrama de dispersi0n en tres dimensiones% ?# )ur6ace :lot Era6ica una super6icie en ? dimensiones% 2.5.> E' M&n( Editor El men+ Editor contiene opciones ue permiten editar el contenido de las 2entanas de S&$$ion y "or0$-&&t% En particular se puede insertar comentarios en los resultados ue aparecen en $&$$ion% Tam*i=n se puede elegir el tipo de letra en ue ellos aparecer/n% &as opciones del men+ dependen de la 2entana ue est/ acti2a% -uando la 2entana "or0$-&&t est/ acti2ada entonces 'ay opciones ue permiten editar el contenido de las celdas de la 'o3a de tra*a3o% En la 6igura 2%1? se muestran estas opciones> &a siguiente ta*la descri*e las opciones del men+ Editor cuando la 2entana $&$$ion est/ acti2a% O,*i6n A**i6n Ne1t -ommand Mue2e el cursor al siguiente comando en la 2entana $&$$ion% :re2ious -ommand Mue2e el cursor al comando anterior en la 2entana $&$$ion% Ena*le -ommand &anguage :roduce el prompt MTBQ de MINITAB% Output edita*le :ermite ue la 2entana $&$$ion pueda ser editada% 5ind Encuentra un te1to en la 2entana $&$$ion% Keplace Keempla4a un te1to en la 2entana $&$$ion% Apply 5onts Aplica un tipo de letra dado a los comandos y resultados, a los titulos o a los comentarios% 1 Edgar Acu7a -apítulo 2 8na Introducci0n a Minita* 5igura 2%1?% &as opciones del menu Editor cuando la 2entana (or$s'eet est/ acti2a% -uando la 2entana #or0$-&&t est/ acti2a el men+ Editor presenta otras alternati2as, tales como> Eo ToR Mue2e el cursor a cualuier celda de la 2entana% Eo To Mue2e el cursor a la siguiente columna, o a la celda acti2ada% 5ormat -olumn )ir2e para 6ormatear las columnas% Adicional a ellas tam*i=n estan las siguientes opciones ue se acti2an cuando el cursor esta u*icado en la 2entana Dor$s'eet% -olumn (or$s'eet Insert columns Mo2e columns )i Enab'& Comand Lang9ag& est/ acti2ado entonces los resultados en la 2entana $&$$ion para el e3emplo 2%2 ser/n> MTB > Print C1. Data Display C1 2 Edgar Acu7a -apítulo 2 8na Introducci0n a Minita* 4 7 12 15 17 18 25 13 MTB > Let k1 = SUM(c1*c1)-(SUM(c1)**2)/CU!T(c1) MTB > Print "1. Data Display "1 3##.875 Tam*i=n 'ay un men+ para editar gr/6icas, =ste permite incluir te1to en cualuier parte de la gr/6ica, al igual ue otros o*3etos gr/6icos como líneas, rect/ngulos, círculos, sím*olos, etc% Asumiendo ue la 2entana de gr/6ica est/ acti2a, entonces los íconos del editor de gr/6icas se o*tienen, si se elige la opci0n *dit del men+ Editor% &os íconos se agrupan en dos rect/ngulos ue aparecen en la parte derec'a de la 2entana gr/6ica% +as opciones del editor de !rá"icas tambi,n se pueden obtener si se hace un “ri!th clic” con el “mouse” dentro de la ventana que contiene la !rá"ica. 5igura 2%1B% Editando una gr/6ica 2.5.? E' M&n( Too'$ 2 Edgar Acu7a -apítulo 2 8na Introducci0n a Minita* 5igura 2%1H% &as opciones del men+ Too'$% &as opciones del men+ Too'$ son descritas en la siguiente ta*la% O,*i6n A**i6n Microso6t -alculator Acti2a la calculadora de Microso6t% Notepad Acti2a el editos de notepad% (indoDs E1plorer Acti2a el e1plorador de 2entanas% AnsDer SnoDledge*ase -onecta a la pagina de MINITAB -ontact 8s -onecta a la pagina de MINITAB en contactos Tool*ars :ermite modi6icar la *arra de men+% )tatus Bar Esconde la *arra de estatus en la 2entana de Minita*% -ostumi4e :ermite modi6icar la *arra de men+% Options :ermite modi6icar las con6iguraciones de 2entanas y procedimientos de Minita*% Manage :ro6iles :ermite administrar los pro6iles% 2.5.@ E' M&n( "indo# 2 Edgar Acu7a -apítulo 2 8na Introducci0n a Minita* El men+ "indo# contiene opciones ue permiten organi4ar las 2entanas de MINITAB% Este men+ aparece en todo programa 'ec'o para (IN#O()% En la 5igura 2%1H se muestran las opciones del men+ "indo#. Al 6inal del men+ aparecen las 2entanas ue se 'an tra*a3ado +ltimamente y ue pueden ser acti2adas con un clic$ del ,mouse.% &as opciones del men+ "indo# cuando est/ acti2a la 2entana de #or0$-&&t son descritas en la siguiente ta*la% O,*i6n A**i6n -ascade Arregla las 2entanas de Minita* para ue todas las *arras con títulos apare4can% Tile Arregla las 2entanas de Minita* para ue todas ellas apare4can en la pantalla% Minimi4e All Keduce todas las 2entanas a íconos ue son puestos en la parte in6erior% Kestore Icons Kestaura los íconos en la pantalla% Arrange Icons Ordena los íconos de Minita* en la parte in6erior de la pantalla% Ke6res' Muestra nue2amente las 2entanas de Minita*% -lose all grap's -ierra todas las 2entanas gr/6icas% 8pdate all grap' noD :ermite actuali4ar todas las gr/6icas luego de cam*iar uno o 2arios datos% Adem/s de estas opciones, tam*i=n 'ay> )ession, :ro3ect Manager y (or$s'eet and Erap's% 5igura 2%1I% &as opciones del men+ "indo#. 2.5.1A E' M&n( .&', 2 Edgar Acu7a -apítulo 2 8na Introducci0n a Minita* El men+ .&', contiene opciones ue dan ayuda acerca del uso de los comandos de MINITAB% Esta opci0n tam*i=n es típica de todo programado de (IN#O()% -omparado con otros programas estadísticos la ayuda de MINITAB es *astante 6/cil de usar y adem/s muy completa% &a 5igura 2%1I muestra todas las opciones de .&',, y en la siguiente ta*la se descri*en cada una de las opciones de dic'o men+> O,*i6n A**i6n Help Muestra el contenido de la ayuda de MINITAB% )earc' Help Busca ayuda por el tipo de pala*ra seleccionado% HoD to use 'elp Muestra como usar Help en Microso6t (indoDs% )tatEuide :ara usar la guia de MINITAB% )earc' t'e )tatEuide :ara *uscar en la guia de MINITAB% HoD to use t'e )tatEuide Muestra como usar la guia de MINITAB% Tutorials #a in6ormaci0n */sica a cerca de lo ue usted necesita para empe4ar a usar MINITAB% )earc' Tutorials Muestra la secuencia de c0mo usar Minita* para reali4ar ciertas acciones% )ession -omand Help A*re el arc'i2o de ayuda de los comandos en MINITAB% )earc' )ession -omand Help Buscar comandos ue se usan en la 2entana $&$$ion de MINITAB% Minita* on t'e (e* Acti2a el *roDse del (e* y se conecta a MINITAB% A*out Minita* #a in6ormaci0n acerca de la 2ersi0n y el due7o de MINITAB 5igura 2%1<% &as opciones del men+ .&',% En la siguiente 6igura se muestra la 2entana de ayuda para todos los comandos de MINITAB% 2 Edgar Acu7a -apítulo 2 8na Introducci0n a Minita* 5igura 2%1A% Lentana de Ayuda de todos los comandos de MINITAB Esta 6igura muestra la 2entana de ayuda para el comando stem-and-lea"% 5igura 2%1C% Lentana de Ayuda acerca de ,stem9and9lea6 ,% 2. Entrada 1 Mani,9'a*i6n d& dato$ &n MINITAB Hay dos maneras de entrar datos en MINITAB% :rimero usando la 2entana Data y segundo usando comandos en la 2entana $&$$ion. 2 Edgar Acu7a -apítulo 2 8na Introducci0n a Minita* 2..1 Entrando dato$ 9$ando 'a -o7a d& traba7o. En este caso se escri*e el dato en una celda acti2a de la 'o3a de tra*a3o% 8na celda acti2a es auella con el *orde m/s oscuro% 8na 2e4 ue se 'a escrito el dato se oprime Ent&r2 esto 'ace ue el 2alor entrado sea aceptado% &a celda acti2a se mue2e a la derec'a o 'acia a*a3o dependiendo de la direcci0n de la 6lec'a% &os datos pueden ser entrados por 6ilas o por columnas% &as columnas representan 2alores de una 2aria*le y si se desea ponerles nom*re, esto se 'ace en la celda inmediatamente de*a3o del n+mero de la columna% )i los datos est/n en otro 6ormato, pro2ienen de otra aplicaci0n, o est/n disponi*les en la Internet, *astar/ copiar !,copy.) los datos de la 6uente y pegarlos !,paste.) en la 'o3a de tra*a3o% 2..2 Entrando dato$ 9$ando *omando$ &n 'a %&ntana $&$$ion. Hay dos maneras de 'acer esto> aB U$ando &' *omando SET En este caso se entran los datos de una sola 2aria*le% :or e3emplo, supongamos ue tenemos las edades de una 6amilia de I miem*ros ue 2an a ser colocados en la columna -1, llamada Edad&$% &os comandos ue se de*en escri*ir ser/n> MTB> !$M% C1 &%'('e)* MTB> S%T C1 +$T$> , - 12 15 37 34 +$T$> %!+ bB U$ando &' *omando READ Esto es con2eniente cuando se tienen 2arias 2aria*les% :or e3emplo, supongamos ue adem/s de las edades de los miem*ros de la 6amilia tenemos sus pesos% &os comandos ue se de*en escri*ir ser/n> MTB> !$M% C1 &%'('e)* C2 &Pe).)* M$TB> /%$+ C1 C2 +$T$> , 55 +$T$> - 7# +$T$>12 -5 +$T$>15 13# +$T$>37 18# +$T$>34 155 +$T$> %!+ 2.; Mo$trando 'o$ dato$ :ara 2er los datos en la 2entana $&$$ion de tal manera ue apare4can 3unto con los resultados se puede 'acer de dos maneras% 2 Edgar Acu7a -apítulo 2 8na Introducci0n a Minita* A) )e elige el men+ Data2 y luego la opci0n Di$,'a1 Data. B) 8sando el comando de línea ,rint. Así en el e3emplo anterior el comando PRINT C1 C22 producir/> /.0 %'('e) Pe). 1 , 55 2 - 7# 3 12 -5 4 15 13# 5 37 18# , 34 155 2.< +9ardando 'o$ dato$ )e elige el men+ )i'& y de allí la opci0n Save $orsheet .s !si es la primera 2e4 ue son entrados los datos) o Sa%& "or0$-&&t !si los datos ya 'an sido entrados anteriormente)% &a 2entana de dialogo, correspondiente a Save $orsheet .s, para los datos del e3emplo anterior ue 2an a ser guardados en el arc'i2o !ami'ia, del 6older 'ibro ue tiene 6ormato de MINITAB, ser/ como se presenta en la 5igura 2%1C% El arc'i2o uedar/ guardado autom/ticamente en el su*directorio Mtb#in. )i se desea guardarlo en cualuier otro lugar oprimirse en la 6lec'a al lado de Sa%& in ue lo lle2ar/ al lugar deseado% En este caso se guard0 en 'ibro2 propiamente el arc'i2o guardado se llama !ami'ia.mt#. &os datos tam*i=n pueden ser guardados en otro tipo de 6ormato, el cual se elige en Sa%& a$ t1,&. 2.> Abri&ndo 9n ar*-i%o d& dato$ &os datos ue se 2an a anali4ar pueden estar de antemano en un arc'i2o, el cual puede estar en 6ormato de MINITAB o en otro tipo de 6ormato, o *ien puede 'a*er sido entrado usando un editor de te1to% :ara llamar al arc'i2o ue est/ en 6ormato de MINITAB se elige el men+ )i'& y luego la opci0n %pen $orsheet% :or e3emplo, para llamar a los datos del e3emplo anterior ue est/n en el arc'i2o !ami'ia, la 2entana de di/logo se muestra en la 6igura 2%2@ 2 Edgar Acu7a -apítulo 2 8na Introducci0n a Minita* 5igura 2%1C% Lentana de di/logo para guardar un arc'i2o de datos% )i el arc'i2o de datos no est/ en 6ormato de MINITAB entonces se elige el tipo de arc'i2o ue contiene los datos en !i'& o! t1,& y luego se oprime o,tions para elegir una 6orma particular de lectura de los datos% 2%A Im,rimi&ndo 'o$ dato$ Asumiendo ue la 2entana "or0$-&&t est/ acti2a, se elige el men+ )i'& y luego la opci0n Print $orsheet. &a 2entana de dialogo saldr/ como se muestra en la 5igura 2%21% 2 Edgar Acu7a -apítulo 2 8na Introducci0n a Minita* 5igura 2%2@% Lentana de di/logo para a*rir un arc'i2o de datos% 2.@ U$ando Pro1&*to$ El uso de arc'i2os proyecto de MINITAB, los cuales lle2an la e1tensi0n .m,7 es de gran utilidad% Estos son arc'i2os ue contienen un gran n+mero de 'o3as de tra*a3o, tam*i=n contienen los resultados en la 2entana $&$$ion y las 2entanas gr/6icas% Es decir, contiene todo el tra*a3o ue se 'a 'ec'o 'asta ese momento% )uponiendo ue m/s tarde uno desea tra*a3ar con otro con3unto de datos, a7adir alg+n an/lisis estadístico o alg+n gr/6ico lo +nico ue tiene ue 'acer es llamar al proyecto ue contendr/ todo el tra*a3o reali4ado 'asta ese momento y luego se a7aden las cosas nue2as% :or e3emplo, el contenido de un proyecto tar&a1.m,72 puede contener ? 2entanas de datos> claseC<%mtD, 6amilia%mtD y di2orcio%mtD, dos 2entanas gr/6icas> el 'istograma de la 2aria*le cr=ditos de claseC<%mtD y el plot de peso 2ersus edades de 6amilia%mtD y una 2entana session% 2 Edgar Acu7a -apítulo 2 8na Introducci0n a Minita* 5igura 2%21% Lentana de di/logo para imprimir los datos de una 'o3a de tra*a3o :ara guardar un proyecto se usa la opci0n Sa%& ,ro7&*t !si el proyecto ya 6ue guardado anteriormente) o Sa%& ,ro7&*t a$ del men+ )i'&. :ara llamar a un proyecto ue 'a sido guardado anteriormente se usa la opci0n O,&n Pro7&*t2 del men+ )i'&. ? CAPÍTULO 3 ESTADÍSTICA DESCRIPTIVA En este capítulo se verán todas las técnicas que se usan para la organización y presentación de datos en tablas y gráficas, así como el cálculo de medidas estadísticas. Se considerarán solamente datos univariados y bivariados. Ejemplo 3.1 Los siguientes datos provienen de un cuestionario de 10 preguntas que se hizo a 28 estudiantes de una clase de Estadistica Aplicada I en el Recinto Universitario de Mayaguez de la Universidad de Puerto Rico. Un asterisco (*) significa que la pregunta no fue contestada. En lo sucesivo se hará referencia a este conjunto de datos como “clase97.mtw” Row edad sexo escuela programa creditos gpa familia hestud htv 1 21 f públ biol 119 3.60 3 35 10 2 18 f priv mbio 15 3.60 3 30 10 3 19 f priv biot 73 3.61 5 5 7 4 20 f priv mbio * 2.38 3 14 3 5 21 m públ pmed 114 3.15 2 25 25 6 20 m públ mbio 93 3.17 3 17 6 7 22 m públ pmed 120 2.15 5 20 10 8 20 m priv pmed * 3.86 5 15 5 9 20 m priv pmed 94 3.19 4 10 2 10 20 f públ pmed 130 3.66 6 20 33 11 21 f priv mbio 97 3.35 1 15 20 12 20 m priv mbio 64 3.17 4 30 2 13 20 f públ mbio * 3.23 2 5 3 14 21 f públ mbio 98 3.36 4 15 10 15 21 f priv biol 113 2.88 5 15 3 16 21 f priv pmed 124 2.80 5 20 10 17 20 f públ eagr * 2.50 4 10 5 18 20 f priv mbio * 3.46 4 18 5 19 22 f priv pmed 120 2.74 2 10 15 20 20 f priv mbio 95 3.07 3 15 12 21 22 f priv biol 125 2.20 3 20 10 22 23 m públ eagr 13 2.39 3 10 8 23 21 m priv pmed 118 3.05 4 10 10 24 20 f públ mbio 118 3.55 5 38 10 25 21 f públ mbio 106 3.03 5 36 35 26 20 f priv mbio 108 3.61 3 20 10 27 22 f públ mbio 130 2.73 5 15 2 28 21 f priv pmed 128 3.54 3 18 5 Las variables edad, familia, hestud y htv son consideradas como variables cuantitativas discretas. Las variables créditos y gpa son consideradas como variables cuantitativas continuas. Las variables sexo, escuela y programa son consideradas como variables cualitativas Edgar Acuña Capítulo 3 Estadística Descriptiva 3.1 Organización de datos Cuantitativos Discretos 3.1.1 Tablas de Frecuencias Los datos cuantitativos discretos se organizan en tablas, llamadas Tablas de Distribución de frecuencias. La primera columna de la tabla contiene los distintos valores que asume la variable ordenados de menor a mayor y las restantes columnas contienen los siguientes tipos de frecuencias. Frecuencia absoluta: Indica el número de veces que se repite un valor de la variable. Frecuencia relativa: Indica la proporción con que se repite un valor. Se obtiene dividiendo la frecuencia absoluta entre el tamaño de la muestra. Para una mejor interpretación es más conveniente mutiplicarla por 100 para trabajar con una Frecuencia relativa porcentual. Frecuencia absoluta acumulada: Indica el número de valores que son menores o iguales que el valor dado. Frecuencia relativa porcentual acumulada: Indica el porcentaje de datos que son menores o iguales que el valor dado. Para construir una tabla de frecuencias en MINITAB, se sigue la secuencia Stat TablesTally Individual Variables. En la ventana de diálogo de Tally Individual Variables se elige la variable deseada, la cual debe aparecer en la ventanita Variables. Se seleccionan todas las opciones de Display si se desea una tabla completa con todos los tipos de frecuencias y luego se oprime el botón OK. La tabla aparecerá en la ventana Session. En la figura 3.1 se muestra la ventana de diálogo de Tally Individual Variables, para obtener la tabla de distribución de frecuencias de la variable familia, del ejemplo 3.1 Figura 3. 1 Ventana de diálogo de Tally Individual Variables para la tabla de frecuencia de la variable Familia 29 Edgar Acuña Capítulo 3 Estadística Descriptiva El contenido de la ventana session será el siguiente: Figura 3.2: Tabla de frecuencia de la variable Familia Interpretación: Count, representa la frecuencia absoluta. Por ejemplo el tamaño familiar que más predomina es 3. CumCnt, representa la frecuencia absoluta acumulada.. Por ejemplo 27 de los 28 entrevistados tienen una familia de tamaño menor o igual que 5. Percent, representa la frecuencia relativa porcentual. Por ejemplo, sólo 3.57 por ciento de las familias de los estudiantes entrevistados son de tamaño 6. CumPct, representa la frecuencia relativa porcentual acumulada. Por ejemplo, el 94.93% de las familias son de tamaño menor o igual que 5. 3.1.2 El plot de puntos (“Dotplot”) Una vez obtenida la tabla de frecuencia el próximo paso es obtener un gráfica de ella. La gráfica más elemental es el plot de puntos (“Dotplot”) que consiste en colocar un punto cada vez que se repite un valor. Esta gráfica permite explorar la simetría y el grado de variabilidad de la distribución de los datos con respecto al centro, el grado de concentración o dispersión de los datos con respecto al valor central y ,tambíén, permite detectar la presencia de valores anormales (“outliers”). En MINITAB el plot de puntos se obtiene eligiendo la opción Dotplot del menú Graph. Las ventanas de diálogo para obtener el plot de puntos de la tabla de frecuencias anterior se completará como sigue: 30 Edgar Acuña Capítulo 3 Estadística Descriptiva Figura 3.3:Ventanas de diálogo para hallar el dotplot de la variable Familia Obteniéndose la siguiente gráfica: Figura 3.4:Dotplot de la tabla de frecuencia de la variable Familia Interpretación: La distribución de la variable familia es algo simétrica con respecto al centro. No hay mucha variabilidad y no se observa la presencia de valores anormales. 31 Edgar Acuña Capítulo 3 Estadística Descriptiva También es posible obtener una gráfica de texto del “Dotplot”. Las gráficas de texto se construyen utilizando caracteres del teclado y no son de alta resolución. Son útiles si se quiere incluir la gráfica como parte de un archivo ASCII o en un correo electrónico a base de texto. Aunque estas gráficas aún están disponibles, ya no aparecen en el menú de Graph por defecto. Para añadir la opción de crear gráficas de caracteres al menú de Graph utilice la secuencia Tools > Customize > Commands>Character Graphs como se muestra a continuación: Figura 3.5: Ventana de diálogo para añadir la opción de gráficas de texto Luego elija el ícono Character Graphs de la ventana de Commands y arrástrelo hasta el menú de Graphs en este caso se sigue la siguiente secuencia Character Graph Dotplot y se obtiene la siguiente salida en la ventana de Session: Dotplot: familia . : : : : : . : : : . : : : : . ---+---------+---------+---------+---------+---------+---familia 1.0 2.0 3.0 4.0 5.0 6.0 Figura 3.6: Dotplot de la variable Familia en modo texto. 3.1.3 Gráfica de Línea 32 Edgar Acuña Capítulo 3 Estadística Descriptiva La gráfica de línea es una alternativa a la gráfica de puntos. Por cada valor de la variable se traza una linea vertical de altura proporcional a la frecuencia absoluta del valor de la variable. En MINITAB hay una opción directa para obtener esta gráfica la cual será discutida más adelante en la sección 3.2.2. Figura 3.7: Gráfica de línea de la distribución de frecuencias de la variable familia Los números que aparecen en la parte superior de las líneas representan las fecuencias absolutas. Interpretación: La gráfica tiene algo de simetría, no presenta valores anormales ni tiene mucha variabilidad. 3.2 Organización de datos Cuantitativos Continuos Cuando los datos son de una variable continua o de una variable discreta que asume muchos valores distintos, ellos se agrupan en clases que son representadas por intervalos y luego se construye una tabla de frecuencias, cada frecuencia absoluta (relativa porcentual) representa el número (porcentaje) de datos que caen en cada intervalo. Recomendaciones acerca del número de intervalos de clases: a) El número de intervalos de clases debe variar entre 5 y 20. b) Se debe evitar que hayan muchas clases con frecuencia baja o cero, de ocurrir ésto es recomendable reducir el número de clases. c) A un mayor número de datos le corresponde un mayor número de clases. Una regla bien usada es que el número de clases debe ser aproximadamente igual a la raíz cuadrada del número de datos. Una vez que se determina el número de clases se determina la amplitud de cada clase usando la siguiente fórmula: 33 Edgar Acuña Capítulo 3 Estadística Descriptiva Amplitud del intervalo de clase ≈ clases de número menor Dato - mayor Dato . Usualmente la amplitud se redondea a un número cómodo de usar. Si se ha redondeado mucho, entonces el primer intervalo de clase debe empezar un poco antes del valor menor. MINITAB no tiene una opción para obtener la tabla de frecuencia para datos agrupados, lo único que existe es una opción para obtener la gráfica de la tabla de frecuencias, ésta es llamada Histograma y puede obtenerse en modo texto o modo gráfico. 3.2.1 Tablas de frecuencias-Histograma en modo texto La forma de obtener este histograma es eligiendo la opción Character Graphs del menú Graph y luego del submenú que sale se elige Histogram. En la salida aparecerán los puntos medios de los intervalos de clase (llamados también Marcas de clase) y la frecuencia absoluta de cada clase. Por ejemplo, supongamos que deseamos obtener el histograma de los datos de la variable gpa, en el archivo Clase97.mtw, agrupando los datos en 5 clases. Primero debemos determinar la amplitud de cada clase, donde Amplitud ≈ clases de número menor Dato - mayor Dato . En este caso Amplitud ≈ 5 2.15 - 3.86 y la primera clase sería: 2.15 - 2.49 con un punto medio igual a 2.32. La ventana de diálogo se completará de la siguiente manera: Figura 3.8: Ventana de diálogo para el histograma en modo texto de la variable gpa y en la ventana session aparecerá, Histogram Histogram of gpa N = 28 Number of observations below the first class = 1 Midpoint Count 34 Edgar Acuña Capítulo 3 Estadística Descriptiva 2.350 4 **** 2.700 3 *** 3.050 8 ******** 3.400 6 ****** 3.750 6 ****** donde Count representa la frecuencia absoluta del intervalo de clase. 3.2.2 Histograma en modo gráfico Un Histograma, es la gráfica de la tabla de distribución de frecuencias para datos agrupados, consiste de barras cuyas bases son los intervalos de clases y cuyas alturas son proporcionales a las frecuencias absolutas (o relativas) de los correspondientes intervalos. Un histograma permite ver la forma de la distribucion de los datos, en particular, se puede ver si hay simetría con respecto al centro de la distribución, del grado de dispersión con respecto al centro y permite detectar datos anormales (“outliers”) en la muestra. Para obtener un histograma en MINITAB se sigue la siguiente secuencia GraphHistogram. Luego, aparece una ventana de diálogo similar a la figura siguiente: Figura 3.9: Ventana de diálogo para Histograma En esta ocasión se elije la primera opción y aparece la siguiente ventana: 35 Edgar Acuña Capítulo 3 Estadística Descriptiva Figura 3.10. Ventana de diálogo para obtener el histograma en modo gráfico de la variable GPA. Graph Variables se escribe la variable cuyo histograma se desea obtener. Si se quiere poner títulos se elige LabelsTitles/Footnotes; para poner los valores de la frecuencia absoluta encima de cada barra se elige LabelsData Labels. Figura 3.11: Algunas opciones del menú de Labels Oprimiendo OK se obtiene el siguiente histograma: 36 Edgar Acuña Capítulo 3 Estadística Descriptiva Figura 3.12: El histograma de la variable gpa Interpretación. El histograma es asimétrico hacia la izquierda. No existe mucha variabilidad, ni hay valores anormales . MINITAB elige automáticamente el número de intervalos de clases, si se desea cambiar el número de intervalos de clases, se coloca el cursor en el eje horizontal y se oprime dos veces el botón izquierdo del ratón. Le aparece una ventana de diálogo llamada Edit Bars. En esta ventana puede cambiar el color de las barras (Attributes) y cambiar el número de intervalos deseado donde aparece Binning. Además se puede entrar los puntos medios de los intrevalos de clase que se desean. Figura 3.13: Ventana de diálogo para editar un histograma Para imprimir el Histograma se elige la opción Print Graph del menú File. También es posible obtener el histograma de un conjunto de datos eligiendo la opción Graph que aparecen en ciertas ventanas de diálogo, como por ejemplo; cuando se calculan medidas estadísticas básicas. 37 Edgar Acuña Capítulo 3 Estadística Descriptiva 3.3 Presentación de datos cualitativos En este caso los datos también se pueden organizar en tablas de frecuencias, pero las frecuencias acumuladas no tienen mucho significado, excepto cuando la variable es ordinal. Para obtener la tabla se sigue la secuencia STATTablesTally. Si se desea obtener las frecuencias acumuladas se pueden seleccionar en la ventana Tally. Por ejemplo, la siguiente sería una tabla de frecuencias para la variable programa del Ejemplo 3.1. programa Count Percent biol 3 10.71 biot 1 3.57 eagr 2 7.14 mbio 13 46.43 pmed 9 32.14 N= 28 Existen una gran variedad de gráficas para datos cualitativos que se pueden hacer en MINITAB. Sólo consideraremos las gráficas de barras y las gráficas circulares (“Pie-Chart”). 3.3.1 Gráficas de Barras Las gráficas de barras pueden ser verticales u horizontales. Las gráficas de barras se obtienen eligiendo la opción Bar Chart del menú Graph. Aparecerá la ventana de diálogo que se muestra en la primera ventana de la Figura 3.11. Para comenzar, se debe elegir el significado que tendrán las barras y el si se desea una gráfica simple, aglomerado o acumulativa. Si se desea una gráfica de barras verticales simple, entonces se elige la opción de Counts of unique variables como el significado de las barras y simultáneamente la opción Simple. Al oprimir OK, observará la segunda ventana presentada en Figura 3.14. 38 Edgar Acuña Capítulo 3 Estadística Descriptiva Figura 3.14. Ventanas de diálogo para obtener una gráfica de barras verticales del programa. Ejemplo 3.2. Usando los datos del ejemplo 3.1, hacer una gráfica de barras verticales para representar la distribución de estudiantes por programa. Se elige las opciones para las primeras dos ventanas de diálogo según se ha descrito en el párrafo anterior. Para colocar el título, en la segunda ventana de diálogo, elija la opción Labels y se escribe el título deseado en el renglón titulado Title. Figura 3.15 Ventana de diálogo para colocar un título a la gráfica de barras. Al oprimir OK dos veces, obtendrá la siguiente gráfica: 39 Edgar Acuña Capítulo 3 Estadística Descriptiva Figura 3.16 Gráfica de Barras verticales de la variable Programa Para hacer una gráfica de barras agrupada, se debe seleccionar Cluster, en la primera ventana de diálogo. Luego en la segunda ventana de diálogo, se eligen las variables por las cuales se quiere agrupar. Por ejemplo si deseamos ver la distribución de estudiantes por programa dividido por sexo, elegimos como variable programa y luego, sexo. Luego de colocar el título, se obtendría la siguiente gráfica: Figura 3.17. Gráfica de barras verticales para la variable programa agrupada por Sexo. 3.3.2 Gráficas Circulares Este tipo de gráfica se usa cuando se quiere tener una idea de la contribución de cada valor de la variable al total. Aunque es usada más para variables cualitativas, también podría usarse para variables cuantitativas discretas siempre que la variable no asuma muchos valores distintos. Para obtener gráficas circulares se usa la opción Pie Chart del menú Graph. Las ventanas de diálogo de Pie Chart que se muestran en la Figura 3.14 son para la variable 40 Edgar Acuña Capítulo 3 Estadística Descriptiva programa del Ejemplo 3.1 La gráfica permitirá ver como se distribuyen los estudiantes de la clase según el programa académico. En Chart Raw Data se coloca la variable de la que se quiere hacer el “pie chart”. La ventanita de Chart values from table se usa sólo en el caso que en una columna estén las categorías de la variable y en la otra la frecuencia con que se repite cada categoría. En la Figura 3.15 se presenta la gráfica de círculo para la variable programa. Existen formas de modificar la gráfica de círculo para enfatizar ciertas ideas. Por ejemplo, se puede resaltar uno o varios pedazos (“slices”) mediante el uso de Explode slice. Esta opción se logra seleccionando el pedazo(s) que se quiere(n) explotar. Luego, se oprime el botón izquierdo del ratón y se selecciona Edit Pie. La ventana de diálogo que se obtiene se muestra en la Figura 3.16. En esta ventana, se puede también modificar el color del pedazo. Si se selecciona la gráfica completa antes de ir a Edit Pie, hay la posibilidad de combinar pedazos que contribuyan con un porcentaje muy bajo al total o de colocar el nombre asociada a cada categoría en la gráfica. En la Figura 3.16 b, se muestra la gráfica de la variable programa modificada según se ha descrito anteriormente. Figura 3.18. Ventanas de diálogo para obtener gráficas circulares Figura 3.19. Gráfica circular para mostrar la distribución de estudiantes por programa 41 Edgar Acuña Capítulo 3 Estadística Descriptiva (a) (b) Figura 3.20. Ventana de diálogo para modificar la gráfica de la figura 3.19. Ejemplo 3.3. La siguiente tabla muestra el número de restaurants americanos de comidas rápidas en Puerto Rico a julio de 1997 (Nuevo Día, 31 de Agosto de 1997). Nombre Número Burger King 113 McDonald’s 97 Taco Maker 63 Kentucky Fried Chicken 58 Pizza Hut 51 Church’s 46 Domino’s 30 Wendys 24 Taco Bell 22 Ponderosa 21 Little Ceasers 20 Otros 45 Hacer un “Pie-Chart” que muestre qué parte del mercado representa cada franquicia. Enfatizar la franquicia que tiene la mayor parte del mercado y la que tiene la menor parte. En este caso se elige Chart values from table, y en el espacio de Categorical variable se coloca el nombre de las columnas que contiene el nombre de los restaurantes y en el rectángulo al lado de Summary Variables se coloca la columna que contiene el número de restaurantes de cada tipo. Eligiendo Labels, puede indicar el título que tendrá la gráfica y las etiquetas de los pedazos. Al oprimir ok, se obtiene la siguiente gráfica: 42 Edgar Acuña Capítulo 3 Estadística Descriptiva Figura 3.21. Gráfica circular para los datos del ejemplo 3.3 3.4 Gráfica de tallo y hojas (“Stem-and-Leaf ”) La gráfica de tallo y hojas es una gráfica usada para datos cuantitativos. Es la gráfica más básica de un conjunto de técnicas conocido con el nombre de Análisis Exploratorio de Datos (EDA) introducida por John Tukey a mediados de los años 70. La idea es considerar los primeros dígitos del dato como una rama del tallo (“stem”) y el último dígito como una hoja (“leaf”) de dicha rama. Las ramas son ordenadas en forma creciente. Ejemplo 3.4. Los siguientes datos representan pesos de una muestra de 15 varones adultos. 165 178 185 169 152 180 175 189 195 200 183 191 197 208 179 Hacer su gráfica de “Stem-and Leaf”. Solución: En este caso las ramas la forman los primeros dos dígitos de los datos, y las hojas serán dadas por los últimos dígitos de los datos. Luego el “stem-and leaf “ será de la siguiente manera: 15 2 16 59 17 598 18 0935 19 517 20 08 Interpretación: El uso del “stem-and-leaf” es exactamente igual al del Histograma, la única diferencia está en que del “stem-and-leaf” se pueden recuperar los datos muestrales, pero de un histograma no se puede hacer. En este ejemplo el “stem-and- leaf” es asimétrico a la izquierda, no tiene mucha variabilidad ni “outliers”. 43 Edgar Acuña Capítulo 3 Estadística Descriptiva La unidad de la hoja de un “stem-and-leaf” representa la posición del dígito de la hoja en la escala decimal. En el ejemplo anterior el dígito de las hojas está en las unidades luego la unidad de la hoja será 1.0. Si los datos fueran de promedios académicos: 3.17, 3.23, 2.98 entonces, la unidad de la hoja será .01. Para recuperar los datos de la muestra se juntan las ramas y las hojas del “stem-and- leaf” y se multiplica por la unidad de la hoja. Hay varias maneras de obtener un “stem-and-leaf” en MINITAB. La primera es elegir la opción stem-and-leaf del menú Graph, la segunda es elegir la opción Character Graph del menú Graph y luego stem-and-leaf del listado que aparece. Finalmente, también se puede elegir la opción EDA del menú Stat y luego Stem-and-Leaf del submenú de EDA. La ventana de diálogo para obtener el “stem-and-leaf” de los datos de promedio académico gpa del ejemplo 3.1 es como sigue: Figura 3.22. Ventana de diálogo para obtener el “stem-and-leaf” de la variable gpa La opción By variable se usa cuando se quiere comparar “stem-and-leaf” de dos o más grupos y aqui se escribe la variable que clasifica en grupos. Si se elige la opción Trim outliers en la ventana de diálogo del “stem-and-leaf” se puede detectar los "outliers". La opción Increment permite ajustar el número de ramas del “stem”. En la ventana session aparecerá el “stem-and-leaf” de la variable gpa que se muestra a continuación. La unidad de la hoja 0.1 indica la posición de una hoja en la escala decimal. O sea 3 | 6 significa 3.6. En el ejemplo anterior se han hecho uso de 5 subramas para cada rama principal. Se pueden usar 2 ó 5 subramas por cada rama principal. Si se usa dos subramas, entonces la primera subrama contiene las hojas del 0 al 4 y la segunda las hojas del 5 al 9. En el caso 44 Edgar Acuña Capítulo 3 Estadística Descriptiva de 5 subramas, entonces la primera contiene las hojas 0 y 1, la segunda las hojas 2 y 3 y así sucesivamente hasta la quinta que contiene las hojas 8 y 9. Stem-and-Leaf Display: gpa Stem-and-leaf of gpa N = 28 Leaf Unit = 0.10 1 2 1 4 2 233 5 2 5 7 2 77 9 2 88 (7) 3 0001111 12 3 233 9 3 455 6 3 66666 1 3 8 Figura 3.23: Ventana de sesión para una gráfica de caracteres de tallo y hoja para la variable GPA Frecuentemente, los programas estadísticos como MINITAB, redondean los datos antes de hacer el “stem-and-leaf”. Por ejemplo si la muestra contiene los datos, 93 135 178 245 267 342 307, éstos pueden ser redondeados a 90 130 170 240 340 300 y luego el “stem-and-leaf” tendría las ramas 0,1,2 y 3 con unidad de hoja igual a 10. Ejemplo 3.5 El impuesto por cajetilla de cigarrillos en Puerto Rico es de 83 centavos. Los siquientes datos muestran los impuestos en los 50 estados de los Estados Unidos (Nuevo Dia, 4 de Sept. de 1997) Estado tax Estado tax Virg 0.025 DakS 0.330 Kent 0.030 Flor 0.339 CarN 0.050 Nebr 0.340 CarS 0.070 Neva 0.350 Georg 0.120 Iowa 0.360 Wyom 0.120 Mary 0.360 Tenn 0.130 Cali 0.370 Indi 0.155 Maine 0.370 Alab 0.165 Oreg 0.380 Misso 0.170 NewJ 0.400 WestV 0.170 Texas 0.410 Missi 0.180 Wisco 0.440 Mont 0.180 Illin 0.440 Colo 0.200 DakN 0.440 Lousi 0.200 Verm 0.440 NMexi 0.210 Minn 0.480 Oklah 0.230 Conn 0.500 Delaw 0.240 NewY 0.560 Kans 0.240 Ariz 0.580 Ohio 0.240 Hawa 0.600 45 Edgar Acuña Capítulo 3 Estadística Descriptiva NHans 0.250 RhodI 0.610 Utah 0.265 WasDC 0.650 Idaho 0.280 Michi 0.750 Alask 0.290 Massa 0.760 Penn 0.310 Washi 0.825 Arka 0.315 Hacer un “stem-and-leaf” de los datos. Solución: Usaremos la opción Trim de Stem-and-Leaf para detectar “outliers”. Stem-and-Leaf Display: tax Stem-and-leaf of tax N = 51 Leaf Unit = 0.010 2 0 23 4 0 57 7 1 223 13 1 567788 20 2 0013444 24 2 5689 (5) 3 11334 22 3 566778 16 4 014444 10 4 8 9 5 0 8 5 68 6 6 01 4 6 5 3 7 3 7 56 HI 82 Interpretación: El “stem-and-leaf” indica mucha variabilidad y asimetría hacia la derecha. Además, el estado de Washington representa un “outlier” superior. La unidad de la hoja es .01, o sea 3  7 representa 0.37. Se han usado dos subramas por cada rama principal 3.5 Cálculo de Medidas Estadisticas Hay dos tipos principales de Medidas Estadísticas: Medidas de Tendencia Central y Medidas de Variabilidad. Las medidas de tendencia central dan una idea del centro de la distribución de los datos. Las principales medidas de este tipo son la media o promedio aritmético, la mediana, la moda y la media podada. 46 Edgar Acuña Capítulo 3 Estadística Descriptiva Las medidas de variabilidad expresan el grado de concentración o dispersión de los datos con respecto al centro de la distribución. Entre las principales medidas de este tipo están la varianza, la desviación estándar, el rango intercuartílico. También hay medidas de posición, como son los cuartiles, deciles y percentiles. Además, una medida de asimetría (“skewness”) y una medida de aplanamiento (“kurtosis”). 3.5.1 Medidas de Centralidad La media o promedio se obtiene sumando todos los datos y dividiendo entre el número de datos. Es decir, si x 1 , x 2 ,…,x n , representan las observaciones de una variable X en una muestra de tamaño n, entonces la media de la variable X está dada por: n x x n i i ∑ = = 1 Ejemplo 3.6. Supongamos que los siguientes datos representan el precio de 9 casas en miles. 74, 82, 107, 92, 125, 130, 118, 140, 153 Hallar el precio promedio de las casas. Solución: 4 . 113 9 153 140 118 130 125 92 107 82 74 = + + + + + + + + = x Es decir que el costo promedio de una casa será 113,400. La media es afectada por la asimetría de la distribución de los datos y por la presencia de “outliers” como se muestra en el siguiente ejemplo. Ejemplo 3.7. Supongamos que en el ejemplo anterior se elige adicionalmente una casa cuyo precio es de 500,000. Luego el promedio será: 1 . 152 10 500 153 140 118 130 125 92 107 82 74 = + + + + + + + + + = x En este caso la media da una idea errónea del centro de la distribución, la presencia del “outlier” ha afectado la media. Sólo dos de las 10 casas tienen precio promedio mayor de 152,100. 47 Edgar Acuña Capítulo 3 Estadística Descriptiva Otras propiedades de la media son: a) Que el valor de la media debe estar entre el mayor dato y el menor dato. b) Si a cada dato de la muestra se les suma (o resta) una constante entonces, la media queda sumada (o restada) por dicha constante. c) Si a cada dato de la muestra se le multiplica (o divide) por una constante entonces, la media queda multiplicada (o dividida) por dicha constante. Las propiedades b) y c) se usan para hacer cálculos rápidos de la media. La mediana es un valor que divide a la muestra en dos partes aproximadamente iguales. Es decir, como un 50 por ciento de los datos de la muestra serán menores o iguales que la mediana y el restante 50 por ciento son mayores o iguales que ella. Para calcular la mediana primero se deben ordenar los datos de menor a mayor. Si el número de datos es impar, entonces la mediana será el valor central. Si el número de datos es par entonces, la mediana se obtiene promediando los dos valores centrales. Ejemplo 3.8. Calcular la mediana de los datos del Ejemplo 3.6. Solución: Ordenando los datos en forma ascendente, se tiene: 74, 82, 92, 107, 118, 125, 130, 140, 153. En este caso el número de datos es impar así que la mediana resulta ser 118 que es el quinto dato ordenado. A diferencia de la media, la mediana no es afectada por la presencia de valores anormales, como lo muestra el siguiente ejemplo: Ejemplo 3.9. Calcular la mediana de los datos del Ejemplo 3.7. Solución: Ordenando los datos, se tiene: 74, 82, 92, 107, 118, 125, 130, 140, 153, 500. en este caso el número de datos es par, así que la mediana resulta ser el promedio de los dos valores centrales: 2 125 118 + =121.5 y el dato anormal 500 no afecta el valor de la mediana. Cuando la distribución es asimétrica hacia la derecha, la mediana es menor que la media. Si hay asimetría hacia la izquierda entonces la mediana es mayor que la media y cuando hay simetría, ambas son iguales. 48 Edgar Acuña Capítulo 3 Estadística Descriptiva La moda es el valor (o valores) que se repite con mayor frecuencia en la muestra. La Moda puede aplicarse tanto a datos cuantitativos como cualitativos. Ejemplo 3.10. Los siguientes datos representan el número de veces que 11 personas van al cine mensualmente: 3, 4, 4, 5, 0, 2, 1, 5, 4, 5, 4 Hallar la moda. Solución: La Moda es 4. O sea que predominan más las personas que asisten 4 veces al mes al cine. Ejemplo 3.11. Los siguientes datos representan tipos de sangre de 9 personas A, O, B, O, AB, O, B, O, A Hallar la Moda. Solución: La Moda es el tipo de sangre O. La media podada es una medida más resistente que la media a la presencia de valores anormales. Para calcular la Media Podada, primero se ordenan los datos en forma creciente y luego se elimina un cierto porcentaje de datos (redondear si no da entero) en cada extremo de la distribución, finalmente se promedian los valores restantes. Ejemplo 3.12. Hallar la media podada del 5 por ciento para los datos del Ejemplo 3.9. Solución: El 5 por ciento de 10 datos es .5 que redondeando a 1 implica que hay que eliminar el mayor (500) y el menor (74) dato. Luego la media podada del 5 por ciento será 375 . 118 8 153 140 130 125 118 107 92 82 = + + + + + + + . 3.5.2 Medidas de Variabilidad El rango o amplitud es la diferencia entre el mayor y menor valor de la muestra. Mientras mayor sea el rango existe mayor variabilidad. Lamentablemente el rango es bien sensible a la presencia de "outliers". La varianza es una medida que da una idea del grado de concentración de los datos con respecto a la media. De primera intención una medida para determinar el grado de concentración de los datos sería el promedio de las desviaciones con repecto a la media, es decir n x x n i i ∑ = − 1 ) ( , pero se 49 Edgar Acuña Capítulo 3 Estadística Descriptiva puede mostrar que la suma de las desviaciones es cero, ya que las desviaciones positivas y negativas se compensan, luego la anterior medida de variabilidad sería siempre 0. La siguiente tabla ilustra lo anteriormente mencionado para un conjunto de datos. X x- x 5 -6 8 -3 12 1 17 6 14 3 10 -1 Sumas 66 0 La media de la muestra es 11. Si se cuadran las desviaciones se soluciona este problema y es así que aparece la varianza. La varianza de una muestra de n datos se calcula por: 1 ) ( 1 2 2 − − = ∑ = n x x s n i i Se divide por n-1 y no por n, porque se puede demostrar teóricamente que cuando se hace esto s 2 estima más eficientemente a la varianza poblacional Alternativamente se puede usar la fórmula: ) 1 ( ) ( 1 2 1 2 2 − − = ∑ ∑ = = n n x x n s n i n i i i Es bastante riesgoso usar solamente el valor de la varianza para concluir que la muestra es muy o poco variable. Su uso es más que todo para comparar la variabilidad de dos o más conjuntos de datos de la misma variable en estudio. Además la varianza tiene el problema de que está expresada en unidades cuadráticas en relación a la medida de los datos tomados. La desviación estándar es la raíz cuadrada positiva de la varianza y tiene la ventaja que está en las mismas unidades de medida que los datos. Se representa por s. De por si sola la desviación estándar no permite concluir si la muestra es muy variable o poco variable. Al igual que la varianza es usada principalmente para comparar la variabilidad entre grupos. Ejemplo 3.13. Las muestras siguientes: 50 Edgar Acuña Capítulo 3 Estadística Descriptiva muestra1 16 18 25 28 23 42 24 47 38 19 22 34 muestra2 116 118 125 128 123 142 124 147 138 119 122 134 tienen medias 28 y 128 respectivamente, e igual desviación estándar s = 10.018. O sea que se puede decir en términos absolutos que tienen igual variabilidad. Sin embargo comparándola con los datos tomados se puede concluir que la muestra 1 es bastante variable, mientras que la muestra 2 es poco variable. Existe una medida llamada coeficiente de variación (CV) y que se calcula por x s CV = ×100% . Si el CV es mayor que 30% la muestra es muy variable y si CV<30% entonces no existe mucha variabilidad. Para el ejemplo el CV para la muestra 1 es 35.77 y para la muestra 2 es 7.82 concluyéndose que la muestra 1 es bastante variable y la muestra 2 no lo es. Criterio para detectar “outliers”. Un primer criterio para identificar si un dato es un “outlier” es el siguiente: Un dato que cae fuera del intervalo ) 3 , 3 ( s x s x + − puede ser considerado un “outlier”. Aún así el criterio no es muy confiable, puesto que la media, la varianza y la desviación estándar son afectadas por la presencia de “outliers”. Ejemplo 3.14. Dada la siguiente muestra 59, 62, 73, 79, 68, 77, 69, 71, 66, 98, 75 Determinar si 98 es un “outlier”. Solución: Como = x 72.45 y s=10.43. Se tiene que si un dato cae fuera del intervalo (41.15, 103.75) será considerado un “outlier”, 98 cae dentro de dicho intervalo por lo tanto no es “outlier”. 3.5.3. Medidas de Posición. Los Cuartiles: Son valores que dividen a la muestra en 4 partes aproximadamente iguales. El 25% de los datos son menores o iguales que el cuartil inferior o primer cuartil, representado por Q 1 . El siguiente 25 % de datos cae entre el cuartil inferior y la mediana, la cual es equivalente al segundo cuartil. El 75 % de los datos son menores o iguales que 51 Edgar Acuña Capítulo 3 Estadística Descriptiva el cuartil superior o tercer cuartil, representado por Q 3 , y el restante 25% de datos son mayores o iguales que Q 3 . Para calcular los cuartiles simplemente se ordenan los datos y luego Q 1 es la mediana de la primera mitad, o sea aquella que va desde el menor valor hasta la mediana. Similarmente Q 3 es la mediana de la segunda mitad, o sea aquella que va desde la mediana hasta el mayor valor. Ejemplo 3.15. Calcular los cuartiles de las siguientes muestras: a) 6, 8, 4, 12, 15, 17, 23, 18, 25, 11 Los datos ordenados serán: 4, 6, 8, 11, 12, 15, 17, 18, 23, 25 La primera mitad es: 4, 6, 8, 11, 12, luego Q 1 = 8 La segunda mitad es: 15, 17, 18, 23, 25, luego Q 3 = 18 b) 10, 22, 17, 13, 28, 40, 29, 18, 23, 39, 44 Los datos ordenados serán: 10, 13, 17, 18, 22, 23, 28, 29, 39, 40, 44 La primera mitad es: 10, 13, 17, 18, 22, 23, luego Q 1 = 2 18 17 + = 17.5 La segunda mitad es: 23, 28, 29,39, 40, 44, luego Q 3 = 2 39 29 + = 34 Una variante en este último caso es no usar la mediana. Es decir considerar que la primera mitad es 10, 13, 17, 18, y 22 y la segunda mitad es 28, 29, 39, 40, y 44. Así Q 1 sería 17 y Q 3 sería 39. Existen otros métodos de calcular cuartiles, por ejemplo MINITAB usa un proceso de interpolación para calcularlos. A la diferencia de Q 3 y Q 1 se le llama Rango Intercuartílico, ésta es una medida de variabilidad que puede ser usada en lugar de la desviación estándar, cuando hay “outliers”. Los Deciles: Son valores que dividen a la muestra en 10 partes iguales Los Percentiles: Dado un cierto porcentaje 100p, donde p varía entre 0 y 1, el percentil del 100p% es un valor tal que 100p% de los datos caen a la izquierda del percentil. En particular, la mediana y los cuartiles son percentiles. El primer cuartil es el percentil de 25%, la mediana es el percentil del 50% y el tercer cuartil es el percentil del 75%. 3.5.4 Cálculo de medidas estadísticas usando MINITAB. En MINITAB se pueden calcular simultáneamente varias medidas estadísticas de centralidad y de variabilidad para un conjunto de datos, para esto se elige la opción 52 Edgar Acuña Capítulo 3 Estadística Descriptiva Display Descriptive Statistics del submenú de Basic Statistics del menú STAT. La ventana de diálogo de Display Descriptive Statistics para calcular las medidas estadísticas de la variable gpa del Ejemplo 3.1 según sexo aparece de la siguiente manera: Figura 3.24. Ventana de diálogo para calcular medidas estadísticas de la variable gpa, clasificada por sexo. Los resultados aparecerán en la ventana Session, como sigue: Descriptive Statistics: gpa Variable sexo N N* Mean SE Mean StDev Minimum Q1 Median Q3 gpa f 20 0 3.145 0.103 0.463 2.200 2.755 3.290 3.588 m 8 0 3.016 0.187 0.528 2.150 2.555 3.160 3.185 Variable sexo Maximum gpa f 3.660 m 3.860 Donde: N representa el número de datos; N* representa en número de datos perdidos, Mean, la media muestral; Median, la Mediana; Tr Mean, la media podada del 5 por ciento; StDev, la desviación Estándar; SE Mean, el error estándar de la Media Muestral, o sea n s y los valores restantes representan el Mínimo, el Máximo y los cuartiles superior (Q 3 ) e inferior (Q 1 ) de cada variable. Si se oprime el botón Graphs antes de oprimir OK en la ventana de diálogo anterior se obtiene la siguiente ventana de diálogo que permite hacer histogramas, “individual value plot”, y “boxplot”. 53 Edgar Acuña Capítulo 3 Estadística Descriptiva Figura 3.25. Ventana de diálogo de la opción Graph de Display Descriptive Statistics Al OK dos veces se obtendrán los siguientes resultados: Figura 3.26. Gráficas del Histograma con la curva Normal y un “Individual Value Plot” También es posible obtener un resumen gráfico del conjunto de datos eligiendo Stat-> Basic Statistics -> Graphical Summary. Los resultados que ofrece Minitab son: Figura 3.27. Resultados de pedir Graphical Summary Es posible guardar los valores de varias medidas estadísticas en columnas, para esto se elige la opción Store Descriptive Statistics del submenú Basic Statistics. Al oprimir la opción Statistics sale un listado de medidas estadisticas que pueden ser guardadas. Las ventanas de diálogo se muestran a continuación: 54 Edgar Acuña Capítulo 3 Estadística Descriptiva Figura 3.28. Listado de todas las medidas estadísticas que pueden calucularse con MINITAB Finalmente, también es posible obtener medidas estadísticas, eligiendo la secuencia CALCColumns Statistics. 3.6 El Diagrama de Caja (“Boxplot”) El “Boxplot” es una importante gráfica del Análisis Exploratorio de Datos. Al igual que el histograma y el “stem-and-leaf”, permite tener una idea visual de la distribución de los datos. O sea, determinar si hay simetría, ver el grado de variabilidad existente y finalmente detectar “outliers”. Pero además, el “Boxplot” es bien útil para comparar grupos, es una alternativa gráfica a la prueba estadística t de Student, si se comparan dos grupos o la prueba F del análisis de varianza si se comparan más de dos grupos. Todo lo anterior es posible debido a que se puede hacer múltiples boxplots en una misma gráfica, en cambio los histogramas y “stem-and- leaf” salen en secuencia uno por página. En MINITAB hay varias maneras de obtener el “Boxplot” de un conjunto de datos, la primera es eligiendo la opción Boxplot del menú Graph. En la Figura 3.24 se muestra las ventanas de diálogo para obtener el boxplot de la variable creditos de los datos del Ejemplo 3.1. La variable Y que aparece debajo de Graph Variables es aquella de la cual se desea obtener el “Boxplot”, y la variable X es usada solo en el caso que se quiera comparar varios grupos usando sus “boxplots”. Por ejemplo X puede ser: Sexo de la persona, método de Enseñanza, etc. En Annotation se puede poner título, notas al pie, marcar la mediana y también los “outliers” En Options se puede elegir Transpose X by Y para sacar el boxplot en forma horizontal. 55 Edgar Acuña Capítulo 3 Estadística Descriptiva Figura 3.29. Ventanas de diálogo para hallar el Boxplot El boxplot que se obtiene se muestra a continuación. Figura 3.30. “Boxplot” para la variable créditos del Ejemplo 3.1 Interpretación: La línea central de la caja representa la Mediana y los lados de la caja representan los cuartiles. Si la Mediana está bien al centro de la caja, entonces hay simetria. Si la Mediana está más cerca a Q 3 que a Q 1 entonces la asimetría es hacia la izquierda, de lo contrario la asimetría es hacia la derecha. Si la caja no es muy alargada entonces se dice que no hay mucha variabilidad. Si no hay “outliers” entonces las líneas laterales de la caja llegan hasta el valor mínimo por abajo, y hasta el valor máximo por arriba. Cuando hay “outliers” entonces éstos aparecen identificados en la figura y las lineas laterales llegan hasta los valores adyacentes a las fronteras interiores. Si las lineas laterales son bastantes alargadas entonces significa que los extremos de la distribución de los datos se acercan lentamente al eje X. 56 Edgar Acuña Capítulo 3 Estadística Descriptiva Las fronteras interiores se calculan como Q 1 - 1.5RIQ y Q 3 + 1.5RIQ respectivamente, donde RIQ = Q 3 -Q 1 es el Rango Intercuartílico. Las fronteras exteriores se calculan por Q 1 - 3RIQ y Q 3 + 3RIQ. Si un valor cae más alla de las fronteras exteriores se dice que es un "outlier" extremo, en caso contrario el outlier es moderado. Un "outlier" moderado se representa por * y uno extremo por 0. En el “boxplot” de créditos la mediana es 113, y hay dos “outliers” inferiores 13 y 15. Hay asimetría hacia la izquierda y no hay mucha variabilidad. Una segunda manera de obtener un “boxplot” es eligiendo la opción Character Graphs del menú Graph y luego boxplot del listado que aparece. En este caso el “boxplot” es de modo texto. Pero aquí se puede notar que los “outliers” son extremos. MTB > BoxPlot 'créditos'. Boxplot ----------- OO ------------I + I---- ----------- +---------+---------+---------+---------+---------+------ créditos 0 25 50 75 100 125 Otra alternativa de hacer un boxplot en MINITAB es elegir la opción EDA del menú Stat y luego seleccionar boxplot del listado que aparece. Aqui el boxplot que resulta es de modo gráfico. 3.7 Organización y Presentación de datos Bivariados 3.7.1 Datos bivariados categóricos. Para organizar datos de dos variables categóricas o cualitativas se usan tablas de doble entrada. Los valores de una variable van en columnas y los valores de la otra variable van en filas. Para hacer esto en MINITAB se elige la opción Tables del menú Stat. y luego la opción Cross Tabulation del submenú deTables. Hay dos maneras de usar Cross Tabulation dependiendo de como se han entrado los datos. Primero, cuando los datos de cada variable están dados en dos columnas distintas. O sea, como si hubiesen sido las contestaciones de un cuestionario. 57 Edgar Acuña Capítulo 3 Estadística Descriptiva Ejemplo 3.16. Supongamos que deseamos establecer si hay relación entre las variables tipo de escuela superior y la aprobación de la primera clase de matemáticas que toma el estudiante en la universidad, usando los datos de 20 estudiantes que se muestran abajo: Est escuela aprueba Est escuela aprueba 1 priv si 11 públ si 2 priv no 12 priv no 3 públ no 13 públ no 4 priv si 14 priv si 5 públ si 15 priv si 6 públ no 16 públ no 7 públ si 17 priv no 8 priv si 18 públ si 9 públ si 19 públ no 10 priv si 20 priv si Asumiendo que los datos son entrados en dos columnas: C1: Escuela y C2: aprueba, la ventana de diálogo de Cross Tabulation and Chi-Square se completerá como aparece en la siguiente figura: Figura 3.31. Ventana de diálogo para hacer una tabla de contigencia de escuela versus aprueba El contenido de la tabla de session es el que sigue. 58 Edgar Acuña Capítulo 3 Estadística Descriptiva Tabulated statistics: escuela, aprueba Rows: escuela Columns: aprueba no si All priv 3 7 10 30 70 100 37.50 58.33 50.00 15 35 50 públ 5 5 10 50 50 100 62.50 41.67 50.00 25 25 50 All 8 12 20 40 60 100 100.00 100.00 100.00 40 60 100 Cell Contents: Count % of Row % of Column % of Total Interpretación: Cada celda contiene 4 valores: La Frecuencia Absoluta, el porcentaje que representa la celda con respecto al total de la fila, el procentaje que representa la celda con respecto al total de la columna, el porcentaje que representa la celda con respecto al total global. Por ejemplo, si cogemos los números de la primera celda, significa que hay 7 estudiantes que son de escuela privada y aprueban el examen. Un 70% de los estudiantes de escuela privada aprueban el examen, 58.33% de los que aprueban el examen son de escuela privada y 35% son estudiantes de escuela pública y aprueban el examen. La segunda situación donde Cross Tabulation es usada, es cuando las frecuencias absolutas de cada celda están totalizados, como en el siguiente ejemplo. Ejemplo 3.17. Los siguientes datos se han recopilados para tratar de establecer si hay relación entre el Sexo del entrevistado y su opinión con respecto a una ley del Gobierno. Sexo Opinion Conteo male si 10 male no 20 male abst 30 female si 15 female no 31 female abst 44 Usar MINITAB para construir una tabla de contingencia y responder además las siguientes preguntas: a) ¿Qué porcentaje de los entrevistados son mujeres que se abstienen de opinar? b) De los entrevistados varones. ¿Qué porcentaje está en contra de la ley? c) De los entrevistados que están a favor de la ley. ¿Qué porcentaje son varones? 59 Edgar Acuña Capítulo 3 Estadística Descriptiva d) De los que no se abstienen de opinar ¿Qué porcentaje son varones? Solución: En este caso se entra la columna c3 (‘conteo’ ) en la ventanita correspondiente a Frequencies are in que aparece en la ventana de dialogo de Cross Tabulation . Los resultados serán como sigue: Tabulated statistics: Sexo, Opinion Using frequencies in Conteo Rows: Sexo Columns: Opinion abst no si All female 44 31 15 90 48.89 34.44 16.67 100.00 59.46 60.78 60.00 60.00 29.33 20.67 10.00 60.00 male 30 20 10 60 50.00 33.33 16.67 100.00 40.54 39.22 40.00 40.00 20.00 13.33 6.67 40.00 All 74 51 25 150 49.33 34.00 16.67 100.00 100.00 100.00 100.00 100.00 49.33 34.00 16.67 100.00 Cell Contents: Count % of Row % of Column % of Total a) % 33 . 29 100 150 44 = × b) % 33 . 33 100 60 20 = × (20/60)x100=33.33% c) % 00 . 40 100 25 10 = × (10/25)x100=40.00% d) = × + + 100 ) 51 25 ( ) 20 10 ( % 00 . 39 100 46 30 = × Cuando se tiene dos variables categóricas se pueden hacer gráficas de barras agrupadas ("bars in clusters") o en partes componentes ("stacked bars") para visualizar la relación entre ellas. Ejemplo 3.18. Hacer una gráfica de barras agrupadas para mostrar la distribución de los estudiantes por sexo según programa académico para los datos del Ejemplo 3.1. 60 Edgar Acuña Capítulo 3 Estadística Descriptiva Para hacer una gráfica de barras agrupadas se debe elegir Cluster en la ventana de diálago principal. Luego, en la segunda ventana, se eligen las variables que se utilizarán. Como se quiere una gráfica de estudiantes por programa por sexo, se elige primero la variable programa y luego la varible sexo. Figura 3.32. Ventana de diálogo para hacer una gráfica de barras agrupadas Oprimiendo la opción Labels, se puede especificar el título de la gráfica y las etiquetas de las columnas. Luego, se obtiene la siguiente gráfica de barras agrupadas Figura 3.33. Gráfica de barras agrupadas de variable programa según sexo Ejemplo 3.19. La siguiente tabla muestra el número de estudiantes subgraduados matriculados en el Recinto Universitario de Mayaguez de la Universidad de Puerto Rico en el primer semestre del año académico 96-97. 61 Edgar Acuña Capítulo 3 Estadística Descriptiva Facultad Hombres Mujeres Artes y Ciencias 1713 2492 Admistración de Empresas 637 1257 Ingeniería 2885 1720 Agricultura 806 331 Hacer una gráfica de barras agrupadas para comparar el número de estudiantes por sexo en cada facultad. Solución: Primero que nada hay que entrar los datos en 3 columnas: Facultad, Sexo y cantidad. Luego se elige Graphs-> Bar Chart. Las opciones de la primera ventana se eligen como se muestra en la Figura 3.34. Figura 3.34. Ventana de diálogo para la gráfica de barras agrupadas del Ejemplo 3.19. Luego de escribir el título deseado en Labels, se oprime ok para obtener la siguiente gráfica. 62 Edgar Acuña Capítulo 3 Estadística Descriptiva Figura 3.35. Gráficas de barras agrupadas para la variable Facultad según Sexo. Ejemplo 3.20. Hallar una gráfica de partes componentes para comparar los estudiantes (por programa) según el tipo de escuela de donde proceden, usando datos del ejemplo 3.1. Solución: Bajo la opción de Gráfica -> Bar Chart, las opciones que se muestran en la figura 3.31. Figura 3.36: Ventanas de diálogo para una gráfica de partes componentes Luego, en la ventana de Scale -> Axes and Ticks elija la opción “Transpose value and category scales” y en la ventana de Labels coloque el título de la gráfica y los valores correspondientes a las barras. La gráfica resultante se muestra en la Figura 3.37. Figura 3.37. Gráfica de barras en partes componentes para la variable Programa según Escuela 63 Edgar Acuña Capítulo 3 Estadística Descriptiva Algunas veces ocurre que una variable cuantitativa es convertida en categórica agrupándola en clases o grupos. Por ejemplo, la edad puede ser convertida en cualitativa si se consideran grupos de edades. Similarmente, años de educación pueden ser convertida en cualitativa si se consideran niveles de educación. Ejemplo 3.21. La siguiente gráfica muestra la distribución de la población en Puerto Rico según grupos de edades y por sexo. Figura 3.38: Distribución de la población por grupo de edades en Puerto Rico 3.7.2 Datos que contienen una variable cualitativa y otra cuantitativa Un ejemplo de un conjunto de dos variables en el cual una variable es cualitativa y la otra cuantitativa puede el conjunto compuesto por método de enseñanza (cualitativa) y nota obtenida por el estudiante (cuantitativa). Otro ejemplo sería, el conjunto compuesto por la variable cualitativa profesión de una persona y la variable cuantitativa salario anual. La forma estándar de presentar los datos es en columnas donde cada columna representa un valor de la variable cualitativa y los valores dentro de cada columna representan valores de la variable cuantitativa. En general el objetivo es comparar los valores de la variable cualitativa según los valores de la variable cuantitativa, esto se lleva a cabo con una técnica llamada análisis de varianza (ver capítulo 10). La gráfica más adecuada para representar este tipo de información es el "Boxplot". La gráfica de la Figura 3.39 muestra los “boxplots” de los promedios académicos de los estudiantes varones y mujeres del Ejemplo 3.1. 64 Edgar Acuña Capítulo 3 Estadística Descriptiva Interpretación: De la gráfica se puede ver que en promedio las mujeres tienen mejor promedio académico (GPA) que los hombres, y que la distribución de sus GPA es ligeramente más variable. Además no hay “outliers”. Figura 3.39: Boxplot para comparar los promedios de hombres y mujeres 3.7.3 Datos Bivariados Continuos Si se quiere representar la relación entre dos variables cuantitativas entonces se usa un diagrama de dispersión (“Scatterplot”). Para obtener un diagrama de dispersión entre dos variables X e Y se usa la opción Scatterplots del menú Graph. La ventana de diálogo para hacer el diagrama de dispersión del promedio académico (gpa) versus el tamaño de la familia usando los datos del Ejemplo 3.1 es la siguiente: Figura 3.40: Ventanas de diálogo para obtener el plot de gpa versus familia. La gráfica se muestra en la siguiente figura, donde además cada punto es marcado con el 65 Edgar Acuña Capítulo 3 Estadística Descriptiva Figura 3.41: Plot de gpa versus familia marcando cada punto con el programa del estudiante programa al cual pertenece el estudiante, ésto se consigue eligiendo la opción Labels -> Data Labels y luego entrando la variable programa en la ventanita correspondiente a Use labels from column. Para cambiar de símbolo, colores y tamaños a los puntos del plot, oprima el botón de la izquierda del ratón dos veces seguidos sobre cualquiera de los símbolos para abrir la opción Edit Attributes. Ejemplo 3.22. Es bien frecuente tener datos de una variable para un período de tiempo (dias, meses o años), estos tipos de datos son llamados series cronológicas o series temporales. Para este tipo de datos se pueden hacer gráficos de barras (aunque éstas son 66 1 9 5 0 1 9 5 1 1 9 5 2 1 9 5 3 1 9 5 4 1 9 5 5 1 9 5 6 1 9 5 7 1 9 5 8 1 9 5 9 1 9 6 0 1 9 6 1 1 9 6 2 1 9 6 3 1 9 6 4 1 9 6 5 1 9 6 6 1 9 6 7 1 9 6 8 1 9 6 9 1 9 7 0 1 9 7 1 1 9 7 2 1 9 7 3 1 9 7 4 1 9 7 5 1 9 7 6 1 9 7 7 1 9 7 8 1 9 7 9 1 9 8 0 1 9 8 1 1 9 8 2 1 9 8 3 1 9 8 4 1 9 8 5 1 9 8 6 1 9 8 7 1 9 8 8 1 9 8 9 1 9 9 0 1 9 9 1 1 9 9 2 1 9 9 3 1 9 9 4 1 9 9 5 1 9 9 6 1 9 9 7 1 9 9 8 0 1000000 2000000 3000000 4000000 5000000 year n u m e r o d e v i s i t a n t e s Numero visitantes a Puerto Rico desde 1950 a 1998 Hecho por Edgar Acuna 1 9 5 0 1 9 5 1 1 9 5 2 1 9 5 3 1 9 5 4 1 9 5 5 1 9 5 6 1 9 5 7 1 9 5 8 1 9 5 9 1 9 6 0 1 9 6 1 1 9 6 2 1 9 6 3 1 9 6 4 1 9 6 5 1 9 6 6 1 9 6 7 1 9 6 8 1 9 6 9 1 9 7 0 1 9 7 1 1 9 7 2 1 9 7 3 1 9 7 4 1 9 7 5 1 9 7 6 1 9 7 7 1 9 7 8 1 9 7 9 1 9 8 0 1 9 8 1 1 9 8 2 1 9 8 3 1 9 8 4 1 9 8 5 1 9 8 6 1 9 8 7 1 9 8 8 1 9 8 9 1 9 9 0 1 9 9 1 1 9 9 2 1 9 9 3 1 9 9 4 1 9 9 5 1 9 9 6 1 9 9 7 1 9 9 8 0 1000000 2000000 3000000 4000000 5000000 year n u m e r o d e v i s i t a n t e s Numero visitantes a Puerto Rico desde 1950 a 1998 Hecho por Edgar Acuna Edgar Acuña Capítulo 3 Estadística Descriptiva inadecuadas si el período de tiempo es muy grande) y gráficas lineales. Las siguientes gráficas se refieren al número de visitantes a Puerto Rico desde 1950 hasta 1998. Figura 3.42 Gráfica de barras del número de Figura 3.43 Gráfica de barras del número visitantes a Puerto Rico entre 1950-1998. de visitantes a Puerto Rico entre 1950-1998. 3.8 El Coeficiente de Correlación El coeficiente de correlación lineal, llamado también coeficiente de correlación de Pearson, se representa por r y es una medida que representa el grado de asociación entre dos variables cuantitativas X e Y. Se calcula por Donde: n x x S n i i n i i xx ∑ ∑ = = − = 1 2 1 2 ) ( , n y y S n i i n i i yy ∑ ∑ = = − = 1 2 1 2 ) ( y n y x y x S n i n i i i n i i i xy ∑ ∑ ∑ = = = − = 1 1 1 ) )( ( S xx es llamada la Suma de Cuadrados corregida de X, S yy es la Suma de Cuadrados Corregida de Y, y S xy es la Suma de Productos de X e Y. Tanto S xx como S yy no pueden ser negativas, S xy si puede ser positiva o negativa. La correlación varia entre -1 y 1. Un valor de r cercano a 0 indica una relación lineal muy pobre entre las variables. Un valor cercano a 1 indica que hay una buena relación lineal entre la variable y además al aumentar una de ellas la otra también aumenta. Un valor cercano a –1 indica una buena relación lineal pero al aumentar el valor de una de las variables la otra disminuye. En términos generales un valor de correlación mayor que 0.75 ó menor que -0.75 indica una buena relación lineal entre las variables. Aunque el tipo de datos que se está usando influye en el momento de decidir si la correlación es suficientemente alta. Si los datos provienen de un área donde se exige mucha precisión, como en ingeniería o medicina entonces la correlación debe estar lo más cerca posible a 1 ó –1, en áreas como economía o en ciencias sociales una correlación de 0.6 en valor absoluto pudiera ser considerada aceptable. Pero si hay un consenso general que una correlación entre -0.3 y 0.3 es indicativo de una relación lineal bastante pobre entre las dos variables. Ejemplo 3.23. El dueño de una empresa que vende carros desea determinar si hay relación lineal entre los años de experiencia de sus vendedores y la cantidad de carros que venden. Los siguientes datos representan los años de experiencia (X) y las unidades de carros vendidas al año (Y), de 10 vendedores de la empresa. 67 yy xx xy S S S r = Edgar Acuña Capítulo 3 Estadística Descriptiva X(años) 3 4 6 7 8 12 15 20 22 26 Y(ventas) 9 12 16 19 23 27 34 37 40 45 Haciendo uso de la calculadora de MINITAB. Se obtienen los siguientes resultados Row years ventas Sxx Syy Sxy r 1 3 9 590.1 1385.6 889.4 0.983593 2 4 12 3 6 16 4 7 19 5 8 23 6 12 27 7 15 34 8 20 37 9 22 40 10 26 45 Interpretación: Existe una buena relación lineal entre los años de experiencia y las unidades que vende el vendedor. Además mientras más experiencia tiene el vendedor más carros venderá. Se puede usar los años de experiencia para predecir las unidades que venderá anualmente a través de una linea recta. En MINITAB, el coeficiente de correlación se puede obtener eligiendo la opción correlation del submenú Basic Statistics del menú Stat. Ejemplo 3.24. La siguiente salida muestra la correlación entre el tamaño de la familia del estudiante y su promedio académico gpa del Ejemplo 3.1. Correlations (Pearson) Correlation of gpa and familia = 0.061 Interpretación: La correlación de .061 indica una muy pobre relación lineal entre las variables familia y gpa. No tiene sentido predecir el promedio académico del estudiante usando el tamaño de su familia a través de una linea recta. 68 Edgar Acuña Capítulo 3 Estadística Descriptiva La Figura 3.36, muestra cuatro diagramas de dispersión y sus respectivas correlaciones. Notar que en los dos últimos plots la correlación es cercana a cero, pero en el primero de ellos no parece haber ningún tipo de relación entre las variables, en tanto que en el segundo no hay relación lineal pero si existe una relación cuadrática. 69 Edgar Acuña Capítulo 3 Estadística Descriptiva Figura 3.44: Valor de la correlación para diversos plots. El valor de correlación es afectado por la presencia de valores anormales, en la siguiente gráfica se puede ver el efecto de los valores anormales en el valor de la correlación para 4 diferentes relaciones. Figura 3.45: Efectos de valores anormales en la correlación 70 0 5 10 15 20 25 10 20 30 40 X Y 10 20 30 40 80 90 100 110 120 130 140 150 X Y 5 10 15 70 80 90 X Y 1 2 3 4 5 6 7 4 9 14 X Y Coeficiente de Correlacion para diversos plots r=.107 r=.005 r=-.993 r=.984 0 5 10 15 20 25 0 20 40 60 80 100 120 X Y 0 10 20 30 40 50 60 10 20 30 40 X Y 0 10 20 30 40 0 10 20 30 40 50 60 70 80 90 X Y 0 5 10 15 20 25 0 5 10 15 20 25 30 35 40 45 X Y Efecto de valores anormales en el valor de la correlacion r=.974 r=.984 r=.319 r=.371 Edgar Acuña Capítulo 3 Estadística Descriptiva Interpretación de la figura 3.45: En el primer caso existe un valor bastante anormal en la dirección vertical que hace que la correlación sea bastante bajo a pesar de que los otros valores parecen estar bastante alineados. En el segundo caso, existe un valor bastante alejado horizontalmente de la mayor parte de los datos y que hace que la correlación sea relativamente baja a pesar de que los otros valores muestran una alta asociación lineal. En el tercer caso hay, una observación bastante alejado en ambas direcciones sin embargo no tiene ningun efecto en la correlación. En el cuarto caso, hay un valor bastante alejado en ambas direcciones y las restantes observaciones están poco asociadas, pero el valor anormal hace que el valor de la correlación sea bastante alto. El cuadrado del coeficiente de correlación expresado en porcentaje es llamado el Coeficiente de Determinación (R 2 ). Un R 2 mayor de 70% indica una buena asociación lineal entre las variables X e Y. 3.9 Una introducción a Regresión Lineal. Si se ha determinado que la correlación lineal entre las variables Y y X es aceptable entonces el próximo paso es determinar la línea que representa la tendencia de la relación entre las dos variables cuantitativas, ésta es llamada la linea de regresión estimada. La variable Y es considerada como la variable dependiente o de respuesta y la variable X es considerada la variable independiente o predictora. La ecuación de la línea de regresión es Y Ł = αˆ + β ˆ X, donde: αˆ es el intercepto con el eje Y, y β ˆ es la pendiente de la linea de regresión. Ambos son llamados los coeficientes de la línea de regresión. Los estimadores αˆ y β ˆ son hallados usando el método de mínimos cuadrados, que consiste en minimizar la suma de los errores cuadráticos de las observaciones con respecto a la línea. Las fórmulas de cálculo son: xx xy s s = β ˆ y x y β α ˆ ˆ − = donde x es la media de los valores de la variable X y y es la media de los valores de Y. 71 Edgar Acuña Capítulo 3 Estadística Descriptiva Interpretación de los coeficientes de regresión: La pendiente β ˆ se interpreta como el cambio promedio en la variable de respuesta Y cuando la variable predictora X se incrementa en una unidad adicional. El intercepto αˆ indica el valor promedio de la variable de respuesta Y cuando la variable predictora X vale 0. Si hay suficiente evidencia de que X no puede ser 0 entonces no tendría sentido la interpretación de αˆ En MINITAB, es posible obtener simultáneamente, el “scatterplot”, el coeficiente R 2 y la línea de regresión. Para esto, se sigue la secuencia StatRegression Fitted line Plot como se muestra en Figura 3.46: Figura 3.46: Las opciones del menú regression Ejemplo 3.25. Supongamos que se desea establecer una relación entre la nota que un estudiante obtiene en la parte de aprovechamiento matemático de ingreso (CEEB) y el Promedio académico al final de su primer año de universidad (GPA). Se toma una muestra de 15 estudiantes y se obtiene los siguientes datos: Est CEEB GPA 1 425 2.81 2 495 2.56 3 600 2.92 4 610 3.18 5 612 2.51 6 648 3.43 72 Est CEEB GPA 8 660 3.16 9 665 2.73 10 670 2.82 11 720 3.04 12 710 2.42 13 735 2.97 14 780 3.33 15 790 3.12 Edgar Acuña Capítulo 3 Estadística Descriptiva 7 652 2.72 Obtener el diagrama de dispersión de los datos, la ecuación de la línea de regresión y trazar la línea encima del diagrama de dispersión. Solución: Primero hay que notar que la variable independiente es CEEB y la variable dependiente esGPA. Luego, la ventana de diálogo para la opción Fitted line Plot lucirá como sigue: Figura 3.47: Ventana de diálogo para obtener el diagrama de dispersión y la linea de regresión de gpa versus familia y la gráfica aparecerá como CEEB G P A 800 700 600 500 400 3.50 3.25 3.00 2.75 2.50 S 0.291371 R-Sq 12.1% R-Sq(adj) 5.4% Regresión de GPA versus CEEB GPA = 2.210 +0.001087 CEEB Figura 3.48: Diagrama de puntos y linea de regresión de gpa versus familia Interpretación: El coeficiente de determinación es .121 y como la pendiente de la línea de regresión es positiva resulta ser que la correlación es .11, esto indica una pobre relación lineal entre las variables CEEB y GPA. O sea que es poco confiable predecir GPA basado en el CEEB usando una linea. 73 Edgar Acuña Capítulo 3 Estadística Descriptiva La ecuación de la línea de regresión aparecerá en la ventana session Regression The regression equation is y = 2.21 + 0.00109 x Predictor Coef StDev T P Constant 2.2099 0.5319 4.15 0.001 x 0.0010872 0.0008122 1.34 0.204 S = 0.2914 R-Sq = 12.1% R-Sq(adj) = 5.4% Interpretación: La pendiente 0.00109 indica que por cada punto adicional en el College Board el promedio del estudiante subiría en promedio en 0.00109, o se podría decir que por cada 100 puntos más en el College Board el promedio académico del estudiante subiría en .109. Por otro lado, si consideramos que es imposible que un estudiante sea admitido sin tomar el College Board, podemos decir que no tiene sentido interpretar el intercepto. El uso de los botones Options y Storage y de otros aspectos de regresión serán discutidos más detalladamente en el capítulo 8 de este texto. Predicción Uno de los mayores usos de la línea de regresión es la predicción del valor de la variable dependiente dado un valor de la variable predictora. Esto se puede hacer fácilmente sustituyendo el valor dado de X en la ecuación. Por ejemplo, supongamos que deseamos predecir el promedio académico de un estudiante que ha obtenido 600 puntos en la parte matemática del examen de ingreso. Sustituyendo x =600 en la ecuación de la línea de regresión se obtiene Y=2.21+.00109*600=2.21+.654=2.864. Es decir que se espera que el estudiante tenga un promedio académico de 2.86. MINITAB también tiene una opción que permite hacer predicciones pero, esto será tratado en el capítulo 9 del texto. 74 Edgar Acuña Capítulo 3 Estadística Descriptiva EJERCICIOS 1. La siguiente tabla representa el crecimiento poblacional y vehicular de Puerto Rico desde 1950. Año Población Vehículos 1950 2,200,000 57,120 1960 2,345,000 172,077 1970 2,710,000 478,340 1980 3,182,328 1,129,312 1990 3,522,037 1,582,061 1996 3,782,862 2,168,697 Hacer una gráfica que represente la información dada. 2. La siguiente tabla representa los porcentajes de familias americanas en diversos niveles de ingreso en 1969 y 1994. Ingreso year 1969 year 1994 Less 10,000 7.9 8.7 10,000 - 14,999 6.7 6.9 15,000 - 24,999 15.8 15.0 25,000 - 34,999 19.1 14.3 35,000 - 49,999 24.7 18.0 50,000 - 74,999 17.8 19.9 75,000 - 99,999 5.0 8.8 100,000 and over 2.9 8.4 a) Hacer una gráfica de barras que permita comparar como han cambiado los porcentajes de familias a varios niveles de ingreso de 1969 a 1994. Comentar la gráfica. b) Hacer un pie-chart para ver la distribución de personas por nivel de ingreso en los dos años. 3. La siguiente tabla muestra los casos reportados y las muertes por SIDA en Puerto Rico desde 1992 hasta 1996. Número de casos tipo año 2386 reportados 92 1633 muertos 92 2619 reportados 93 1647 muertos 93 2253 reportados 94 1211 muertos 94 1903 reportados 95 800 muertos 95 1152 reportados 96 259 muertos 96 75 Edgar Acuña Capítulo 3 Estadística Descriptiva Hacer una gráfica de Barras agrupadas para representar la información. 4. Hacer un"Pie Chart" para representar la siguiente información Casos de SIDA en Puerto Rico desde 1992 Región Casos Aguadilla 600 Mayaguez 930 Arecibo 1199 Ponce 3602 Bayamón 3220 San Juan 2334 Caguas 2352 Fajardo 608 5. Los siguientes datos representan tiempos de sobrevivencia (en dias) de 30 pacientes aquejados de cáncer 42 45 51 46 340 81 243 63 155 151 37 138 245 377 537 455 776 163 20 1234 201 2970 456 1235 1581 40 3808 1804 719 365 a) Calcular la media, la mediana y la desviación estándar. Comentar sus resultados. b) Hacer el histograma de los datos y comentar la gráfica. c) Hacer el "stem-and-leaf". d) Hacer el "Boxplot" de los datos y comentar la gráfica. 6. Elegir la mejor contestación en cada una de las siguientes preguntas I. ¿Cuál de las siguientes afirmaciones es FALSA? a) Una variable es cualitativa si los valores que asume expresan atributos o categorias. b) Tipo de sangre es una variable cualtitativa. c) La Mediana puede usarse cuando los datos son cualitativos. d) Un gráfico de barras se usa cuando los datos son cualitativos. II. ¿Cuál de las siguientes afirmaciones es CIERTA? a) La muestra al azar es aquella que hace que la media de la muestra sea igual a la media poblacional. b) La varianza de una muestra siempre es mayor que la varianza poblacional porque en la primera se divide por n-1. c) En la fórmula de la varianza de la muestra se divide por n-1 porque excluyendo un dato se obtiene un mejor estimado de la varianza poblacional. d) Una muestra al azar hace que la media muestral sea un estimado bastante confiable de la media poblacional. III. ¿Cuál de los siguientes enunciados es CIERTO? a) La media es una mejor medida que la mediana cuando todos los datos son pequeños. 76 Edgar Acuña Capítulo 3 Estadística Descriptiva b) La mediana es afectada por la presencia de outliers. c) La varianza es afectada por la presencia de outliers. d) La media es mejor medida que la mediana cuando la muestra es asimetrica a la derecha. IV. Un histograma es asimétrico hacia la derecha. a) Si todos los datos son positivos. b) Si para valores bajos de la variable la frecuencia es alta, y para valores grandes la frecuencia es baja. c) Si para valores bajos de la variable la frecuencia es baja, y para valores grandes la frecuencia es alta. d) Si la media de los datos es positivo. V. ¿Cuál de las siguientes afirmaciones con respecto a la amplitud de clase es FALSA? a) La amplitud es igual al rango o alcance dividido entre el número de clases. b) La amplitud es igual a la diferencia de dos marcas de clases consecutivas. c) La amplitud de una clase es CERO si su frecuencia absoluta es CERO. d) La amplitud es igual a la diferencia de dos limites inferiores de clases consecutivas. VI. ¿Cuál de las siguientes afirmaciones es CIERTA? a) El stem-and-leaf es una mejor gráfica que el histograma cuando existen outliers. b) El stem-and-leaf sólo se usa para valores positivos. c) El stem-and-leaf es una mejor gráfica que el histograma cuando los datos son solamente números enteros. d) El stem-and-leaf permite recuperar los datos de la muestra lo cual no se puede hacer con el histograma. 7. Dado el siguiente stem-and-leaf 2 34578 3 459 4 21 5 0 Si, la unidad de la hoja=.01. ¿Cuál de los siguientes enunciados es FALSO? a) 5 | 0 representa 0.50. b) La muestra tiene 11 datos. c) La muestra es asimétrica a la izquierda . d) La mediana es 0.34. 8. ¿Cuál de los siguientes enunciados es FALSO? a) El rango intercuartílico es una medida de variabilidad. b) Si la desviación estandar es grande no se puede concluir que la muestra tenga mucha variabilidad. 77 Edgar Acuña Capítulo 3 Estadística Descriptiva c) Un dato es considerado un outlier si es un número positivo bien grande. d) Un dato es considerado un outlier extremo si cae fuera del intervalo (Q1-3RIQ , Q3+ 3RIQ). 9. ¿Cuál de los siguientes no es un método de Muestreo? a) Sistemático b) Estocástico c) Estratíficado d) Por Conglomerados. 10. ¿Cuál de las siguientes afirmaciones es CIERTA? a) El parámetro es un valor que varía con la muestra tomada. b) El valor estadístico por lo general permanece constante. c) Una muestra al azar es aquella que hace que la media muestral sea un estimador confiable de la media poblacional. d) Un Censo es un listado de todos los elementos de una muestra. 11. ¿Cuál de las siguientes afirmaciones es FALSA? a) Una variable es cuantitativa discreta si los valores que asume resultan de hacer conteos. b) La opinión que expresa una persona es una variable cualitativa. c) La Media puede usarse cuando los datos son cualitativos. d) Un gráfico de barras se usa cuando los datos son cualitativos. 12. ¿Cuál de los siguientes NO es una gráfica para datos cualitativos? a) Pie- Chart b) Gráficas de barras agrupadas c) El dotplot d) Ninguna de las anteriores 13. ¿Cuál de las siguientes No es una acción que se puede hacer al elegir el botón Annotation de las ventana Histogram? a) Poner título a la gráfica. b) Poner notas al pie de la gráfica. c) Indicar cuántos datos hay en cada intervalo de clase. d) Poner nombre a los ejes coordenados. 14. La opción del menú TABLES que se usa para obtener una tabla de frecuencias en MINITAB es: a) FREQUENCIES b) TABLE c) COUNT d) TALLY 15. Los resultados de ejecutar los comandos en MINITAB eligiendo las opciones del menú aparecen en la ventana a) PROJECT b) WORKSHEET c) SESSION d) FILE 16. ¿Cuál de los siguientes enunciados es CIERTO? 78 Edgar Acuña Capítulo 3 Estadística Descriptiva a) La mediana es siempre un dato de la muestra tomada. b) El "dotplot" es una gráfica para distribución de datos discretos. c) El tiempo de espera para que un estudiante escoja sus secciones en la matricula es una variable cuantitativa discreta. d) Si el tamaño de la muestra es n entonces la mediana es n/2. 17. Marcar con una C si es cierto y una F si es falso en cada uno de los siguientes enunciados. a) La mediana es siempre un dato de la muestra tomada. b) El parámetro es un valor que caracteriza a la muestra. c) El número de carros que pasan por una estación de peaje entre las 7am y 9am es una variable cualitativa continua. d) Las gráficas Circulares y de Barras se usan para presentar datos cualitativos. e) Si el tamaño de la muestra es n, entonces la mediana es (n+1)/2. f) El comando PRINT en MINITAB se usa para imprimir los resultados en el papel . g) Un Censo es un listado de todos los elementos de la población. 18. Los siguientes datos representan el número de asesinatos reportados durante 15 fines de semana en una ciudad: 4 5 0 5 3 2 1 4 3 2 4 4 1 12 5 a) ¿Cuál es el número promedio de asesinatos durante los fines de semana? b) ¿Cuál es el número más frecuente de asesinatos en los fines de semana? c) ¿Piensa Ud. que 12 es un valor anormal? Justifique su contestación. 19. La siguiente tabla muestra la distribución de frecuencias de una muestra de los tiempos (en minutos) que tienen que esperar las personas para ser atendidos en un Banco: Intervalos Frec. Abs Frec. Rel. Frec. Abs. Frec. Rel. de clases f Porcentual Acumul. Porc. Acum.. 1.0 - 4.9 3 5.0 - 8.9 10 9.0 - 12.9 14 13.0 - 16.9 25 17.0 - 20.9 17 21.0 - 24.9 9 25.0 - 28.9 2 a) ¿Cuál es la amplitud de cada clase? b) ¿Cuál es la marca de clase (midpoint) de la tercera clase? c) ¿Cuál es el tamaño de la muestra? d) Cálcular las frecuencias relativas porcentuales y las frecuencias acumuladas. e) Hacer el histograma y comentar acerca de su forma. 20. Una muestra tiene el siguiente BOXPLOT 79 * Edgar Acuña Capítulo 3 Estadística Descriptiva 6 8 11 12 16 Poner una X al lado de las afirmaciones que son CIERTAS a) La muestra es asimétrica hacia la izquierda. b) El dato menor es 6. c) Existe mucha variabilidad. d) La media de la muestra es 10. e) El * representa un valor mayor que 18. f) La frontera exterior superior es 25. g) El valor adyacente inferior es 6. h) El valor mayor es 16. 21. Los siguientes datos representan la tasa de criminalidad por cada 100000 habitantes en cada estado de los Estados Unidos. STATE Murder Rape Robbery Assault Burglary Larceny Auto Alabama 14.2 25.2 96.8 278.3 1135.5 1881.9 280.7 Alaska 10.8 51.6 96.8 284 1331.7 3369.8 753.3 Arizona 9.5 34.2 138.2 312.3 2346.1 4467.4 439.5 Arkansas 8.8 27.6 83.2 203.4 972.6 1862.1 183.4 California 11.5 49.4 287 358 2139.4 3499.8 663.5 Colorado 6.3 42 170.7 292.9 1935.2 3903.2 477.1 Connecticut 4.2 16.8 129.5 131.8 1346 2620.7 593.2 Delaware 6 24.9 157 194.2 1682.6 3678.4 467 Florida 10.2 39.6 187.9 449.1 1859.9 3840.5 351.4 Georgia 11.7 31.1 140.5 256.5 1351.1 2170.2 297.9 Hawaii 7.2 25.5 128 64.1 1911.5 3920.4 489.4 Idaho 5.5 19.4 39.6 172.5 1050.8 2599.6 237.6 Illinois 9.9 21.8 211.3 209 1085 2828.5 528.6 Indiana 7.4 26.5 123.2 153.5 1086.2 2498.7 377.4 Iowa 2.3 10.6 41.2 89.8 812.5 2685.1 219.9 Kansas 6.6 22 100.7 180.5 1270.4 2739.3 244.3 Kentucky 10.1 19.1 81.1 123.3 872.2 1662.1 245.4 Louisiana 15.5 30.9 142.9 335.5 1165.5 2469.9 337.7 Maine 2.4 13.5 38.7 170 1253.1 2350.7 246.9 Maryland 8 34.8 292.1 358.9 1400 3177.7 428.5 Massachusetts 3.1 20.8 169.1 231.6 1532.2 2311.3 1140.1 Michigan 9.3 38.9 261.9 274.6 1522.7 3159 545.5 Minnesota 2.7 19.5 85.9 85.8 1134.7 2559.3 343.1 Mississippi 14.3 19.6 65.7 189.1 915.6 1239.9 144.4 Missouri 9.6 28.3 189 233.5 1318.3 2424.2 378.4 Montana 5.4 16.7 39.2 156.8 804.9 2773.2 309.2 Nebraska 3.9 18.1 64.7 112.7 760 2316.1 249.1 Nevada 15.8 49.1 323.1 355 2453.1 4212.6 559.2 New Hampshire 3.2 10.7 23.2 76 1041.7 2343.9 293.4 New Jersey 5.6 21 180.4 185.1 1435.8 2774.5 511.5 New Mexico 8.8 39.1 109.6 343.4 1418.7 3008.6 259.5 New York 10.7 29.4 472.6 319.1 1728 2782 745.8 North Carolina 10.6 17 61.3 318.3 1154.1 2037.8 192.1 80 Edgar Acuña Capítulo 3 Estadística Descriptiva North Dakota 0.9 9 13.3 43.8 446.1 1843 144.7 Ohio 7.8 27.3 190.5 181.1 1216 2696.8 400.4 Oklahoma 8.6 29.2 73.8 205 1288.2 2228.1 326.8 Oregon 4.9 39.9 124.1 286.9 1636.4 3506.1 388.9 Pennsylvania 5.6 19 130.3 128 877.5 1624.1 333.2 Rhode Island 3.6 10.5 86.5 201 1489.5 2844.1 791.4 South Carolina 11.9 33 105.9 485.3 1613.6 2342.4 245.1 South Dakota 2 13.5 17.9 155.7 570.5 1704.4 147.5 Tennessee 10.1 29.7 145.8 203.9 1259.7 1776.5 314 Texas 13.3 33.8 152.4 208.2 1603.1 2988.7 397.6 Utah 3.5 20.3 68.8 147.3 1171.6 3004.6 334.5 Vermont 1.4 15.9 30.8 101.2 1348.2 2201 265.2 Virginia 9 23.3 92.1 165.7 986.2 2521.2 226.7 Washington 4.3 39.6 106.2 224.8 1605.6 3386.9 360.3 West Virginia 6 13.2 42.2 90.9 597.4 1341.7 163.3 Wisconsin 2.8 12.9 52.2 63.7 846.9 2614.2 220.7 Wyoming 5.4 21.9 39.7 173.9 811.6 2772.2 282 a) Hacer un histograma con 7 clases de la variable robo de auto. Comentar la gráfica. b) Escoger cualquiera de las otras variables y hacer lo siguiente: i) Hacer un stem-and-leaf. Comentar su gráfica. ii) Hacer un boxplot. Comentar su gráfica. 22. Suponga que una Worksheet de MINITAB tiene 3 columnas: La primera es llamada Casos y contiene la cantidad de casos de SIDA reportados en Puerto Rico desde 1992 hasta 1996, la segunda columna llamada Tipo indica si son nuevos casos de SIDA en el año o si son casos de muertes por Sida, la tercera columna llamada year, contiene los años de la ocurrencia de los casos. Se desea hacer una gráfica de barras agrupadas. Indicar cómo se debe llenar la columna Y, la columna X y la columna Group variables de la ventana Chart y la ventana Chart-Options , las cuales se muestran en las siguientes figuras. 81 Edgar Acuña Capítulo 3 Estadística Descriptiva 23. Comentar la siguiente gráfica. 24. Los siguientes datos representan la duración en horas de un cierto tipo de baterias 0.4 1.5 0 0.9 0.8 1.2 1.1 1.4 2.3 1.3 2.2 1.6 2.1 1.2 2.4 1.9 2.9 1.7 a) Hacer el "stem-and-leaf" de los datos, usando subramas si es necesario. Indicar la unidad de la hoja y comentar la forma de la gráfica. 82 KFC ( 58, 9.8%) Burger King (113, 19.2%) Others (208, 35.3%) Taco Maker ( 63, 10.7%) Pizza Hut ( 51, 8.6%) McDonal's ( 97, 16.4%) Distribucion de restaurantes de comida rapida en Puerto Rico Edgar Acuña Capítulo 3 Estadística Descriptiva b) ¿Cuál es el tiempo promedio de la duración de las baterias? c) ¿Cuál es el tiempo más frecuente de duración de las baterias? d) Hallar la mediana de los tiempos de duración. e) Hallar la media podada del 10% de los tiempos de duración. 25. En un país se eligen 10 pueblos al azar y se anota el ingreso personal promedio de los habitantes (en miles) y la tasa de divorcio (por cada 1000 personas). Usar la siguiente tabla de datos para responder las siguientes preguntas. Obs Ingreso Divorcio X Y X 2 Y 2 XY ---------------------------------------------------------- 1 7.7 7.2 59.29 51.84 55.44 2 10.9 3.3 118.81 10.89 35.97 3 10.1 2.9 102.01 8.41 29.29 4 9.3 3.7 86.49 13.69 34.41 5 9.9 4.4 98.01 19.36 43.56 6 9.2 4.1 84.64 16.81 37.72 7 6.5 6.9 42.25 47.61 44.85 8 10.0 3.4 100.00 11.56 34.00 9 9.4 3.0 88.36 9.00 28.20 10 8.7 3.2 75.69 10.24 27.84 ..---------------------------------------------------------- Sumas 91.7 42.1 855.55 199.41 371.28 a) Hacer un plot de los datos. b) Hallar el coeficiente de correlación r e interpretarlo. c) Hallar la línea de regresión estimada e interpretar las constantes αˆ y β ˆ . d) Trazar la línea de regresión sobre el plot de la parte a). e) Hallar la tasa de divorcio estimada si el ingreso es de 11,000. 83 CAPÍTULO 4 CONCEPTOS BÁSICOS DE PROBABILIDADES La teoría de probabilidades tuvo su comienzo con los problemas de juegos al azar que fueron propuestos a Pascal y Fermat por Cavalier de Mere a mediados de 16! "l inicio del siglo #$%%& se public' el libro de (acobo )ernoulli titulado "rts Conjectandi *+l "rte de Conjeturar, donde se trataba los e-perimentos obtenidos por repeticiones independientes de e-perimentos simples que tienen s'lo dos resultados posibles! M.s tarde& en ese mismo siglo& /e Moivre introdujo la curva 0ormal! /urante el siglo #%# Laplace present' la definici'n cl.sica de probabilidad en su libro Theorie analytique des probabilities, lamentablemente esta definici'n no es muy precisa y tiene limitaciones! Para esa misma 1poca& los estudios de 2auss acerca de los Mínimos Cuadrados contribuyeron a dar m.s importancia a la curva 0ormal! 3in embargo las probabilidades no fueron consideradas como una parte de las matem.ticas 4asta que en 1566 apareci' la definici'n a-iom.tica en el libro Foundations of the theory of probability escrito por 7olmogorov! 8tros matem.ticos rusos como Liapunov y 7int4c4ine tambi1n contribuyeron en esta etapa! +n la secci'n 1 de este capítulo primero definimos lo que es un +-perimento "leatorio y luego +spacios Muestrales y +ventos! +n la secci'n 9& se considera las diferentes definiciones de Probabilidad comenzando con la definici'n a-iom.tica seguida de la definici'n cl.sica& la frecuencial y la subjetiva! La secci'n 6 trata de Probabilidad Condicional e incluye tambi1n la regla de Probabilidad :otal y la ;egla de )ayes! La secci'n < de este capítulo es acerca de la %ndependencia de +ventos! +n la =ltima secci'n nos ocupamos del C.lculo de Probabilidades usando t1cnicas de "n.lisis Combinatorio! 4.1 Espacio Muestra ! E"e#tos 4.1.1 E$peri%e#tos Aeatorios ! Espacios Muestraes >n e$peri%e#to es una observaci'n de un fen'meno que ocurre en la naturaleza! ?ay dos tipos de e-perimentos@ E$peri%e#tos Deter%i#&sticos' 3on aquellos en donde no 4ay incertidumbre acerca del resultado que ocurrir. cuando 1stos son repetidos varias veces! Por ejemplo& Medir el .rea de un sal'n de clase! Medir la estatura de una persona adulta! +n ambos casos una vez que se conoce el resultado del e-perimento en una repetici'n& entonces se sabe con certeza lo que ocurrir. en la siguiente repetici'n! +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades E$peri%e#tos Aeatorios' 3on aquellos en donde no se puede anticipar el resultado que ocurrir.& pero si se tiene una completa idea acerca de todos los resultados posibles del e-perimento cuando 1ste es ejecutado! "dem.s& asumiendo que el e-perimento se puede repetir muc4as veces bajo las mismas condiciones se pueden tratar de construir un modelo que represente el comportamiento del e-perimento! " continuaci'n algunos ejemplos@ +-p 1@ Lanzar un dado y anotar el n=mero que aparece en la cara superior! +-p 9@ Lanzar un par de monedas y anotar el resultado que aparece en cada una de ellas! +-p 6@ >n vendedor de la +nciclopedia )rit.nica visita tres casas ofreciendo la colecci'n y se anota $ si vende o 0 si no vende en cada casa! +-p <@ 3e anota el n=mero de boletos de lotería que 4ay que comprar 4asta ganarse el premio mayor! +-p B@ 3e anota el tiempo que 4ay que esperar para ser atendidos en un )anco! Espacio Muestra' +s el conjunto de posibles resultados de un e-perimento aleatorio! ;epresentaremos el espacio muestral por 3 y cada elemento de 1l es llamado un punto muestral! " continuaci'n daremos los espacios muestrales de cada uno de los e-perimentos anteriores! { } 6& B& <& 6& 9 &1 1 = S { } X X X C C X C C S & & & 9 = { } NNN NVN NNV VNN NVV VNV VVN VVV S & & & & & & & 6 = { } &! !! 6& B& <& 6& 9& 1 < = S { } [ ) ∞ ≡ ≥ = & @ B t t s Los espacios muestrales cuyos elementos resultan de 4acer conteos son llamados espacios %uestraes (iscretos y por lo general son subconjuntos de los n=meros enteros! "lgunos de estos espacios muestrales tienen un n=mero finito de elementos y otros no! /e los espacios muestrales mencionados anteriormente 1 S & 9 S y 6 S son espacios muestrales discretos finitos& en tanto que < S es un espacio muestral discreto infinito! Los espacios muestrales cuyos elementos resultan de 4acer mediciones son llamados espacios %uestraes co#ti#uos y por lo general son intervalos en la recta ;eal! B S es un espacio muestral continuo! C6 +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades 4.1.). E"e#tos >n E"e#to es un resultado particular de un e-perimento aleatorio! +n t1rminos de conjuntos& un evento es un subconjunto del espacio muestral! Por lo general se le representa por las primeras letras del alfabeto! " continuaci'n daremos ejemplos de eventos correspondientes a los e-perimentos aleatorios definidos anteriormente! "@ Due salga un n=mero par al lanzar un dado! { } 6 & < & 9 = A )@ Due salga por lo menos una cruz! { } XX X C C X C C B & & & = C@ Due el vendedor de enciclopedias venda a lo m.s una de ellas! { } NNN NVN NNV VNN NVV VNV VVN VVV C & & & & & & & = /@ Due se gane el premio mayor con menos de 5 boletos comprados! { }C &E & 6& B& <& 6& 9& 1 = D +@ Due 4aya que esperar m.s de 1 minutos para ser atendidos! { } ( )∞ ≡ > = & 1 1 @ t t E"e#to Nuo' +s aqu1l que no tiene elementos! 3e representa por φ! +l espacio muestral tambi1n puede ser considerado como un evento y es llamado el E"e#to Se*uro. +n lo que estaremos interesados es en calcular la probabilidad de ocurrencia de eventos& y para esto lo m.s importante es determinar el n=mero de elementos que 4ay en el evento m.s que describir todos los elementos del mismo! +n la 3ecci'n B veremos el uso de t1cnicas de an.lisis combinatorio para determinar el n=mero de elementos de un espacio muestral y de eventos! Figura <!1@ /iagrama de $enn de B A∪ C< ) " 3 +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades 4.1.+. Reacio#es e#tre e"e#tos U#i,# (e e"e#tos' /ados dos eventos A y B de un mismo espacio muestral su uni'n se representa por B A ∪ y es el evento que contiene los elementos que est.n en A o en B& o en ambos! +l evento B A ∪ ocurre si al menos uno de los dos eventos ocurre! /ada una colecci'n n A A & ! ! ! & 1 de eventos& su uni'n denotada por  n i i A 1 = ocurre si al menos uno de los , 1 * & n i A i ≤ ≤ ocurre! +n la Figura <!1 est. representada la uni'n de dos eventos usando el /iagrama de $enn! I#tersecci,# (e e"e#tos' /ados dos eventos A y B de un mismo espacio muestral su intersecci'n se representa por B A∩ y es el evento que contiene los elementos que est.n en A y B al mismo tiempo! +l evento B A ∩ ocurre cuando los eventos ocurren simult.neamente! Figura <!9@ /iagrama de $enn de B A∩ "lgunas veces en este te-to tambi1n denotaremos la intersecci'n de los eventos A y B por AB o por A y B! 3i φ = ∩ B A entonces se dice que A ! B son Mutua%e#te e$cu!e#tes o (is-u#tos. /ada una colecci'n n A A & ! ! ! & 1 de eventos& su intersecci'n denotada por ∩ n i i A 1 = ocurre si todos los eventos , 1 * & n i A i ≤ ≤ ocurren a la vez! Figura <!6@ /iagrama del complemento de " CB " A 3 B A∩ ) " 3 +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades E"e#to Co%pe%e#to' +l complemento de un evento A se representa por A y es el evento que contiene todos los elementos que no est.n en A! +l evento A ocurre si " no ocurre! Propie(a(es (e reacio#es e#tre e"e#tos 3ean A, B y C elementos de un mismo espacio muestral 3 entonces& las siguientes propiedades son ciertas! 1! Propie(a( Co#%utati"a A B B A ∪ = ∪ A B B A ∩ = ∩ ). Propie(a( Asociati"a C B A C B A ∪ ∪ = ∪ ∪ , * , * C B A C B A ∩ ∩ = ∩ ∩ , * , * +. Propie(a( Distri.uti"a , * , * , * C A B A C B A ∪ ∩ ∪ = ∩ ∪ , * , * , * C A B A C B A ∩ ∪ ∩ = ∪ ∩ 4. Le!es (e De Mor*a# a, B A B A ∩ = ∪ b, B A B A ∪ = ∩ :odas estas propiedades se pueden aplicar a m.s de dos eventos! La parte a, de la ley de /e Morgan significa que lo opuesto a que al menos uno de los eventos " y ) ocurra es que ninguno de los dos ocurra! La parte b, significa que ambos eventos no ocurren simult.neamente si al menos uno de ellos no ocurre! Las generalizaciones de las leyes de /e Morgan para una colecci'n de eventos n A A & ! ! ! & 1 & son las siguientes@ aF, ∩  n i i n i i A A 1 1 = = = bF,  ∩ n i i n i i A A 1 1 = = = C6 +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades +s decir& lo opuesto a que al menos un evento ocurra es que ninguno ocurra& y lo opuesto a que todos los eventos ocurran simult.neamente es que al menos uno de ellos no ocurra! 4.) M/to(os (e asi*#ar Pro.a.ii(a(es 4.).1 M/to(o A$io%0tico La Probabilidad es considerada como una funci'n de valor real ( ) ⋅ " definida sobre una colecci'n de eventos de un espacio muestral 3 que satisface los siguientes a-iomas@ 1! ( ) 1 = S " 9! 3i " es un evento de 3 entonces ( ) ≥ A " ! 6! 3i ! ! ! ! & & ! ! ! & 1 n A A & es una colecci'n de eventos disjuntos *por pares, entonces ∑ ∞ = ∞ = = 1 1 , * , * i i i i A " A "  ! +sta es llamada el a-ioma de aditividad contable! "sumiendo que φ = = = + + ! !! 9 1 n n A A se sigue del a-ioma 6 que ∑ = = = n i i n i i A " A " 1 1 , * , *  & 1sta es llamada la propiedad de aditividad finita! Propie(a( 1 ( ) = φ " Propie(a( ) , * 1 , * A " A " − = Propie(a( +. 3i B A ⊆ entonces ( ) ( ) B " A " ≤ Considerando S B = & se concluye de la propiedad 6 que "*A, # 1 para cualquier evento A de S! CE +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades Propie(a( 4. Re*a A(iti"a (e a Pro.a.ii(a( , * , * , * , * B A " B " A " B A " ∩ − + = ∪ Figura <!<@ /iagrama de $enn de las regiones de "∪ )! $iendo la Figura <!<& es claro que , * B A A B A ∩ ∪ = ∪ y que , * , * B A B A B ∩ ∪ ∩ = donde las uniones del lado derec4o son disjuntas *ver Figura,! Luego& por el "-ioma 6 se tiene que , * , * , * B A " A " B A " ∩ + = ∪ y , * , * , * B A " B A " B " ∩ + ∩ = ! ;estando ambas igualdades se obtiene que , * , * , * , * B A " A " B " B A " ∩ − = − ∪ de donde se obtiene la regla aditiva! Las relaciones ente las probabilidades de dos eventos A y B tambi1n pueden resumirse en la siguiente tabla de doble entrada@ A A B , * B A " ∩ , * B A " ∩ , *B " B , * B A " ∩ , * B A " ∩ , *B " , * A " , * A " 1 E-e%po 4.1. (uan y Luis est.n solicitando ser admitidos en una univeridad! La probabilidad de que (uan sea admitido es !E y la probabilidad de que Luis sea admitido es !6! La probabilidad de que ambos sean admitidos es !<B! a, GCu.l es la probabilidad de que solamente uno de ellos sea admitidoH b, GCu.l es la probabilidad de que al menos uno de ellos sea admitidoH c, GCu.l es la probabilidad de que ninguno de los dos sea admitidoH Souci,#' "=n cuando podemos aplicar las propiedades anteriores& el problema puede ser resuelto de dos maneras@ i1 Usa#(o u# (ia*ra%a (e 2e##' CC B A∩ B A ∩ " ) B A∩ +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades Primero se determina la probabilidad de ocurrencia de cada regi'n& empezando por la interseci'n& como se muestra en la Figura <!B! 3ean los eventos J' Due (uan sea admitido y L@ Due Luis sea admitido! Luego& a, La probabilidad de que s'lo uno de ellos sea admitido es < ! 1B ! 9B ! , * , * = + = ∩ + ∩ $ % " $ % " b, La probabilidad de que al menos uno de ellos sea admitido es C B ! , * = ∪ $ % " c, La probabilidad de que ninguno de ellos sea admitido es 1 B ! , * = ∩ $ % " ii1 Usa#(o u#a ta.a (e casi3icaci,# cru4a(a' +n este caso se llenan las celdas de una tabla de doble entrada& cada entrada de la tabla representa la probabilidad de ocurrencia de un evento! +n este caso sería % % $ !<B !1B !6 $ !9B !1B !< !E !6 1! Las celdas que aparecen en claro fueron datos del problema& las que aparecen en gris se llenaron aplicando propiedades! Figura <!B@ /iagrama de $enn para el +jemplo <!1! E-e%po 4.). >na empresa tiene dos maneras A ! B de presentar un nuevo producto al mercado! 3i presenta el producto de la manera A la probabilidad de que el producto sea e-itoso es !<< y si lo presenta de la manera B la probabilidad de 1-ito se reduce a !95! La probabilidad de que el producto fracase con ambas maneras de presentaci'n es !6E! GCu.l es la probabilidad de que el producto sea e-itoso con ambas formas de presentaci'nH Souci,#' C5 !9B !<B !1B ( L 3 !1B +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades 3ean los eventos A@ Due el producto sea e-itoso con la manera A y B@ que el producto sea e-itoso con la manera B! :enemos que 4allar , * B A " ∩ ! Por la ley de /e Morgan se obtiene que 6E ! , * , * = ∩ = ∪ B A " B A " ! "sí& 66 ! 6E ! 1 , * 1 , * = − = ∪ − = ∪ B A " B A " ! Luego aplicando la regla aditiva se obtiene que la probabilidad de que el producto sea e-itoso con ambas maneras de presentaci'n es@ 1 ! 66 ! 95 ! << ! , * , * , * , * = − + = ∪ − + = ∩ B A " B " A " B A " La Figura <!6 muestra el diagrama de $enn correspondiente! >sando una tabla de doble entrada se tendría lo siguiente@ " A ) !1 !15 !95 B !6< !6E !E1 !<< !B6 1! Figura <!6@ /iagrama de $enn para el +jemplo <!9! La propiedad < se puede aplicar a m.s de dos eventos! "si para tres eventos A& B y C se tiene que@ , * , * , * , * , * , * , * , * C B A " C B " C A " B A " C " B " A " C B A " ∩ ∩ + ∩ − ∩ − ∩ − + + = ∪ ∪ E-e%po 4.+. ;osa& Carmen y "lberto estudian juntos para un e-amen! La probabilidad de que ;osa pase es !6B& de que Carmen pase es !EB y de que "lberto pase es !B! La probabilidad de que ;osa y Carmen pasen es !BB& de que Carmen y "lberto pasen es !6B y de que ;osa y "lberto pasen es !9B! La probabilidad de que los tres pasen es !9! GCu.l es la probabilidad de que@ a, "l menos uno de ellos pase el e-amenH b, 3olamente uno de ellos pase el e-amenH c, Carmen y "lberto pasen el e-amen pero no ;osaH d, "lberto no pase el e-amen pero sí al menos una de las mujeresH e, 0inguno pase el e-amenH Souci,#' 5 !6< !1 !15 !6E +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades La mejor manera de resolver el problema es 4acer un diagrama de $enn para 1l mismo y determinar la probabilidad de ocurrencia de cada regi'n& esto se muestra en Figura <!E! Figura <!E@ /iagrama de $enn para el +jemplo <!6! Luego& a a, 5 B ! , * = ∪ ∪ A C & " b' 9 ! 1 ! B ! B ! , * , * , * = + + = ∩ ∩ + ∩ ∩ + ∩ ∩ A C & " A C & " A C & " c, 1 B ! , * = ∩ ∩ A C & " d, <B ! B ! 6B ! B ! , , ** = + + = ∩ ∪ A & C " e, 1 B ! , * = ∩ ∩ A C & " 4.).). M/to(o C0sico >n espacio muestral finito I & !! !& J 1 n ( ( S = se dice que es E5uipro.a.e si cada uno de sus elementos tiene la misma probabilidad de ocurrencia& es decir n ( " i 1 , * = para todo n i &!!!& 1 = ! E-e%po 4.4. 3e lanza un par de dados legales y distinguibles& entonces su espacio muestral dado por@ ( ) { }6& B& <&6 &9& 1 & @ & = = j i ji S tiene 66 resultados& cada uno de ellos con probabilidad de ocurrencia 66 1 ! E-e%po 4.6. /e una urna que contiene B bolas rojas y 6 negras se e-traen dos bolas& una por una y con reposici'n& entonces el espacio muestral@ 51 ; C !1B !B !B !1 !1B !B !6B !9 " +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades { } N N N & & N & & S & & & = S tiene < resultados posibles los cuales no ocurren con la misma probabilidad por 4aber distintos n=meros de bolas de cada color! M.s adelante se ver. que ( ) 6 < 9 B = & & " & ( ) 6< 5 = N N " y ( ) ( ) 6< 1 B = = N & " & N " ! De3i#ici,#. 3i un e-perimento aleatorio tiene un espacio muestral equiprobable S que contiene ( ) S K elementos y A es un evento de S que ocurre de ( ) A K maneras disintas entonces la probabilidad de ocurrencia de A es@ , * K , * K , * S A A " = E-e%po 4.7. GCu.l es la probabilidad de que salga suma mayor que E al lanzar un par de dadosH Souci,#' +l evento A@ 3uma mayor que E& incluye los resultados que dan suma C& 5& 1& 11 ' 19 y 1stos ocurren de B& <& 6& 9 y 1 maneras repectivamente! Luego ( ) 1B K = A ! +n el +jemplo B se vio que ( ) 66 K = S & por lo tanto ( ) 66 1B = A " ! E-e%po 4.8. >n oficial de matrícula asigna 9 estudiantes@ A y B a < secciones@ < & 6 & 9 & 1 S S S S de un curso son asignados al azar! GCu.l es la probabilidad de que@ a, Los dos estudiantes sean asignados a la misma secci'nH b, 0ing=n estudiante sea asignado a la secci'n S6H c, "l menos un estudiante sea asignado a la secci'n S1H Souci,#' La siguiente tabla representa el espacio muestral del e-perimento S1 S) S+ S4 S1 S) S+ S4 " ) L L ) L " L " L ) L ) L L " " L L ) L " ) L ") L L L L " L ) L ") L L L ) " L L L ") L L ) L " L L L ") L L " ) ) " L L L L ) L a, 3ea el evento A@ Los dos estudiantes son asignados a la misma secci'n ( ) 1 6 < , * K , * K = = S A A " 59 +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades b, 3ea el evento B@ 0ing=n estudiante es asignado a la secci'n S6 ( ) 1 6 5 , * K , * K = = S B B " c, 3ea el evento C@ "l menos un estudiante es asignado a la secci'n S1! ( ) 1 6 E , * K , * K = = S C C " E-e%po' 4.9. 6 carros@ A, B y C se estacionan en fila! GCu.l es la probabilidad de que A y C queden estacionados uno detr.s del otroH Souci,#' +l siguiente es el espacio muestral del e-perimento@ E1 E) E+ " ) C " C ) ) " C ) C " C " ) C ) " 3ea el evento A@ Due los carros " y ) quedan estacionados uno detr.s del otro! Luego& ( ) 6 6 6 ! 6 < = = A " ! +jemplos m.s complicados requieren la aplicaci'n de t1cnicas de conteo para determinar el n=mero de maneras como puede ocurrir el e-perimento y el evento deseado! +stas t1cnicas son descritas en detalle en la 3ecci'n B de este capítulo! 4.).+ M/to(o :recue#cia 3i un e-perimento se repite n veces y ( ) A n de esas veces ocurre el evento A& entonces la frecuencia relativa de A se define por n A n f A , * = ! 3e puede notar que@ a, 1 = S f b, ≥ A f c, 3i " y ) son eventos disjuntos entonces B A B A f f f + = ∪ +s decir A f satisface los a-iomas de probabilidad! De3i#ici,#. La probabilidad del evento A es el valor al cual se apro-ima A f cuando el e-perimento se 4a repetido un gran n=mero de veces! 8 sea@ 56 +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades , * , * A " n A n → La probabilidad es el valor en el cual se estabiliza la frecuencia relativa del evento despu1s de 4aber repetido el e-perimento un n=mero grande de veces! La e-istencia de este valor est. garantizando por un resultado llamado La Ley de los Grandes números! /esde el punto de vista pr.ctico se puede considerar que la frecuencia relativa de un evento es un estimado de la probabilidad de ocurrencia del evento! +l problema principal de la definici'n frecuencial de probabilidad es que& el c.lculo de la probabilidad de un evento sería un proceso demasiado lento! +l otro problema es que algunas veces es imposible tener un n=mero grande de repeticiones del e-perimento& por ejemplo& si se desea calcular la probabilidad de que una persona en particular sobreviva una operaci'n quir=rgica& tendríamos que tener informaci'n acerca de todas las operaciones de dic4a persona& la cual por lo general es muy baja! E-e%po 4.;. 3eg=n los datos de la siguiente tabla& la probabilidad de que nasca un var'n en +stados >nidos es !B16! "Ao 6&1B5&5BC !B1666< 6&696&669 !B19CBC 0acimientos Frecuencia relativa de varones 6&695&96C !B19BE59 15E< 6&1B5&5BC !B1666< 15EB 6&1<<&15C !B16B16 15E6 6&16E&ECC !B19E5C9 15EE 6&696&669 !B19CBC 15EC 6&666&9E5 !B19C966 15E5 6&<5<&65C !B19611 5< +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades 15C 6&619&9BC !B19C659 15C1 6&695&96C !B19BE59 4.).4 Esti%a#(o a pro.a.ii(a( (e ocurre#cia (e u# e"e#to Con la ayuda de la computadora se puede simular la ejecuci'n de un e-perimento un gran n=mero de veces y 4aciendo uso de la definici'n frecuencial se puede estimar la probabilidad de ocurrencia de un evento! E-e%po 4.1<. 3upongamos que lanzamos un par de dados legales y tratamos de estimar la probabilidad de obtener suma E! Souci,#@ +sta probabilidad puede ser determinada e-actamente a trav1s del espacio muestral del e-perimento y es igual a 1 66 6 ! 6 1 6 6 6 = = ! 3in embargo& nosotros la podemos estimar a trav1s de simulaciones! Para esto elegimos la opci'n Random Data del men= Cac y luego la opci'n Sa%pe 3ro% cou%#s del submen= de Random Data! "4ora generamos 1 resultados posibles del primer dado y los guardamos en la columna C9 y luego 1 resultados posibles del segundo dado y los guardamos en C6! :ambi1n se puede generar 9 datos y guardarlos en C9 y C6 *1 en cada una,! La ventana de di.logo se muestra abajo! C1 contiene los n=meros 1& 9& 6& <& B& 6! 5B +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades Figura <!C! $entana de di.logo para la opci'n Sa%pes 3ro% cou%#s del men= Ra#(o% Data. +l pr'-imo paso es calcular la suma de los dos dados! +sto se obtiene eligiendo la opci'n Row Statistics del men= Cac. /e todas las medidas que aparecen se elige Su% y se guardan los resultados en C<! La ventana de di.logo es como sigue! 56 +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades Figura <!5! $entana de di.logo de Ro= Statistics del men= Cac Luego se construye una tabla de distribuci'n de frecuencias eligiendo Tables de Stat seguido de Tally de Tables! Los resultados aparecen en la ventana session y son como sigue@ Summary Statistics for Discrete Variables C4 Count Percent 2 3 3.00 3 8 8.00 4 9 9.00 5 19 19.00 6 10 10.00 7 14 14.00 8 13 13.00 9 13 13.00 10 2 2.00 11 7 7.00 12 2 2.00 N= 100 /e acuerdo a esta tabla la probabilidad de obtener suma E es !1<! Para refinar el estimado repetimos el e-perimento un mayor n=mero de veces! Los resultados aparecen en la siguiente tabla@ 0=mero de ;epeticiones Probabilidad +stimada de obtener 3uma E 1 !1< B !1C9 1 !1E1 9 !1BC B !1659 3e puede estimar la probabilidad de sacar suma E como !16 que est. bastante cerca del valor e-acto! 4.).6 M/to(o Su.-eti"o "lgunas personas de acuerdo a su propio criterio generalmente basado en su e-periencia& asignan probabilidades a eventos& 1stas son llamadas pro.a.ii(a(es su.-eti"as! Por ejemplo@ La Probabilidad de que llue)a *a+ana es <M! 5E +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades La Probabilidad de que haya un terre*oto en "uerto &ico antes del ,--- es casi cero! La Probabilidad de que el caballo Ca*ionero .ane el cl/sico del do*in.o es EBM! Puesto que las probabilidades subjetivas dependen de la persona que las 4ace se vuelven bien imprecisas y algunas veces puede 4aber una gran disparidad en las probabilidades que las personas asignan al mismo evento& especialmente cuando es poco o bastante probable que ocurra! 3in embargo probabilidades subjetivas son usadas frecuentemente en +stadística )ayesiana& en donde las probabilidades de ocurrencia de un evento que se van modificando seg=n la informaci'n que uno recoje acerca de otros eventos que puedan afectarlo! 4.+ Pro.a.ii(a( Co#(icio#a 3ean A y B dos eventos de un mismo espacio muestral S! La probabilidad condicional de A dado que B 4a ocurrido esta dado por@ , * , * , N * B " B A " B A " ∩ = +sto es equivalente a que el espacio muestral S se 4a reducido al evento B *$er Figura <!1,! Figura <!1! /iagrama de $enn de "*A0B, 3i el espacio muestral S es equiprobable lo anterior se convierte en@ , * K , * K , N * B B A B A " ∩ = E-e%po 4.11. 3e lanza un par de dados legales y distinguibles! GCu.l es la probabilidad de que solamente uno de los dos dados sea par si se sabe que la suma de los dos es mayor que CH 5C B A∩ ) " 3 +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades Souci,#' 3ean los eventos A@ Due solamente uno de los dos dados sea par y el evento condicionante B@ Due la suma sea mayor que C! Claramente ( ) 1 K = B y ( ) 6 K = ∩ B A ! Luego ( ) 1 6 N = B A " ! E-e%po 4.1). GCu.l es la probabilidad de que en una familia con tres 4ijos el menor de ellos sea var'n si el mayor lo esH Souci,#' 3ean los eventos& A@ +l menor de los 4ijos es var'n y el evento condicionante B@ +l 4ijo mayor es var'n! /e los C resultados del espacio muestral& claramente se tiene que ( ) < K = B y en consecuencia ( ) 9 1 N = B A " ! +ste resultado era esperado porque en teoría el se-o de uno de los 4ijos no afecta el se-o de los otros por venir! E-e%po 4.1+. +n una ciudad se 4izo una encuesta acerca de la opini'n de las personas adultas con respecto a una ley del gobierno! La siguiente tabla muestra los resultados de la encuesta clasificados seg=n el se-o del entrevistado! " Favor +n contra "bstenidos :otal 99 <6 9 CB :otal ?ombre 19 9C 1 1B 19 6E C <C Mujer 1 1B 19 6E :otal 99 <6 9 CB 3e elige al azar una persona a, GCu.l es la probabilidad de que favorezca la ley si resulta ser MujerH b, GCu.l es la probabilidad de que sea Mujer si resulta estar en contra de la leyH c, GCu.l es la probabilidad de que sea ?ombre si la persona elegida no se abstuvo de opinarH Souci,#' a, ( ) 6 E 1 N = 1 F " 55 +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades b, ( ) < 6 1 B N = C 1 " c, ( ) 6B < N = F 2 C 3 " 4.+.1 Re*a (e Pro(ucto. , N * , * , * A B " A " B A " = ∩ La f'rmula se obtiene despejando de la f'rmula de probabilidad condicional! 3e usa para calcular la probabilidad de que dos eventos ocurran al mismo tiempo! E-e%po 4!14. >na urna contiene 6 bolas rojas y < bolas blancas! 3e e-traen al azar dos bolas de la urna una por una y sin reposici'n! GCu.l es la probabilidad de que@ a, ambas bolas sean rojasH b, la segunda bola sea rojaH c, s'lo una de las dos bolas sea rojaH Souci,#' La forma m.s f.cil de resolver el problema es 4aciendo un diagrama de .rbol! Figura <!11@ /iagrama de .rbol para +jemplo <!1< Luego& a, ( ) E 1 6 9 E 6 9 1 = × = & & " b, ( ) ( ) ( ) E 6 <9 1C 6 6 E < 6 9 E 6 9 1 9 1 9 = = × + × = + = & B " & & " & " C' ( ) ( ) E < <9 9< 6 6 E < 6 < E 6 9 1 9 1 = = × + × = + & B " B & " E-e%po 4.16. 3eg=n la Comisi'n +lectoral de un país& el 5 por ciento de las esposas votan si sus esposos lo 4acen& y el 9 por ciento vota si su esposo no lo 4ace! "dem.s el E por ciento de los 4ombres casados votan! 3e elige al azar un matrimonio! GCu.l es la probabilidad de que@ 1 1 & 1 B 9 & 9 B 9 & 9 B 9N6 <N6 6N6 6N6 6NE <NE E N 1 6 N 9 E N 6 , * 9 1 = = 4 & & " E N 9 6 N < E N 6 , * 9 1 = = 4 B & " E N 9 6 N 6 E N < , * 9 1 = = 4 & B " E N 9 6 N 6 E N < , * 9 1 = = 4 B B " Primera )ola 3egunda )ola +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades a, ambos esposos votenH b, s'lo uno de los esposos voteH c1 vote la esposaH d, al menos uno de los esposos voteH Souci,#' 3ean los eventos V 1 @ Due vote el esposo y V ) @ Due vote la esposa! +l problema puede ser representado por el diagrama de .rbol de la Figura <!19! Luego& a, 66! 5! E! , * 9 1 = × = V V " b, 16 ! 9 ! 6 ! 1 ! E ! , * , * 9 1 9 1 = × + × = + V V " V V " c, ( ) 65 ! 6 ! 66 ! , * , * 9 1 9 1 9 = + = + = V V " V V " V " d, E6 ! 66 ! 65 ! E ! , * 9 1 = − + = ∪ V V " Figura <!19! /iagrama de .rbol para +jemplo <!1B! La regla del producto se puede aplicar a m.s de dos eventos de la siguiente manera@ , !!! N * ,!!! N * , N * , * , !!! * 1 1 9 1 6 1 9 1 1 − ∩ ∩ ∩ ∩ n n n A A A " A A A " A A " A " A A " +videntemente que el uso de un diagrama del .rbol se vuelve inadecuado cuando n es grande! E-e%po 4.17. >n lote contiene 1 artículos de los cuales < son defectuosos& se e-traen al azar 6 articulos uno por uno y sin reposici'n! GCu.l es la probabilidad de que@ a, Los tres salgan buenosH b, 3'lo uno de los tres salga defectuosoH 1 1 1 V 9 V 9 V 9 V !5 !1 !9 !C !6 9 V !E 1 V "*V 1 V 9 ,O*!E,*!5,O!66 "*V 1 ,O*!E,*!1,O!E "*V 9 ,O*!6,*!9,O!6 "*,O*!6,*!C,O!9< +sposo $ota +sposo $ota +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades Souci,#' a, 3ea el evento i B que el iL1simo artículo resulte bueno para ( ) 6 & 9 & 1 = i ! Luego& la probabilidad de que los tres salgan buenos es@ ( ) ( ) ( ) ( ) 6 1 C < 5 B 1 6 N N 9 1 6 1 9 1 6 9 1 = × × = = B B B " B B " B " B B B " b, 3ea el evento i D que el iL1simo artículo resulte defectuoso para 6 & 9 & 1 = i ! ( ) ( ) ( ) ( ) 9 1 C < 5 B 1 6 C B 5 < 1 6 C B 5 6 1 < 6 9 1 6 9 1 6 9 1 = × × + × × + × × = + + = D B B " B D B " B B D " defectuoso un solo " 4.+.) Pro.a.ii(a( Tota ! Re*a (e Ba!es Re*a (e a Pro.a.ii(a( Tota. 3ean B 1 ,5,B n una colecci6n de e)entos que forman una partici6n del espacio muestral 3 esto es S B n i i = =  1 y φ = ∩ j i B B para i ≠ j! 3ea " otro evento definido sobre 3 entonces@ ∑ = = n i i i B A " B " A " 1 , N * , * , * 0otar que , * 1  n i i B A S A A = ∩ = ∩ = ! Por la propiedad distributiva& se tiene que  n i i B A A 1 = ∩ = & donde la uni'n es disjunta! "plicando el tercer a-ioma se obtiene ∑ = ∩ = n i i B A " A " 1 , * , * ! Finalmente& se aplica la regla del producto a cada t1rmino de la suma y se obtiene la f'rmula de probabilidad total! Para una partici'n de S en dos eventos B y B se obtiene@ , N * , * , N * , * , * B A " B " B A " B " A " + = La siguiente figura ilustra la regla de la probabilidad total para una partici'n en B eventos! 1 9 )1 )9 )B " +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades Figura <!16! :eorema de la Probabilidad :otal E-e%po 4.18. +l E M de los pacientes de un 4ospital son mujeres y el 9M de ellas son fumadoras! Por otro lado el < M de los pacientes 4ombres son fumadores! 3e elige al azar un paciente del 4ospital! GCu.l es la probabilidad de que sea fumadorH Souci,#' 3ean los eventos F@ Due el paciente sea fumador& 3@ Due el paciente sea 4ombre y 1@ Due el paciente sea mujer! Claramente& ( ) ( ) ( ) ( ) ( ) 3 F " 3 " 1 F " 1 " F " N N + = /el enunciado del problema se tiene que ( ) E ! = 1 " & ( ) 6 ! = 3 " , ( ) 9 ! N = 1 F " y ( ) < ! N = 3 F " & sustituyendo estos valores en la f'rmula anterior se obtiene que ( ) 96 ! <! 6! 9! E ! = × + × = F " ! +n la Figura <!1< se muestra el diagrama de .rbol correspondiente al problema! 1 6 )6 )< 1 3 F F !C !< !6 !E !6 F F !9 1< ! 9 ! E ! , * = × = 1F " B6 ! C ! E ! , * = × = F 1 " 19 ! < ! 6 ! , * = × = 3F " 1C ! 6 ! 6 ! , * = × = F 3 " 3e-o del Paciente Condicion de Fumar +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades Figura <!1<! /iagrama de .rbol para +jemplo <!1E E-e%po 4.19. +n un 4ospital el 5CM de los beb1s nacen vivos! Por otro lado& <M de todos los partos son por c1sarea y de ellos el 56M sobreviven al parto! 3e elige al azar una mujer a la que no se va practicar c1sarea! GCu.l es la probabilidad de que el beb1 vivaH Souci,#' 3ean los eventos V@ que el bebe nazca vivo& C@ que el parto sea por c1sarea! /el enunciado del problema ( ) 5C ! = V " & ( ) < ! = C " y ( ) 56 ! N = C V " ! 3e desea 4allar , N * C V " ! Figura <!1B! /iagrama de .rbol para +jemplo <!1C! Por la regla de la probabilidad total , N * , * , N * , * , * C V " C " C V " C " V " + = & de donde@ , N * 6 ! , 56 ,*! < *! 5C ! C V " + = & y 5 56 ! 6 ! B 5 6 ! , N * = = C V " ! >n diagrama de .rbol para el problema aparece en la Figura <!1B! E-e%po 4.1;. >na empresa tiene 6 plantas@ A& B y C! La planta " produce el BM de la producci'n total& B produce el 6M y C el 9M! +l 6M de la producci'n de A es defectuosa& mientras que el 9M de B y el BM de C tambi1n lo son! 3e elige al azar un artículo producido por la empresa@ a, GCu.l es la probabilidad de que el artículo elegido sea defectuosoH b, 3i el artículo elegido resulta ser defectuoso& GCu.l es la probabilidad de que provenga de la planta CH Souci,#' 1 < V C V V V !56 !< , N * C V " !6 !< C Cesarea )eb1 $ive +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades a, Los eventos A& B y C forman una partici'n del espacio muestral S correspondiente a elegir un articulo de la f.brica! Luego& si D representa artículo defectuoso@ ( ) ( ) ( ) ( ) ( ) ( ) ( ) C D " C " B D " B " A D " A " D " N N N + + = 3utituyendo los datos del problema se tiene que ( ) ( ) ( ) ( ) ( ) ( ) ( ) 61 ! B ! 9 ! 9 ! 6 ! 6 ! B ! = + + = " " " " " " D " b, ( ) ( ) ( ) ( ) ( ) 699B ! 61 ! 1 ! 61 ! B ! 9 ! N = = = ∩ = D " D C " D C " +l diagrama de .rbol de la Figura <!16 representa el problema! Planta /efectuoso Figura <!16! /iagrama de .rbol para el problema <!15 La Re*a (e Ba!es )ajo las mismas condiciones de la regla de probabilidad total& se cumple que@ ∑ = = n i i i j j j B A " B " B A " B " A B " 1 , N * , * , N * , * , N * Por definici'n de probabilidad condicional , * , * , N * B " A B " A B " j j ∩ = y aplicando la regla del producto en el numerador y probabilidad total en el denominador se obtiene la regla de )ayes! E-e%po 4.)<. >na prueba para diagnosticar c.ncer lo detecta en el 5BM de personas que efectivamente tienen la enfermedad y en el 1M de las personas que no tienen la enfermedad! Por estudios previos se 4a determinado que s'lo el !BM de las personas 1 B !9 !B !!9 " !6 !B C ) / / / !6 +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades sometidas a la prueba tienen efectivamente c.ncer! 3i la prueba da un diagn'stico positivo& GCu.l es la probabilidad de que la persona tenga realmente c.ncerH Souci,#' 3ean los eventos C@ La persona tiene c.ncer y + D @ La persona da un diagn'stico positivo de c.ncer! ?ay que 4allar ( ) ( ) ( ) ( ) + + + = D " C D " C " D C " N N , donde ( ) ( ) ( ) ( ) ( ) C D " C " C D " C " D " N N + + + + = ! Como ( ) B ! = C " & ( ) 5 B ! N = + C D " y ( ) 1 ! N = + C D " & se obtiene que ( ) ( ) ( ) ( ) ( ) 1<E ! 55B ! <EB ! 1 ! 55B ! 5B ! B ! = + = + = + D " Luego& P*CN + D , O *!B,*!5B,N!1<E O !<EBN!1<E O !696! +l siguiente diagrama de .rbol representa el problema! 1 6 C − D + D − D !5B !B !1 !55 !55B + D !B C C.ncerH /iagn'sticoH +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades Figura <!1E! /iagrama de .rbol para +jemplo <!9 E-e%po 4.)1. 3uponga que los c4ips de un circuito integrado son probados con cierto instrumento y la probabilidad de que se detecten los defectuosos es !55! Por otro lado 4ay una probabilidad de !5B de que un c4ip sea declarado como bueno si efectivamente lo es! 3i el 1M de todos los c4ips son defectuosos! GCu.l es la probabilidad de que un c4ip que es declarado como defectuoso sea en realidad buenoH Souci,#' 3ean los eventos M@ Due el c4ip sea declarado defectuoso por el instrumento& /@ Due el c4ip sea realmente defectuoso y )@ Due el c4ip sea realmente bueno! /e los datos del problema se tiene que ( ) 5 5 ! N = D 1 " y ( ) B ! 5 B ! 1 N = − = B 1 " & adem.s ( ) 1 ! = D " ! Lo que debemos calcular es ( ) ( ) ( ) ( ) 1 " B 1 " B " 1 B " N N = ! Pero& ( ) ( ) ( ) ( ) ( ) B 1 " B " D 1 " D " 1 " N N + = O ( ) ( ) ( ) ( ) B5< ! <5B ! 55 ! B ! 55 ! 55 ! 1 ! = + = + & por lo tanto ( ) C66 ! B5< ! <5B ! N = = 1 B " ! E-e%po 4.)). >na urna % contiene 9 bolas rojas y < blancas y una urna %% contiene 6 bolas rojas y 9 blancas! 3e saca una bola de la urna % y se la coloca en la urna %%& luego se saca una bola de 1sta la cual resulta ser roja& GCu.l es la probabilidad de que la bola pasada de % a %% 4aya sido blancaH Souci,#' 3ean los eventos B 1 @ Due la bola e-traida de la urna % sea blanca& & 1 @ Due la bola e-traida de la urna % sea roja& ) 9 @ Due la bola e-traida de la urna %% sea blanca& ; 9 @ Due la bola e-traida de la urna %% sea roja! ?ay que 4allar , * N , * , N * 9 9 1 9 1 & " & B " & B " ∩ = ! Puesto que 6 N 1 , * 1 = B " & 6 N 9 , * 1 = & " & 9N 1 6N 6 , N * 1 9 = = B & " y 6N 9 6 N< , N * 1 9 = = & & " & se tiene que 1C 11 66 99 , N * , * , N * , * , * 1 9 1 1 9 1 9 = = + = & & " & " & & " & " & " & de donde sigue que ( ) ( ) <9 ! 11 6 1C 11 6 1 , N * 9 1 = = = & B " ! 1 E 9N6 1 B 9 & 9 B 9 & 1N9 1N9 1N6 9N6 9 B 1N6 1 & )ola >rna % )ola >rna %% +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades Figura <!1C! /iagrama de .rbol para +jemplo <!99! 4.4 E"e#tos I#(epe#(ie#tes /os eventos " y ) son independientes si la ocurrencia de uno de ellos no afecta la probabilidad de ocurrencia del otro! 8 sea@ ( ) ( ) A " B A " = N o ( ) ( ) B " A B " = N /e la definici'n de probabilidad condicional se obtiene la siguiente definici'n equivalente@ /os eventos " y ) son independientes si ( ) ( ) ( )B " A " B A " = ∩ ! E-e%po 4.)+. 3e lanzan un par de dados legales ! distinguibles y se definen los siguientes eventos@ A@ Due el primer dado sea par B@ Due el segundo dado sea mayor que < 3on los eventos " y ) independientesH Souci,#' ( ) 9 1 66 1C = = A " & ( ) 6 1 6 6 1 9 = = B " & y ( ) 6 1 66 6 = = ∩ B A " ! Por lo tanto " y B son independientes! Propie(a( 6! 3i A y B son e)entos independientes& entonces tambi1n lo son7 a, A y B b' " y B c' A y B Prue.a' a, Como , * , * B A B A A ∩ ∪ ∩ = se tiene por independencia de A y B que , * , * , * , * B A " B " A " A " ∩ + = & luego , * , * ,, * 1 ,* * , * B " A " B " A " B A " = − = ∩ ! b, y c, se dejan como ejercicios! E-e%po 4.)4. >n tirador 4ace dos disparos a un blanco! La probabilidad de que acierte en el blanco es !C& independientemente del disparo que 4aga! GCu.l es la probabilidad de que el tirador@ a, "cierte ambos disparosH b, "cierte s'lo uno de los dos disparosH 1 C +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades c, "cierte por lo menos un disparoH d, 0o acierte ninguno de los dos disparosH Souci,#' 3ean los eventos A i @ Due el tirador da en el blanco en el disparo i *i O1& 9,! Por aplicaci'n directa de la propiedad B se obtiene que@ a, ( ) ( ) ( ) ( ) ( ) 6< ! C ! C ! 9 1 9 1 = = = A " A " A A " b, ( ) ( ) ( ) ( ) 69 ! C ! 9 ! 9 ! C ! , * , * , * , * , * , * 9 1 9 1 9 1 9 1 = + = + = + A " A " A " A " A A " A A " c, ( ) ( ) ( ) 56 ! 6< ! C ! C ! , * , * , * , * , * 9 1 9 1 9 1 = − + = − + = ∪ A " A " A " A " A A " d, ( ) ( ) < ! 9 ! 9 ! , * , * , * 9 1 9 1 = = = A " A " A A " +l concepto de independencia se puede e-tender a m.s de dos eventos! "si& se dice que los eventos A 1 &P&A n son Mutua%e#te I#(epe#(ie#tes si para cualquier subcolecci'n A i1 & P&A i8 se cumple que@ , * ,!!! * , !!! * 1 1 i8 i i8 i A " A " A A " = ∩ ∩ E-e%po 4.)6. >n avi'n tiene 6 motores los cuales funcionan independientemente uno del otro y fallan con probabilidad igual a !1 para cada uno de ellos! +l avi'n 4ace un vuelo e-itoso si por lo menos uno de sus motores funciona! GCu.l es la probabilidad de que el avi'n tenga un vuelo e-itosoH Souci,#' +l avi'n no tiene un vuelo e-itoso si todos sus motores fallan& por independencia esto ocurre con probabilidad ( ) 6 1 ! ! Luego& por complemento& la probabilidad de un vuelo e-itoso ser. ( ) 6 1 ! 1− ! E-e%po 4.)7. >na persona lanza repetidamente un par de dados! GCu.ntas veces debe lanzar el par de dados si se desea que la probabilidad de obtener suma igual a E& al menos una vez& sea por lo menos !5BH Souci,#' "*3acar al menos una vez suma igual a E, O 1 L "*0unca sacar suma igual a E, ≥ !5B! sea& "*0unca sacar suma igual a E, ≤ !B! ?ay que encontrar el n=mero n de veces que se debe lanzar el par de dados para que esto ocurra! La probabilidad de sacar suma igual a E en una tirada de un par de dados es 6 1 66 6 = & por lo tanto no se saca suma igual a E con probabilidad 6 B ! Como 4ay independencia entre las n tiradas del dado& la probabilidad de no sacar suma igual a E en n tiradas ser. ( ) n 6 B ! Luego& el n se obtiene resolviendo la 1 5 +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades desigualdad ( ) B ! 6 B ≤ n & tomando logaritmos en ambos lados se obtiene ( ) ( ) B ! lo g 6 B lo g ≤ n & de donde 6 1 ! 1 E 5 ! − ≤ − n y <6 ! 1 6 E5 ! 6 1 ! 1 = ≥ n & es decir& basta lanzar el par de dados al menos 1E veces para obtener suma igual a E! 4.6. Apicaci,# (e t/c#icas (e co#teo a C0cuo (e Pro.a.ii(a(es 4.6.1 Re*a Mutipicati"a (e co#teo 3i un e-perimento % ocurre de * maneras distintas y un e-perimento %% ocurre de n maneras distintas entonces& el e-perimento compuesto de % seguido de %% ocurre de n *× maneras! E-e%po 4.)8. >n joven tiene < pantalones distintos y 6 camisas distintas! +l joven se viste en forma diferente todos los días! GCu.ntos días se puede vestir el joven sin repetir vestimentaH Souci,#' )asta encontrar el total de maneras que se puede vestir que son 9< 6 < = × ! Luego se puede vestir en forma distinta durante 9< días! La regla multiplicativa se puede generalizar de la siguiente manera@ 3i un e-perimento compuesto de 8 e-perimentos simples& cada uno de los cuales se puede efectuar de , 1 * & 8 i n i ≤ ≤ maneras distintas& entonces el e-perimento compuesto se puede efectuar de 8 n n n × × × !! ! 9 1 maneras distintas! E-e%po 4.)9. >na contraseAa para accesar a una computadora consiste de 66 caracteres que pueden ser letras *96, o n=meros *1,! a, GCu.ntas contraseAas distintas se pueden formarH b, GCu.ntas contraseAas distintas se pueden formar conteniendo s'lo n=merosH c, GCu.ntas contraseAas distintas se pueden formar si deben tener por lo menos una letraH Souci,#' a, 666 & EC9 & 1E6 & 9 66 66 66 66 66 66 66 6 = = × × × × × b, & & 1 1 1 1 1 1 1 1 6 = = × × × × × c, Por complemento 6 66 & E C9 & 1 EB &9 1 6 6 6 6 = − E-e%po 4.);. >na caja contiene n bolas numeradas desde el 1 4asta la n! 3e escogen al azar dos bolas! GCu.l es la probabilidad de que los n=meros en las bolas sean consecutivos a, 3i las bolas se escogen sin reposici'nH 1 1 +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades b, 3i las bolas se escogen con reposici'nH Souci,#' 3ea el evento A@ Due las dos bolas tengan n=meros consecutivos! 3i son consecutivos& en orden ascendente& la primera bola debe tener un n=mero desde el 1 4asta el nL1 y la segunda s'lo tendría una posibilidad *por ejemplo 19& B6 etc!,! Como tambi1n pueden ser consecutivos en orden descendente 4ay el doble de posibilidades! Por lo tanto ( ) ( ) 1 9 K − = n A ! a, 3in reposici'n la primera bola puede ser escogida de n maneras y la segunda de ( ) 1 − n maneras! Por lo tanto ( ) ( ) 1 K − = n n S y ( ) ( ) ( ) n n n n A " 9 1 1 9 = − − = ! b, Con reposici'n la primera bola puede ser elegida de n maneras y la segunda tambi1n! Por lo tanto ( ) 9 K n S = y ( ) ( ) 9 1 9 n n A " − = ! 4.6.) Per%utacio#es >na permutaci'n es un arreglo ordenado de objetos distintos! Por ejemplo& las permutaciones de tamaAo 9 que se pueden 4acer con las letras "& ) y C son@ ")& "C& )C& )"& C" y C)! ?aciendo uso de la regla multiplicativa del an.lisis combinatorio se desprende que@ i, +l n=mero de permutaciones de n objetos tomados todos a la vez est. dado por ( ) ( ) ( ) 1 ! ! ! 9 1 Q & − − = = n n n n n n " ii, +l n=mero de permutaciones de n objetos distintos tomados de r en r est. dado por@ ( ) ( ) ( ) ( ) Q Q 1 ! ! ! 1 & r n n r n n n r n " − = + − − = ;ecordar que Q O 1! E-e%po 4.+<. 8c4o atletas compiten en la final olímpica de los 11 metros con vallas! "sumiendo que ellos cruzan la meta en distintos instantes! GCu.ntas maneras distintas 4ay para entregar las medallas de oro& de plata y de bronceH Souci,#' 1 11 +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades +l primer premio puede ser entregado de C maneras& el segundo de E y el tercero de 6& luego por la regla multiplicativa 4ay 666 6 E C = × × maneras distintas de entregar los premios! Claramente& esto es ( ) Q B Q C 6 & C = " ! E-e%po 4.+1! /iez personas de diferentes estaturas posan en fila para una foto! a, GCu.ntas fotografías distintas se pueden tomarH b, GCu.ntas fotografias distintas se pueden tomar si la persona m.s alta y la persona m.s baja no deben salir juntas en la fotoH Souci,#' a, Q 1 1 ! !! C 5 1 = × × × × b, +l evento complemento es que la persona m.s alta y la m.s baja salgan juntas en la foto! +sto se puede efectuar de Q 5 9× maneras donde Q 5 es el n=mero de ordenamientos de C objetos simples y un objeto compuesto de la persona m.s alta y la m.s baja y el 9 se bede a que la persona m.s alta y la m.s baja se pueden intercambiar! Luego& 4ay ( ) Q 5 9 Q 1 × − fotografias donde la persona m.s alta y la m.s baja no salen juntas! E-e%po 4.+). Cuatro peruanos& 6 c4ilenos y B mejicanos se sientan en fila! a, GCu.l es la probabilidad de que los de la misma nacionalidad queden juntosH b, GCu.l es la probabilidad de que los de nacionalidad peruana queden juntosH Souci,# +l espacio muestral puede ocurrir de ( ) ( ) Q 1 9 Q B 6 < K = + + = S maneras distintas! a, 3ea el evento "@ Due los de la misma nacionalidad queden sentados juntos! ?ay Q 6 maneras de ordenar los tres grupos de nacionalidades& Q < maneras de ordenar el grupo de peruanos& Q 6 maneras de ordenar el grupo de c4ilenos y Q B maneras de ordenar el grupo de mejicanos& como se quiere que todo esto ocurra al mismo tiempo& por la regla multiplicativa 4ay ( ) QB Q6 Q< Q 6 K × × × = A maneras de ocurrencia del evento "! Luego ( ) Q 1 9 QB Q6 Q< Q6 × × × = A " ! b, 3ea el evento B@ que los < peruanos queden sentados juntos! ?ay que ordenar 5 objetos compuestos de los 6 c4ilenos& B mejicanos y el bloque de los < peruanos *dentro del cual se pueden 4acer permutaciones,! Luego& 4ay ( ) Q 5 Q < K × = B maneras como ocurre ) y ( ) Q 19 Q 5 Q < × = B " ! E-e%po 4.++. Cuatro turistas llegan a un pueblo que tiene 6 4oteles! 3i los turistas eligen al azar el 4otel donde se van a alojar! GCu.l es la probabilidad de que@ 1 19 +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades a, :odos se 4ospeden en 4oteles distintosH b, Por lo menos dos de ellos se 4ospeden en el mismo 4otelH Souci,#' Cada uno de los < turistas tiene 6 maneras distintas de 4ospedarse por lo tanto& el e-perimento puede ocurrir de ( ) < 6 K = S - 6 maneras! a, 3ea el evento "@ Due los < turistas se 4ospeden en distintos 4oteles! +sto puede ocurrir de ( ) 6 < B 6 K × × × = A maneras! Por lo tanto( ) 1 C B 6 6 6 < = = A " ! b, 3ea el evento )@ Por lo menos dos turistas se alojen en el mismo 4otel! +ste evento es simplemente el complemento del evento "! Luego ( ) ( ) 1 C 1 6 1 = − = A " B " ! 4.6.+ Co%.i#acio#es >na combinaci'n es una selecci'n de objetos donde el orden en que estos 4an sido escogidos no interesa! Por ejemplo& las combinaciones que se pueden 4acer con los objetos@ "& ) y C elegidos de dos en dos son@ ")& "C y )C! 8bserve que el n=mero de permutaciones obtenidas anteriormente fue el doble! +l n=mero de combinaciones de n objetos tomado de r en r est. dado por@ Q , & * ,Q *Q Q r r n " r n r n r n = − =         Como Q O 1& se tiene que 1 =         =         n n n E-e%po 4.+4. 66 19 1B 1< 16 19 11 Q B Q 1 Q 1B 1 1B = × × × × = =         Propie(a( 6. 1 16 +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades         − =         r n n r n Prue.a. "lgebr.icamente esto es obvio! /esde el punto de vista de an.lisis combinatorio el lado izquierdo equivale a elegir r objetos de un total de n que salen fuera& y el lado derec4o equivale a elegir n9r objetos que se quedan! Por ejemplo         =         6 1 E 1 ! E-e%po 4.+6. /e un grupo de < mujeres y 6 4ombres se va a elegir un comit1 de B meinbros! a, GCu.ntos comit1s se pueden elegirH b, GCu.ntos comit1s se pueden elegir si deben 4aber 6 4ombresH c, GCu.ntos comit1s se pueden elegir si debe 4aber al menos una mujerH Souci,#' a, ?ay 9B9 B 1 =         comit1s posibles! b, 3i 4ay que elegir 6 4ombres y el comit1 tiene B integrantes entonces 4ay que elegir tambi1n dos mujeres! Por lo tanto 4ay 1 9 6 6 9 < =         ×         maneras de elegir el comit1! c, Lo opuesto a que el comit1 tenga al menos una integrante mujer es que no 4aya mujeres en el comit1& es decir que los B integrantes sean 4ombres! Por lo tanto& usando complemento& 4ay 9 < 6 B 6 B 1 =         −         posibles comit1s! E-e%po 4.+7. >na seAora tiene C amigas y desea invitar a B de ellas a una fiesta! G/e cu.ntas maneras puede 4acerlo si dos de ellas est.n enojadas entre si y no pueden ser invitadas juntasH Souci,#' ?ay 9 6 6 =         invitaciones posibles donde las dos personas en disputa pueden ser invitadas juntas& y 4ay un total de B6 B C =         invitaciones que se pueden 4acer! Luego& usando complemento 4ay 66 9 B6 = − invitaciones donde las dos personas enemistadas no aparecen juntas! 1 1< +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades E-e%po 4.+8. /e un grupo de B científicos argentinos& 6 c4ilenos& 9 colombianos y 9 peruanos se van a elegir al azar 6 para representar a sudam1rica en un congreso mundial! GCu.l es la probabilidad de que@ a, 3algan elegidos 9 argentinos y dos c4ilenosH b, 3alga elegido por lo menos un peruanoH Souci,#' ?ay 59< 6 19 =         maneras de elegir sin ninguna restricci'n los 6 representantes! a, 3ea el evento "@ 3algan elegidos 9 argentinos y dos c4ilenos! Los otros dos representantes pueden ser elegidos de los < restantes! Luego& ( ) 1 C 9 < 9 6 9 B K =                         = A y ( ) 59< 1C = A " ! b, 3ea el evento )@ 3alga elegido por lo menos un peruano! Por complemento , * 1 , * B " B " − = ! Como 91 6 1 , * K =         = B & se tiene que 59 < E1 < 59 < 91 1 , * = − = B " ! E-e%po 4.+9. >n profesor asigna una semana antes del e-amen un conjunto de 1 problemas! +l e-amen consistir. de B problemas elegidos al azar de entre los 1 asignados! >n estudiante s'lo pudo resolver E de esos problemas! GCu.l es la probabilidad de que el estudiante a, Conteste bien 6 de las B preguntasH b, :enga por lo menos < preguntas buenasH Souci,#' +l e-perimento puede ocurrir de 9 B 9 B 1 , * K =         = S maneras distintas! a, 3ea "@ Due tenga bien 6 de las B preguntas 1 B 9 6 6 E , * K =                 = A ! Luego ( ) 9B9 1B = A " ! b, 3ea )@ Due tenga por lo menos < buenas! ?ay que sumar las maneras de obtener < y B buenas! Luego 1 96 B E 1 6 < E , * K =         +                 = B y ( ) B ! 9 B 9 1 96 = = B " ! E-e%po 4.+;. +l juego de la L8::8 de Puerto ;ico consiste en acertar 6 n=meros entre el 1 y el 6C! +l primer premio se otorga a los que aciertan los 6 n=meros& el segundo premio a los que aciertan B de los 6& y el tercer premío a los que aciertan < de los 6! 3i una persona compra un boleto de la L8::8! GCu.l es la probabilidad de que se gane@ 1 1B +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades a, +l primer premioH b, +l segundo premioH c, +l tercer premioH Souci,#' 3ea ( ) S K @ :otal de maneras como puede salir el n=mero premiado! Claramente& como el orden no importa ( ) 6 C1 & E 6 &9 6 6C K =         = S ! a, 3ea el evento "@ 3acarse el primer premio! 3'lo 4ay una manera como puede ocurrir esto& y es cuando los 6 n=meros elegidos en el sorteo son los que el jugador tiene! 8 sea& ( ) 1 6 6 K =         = A y en consecuencia ( ) 66 ! 6C1 & E6 & 9 1 = = A " ! b, 3ea el evento )@ 3acarse B de los 6 n=meros! >no de los 6 n=meros del apostador 08 es sacado en el sorteo& luego ( ) 15 9 1 69 B 6 K =                 = B y ( ) 65 ! 6C1 & E6 & 9 159 = = B " ! c, 3ea el evento C@ 3acarse < de los 6 n=meros! +n este caso& dos de los 6 n=meros del apostador 08 salen en el sorteo& luego ( ) E < < 9 6 9 < 6 K =                 = C y ( ) 9 65 ! 6C 1 & E6 & 9 E << = = C " ! E-e%po 4.4<. Cuatro personas suben al ascensor en el s'tano de un edificio de E pisos! GCu.l es la probabilidad de que@ a, +-actamente dos de ellas bajen en el quinto pisoH b, :odas ellas bajen en un mismo pisoH c, /os de ellas bajen en un mismo piso y las otras dos bajen tambi1n en un mismo pisoH Souci,#' Cada una de las < personas tiene E maneras distintas de bajarse! Luego 4ay ( ) 9< 1 E K < = = S maneras de efectuar el e-perimento sin ninguna restricci'n! a, 3ea el evento "@ Due dos de ellas bajen en el quinto piso! ?ay 6 9 < =         maneras de elegir las dos personas y las dos restantes pueden bajar en cualquiera de los 6 pisos restantes! Luego ( ) 91 6 6 6 K 9 = × = A & y en consecuencia ( ) 9<1 916 = A " ! 1 16 +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades b, 3ea el evento )@ Due todas las < bajen en el mismo piso> puesto que 4ay E maneras de elegir el piso donde bajan las personas se tiene que ( ) E K = B y ( ) 6 E 1 = B " ! c, 3ea el evento C@ Due dos personas bajan en un mismo piso ! las otras dos tambi1n! ?ay 91 9 E =         maneras de elegir los 9 pisos donde bajan las personas& 4ay 6 9 < =         maneras de elegir las dos personas que bajan en un piso& y 1 9 9 =         manera de elegir las dos personas que bajan en el otro! +n consecuencia ( ) 196 K = C y ( ) 9<1 196 = C " ! E-e%po 4.41. >n estacionamiento para carros tiene C lugares disponibles colocados en línea! Cinco carros de diferentes modelos arrivan al estacionamiento! GCu.l es la probabilidad de que@ a, Los B carros se estacionen todos juntos sin dejar lugar vacio entre ellosH b, Los 6 lugares vacíos queden juntosH Souci,#' ?ay ( ) ( ) 6 E9 B& C K = = " S maneras de efectuar el e-perimento! a, 3ea el evento "@ Due los B carros queden juntos! ?ay que permutar < objetos@ los 6 lugares vacios y el bloque de los < carros! +sto se puede 4acer de < C Q 6 Q B Q < = × × maneras& luego ( ) 6E9 <C = A " ! b, 3ea el evento )@ Due los 6 lugares vacios queden juntos! ?ay que permutar 6 de los B carros ! el bloque de lugares vacíos! +sto se puede 4acer de E9 Q 6 = maneras& luego ( ) 6E9 E9 = B " ! E-e%po 4.4). /oce policías reci1n graduados de la acad1mia son asignados al azar a 6 pueblos uno de los cuales es MayagRez! GCu.l es la probabilidad de que@ a, < de los policías sean asignados a MayagRezH b, 9 de los pueblos reciban 6 policías& otros dos reciban 9 policías y los restantes dos uno cada unoH Souci,#' 1 1E +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades +l e-perimento se puede efectuar de ( ) 19 6 K = S maneras! a, 3ea el evento A@ Due < de los 19 policías sean asignados a MayagRez& esto se puede efectuar de ( ) C B < 19 K ×         = A maneras! Por lo tanto P*",O ( ) 1 9 C 6 B < 1 9 ×         = A " ! b, 3ea el evento B@ Due dos pueblos reciban 6 policías& dos reciban 9 policías y los restantes 9 uno cada uno! +sto se puede efectuar de@                                                                         1 1 1 9 9 9 9 < 9 6 9 < 6 5 6 19 9 6 Los tres primeros elementos del producto representan las maneras de elegir dos pueblos y luego asignar 6 policías en ellos& los pr'-imos tres elementos representan las maneras de elegir otros dos pueblos y luego asignar dos policias en ellos y los =ltimos 6 elementos son las maneras de elegir los dos pueblos restantes y asignar un policía en cada uno! :ambi1n se puede resolver usando permutaciones con elementos repetidos y en este caso@ Q1 Q1Q 9 Q9 Q 6Q 6 Q 1 9 Q 9 Q9 Q 9 Q6 Luego ( ) 19 9 9 6 6 , Q 9 * , Q 6 N* Q 19 , Q 9 N* 6 = B " ! 1 1C +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades E?ERCICIOS 1! >n metere'logo afirma que la probabilidad de que llueva el s.bado es 9BM& la probabilidad de que llueva el domingo es 9M y la probabilidad de que llueva ambos dias es 1BM! GCu.l es la probabilidad de que llueva durante el fin de semanaH 9! +n una universidad el 6M de los estudiantes ni fuman ni beben! "dem.s el 6M fuma y el 9BM bebe! 3e elige al azar un estudiante& GCu.l es la probabilidad@ a, Due tenga al menos uno de los dos 4.bitosH b, Due tenga s'lo uno de los 4.bitosH c, Due sea un bebedor y fumadorH 6! >n grupo de 6 4ombres y 6 mujeres es dividido al azar en dos grupos de tamaAo 6! GCu.l es la probabilidad de que@ a, "mbos grupos tengan el mismo n=mero de 4ombresH b, >n grupo tenga dos mujeres y el otro <H <! 3i 1 bolas son distribuidas al azar en < urnas! GCu.l es la probabilidad de que la cuarta urna contenga e-actamente 6 bolasH B! 6 niAos de segundo grado son asignados al azar en dos clases de 6 cada uno! Cinco de ellos@ /iana& "na& 3ofía& Mic4elle y Paula son amigas intimas@ a, GCu.l es la probabilidad de que todas ellas sean asignadas a la misma claseH b, GCu.l es la probabilidad de que e-actamente < de ellas sean asignadas a la misma claseH c, GCu.l es la probabilidad de que /iana est1 en una clase y sus amigas en la otraH 6! >n catador de vinos afirma que puede distinguir entre < variedades de un vino Cabernet! GCu.l es la probabilidad de que el catador logre identificar correctamente las < variedades de vino si le dan a probar < vasos donde no aparecen marcadas las variedades del vinoH E! >na >rna " contiene 6 bolas rojas y dos bolas blancas y& una >rna ) tiene 9 bolas rojas y B blancas! 3e lanza una moneda legal y si sale cara se e-trae una bola de la >rna "& en caso contrario la bola es sacada de )! a, GCu.l es la probabilidad de que la bola e-traida sea rojaH b, 3i la bola e-traída fue roja& GCu.l es la probabilidad de que la moneda 4aya salido caraH C! 3e lanza un par de dados y la suma que aparece es 6& GCu.l es la probabilidad de que al menos uno de los dados sali' 6H 5! >na pareja de esposos tiene dos 4ijos a, GCu.l es la probabilidad de que ambas sean niAas si la mayor lo esH b, GCu.l es la probabilidad de que ambas sean niAas dado que una de ellas es niAaH 1 15 +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades 1! +n una ciudad el 1!BM de personas sufren de /altonismo! Por otro lado& BBM de la poblaci'n son mujeres y el !BM de ellas sufre de /altonismo! 3i se elige al azar una persona y se encuentra que sufre de /altonismoS GCu.l es la probabilidad de que sea 4ombreH 11! >na urna contiene 6 bolas rojas y dos blancas! 3e e-trae una bola& se observa su color y luego se devuelve a la urna junto con otra bola del mismo color& luego se e-trae una segunda bola@ a, GCu.l es la probabilidad de que la segunda bola e-traida sea blancaH b, 3i la segunda bola e-traída fue blancaS GCu.l es la probabilidad de que la primera bola e-traída 4aya sido rojaH 19! >na compaAia de seguros clasifica a sus clientes como de alto& mediano y bajo riesgo& ellos reclaman el pago de un seguro con probabilidades !9& !1 y !9B respectivamente! +l 1M de los clientes son de alto riesgo& el 9M de mediano y el EM de bajo riesgo! 3i uno de los clientes reclama el pago de un seguroS GCu.l es la probabilidad de que sea uno de bajo riesgoH 16! 3e tienen 6 tarjetas iguales e-cepto que una tiene ambos lados rojos& otra ambos lados negros& y la tercera un lado rojo y otro negro! 3e elige al azar una tarjeta y se muestra uno de sus lados que resulta ser rojoS GCu.l es la probabilidad de que el otro lado de la tarjeta sea tambi1n rojoH 1<! >na caja tiene 6 monedas& una de ellas tiene dos caras& la otra dos cruces y la tercera cara por un lado y cruz por el otro! 3e escoge una moneda al azar y se muestra uno de sus lados que resulta ser caraS GCu.l es la probabilidad de que el otro lado de la moneda sea tambi1n caraH 1B. a, 3e colocan al azar C bolas en C urnas& cu.l es la probabilidad de que quede solamente una vaciaH b, 3i s'lo 4ay disponibles B urnas para colocar las C bolasS GCu.l es la probabilidad de que la primera urna contenga e-actamente dos bolasH 16! >na f.brica tiene tres turnos +l 1M de los artículos producidos en el primer turno son defectuosos& 9M de los artículos del segundo turno son defectuosos y el BM de los artículos del tercer turno tambi1n son defectuosos! 3i en todos los turnos se produce la misma cantidad de artículos& GDu1 porcentaje de los artículos producidos en un dia son defectuososH 3i un artículo sali' defectuoso& GCu.l es la probabilidad de que 4aya sido producido en el tercer turnoH 1E! >na urna contiene 1 bolas numeradas del 1 al 1! 3e e-traen < de estas bolas sin reposici'n! GCu.l es la probabilidad de que la segunda de ellas en orden ascendente de magnitud sea <H 1 9 +dgar "cuAa Capítulo < Conceptos ).sicos de Probabilidades 1C! a, 3e lanzan 6 dados& GCu.l es la probabilidad de que salgan cada uno de los n=meros posiblesH b, ;eponder la parte a, si se lanzan E dados! 15! +l 6 por ciento de los estudiantes de una escuela no usan ni anillo ni cadena! Por otro lado el 9 por ciento usan anillos y el 6 por ciento usan cadenas! 3e elige un estudiante al azar& GCu.l es la probabilidad de que est1 usando@ a, "nillo y cadenaH b, 3olamente una de las dos prendasH 9! >n consejero acad1mico 4ace una encuesta a 1 graduandos de escuela superior para tratar de relacionar el promedio de graduaci'n y su decisi'n acerca de lo que piensa estudiar en la universidad! Promedio "cademico 9! L9!55 6!L6!<5 6!BL<! /ecidido B 1 1B %ndeciso 6B 9B 1 3e elige al azar un graduando a, 3i resulta que 1l est. indeciso& GCu.l es la probabilidad de que tenga promedio de 6!B ' m.sH b, 3i resulta que su promedio es menor que 6!& GCu.l es la probabilidad de que 4aya decidido qu1 estudiar en la universidadH c, 3i resulta que 1l est. decidido& GCu.l es la probabilidad de tenga promedio de 6! ' m.sH d, 3i su promedio es menor que 6!B& GCu.l es la probabilidad de que a=n no se 4aya decididoH 91! +n un lote de B neveras 4ay 6 daAadas y << buenas! 3e eligen al azar dos neveras una por una y sin reposici'n! GCu.l es la probabilidad de que@ a, "mbas neveras salgan daAadasH b, 3'lo una de las neveras salga daAadaH c, Por lo menos una de las neveras salga daAadaH d, La segunda salga daAadaH 99! +n un proceso de reclutamiento de personal se 4a determinado que la probabilidad de que a un entrevistado se le 4aga una oferta de empleo es !6 independientemente de qui1n sea!! (uan& Pedro y Lilliam son entrevistados! GCu.l es la probabilidad de que@ a, " todos ellos se les 4aga oferta de empleoH b, "l menos a uno de ellos se le 4aga oferta de empleoH 1 91 CAPÍTULO 5 DISTRIBUCIONES DE PROBABILIDADES En este capítulo se introducirá el concepto de variable aleatoria, cuya importancia radica en introducir modelos matemáticos en el cálculo de probabilidades. Luego, se considerarán las distribuciones de probabilidades de variables aleatorias discretas con su media y varianza respectiva. Existe un gran número de distribuciones discretas, pero en este texto sólo se discutirá en detalle la distribución binomial. Debido a que este texto no requiere un curso previo de álculo di!erencial e integral, el estudio de las variables aleatorias continuas es omitido. "olamente se considera en el texto el estudio de la distribución #ormal que es de crucial importancia para el proceso de $n!erencia Estadística. 5.1 Variables Aleatorias %na variable aleatoria es aquella que asume sus valores de acuerdo a los resultados de un experimento aleatorio. %sualmente se representa por las últimas letras del al!abeto& ', ( o ). *ropiamente una variable aleatoria ' es una !unción cuyo dominio es la colección de eventos del espacio muestral " y cuyo rango + x , es un subcon,unto de los números reales. -lgunos e,emplos de variables aleatorias son& '& La suma que aparece al lanzar un par de dados. (& El número de caras que aparecen al lanzar una moneda tres veces. )& El número de errores que se encuentran en la página de un libro. Eje!lo 5.1 De una ca,a que contiene . bolas numeradas del / al . se extraen 0 bolas una por una y sin reposición. Entonces "& El mayor de los tres números sacados, es una variable aleatoria. -qui el espacio muestral es& " 1 23/,4,05, 3/,4,65, 3/,4,.5, 3/,0,65, 3/,0,.5, 3/,6,.5, 34,0,65, 34,0,.5, 34,6,.5, 30,6,.57 y la variable aleatoria ' asume los valores& 0, 6 y .. *or e,emplo, ( ) 6 6 , 0 , 4 = X . El ob,etivo de la variable aleatoria es introducir notación matemática en el cálculo de probabilidades, la cual es muc8o más simple y breve. *or e,emplo, en lugar de usar la !rase 9la probabilidad de que el mayor de los 0 números extraidos sea 6:, se escribe simplemente como 9*3' 1 65:. *or otro lado, *3' 1 65 1 *3; están en ", tal que '3;5 1 65 1 *323/,4,65, 3/,0,65, 34,0,6575 1 0</= Edgar -cu>a apítulo . Distribuciones de *robabilidades "i el rango de valores + x de la variable aleatoria ' es !inito o in!inito enumerable entonces se dice que es una variable aleatoria #is$reta. "i su rango de valores + x es in!inito no enumerable entonces se dice que es una variable aleatoria $o%ti%&a. 5.1.1. '&%$i(% #e !robabili#a# #e &%a variable aleatoria #is$reta "i ' es una variable aleatoria discreta con rango de valores + x entonces, su !unción de probabilidad se de!ine por& p3x5 1 *?' 1 x@, para todo x ∈ + x y tiene las siguientes propiedades& i5 p3x5 A = y ii5 Σ p3x5 1 /. uando + x no contiene muc8os valores es más conveniente expresar p3x5 en una tabla de valores, la cual es llamada tabla de !unción de probabilidad. Eje!lo 5.) Ballar la !unción de probabilidad de la variable del e,emplo anterior Sol&$i(%* Expresando p3x5 en una tabla de valores se tiene que& ' p3x5 0 /</= 6 0</= . C</= Eje!lo 5.+. "e lanza una par de dados legales y distinguibles entre si. Ballar la !unción de probabilidad de "& la suma de los dos dados. Sol&$i(%* Expresando p3x5 en una tabla de valores y observando el espacio muestral del experimento se tiene que& ' 4 0 6 . C D E F /= // /4 *3x5 /<0C 4<0C 0<0C 6<0C .<0C C<0C .<0C 6<0C 0<0C 4<0C /<0C Eje!lo 5.,. De un lote que contiene /= articulos, de los cuales 6 son da>ados se extraen al azar y sin reposición 0. "e de!ine la variable '& #úmero de artículos da>ados que 8ay en la muestra. Ballar la !unción de probabilidad de '. Sol&$i(%* En este caso el rango de valores de ' es + x 1 2=, /, 4, 07 y en particular /4= Edgar -cu>a apítulo . Distribuciones de *robabilidades p345 1 *rob3sacar 4 da>ados5 1                         0 /= / C 4 6 , y en general p3x5 1                 −         0 /= 0 C 6 x x , para x 1 =,/,4,0. alculando las combinaciones se obtiene la siguiente tabla de !unción de probabilidad& ' p3x5 = /<C / /<4 4 0</= 0 /<0= 5.1.). '&%$i(% #e #istrib&$i(% a$&&lativa "ea ' una variable aleatoria discreta con !unción de probabilidad p3x5 y rango de valores + x , entonces su !unción de distribución acumulativa se de!ine por& ∑ ≤ = ≤ = t x x p t X P t F 5 3 5 3 5 3 t es cualquier número real. En particular, si t es un valor que está en + x , el cual consiste de enteros no negativos, entonces& G3t5 1 p3=5 H p3/5 H p345 H p305 HIH p3t5 Eje!lo 5.5. Ballar la !unción de distribución acumulativa para el E,emplo anterior. Sol&$i(%* ' p3x5 G3x5 = /<C /<C / J 6<C 4 0</= 4F<0= 0 /<0= / La grá!ica de una !unción de distribución acumulativa es creciente y del tipo escalonado, con saltos en los puntos que están en el rango de valores y cuya magnitud es igual al valor de la !unción de probabilidad en dic8o punto. Kás !ormalmente tiene la siguiente propiedad& Pro!ie#a#. La relación entre la función de distribución de probabilidad y la función de distribución acumulativa está dada por: p3x5 1 G3x5 L G3xL/5 /4/ Edgar -cu>a apítulo . Distribuciones de *robabilidades para todo valor de x en el rango de valores de la variable aleatoria. En la siguiente Gigura se muestra la !unción de distribución acumulativa para el e,emplo anterior. -1 0 1 2 3 4 5 0.0 0.5 1.0 x F ( x ) 0 0.167 0.667 0.967 1 Eje!lo 5.-. %na variable aleatoria ' tiene !unción de distribución acumulativa dada por la siguiente tabla de valores& ' G3x5 0 /</= 6 6</= . / a5 Ballar la probabilidad de que x sea menor o igual que 0. b5 Ballar la probabilidad de que x sea mayor o igual que .. c5 Ballar la probabilidad de que x sea igual a .. Sol&$i(%* a5 *3' ≤ 05 1 G305 1 /</=. b5 *3' ≥ .5 1 /L *3' ≤ 65 1 /LG365 1 /L6</= 1 C</=. c5 p365 1 G365 L G305 1 6<//= 1 /</= 1 0</=. /44 Edgar -cu>a apítulo . Distribuciones de *robabilidades 5.1.+ Valor Es!era#o . Varia%/a #e &%a Variable Aleatoria Dis$reta "ea ' una variable aleatoria discreta con !unción de probabilidad p3x5 y rango de valores + x , entonces su Malor Esperado o Kedia se de!ine como el número& ∑ = = x x xp X E 5 3 5 3 µ La suma es sobre todos los valores x que están en + x . Eje!lo 5.0. Ballar el valor esperado de la suma obtenida al lanzar un par de dados. Sol&$i(%. ' 4 0 6 . C D E F /= // /4 p3x5 /<0C 4<0C 0<0C 6<0C .<0C C<0C .<0C 6<0C 0<0C 4<0C /<0C xp3x5 4<0C C<0C /4<0C 4=<0C 0=<0C 64<0C 6=<0C 0C<0C 0=<0C 44<0C /4<0C La suma de la !ila xp3x5 es 4.4<0C 1 D. N sea que el valor esperado es D. Eje!lo 5.1. Ballar el valor esperado del número de articulos da>ados que 8ay en la muestra de tama>o 0 extraida de un lote que contiene /= artículos de los cuales, 6 son da>ados. Sol&$i(%* x p3x5 xp3x5 = /<C = / /<4 /<4 4 0</= C</= 0 /<0= 0<0= "umando la última columna se obtiene que µ 1 /4</= 1 /.4 articulos da>ados. N sea, se espera que en la muestra 8ayan /.4 artículos da>ados. #o tiene muc8o sentido la interpretación directa del número, pero equivale a decir que si se extraen /= muestras independientes de tama>o 0, en promedio deben salir un total de /4 artículos da>ados. Eje!lo 5.2. %n ,uego consiste en acertar un número del / al /===. - la persona que acierta el número se le da un premio de .== dólares y a las dos personas que tienen el número que le antecede o precede se le dan /== dólares. "i el boleto cuesta / dólar. Ouál será la Panancia #eta esperada de una persona que compra un boletoQ Sol&$i(%* La Panancia #eta es igual a la ganancia por el premio recibido menos el costo del boleto. "ea P la ganancia por el premio recibido. Ballaremos primero la Panancia Esperada& P *3P5 Pp3P5 /40 Edgar -cu>a apítulo . Distribuciones de *robabilidades .== /</=== .==</=== /== 4</=== 4==</=== = FFD</=== = Luego, la ganancia esperada por boleto será D==</=== 1 =.D=. -sí que la Panancia #eta esperada será =.D= L /.== 1 L=.0=. Lo que signi!ica que una persona pierde 0= centavos por cada boleto que compra. N dic8o de otra manera, la empresa que administra el ,uego gana 0= centavos por cada boleto que vende. La Varia%/a de una variable aleatoria discreta x con !unción de probabilidad p3x5 y media µ se de!ine por& ∑ − = 5 3 5 3 4 4 x p x µ σ , Donde la suma es sobre todos los valores del rango de '. *ara calcular la varianza, es más conveniente construir una tabla de la siguiente manera& ' p3x5 xp3x5 3x-µ5 4 3x-µ5 4 p3x5 La varianza será la suma de la última columna. Eje!lo 5.13. Ballar la varianza del número de artículos da>ados del E,emplo ..E. Sol&$i(%* x p3x5 xp3x5 3xLµ5 4 3xLµ5 4 p3x5 = /<C = /.66 .46 / J .. . =6 .=4 4 0</= .C .C6 ./F4 0 /<0= ./ 0.C6 ./4/ Luego la varianza será σ 4 1 =..D0. Ntra !orma alterna para calcular la varianza es 4 4 4 5 3 µ σ − = ∑ x p x La raíz cuadrada positiva de la varianza es llamada la #esvia$i(% est4%#ar y es más conveniente porque está en la misma escala de valores de la variable. 5.) La Distrib&$i(% Bi%oial. %n experimento es llamado de Rernoulli si satis!ace las siguientes características& a5 En cada repetición puede ocurrir sólo una de dos maneras, una de ellas es llamada Exito y la otra Fracaso. /46 Edgar -cu>a apítulo . Distribuciones de *robabilidades b5 La probabilidad de Exito, representada por p, debe permanecer constante cuando el experimento es repetido muc8as veces. c5 Las repeticiones de los experimentos deben ser independientes entre sí. Eje!lo 5.11. Los siguientes son experimentos de Rernoulli a5 Nbservar las veces que sale C al lanzar varias veces un dado, en este caso la probabilidad de Sxito es /<C. b5 ontar el número de pacientes que sobreviven a una operación de corazón abierto. c5 ontar el número de personas que se entrevistan por un empleo y a las que se le 8ace una o!erta de empleo. %na variable aleatoria ' tiene una #istrib&$i(% Bi%oial con parámetros n y p si se de!ine como el número de Sxitos que ocurren cuando un experimento de Rernoulli se repite n veces en !orma independiente. Eje!lo 5.1). Las siguientes son variables aleatorias binomiales. a5 #úmero de veces que resulta suma D al lanzar un par de dados /= veces es una variable binomial con parametros p 1 /<C y n 1 /=. b5 #úmero de preguntas bien contestadas en un examen de /= preguntas de selección múltiple, donde cada una tiene 6 alternativas de las cuales una es la correcta. En este caso n 1 /= y p 1 T 1 =.4.. c5 #úmero de artículos da>ados que 8ay en una muestra de tama>o 0 extraida N# +E*N"$$U# de un lote que contiene /= artículos, de los cuales 6 son da>ados. En este caso n 1 0 y p 1 6</=. La !unción de probabilidad de una binomial es de la !orma& x n x p p x n x p − −         == 5 / 3 5 3 para x 1 =, /, I,n. El valor de p3x5 para diversos valores de n y p aparece en tablas de todo texto básico de Estadística. "e puede mostrar que el valor esperado de una Rinomial es µ 1 np y que la varianza es σ 4 1 npq. Las demostraciones de estas propiedades pueden ser encontradas en cualquier texto de Estadística Katemática. En 5INITAB se pueden calcular la !unción de probabilidad 3Probability5, la !unción de distribución acumalada 3Cumulative probability5 y los percentiles (Inverse cumulative probability5 de la distribución Rinomial para cualquier valor de n y p. *ara esto 8ay que seguir la secuencia Cal$ Probabilit. Distrib&tio%s Bi%oial. Eje!lo 5.1+. Baciendo uso de 5INITAB a5 Expresar en una tabla de valores la !unción de probabilidad y la !unción de distribución acumulada de la variable aleatoria '& #úmero de preguntas bien contestadas por un /4. Edgar -cu>a apítulo . Distribuciones de *robabilidades estudiante que responde al azar un examen tipo selección múltiple que consiste de /= preguntas, cada una con 6 alternativas de las cuales sólo una es correcta. b5 %sar la tabla anterior para calcular la probabilidad de que el estudiante& i5 Venga exactamente 0 preguntas buenas. ii5 Venga C ó menos preguntas buenas. iii5 Venga por lo menos 6 buenas. Sol&$i(%* a5 *rimero 8ay que poner en una columna, llamada WxX, todos los valores posibles de la variable. La ventana de diálogo para el cálculo de la probabilidad acumulada 3similar es para calcular la probabilidad5 y los resultados son como sigue& Gigura ../. Mentana de diálogo para calcular probabilidades acumuladas de una distribución Rinomial. En la ventana sessio% se presentarán los siguientes resultados& Data Display Row x P(x) F(x) 1 0 0.056314 0.05631 2 1 0.187712 0.24403 3 2 0.281568 0.52559 4 3 0.250282 0.77588 5 4 0.145998 0.92187 6 5 0.058399 0.98027 7 6 0.016222 0.99649 8 8 0.000386 0.99997 9 9 0.000029 1.00000 10 10 0.000001 1.00000 /4C Edgar -cu>a apítulo . Distribuciones de *robabilidades b5 La probabilidad de tener 0 preguntas bien contestadas es *305 1 =.4.=4, la probabilidad de tener C o menos preguntas bien contestadas es G3C5 1 =.FFC6, la probabilidad de tener por lo menos 6 buenas es por complemento *3' ≥ 65 1 / L *3' ≤ 05 1 / L G305 1 /L =.DD.EE 1 =.406/4. VambiSn se puede 8allar la probabilidad o la probabilidad acumulada para un número dado de Sxitos. *ara esto en Input constant se pone el número de Sxitos. Gigura ..4. Mentana de diálogo para calcular probabilidades de una distribución Rinomial. Eje!lo 5.1,. La prueba EL$"- es usada para detectar la presencia de anticuerpos al virus del "$D-. EL$"-, detecta que 8ay anticuerpos presentes en el FD por ciento de los casos de que la muestra de sangre está contaminada con el virus del "$D-. "uponga que entre las muc8as muestras que pasan por un Ranco de "angre 8ay /4 que están contaminadas con "$D-. a5 Ouál es la probabilidad de que EL$"- detecte F de estos casosQ b5 Ouál es la probabilidad de que EL$"- detecte por lo menos 4 de estos casosQ c5 Ouál es la probabilidad de que por lo menos 6 casos no sean detectados por EL$"-Q Sol&$i(%* "ea "& número de casos detectados por EL$"- en la muestra de /4. ' es una Rinomial con n 1 /4 y p 1 .FD a5 Es igual a p3F5. Baciendo uso de K$#$V-R con i%!&t $o%sta%t igual a F, se obtiene p3F5 1 .==6.. b5 Es igual a * 3' ≥ 45 1 / Y * 3' ≤ /5 1 / L G3/5 1 / L .==== 1 /.=== /4D Edgar -cu>a apítulo . Distribuciones de *robabilidades c5 "i por lo menos 6 no son detectados, signi!ica que - LN KZ" E son detectados, o sea * 3' ≤ E5 1 G3E5 1 =.===0. VambiSn se puede resolver como *3( ≥ 65, donde ( representa el número de casos #o detectados por EL$"-, o sea, es una binomial con p 1 .=0. *or complemento * 3( ≥ 65 1 /L 3*≤05 1 /LG305 1 /L.FFFD 1 .===0. Eje!lo 5.15. El Departamento de "alud 8a determinado que el /=[ de los puertorrique>os son zurdos. "e elige al azar F estudiantes de una escuela en *uerto +ico. Ouál es la probabilidad de que& a5 Exactamente 4 de ellos sean zurdosQ b5 Exactamente C de ellos sean diestrosQ c5 *or lo menos 6 de ellos sean diestrosQ Sol&$i(%* "ea '& número de zurdos en la muestra de F estudiantes. ' es una binomial con p 1 ./= y n 1 F. a5 p345 1 ./D44 b5 "i 8ay C diestros entonces 0 son zurdos. Luego, la probabilidad pedida es p305 1 .=66C c5 "i 8ay por lo menos 6 derec8os, signi!ica que 8ay a lo más . zurdos. Luego, la probabilidad pedida es * 3' ≤ .5 1 G3.5 1 .FFFF. VambiSn puede ser resuelto cambiando la probabilidad de Sxito a p 1 .F= y 8allando * 3' ≥ 65 1 / Y * 3' ≤ 05 1 / Y G 305 1 / L .===/ 1 .FFFF. *or otro lado, dada una probabilidad, 5INITAB produce los valores de la variable que tienen una probabilidad acumulada lo más cercano posible a dic8a probabilidad, esto es posible si se selecciona I%verse $&&lative !robabilit. en la ventana de diálogo. 5.+ La Distrib&$i(% Noral La distribución #ormal, tambiSn llamada Distribución Paussiana en 8onor a \. Pauss, es una del tipo continuo y es considerada la distribución más importante en Estadística por las numerosas aplicaciones que tiene. "u comportamiento es re!le,ado por la urva #ormal que es la grá!ica de la siguiente ecuación π σ σ µ 4 5 3 4 4 4 5 3 − − = x e x f Donde la media µ y la desviación estándarσ son los parámetros de la distribución. En la Gigura ..0 se muestra una curva normal con media µ 1 /. y desviación estándar σ 1 0. /4E Edgar -cu>a apítulo . Distribuciones de *robabilidades Gigura ..0. Prá!ica de una curva normal con media /. y desviación estándar 0. "i una variable aleatoria ' tiene una distribución #ormal y queremos calcular la probabilidad de que ' caiga entre dos valores a y b entonces, debemos 8allar el área deba,o de la curva entre a y b, esto se puede 8acer por un proceso de álculo llamado $ntegración. Debido a que µ puede asumir cualquier valor real y que σ puede asumir cualquier valor real positivo 8abría que 8acer un proceso de integración en cada caso, lo cual complicaría el proceso de calcular la probabilidad en lugar de simpli!icarlo. -!ortunadamente se puede mostrar que cualquier normal puede ser trans!ormada en una que tiene media = y desviación estandar / y la cual es llamada la Distrib&$i(% Noral Est4%#ar y se representa por ). En el apSndice - de este texto se 8a incluido una tabla que da el área deba,o de la curva normal estándar a la izquierda de un valor de ). En 5INITAB se pueden calcular la !unción de densidad 3Probability density5, la !unción de distribución acumalada 3Cumulative probability5 y los percentiles (Inverse cumulative probability5 de la distribución #ormal para cualquier valor de la media µ y desviación estándar σ. #o se requiere trans!ormación a una normal estándar. *ara esto 8ay que seguir la secuencia Cal$ Probabilit. Distrib&tio%s Noral. Eje!lo 5.1-. En este e,emplo en la columna llamada ) se 8an puesto /. valores y se quiere 8allar el área a la derec8a de dic8os valores. Las áreas serán guardadas en una columna llamada Area. *or otro lado en la columna alpa se 8an puesto // valores de área y se desea 8allar los valores de z correspondientes, estos son llamados !er$e%tiles. La ventana de diálogo y los resultados son como sigue& /4F 25 15 5 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 x f ( x ) Curva Normal com media 15 de!viacio" e!#a"dar 3 $ec%o &or 'd(ar )cu"a Edgar -cu>a apítulo . Distribuciones de *robabilidades Gigura ..6. Mentana de diálogo para calcular areas deba,o de una curva normal. Data Display Row z Area alpha z(alpha) 1 -3.00 0.001350 0.010 -2.32635 2 -2.57 0.005085 0.050 -1.64485 3 -2.23 0.012874 0.150 -1.03643 4 -2.00 0.022750 0.250 -0.67449 5 -1.64 0.050503 0.300 -0.52440 6 -1.00 0.158655 0.500 0.00000 7 -0.73 0.232695 0.800 0.84162 8 0.00 0.500000 0.900 1.28155 9 0.63 0.735653 0.950 1.64485 10 1.96 0.975002 0.975 1.95996 11 2.33 0.990097 0.995 2.57583 12 2.54 0.994457 13 2.97 0.998511 14 3.33 0.999566 15 3.67 0.999879 *ara 8allar los percentiles se elige Inverse cumulative probability y se escribe alpa en input column y !"alpa# en Optional storage El percentil del F= por ciento será /.4E/.. y el percentil del 4. por ciento será L.CD66F. /0= Edgar -cu>a apítulo . Distribuciones de *robabilidades -3 -2 -1 0 1 1.96 3 0.0 0.1 0.2 0.3 0.4 * f d & )rea de+a,o de la curva "ormal &erce"#ile! $ec%o&or 'd(ar )cu"a .975 .025 Gigura .... -reas deba,o de una curva normal y percentil del FD..[ En la grá!ica se representa que el percentil del FD..[ es /.FC y que el área que queda en el extremo derec8o más alla de /.FC es del 4..[. Esta%#ari/a$i(% #e &%a Noral $ada una variable aleatoria X distribuida %ormalmente con media µ y desviación estándar σ entonces puede ser convertida a una normal estándar mediante el proceso de estandari!ación& definido por ) 1 3' Lµ5<σ& donde X es %"µ &σ ' #. (demás si X p y ) p representen sus respectivos percentiles entonces: X p = µ + σZ p '(r&las !ara $al$&lar 4rea #ebajo #e la $&rva %oral En las siguientes !órmulas, G representa la distribución acumulada de la #ormal, es decir el área acumulada a la izquierda del valor dado a5 * 3' ] a5 1 G3a5 b5 * 3a ] ' ] b5 1 G3b5 L G3a5 c5 * 3' A b5 1 / L G3b5 Eje!lo 5.10. "i ' es una población #ormal con media µ 1 D= y σ 1 /=. Ballar las siguientes probabilidades& a5 * 3' ] C=5 b5 * 3' A F.5 /0/ Edgar -cu>a apítulo . Distribuciones de *robabilidades c5 * 3.= ] ' ] E=5 Sol&$i(%* %sando 5INITAB con ea% 1 D= y sta%#ar# #eviatio% 1 /=, se tiene que& a5 * 3' ] C=5 1 G 3C=5 1 ./.ED b5 * 3' A F.5 1 / Y G 3F.5 1 / L .FF0E 1 .==C4 c5 * 3.= ] ' ] E=5 1 G 3E=5 Y G 3.=5 1 .E6/0 L .=44E 1 .E/E. Eje!lo 5.11. El #ivel de potasio presente en la sangre de una persona adulta se distribuye normalmente con media 0.E y desviación estandar =.4. "e elige al azar una persona& a5 Ouál es la probabilidad de que el nivel de potasio de la persona sea mayor que 6./Q b5 "i el nivel de potasio es menor que 0.6 se dice que la persona su!re de 8ipocalcemia. Ouál es la probabilidad de que una persona padezca de Ssta en!ermedadQ c5 Ouál es la probabilidad de que el nivel de potasio sea mayor que 0.4. pero menor que 0.D.Q d5 - las personas con el /.[ más ba,o de nivel de potasio se las someterá a una dieta para subirle el nivel. Ouál debe ser el nivel de potasio requerido como máximo para ser sometido a la dietaQ e5 - las personas con el /=[ más alto de nivel de potasio se las someterá a una dieta para ba,arles el nivel. Ouál debe ser el nivel de potasio requerido como minimo para ser sometido a la dietaQ Sol&$i(%* "ea '& #ivel de potasio, ' es normal con media 0.E y desviación estándar =.4 a5 * 3' A 6./5 1 / Y G 36./5 1 / L .F004 1 .=CCE. b5 * 3' ] 0.65 1 G 30.65 1 .=44E. c5 * 30.4. ] ' ] 0.D.5 1 G 30.D.5 Y G 30.4.5 1 .6=/0 L .==0= 1 .0FE0. d5 Es equivalente a 8allar el percentil del /.[. %sando I%verse $&&lative !robabilit. en 5INITAB se obtiene que 0..F4D debe ser el nivel de potasio requerido. e5 Es equivalente a 8allar el percentil del 3/==L/=5[ 1 F=[. %sando I%verse $&&lative !robabilit. en 5INITAB6 se obtiene que 6.=.C0 debe ser el nivel de potasio requerido. Eje!lo 5.12. El tiempo que le toma a los estudiantes en ir de su casa a la %niversidad se distribuye normalmente con media 4= minutos y desviación estándar .. a5 Ouál es la probabilidad de que a un estudiante le tome más de /E minutos en llegar a la universidadQ b5 Ouál es la probabilidad de que un estudiante llegue a la universidad en menos de 0= minutosQ c5 O- quS 8ora debe salir el estudiante de su casa si se desea que llegue tarde a su clase de la E&== a.m. solamente un . por ciento de las vecesQ Sol&$i(% /04 Edgar -cu>a apítulo . Distribuciones de *robabilidades "ea la variable aleatoria '& El tiempo que le toma al estudiante en llegar de su casa a la %niversidad, ' es normal con media 4= y desviación estándar .. a5 * 3' A /E5 1 / Y G 3/E5 1 / L .066C 1 C..6. b5 * 3' ] 0=5 1 .FDD4. c5 Equivale a 8allar el percentil del F.[, y despuSs restarle el tiempo 8allado a las E&== am. %sando I%verse $&&lative !robabilit. se obtiene que el percentil del F. [ es 4E.4460. Luego el estudiante debe salir alrededor de E.== am.L4E minutos1D.04 am. Eje!lo 5.)3. "i la variable aleatoria ' se distribuye normalmente con media µ y desviación estándar σ. Entonces 8allar el valor * tal que * 3 ^' L µ^ ] *σ5 1 .F. Sol&$i(%* *uesto que ^'Lµ^]_σ es equivalente a * X < − σ µ ^ ^ , por la !órmula de estándarización se obtiene que *3^)^ ]_51.F.. Desdoblando el valor absoluto se obtiene que *3L_] ) ]_51.F.. *or simetría de la distribución #ormal el área que queda a la derec8a del valor _ es igual a =.=.<4 1 =.=4.. Es decir, FD. . ) * = , %sando 5INITAB o la tabla normal estándar del apSndice se obtiene _ 1 /.FC. 5., Coteja%#o si 7a. Norali#a# uando se trata de sacar conclusiones acerca de la población usando los datos de la muestra, se asume generalmente que la los datos de la población se distribuyen de !orma normal. omo no se conocen todos los elementos de la población, se deben usar los datos de la muestra para veri!icar si e!ectivamente la población es #ormal. Existen varias pruebas estadisticas para veri!icar #ormalidad. En 5INITAB, primero se elige la opción Basic Statistics de Stat y luego ormality !est del submenú que aparece. En este texto nosotros sólo discutiremos la !orma básica de detectar normalidad, la cual es a travSs del plot de %ormalida. El plot de %ormalidad consiste de un diagrama de puntos donde en el e,e vertical se considera los escores normales y en el e,e 8orizontal los valores de la variable. "i los puntos caen cerca de una línea, entonces se dice que 8ay Norali#a#. En 5INITAB este plot es obtenido siguiendo la secuencia 8ra!7 Probabilit. Plot. En la ventana que aparece elegir la opcion Single como se muestra en la Gigura ..C Eje!lo 5.)1. %sar un plot de #ormalidad para veri!icar si la siguiente muestra proviene de una población #ormal 0./ .F 4.E 6.0 .C /.6 ..E F.F C.0 /=.6 = //.. /00 Edgar -cu>a apítulo . Distribuciones de *robabilidades La ventana de diálogo se completará como se muestra en la Gigura ..D. En la opción "istribution## elegir normal y entrar los valores de la media y de la desviacion estandar correspondientes. "i estos valores no son entrados manualmente, K$#$V-R los estimará utilizando los datos. 5INITAB produce el plot que aparece en la Gigura ..E. En el e,e 8orizontal aparecen los escores normales y en el e,e vertical las probabilidades acumuladas de dic8os escores. Gigura ..C. Mentana de dialogo de *robability *lots. Gigura ..D Mentana de diálogo de Probabilit. Plot 9 Si%:le para 8acer un plot de #ormalidad. I%ter!reta$i(%* Los puntos caen cerca de la linea y todos caen dentro de las bandas de confian!a& lue+o se puede concluir que la población de donde proviene la muestra es %ormal. /06 Edgar -cu>a apítulo . Distribuciones de *robabilidades Gigura ..E. *lot de #ormalidad para los datos del E,emplo ..4/. 5.5 Si&la%#o #atos #e &%a #istrib&$i(% $o%o$i#a Kuc8as veces se 8ace di!icil conseguir datos reales para corroborar un mStodo estadístico, una manera de resolver dic8o problema es 8acer que la computadora produzca mediante simulación dic8os datos. 5INITAB tiene una lista grande de distribuciones conocidas, que pueden ser simuladas, esta lista se puede ver seleccionando Ra%#o Data en el menú Cal$. Eje!lo 5.)). "upongamos que deseamos simular 0= notas de una población normal que tiene media D= y desviación estándar /=. La ventana de diálogo correpondiente será como sigue& /0. Edgar -cu>a apítulo . Distribuciones de *robabilidades Gigura ..F. Mentana de diálogo para generar al azar una muestra de una población #ormal. Los datos aparecen con 6 decimales, pero si se elige la opción $ormat column del menú E#itor, se puede de!inir que el número de decimales sean cero para que los datos salgan enteros, que es lo más común para notas. Los datos generados aparecen en la ventana sessio% como sigue& Data Display C1 80 80 77 75 54 69 53 79 81 64 73 64 69 84 60 95 71 63 58 65 79 69 64 87 75 95 58 68 63 81 /0C Edgar -cu>a apítulo . Distribuciones de *robabilidades E;ERCICIOS /. En una ca,a 8ay . !ic8as numeradas del 0 al D. "e extraen al azar 0 de ellas a la vez. Ballar la !unción de probabilidad y el valor esperado de la variable aleatoria '& El menor de los números extraidos. 3*or e,emplo si se extra,o la muestra 6, 0 y C entonces '105. 4. De acuerdo a datos del gobierno, 0=[ de las mu,eres que traba,an nunca 8an estado casadas, se elige al azar una muestra de // mu,eres traba,adoras. Ouál es la probabilidad de que& a5 Exactamente 4 de ellas nunca 8ayan estado casadasQ b5 - lo más 0 de ellas nunca 8ayan estado casadasQ c5 *or lo menos D de ellas 8ayan estado casadasQ 0. %n criminólogo a!irma que el E=[ de los condenados por `lavado de dinero` no vuelven a cometer un acto criminal por lo menos durante los primeros cinco a>os de ser liberados. "e elige al azar una muestra de E criminales que 8an sido liberados despues de estar encarcelados por `lavado: de dinero. Ouál es la probabilidad de que& a5 #inguno de ellos comete crimen alguno por lo menos durante los cinco primeros a>osQ b5 *or lo menos 4 de ellos no cometan algún crimen por lo menos durante los cinco primeros a>osQ c5 #o más de 0 de ellos cometan algún crimen por lo menos durante los primeros cinco a>osQ 6. En un estudio clínico se determinó que / de cada . personas su!ren de en!ermedades mentales. "e seleccionaron al azar 0= personas& a5 Ouál es la probabilidad de que D de estas personas su!ran de en!ermedades mentalesQ b5 Ouál es la probabilidad de que al menos E de estas personas no su!ran de en!ermedades mentalesQ c5 Ouál es la probabilidad de que a lo más C su!ran de en!ermedades mentalesQ .. "e 8a encontrado que el /C[ de los articulos producidos por una maquinaria tienen de!ectos. %n inspector de control de calidad selecciona 0= articulos aleatoriamente encuentre la probabilidad de que& a5 C de los articulos seleccionados sean de!ectuosos . b5 a lo más /= de Sstos articulos sean de!ectuosos. c5 -l menos /. de ellos no sean de!ectuosos. d5 -l menos C de ellos pero, no más de /E sean de!ectuosos. C. "e estima que el 0=[ de los accidentes automovilisticos se debe a que el conductor está ebrio. a5 alcular en promedio cuántos accidentes se deberán al 8ec8o de que el conductor estS ebrio en los siguientes E4 accidentes reportados. b5 alcular la desviación estandar del número medio de accidentes en los siguientes E4 accidentes reportados. /0D Edgar -cu>a apítulo . Distribuciones de *robabilidades D. %na empresa tiene dos plantas de producción& - y R. En - se produce un 6=[ de la producción total y en R un C=[. "e sabe además que un 4[ de la produccion de - y un D[ de la producción de R son de!ectuosas. "e elige al azar /4 articulos producidos por la empresa. Ouál es la probabilidad de que& a5 "olamente 0 salgan de!ectuososQ b5 - lo mas 4 salgan de!ectuososQ c5 *or lo menos F salgan buenosQ E. En el estudio Graming8am acerca de !actores que a!ectan las en!ermedades cardíacas se 8izo un seguimiento por un período de /C a>os a una gran cantidad de 8ombres sanos. "e encontró que inicialmente la distribución de los niveles de colesterol de los 8ombres era #ormal con media µ 1 446 y con desviación estándar σ 1 6E a5 %na persona con un colesterol menor de 4== es considerada como una con ba,o riesgo de tener complicaciones cardíacas. OauS porcenta,e de 8ombres tendrán ba,o riesgoQ b5 "i el colesterol de la persona es mayor de 4.= entonces tendrá problemas cardiacos en el !uturo. OauS porcenta,e de 8ombres tendrán problemas cardiacosQ c5 Los 8ombres que tienen el .[ más alto de colesterol serán sometidos a una dieta, para ba,arle su colesterol y evitar que tenga problemas cardiacos en el !uturo. Ouál será el nivel de colesterol máximo permitido para #N someterse a la dietaQ F. %n pro!esor considera que el tiempo que los estudiantes necesitan para terminar el examen se distribuye normalmente con media µ 1 C= minutos y desviación estándar σ 1 /= minutos. a5 Ouál es la probabilidad de que un estudiante demore más de una 8ora y /. minutos en terminar el examenQ b5 Ouál es la probabilidad de que un estudiante demore más de 6. minutos pero menos de E. minutos en terminar el examenQ c5 "e elige al azar E estudiantes que cogieron el examen, Ouál es la probabilidad que exactamente . de ellos tarden más de 6=.6 minutos pero menos de DF.C minutos en terminar el examenQ /=. El contenido de las botella de ,ugo de naran,a llenadas por una máquina automática tiene una distribución aproximadamente normal con media C0.F onzas y desviación estándar de =.4.. Encontrar la probabilidad de que& a5 %na botella contenga menos de C6 onzas de ,ugo de naran,a. b5 %na botella contenga al menos C0.D. onzas de ,ugo de naran,a. //. %n análisis realizado al contenido de grasa en ,amones determina que en cada corte de . onzas de ,amón se tiene en promedio /4.06 gramos de grasa si se asume que la cantidad de grasa tiene distribución normal con desviación estándar de =.E gramos. a5 OauS porcenta,e de cortes de ,amón de . onzas tiene un contenido de grasa entre /=.4 gramos y /4.. gramos. b5 OauS porcenta,e de cortes de ,amón de . onzas tienen más de /6 gramos de grasa /4. "e sabe que ' es una variable aleatoria con distribución normal y con media D4. Ballar la desviación estándar si en un /=[ de las veces ' tiene un valor mayor a EF. /0E Edgar -cu>a apítulo . Distribuciones de *robabilidades /0. "e estima que un conductor conduce un promedio de /4,6== millas al a>o, con una desviación estándar de 0E== millas. alcular la probabilidad de que en el próximo a>o el conductor conduzca& a5 Kás /4,/== millas pero menos que /0,4== millas b5 Kás de /.,=== millas. /0F CAPÍTULO 6 DISTRIBUCIONES MUESTRALES Uno de los objetivos de la estadística es saber acerca del comportamiento de parámetros poblacionales tales como: la media (  ), la varianza ( 2  ) o la proporción ( p ). Para ello se extrae una muestra aleatoria de la población y se calcula el valor de un estadístico correspondiente, por ejemplo, la media muestral ( X ), la varianza muestral ( 2 s ) o la proporción muestral ( pˆ ). El valor del estadístico es aleatorio porque depende de los elementos elegidos en la muestra seleccionada y, por lo tanto, el estadístico tiene una distribución de probabilidad la cual es llamada la Distribución Muestral del Estadístico. 6.1 Distribución de la Media Muestral cuando la población es normal Si se estraen muestras aleatorias de tamaño n de una población infinita que tiene media poblacional  y varianza 2  , entonces sea cual sea la distribución de la población se tiene que: i) La media de las medias muestrales es igual a la media poblacional. Es decir    x . ii) La varianza de las medias muestrales es igual a la varianza poblacional dividida por n . En consecuencia la desviación estándar de las medias muestrales (llamada también el error estándar de la media muestral), es igual a la deviación estándar poblacional dividida por la raíz cuadrada de n . Es decir n x    . Si la población fuera finita de tamaño N , entonces se aplica el factor de correción 1 N n N   al error estándar de la media muestral. Pero en la práctica este factor es omitido a menos que la muestra sea lo suficientemente grande comparada con la población. Si además la población se distribuye normalmente, entonces la media muestral también tiene una distribución normal con la media y varianza anteriormente indicadas. 6.2 El Teorema del Límite Central Un importante resultado en Probabilidades y Estadística es el llamado Teorema del Límite Central que dice que si de una población infinita con media  y varianza 2  se extraen muestras aleatorias de tamaño n , entonces la media muestral se comporta aproximadamente como una variable aleatoria normal con media igual a la media Edgar Acuña Capítulo 6 Distribuciones Muestrales 141 poblacional y con varianza igual a la varianza poblacional dividida por el tamaño de la muestra, siempre que n sea grande. Lo importante de este resultado es que es independiente de la forma de la distribución de la población. Es decir, ) , ( ~ 2 n N X   Estandarizando, esto es equivalente a: ) 1 , 0 ( ~ N n X Z     Si la población es bastante simétrica entonces, un tamaño de muestra n mayor que 30 es suficiente para una buena aproximación a la normal. Si la población es bastante asimétrica, entonces el tamaño de muestra debe ser mucho más grande. En MINITAB se puede tratar de corroborar el Teorema del Límite Central a través de un proceso de simulación. Ejemplo 6.1 Considerar una población que consiste de 3, 4, 6, 8, 10, 11, 12, 15, 20. Primero calculamos la media y desviación estándar de dicha población. Descriptive Statistics Variable N Mean Median Tr Mean StDev SE Mean C1 9 9.89 10.00 9.89 5.42 1.81 Variable Min Max Q1 Q3 C1 3.00 20.00 5.00 13.50 Notar que 89 . 9   y 42 . 5   . Segundo, extraemos 30 muestras de tamaño 4 de dicha población, ejecutando 4 veces la siguiente secuencia CalcRandom DataSample from columns. Guardar cada una de las 4 observaciones de las muestras en 4 columnas distintas: Obs1, Obs2, Obs3, y Obs4. Tercero, calculamos las medias de todas esas muestras usando la opción Row Statistics del menú Calc y tratamos de ver gráficamente al menos si hay acercamiento a Normalidad. Asimismo se debe observar que la media de todas estas medias debería estar cerca de  y la varianza cerca de  2 /n. Las 30 muestras elegidas y sus respectivas medias son: Muestra obs1 obs2 obs3 obs4 media Edgar Acuña Capítulo 6 Distribuciones Muestrales 142 1 6 4 3 8 5.25 2 11 8 4 3 6.50 3 3 3 15 3 6.00 4 10 8 10 6 8.50 5 15 12 11 8 11.50 6 4 12 6 6 7.00 7 12 11 20 10 13.25 8 12 8 20 12 13.00 9 8 10 12 11 10.25 10 8 20 11 20 14.75 11 20 10 6 8 11.00 12 11 10 12 12 11.25 13 11 3 8 11 8.25 14 3 10 11 4 7.00 15 20 12 20 3 13.75 16 20 3 15 11 12.25 17 12 20 20 15 16.75 18 3 3 11 20 9.25 19 20 11 10 15 14.00 20 11 3 11 15 10.00 21 6 8 6 15 8.75 22 11 3 12 6 8.00 23 10 8 3 20 10.25 24 6 20 12 6 11.00 25 15 6 4 12 9.25 26 11 10 3 4 7.00 27 11 11 11 11 11.00 28 10 10 6 10 9.00 29 4 20 20 3 11.75 30 11 6 6 8 7.75 Las medidas estadísticas de la media muestral son: Variable N Mean Median Tr Mean StDev SE Mean media 30 10.108 10.125 10.019 2.806 0.512 Variable Min Max Q1 Q3 media 5.250 16.750 7.938 11.875 En la Figura 6.1 se muestra el histograma de la distribución de las medias muestrales y la curva normal que más se aproxima al histograma. I nterpretación: Notar que la media de las medias muestrales es 10.108  x  que está bien cerca de la media poblacional 89 . 9   . Además la desviación estándar de la media muestral es 2.806 mientras que n  es igual a 5.42/2=2.71 ambos valores también están relativamente cerca. El histograma si está un poco alejado de la normalidad. Edgar Acuña Capítulo 6 Distribuciones Muestrales 143 Si se incrementa el tamaño de las muestras se puede notar una mejor aproximación a la Normal. Figura 6.1 Histograma de la distibución de las medias maestrales del Ejemplo 6.1 Luego de aplicar estandarización, las siguientes fórmulas se cumplen, aproximadamente si la población no es normal y exactamente si lo es. i) ) ( ) ( n a Z P a X P       ii) ) ( ) ( n b Z n a P b X a P            iii) ) ( ) ( n b Z P b X P       Las probabilidades pueden ser calculadas usando la tabla de la normal estándar que aparece en al apéndice del texto. Sin embargo, éstas pueden ser halladas directamente en MINITAB sin necesidad de estandarización. Edgar Acuña Capítulo 6 Distribuciones Muestrales 144 Ejemplo 6.2. El tiempo de atención por cliente de un cajero de un Banco es normal con media 6 minutos y desviación estándar 2.5 minutos. a) ¿Cuál es la probabilidad de que el tiempo promedio de atención para una muestra de 15 clientes sea menor de 7 minutos? b) ¿Cuál es la probabilidad de que el tiempo de atención a un grupo de 15 clientes sea más de una hora y 15 minutos? c) Si el tiempo en que el cajero atiende a un grupo de 15 clientes excede las dos horas entonces éste es despedido. ¿Cuál es la probabilidad de que esto ocurra? Solución: Usando el hecho que el tiempo promedio de atención para una muestra de tamaño 15 es normal con media 6, y desviación estándar 645 . 0 15 5 . 2  , con la ayuda de MINITAB se obtiene: a) 9395 . 0 ) 7 (   X P b) Un tiempo de atención de 75 minutos a 15 clientes equivale a un tiempo promedio de atención de 75/15 = 5 minutos. Luego, hay que hallar 9395 . 0 0605 . 0 1 ) 5 (     X P c) Un tiempo de atención de 120 minutos a 15 clientes equivale a un tiempo promedio de atención de 120/15 = 8 minutos por cliente. Luego, hay que hallar   ) 8 (X P 1 - 0.9990 = .001. Ejemplo 6.3. Los pesos de las personas que suben a un ascensor se distribuyen normalmente con media igual a 125 libras y desviación estándar de 30 libras. Un grupo de 9 personas sube al ascensor: a) ¿Cuál es la probabilidad de que el peso promedio del grupo sea menor de 100 libras? b) El ascensor tiene una capacidad máxima de 1400 libras. ¿Cuál es la probabilidad de que se exceda ésta capacidad con un grupo de 9 personas? Solución: a) El peso promedio de un grupo de 9 personas se distribuye normalmente con media 125 y desviación estándar igual a 10 9 30  . Luego usando la secuencia CalcProbability Distributions Normal en MINITAB se obtiene que 0062 . 0 ) 100 (   X P . b) Decir que la suma de los pesos del grupo sea mayor que 1400, equivale a que el peso promedio del grupo de 9 personas sea mayor que 1400/9 = 166.66 libras. Luego, la probabilidad pedida será 0011 . 0 9989 . 1 ) 66 . 166 ( 1 ) 66 . 166 (        X P X P . 6.3 Distribución de la Proporción Muestral Si de una población distribuida Binomialmente con probabilidad de éxito p , se extrae una muestra aleatoria de tamaño n , entonces se puede mostrar que la media de X: Edgar Acuña Capítulo 6 Distribuciones Muestrales 145 número de éxitos en la muestra, es np   y que su varianza es npq  2  . En consecuencia la proporción muestral n X p  ˆ tiene media p , y varianza n pq . Así, por el Teorema del Limite Central, cuando el tamaño de muestra es grande, entonces: n pq p p npq np X z     ˆ Se distribuye aproximadamente como una normal estándar. La aproximación es bastante confiable si tanto p nˆ como q nˆ son mayores que 5. Cuando pˆ es cercano a 0 ó 1 se debe tomar un tamaño de muestra más grande para mejorar la aproximación. Asímismo, como se están aproximando probabilidades de una distribución discreta por probabilidades de una distribución contínua, se debe aplicar un Factor de Corrección por Continuidad de 1/2, antes de calcular las probabilidades. Este 1/2 se explica porque un valor entero k de la variable discreta representa a todos los valores de la variable continua que caen en el intervalo   2 1 , 2 1   k k . Cuando el tamaño de muestra es bien grande entonces el efecto de considerar el factor de corrección por continuidad es insignificante. Fórmulas de aproximación Normal a la Binomial. Si X es una Binomial con parámetros n y p, entonces i)   ) 5 . 5 . ( ) 5 . 5 . ( npq np k Z npq np k P k X k P k X P              ii)   ) 5 . 5 . ( ) 5 . 5 . ( npq np b Z npq np a P b X a P b X a P               iii)   ) 5 . 5 . ( ) 5 . 5 . ( npq np b Z npq np a P b X a P b X a P               Similarmente se pueden definir fórmulas para aproximar probabilidades para proporciones muestrales. Edgar Acuña Capítulo 6 Distribuciones Muestrales 146 Ejemplo 6.4. Según reportes del centro nacional para estadísticas de salud, alrededor del 20 % de la población masculina adulta de los Estados Unidos es obesa. Se elige al azar una muestra de 150 hombres adultos en los Estados Unidos. ¿Cuál es la probabilidad de que: a) Haya a lo más 25 personas obesas? b) Haya más de 22 pero menos de 35 obesos? c) Haya por lo menos un 25% de obesos en la muestra? Solución: Usando aproximación normal a la Binomial se tiene que: a) ( ) ( ) ( ) 1814 . 0 91 . 0 24 30 5 . 25 5 . 25 25 = ÷ < = | . | \ | ÷ < = < ~ s Z P Z P X P X P b) ( ) ( ) = | . | \ | ÷ < < ÷ = < < ~ < < 24 30 5 . 34 24 30 5 . 22 5 . 34 5 . 22 35 22 Z P x P X P   8123 . 0 0063 . 0 8186 . 0 91 . 0 53 . 1       Z P . c) P(        ) 24 30 5 . 37 ( ) 5 . 37 ( ) 25 . ˆ Z P X P p P(Z>1.53) = 1-P(Z<1.53) = 1-.9730 = .0630. Edgar Acuña Capítulo 6 Distribuciones Muestrales 147 EJERCICIOS 1. Los tiempos de espera en la fila de un proceso de matrícula de una universidad se distribuyen normalmente con media 45 minutos y desviación estándar de 20 minutos. Se elige al azar una muestra de 16 estudiantes que se van a matricular. a) ¿Cuál es la probabilidad de que el tiempo de espera promedio de la muestra sea mayor de 60 minutos? b) ¿Cuál es la probabilidad de que el tiempo de espera promedio de la muestra sea mayor de 35 minutos pero menor de 55 minutos? 2. Los tiempos que se demoran los empleados de una fábrica en realizar una tarea de ensamblaje se distribuyen normalmente con media de 12 minutos y desviación estándar de 6. Se toma una muestra de 10 empleados: a) ¿Cuál es la probabilidad de que el tiempo promedio que usan los empleados para terminar la tarea de ensamblaje sea mayor de 15, pero menor de 17 minutos? b) Si los 10 empleados tardan menos de hora y media en terminar la tarea de ensamblaje entonces la fábrica recibe un premio. ¿Cuál es la probabilidad de que esto ocurra? 3. El contenido promedio de cereal en un paquete es de 450 gramos con una desviación estándar de 13 gramos. Si se tomó una muestra de 35 paquetes a) ¿Cuál es la probabilidad de que el promedio de esta muestra sea mayor a 455 gramos? b) ¿Cuál es la probabilidad de que el promedio de ésta muestra se encuentre entre 445 y 458 gramos? 4. Haga uso del programa MINITAB para: a) Generar 60 muestras aleatorias de tamaño 25 de una población normal con media 60 y deviación estandar 13. b) Calcule la media para cada muestra generada en la parte a). c) Calcule la desviación estándar de los promedios calculados en la parte a) d) Compare los resultados obtenidos en la parte b) y c) , con lo propuesto en la parte a) 5. Un restaurant determinó que en 1 de cada 5 almuerzos vendidos el cliente pide un postre. Si en un día el restaurant realiza 600 ventas: a) Calcular la probabilidad de más de 150 clientes acompañe su almuerzo con un postre. b) Calcular la probabilidad de que a lo más 450 clientes acompañen su almuerzo con un postre. 6. En la época de invierno en los Estados Unidos se estima que el 90% de la población contrae enfermedades respiratorias, para una muestra de 350 cuál es la probabilidad de que más de 315 podrian eventualmente sufrir algún tipo de enfermedades respiratorias?. CAPÍTULO 7 INFERENCIA ESTADÍSTICA La Inferencia Estadística comprende los métodos que son usados para obtener conclusiones de la población en base a una muestra tomada de ella. Incluye los métodos de estimación de parámetros y las pruebas de hipótesis. En la estimación de parámetros la idea es hallar un estimado del parámetro poblacional usando una muestra aleatoria tomada de la población. Uno espera que el estimado esté lo más cerca posible del parámetro. Por ejemplo la media muestral estima la media poblacional. La Estimación de parámetros comprende a su e! la Estimación Puntual" en donde se estudian los diersos métodos de encontrar estimadores y las propiedades óptimas que deben tener éstos" y la Estimación por Intera!os de Con"ian#a$ en donde se estima un parámetro usando un interalo centrado en un estimado del parámetro y de lon#itud i#ual a dos eces el error de estimación. El Error de estimación depende del niel de confian!a deseado" usualmente" $%" $& ó $$ por ciento. En este te'to solamente se tratará el cálculo de interalos de confian!a. Los diersos métodos de encontrar estimadores y las propiedades de estimadores óptimos son discutidos en un curso de Estadística (atemática. Una %ipótesis Estad&stica es una afirmación que se hace acerca de un parámetro poblacional. Por ejemplo" el tiempo de ida promedio para una persona dia#nosticada con cáncer de pulmón es )*% días. El porcentaje de personas que faorecen a un candidato a la presidencia es +%,. La afirmación que está establecida y que se espera sea recha!ada después de aplicar una pr'e(a estad&stica es llamada la hipótesis nula y se representa por H o . La afirmación que se espera sea aceptada después de aplicar una pr'e(a estad&stica es llamada la hipótesis alterna y se representa por H a . Una pr'e(a estad&stica es una fórmula" basada en la distribución del estimador del parámetro que aparece en la hipótesis y que a a permitir tomar una decisión acerca de aceptar o recha!ar una hipótesis nula. -l i#ual que una prueba de laboratorio para detectar cierta enfermedad" una prueba estadística no es cien por ciento se#ura y puede llear a una conclusión errónea. Por ejemplo" no es frecuente pero puede ocurrir que una prueba de san#re para detectar una enfermedad E concluya que una persona sana tiene la enfermedad E" o que una persona no tiene la enfermedad E cuando en realidad si la tiene. Ed#ar -cu.a /apítulo 0 Inferencia Estadística 1ay dos tipos de errores que pueden ocurrir. El error tipo I$ que se comete cuando se recha!a una hipótesis nula que realmente es cierta y el error tipo II que se comete cuando se acepta una hipótesis nula que realmente es falsa. El nie! de si)ni"icación$ representada por α" es la probabilidad de cometer error tipo I" y por lo #eneral se asume que tiene un alor de .%& ó .%). 2ambién puede ser interpretado como el área de la re#ión que contiene todos los alores posibles de la prueba estadística para los cuales la hipótesis nula es recha!ada. La probabilidad de cometer error tipo II" representado por β y al alor 1-β se le llama la potencia de la prueba. Una buena prueba estadística es aquella que tiene una potencia de prueba alta. En este capítulo" primero se discutirá el cálculo de interalos de confian!a y pruebas de hipótesis para la media poblacional" para una proporción y finalmente para la arian!a de una población. Lue#o se tratarán los interalos de confian!a y prueba de hipótesis para la ra!ón de dos arian!as poblacionales" para la diferencia de dos medias poblacionales y por 3ltimo para la diferencia de dos proporciones. 7*+ In"erencias acerca de !a ,edia Po(!aciona! -arian#a conocida.* 4upon#amos que de una población normal con media desconocida µ y arian!a conocida σ 5 se e'trae una muestra de tama.o n" entonces de la distribución de la media muestral x se obtiene que6 n x Z σ µ − = se distribuye como una normal estándar. Lue#o α − = < < − ) 7 8 5 9 5 9 a a Z Z Z P . :onde Z α95 es el alor de la normal estándar tal que el área a la derecha de dicho alor es α/5" como se muestra en la si#uiente fi#ura6 ;i#ura 0.). <elación de α95 y Z α95 en la cura normal estándar )=$ Ed#ar -cu.a /apítulo 0 Inferencia Estadística 4ustituyendo la fórmula de Z se obtiene6 1aciendo un despeje al#ebráico" se obtiene P8 x > Z α95 σ9 n ? µ ? x @ Z α95 σ9 n 7 A ) > α Botar que los dos e'tremos del interalo son aleatorios. 4i se toma una muestra aleatoria y se calcula su media entonces los e'tremos del interalo dejan de ser aleatorios y ya no se puede hablar de probabilidad sino de confian!a. :e lo anterior se puede concluir que un Interalo de /onfian!a del )%% 8)>α7 , para la media poblacional µ" es de la forma6 x > C α95 σ9 n " x @ C α95 σ9 n Usualmente α A .)" .%& ó .%)" que corresponden a interalos de confian!a del $%" $& y $$ por ciento respectiamente. La si#uiente tabla muestra los C α95 más usados. Biel de /onfian!a Z α95 $% ).+=& $& ).$+ $$ 5.&* Usando ,INITA/ se pueden hallar interalos de confian!a y hacer prueba de hipótesis para µ. Para esto se si#ue la secuencia Stat Basic Statistics  1-sample Z E0emp!o 7*+ Un cardiólo#o desea hallar un interalo de confian!a del $%, para el niel colesterol promedio de todos los pacientes que presentan problemas cardiacos. Para esto asume que la distribución de los nieles de colesterol es normal con una desiación estandar σ A )D y usa la si#uiente muestra al a!ar de nieles de colesterol de 5% pacientes con problemas cardiacos. 5)0 55D 55& 5=& 5D* 5)+ 5)0 55+ 5%5 5DD 5D& 5=5 5)$ 55) 5D= )$$ 5D+ 5=* 5)* 55= So!'ción1 :espués de entrar los datos en la columna colesterol" la entana de diálo#o será completada como lo muestra la si#uiente fi#ura6 )&% α σ µ α α − = < − < − ) 7 8 5 9 5 9 Z n x Z P Ed#ar -cu.a /apítulo 0 Inferencia Estadística ;i#ura 0.5. Eentana de diálo#o de +2samp!e 3 para el Ejemplo 0.) Bo se escribe nada en la entanita Test mean. Lue#o hay que oprimir el botón Options para entrar el niel de confian!a como lo muestra la si#uiente fi#ura6 -3n cuando en A!ternatie aparece not e4'a!$ ,INITA/ sólo calculará el Interalo de confian!a tal como aparece en la entana session1 One-Sample Z: colesterol The assumed standard deviation = 13 Variable N Mean StDev SE Mean 90.0 % C !olester "0 ""#.90 13.09 ".91 $ ""1.1"% "30.&'( )&) Ed#ar -cu.a /apítulo 0 Inferencia Estadística Interpretación1 Hay un 90% de confianza de que el nivel de colesterol de todos los pacientes con problemas cardacos cai!a entre ""1#1" y "$0#%&# En la práctica si la media poblacional es desconocida entonces" es bien probable que la arian!a también lo sea puesto que en el cálculo de σ 5 interiene µ# 4i ésta es la situación" y si el tama.o de muestra es #rande 8n F D%" parece ser lo más usado7" entonces σ 5 es estimada por la arian!a muestral s 5 y se puede usar la si#uiente fórmula para el interalo de confian!a de la media poblacional6 x > Z α95 s9 n " x @ Z α95 s9 n E0emp!o 7*5 4upon#amos que la distribución de los puntajes en la prueba de aproechamiento matemático del /olle#e Goard de los estudiantes admitidos a cierta uniersidad en )$$= se comportan normalmente. 4e e'trae una muestra de =% estudiantes que tomaron la prueba y se obtienen los si#uientes datos6 Aprovech &#' #&" &)9 )31 )10 &31 &&3 &#* #&# &#* &&9 )10 )"0 )00 &#) )"1 )9# &3# &1) #'0 &3' &*" )0* )&) &*1 )"1 &"# &9* &1# &1) &"3 &'9 &'9 &'3 )0" &9* )"9 )10 &'9 )*1 1allar un interalo de confian!a del $&, para el puntaje promedio en la prueba de aproechamiento de todos los estudiantes admitidos a la Uniersidad. So!'ción1 Primero" debemos estimar la desiación estándar muestral s. Esco#a Column Statistics del men3 Ca!c y lue#o en la entana de diálo#o esco#a standard deviation y #uarde el resultado en la constante s. En la entana session se obtendrá6 Co!'mn Standard Deiation 4tandard deiation of aproech A &).*+5 )&5 Ed#ar -cu.a /apítulo 0 Inferencia Estadística 4e#uidamente elija la secuencia StatBasic Statistics1-sample Z y complete la entana de diálo#o 1-sample Z como si#ue6 ;i#ura 0.D. Eentana de diálo#o de +2samp!e 3 para el Ejemplo 0.5. Lue#o oprima el botón Options y en la entanita Con"idence Lee! entre $&. En la entana session aparecerá lo si#uiente6 One-Sample Z: aprovech The assumed standard deviation = #1.'&1) Variable N Mean StDev SE Mean 9#% C a+rove!h *0 &)3.100 #1.'&" '."00 $&#).0"'% &'9.1)"( Interpretación1 Hay un 9'% de confianza de que la media del punta(e en la parte de aprovec)amiento matem*tico de todos los estudiantes que tomaron el +olle!e ,oard cai!a entre %'- y %&9 puntos# )&D Ed#ar -cu.a /apítulo 0 Inferencia Estadística Por otro lado" también se pueden hacer pruebas de hipótesis con respecto a la media poblacional µ. Por coneniencia" en la hipótesis nula siempre se asume que la media es i#ual a un alor dado. La hipótesis alterna en cambio" puede ser de un sólo lado6 menor ó mayor que el n3mero dado" ó de dos lados6 distinto a un n3mero dado. E'isten dos métodos para hacer la prueba de hipótesis6 el método clásico y el método del HP-valueH. En el método clásico" se eal3a la prueba estadística de Z y al alor obtenido se le llama Z calculado 8Z calc 7. Por otro lado el niel de si#nificancia α" definido de antemano determina una re#ión de recha!o y una de aceptación. 4i Z calc cae en la re#ión de recha!o" entonces se concluye que hay suficiente eidencia estadística para recha!ar la hipótesis nula basada en los resultados de la muestra tomada. Las fórmulas están resumidas en la si#uiente tabla6 Caso I Caso II Caso III Ho . µ/µ0 Ho . µ/µ0 Ho . µ/µ0 Ha . µ0µ0 Ha . µ≠ µ0 Ha . µ1µ0 Pr'e(a Estad&stica1 n x Z o σ µ − = Decisión1 2i Zcal 0 -Z α entonces 2i 3Zcal 31C α95 entonces 4i Zcal 1Z α entonces se recha!a Ho se recha!a Ho se recha!a Ho -quí Z α es el alor de la normal estándar tal que el área a la derecha de dicho alor es α. <ecordar también que σ puede ser sustituído por s4 cuando la muestra es relatiamente #rande 8n F D%7. Los alores de α más usados son %.%) y %.%&. 4i se recha!a la hipótesis nula al .%) se dice que la hipótesis alterna es altamente si#nificatia y al .%& que es si#nificatia. 2rabajar sólo con esos dos alores de α simplificaba mucho el aspecto computacional" pero por otro lado creaba restricciones. En la manera moderna de probar hipótesis se usa una cantidad llamada IP-value6* Nota. 5l 6P-value7 llamado el nivel de si!nificaci8n observado4 es el valor de α al cual se rec)azara la )ipotesis nula si se usa el valor calculado de la prueba estadstica# 5n la pr*ctica un 6P-value7 cercano a 0 indica un rec)azo de la )ip8tesis nula# 9s un 6P- value7 menor que #0' indicar* que se rec)aza la prueba estadstica# )&= Ed#ar -cu.a /apítulo 0 Inferencia Estadística Fórm'!as para ca!c'!ar 7P2a!'e61 :epende de la forma de la hipótesis alterna i7 4i H a . µ1µ o" entonces P-value / Prob 8Z1Z calc 7. ii7 4i H a . µ0µ o" entonces P-value / Prob 8Z0Z calc 7. iii7 4i H a . µ≠µ o" entonces P-value A "Prob 8ZFJZ calcJ J7. Los principales paquetes estadísticos" entre ellos (IBI2-G" dan los 6P-values7 para la mayoría de las pruebas estadísticas. - traés de todo el te'to usamos el método del 6P-value7 para probar hipótesis. E0emp!o 7*8* En estudios preios se ha determinado que el niel de colesterol promedio de pacientes con problemas cardíacos es 55%. Un cardiólo#o piensa que en realidad el niel es más alto y para probar su afirmación usa la muestra del Ejemplo 0.). K1abrá suficiente eidencia estadística para apoyar la afirmación del cardiólo#oL Mustificar su contestación. So!'ción1 La hipótesis nula es H o . µ / 55% 8el niel de colesterol promedio es 55%7 La hipótesis alterna es H a . µ 1 55% 8el cardiólo#o piensa que el niel promedio de colesterol es mayor de 55%7. La entana de diálo#o +2Samp!e 3 se completa como lo muestra la si#uiente fi#ura6 ;i#ura 0.=. Eentana de diálo#o de +2samp!e 3 para el Ejemplo 0.D. )&& Ed#ar -cu.a /apítulo 0 Inferencia Estadística Lue#o se oprime el botón Options y en la entanita de a!ternatie se eli#e I#reater thanN como se muestra a continuación6 Bo importa lo que se escriba en Con"idence !ee!" porque ,INITA/ sólo hará la prueba de hipótesis. 4i la hipótesis alterna es I?N" entonces se eli#e 7!ess t9an6" y si la alterna es I ≠N entonces se eli#e 7not e4'a!6* Los resultados son los si#uientes6 One-Sample Z: colesterol Test o, mu = ""0 vs - ""0 The assumed standard deviation = 13 90% .o/er Variable N Mean StDev SE Mean 0ound 1 2 !olesterol "0 ""#.900 13.09* ".90) """.1)# ".03 0.0"1 Interpretación: 5l valor del 6P-value7 :el *rea a la derec)a de "#0$; es #0"1 menor que el nivel de si!nificaci8n α/#0'4 por lo tanto< se rec)aza la )ip8tesis nula y se concluye de que si )ay evidencia estadstica de que el nivel de colesterol promedio de los pacientes con problemas cardacos es mayor de ""0# = sea los resultados apoyan lo que afirma el cardi8lo!o# E0emp!o 7*: Un profesor de matemáticas piensa que los datos de la muestra del Ejemplo 0.5 su#ieren que el puntaje promedio en la parte de aproechamiento matemático ha disminuido desde )$*%" ya que en ese a.o la media de todos los puntajes en aproechamiento era de 0%% pts. K- qué conclusión se lle#ará después de hacer una prueba de hipótesisL /onsiderando que la ariabilidad de los puntajes no ha cambiado de )$*% a )$$=. )&+ Ed#ar -cu.a /apítulo 0 Inferencia Estadística So!'ción1 La hipótesis nula es H 0 . µ A 0%% 8el puntaje promedio en )$$= si#ue siendo el mismo que en )$*%7 y la hipótesis alterna es H a . µ 0 0%% 8el puntaje promedio disminuyó7. La entana de diálo#o +2Samp!e 3 deberá ser completada como si#ue6 ;i#ura 0.&. Eentana de diálo#o de +2samp!e 3 para el Ejemplo 0.= Lue#o se oprime el botón Options y se eli#e !ess t9an en la entanita de A!ternatie. Los resultados aparecerán en la entana session de la si#uiente manera6 One-Sample Z: aprovech Test o, mu = )00 vs 3 )00 The assumed standard deviation = #1.'&1) 90% 4++er Variable N Mean StDev SE Mean 0ound 1 2 a+rove!h *0 &)3.100 #1.'&" '."00 &'3.&09 53."' 0.001 )&0 Ed#ar -cu.a /apítulo 0 Inferencia Estadística Interpretación: 5l valor del 6P-value7 :el *rea a la izquierda de >$#"&; es #001 menor que el nivel de si!nificaci8n α / #0'4 por lo tanto se rec)aza la )ip8tesis nula y se concluye de que si )ay evidencia estadstica de que el punta(e promedio de la parte de aprovec)amiento )a disminudo desde 19&0# 7*5 In"erencias acerca de !a ,edia Po(!aciona! -;arian#a Desconocida. 4upon#amos que la población es normal con media y arian!a desconocida y que se desea hacer inferencias acerca de µ" basada en una muestra peque.a 8n ? D%7 tomada de la población. En este caso la distribución de la media muestral x ya no es normal" sino que si#ue la distribución t de Student* La distribución t de Student es bastante similar a la Bormal Estándar" con la diferencia que se apro'ima más lentamente al eje hori!ontal. El parámetro de esta distribución es llamado #rados de libertad" y se puede notar que a medida que los #rados de libertad aumentan" la cura de la t y la cura normal estándar se asemejan cada e! más. Los #rados de libertad #uardan relación con el n3mero de datos que se usan para calcular el estadístico y el n3mero de estimaciones de parámetros que aparecen en la misma. Por cada estimación de parámetro que aparece en la fórmula del estadístico se pierde un #rado de libertad. ;i#ura 0.+. <elación entre la cura normal estándar y una cura t. Propiedad1 4i de una población Bormal con media µ y desiación estándar σ se e'trae una muestra de tama.o n" entonces el estadístico6 n s x t µ − = )&* -4 -3 -2 -1 0 1 2 3 4 0.0 0.1 0.2 0.3 0.4 x C 2 Curva Normal Estandar y T con 5 grados de libertad ec!o "or Edgar #cuna Curva Normal Estandar t con 5gl. Ed#ar -cu.a /apítulo 0 Inferencia Estadística se distribuye como una t de 2tudent con n>) #rados de libertad. Esta e'presión es la base para hacer inferencia estadística para la media de una población Bormal cuando la arian!a no es conocida. Un interalo de confian!a del )%% 8)>α7 , para µ es de la forma6 8 x > t 8n>)"α957 s9 n " x @ t 8n>)"α957 s9 n 7 donde s es la desiación estándar muestral. -quí t :n-14α/"; es un alor de t con n>) #rados de libertad y tal que el área a la derecha de dicho alor es α95. 2ambién se pueden hacer las si#uientes pruebas de hipótesis6 Caso I Caso II Caso III Ho . µ/µ0 Ho . µ/µ0 Ho . µ/µ0 Ha . µ0µ0 Ha . µ ≠ µ0 Ha . µ1µ0 Pr'e(a Estad&stica 2A n s x o µ − es una t con n>) #.l. Decisión 4i ?cal 0 -t α entonces 4i J?cal JFt α/" entonces 4i ?cal 1t α entonces se recha!a Ho se recha!a Ho se recha!a Ho En ,INITA/" para hallar interalos de confian!a y hacer pruebas de hipótesis acerca de la media" cuando la arian!a poblacional no es conocida" hay que se#uir la secuencia Stat /asic Statistics+2samp!e t* E0emp!o 7*< Los tiempos de sobreiencia 8en a.os7 de )5 personas que se han sometido a un transplante de cora!ón son los si#uientes6 D.) .$ 5.* =.D .+ ).= &.* $.$ +.D )%.= % )).& 1allar un interalo de confian!a del $$ por ciento para el promedio de ida de todas las personas que se han sometido a un transplante de cora!ón. )&$ Ed#ar -cu.a /apítulo 0 Inferencia Estadística So!'ción1 -sumiendo que la columna ?iempo contiene los datos" la entana de diálo#o 1-sample t se completará como se muestra en la ;i#ura 0.0. Botar que la entana de diálo#o es similar a la de )>sample C. - continuación hay que oprimir el botón Options para entrar al niel de confian!a deseado en la entanita Con"idence Lee! como se muestra en la ;i#ura 0.*. Los si#uientes resultados aparecerán en la entana session1 One-Sample T: tiempo Variable N Mean StDev SE Mean 99% C tiem+o 1" *.)#000 *.0*#99 1.1&)9' $1.1""*9% '.3))#1( ;i#ura 0.0. Eentana de diálo#o de +2samp!e t para el Ejemplo 0.&. )+% Ed#ar -cu.a /apítulo 0 Inferencia Estadística ;i#ura 0.*. Eentana de diálo#o de Options para +2samp!e t* E0emp!o 7*= Usando los datos del Ejemplo 0.&" un cardiocirujano afirma que el tiempo de ida promedio de los transplantes es mayor que = a.os. K- qué conclusión se lle#ará después de hacer la prueba de hipótesisL So!'ción1 La hipótesis nula es H 0 . µ / = 8el tiempo de ida promedio de todos los transplantes es = a.os7 y la hipótesis alterna es H a . µ F = 8el tiempo de ida promedio es mayor que = a.os7. La entana de diálo#o +2samp!e t se completará como se muestra en la ;i#ura 0.$. Lue#o hay que oprimir el botón Options y ele#ir I#reater thanN en la entanita A!ternatie. )+) Ed#ar -cu.a /apítulo 0 Inferencia Estadística ;i#ura 0.$. Eentana de diálo#o de +2samp!e t para el Ejemplo 0.+. Los si#uientes resultados aparecerán en la entana session1 One-Sample T: tiempo Test o, mu = * vs - * 99% .o/er Variable N Mean StDev SE Mean 0ound T 2 tiem+o 1" *.)#000 *.0*#99 1.1&)9' 1.#)#3# 0.&* 0."&) Interpretación: 5l valor del 6P-value7 :el *rea a la derec)a de 0#%@; es #"%- mayor que el nivel de si!nificaci8n α / #0'4 por lo tanto A= se rec)aza la )ip8tesis nula y se concluye de que no )ay evidencia de que el tiempo promedio de vida despuBs del transplante )aya aumentado de @ aCos# 7*8 In"erencia para Proporciones (uchas eces estamos interesados en estimar la proporción p 8o el porcentaje7 de ocurrencia de un eento" por ejemplo el porcentaje de estudiantes que fuman en una )+5 Ed#ar -cu.a /apítulo 0 Inferencia Estadística uniersidad" el porcentaje de otantes que faorecen a un cierto candidato" etc. Para esto necesitamos definir una ariable aleatoria D que indique el n3mero de eces que ocurre el eento en una muestra de tama.o n y con probabilidad de é'ito" p. 4e puede mostrar que cuando el tama.o de muestra es #rande" tal que np F &" entonces el estadístico n pq p p Z − = O se distribuye apro'imadamente como una normal estándar. -quí p representa la proporción poblacional que se desea estimar" y n x p = O es la proporción muestral. /uando pO es cercano a % ó a ) se debe tomar un tama.o de muestra más #rande para que la apro'imación sea buena. Un Interalo de confian!a apro'imado del )%% 8)>α7 , para la proporción poblacional p será6 Las fórmulas para las pruebas de hipótesis serán como si#ue6 Caso I Caso II Caso III Ho . p/p0 Ho . p/p0 Ho . p/p0 Ha . p0p0 Ha . p ≠ p0 Ha . p1p0 Pr'e(a Estadistica -Apro>imada.1 n q p p p Z % % % 7 8 − = Decisión 4i Zcal 0-Z α entonces 4i JZcal JFZ α / " entonces 4i Zcal 1Z α entonces se recha!a Ho se recha!a Ho se recha!a Ho Para hacer inferencias para proporciones en ,INITA/" se si#ue la secuencia Stat /asic Statistics + proportion. )+D n q p Z p n q p Z p O O O " O O O 5 9 5 9 α α + − Ed#ar -cu.a /apítulo 0 Inferencia Estadística E0emp!o 7*7 En )$$% en un cierto país" se reportó que dos de cada & personas pensaban que debería incrementarse el poder nuclear. En una encuesta reciente hecha en )$$+ a )55& personas se encontró que =0* de ellos pensaban que se debería aumentar el poder nuclear. 1allar un interalo de confian!a del $% por ciento para la proporción poblacional en )$$+. KPiensa Ud. que hay eidencia de que la opinión de la #ente en )$$+ ha cambiado con respecto a )$$%L Mustificar su contestación. So!'ción1 1ay que hallar un interalo de confian!a del $%, para la proporción p" y probar la si#uiente hipótesis6 = . 6 % = p H 8la proporción no cambió de )$$% a )$$+7. = . 6 ≠ p H a 8la proporción cambió de )$$% a )$$+7. El interalo de confian!a y la prueba de hipótesis se pueden hallar simultáneamente. La entana de diálo#o se completará como si#ue6 ;i#ura 0.)%. Eentana de diálo#o de +2proportion para el Ejemplo 0.0. Primero se eli#e la opción S'mmari#ed Data. La opción Samp!es in co!'mns se usa cuando en una columna se entran las secuencias de é'itos y fracasos que realmente ocurren en la muestra* Lue#o en la entanita N'm(er o" Tria!s" se entra el tama.o de la muestra y en la entanita N'm(er o" s'ccesses se entra el n3mero de é'itos. :espués se oprime el botón Options y se completa la entana de diálo#o que aparece en la ;i#ura 0.)). )+= Ed#ar -cu.a /apítulo 0 Inferencia Estadística Botar que se marca la opción Use test and intera! (ased on norma! distri('tion" porque estamos usando la prueba estadística apro'imada por la normal. ;i#ura 0.)). Eentana de diálo#o que aparece al oprimir options en +2proportion* Los si#uientes resultados aparecen en la entana session1 Test and CI for One Proportion Test o, + = 0.* vs + not = 0.* Sam+le 6 N Sam+le + 90% C 15Value 25 Value 1 *)' 1""# 0.390"0* $0.3&)"'0% 0.*131"'( 50.)0 0.*'* Interpretación: Eiendo que el 6p-value7 es #@&@ muc)o mayor que #0' se lle!a a la conclusi8n de que no )ay suficiente evidencia para concluir que la proporci8n de personas a favor de un incremento del poder nuclear )aya cambiado de 1990 a 199%# Nota: 2i en una columna se introduce los Bxitos y fracasos entonces4 (IBI2-G identifica el Bxito :2F++522; y fracaso :G9HIFJ5; se!Kn el orden alfabBtico4 o sea fracaso es el valor de la variable que empieza con una letra que aparece antes en el alfabeto# )+& Ed#ar -cu.a /apítulo 0 Inferencia Estadística E0emp!o 7*?* El director de un hospital afirma que el 5& por ciento de los nacimientos que ocurren allí son por cesárea. Un médico que trabaja en dicho hospital piensa que ese porcentaje es mayor. Para probar su afirmación recolecta información de los 5& nacimientos ocurridos durante una semana. Los datos son como si#uen6 Partos Ces7rea normal !es7rea normal normal normal normal !es7rea normal !es7rea normal !es7rea normal normal normal normal normal !es7rea normal normal !es7rea normal normal !es7rea normal K1abrá suficiente eidencia estadística para apoyar la afirmación del médicoL So!'ción1 En este caso los datos son entrados en una columna llamada partos4 en consecuencia se usará la opción samp!es in co!'mns en la entana +2proportion* En este ejemplo" é'ito será que el parto sea normal y fracaso" que el parto sea por cesárea pues / está antes que A. Lue#o las hipótesis deben ser planteadas así6 Ho. p A.0& 8el 0&, de los partos son normales y el 5&, por cesárea7 Ha. p ?.0& 8menos del 0&, de los partos son normales" o sea" más del 5&, son por cesárea7. La entana de diálo#o se completa como si#ue6 ;i#ura 0.)5. Eentana de diálo#o de + proportion para el Ejemplo 0.*. )++ Ed#ar -cu.a /apítulo 0 Inferencia Estadística El contenido de la entana session será6 Test and Confidence Interval for One Proportion Test o, + = 0.)# vs + 3 0.)# Su!!ess = normal Variable 6 N Sam+le + 9#.0 % C 15Value 25Value +artos 1) "# 0.&'0000 $0.*9)1*#% 0.'&"'##( 50.'1 0."09 Interpretación: Le acuerdo al 6P-value7 / 0#"09 1 #0' no se rec)aza la )ip8tesis nula# Por lo tanto4 no )ay evidencia suficiente para concluir que lo que afirma el mBdico es correcto# 7*: In"erencia acerca de !a ;arian#a Po(!aciona!* Para hacer inferencia acerca de la arian!a de una población Bormal se requiere hacer uso de la distibución Mi>/uadrado" la cuál será e'plicada breemente antes de discutir la inferencia. 7*:*+* La Distri('ción @i2C'adrado 4ean D 14 D " 4M4 D n obseraciones de una muestra de tama.o n de una población normal A 8µ4σ " 7. Entonces6 5 ) 5 5 7 8 σ χ ∑ = − = n i i D D se distribuye como una Mi>/uadrado 8 χ 5 7 con n>) #rados de libertad. La distribución Mi> /uadrado no es simétrica" pero a medida que los #rados de libertad aumentan se a obserando más simetría. En la ;i#ura 0.)D se muestra la #ráfica de una χ 5 con $ #rados de libertad. )+0 Ed#ar -cu.a /apítulo 0 Inferencia Estadística 4e puede mostrar que el cuadrado de una normal estandari!ada es una Mi>/uadrado con un #rado de libertad y que si se suman dos ariables Mi>/uadrado independientemente distribuidas" entonces se obtiene otra Mi>/uadrado cuyos #rados de libertad es i#ual a la suma de los #rados de libertad de los otros dos. ;i#ura 0.)D Práfica de una Mi>/uadrado con $ #rados de libertad <ecordando que la fórmula de la arian!a muestral es ) 7 8 5 5 − = ∑ − n i s D D " se obtiene que6 5 5 5 7 ) 8 σ χ s n − = 4e acostumbra usar la notación 5 7 8m χ para representar a una distribución Mi>/uadrado con m #rados de libertad. Usos de !a @i2C'adrado a7 Para hacer inferencias acerca de la arian!a poblacional. Es decir" para calcular Interalos de /onfian!a y Prueba de hipótesis para la arian!a poblacional. b7 Para hacer pruebas de Gondad de -juste. Q sea" para probar si un conjunto de datos si#ue una distribución pre>determinada. c7 Para hacer análisis de tablas de conti#encia. En este capítulo sólo se discutirá el primer uso" los otros dos se discutirán en el /apítulo *. )+* 0 10 20 30 40 50 $0 0.00 0.05 0.10 x % & x ' (i-Cuadrado con ) grados de libertad ec!o "or Edgar #cuna Ed#ar -cu.a /apítulo 0 Inferencia Estadística 7*:*5 Intera!os de Con"ian#a para !a ;arian#a Po(!aciona! Partiendo de la si#uiente relación" la cual puede ser fácilmente entendida con una #ráfica6 P8 χ α 95 5 ? 5 5 7 ) 8 σ s n − ? χ α ) 5 5 − 9 7 A )>α :onde χ α 95 5 y χ α ) 5 5 − 9 representan los alores de una Mi>/uadrado con n>) #rados de libertad" de tal manera que el área a la i!quierda de dichos alores son α95 y ) > α95 respectiamente. 4e puede lle#ar a establecer que un interalo de confian!a del )%% 8)>α7 , para la arian!a poblacional σ 5 de una población normal es de la forma6 8 5 5 9 ) 5 7 ) 8 α χ − − s n " 5 5 9 5 7 ) 8 α χ s n − 7 ,INITA/ no tiene un comando u opción para calcular un interalo de confian!a para la arian!a" así que hay que calcular la fórmula usando las opciones Calculator y Probability Distributions del men3 Ca!c* E0emp!o 7*A Los si#uientes datos representan espesor de la membrana del plasma 8medido en an#stroms7 de 5% especies de una planta6 *% $% *& *5 0& &* 0% *= *0 *) *0 +) 0D *= *& 0% 0* $& 00 &5 1allar un interalo de confian!a del $& , para la arian!a poblacional. So!'ción1 En este caso n A 5% y α A .%&. Lue#o el interalo de confian!a del $& , para σ 5 será de la forma6 8 5 $0& . 5 )$ χ s " 5 %5& . 5 )$ χ s 7 En ,INITA/" la arian!a muestral s 5 puede ser calculada usando la secuencia opción STAT/asic StatisticsStore Descriptie Statistics$ y lue#o eli#iendo ;ariance en la opción Statistics* Esto da 2 5 A )55.))+. )+$ Ed#ar -cu.a /apítulo 0 Inferencia Estadística Los percentiles χ .$0& 5 y χ .%5& 5 de la Mi> /uadrado con )$ #rados de libertad pueden ser calculados usando C9i2S4'are de la opción Pro(a(i!itB Distri('tions del men3 CALC" como lo muestra la si#uiente ;i#ura 0.)=. ;i#ura 0.)=. Eentana de diálo#o para calcular percentiles de una Mi>/uadrado. Esto produce los si#uientes resultados6 Inverse Cumulative Distribution Function Chi5S8uare /ith 19 D9 2$ 6 3= : ( : 0.0"# '.90&#" Q sea" χ .%5& 5 A *.$%+& y similarmente χ .$0& 5 A D5.*&5D. Lue#o" el interalo de confian!a del $& , para la arian!a poblacional será 80%.+5&D" 5+%.&%07. Por otro lado" tomando en cuenta que la desiación estándar es la raí! cuadrada positia de la arian!a" se puede usar la fórmula anterior para hallar un interalo de confian!a para la desiación estándar poblacional σ. Q sea" el interalo de confian!a del )%%8)>α7, para la desiación estándar poblacional será6 )0% Ed#ar -cu.a /apítulo 0 Inferencia Estadística 8 5 5 9 ) 5 7 ) 8 α χ − − s n " 5 5 9 5 7 ) 8 α χ s n − 7 ,INITA/ da este interalo de confian!a cuando si#uiendo la secuencia STAT/asic Statisticsraphical Summary! Para los datos del ejemplo se obtienen los resultados que aparecen en la si#uiente ;i#ura6 ;i#ura 0.)&. <esultados de Crap9ica! S'mmarB para el Ejemplo 0.$ Interpretación: Fn intervalo de confianza del 9'% para σ es :&#@0$94 1%#1@0";# 2i se cuadra ambos valores se obtiene el intervalo de confianza para la varianza4 y se concluye de que )ay un 9'% de confianza de que la varianza del espesor de la membrana del plasma de todas las especies caen entre -0#%"'$ y "%0#'0-# 7*:*8 Pr'e(a de %ipótesis para !a ;arian#a Po(!aciona! -sumiendo que la población de donde se e'trae la muestra se distribuye normalmente se pueden hacer las si#uientes hipótesis acerca de la arian!a poblacional6 Caso I Caso II Caso III 1o 6 σ 5 Aσ % 5 1o 6 σ 5 Aσ % 5 1o 6 σ 5 Aσ % 5 1a 6 σ 5 ? σ % 5 1a 6 σ 5 ≠ σ % 5 1a 6 σ 5 F σ % 5 Pr'e(a Estad&stica1 )0) Ed#ar -cu.a /apítulo 0 Inferencia Estadística χ σ 5 5 % 5 ) = − 8 7 n s con n>) #.l. Decisión1 4i χ cal 5 ? χ α 5 entonces 4i χ cal 5 ? χ α 95 5 ó χ cal 5 F χ α ) 5 5 − 9 4i χ cal 5 F 5 ) α χ − se recha!a 1o se recha!a 1o se recha!a 1o 2ampoco e'iste un comando para hacer esta prueba de hipótesis en ,INITA/. E0emp!o 7*+D Usando los datos del ejemplo anterior" probar si hay suficiente eidencia para concluir que la arian!a poblacional sea mayor que )%%. Usar un niel de si#nificación del & por ciento. So!'ción1 4e desea probar6 1 o 6 σ 5 A )%% 1 a 6 σ 5 F )%% El alor de la prueba estadística será 8)$78)55.))+79)%% A 5D.5%5% que comparado con χ .$& 5 A D%.)=D& resulta ser menor. Lue#o" no hay eidencia suficiente para recha!ar la hipótesis nula. -l & , de si#nificación" la arian!a poblacional no parece ser mayor que )%%. 7*< Comparando !a arian#a de dos po(!aciones 4upon#amos que se tienen dos poblaciones normales con arian!as desconocidas 5 ) σ y 5 5 σ . 4i de la primera población se toma una muestra de tama.o m que tiene una arian!a muestral 5 ) s y de la se#unda poblacion se toma una muestra" independiente de la primera" de tama.o n que tiene una arian!a muestral 5 5 s " se puede mostrar que la ra!ón 5 5 5 5 5 ) 5 ) σ σ s s se distribuye como una ; con m>) #rados de libertad en el numerador y n>) en el denominador. Esta es la base para la prueba de ; de i#ualdad de arian!a entre dos #rupos Las fórmulas para las pruebas de hipótesis son como si#ue6 Caso I Caso II Caso III 1o 6 5 5 5 ) σ σ = 1o 6 5 5 5 ) σ σ = 1o 6 5 5 5 ) σ σ = 1a 6 5 5 5 ) σ σ < 1a 6 5 5 5 ) σ σ ≠ 1a 6 5 5 5 ) σ σ > )05 Ed#ar -cu.a /apítulo 0 Inferencia Estadística Pr'e(a Estad&stica1 5 5 5 ) s s G = con m>) #.l. en el numerador y n>) #.l en el denominador Decisión1 4i cal G ? α G entonces 4i cal G ? 5 9 α G o cal G F 5 9 ) α − G 4i cal G F α − ) G se recha!a 1o se recha!a 1o se recha!a 1o ,INITA/ hace pruebas de i#ualdad de arian!a de dos o más #rupos. Para esto se selecciona la opción 5 ;ariances del submen3 /asic Statistics del men3 STAT* Qtra posibilidad es ele#ir Test "or E4'a! ;ariances del submen3 ANO;A del men3 STAT* E0emp!o 7*++ En el si#uiente ejemplo se trata de comparar las arian!as de los puntajes de aproechamiento de los estudiantes de escuelas p3blicas y priadas. Los datos recolectados son6 Est aprovech escuela 1 #'0 +;bli!a " &3' +;bli!a 3 &*" +rivada * )0* +;bli!a # )&) +rivada & &*1 +rivada ) )"1 +rivada ' &"# +rivada 9 &9* +;bli!a 10 &1# +;bli!a 11 &1) +;bli!a 1" &"3 +;bli!a 13 &'9 +rivada 1* &'9 +;bli!a So!'ción1 Las hipótesis son las si#uientes6 1 o 6 Earian!a de los puntajes de estudiantes de escuela p3blica es i#ual a la arian!a de puntajes de los estudiantes proenientes de escuela priada. 1 a 6 Las arian!as no son i#uales. La entana de diálo#o de 5 ;ariances se completará como lo muestra la ;i#ura 0.)+. Qprimiendo el botón Options se puede ele#ir el niel de confian!a y poner un título a la #ráfica que aparecerá6 )0D Ed#ar -cu.a /apítulo 0 Inferencia Estadística ;i#ura 0.)+. Eentana de diálo#o de 5 ariances para el Ejemplo 0.)). La entana session mostrará los si#uientes resultados6 Test for Eual !ariances: aprovech versus escuela 9#% 0on,erroni !on,iden!e intervals ,or standard deviations es!uela N .o/er StDev 4++er +rivada & 3".*#"" ##.3*)) 1#'.3*) +;bli!a ' "'."3&' *#.13*) 103.3'0 95Test $normal distribution( Test statisti! = 1.#0% +5value = 0.&01 .evene<s Test $an= !ontinuous distribution( Test statisti! = 0.30% +5value = 0.#9* -demás aparece una #ráfica mostrando los interalos de confian!a para cada una de las desiaciones estándar y una comparación de la ariabilidad de cada muestra" como aparece en la ;i#ura 0.)0. )0= Ed#ar -cu.a /apítulo 0 Inferencia Estadística ;i#ura 0.)0. Interalos de confian!a y bo'plots para comparar las arian!as. Interpretación: 5l 6P-value7 de la prueba de G es #%01 muc)o mayor que #0'4 lue!o se acepta la )ip8tesis nula y se concluye que los punta(es en la prueba de aprovec)amiento en las escuelas pKblica y privada tienen i!ual varianza# Le las !r*ficas se puede ver que los 6boxplots7 de ambos !rupos tienen aproximadamente el mismo alar!amiento# E0emp!o 7*+5* /omparar la arian!a de los promedios académicos de estudiantes hombres y mujeres matriculados en una clase básica de Estadística. Los datos están en el archio )pase>$ en la pá#ina de internet del te'to. So!'ción1 Los datos están #uardados en dos columnas una llamada )ombres y la otra mu(eres. Eli#iendo la secuencia Stat/asic Statistics5 ariances se obtiene una entana de diálo#o la cual se completa como aparece en la ;i#ura 0.)*. )0& Ed#ar -cu.a /apítulo 0 Inferencia Estadística ;i#ura 0.)*. Eentana de diálo#o de 5 ;ariances para el Ejemplo 0.)5 Los resultados que se obtienen son como si#ue6 Test for Eual !ariances: hombre" mu#er 9#% 0on,erroni !on,iden!e intervals ,or standard deviations N .o/er StDev 4++er hombre 1" 0.*")001 0.&31*## 1.1&)"# mu>er 1& 0."#*&"' 0.3#91#& 0.#9#*& 95Test $normal distribution( Test statisti! = 3.09% +5value = 0.0*# .evene<s Test $an= !ontinuous distribution( Test statisti! = &.1&% +5value = 0.0"0 )0+ Ed#ar -cu.a /apítulo 0 Inferencia Estadística -demás aparece el análisis #ráfico mostrado en la ;i#ura 0.)$. ;i#ura 0.)$. Interalos de confian!a y bo'plots para comparar las arian!as del Ejemplo 0.)5 Interpretación: +omo el Np-valueN de la prueba de G es 0#0@' menor que 0#0' se rec)aza la )ip8tesis nula de i!ualdad de varianza4 y se concluye que las varianza de los promedios acadBmicos de los )ombres y las mu(eres no son i!uales# Le las !r*ficas se pueden ver que la distribuci8n de los promedios acadBmicos de las mu(eres es menos variable que la de los )ombres! 7*= Comparación entre dos medias po(!aciona!es 'sando m'estras independientes 4upon#amos que se tienen dos poblaciones distribuídas normalmente con medias desconocidas µ ) y µ 5" respectiamente. 4e puede aplicar una prueba t de 2tudent para comparar las medias de dichas poblaciones basándonos en dos muestras independientes tomadas de ellas. La primera muestra es de tama.o m" con media x y arian!a 5 ) s y la se#unda muestra es de tama.o n" tiene media y y arian!a 5 5 s . )00 Ed#ar -cu.a /apítulo 0 Inferencia Estadística 4i las arian!as de las poblaciones son i#uales 8 5 5 5 5 ) σ σ σ = = 7 entonces se puede mostrar que6 n m s y x t p ) ) 7 8 7 8 5 ) + − − − = µ µ se distribuye como una t con 5 − + n m #rados de libertad. En este caso la arian!a poblacional 5 σ es estimada por una arian!a combinada de las arian!as de las dos muestras tomadas" dada por la si#uiente fórmula6 5 7 ) 8 7 ) 8 5 5 5 ) 5 − + − + − = n m s n s m s p Un interalo de confian!a del )%%8)>α7 , para la diferencia µ ) >µ 5 de las medias poblacionales será de la forma6 n m s t y x p m n ) ) 7 5 " 5 9 8 + ± − − + α Las fórmulas para las pruebas de hipótesis son las si#uientes6 Caso I Caso II Caso III 1o 6 5 ) µ µ = 1o 6 5 ) µ µ = 1o 6 5 ) µ µ = 1a 6 5 ) µ µ < 1a 6 5 ) µ µ ≠ 1a 6 5 ) µ µ > Pr'e(a Estad&stica1 n m s y x t p ) ) + − = con m@n>5 #rados de libertad Decisión1 4i cal t ? α t − entonces 4i cal t ? 5 9 α t o cal t F 5 9 ) α − t 4i cal t F α − ) t se recha!a 1o se recha!a 1o se recha!a 1o Las fórmulas se pueden #enerali!ar para probar hipótesis de las diferencias de las dos medias es una cantidad especificada : o . En ,INITA/" para hallar interalos de confian!a de diferencia de dos medias poblacionales y hacer prueba de hipótesis para comparar dos #rupos se si#ue la secuencia STAT52samp!e t* )0* Ed#ar -cu.a /apítulo 0 Inferencia Estadística E0emp!o 7*+8* 4e desea comparar si los estudiantes de escuelas priadas y p3blicas tienen i#ual rendimiento en la prueba de aproechamiento matemático del /olle#e Goard. Los datos aparecen en el Ejemplo 0.)). So!'ción1 En el Ejemplo 0.)) se concluyó usando la prueba de ; que que había i#ualdad de arian!as de las poblaciones de donde proenían las muestras. Lue#o la entana de diálo#o 5 samp!e t se completa como se muestra en la ;i#ura 0.5%. Botar que aparece seleccionada la opción samp!es in one co!'mn porque los datos de las dos muestras an en una misma columna 8aprovec)7" y en otra columna 8escuela7 an los alores que permiten identificar a qué muestra pertenece el dato. La opción Samp!es in di""erent co!'mns se usa cuando las dos muestras están en columnas separadas. Botar además que la opción Ass'me e4'a! ariances aparece marcada. -l oprimir el botón Options se puede ele#ir el niel de confian!a" el alor de la hipótesis que se quiere probar y la dirección de la hipótesis alterna tal como se muestra en la ;i#ura 0.5) ;i#ura 0.5%. Eentana de diálo#o de 52samp!e t para el Ejemplo 0.)D. )0$ Ed#ar -cu.a /apítulo 0 Inferencia Estadística ;i#ura 0.5). Eentana de diálo#o de Options para 52samp!e t* Los si#uientes resultados aparecerán en la entana session1 T$o-Sample T-Test and CI: aprovech" escuela T/o5sam+le T ,or a+rove!h SE es!uela N Mean StDev Mean +rivada & &'0.' ##.3 "3 +;bli!a ' &*#.0 *#.1 1& Di,,eren!e = mu $+rivada( 5 mu $+;bli!a( Estimate ,or di,,eren!e? 3#.'333 9#% C ,or di,,eren!e? $5"".#'*9% 9*."#1&( T5Test o, di,,eren!e = 0 $vs not =(? T5Value = 1.3* 25Value = 0."0& D9 = 1" 0oth use 2ooled StDev = *9.&*&1 Interpretación: 5l valor del 6P-value7 es #"0% mayor que el nivel de si!nificaci8n α / #0'4 por lo tanto A= se rec)aza la )ip8tesis nula y se concluye de que no )ay evidencia de que los estudiantes de escuela pKblica ten!an un rendimiento distinto que los de escuela privada en las pruebas de aprovec)amiento# 5l nKmero de !rados de libertad de la t es 1"# Aotar que el intervalo de confianza del 9'% para la diferencia es :>""#%4 9@#$; que contiene a cero4 Bsta es otra manera de (ustificar que se acepta la )ip8tesis nula# )*% Ed#ar -cu.a /apítulo 0 Inferencia Estadística Eli#iendo la opción Crap9s de la entana de diálo#o 52Samp!e t se obtiene los bo'plots de los dos #rupos" como aparece en la si#uiente fi#ura6 ;i#ura 0.55. /omparación de dos #rupos usando bo'plots. Interpretación: Ao se puede apreciar una marcada diferencia entre las medianas :representadas por las lineas dentro de las ca(as;4 ni las medias :representadas por los puntos; de los !rupos# Ia variabilidad de los dos !rupos tambiBn es bastante similar ya que los dos 6boxplots7 tienen alar!amiento similar# 4i las arian!as de las poblaciones no son i#uales" entonces se usa una prueba apro'imada de t" donde el n3mero de #rados de libertad es calculado apro'imadamente. La prueba de t apro'imada está dada por6 n s m s y x t 5 5 5 ) + − = donde los #rados de libertad !l son apro'imados por la si#uiente fórmula6 )*) Ed#ar -cu.a /apítulo 0 Inferencia Estadística ) ) 7 8 5 5 5 ) 5 5 ) − + − + = n c m c c c !l con m s c 5 ) ) = y n s c 5 5 5 = . E0emp!o 7*+:* Usando los datos del Ejemplo 0.)5" probar si las estudiantes mujeres tienen mejor promedio académico que los arones. So!'ción1 En este caso los datos de cada muestra están en dos #rupos separados y ya se mostró en el Ejemplo 0.)5 que ellos no tienen i#ual arian!a. La entana de diálo#o se muestra en la ;i#ura 0.5D. Botar que no se ha seleccionado la opción Ass'me e4'a! ariances. Lue#o se oprime el botón Options y se eli#e "#reater than$ en la entanita A!ternatie. Los resultados que aparecen en la entana session serán6 T$o-Sample T-Test and CI: hombre" mu#er T/o5sam+le T ,or hombre vs mu>er N Mean StDev SE Mean hombre 1" ".9#* 0.&31 0.1' mu>er 1& 3."*9 0.3#9 0.090 Di,,eren!e = mu $hombre( 5 mu $mu>er( Estimate ,or di,,eren!e? 50."9#"0' 9#% C ,or di,,eren!e? $50.)"#9)"% 0.13####( T5Test o, di,,eren!e = 0 $vs not =(? T5Value = 51.*# 25Value = 0.1&& D9 = 1& )*5 Ed#ar -cu.a /apítulo 0 Inferencia Estadística ;i#ura 0.5D. Eentana de diálo#o de 52samp!e t para el Ejemplo 0.)=. Interpretación1 +omo el 6P-value7 es #0&$ 1 #0' aunque no por muc)o4 se concluye que no )ay suficiente evidencia de que el promedio acadBmico de las mu(eres sea mayor que el de los )ombres# 7*7 Comparando media de dos po(!aciones 'sando m'estras pareadas En este caso se trata de comparar dos métodos o tratamientos" pero se quiere que las unidades e'perimentales donde se aplican los tratamientos sean las mismas" ó los más parecidas posibles" para eitar influencia de otros factores en la comparación" como por ejemplo" cuando se desea comparar dos medicamentos para curar una emfermedad es bastante obio que el sujeto al cual se aplican los medicamentos influye sustancialmente en la comparación de los mismos. Qtro ejemplo es en educación" supon#amos que se da un seminario sobre un tópico en particular y queremos lue#o ealuar la efectiidad del seminario. Es natural pensar que al#unos indiiduos entenderán mejor el material que otros" tal e!" debido a la preparación que tienen de antemano. -sí que lo más justo es dar una prueba antes y después del seminario y comparar estos resultados indiiduo por indiiduo. 4ea D i el alor del tratamiento I y O i el alor del tratamiento II en el i-Bsimo sujeto. /onsideremos d i / D i - O i la diferencia de los tratamientos en el i-Bsimo sujeto. Las )*D Ed#ar -cu.a /apítulo 0 Inferencia Estadística inferencias que se hacen son acerca del promedio poblacional µ d de las d i . 4i µ d A %" entonces si#nifica que no hay diferencia entre los dos tratamientos. En ,INITA/ eli#iendo la secuencia Stat/asic Statisticspaired t se hacen inferencias para muestras pareadas. Gásicamente lo que se hace es obtener una columna de diferencias y a ésta columna es que se le aplica la opción +2samp!e t test* Un interalo de confian!a del )%%8)>α7, para la diferencia poblacional µ d dada una mestra de mata.o n es de la forma 8 d > t 8n>) " α957 s d 9 n " d @ t 8n>) " α957 s d 9 n 7 donde d 4 es media de las diferencias muestrales d i y ) 7 8 5 − − = ∑ n d d s i i d es la desiación estándar. 2ambién se puede hacer las si#uientes pruebas de hipótesis6 Caso I Caso II Caso III 1o 6 µd A % 1o 6 µd A% 1o 6 µd A% 1a 6 µd ? % 1a 6 µd ≠% 1a 6 µd F% Pr'e(a Estad&stica1 t A n s d d se distribuye con una t de 4tudent con n>) !l. Decisión1 4i t?>t α entonces 4i J t JFt α95 entonces 4i 2cal Ft α entonces se recha!a 1o se recha!a 1o se recha!a 1o Las fórmulas pueden #enerali!arse para probar la hipótesis de que la diferencia poblacional entre los dos tratamientos es : o . E0emp!o 7*+< Un médico desea inesti#ar si una dro#a tiene el efecto de bajar la presión san#uinea en los usuarios. El médico eli#ió al a!ar )& pacientes mujeres y les tomó la presión" lue#o les recetó la medicina por un periodo de + meses" y al final del mismo nueamente les tomó la presión. Los resultados son como si#uen6 4ujetos ) 5 D = & + 0 * $ )% )) )5 )D )= )& -ntes 0% *% 05 0+ 0+ 0+ 05 0* *5 += 0= $5 0= +* *= :espués +* 05 +5 0% &* ++ +* &5 += 05 0= +% 0= 05 0= )*= Ed#ar -cu.a /apítulo 0 Inferencia Estadística So!'ción1 4ea µ d que representa la media poblacional de las diferencias. Entonces6 La hipótesis nula es que H o 6 µ d A % 8La dro#a no tiene nin#3n efecto7 La hipótesis alterna es H a 6 µ d F% 8La dro#a tiene efecto" la presión antes de usar la dro#a era mayor que después de usarla7. La entana de diálo#o paired t se completará como se muestra en la ;i#ura 0.5= y oprimiendo OptionsE" se obtiene una entana de diálo#o que se completa como en la ;i#ura 0.5&. Los resultados en la entana session serán como si#ue6 Paired T-Test and CI: %ntes" Despues Paired T-Test and Confidence Interval 2aired T ,or @ntes 5 Des+ues N Mean StDev SE Mean @ntes 1# )#.') &.'& 1.)) Des+uAs 1# &).0) &.&) 1.)" Di,,eren!e 1# '.'0 10.9' ".'3 9#% C ,or mean di,,eren!e?$".)"% 1*.''( T5Test o, mean di,,eren!e = 0 $vs - 0(? T5Value = 3.11 25Value = 0.00* ;i#ura 0.5=. Eentana de diálo#o de Paired t para el Ejemplo 0.)& )*& Ed#ar -cu.a /apítulo 0 Inferencia Estadística Interpretación: Aotando que el 6P-value7 es #00@ menor que #0'4 se rec)aza la )ip8tesis nula y se lle!a a la conclusi8n de que4 efectivamente la dro!a reduce la presi8n san!uinea# Por otro lado4 se puede observar que el intervalo de confianza del 9'% para la diferencia de medias es 85.05" )=.**74 el cual no contiene a cero4 Bsta es otra raz8n para rec)azar la )ip8tesis nula# ;i#ura 0.5&. Eentana de diálo#o que aparece al oprimir options en Paired t* 7*? Comparando dos proporciones -l#unas eces se desea comparar la proporción con que ocurre un mismo eento en dos poblaciones distintas. Esto conllea a hacer inferencias acerca de la diferencia p ) > p 5 . 4upon#amos que de una de las poblaciones sacamos una muestra de tama.o m" y que en ella ocurre el eento D ) eces" y de la se#unda población sacamos una muestra de tama.o n y que en ella ocurre el eento D 5 eces. 4e puede mostrar que el si#uiente estadístico6 n q p m q p p p p p z 5 5 ) ) 5 ) 5 ) 7 8 7 O O 8 + − − − = donde m D p ) ) O = " n D p 5 5 O = " q 1 / 1-p 1 y q " / 1-p " se distribuye apro'imadamente como una normal estándar cuando n y m son #randes tal que" ) O p m y 5 O p n son mayores que &. Un interalo de confian!a apro'imado del )%%8)>α7 para la diferencia de las proporciones será de la forma6 n q p m q p z p p 5 5 ) ) 5 9 ) 5 ) O O O O + ± − − α   )*+ Ed#ar -cu.a /apítulo 0 Inferencia Estadística 4i la hipótesis nula 1o6 p ) A p 5 es cierta" entonces el estadístico mencionado anteriormente se conierte en6 7 ) ) 8 O O 5 ) n m pq p p z + − = donde" p es estimado por n m D D p + + = 5 ) . Lue#o" las fórmulas para pruebas de hipótesis serán como si#uen6 Caso I Caso II Caso III 1o 6 5 ) p p = 1o 6 5 ) p p = 1o 6 5 ) p p = 1a 6 5 ) p p < 1a 6 5 ) p p ≠ 1a 6 5 ) p p > Pr'e(a Estad&stica1 7 ) ) 78 ) 8 5 ) n m p p p p Z + − − =   Decisión1 4i cal Z ? α Z 4i cal Z ? 5 9 α Z o cal Z F 5 9 ) α − Z 4i cal Z F α − ) Z entonces se recha!a 1o entonces se recha!a 1o entonces se recha!a 1o En ,INITA/" para hacer inferencia acerca de la diferencia de dos proporciones se si#ue la secuencia Stat/asic Statistics5 proportions* E0emp!o 7*+= Un médico ha su#erido que un ataque cardíaco es menos probable que ocurra en hombres que practican al#una clase de deporte. 4e eli#e una muestra al a!ar de D%% hombres" de los cuales )%% practican al#una clase de deporte y de ellos sólo )% han sufrido un ataque cardíaco. :e los 5%% que no practican deportes" 5& han sufrido ataques cardíacos. Probar si los resultados de las muestras apoyan lo su#erido por el médico. So!'ción1 La hipótesis nula es 1 o 6 p ) A p 5 8las probabilidades de sufrir ataque cardíaco son i#uales para ambos #rupos7 y la hipótesis alterna es 1 a 6 p ) ? p 5 8la probabilidad de sufrir ataque cardíaco es menor en hombres deportistas7. La entana de diálo#o se completará como se muestra en la ;i#ura 0.5+. Botar que hay tres maneras de entrar los datos para hacer esta prueba estadística. )*0 Ed#ar -cu.a /apítulo 0 Inferencia Estadística El primer caso es cuando los datos están en dos columnas" en la primera columna an las secuencias de é'itos y fracasos y en la se#unda se identifica a que #rupo pertenece cada uno de ellos y se usa Samp!es in one co!'mn* El se#undo caso es cuando las secuencias de é'itos y fracasos de cada #rupo an en columnas distintas y se usa Samp!es in di"erent co!'mns* En el tercer caso se dan los totales de é'itos y los tama.os de cada #rupo y se usa S'mmari#ed data. En el ejemplo se ha usado esta 3ltima opción" er ;i#ura 0.5+. ;i#ura 0.5+. Eentana de diálo#o de 5 Proportions para el Ejemplo 0.)+ Qprimiendo OptionsE en la entana de diálo#o de la ;i#ura 0.5+ se obtiene6 )** Ed#ar -cu.a /apítulo 0 Inferencia Estadística ;i#ura 0.50. Eentana de diálo#o que aparece al oprimir options en 5 Proportions* Botar que aparece marcado que la prueba estadística usa un estimado combinado para la proporción poblacional. 4e obtienen los si#uientes resultados en la entana session1 Test and CI for T$o Proportions Sam+le 6 N Sam+le + 1 10 100 0.100000 " "# "00 0.1"#000 Di,,eren!e = + $1( 5 + $"( Estimate ,or di,,eren!e? 50.0"# 9#% u++er bound ,or di,,eren!e? 0.03)#&&& Test ,or di,,eren!e = 0 $vs 3 0(? 1 = 50.&& 25Value = 0."#& Interpretación: 5n los resultados aparece el estimado de la diferencia de las dos proporciones4 el intervalo de confianza del 9'% para dic)a diferencia4 la prueba estadstica para i!ualdad de proporciones y su 6p-value7# Eiendo que el 6P-value7 / #"'% es muc)o mayor que #0' se concluye que no )ay evidencia suficiente para afirmar que la probabilidad de sufrir un ataque cardiaco entre los )ombres deportistas es menor que de la de los )ombres que no practican deportes# Aotar que el intervalo de confianza contiene a cero4 lo cual es otra raz8n para aceptar la )ip8tesis nula# E0emp!o 7*+7* Un profesor piensa que el porcentaje de estudiantes admitidos a la Uniersidad durante el presente a.o es mayor para los solicitantes de escuela priada que para los que ienen de escuela p3blica. El basa su afirmación en una muestra de D% solicitantes tomadas al a!ar. Los datos están en el archio comp5pr. K1abrá suficiente eidencia para apoyar la afirmación del profesorL So!'ción1 4ea p h la proporción de estudiantes admitidos entre todos los solicitantes de escuela priada y p e la proporción de estudiantes admitidos entre todas las solicitudes de escuela p3blica. Entonces" las hipótesis nula y alterna serán6 e ) p p H = 6 % 8o también p h >p e A %7 e ) a p p H > 6 8o también p h >p e F %7 La entana de diálo#o se completará como en la ;i#ura 0.5*. Es importante hacer notar que en la entanita samp!es a la columna que contiene los alores de la ariable que se desea comparar en este caso admisi8n y en la columna S'(scripts an los #rupos" en este caso escuela# )*$ Ed#ar -cu.a /apítulo 0 Inferencia Estadística /omo la ariable escuela también asume dos alores distintos" es posible intercambiar las dos columnas" pero se estarían probando otras hipótesis" como por ejemplo" comparar las proporciones de estudiantes de escuela p3blica entre los admitidos y no admitidos. ;i#ura 0.5*. Eentana de diálo#o de 5 Proportions para el Ejemplo 0.)0. -l oprimir el botón Options aparece una entana de diálo#o que se completa como si#ue6 ;i#ura 0.5$. Eentana de diálo#o de options en 5 Proportions para el Ejemplo 0.)0. )$% Ed#ar -cu.a /apítulo 0 Inferencia Estadística Los resultados que aparecen en la entana session son los si#uientes6 Test and CI for T$o Proportions: admision" escuela Event = si es!uela 6 N Sam+le + +riv 13 1) 0.)&*)0& +ubl # 13 0.3'*&1# Di,,eren!e = + $+riv( 5 + $+ubl( Estimate ,or di,,eren!e? 0.3'0090 9#% lo/er bound ,or di,,eren!e? 0.10099* Test ,or di,,eren!e = 0 $vs - 0(? 1 = ".11 25Value = 0.01' B NCTE B The normal a++ro:imation ma= be ina!!urate ,or small sam+les. 9isher<s e:a!t test? 25Value = 0.0&1 Interpretación: +omo el 6P-value7 / #001& es menor que #0' se rec)aza la )ip8tesis nula y se concluye que )ay evidencia para apoyar lo que afirma el profesor4 el porcenta(e de estudiantes solicitantes de escuela privada que son admitidos es mayor que el de las escuelas pKblicas# Aotar que el intervalo de confianza para la diferencia de proporciones no contiene a +5J=4 Bsta es otra raz8n para rec)azar la )ip8tesis nula# )$) Ed#ar -cu.a /apítulo 0 Inferencia Estadística E@ERCICIOS Para conse)'ir !os arc9ios de datos accesar a !a si)'iente dirección en !a internet FFF*mat9*'prm*ed'GHed)arGdatos*9tm! o mandar 'n mensa0e a! a'tor* ). Una empresa afirma que su nueo pro#rama de dieta hace que una persona pierda en promedio 55 libras en & semanas" con una desiación estándar de )%.5 libras. 4e toma una muestra del peso perdido en & semanas por &+ participantes del pro#rama y se obtiene un promedio de 5D.& libras. -l & por ciento de si#nificación" K1abrá suficiente eidencia para concluir que la afirmación de la empresa es ciertaL 5. El puntaje promedio en la parte matemática del /olle#e Goard de los estudiantes admitidos a pro#ramas de ciencias en in#eniería en )$$=" fue de +*& con una desiación estándar de *%. Un profesor uniersitario piensa que ese promedio ha bajado en )$$0 porque en una muestra de )& estudiantes ele#idos al a!ar obtuo los si#uientes resultados6 +5% +*D +0$ &*% &$D +$% +$& &&$ +%) 05% 0=& &=% +*% &0$ +)) )$5 Ed#ar -cu.a /apítulo 0 Inferencia Estadística -l ) por ciento de si#nificación" K1abrá suficiente eidencia para apoyar lo que dice el profesorL -sumir que la desiación estándar para )$$0 es la misma que para )$$=. D. Una compa.ia embotelladora afirma que sus botellas plásticas de refresco tienen una capacidad de D%% mililitros. Un cliente de la compa.ía piensa que ese n3mero está sobreestimado" pués en una muestra de 05 botellas se obtuo un peso promedio de 5$& mililitros por botella. -sumiendo que la desiación estándar poblacional de los pesos es de D ml. a7 K1abrá suficiente eidencia para apoyar la afirmación del clienteL Usar un niel de si#nificación del ),. b7 K/uál es el alor P de la PruebaL Interpretar el resultado. =. Un inesti#ador desea hallar un interalo de confian!a del $$, para el tiempo promedio de superiencia 8en a.os7 para todos los pacientes sometidos a una operación cardiaca usando la si#uiente muestra de )5 pacientes6 )%.* )&.D *.) +.$ )&.= )%.$ )).= $.= )5.) )D.5 0.$ )D.D /onsiderar que la desiación estándar es D a.os. &. Un interalo de /onfian!a del $&, para estimar el peso promedio de los recién nacidos en un hospital basado en una muestra de tama.o D+ resultó ser 8=.%" )%.&7. a7 1allar el peso promedio muestral. b7 1allar un Interalo de /onfian!a del $%, para el peso promedio de todos los recién nacidos en el hospital. Interpretar su resultado. +. 4e#3n estudios médicos se estima que el niel promedio de fosfato en un paciente de diálisis es de & mili#ramos por decilitro 8m#9dl7. Un patólo#o obtuo las si#uientes mediciones de nieles de fosfato en la san#re de )* pacientes de diálisis6 &.5 =.+ =.* &.0 +.5 +.) =.$ &.& =.$ +.% &.+ &.5 &.D &.0 +.5 &.* &.+ +.$ K:ará esta muestra tomada suficiente eidencia para comprobar lo que afirman los estudios médicos acerca de pacientes de diálisisL Usar un niel de si#nificación del ) por ciento. 0. Los datos en el archio transp representan los tiempos de ida 8en a.os7 de )5 personas a las que se le efectuó un transplante de cora!ón. Probar" usando un & por ciento de si#nificación" que la arian!a de los tiempos es menor que 5%. )$D Ed#ar -cu.a /apítulo 0 Inferencia Estadística *. Los datos en el archio co!d representan dos #rupos. El primer #rupo consiste de )% personas que co#ieron catarro y a quienes se les dio tabletas de ) #ramo de itamina / = eces al dia. El se#undo es el #rupo /ontrol" que consiste de )5 personas a quienes se les dio tabletas Placebo" que parecían y tenían sabor de itamina /. 4e continuó el e'perimento hasta que las personas se curaban del catarro y se re#istró el n3mero de días que tardaron en curarse. KPiensa Ud. que hay suficiente eidencia para concluir que tomar = #ramos diarios de itamina / reduce el tiempo de duración del catarroL -sumir que las poblaciones de donde proceden las muestras tienen i#ual arian!a. $. Un 4ociólo#o desea probar si hay diferencia entre los salarios de mujeres y hombres recién #raduados de la Escuela de Leyes. Para esto eli#e al a!ar * firmas de abo#ados y en cada una de ellas re#istra el sueldo anual 8en miles7 de un hombre y mujer abo#ado recién contratado. Los resultados están en el archio !aFsa!. Probar que los salarios de los abo#ados arones es mayor que el de las mujeres. )%. Los datos en el archio compcancer*mtF representan dos #rupos. El primer #rupo consiste de los tiempos de ida de )D personas después que se les dia#nosticó cáncer de Estóma#o" y el se#undo los tiempos de ida de )0 personas a quienes se les dia#nosticó cáncer de pulmón. a7 -l & por ciento de si#nificación" probar si la arian!a del tiempo de ida de los que sufren de cáncer de pulmón es menor que +%%%%. b7 Probar si la arian!a de los tiempos de ida para ambos tipos de pacientes es la misma c7 Probar si el tiempo de ida promedio de los pacientes de pulmón es menor que el de los pacientes de estóma#o. )). Los datos en el archio adiest$ representan los puntajes en un test de comprensión de un idioma e'tranjero de )5 personas antes de asistir a un curso de erano y después de terminar el curso. 4e desea probar si el curso mejora el niel de comprensión del idioma e'tranjero. )5. El archio 9ospita! contiene información acerca de arias características de 5& pacientes que in#resaron al hospital. Estas son6 d'rIstaB6 duración de la estadía en el hospital. edad6 edad del paciente. se>o6 se'o del paciente. temp6 temperatura que tenía al in#resar. F(c1 contaje de #lóbulos blancos. anti(io6 si le pusieron antibiótico o no. (actIc'!6 4i le hicieron cultio de bacteria o no. sericio6 El tipo de sericio que le hiceron" médico o quir3#ico. )$= Ed#ar -cu.a /apítulo 0 Inferencia Estadística a7 Probar si hay i#ualdad de arian!a de la duracion de la estadía en el hospital tanto para hombres como mujeres. b7 Probar si la estadia en el hospital es más lar#a para los arones que para las mujeres. c7 Probar si la proporcion de pacientes que son interenidos quir3r#icamente es menor para las mujeres que para los hombres. )$& CAPÍTULO 8 ANÁLISIS DE DATOS CATEGÓRICOS En este capítulo se discutiran técnicas estadísticas para anilizar datos categoricos, los cuales representan atributos o categorías. Primero se dicuten la relación entre las variables que definen las filas y las columna de las tablas y luego se estudian medidas que dan una medida del grado de asociación entre las dos variables categóricas. Finalmente se estudia la prueba de bondad de ajuste que permite ver si un conjunto de datos sigue una distribución conocida agrupando previamente los datos en categorias. 8.1 Pruebas de Independencia y Homegeneidad Consideremos datos de dos variables cualitativas A y B como por ejemplo, nivel económico y partido político al cual pertenece.una persona. También podrían ser dos variables cuantitativas que han sido categorizadas, como por ejemplo, Nivel de Educación y Nivel de salario. Como ya se había visto, en la sección 3.7.1 de este texto, los datos se organizan en una tabla de doble entrada, llamada Tabla de contingencia, cuya forma general es la siguiente: VAR A A 1 A 2 A 3 … A c Total VAR B B 1 O 11 O 12 O 13 O 1C R 1 B 2 O 21 O 22 O 23 O 2C R 2 B 3 O 31 O 32 O 33 O 3C R 3 … … B r O R1 O R2 O R3 … O RC R r Total C 1 C 2 C 3 … C c N Aquí O ij es el número de sujetos que tienen las características A i y B j a la vez. R i (i = 1,…,r) es la suma de la i-ésima fila de la tabla. Es decir, es el total de sujetos que poseen la característica B i . C j {j = 1,…,c) es la suma de la j-ésima columna de la tabla. Es decir, es el total de sujetos que poseen la característica A j . n representa el total de observaciones tomadas. La tabla anterior es llamada una tabla de contigencia r x c, porque tiene r filas y c columnas. Las tablas más elementales son aquellas con dos variables, donde cada una de ellas asume sólo dos valores distintos, ésta es llamada una tabla 2 x 2. Consideremos la siguiente tabla: A1 A2 Total Edgar Acuña Capítulo 8 Análisis de datos categóricos 194 B1 8 6 14 B2 12 9 21 Total 20 15 35 La primera pregunta que uno se hace es si existirá o no relación entre las variables A y B, es decir si A y B son o no independientes. A y B serán independientes si cada entrada de la tabla es igual al producto de los totales marginales dividido entre el número de datos. Esto es si cumple, n C R O j i ij  para cada celda (i, j). Claramente, esto se cumple para la tabla anterior. Por ejemplo, 8 = (14)(20)/35. En consecuencia, no hay relación entre las variables A y B. Otra pregunta que se puede tratar de responder es sí las proporciones de los valores de la variable B en cada columna son iguales. Por ejemplo si A: El estudiante graduando consigue trabajo, B: Sexo del graduando. Uno puede estar interesado en comparar la proporción de mujeres graduandas que consiguen trabajo con la proporción de mujeres graduandas que no consiguen trabajo. Consideremos ahora la tabla: A1 A2 Total B1 10 6 16 B2 5 16 21 Total 15 22 37 Notar que los valores de la segunda fila están en sentido contrario a los de la primera fila. O sea hay un efecto en la variable A al cambiar los valores de B, en consecuencia aquí si hay relación entre las variables. Es bien obvio, también que la fórmula de independencia no se cumple para ninguna de las entradas. Por otro lado las proporciones de los valores de la variable B no son los mismos en cada columna. Por ejemplo para B1 las proporciones son 10/15 versus 6/22. Cuando consideramos que los valores de nuestra tabla han sido extraídos de una población, entonces nos interesaría probar las siguientes dos hipótesis: i) La prueba de Independencia, que se efectúa para probar si hay asociación entre la variables categóricas A y B, y ii) La prueba de Homogeneidad, que es una generalización de la prueba de igualdad de dos proporciones, que se discutió en la sección 7.8. En este caso se trata de probar si para cada nivel de la variable B, la proporción con respecto a cada nivel de la variable A es la misma. Si A tiene 3 niveles y B tiene 2 niveles entonces Ho : p Edgar Acuña Capítulo 8 Análisis de datos categóricos 195 Por ejemplo, nos gustaría saber si hay o no relación entre el nivel económico de una persona y su afiliación política. También podríamos estar interesados en determinar si hay relación entre el nivel de educación y el nivel de salario. En ambos casos se usaría una prueba de independencia. Por otro lado, también podríamos estar interesados en probar si para cada nivel económico hay igual proporción de personas en cada partido politico, o si para cada nivel de educación hay igual proporción de personas en cada nivel de salario. En estos casos se usaría una prueba de homogeneidad. Sin embargo; ambos tipos de hipótesis se pueden probar de la misma manera y el procedimiento se resume en el recuadro que sigue: Las hipótesis de independencia son: Ho: No hay asociación entre las variables A y B ( es decir hay independencia) Ha: Si hay relación entre las variables A y B Las hipótesis de Homogeneidad son: Ho: Las proporciones de cada valor de la variable B son iguales en cada columna Ha: Al menos una de las proporciones para cada valor de la variable B no son iguales en cada columna. Ambas hipótesis se prueban usando una prueba de Ji-Cuadrado:      c i r i ij ij ij E E O 1 1 2 2 ) (  donde O ij es la frecuencia observada de la celda que está en la fila i , columna j, y n C R E j i ij  , es la frecuencia esperada de la celda (i, j). La frecuencia esperada es aquella que debe ocurrir para que la hipótesis nula sea aceptada. La prueba estadística se distribuye como una Ji-Cuadrado con (r-1)(c-1) grados de libertad. La hipótesis Nula se rechaza si    2 1 2   cal , donde  es el nivel de significancia o equivalentemente si el "P-value" es menor que 0.5. Si la tabla de contingencia presenta pocas observaciones en algunas celdas (digamos menos de 5), entonces la prueba no es confiable. Existen pruebas exactas para tablas de contingencia, pero no se han considerado en este texto. Para analizar tablas de contingencia en MINITAB se usa la opción Tables del menú STAT, ésta a su vez tiene un submenú que contiene las opciones Cross Tabulation y Chi Square. La opción Cross Tabulacion se usa en dos situaciones. La primera de ellas es cuando los datos están dados en dos columnas, o sea como si hubiesen sido las contestaciones a dos preguntas de un cuestionario. En el siguiente ejemplo se mostrará este primer uso. Edgar Acuña Capítulo 8 Análisis de datos categóricos 196 Ejemplo 8.1. Usando los datos del ejemplo 3.16, supongamos que deseamos establecer si hay relación entre las variables tipo de escuela superior y el resultado (aprueba o no aprueba), de la primera clase de matemáticas que toma el estudiante en la universidad, basados en los resultados de 20 estudiantes. Solución: Para la prueba de Independencia las hipótesis son: H o : No hay relación entre el tipo de escuela y el resultado obtenido en la primera clase de Matemáticas. H a : Si hay relación entre ambas variables. Para la prueba de homogeneidad las hipótesis son: H o : La proporción de aprobados en la primera clase de matemáticas es igual tanto para estudiantes que provienen de escuela pública como de escuela privada. H a : La proporción de aprobados en la primera clase de matemáticas no es la misma para ambos tipos de escuela. La ventana de diálogo se completerá como aparece en la siguiente figura: Figura 8.1. Ventana de diálogo de la opción Cross Tabulation del submenú Tables del menú Stat Los resultados aparecerán en la ventana session como siguen: Tabulated Statistics Rows: escuela Columns: aprueba Edgar Acuña Capítulo 8 Análisis de datos categóricos 197 si no All priv 7 3 10 6.00 4.00 10.00 públ 5 5 10 6.00 4.00 10.00 All 12 8 20 12.00 8.00 20.00 Chi-Square = 0.833, DF = 1, P-Value = 0.361 2 cells with expected counts less than 5.0 Cell Contents -- Count Exp Freq Interpretación: Como el “P-value” es mayor que .05 se puede concluir que la hipótesis nula de Independencia entre las variables es aceptada. O sea no hay asociación entre el tipo de escuela de donde proviene el estudiante y el resultado que obtiene en la primera clase de matemáticas. Por otro lado, la hipótesis nula de homogeneidad también es aceptada y se concluye de que, la proporción de estudiantes que aprueban el curso de matemáticas es la misma para estudiantes de escuela pública y escuela privada. La segunda situación donde Cross Tabulation es usada para hacer el análisis de Ji- cuadrado, es cuando los datos ya están resumidos en tablas con filas y columnas, ésta es la manera usual como aparecen en los textos. En este caso, para que MINITAB pueda hacer el análisis se deben entrar los datos en 3 columnas. En una columna deben ir las frecuencias observadas en cada celda de la tabla y en las otras dos columnas deben ir los valores de las variables en filas y columnas que permitan identificar a qué celda le corresponde la frecuencia absoluta entrada. Ejemplo 8.2. Usar los datos del ejemplo 3.17, para tratar de establecer si hay relación entre el Sexo del entrevistado y su opinión. Solución: Las hipótesis correpondientes son: Ho: No hay asociación entre el sexo del entrevistado y su opinión, y Ha: Si hay relación entre las variables. En este caso los datos son entrados en tres columnas: Conteo (frecuencia en cada celda), Sexo y Opinión. La ventana de diálogo se completará como se muestra en la figura 8.2 Los resultados serán los siguientes: MTB > Table 'sexo' 'opinion'; SUBC> Frequencies 'conteo'; SUBC> ChiSquare 2. Tabulated Statistics Rows: sexo Columns: opinión Edgar Acuña Capítulo 8 Análisis de datos categóricos 198 si no abst All male 10 20 30 60 10.00 20.40 29.60 60.00 female 15 31 44 90 15.00 30.60 44.40 90.00 All 25 51 74 150 25.00 51.00 74.00 150.00 Chi-Square = 0.022, DF = 2, P-Value = 0.989 Cell Contents -- Count Exp Freq I nterpretación: Como el "P-value" es mayor que .05, la conclusión en este caso es que la hipótesis nula es aceptada o sea no hay relación entre el sexo y la opinión del entrevistado. Figura 8.2. Ventana de diálogo de cross tabulation para analizar el ejemplo 8.2. Notar que la opción Chi-square analysis aparece seleccionada. Como se ha elegido la opción above and expected count, la tabla de salida mostrará las frecuencias absolutas y las frecuencias esperadas de cada celda, en la ventanita de frecuencies are in: se asigna la columna conteo. Edgar Acuña Capítulo 8 Análisis de datos categóricos 199 Existe una última posibilidad de hacer el análisis de la tabla de contingencia usando la opción Chi-Square Test. En este caso se supone que las columnas de la tabla son entradas columna por columna en el worksheet de MINITAB. Ejemplo 8.3. Para los datos del ejemplo 3.17, donde la tabla es: SI NO Abst Hombres 10 20 30 Mujeres 15 31 44 Primero se entran los datos en 3 columnas: SI, NO y ABST y luego se completa la ventana de diálogo de Chi-Square Test como sigue: Figura 8.3. Ventana de diálogo para la opción Chi-Square Test del menú Tables Los resultados aparecerán de la siguiente manera: MTB > ChiSquare 'si'-'abst'. Chi-Square Test Expected counts are printed below observed counts si no abst Total 1 10 20 30 60 Edgar Acuña Capítulo 8 Análisis de datos categóricos 200 10.00 20.40 29.60 2 15 31 44 90 15.00 30.60 44.40 Total 25 51 74 150 Chi-Sq = 0.000 + 0.008 + 0.005 + 0.000 + 0.005 + 0.004 = 0.022 DF = 2, P-Value = 0.989 Se puede notar que la presentación de la tabla no es tan buena como en los dos casos anteriores, pero si se presentan los cálculos intermedios de la prueba de Ji-Cuadrado. 8.2 Medidas de Asociación Asumiendo que se rechaza la hipótesis Nula Ho: No hay relación entre las variables de la tabla, entonces el próximo paso es determinar el grado de asociación de las dos variables categóricas, para ello se usan las llamadas medidas de asociación. Existen un gran número de estas medidas, nosotros sólo consideraremos dos de ellas: a) El Coeficiente de Contingencia: Se define por 2 2     n C , donde  2 es el valor calculado de la prueba de Ji-Cuadrado y n es el número de datos. El valor de C varía entre 0 y 1. Si C = 0, significa que no hay asociación entre las variables. El coeficiente de contigencia tiene la desventaja de que no alcanza el valor de uno aún cuando las dos variables sean totalmente dependientes. Otra desventaja es que su valor tiende a aumentar a medida que el tamaño de la tabla aumenta. En general, un valor de C mayor que .30, indica una buena asociación entre las variables. Sin embargo hay que tomar en consideración también el tamaño de la tabla. A diferencia de otros programas estadísticos como SPSS y SAS, MINITAB no calcula el coeficiente de contingencia directamente. Se tiene que usar Calculator del menú CALC. Ejemplo 8.4. Calcular el coeficiente de contingencia para la siguiente tabla, donde se trata de relacionar las variables: asistir a servicios religiosos y faltar a clases. Rows: va a igl Columns: falta a de vez e frecuent nunca All de vez e 78 119 140 337 75.56 103.44 158.01 337.00 frecuent 106 90 296 492 110.31 151.01 230.68 492.00 nunca 68 136 91 295 66.14 90.55 138.31 295.00 All 252 345 527 1124 252.00 345.00 527.00 1124.00 Chi-Square = 86.842, DF = 4, P-Value = 0.000 Edgar Acuña Capítulo 8 Análisis de datos categóricos 201 La ventana de diálogo de Calculator se debe completar de la siguiente manera: Figura 8.4. Ventana de diálogo de Calculator para hallar el coeficiente de contigencia del ejemplo 8.4 Data Display coef-conting 0.267807 I nterpretación: No existe una buena asociación entre asistir a la iglesia y faltar a clases. b) El Coeficiente de Cramer: Se calcula por Edgar Acuña Capítulo 8 Análisis de datos categóricos 202 nt V 2   , donde t es el menor de los números r-1 y c-1, aqui r representa el número de filas y c el número de columnas. Si V=0 entonces, no hay asociación entre las variables. El coeficiente de Cramer si alcanza un máximo de 1. Un valor de V mayor .30 indica ya un cierto grado de asociación entre las variables. En el ejemplo anterior el coeficiente de Cramer es .1965, lo que reafirma que no existe buena asociación entre las variables. MINITAB no calcula el coeficiente de contingencia directamente. Se tiene que usar Calculator del menú CALC. Ejemplo 8.5. Calcular el coeficiente de Cramer para la siguiente tabla, donde se trata de relacionar las variables: sobrevivir a un ataque cardiaco y tener mascota (“pet”). La ventana de diálogo de Calculator se debe completar de la siguiente manera: Tabulated Statistics Rows: status Columns: pet? no si All muere 11 3 14 5.93 8.07 14.00 vive 28 50 78 33.07 44.93 78.00 All 39 53 92 39.00 53.00 92.00 Chi-Square = 8.851, DF = 1, P-Value = 0.003 En este caso r=2 y c=2, luego t es el menor de r-1=1 y c-1=1, asi t=1 Edgar Acuña Capítulo 8 Análisis de datos categóricos 203 Figura 8.5. Ventana de diálogo de Calculator para hallar el coeficiente de Cramer del ejemplo 8.5. Usando la secuencia Manip Data Display, se obtiene: Data Display V 0.310172 Por otro lado, el coeficiente de contingencia C resultó ser .3121 I ntrepretación: Se concluye que existe buena asociación entre tener mascota y sobrevivir a un ataque cardíaco. 8.3. Prueba de Bondad de Ajuste Otra aplicación de la prueba de Ji-Cuadrado, es la prueba de Bondad de Ajuste. Aquí se trata de probar si los datos de una muestra tomada siguen una cierta distribución predeterminada. Los n datos tomados deben estar divididos en categorias. Categoría 1 2 3 … K Frecuencia observada Obs 1 Obs 2 Obs 3 Obs k N Se asume que las probabilidades p i , de caer en la categoría i deben ser conocidos. Edgar Acuña Capítulo 8 Análisis de datos categóricos 204 La hipótesis nula es H o : p 1 = p 10 , p 2 = p 20 = … = p k = p k0 , es decir los datos siguen la distribución deseada, y la hipótesis alterna es H a : al menos una de las p i es distinta de la probabilidad dada p i0 . La prueba estadística es: donde p io representa la proporción deseada en la i-ésima categoría, Obs i la frecuencia observada en la categoría i y n es el tamaño de la muestra. La prueba estadística se distribuye como una Ji-Cuadrado con k-1 grados de libertad donde, k es el número de categorias. Si el valor de la prueba estadística es mayor que 2 1    se rechaza la hipótesis nula. MINITAB no tiene un comando que lleve a cabo la prueba de bondad de ajuste, pero ésta se puede efectuar escribiendo algunas lineas de comandos. Ejemplo 8.6. Los siguientes datos representan los nacimientos por mes en PR durante 1993. Probar si hay igual probabilidad de nacimiento en cualquier mes del año. Usar un nivel de significación del 5%. 5435 4830 5229 4932 5052 5072 5198 5712 6126 5972 5748 5936 Solución: La hipótesis nula es H o : Hay igual probabilidad de nacer en cualquier mes del año (es decir, p 1 = p 2 = … = p 12 = 1/12 = .083). La hipótesis alterna es que no hay igual probabilidad de nacer en cualquier mes del año. La ventana Session es como sigue: MTB > let c3=sum(Obs)*p MTB > let c4=(Obs-c3)**2/c3 MTB > let k5=sum(c4) Esta es la prueba de Ji-Cuadrado para Bondad de ajuste MTB > print k5 Data Display K5 402.384 La ventana Data contendrá lo siguiente:    k i io io i np np Obs 1 2 ) ( Edgar Acuña Capítulo 8 Análisis de datos categóricos 205 El valor de 2 95 .  con 11 grados de libertad es 19.6751, se encuentra usando la opción Probability distribution del menú Calc I nterpretación: Comparando el valor de la prueba estadística con una Ji-Cuadrado con 11 grados de libertad y nivel de significación del 5 por ciento que es 19.6751 se concluye que se rechaza la hipótesis nula, es decir no hay igual probabilidad de nacimiento para los meses. Ejemplo 8.7. Según el último censo se sabe que la distribución porcentual del estado marital de las personas adultas en los Estados Unidos es como sigue: Soltero Casado Viudo Divorciado 30 40 12 18 De acuerdo al censo de 1990, en Puerto Rico se tiene la siguiente distribución de personas adultas por estado marital: Soltero Casado Viudo Divorciado 811,291 1’279,628 198,553 189,346 Se desea establecer si la distribución del estado marital en Puerto Rico, es igual a la de los Estados Unidos. Usar un nivel de significación del 5%. Edgar Acuña Capítulo 8 Análisis de datos categóricos 206 Solución: La hipotesis nula Ho: Los datos tomados en Puerto Rico siguen la misma distribución de la de Estados Unidos, mientras que la hipótesis alterna Ha: Los datos no siguen la misma distribución. Las ventanas Session y Data aparecerán como sigue: MTB > Let 'np' = sum(obs)*p MTB > Let '(Obs-np)^2/np' = (obs-np)**2/np MTB > Let k5 = sum('(Obs-np)^2/np') Esta es la prueba de Ji-Cuadrado MTB > print k5 Data Display K5 270598 I nterpretación: Claramente la prueba estadística es mayor que una Ji-Cuadrado con 3 grados de libertad al nivel de significación del 5 por ciento. Luego se rechaza la hipótesis nula y se concluye que la distribución del estado marital en Puerto Rico es distinta a la de Estados Unidos. Existen muchas otras pruebas de bondad de ajuste, especialmente pruebas noparamétricas. Edgar Acuña Capítulo 8 Análisis de datos categóricos 207 EJERCICIOS 1. La siguiente tabla muestra los resultados de un estudio para mostrar la relación entre asistir a la iglesia los domingos y la ausencia a clases para jovenes entre 13 y 18 años: Falta a Clases Va a la Iglesia Nunca De vez en Cuando Frecuentemente Nunca 91 68 136 De vez en Cuando 140 78 119 Frecuentemente 296 106 90 a) Usando la siguiente salida de MINITAB, probar la hipotesis de independencia entre faltar a clases e ir a la iglesia los domingos. En la salida deden aparecer los nombres de las filas y columnas b) ¿Cuál es la frecuencia esperada de los que nunca van a la Iglesia y faltan frecuentemente a clase?. Explicar cómo se calcula e interpretarlo. 2. El consumo de alcohol y nicotina (cigarrillos) durante el periodo de gestación puede afectar al bebé. Se hizo un estudio en 452 madres y se las clasificó de acuerdo a su consumo de alcohol (medido en onzas por dia), y al de nicotina (medida en miligramos por dia). Los datos están en el archivo alcohoynico, que está disponible en la pagina de internet del texto. a) Usando la salida de MINITAB, probar la hipótesis de independencia entre el consumo de alcohol y nicotina. En la salida deben aparecer los nombres de las filas y columnas b) Escribir la hipótesis de homogeneidad. c) ¿Cuál es la frecuencia esperada de las madres que consumen 1 onza o más por día y no fuman. Cómo se calcula dicho valor e Interpretar el significado de dicho valor. 3. En una ciudad se hace un estudio para relacionar los hábitos de fumar de los estudiantes de escuela superior con las de sus padres. Los resultados que se obtienen aparecen en la siguiente tabla: Estudiante Fuma Estudiante no Fuma Ambos padres fuman 400 1380 Sólo uno de los padres fuma 416 1823 Ninguno de los padres fuma 188 1168 a) Calcular la proporción de estudiantes que fuman para cada uno de los grupos de padres. ¿Qué puede concluir de estos resultados? Edgar Acuña Capítulo 8 Análisis de datos categóricos 208 b) Calcular las frecuencias esperadas de cada celda de la tabla si no hubiera relación entre los hábitos de fumar de los estudiantes con las de sus padres. c) Probar la hipótesis de que no hay relación entre los hábitos de fumar de los estudiantes con los de sus padres. 4. La siguiente tabla reporta información acerca del sexo, status económico de la mayoría de los pasajeros del TITANIC, un crucero británico de lujo que se hundió en 1912. Hombres Mujeres Status Murió Sobrevivió Murió Sobrevivió Alto 111 61 6 126 Medio 150 22 13 40 Bajo 419 85 107 101 Total 680 168 126 317 a) ¿Hay suficiente evidencia para concluir que la proporción de hombres que murieron fue mayor que el de las mujeres? b) Para cada uno de los sexos, probar si hay relación entre el status económico del pasajero y si sobrevivió o nó al hundimiento. 5. Las encuestas sobre asuntos sensitivos pueden dar diferentes resultados dependiendo de como se hace la pregunta. Se hace una encuesta a 2400 personas para estimar el uso de cocaína. Se dividieron al azar a los encuestados en 3 grupos de 800 cada uno, y se les preguntó si alguna vez habían usado cocaína El primer grupo fue entrevistado por teléfono, y 21% dijeron que habían usado cocaina. El Segundo grupo fue entrevistado personalmente, y 25% dijeron que habían usado cocaína. En el tercer grupo, donde se permitió una respuesta escrita anónima, el 28% contestaron positivamente a la pregunta. Probar si hay efecto del método de hacer la pregunta en la estimación de la proporción de usuarios de cocaína. 6. En una ciudad se hace una encuesta a 103 personas entre los 25 y 30 años acerca de su estado marital. Los resultados están resumidos en la siguiente tabla: Estado Marital Hombre Mujer Nunca Casado 20 9 Casado 19 39 Viudo, Divorciado, Separado 9 7 a) ¿Piensa Ud. que la distribución del estatus marital es la misma para ambos sexos?. b) Si las distribuciones son diferentes, con quiénes se están casando las mujeres? Edgar Acuña Capítulo 8 Análisis de datos categóricos 209 7. En un estudio acerca de hábitos de fumar de los estudiantes de una universidad realizado en 1990, se reportó que 40 % de los fumadores proceden de la facultad de Administración de Empresas, 30 % de la facultad de Artes y Ciencias, 25% de Ingeniería, y un 5% de Agricultura. Un estudiante de la clase de Estadística quiere comprobar si esos porcentajes se mantienen aún en 1998 para ello toma una muestra de estudiantes fumadores de las distintas facultades de la universidad y obtiene los siguientes resultados: Empresas Artes y Ciencias Ingenieria Agricultura 45 40 22 8 Usar un nivel de significación del 1%. 8. La siguiente tabla reporta la distribución de la población de un país de acuerdo a su nivel educacional y el número de alcaldes elegidos en cada una de las categorías en las últimas elecciones: Nivel Educacional País Alcaldes electos Elemental 30% 6 Secundaria 45% 15 Universitaria Incompleta 12% 27 Universitaria Completa 13% 30 ¿Habrá suficiente evidencia para concluir que la distribución del nivel educacional de los alcaldes electos sigue la misma distribución del país?. Usar un nivel de significación del 5%. 9. Un Sociólogo piensa que hay más probabilidad de que un crimen ocurra durante los fines de semana. En particular él piensa que la probabilidad de que un crimen ocurra el sábado es igual a la probabilidad de que un crimen ocurra el domingo, y éstas a su vez son el doble de probabilidad de que un crimen ocurra un dia de semana. Para probar su afirmación usa los siguientes datos de crímenes ocurridos en un mes cualquiera del año. Lunes Mártes Miércoles Jueves Viernes Sábado Domingo 18 23 19 16 21 42 37 Usar un nivel de significación del 1%. CAPÍTULO 9 REGRESIÓN LINEAL En este capítulo, primero se tratará la Regresión Lineal Simple, cuyos aspectos descriptivos ya fueron considerados en la Sección 3.8 del texto. La inferencia estadística en regresión simple es discutida en gran detalle. Luego se considerará el caso donde hay más de una variable predictora y se hacen las inferencias correspondientes. Finalmente se discutirá los métodos de elegir las mejores variables predictoras que produzcan un modelo confiable con el menor número de variables. 9.1 Regresión Lineal Simple Supongamos que tenemos datos de dos variables cuantitativas continuas X e Y, las cuales se relacionan siguiendo una tendencia lineal, que puede ser detectada haciendo un diagrama de dispersion de los datos. Tendencia lineal significa que los puntos están dispuestos alrededor de una línea recta, desviándose por una cantidad aleatoria  de la misma. Si además, asumimos que se trata de predecir el comportamiento de Y usando X, entonces el modelo de regresión lineal simple es de la forma:       X Y Donde, Y es llamada la variable de respuesta o dependiente, X es llamada la variable predictora o independiente,  es el intercepto de la línea con el eje Y,  es la pendiente de la línea de regresión y  es un error aleatorio, el cual se supone que tiene media 0 y varianza constante  2 .  y  son parámetros desconocidos y para estimarlos se toma una muestra de tamaño n de observaciones (x i ,y i ). La variable Y se asume que es aleatoria, pero X no necesariamente lo es. El estimado ˆ de  y el estimado  ˆ de  son hallados usando el método de mínimos cuadrados, que se basa en minimizar la suma de cuadrados de los errores Q(,) =        n i i i n i i x y e 1 2 1 2 ) (   . Usando técnicas de cálculo diferencial para minimizar una función de dos variables  y  se obtienen: xx xy s s   ˆ y x y   ˆ ˆ   Edgar Acuña Capítulo 9 Regresión Lineal 211 las cantidades Sxx y Sxy aparecen definidas en la Sección 3.8 del texto. La ecuación X Y   ˆ ˆ ˆ   , es llamada la línea de regresión estimada. Para obtener esta línea en MINITAB se sigue la secuencia: STATRegressionRegression. En la salida, además de la ecuación, aparecen los valores de la prueba de t para probar hipótesis acerca del intercepto y la pendiente. También se muestra la tabla del Análisis de Varianza para regresión que permiten hacer inferencia estadística acerca de la pendiente de la línea de regresión poblacional. Ejemplo 9.1. Se desea hallar una línea de regresión que permita predecir el precio de una casa (Y) basado en el área de la misma (X). Se recolectaron 15 datos: Casa área precio 1 3060 179000 2 1600 126500 3 2000 134500 4 1300 125000 5 2000 142000 6 1956 164000 7 2400 146000 8 1200 129000 9 1800 135000 10 1248 118500 11 2025 160000 12 1800 152000 13 1100 122500 14 3000 220000 15 2000 141000 La ventana de diálogo para Regression se completará como sigue: Figura 9.1. Ventana de diálogo para regresión. Edgar Acuña Capítulo 9 Regresión Lineal 212 En la ventana Response se entra la variable de respuesta Y, en la ventana de Predictors se entra la variable independiente X El botón Results permite controlar los resultados que aparecerán en la ventana session. Hay 4 alternativas para controlar la salida según se muestra en la Figura 9.2. Figura 9.2. Ventana de diálogo que aparece al seleccionar el botón results en regression. El botón Storage permite guardar algunas medidas importantes que aparecen en el análisis de regresión y que posteriormente se pueden usar, por ejemplo, en el análisis de residuales. La ventana de diálogo se muestra en la Figura 9.3. Figura 9.3. Ventana de diálogo que aparece al oprimir el botón storage en regression El efecto de oprimir los botones Graphs y Options se explicará en las siguientes secciones. Al oprimir el botón OK en la ventana regression se obtendrán los siguientes resultados: MTB > Regress 'precio' 1 'area'; SUBC> Constant; SUBC> Brief 2. Edgar Acuña Capítulo 9 Regresión Lineal 213 Regression Analysis The regression equation is precio = 73168 + 38.5 area Predictor Coef StDev T P Constant 73168 12674 5.77 0.000 area 38.523 6.391 6.03 0.000 S = 14118 R-Sq = 73.6% R-Sq(adj) = 71.6% Analysis of Variance Source DF SS MS F P Regression 1 7241245891 7241245891 36.33 0.000 Residual Error 13 2591087442 199314419 Total 14 9832333333 Unusual Observations Obs area precio Fit StDev Fit Residual St Resid 14 3000 220000 188737 7923 31263 2.68R R denotes an observation with a large standardized residual 9.1.1. Interpretación de los Coeficientes de Regresión: Interpretación del intercepto ˆ : Indica el valor promedio de la variable de respuesta Y cuando X es cero. Si se tiene certeza de que la variable predictora X no puede asumir el valor 0, entonces la interpretación no tiene sentido. En el ejemplo anterior, ˆ = 73,168 indicaría que si la casa no tiene área, su precio promedio será 73,158, lo cual no es muy razonable. Es más conveniente hallar una línea de regresión que no tenga intercepto. Interpretación de la pendiente  ˆ : Indica el cambio promedio en la variable de respuesta Y cuando X se incrementa en una unidad. En el ejemplo anterior  ˆ = 38.5 indica que por cada píe cuadrado adicional de la casa su precio aumentará en promedio en 38.5 dólares. 9.2 Inferencia en Regresión Lineal Para poder hacer inferencia en regresión hay que asumir que los errores e i del modelo se distribuyen en forma normal con media cero y varianza constante  2 y además que sean idependientes entre sí. Se pueden hacer prueba de hipótesis y calcular intervalos de confianza para el intercepto  y de la pendiente  de la línea de regresión poblacional. Edgar Acuña Capítulo 9 Regresión Lineal 214 Asimismo se pueden establecer intervalos de confianza para el valor medio y para el valor individual de la variable de respuesta dado un valor particular de la variable predictora. 9.2.1 Inferencia acerca de los coeficientes de regresión Con respecto a prueba de hipótesis lo más frecuente es probar H o :  = 0 versus H a :   0 y H o :  = 0 versus H a :   0. De aceptarse la primera hipótesis significaría que la línea de regresión pasaría por el origen, es decir, que cuando la variable predictora es cero, entonces el valor promedio de la variable de respuesta es también cero. De aceptarse la segunda hipótesis significaría que la pendiente de la línea de regresión es cero, es decir, que la variable predictora no se relaciona linealmente con la variable de respuesta. En ambos casos la prueba estadística que se usa es una prueba de t de Student. Sólo discutiremos la prueba de hipótesis para la pendiente. La prueba estadística viene dada por: xx S s e s t    ˆ ) ˆ ( . ˆ   La cual se distribuye como una t con n-2 grados de libertad. Aquí 2 ) ˆ ( 1 2      n y y s n i i i es la desviación estándar del error, S xx es la suma de cuadrados corregida de la variable X y s.e( ) ˆ  es el error estándar de  ˆ . En el Ejemplo 9.1, s=14,118 y s.e(  ˆ )= xx s s / =6.391. En MINITAB aparece el valor de la prueba estadística y el “p-value” de la prueba, él cual se puede usar para llegar a una decisión. Un "p-value" cercano a 0, digamos menor que 0.05, lleva a la conclusión de rechazar la hipótesis nula. Si se rechaza la hipótesis nula quiere decir de que de alguna manera la variable X es importante para predecir el valor de Y usando la regresión lineal. En cambio si se acepta la hipótesis nula se llega a la conclusión de que, la variable X no es importante para predecir el comportamiento de Y usando una regresión lineal. En el Ejemplo 9.1 el valor de la prueba estadística de t es 6.03 y el P-value = .0000 por lo que se rechaza la hipótesis nula. Luego hay suficiente evidencia estadística para concluir que la variable área de la casa puede ser usada para predecir el precio de la casa. También se pueden establecer intervalos de confianza para los parámetros de regresión. Por ejemplo, un intrevalo de confianza del 100 (1-) % para la pendiente  será de la forma: xx n S s t ) 2 , 2 / ( ˆ     Edgar Acuña Capítulo 9 Regresión Lineal 215 MINITAB no da este intervalo de confianza. Hay que calcular el percentil de la t de student usando la secuencia CalcProbability Distributionst. En el ejemplo anterior, un intervalo del 95 % para la pendiente será: 38.523  (2.1604)6.391 O sea, hay una confianza del 95 % de que la pendiente de la regresión poblacional caiga en el intervalo (24.7150, 52.3301). 9.2.2 El Análisis de Varianza para Regresión Lineal Simple. El análisis de varianza, que fue introducida por Fisher, consiste en descomponer la variación total de una variable en varias partes, cada una de las cuales es llamada una fuente de variación. En el caso de regresión, la descomposición de la variación de la variable de respuesta Y es como sigue: VAR. TOTAL DE Y = VAR. DEBIDA A LA REGRESIÓN + VAR. DEBIDA AL ERROR Cada variación es representada por una suma de cuadrados, definidas de la siguiente manera: Suma de Cuadrados Total = SST =    n i i y y 1 2 ) ( Suma de Cuadrados de Regresión = SSR =    n i i y y 1 2 ) ˆ ( Suma de Cuadrados del Error = SSE = 2 1 ) ˆ (    n i i i y y Cada una de estas sumas de cuadrados tiene una distribución Ji-Cuadrado, SSR tiene una distribución Ji-Cuadrado no central con 1 grado de libertad, SSE tiene una distribución Ji-Cuadrado con n-2 grado de libertad, y SST se comporta como una Ji- Cuadrado no central con n-1 grados de libertad. Al dividir las sumas de cuadrados por sus grados de libertad se obtienen los Cuadrados Medios. Si la hipótesis de que la pendiente  es 0 es cierta, entonces la división del cuadrado medio de la regresión por el cuadrado medio del error se distribuye como una F con 1 grado de libertad en el numerador y n-2 en el denominador. Luego, la hipótesis H o :  = 0 se rechaza si el "p-value" de la prueba de F es menor que .05. Los cálculos se resumen en la siguiente tabla llamada tabla del análisis de varianza para la regresión lineal simple. Fuentes de Variación Grados de Libertad Suma de Cuadrados Cuadrados Medios F Debido a la regresión 1 SSR MSR=SSR/1 MSR/MSE Debido al Error n-2 SSE MSE=SSE/n-2 Total n-1 SST Edgar Acuña Capítulo 9 Regresión Lineal 216 En el ejemplo anterior la prueba de F es 36.33 y el "P-value"=.0000, por lo que se rechaza la hipótesis nula. Notar que el valor de la prueba de F = 36.33 = (6.03) 2 es el cuadrado de la prueba t. 9.2.3 El Coeficiente de Determinación El coeficiente de determinación, denotado por R 2 , es una medida de la bondad de ajuste del modelo de regresión hallado. Se calcula por: SST SSR R  2 donde, SSR representa la suma de cuadrados debido a la regresión, y SST representa la suma de cuadrados del total. Puede demostrarse que el coeficiente de detreminación es simplemente el cuadrado del coeficiente de correlación. El coeficiente de Determinación varía entre 0 y 1, aunque es bastante común expresarlo en porcentaje. Un R 2 mayor del 70 % indica una buena asociación lineal entre las variables, luego la variable X puede usarse para predecir Y. Hay que tener presente que el R 2 es afectado por la presencia de valores atípicos. También R 2 indica qué porcentaje de la variabilidad de la variable de respuesta Y es explicada por su relación lineal con X, mientras más alto sea este valor mejor es la predicción de Y usando X. Existen otras medidas para medir la precisión de la predición de un modelo de regresión, pero son discutidas en este texto. 9.2.4 Intervalos de Confianza para el valor medio de Y e Intervalo de Predicción A nivel poblacional para cada valor de la variable X existe una población de valores de Y, la cual se asume que se distribuye normalmente con cierta media y varianza constante  2 . Lo que se busca es establecer un intervalo de confianza para dicha media asumiendo que la relación entre X e Y es lineal. Dado un valor X o de la variable X es natural pensar, que un estimado del valor medio de las Y’s es o o X Y   ˆ ˆ ˆ   . Usando las propiedades distribucionales de este estimado se puede establecer que un intervalo de confianza del 100 (1-) % para el valor medio de todos los valores Y dado que X = X 0 es como sigue: Por otro lado muchas veces estamos interesados en estimar solamente un valor de Y correspondiente a un valor dado X 0 . El estimado puntual será el mismo o Y ˆ , y usando xx n S x x n s t Y 2 0 ) 2 , 2 / 1 ( 0 ) ( 1 ˆ      Edgar Acuña Capítulo 9 Regresión Lineal 217 propiedades distribucionales de o o Y Y  ˆ se obtiene que un Intervalo de confianza del 100 (1-) % para el valor predicho de Y dado que X = X 0 es de la forma: Este intervalo de confianza es llamado intervalo de predicción. Es más riesgoso hacer predicciones para un sólo valor que para un valor medio, por esta razón el intervalo de predicción de Y es más ancho que el intervalo de confianza para el valor medio. El botón Options de la ventana regression permite hallar estos intervalos de confianza. La Figura 9.4 muestra la ventana de diálogo que aparece cuando se oprime el botón Options. En este ejemplo se trata de determinar el intervalo de confianza e intervalo de predicción para el precio de la casa cuando ésta tiene un área de 3,500 pies cuadrados usando un nivel de confianza del 95 %. Para ello hay que seleccionar las opciones Confidence limits y Prediction limits. Figura 9.4. Ventana de diálogo que se obtiene al oprimir options en regression. xx n S x x n s t Y 2 0 ) 2 , 2 / 1 ( 0 ) ( 1 1 ˆ       Edgar Acuña Capítulo 9 Regresión Lineal 218 En la ventana session aparecerá el siguiente resultado: Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI 1 207998 10861 ( 184536, 231461) ( 169518, 246479) X X denotes a row with X values away from the center Values of Predictors for New Observations New Obs Area 1 3500 I nterpretación: Hay un 95 % de confianza de que el valor medio de todas las casas de 3,500 píes cuadrado de área caiga entre 184,536 y 231,461. Hay un 95 % de confianza de que el valor de una casa de 3,500 píes cuadrados caiga entre 169,518 y 2246,479. Asímismo, la opción Fitted line Plot del menú de Regression permite hallar bandas de confianza tanto para el valor predicho como para el valor medio de las Y. Para esto se deben elegir las opciones Display Confidence Interval y Display Prediction Interval al oprimir el boton Options. Con las bandas de confianza se pueden tener intervalos de confianzas para cualquier valor dado de X. Para el presente ejemplo se obtiene: Figura 9.5 Bandas de Confianza para el valor medio y el valor predicho de Y Edgar Acuña Capítulo 9 Regresión Lineal 219 Notar que las bandas de confianza son anchas en los extremos del eje X y angostas en el centro del mismo. En realidad las bandas se van angostando cuando los valores de X que se toman están cerca del promedio x . 9.3 Análisis de Residuales Un residual i r es la diferencia entre el valor observado i Y y el valor estimado por la linea de regresión i Y ˆ , es decir, i i i Y Y r ˆ   . El residual puede ser considerado como el error aleatorio i e observado. También se acostumbra usar el Residual estandarizado, el cual se obtiene al dividir el residual entre la desviación estándar del residual, y el Residual estudentizado "deleted", que es similar al anterior pero eliminando de los cálculos la observación cuyo residual se desea hallar. El análisis de residuales permite cotejar si las suposiciones del modelo de regresión se cumplen. Se puede detectar: a) Si efectivamente la relación entre las variables X e Y es lineal. b) Si hay normalidad de los errores. c) Si hay valores anormales en la distribución de errores. d) Si hay varianza constante (propiedad de Homocedasticidad) y e) Si hay independencia de los errores. El análisis de residuales se puede llevar a cabo gráficamente o en forma analítica. En este texto sólo consideraremos un análisis gráfico, las cuales pueden obtenerse de dos maneras. La primera manera es escogiendo el botón Graphs de la ventana de diálogo Regression. Edgar Acuña Capítulo 9 Regresión Lineal 220 Figura 9.6. Ventana de diálogo que aparece al oprimir Graphs en Regression. Hay tres posibles elecciones de residuales y hasta 5 plots de residuales que se pueden hacer. Las ventanas de gráficas aparecerán en cascada como se muestra en la Figura 9.7. En esta manera cada plot de residual sale en una ventana gráfica separada. Hay cinco plots que se usan: 1) Plot de Normalidad: Permite cotejar normalidad. Si los puntos están bien cerca de una línea recta se concluye, que hay normalidad. 2) Histograma de Residuales: También permite cotejar normalidad. Cuando el histograma es simétrico, con un único pico en el centro, se concluye que hay normalidad. 3) Plot de Residuales versus los valores predichos (FITS): Se usa para detectar si hay datos anormales, cuando hay datos que caen bastantes alejados, tanto en el sentido vertical como horizontal. También permite detectar si la varianza de los errores es constante con respecto a la variable de respuesta. 4) Plot de Residuales versus el indice de la observación: Es más específico para detectar que observación es un dato anormal. Si se usan residuales estandarizados, entonces un dato con residual más allá de 2 ó -2 es considerado un "outlier" en el sentido vertical. 5) Plot de Residuales versus la variable predictora: Es usado para detectar datos anormales así como si la varianza de los errores es constante con respecto a la variable predictora. Edgar Acuña Capítulo 9 Regresión Lineal 221 Figura 9.7. Plots de residuales mostrados en cascada. La segunda manera de obtener los plots de residuales es, escogiendo la opcion Four in One en el botón Graph de la ventana de diálogo de Regression como aparece en la Figura 9.8. Figura 9.8. Ventana de diálogo de la opcion graph de regression. Edgar Acuña Capítulo 9 Regresión Lineal 222 Figura 9.9. Plots de residuales en una misma ventana. Aparecerán en una misma página los cuatro primeros plots de la lista mencionada anteriormente, como se muestra en la Figura 9.9. Figura 9.10. Plots de residuales versus la variable area. Edgar Acuña Capítulo 9 Regresión Lineal 223 I nterpretación: Los puntos del plot de normalidad no caen cerca de una línea recta y en el extreno superior se detecta un “outlier”. Similarmente, el histograma no es simétrico con un pico central y también muestra un “outlier” en el extremo superior. En conclusión, no hay normalidad de los errores. El plot de residuales versus el índice de la observación muestra que la observacion 14 es un "outlier", pues el residual estandarizado cae más allá de dos. El plot de los residuales versus los valores predichos muestra que la varianza de los errores no es constante con respecto a la variable de respuesta, pues tiende ha aumentar cuando el valor de la variable de respuesta aumenta. Hay maneras de corregir algunas de las anomalías encontradas en el análisis de residuales, las cuales pueden ser leídas en un texto especializado de regresión. 9.4 Modelos No Lineales y Transformaciones Cuando se construyen modelos de regresión el objetivo es conseguir un modelo con R 2 alto que se aproxime a 100 %, asumiendo que no hay datos atípicos presentes. Si no se desea incluir variables predictoras adicionales en el modelo, hay dos alternativas: i) Tratar de usar modelos polinómicos de grado mayor o igual a dos, y ii) Transformando las variables tanto la predictora como la de respuesta. 9.4.1 Regresión Cuadrática Un modelo cuadrático es de la forma:      2 cX bX a Y donde a, b y c son constantes a estimar. Usando la técnica de mínimos cuadrados se pueden obtener fórmulas explícitas para calcular a, b y c. En MINITAB, para obtener la ecuación del modelo cuadrático, hay que elegir la opción Quadratic en la ventana de diálogo de Fitted Line Plot que es una opción del menú Regression. La ventana de diálogo se muestra en la Figura 9.11. Edgar Acuña Capítulo 9 Regresión Lineal 224 Figura 9.11. Ventana de diálogo para hacer una regresión cuadrática. Ejemplo 9.2. Ajustar un modelo cuadrático para los datos del Ejemplo 9.1. La ventana de diálogo se muestra en la Figura 9.11, y los resultados en la ventana session serán: Polynomial Regression precio = 117591 - 8.29281 area + 1.13E-02 area**2 R-Sq = 76.5 % Analysis of Variance SOURCE DF SS MS F P Regression 2 7.52E+09 3.76E+09 19.4906 1.70E-04 Error 12 2.31E+09 1.93E+08 Total 14 9.83E+09 SOURCE DF Seq SS F P Linear 1 7.24E+09 36.3308 4.25E-05 Quadratic 1 2.77E+08 1.43495 0.254083 Además se obtiene el siguiente plot: Edgar Acuña Capítulo 9 Regresión Lineal 225 Figura 9.12. Regresión Cuadrática para el Ejemplo 9.1. I nterpretación: El R 2 del modelo cuadrático es 76.5% comparado con 73.6% del modelo lineal (ver ejemplo 9.1), se ha ganado un 3% en confiabilidad, lo cual no es un aumento sustancial y se puede seguir usando un modelo lineal ya que hacer inferencias con él es mucho más simple que con un modelo cuadrático. También se pueden tratar modelos polinómicos más generales (el modelo cúbico sigue después del cuadrático), pero debido a que éstos presentan muchos cambios en la tendencia no son muy adecuados. Otro problema es que se puede llegar a un modelo “sobreajustado”, es decir a un modelo que tiene un R 2 perfecto porque pasa por todos los puntos, pero que al momento de predecir fracasa terriblemente. Por ejemplo, si tenemos 8 observaciones, un modelo polinómico de grado 9 tendría un R 2 de 100%. 9.4.2 Modelos Nolineales que pueden ser transformados en lineales La segunda alternativa para aumentar el R 2 consiste en usar modelos no lineales que pueden ser convertidos en lineales, a través de transformaciones tanto de la variable independiente como dependiente. Después de hacer un plot para visualizar la relación entre X e Y se puede elegir entre los siguientes modelos linealizables: Edgar Acuña Capítulo 9 Regresión Lineal 226 Nombre del modelo Ecuacion del Modelo Transformación Modelo Linealizado Exponencial Y=e X Z=Ln Y X=X Z=Ln  +X Logarítmico Y=  +Log X Y=Y W=Log X Y=  +W Doblemente Logarítmico Y=X  Z=Log Y W=Log X Z= Log  +W Hiperbólico Y=  +/X Y=Y W=1/X Y=  +W Inverso Y=1/( +X) Z=1/Y X=X Z= +X Para predecir el valor de Y usando el modelo linealizado hay que aplicar la inversa de la transformación correspondiente al mismo. Ejemplo 9.3. Los siguientes datos representan como ha cambiado la poblacion en Puerto Rico desde 1930 hasta 1990. Año Población 1930 1543913 1940 1869255 1950 2210703 1960 2349544 1970 2712033 1980 3196520 1990 3522037 Se desea establecer un modelo para predecir la población de Puerto Rico en el año 2000. Solución: Observando el diagrama de puntos de población versus años que aparece en la figura de abajo. Figura 9.13. Crecimiento poblacional de Puerto Rico El plot sugiere que podemos ajustar los datos al modelo exponencial: Edgar Acuña Capítulo 9 Regresión Lineal 227 Poblac=e year Y el modelo linealizado da como ecuación: Ln(Poblac) = - 11.4 + 0.0133 year con un R 2 del 98.9%, mejorando el R 2 del modelo lineal que era de 98.7%. Para predecir la población para el año 2000 se obtiene que: 2 . 15 6 . 26 4 . 11 2000 * 0133 . 0 4 . 11 ) (        Poblac Ln luego 787 , 992 , 3 2 . 15   e Poblac . Así, 3,992,787 será la población estimada de PR para el año 2000. 9.5 Regresión lineal múltiple Frecuentemente una sola variable predictora no es suficiente para explicar el comportamiento de la variable de respuesta. Por ejemplo, para explicar la nota que un estudiante saca en un examen lo primero que uno piensa es en el número de horas que estudio para tomarlo (X 1 ), pero también puede influir el número de créditos que lleva (X 2 ), el número de horas semanales que mira televisión (X 3 ), el número de horas que se divierte (X 4 ), el número de personas que viven con el o ella (X 5 ), etc. La idea en regresión lineal múltiple es usar más de una variable predictora para explicar el comportamiento de la variable de respuesta. El modelo de regresión lineal múltiple con p variables predictoras X 1 ,…X p , es de la siguiente forma:         p p X b X b X b X b b Y ... 3 3 2 2 1 1 0 Las constantes p b b b ,..., , 1 0 , llamadas coeficientes de regresión, se estiman usando el método de mínimos cuadrados, y usando n observaciones de la forma ip i i i x x x y ,..., , , 2 1 , donde n i ,..., 1  . La cantidad  es una variable aleatoria con media 0 y varianza 2  . Usando notación vectorial y matricial se puede escribir una fórmula explícita para los coeficientes de regresión, pero esto cae más allá del alcance de este texto. Se hará uso de MINITAB para hallar dichos coeficientes. Interpretación del coeficiente de regresión estimado  j El estimado del coeficiente de regresión poblacional b j , con p j ,..., 1  , se representará por  j . Este estimado indica el cambio promedio en la variable de respuesta Y cuando la variable predictora X j cambia en una unidad adicional asumiendo que las otras variables predictoras permanecen constantes. Edgar Acuña Capítulo 9 Regresión Lineal 228 Ejemplo 9.4 Se desea explicar el comportamiento de la variable de respuesta IGS (Indice General del Estudiante admitido a la Universidad de Puerto Rico) de acuerdo a X 1 (puntaje en la parte de aptitud matemática del College Borrad), X 2 (puntaje en la parte de aprovechamiento matemático) y X 3 (Tipo de Escuela; 1: Pública, 2: Privada). La muestra de 50 observaciones está disponible en el archivo igs de la página del texto. Solución: La ventana de diálogo de Regression se completa como se muestra en la siguiente figura: Figura 9.14. Ventana de diálogo para la regresión multiple del ejemplo 9.4 En la ventanita de Response se escribe la columna que contiene los datos de la variable dependiente igs, y en Predictors, se escriben las columnas que contienen las variables dependientes. La ventana session cuando se ejecuta una regresión tendrá un contenido como el que sigue: Regression Analysis: igs versus escuela, aprovech, aptitud The regression equation is igs = 136 + 1.93 escuela + 0.197 aprovech + 0.0569 aptitud Predictor Coef SE Coef T P Constant 135.93 24.50 5.55 0.000 escuela 1.933 3.091 0.63 0.535 aprovech 0.19698 0.03152 6.25 0.000 aptitud 0.05688 0.03140 1.81 0.077 S = 10.8896 R-Sq = 56.0% R-Sq(adj) = 53.2% Edgar Acuña Capítulo 9 Regresión Lineal 229 Analysis of Variance Source DF SS MS F P Regression 3 6952.0 2317.3 19.54 0.000 Residual Error 46 5454.8 118.6 Total 49 12406.9 Source DF Seq SS escuela 1 52.9 aprovech 1 6510.1 aptitud 1 389.0 Unusual Observations Obs escuela igs Fit SE Fit Residual St Resid 18 1.00 263.00 286.58 6.47 -23.58 -2.69RX 27 1.00 347.00 315.10 2.95 31.90 3.04R 48 2.00 285.00 307.09 2.76 -22.09 -2.10R R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large influence. I nterpretación: El coeficiente de una variable predictora indica el cambio promedio en la variable de respuesta igs cuando, se incrementa en una unidad la variable predictora asumiendo que las otras variables permanecen constantes. En este ejemplo, el aumento promedio en el igs es de 0.0569 por cada punto adicional en la parte de aptitud matemática, asumiendo que las otras dos variables permanecen constantes, asímismo el aumento promedio en el igs es de 0.197 por cada punto adicional en la parte de aprovechamiento matemático asumiendo que las otras variables permanezcan constantes y hay un aumento promedio de 1.93 en el igs cuando nos movemos de escuela pública a privada asumiendo que las otras variables permanecen constantes. Aún cuando el R 2 es bajo del 56%, eligiendo el botón Options se puede predecir el igs de un estudiante para hacer predicciones de la variable de respuesta Y para valores dados de las variables predictoras. Por ejemplo el igs estimado de un estudiante que obtuvo 600 puntos en la prueba de aptitud y 750 en la prueba de aprovechamiento y que proviene de escuela privada será 321.66, como lo muestra el contenido de la ventana session: Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI 1 321.66 4.05 (313.51, 329.81) (298.28, 345.05) Values of Predictors for New Observations New Obs escuela aprovech aptitud 1 2.00 750 600 Edgar Acuña Capítulo 9 Regresión Lineal 230 Estimación de la varianza  2 La estimación de la varianza de los errores 2  es crucial para hacer inferencias acerca de los coeficientes de regresión. Si en nuestro modelo hay p variables predictoras entonces, 2  es estimada por: MSE p n SSE p n Y Y s n i i i           1 1 ) ˆ ( 1 2 2 Aquí, SSE representa la suma de cuadrados del error y MSE representa el cuadrado medio del error. 9.6 Inferencia en regresión lineal múltiple 9.6.1 Prueba de hipótesis de que cada coeficiente de regresión es cero En este caso la hipótesis nula es 0 : 0  j H  ( p j ,..., 1  ), o sea, la variable X j no es importante en el modelo, versus la hipótesis alterna 0 :  j a H  , que significa que la variable X j si es importante. La prueba estadística es la prueba de t dada por: ) ˆ ( . ˆ j j e s t    MINITAB da el valor de la prueba estadística y de los “p-values” correspondientes. En el Ejemplo 9.4 los "P-values" de la prueba de t que son mayores que .05 sugieren que las variables Escuela y aptitud no contribuyen al modelo, pues se acepta la hipótesis nula de que dicho coeficiente es cero. La variable aprovechamiento si es importante en el modelo ya que su “P-value” es menor que .05. 9.6.2 Prueba de hipótesis de que todos los coeficientes de regresión son ceros. En este caso la hipótesis nula es 0 ... : 2 1 0     p H    , o sea, que el modelo no sirve, versus la hipótesis alterna H a : Al menos uno de los coeficientes es distinto de cero, o sea, al menos una de las variables del modelo sirve. La prueba estadística es la prueba de F que se obtiene al hacer la tabla del análisis de varianza para la regresión múltiple. La suma de cuadrados de Regresión tiene p grados de libertad que es igual al número de variables predictoras en el modelo. La Suma de Cuadrados del Total tiene 1  n grados de libertad y la suma de cuadrados del error tiene 1   p n grados de libertad. Si la hipótesis nula es cierta, entonces: Edgar Acuña Capítulo 9 Regresión Lineal 231 MSE MSR p n SSE p SSR F     1 Se distribuye como una F con p grados de libertad en el numerador y 1   p n grados de libertad en el denominador. En el Ejemplo 9.4, el "P-value" de la Prueba de F es 0.0000. Esto lleva a la conclusión de que el al menos una de las variables predictoras presentes en el modelo es importante para predecir el igs. Por otro lado, el R 2 del 56% indica que el modelo no es muy confiable para hacer predicciones, porque sólo el 56% de la variación en el igs es explicada por su relación con las variables predoctoras. 9.6.3 Prueba de hipótesis para un subconjunto de coeficientes de regresión Algunas veces estamos interesados en probar si algunos coeficientes del modelo de regresión son iguales a 0 simultánemente. Por ejemplo, si el modelo tiene p variables predictoras y quisiéramos probar si los k primeros coeficientes son ceros. O sea, 0 ... : 2 1 0     k H    . En este caso al modelo que tiene las p variables se le llama el modelo completo y al modelo que queda, asumiendo que la hipótesis nula es cierta, se le llama modelo reducido. Para probar si la hipótesis nula es cierta se usa una prueba de F que es llamada F-parcial. La prueba de F parcial se calcula por: ) ( ) ( ) ( 1 ) ( ) ( ) ( C MSE k R SSR C SSR p n C SSE k R SSR C SSR F p       Donde, SSR(C) y MSE(C), representan la suma de cuadrados de regresión y el cuadrado medio del error del modelo completo, respectivamente, y SSR(R) es la suma de cuadrados de regresión del modelo reducido. Si p F es mayor que   1 F , usando k grados de libertad para el numerador y 1   p n para el denominador, entonces se rechaza H o en caso contrario se acepta. MINITAB no tiene una opción que haga directamente la prueba de F parcial. Hay que calcular los dos modelos de regresión y usar las sumas de cuadrados de regresión de ambos modelos para calcular la prueba de F parcial usando Calculator. Edgar Acuña Capítulo 9 Regresión Lineal 232 Ejemplo 9.5. Usando los datos del Ejemplo 9.4, probar la hipótesis 0 : 2 1 0     H , versus Ha: al menos uno de los dos: 1  o 2  no es cero. Interpretar sus resultados. Solución: 0 : 2 1 0     H (significa que las variables: aptitud y aprovechamiento no influyen simultáneamente en la predicción del igs). H a : al menos uno de los dos: 1  o 2  no es cero (significa que al menos una de las dos variables influye en el comportamiento de Y) En este caso p=3, k=2, p-k = 1, y de la tabla del análisis de varianza del Ejemplo 9.4, SSR(C) = 6952 y MSE(C) = 118.6. Para obtener SSR(R), se hace la regresión simple entre Y = igs y X = aptitud y de la tabla del análisis de varianza se obtiene SSR(R) = 203. Luego la prueba de F parcial será igual a   6952 203 2 118.6 29.128 p F    . Por otro lado, para obtener la F con 2 g.l en el numerador y 46 en el denominador se usa la secuencia calcprobability distributionsF y se obtiene una 1996 . 3  F . Luego, se rechaza la hipótesis nula y se concluye, que al 5% de significación hay suficiente evidencia estadística para afirmar que al menos una de las dos variables (aptitud o aprovechamiento) influye en el comportamiento de la variable de respuesta Y. En forma similar a la regresión lineal simple se pueden hacer predicciones de la variable de respuesta asignando valores adecuados a las variables predictoras. Asímismo, las gráficas que se usan para analizar los residuales pueden ser obtenidas usando la secuencia statregressionregression. Luego escoger opción Graph en la ventana de diálogo de Regresión. Escoger la opción “Four in one”. Para el Ejemplo 9.4 las gráficas resultantes son las siguientes: Edgar Acuña Capítulo 9 Regresión Lineal 233 Standardized Residual P e r c e n t 3.0 1.5 0.0 -1.5 -3.0 99 90 50 10 1 Fitted Value S t a n d a r d i z e d R e s i d u a l 340 320 300 3.0 1.5 0.0 -1.5 -3.0 Standardized Residual F r e q u e n c y 2.4 1.2 0.0 -1.2 -2.4 16 12 8 4 0 Observation Order S t a n d a r d i z e d R e s i d u a l 50 45 40 35 30 25 20 15 10 5 1 3.0 1.5 0.0 -1.5 -3.0 Normal Probability Plot of the Residuals Residuals Versus the Fitted Values Histogram of the Residuals Residuals Versus the Order of the Data Plot de Residuales para IGS Figura 9.15. Análisis de Residuales para el Ejemplo 9.4 I nterpretación: El plot de normalidad y el histograma de los residuales indican que hay algo de normalidad en la distribución de los errores, debido a que los puntos no se alejan mucho de una línea recta en el primer plot y algo de simetría que se puede ver en el segundo. Sin embargo es clara la presencia de los “outliers” en ambos extremos, lo cual afecta la condición de normalidad. El plot de residuales versus el orden de la observación sugiere que las observaciones 18, 27 y 48 son "outliers" en el sentido vertical, estos "outliers" también se pueden notar en el plot de residuales versus valores predichos ("fits"). El plot de residuales versus valores predichos sugiere que la varianza de los errores es constante, porque no hay un patrón definido que siguen los puntos. 9.7 Selección de variables en Regresión Múltiple Una buena propiedad de un modelo de regresión lineal es que permita explicar el comportamiento de la variable de respuesta Y lo mejor posible, haciendo uso del menor número de variables predictoras posibles, esta propiedad es llamada “parsimonía”. Existen dos métodos generales de lograr este objetivo: los métodos “stepwise” y el método de los mejores subconjuntos. 9.7.1 Los metodos "stepwise" Edgar Acuña Capítulo 9 Regresión Lineal 234 Comprenden los siguientes métodos: Método de eliminación hacia atrás (“Backward Elimination”): Aqui en el paso inicial se incluyen en el modelo a todas las variables predictoras y en cada paso se elimina la variable cuyo "P-value" es más grande para la prueba de t o cuyo valor de la prueba t menor que 2 en valor absoluto. Una variable que es eliminada del modelo ya no puede volver a entrar en un paso subsiguiente. El proceso termina cuando todos los "P-values" son menores que .05, o cuando todos los valores de la prueba t son mayores que 2 en valor absoluto. Lo anterior también se puede hacer con una prueba F-parcial, puesto que F = t 2 (cuando el numerador tiene grados de libertad igual a 1). Luego, el método terminará cuando todas las F son mayores que 4. Método de Selección hacia adelante (“Forward Selection”): Aqui en el paso inicial se considera una regresión lineal simple que incluye a la variable predictora que da la correlación más alta con la variable de respuesta. Luego se incluye una segunda variable en el modelo, que es aquella variable dentro de las no incluidas aún, que da el "P-value" más bajo para la prueba t o el valor de la prueba de t más grande en valor absoluto. Y así se siguen incluyendo variables, notando que una vez que ésta es incluida ya no puede ser sacada del modelo. El proceso termina cuando los "P-values" para la prueba t de todas las variables que aún no han sido incluidas son mayores que .05 ó la prueba de t es menor que 2 para dichas variables. Si se usa la prueba de F, entonces el proceso termina cuando todas las F son menores que 4. Método Paso a Paso ("Stepwise"): Es una modificación del método “Forward”, donde una variable que ha sido incluida en el modelo en un paso previo puede ser eliminada posteriormente. En cada paso se cotejan si todas las variables que están en el modelo deben permanecer alli. La mayoría de las veces, pero no siempre, los tres métodos dan el mismo resultado para el mejor modelo de regresión. En MINITAB, la opción Stepwise del submenú Regression selecciona el mejor modelo de regresión usando los métodos "Stepwise". En el siguiente ejemplo se muestra el método "stepwise" paso por paso y luego directamente usando la opción stepwise. Ejemplo 9.6. El conjunto de datos grasa contiene 13 variables que sirven para predecir el porcentaje de grasa en el cuerpo humano. Columna Nombre C1 grasa VARIABLE DE RESPUESTA C2 edad en años C3 peso en libras C4 altura en pulgadas C5 cuello en cms C6 pecho en cms C7 abdomen en cms C8 cadera en cms C9 muslo en cms Edgar Acuña Capítulo 9 Regresión Lineal 235 C10 rodilla en cms C11 tobillo en cms C12 biceps en cms C13 antebrazo en cms C14 muñeca en cms Se tomaron las mediciones en 250 sujetos. Se trata de hallar el mejor modelo de regresión usando los métodos "Stepwise". Solución: A) Usando el método de eliminación hacia atrás. Primero, haremos paso a paso el método "Backward" y luego directamente con las opciones que están disponibles en MINITAB. Paso 1. Se hace la regresión con todas las variables The regression equation is grasa = - 18.2 + 0.0621 edad - 0.0884 peso - 0.0696 altura - 0.471 cuello - 0.0239 pecho + 0.955 abdomen - 0.208 cadera + 0.236 muslo + 0.015 rodilla + 0.174 tobillo - 1.62 muñeca + 0.182 biceps + 0.452 antebrazo Predictor Coef StDev T P Constant -18.19 17.35 -1.05 0.296 edad 0.06208 0.03235 1.92 0.056 peso -0.08844 0.05353 -1.65 0.100 altura -0.06959 0.09601 -0.72 0.469 cuello -0.4706 0.2325 -2.02 0.044 pecho -0.02386 0.09915 -0.24 0.810 abdomen 0.95477 0.08645 11.04 0.000 cadera -0.2075 0.1459 -1.42 0.156 muslo 0.2361 0.1444 1.64 0.103 rodilla 0.0153 0.2420 0.06 0.950 tobillo 0.1740 0.2215 0.79 0.433 muñeca -1.6206 0.5349 -3.03 0.003 biceps 0.1816 0.1711 1.06 0.290 antebraz 0.4520 0.1991 2.27 0.024 S = 4.305 R-Sq = 74.9% R-Sq(adj) = 73.5% Se elimina del modelo la variable rodilla, pués su "P-value"=0.950 es el mayor. Paso 2. Regresion sin la variable rodilla The regression equation is grasa = - 17.9 + 0.0626 edad - 0.0876 peso - 0.0691 altura - 0.473 cuello - 0.0244 pecho + 0.954 abdomen - 0.207 cadera + 0.239 muslo + 0.176 tobillo - 1.62 muñeca + 0.181 biceps + 0.453 antebrazo Predictor Coef StDev T P Constant -17.93 16.84 -1.06 0.288 edad 0.06259 0.03125 2.00 0.046 peso -0.08758 0.05165 -1.70 0.091 altura -0.06907 0.09545 -0.72 0.470 cuello -0.4728 0.2293 -2.06 0.040 Edgar Acuña Capítulo 9 Regresión Lineal 236 pecho -0.02442 0.09855 -0.25 0.805 abdomen 0.95440 0.08606 11.09 0.000 cadera -0.2071 0.1455 -1.42 0.156 muslo 0.2386 0.1384 1.72 0.086 tobillo 0.1763 0.2179 0.81 0.419 muñeca -1.6181 0.5323 -3.04 0.003 biceps 0.1808 0.1703 1.06 0.289 antebraz 0.4532 0.1979 2.29 0.023 S = 4.296 R-Sq = 74.9% R-Sq(adj) = 73.6% Se elimina del modelo la variable pecho, pués su "p-value"=0.805 es el mayor. Paso 3. Regresión sin las variables rodilla y pecho The regression equation is grasa = - 19.7 + 0.0625 edad - 0.0927 peso - 0.0638 altura - 0.475 cuello + 0.944 abdomen - 0.200 cadera + 0.245 muslo + 0.179 tobillo - 1.61 muñeca + 0.177 biceps + 0.448 antebrazo Predictor Coef StDev T P Constant -19.69 15.24 -1.29 0.198 edad 0.06249 0.03118 2.00 0.046 peso -0.09271 0.04723 -1.96 0.051 altura -0.06378 0.09285 -0.69 0.493 cuello -0.4754 0.2287 -2.08 0.039 abdomen 0.94421 0.07545 12.51 0.000 cadera -0.2004 0.1427 -1.41 0.161 muslo 0.2451 0.1356 1.81 0.072 tobillo 0.1785 0.2173 0.82 0.412 muñeca -1.6149 0.5311 -3.04 0.003 biceps 0.1771 0.1693 1.05 0.297 antebraz 0.4477 0.1963 2.28 0.023 S = 4.288 R-Sq = 74.9% R-Sq(adj) = 73.7% Se elimina del modelo la variable altura, pués su "p-value"=0.493 es el mayor. Paso 4. Regresion sin las variables rodilla, pecho y altura The regression equation is grasa = - 26.0 + 0.0651 edad - 0.107 peso - 0.467 cuello + 0.958 abdomen - 0.179 cadera + 0.259 muslo + 0.185 tobillo - 1.66 muñeca + 0.186 biceps + 0.453 antebrazo Predictor Coef StDev T P Constant -26.00 12.15 -2.14 0.033 edad 0.06509 0.03092 2.11 0.036 peso -0.10740 0.04207 -2.55 0.011 cuello -0.4675 0.2281 -2.05 0.042 abdomen 0.95772 0.07276 13.16 0.000 cadera -0.1791 0.1391 -1.29 0.199 muslo 0.2593 0.1339 1.94 0.054 tobillo 0.1845 0.2169 0.85 0.396 muñeca -1.6567 0.5271 -3.14 0.002 biceps 0.1862 0.1686 1.10 0.271 antebraz 0.4530 0.1959 2.31 0.022 S = 4.283 R-Sq = 74.8% R-Sq(adj) = 73.8% Se elimina del modelo la variable tobillo, pues su "p-value"=.396 es el mayor. Edgar Acuña Capítulo 9 Regresión Lineal 237 Paso 5. Regresión sin incluir las variables: rodilla, pecho, altura y tobillo The regression equation is grasa = - 23.3 + 0.0635 edad - 0.0984 peso - 0.493 cuello + 0.949 abdomen - 0.183 cadera + 0.265 muslo - 1.54 muñeca + 0.179 biceps + 0.451 antebrazo Predictor Coef StDev T P Constant -23.30 11.73 -1.99 0.048 edad 0.06348 0.03084 2.06 0.041 peso -0.09843 0.04070 -2.42 0.016 cuello -0.4933 0.2260 -2.18 0.030 abdomen 0.94926 0.07204 13.18 0.000 cadera -0.1829 0.1389 -1.32 0.189 muslo 0.2654 0.1336 1.99 0.048 muneca -1.5421 0.5093 -3.03 0.003 biceps 0.1789 0.1683 1.06 0.289 antebraz 0.4515 0.1958 2.31 0.022 S = 4.281 R-Sq = 74.8% R-Sq(adj) = 73.8% Se elimina del modelo la variable biceps, pués su "p-value"=.289 es el mayor. Paso 6. Regresión sin incluir las variables: rodilla, pecho, altura, tobillo y biceps The regression equation is grasa = - 22.7 + 0.0658 edad - 0.0899 peso - 0.467 cuello + 0.945 abdomen - 0.195 cadera + 0.302 muslo - 1.54 muneca + 0.516 antebrazo Predictor Coef StDev T P Constant -22.66 11.71 -1.93 0.054 edad 0.06578 0.03078 2.14 0.034 peso -0.08985 0.03991 -2.25 0.025 cuello -0.4666 0.2246 -2.08 0.039 abdomen 0.94482 0.07193 13.13 0.000 cadera -0.1954 0.1385 -1.41 0.159 muslo 0.3024 0.1290 2.34 0.020 muñeca -1.5367 0.5094 -3.02 0.003 antebraz 0.5157 0.1863 2.77 0.006 S = 4.282 R-Sq = 74.7% R-Sq(adj) = 73.8% Se elimina del modelo la variable cadera, pués su "p-value"=.159 es el mayor. Paso 7. Regresión sin incluir las variables: rodilla, pecho, altura, tobillo, biceps y cadera. The regression equation is grasa = - 33.3 + 0.0682 edad - 0.119 peso - 0.404 cuello + 0.918 abdomen + 0.222 muslo - 1.53 muneca + 0.553 antebrazo Predictor Coef StDev T P Constant -33.258 9.007 -3.69 0.000 edad 0.06817 0.03079 2.21 0.028 peso -0.11944 0.03403 -3.51 0.001 cuello -0.4038 0.2206 -1.83 0.068 abdomen 0.91788 0.06950 13.21 0.000 muslo 0.2220 0.1160 1.91 0.057 muneca -1.5324 0.5104 -3.00 0.003 Edgar Acuña Capítulo 9 Regresión Lineal 238 antebraz 0.5531 0.1848 2.99 0.003 S = 4.291 R-Sq = 74.4% R-Sq(adj) = 73.7% Se elimina del modelo la variable cuello, pués su "p-value"=.068 es el mayor. Paso 8. Regresión sin incluir las variables: rodilla, pecho, altura, tobillo, biceps, cadera y cuello. The regression equation is grasa = - 38.3 + 0.0629 edad - 0.136 peso + 0.912 abdomen + 0.220 muslo - 1.78 muñeca + 0.489 antebrazo Predictor Coef StDev T P Constant -38.322 8.612 -4.45 0.000 edad 0.06290 0.03080 2.04 0.042 peso -0.13648 0.03288 -4.15 0.000 abdomen 0.91179 0.06975 13.07 0.000 muslo 0.2202 0.1166 1.89 0.060 muneca -1.7788 0.4947 -3.60 0.000 antebraz 0.4891 0.1823 2.68 0.008 S = 4.311 R-Sq = 74.1% R-Sq(adj) = 73.5% Se elimina del modelo la variable muslo, pués su "p-value".060 es el mayor. Paso 9. Regresión sin incluir las variables: rodilla, pecho, altura, tobillo, biceps, cadera, cuello y muslo. The regression equation is grasa = - 31.0 + 0.0410 edad - 0.111 peso + 0.939 abdomen - 1.83 muñeca + 0.508 antebrazo Predictor Coef StDev T P Constant -30.970 7.724 -4.01 0.000 edad 0.04100 0.02869 1.43 0.154 peso -0.11095 0.03014 -3.68 0.000 abdomen 0.93901 0.06860 13.69 0.000 muñeca -1.8296 0.4965 -3.68 0.000 antebraz 0.5085 0.1830 2.78 0.006 S = 4.334 R-Sq = 73.7% R-Sq(adj) = 73.2% Se elimina del modelo la variable edad, pués su "p-value"=.154 es el mayor. Paso 10. Regresión sin incluir las variables: rodilla, pecho, altura, tobillo, biceps, cadera, cuello, muslo y edad. The regression equation is grasa = - 34.9 - 0.136 peso + 0.996 abdomen - 1.51 muñeca + 0.473 antebrazo Predictor Coef StDev T P Constant -34.854 7.245 -4.81 0.000 peso -0.13563 0.02475 -5.48 0.000 abdomen 0.99575 0.05607 17.76 0.000 muñeca -1.5056 0.4427 -3.40 0.001 antebraz 0.4729 0.1817 2.60 0.010 Edgar Acuña Capítulo 9 Regresión Lineal 239 S = 4.343 R-Sq = 73.5% R-Sq(adj) = 73.1% El proceso termina, porque todos los "p-values" son menores que 0.05 o las pruebas t en valor absoluto son mayores que 2. El mejor modelo para predecir el porcentaje de grasa en el cuerpo será el que incluyea las variables:peso, circunferencia de abdomen, nuñeca y antebrazo. Ahora, haremos todo lo anterior en forma directa. La ventana de diálogo para hacer selección de variables en MINITAB se obtiene al elegir la opción Stepwise del menú regresión. La ventana de diálogo se completara como se muestra en la Figura 9.16 Figura 9.16. Ventana de diálogo para el método "Stepwise" Al seleccionar Methods aparece la ventana de diálogo de la Figura 9.17: Edgar Acuña Capítulo 9 Regresión Lineal 240 Figura 9.17. Ventana de diálogo que aparece al oprimir methods en "stepwise". En el método de eliminación hacia atrás se selecciona Backward Elimination. Aparece seleccionado 0.15 en Alpha to remove. Este 0.15 es el nivel de significación que se usa en la prueba de F al momento de decidir si se elimina o no una variable del modelo. Este valor puede ser cambiado por el usuario. Si se elige un valor más pequeño de “alpha” entonces, es probable que el modelo incluya más variables predictoras, lo contrario ocurre si se elige un “alpha” grande. En las versiones anteriores de MINITAB se usaba un valor de 4.0 en F to Remove. Este valor corresponde a un “alpha” de 0.05 cuando se tiene una F con 1 grado de libertad en el numerador y grados de libertad del denominador relativamente grande, mayor que 30. Con este cambio MINITAB ha adoptado la técnica de hacer “stepwise” que aparece en la mayoría de los programas estadísticos. Para los datos de la hoja de trabajo grasa.mtw en donde se trata de ver qué medidas del cuerpo sirven para determinar el porcentaje de grasa en el cuerpo humano, el método de eliminación hacia atrás da los siguientes resultados: Stepwise Regression: grasa versus edad, peso, ... Backward elimination. Alpha-to-Remove: 0.05 Response is grasa on 13 predictors, with N = 252 Step 1 2 3 4 5 6 7 Constant -18.19 -17.93 -19.69 -26.00 -23.30 -22.66 -33.26 Edgar Acuña Capítulo 9 Regresión Lineal 241 edad 0.062 0.063 0.062 0.065 0.063 0.066 0.068 T-Value 1.92 2.00 2.00 2.11 2.06 2.14 2.21 P-Value 0.056 0.046 0.046 0.036 0.041 0.034 0.028 peso -0.088 -0.088 -0.093 -0.107 -0.098 -0.090 -0.119 T-Value -1.65 -1.70 -1.96 -2.55 -2.42 -2.25 -3.51 P-Value 0.100 0.091 0.051 0.011 0.016 0.025 0.001 altura -0.070 -0.069 -0.064 T-Value -0.72 -0.72 -0.69 P-Value 0.469 0.470 0.493 cuello -0.47 -0.47 -0.48 -0.47 -0.49 -0.47 -0.40 T-Value -2.02 -2.06 -2.08 -2.05 -2.18 -2.08 -1.83 P-Value 0.044 0.040 0.039 0.042 0.030 0.039 0.068 pecho -0.024 -0.024 T-Value -0.24 -0.25 P-Value 0.810 0.805 abdomen 0.955 0.954 0.944 0.958 0.949 0.945 0.918 T-Value 11.04 11.09 12.51 13.16 13.18 13.13 13.21 P-Value 0.000 0.000 0.000 0.000 0.000 0.000 0.000 cadera -0.21 -0.21 -0.20 -0.18 -0.18 -0.20 T-Value -1.42 -1.42 -1.41 -1.29 -1.32 -1.41 P-Value 0.156 0.156 0.161 0.199 0.189 0.159 muslo 0.24 0.24 0.25 0.26 0.27 0.30 0.22 T-Value 1.64 1.72 1.81 1.94 1.99 2.34 1.91 P-Value 0.103 0.086 0.072 0.054 0.048 0.020 0.057 rodilla 0.02 T-Value 0.06 P-Value 0.950 tobillo 0.17 0.18 0.18 0.18 T-Value 0.79 0.81 0.82 0.85 P-Value 0.433 0.419 0.412 0.396 biceps 0.18 0.18 0.18 0.19 0.18 T-Value 1.06 1.06 1.05 1.10 1.06 P-Value 0.290 0.289 0.297 0.271 0.289 antebraz 0.45 0.45 0.45 0.45 0.45 0.52 0.55 T-Value 2.27 2.29 2.28 2.31 2.31 2.77 2.99 P-Value 0.024 0.023 0.023 0.022 0.022 0.006 0.003 muneca -1.62 -1.62 -1.61 -1.66 -1.54 -1.54 -1.53 T-Value -3.03 -3.04 -3.04 -3.14 -3.03 -3.02 -3.00 P-Value 0.003 0.003 0.003 0.002 0.003 0.003 0.003 S 4.31 4.30 4.29 4.28 4.28 4.28 4.29 R-Sq 74.90 74.90 74.90 74.85 74.77 74.66 74.45 R-Sq(adj) 73.53 73.64 73.75 73.81 73.84 73.82 73.71 C-p 14.0 12.0 10.1 8.5 7.2 6.4 6.3 Step 8 9 10 Constant -38.32 -30.97 -34.85 edad 0.063 0.041 T-Value 2.04 1.43 P-Value 0.042 0.154 peso -0.136 -0.111 -0.136 T-Value -4.15 -3.68 -5.48 Edgar Acuña Capítulo 9 Regresión Lineal 242 P-Value 0.000 0.000 0.000 altura T-Value P-Value cuello T-Value P-Value pecho T-Value P-Value abdomen 0.912 0.939 0.996 T-Value 13.07 13.69 17.76 P-Value 0.000 0.000 0.000 cadera T-Value P-Value muslo 0.22 T-Value 1.89 P-Value 0.060 rodilla T-Value P-Value tobillo T-Value P-Value biceps T-Value P-Value antebraz 0.49 0.51 0.47 T-Value 2.68 2.78 2.60 P-Value 0.008 0.006 0.010 muneca -1.78 -1.83 -1.51 T-Value -3.60 -3.68 -3.40 P-Value 0.000 0.000 0.001 S 4.31 4.33 4.34 R-Sq 74.10 73.72 73.50 R-Sq(adj) 73.46 73.19 73.07 C-p 7.7 9.2 9.3 I nterpretación: El método termina en 10 pasos. La primera variable eliminada del modelo es rodilla, cuyo valor de la prueba t, 0.06, es el más pequeño de todos, luego se eliminan, pecho, altura, tobillo, biceps, cadera, cuello, muslo y edad en ese orden. El mejor modelo será: Grasa= 34.85 -.136 peso+ .996 abdomen +0.47 antebrazo - 1.51muñeca El cual tiene un R 2 de 73.50, mientras que el modelo completo con 13 variable predictoras tiene un R 2 de 74.90%, se ha perdido un 1.40% de confiablidad en las predicciones pero se ha economizado 9 variables, lo cual es más conveniente. Edgar Acuña Capítulo 9 Regresión Lineal 243 B) Usando el método "Forward" Haciendo paso a paso el método "Forward": Paso 1. Se halla la regresión simple con la variable predictora más altamente correlacionada con la variable de respuesta En este caso, es abdomen que tiene correlación 0.803 con grasa. The regression equation is grasa = - 39.3 + 0.631 abdomen Predictor Coef StDev T P Constant -39.280 2.660 -14.77 0.000 abdomen 0.63130 0.02855 22.11 0.000 S = 4.877 R-Sq = 66.2% R-Sq(adj) = 66.0% Paso 2. Se halla todas las regresiones con dos variables predictoras, una de las cuales es abdomen. Aqui se muestran sólo dos de las 12 regresiones posibles. Con la variables aabdomen y pecho The regression equation is grasa = - 30.3 + 0.818 abdomen - 0.261 pecho Predictor Coef StDev T P Constant -30.274 4.057 -7.46 0.000 abdomen 0.81794 0.07006 11.67 0.000 pecho -0.26066 0.08961 -2.91 0.004 S = 4.806 R-Sq = 67.3% R-Sq(adj) = 67.0% Con las variables adomen y peso The regression equation is grasa = - 46.0 + 0.990 abdomen - 0.148 peso Predictor Coef StDev T P Constant -45.952 2.605 -17.64 0.000 abdomen 0.98950 0.05672 17.45 0.000 peso -0.14800 0.02081 -7.11 0.000 S = 4.456 R-Sq = 71.9% R-Sq(adj) = 71.7% Notar que el valor absoluto de la prueba t para la variable pecho es 2.91 (p-value = .004), y para la variable peso es 7.11 ( p-value = 0.000). La variable peso entra al modelo porque es aquella con valor de t más grande en valor absoluto entre todas las variables que aún no estaban incluídas. Paso 3. Se hallan todas las regresiones con tres variables predictoras, las dos incluidas en los dos pasos anteriores y cada una de las variables no incluidas aún. Aqui se muestran sólo dos de las 11 regresiones posibles. The regression equation is grasa = - 45.8 + 0.990 abdomen - 0.148 peso - 0.002 cadera Predictor Coef StDev T P Constant -45.846 7.059 -6.49 0.000 abdomen 0.98974 0.05866 16.87 0.000 peso -0.14763 0.03087 -4.78 0.000 cadera -0.0020 0.1199 -0.02 0.987 S = 4.465 R-Sq = 71.9% R-Sq(adj) = 71.5% Edgar Acuña Capítulo 9 Regresión Lineal 244 Regression Analysis The regression equation is grasa = - 27.9 + 0.975 abdomen - 0.114 peso - 1.24 muneca Predictor Coef StDev T P Constant -27.930 6.817 -4.10 0.000 abdomen 0.97513 0.05615 17.37 0.000 peso -0.11446 0.02364 -4.84 0.000 muñeca -1.2449 0.4362 -2.85 0.005 S = 4.393 R-Sq = 72.8% R-Sq(adj) = 72.4% La variable muñeca entra al modelo porque es aquella con el valor de t más grande en valor absoluto entre todas las variables que aún no estaban incluídas. Paso 4. Se hallan todas las regresiones con cuatro variables predictoras, las tres incluídas en los tres pasos anteriores y cada una de las variables no incluidas aún. Aqui se muestran sólo dos de las 10 regresiones posibles. Regression Analysis The regression equation is grasa = - 35.1 + 0.979 abdomen - 0.144 peso - 1.10 muñeca + 0.158 muslo Predictor Coef StDev T P Constant -35.117 8.414 -4.17 0.000 abdomen 0.97856 0.05607 17.45 0.000 peso -0.14355 0.03096 -4.64 0.000 muñeca -1.0990 0.4467 -2.46 0.015 muslo 0.1585 0.1092 1.45 0.148 S = 4.383 R-Sq = 73.0% R-Sq(adj) = 72.6% Regression Analysis The regression equation is grasa = - 34.9 + 0.996 abdomen - 0.136 peso - 1.51 muñeca + 0.473 antebrazo Predictor Coef StDev T P Constant -34.854 7.245 -4.81 0.000 abdomen 0.99575 0.05607 17.76 0.000 peso -0.13563 0.02475 -5.48 0.000 muñeca -1.5056 0.4427 -3.40 0.001 antebraz 0.4729 0.1817 2.60 0.010 S = 4.343 R-Sq = 73.5% R-Sq(adj) = 73.1% La variable antebrazo entra al modelo porque es aquella con el valor de t más grande en valor absoluto entre todas las variables que aún no estaban incluídas. Aquí termina el proceso porque al hacer las regresiones de grasa con las cuatro variables consideradas hasta ahora y cada una de las 9 variables no incluidas hasta ahora se obtienen “p- values” para la prueba t mayores de 0.05. Edgar Acuña Capítulo 9 Regresión Lineal 245 Para hacer selección hacia adelante en MINITAB se sigue la secuencia STATRegressionStepwiseMethods y luego se elige Forward Selection. En la ventanita Alpha-to-Enter aparece 0.25, que es el nivel de significación que usa la prueba de F para decidir si una variable debe o no entrar en el modelo. Este valor puede ser cambiado por el usuario, tomando en cuenta que si elige un valor de “alpha” más pequeño es más probable que el modelo incluya un menor número de variables que cuando se escoge una “alpha” más grande. En las versiones anteriores de MINITAB se usaba un valor de 4.0 en F to Enter. Este valor corresponde a un “alpha” de 0.05 cuando se tiene una F con 1 grado de libertad en el numerador y grados de libertad del denominador relativamente grande, mayor que 30. Para los datos de la hoja de trabajo grasa.mtw, el método de selección hacia adelante da los siguientes resultados, usando “alpha” = 0.05. Stepwise Regression: grasa versus edad, peso, ... Forward selection. Alpha-to-Enter: 0.05 Response is grasa on 13 predictors, with N = 252 Step 1 2 3 4 Constant -39.28 -45.95 -27.93 -34.85 abdomen 0.631 0.990 0.975 0.996 T-Value 22.11 17.45 17.37 17.76 P-Value 0.000 0.000 0.000 0.000 peso -0.148 -0.114 -0.136 T-Value -7.11 -4.84 -5.48 P-Value 0.000 0.000 0.000 muneca -1.24 -1.51 T-Value -2.85 -3.40 P-Value 0.005 0.001 antebraz 0.47 T-Value 2.60 P-Value 0.010 S 4.88 4.46 4.39 4.34 R-Sq 66.17 71.88 72.77 73.50 R-Sq(adj) 66.03 71.65 72.44 73.07 C-p 72.9 20.7 14.2 9.3 C) Usando el método “Stepwise”. Edgar Acuña Capítulo 9 Regresión Lineal 246 Para llevar a cabo en MINITAB selección de variables usando el método “stepwise” se sigue la secuencia STATRegressionStepwiseMethods y luego se elige Stepwise. Aparece la ventana de diálogo de la Figura 9.18. En las ventanitas Alpha-to- Enter y Alpha to-Remove, aparece el mismo valor 0.15, el cual puede ser cambiado por el usuario. El valor de Alpha-to-Enter debe ser menor que Alpha to-Remove. En las versiones anteriores de MINITAB aparecían las ventanitas F-to-Enter y F-to-Remove donde se asignaba el valor de 4.0 Figura 9.18. Ventana de diálogo para hacer selección “stepwise”. Para el conjunto de datos grasa el método “stepwise” usando Alpha-to-Enter = 0.10 y Alpha to-Remove = 0.05, produce los siguientes resultados: Stepwise Regression: grasa versus edad, peso, ... Alpha-to-Enter: 0.1 Alpha-to-Remove: 0.15 Response is grasa on 13 predictors, with N = 252 Step 1 2 3 4 5 Constant -39.28 -45.95 -27.93 -34.85 -30.65 abdomen 0.631 0.990 0.975 0.996 1.008 T-Value 22.11 17.45 17.37 17.76 17.89 P-Value 0.000 0.000 0.000 0.000 0.000 peso -0.148 -0.114 -0.136 -0.123 T-Value -7.11 -4.84 -5.48 -4.75 P-Value 0.000 0.000 0.000 0.000 muneca -1.24 -1.51 -1.25 T-Value -2.85 -3.40 -2.66 P-Value 0.005 0.001 0.008 antebraz 0.47 0.53 Edgar Acuña Capítulo 9 Regresión Lineal 247 T-Value 2.60 2.86 P-Value 0.010 0.005 cuello -0.37 T-Value -1.65 P-Value 0.100 S 4.88 4.46 4.39 4.34 4.33 R-Sq 66.17 71.88 72.77 73.50 73.79 R-Sq(adj) 66.03 71.65 72.44 73.07 73.26 C-p 72.9 20.7 14.2 9.3 8.6 9.7.2 Método de los mejores subconjuntos. La opción Best Subsets del submenú Regression del menú Stat se usa para seleccionar los mejores modelos para un número dado de variables de acuerdo a 3 criterios: El coeficiente de Determinación. El mejor modelo es aquél con SST SSR R  2 más alto pero con el menor número de variables posibles. Por decir, si con 3 variables predictoras se obtiene un R 2 de .84 y con 4 variables se obtiene un R 2 de .87 se debería preferir el primer modelo porque la cuarta variable ha incrementado el R 2 pero por muy poco. El coeficiente de Determinación Ajustado. Es una variante del R 2 y que a diferencia de éste no aumenta necesariamente al incluir una variable adicional en el modelo. Se calcula por: 1 1 ) 1 ( 1 2 2        p n n R MST MSR R Ajust La manera de usar este criterio es similar al anterior. El Coeficiente C p de Mallows. Se calcula por: Donde SSE p es la suma de cuadrados del error del modelo que incluye p variables predictoras y s 2 es la varianza estimada del error en el modelo que incluye todas las variables. El mejor modelo es aquel para el cual se cumple aproximadamente 1   p C p , pero con el menor número de variables posibles. Notar que la igualdad anterior también se cumple cuando se usa el modelo completo. n p s SSE C p p     ) 1 ( 2 2 Edgar Acuña Capítulo 9 Regresión Lineal 248 Para el ejemplo anterior, la ventana de diálogo aparece a continuación: Figura 9.19. Ventana de diálogo para Bests Subsets, usando los datos del Ejemplo 9.6 y la ventana session contendrá los siguientes resultados: Best Subsets Regression Response is grasa a a r t n a c b c o o b t m l u p d a m d b i e u e p t e e o d u i i c b n d e u l c m e s l l e r e Adj. a s r l h e r l l l p a c Vars R-Sq R-Sq C-p s d o a o o n a o a o s z a 1 66.2 66.0 72.9 4.8775 X 1 49.4 49.2 232.2 5.9668 X 2 71.9 71.7 20.7 4.4556 X X 2 70.2 70.0 36.6 4.5866 X X 3 72.8 72.4 14.2 4.3930 X X X 3 72.4 72.0 18.0 4.4251 X X X 4 73.5 73.1 9.3 4.3427 X X X X 4 73.3 72.8 11.4 4.3609 X X X X 5 73.8 73.3 8.6 4.3276 X X X X X 5 73.7 73.2 9.2 4.3336 X X X X X 6 74.1 73.5 7.7 4.3111 X X X X X X 6 74.1 73.4 8.0 4.3138 X X X X X X 7 74.4 73.7 6.3 4.2906 X X X X X X X 7 74.3 73.6 7.4 4.2998 X X X X X X X 8 74.7 73.8 6.4 4.2819 X X X X X X X X 8 74.6 73.8 7.0 4.2872 X X X X X X X X 9 74.8 73.8 7.2 4.2808 X X X X X X X X X 9 74.7 73.8 7.7 4.2851 X X X X X X X X X 10 74.8 73.8 8.5 4.2832 X X X X X X X X X X Edgar Acuña Capítulo 9 Regresión Lineal 249 10 74.8 73.8 8.7 4.2850 X X X X X X X X X X 11 74.9 73.7 10.1 4.2879 X X X X X X X X X X X 11 74.8 73.7 10.5 4.2920 X X X X X X X X X X X 12 74.9 73.6 12.0 4.2963 X X X X X X X X X X X X 12 74.9 73.6 12.1 4.2968 X X X X X X X X X X X X 13 74.9 73.5 14.0 4.3053 X X X X X X X X X X X X X I nterpretación: De acuerdo al R 2 el mejor modelo podría ser aquél con las dos variables predoctoras peso y abdomen que aún cundo su R 2 es de 71.9 está cerca del mayor posible que es de 74.9 y además es donde el R 2 ha tenido un mayor incremento. Un resultado similar cuando se usa el R 2 ajustado. De acuerdo al C p de Mallows, el mejor modelo es aquél que tiene las siguientes 6 variables predictoras: edad, peso, muslo, abdomen, antebrazo y cadera con un valor de 7 . 7  p C muy próximo a 7 1 6 1     p . Edgar Acuña Capítulo 9 Regresión Lineal 250 EJERCICIOS Para conseguir los archivos de datos accesar a la siguiente dirección en la internet www.math.uprm.edu/~edgar.datos.html o mandar un mensaje al autor. 1. Los siguientes datos corresponden el tiempo de experiencia en dias de 10 técnicos recientemente contratados por una compañia de electricidad, y el tiempo (en minutos) que demoran en hacer una instalación. experiencia (X) : 5 2 3 10 7 6 5 7 1 8 tiempo de demora (Y) : 30 42 35 20 28 31 32 19 39 25 a) Construir un diagrama de dispersión (“scatterplot”) de los datos. b) Hallar la línea de cuadrados mínimos que representa la relación entre la experiencia y el tiempo de demora. c) Calcular el coeficiente de Determinación e interpretar el resultado. d) Probar usando un 5% de significación si la pendiente de ésta relación es cero. e) Si se sabe que un técnico tiene 5 dias de experiencia, ¿En cuánto tiempo se espera que realice una instalación? f) Hallar el intervalo de confianza del 95% del tiempo medio de duración para todos los ténicos que tienen 5 días de experiencia. Calcular también el intervalo de prediccion. Interpretar sus resultados. g) Hacer un análisis de varianza y sacar sus conclusiones. 2. La tienda “Sweet Dreams”, especializada en vender dulces y regalos, registra durante 12 días el número de personas que entran a la tienda y la cantidad de venta (en dólares) de dulces en cada uno de esos días. # de personas (X) : 174 112 166 138 172 90 148 116 196 116 124 95 ventas (Y) :145.2 83.2 120.5 113.6 119 67 109.3 96.8 140.8 77.8 105 98.6 a) Construir un diagrama de dispersión (“scatterplot”) de los datos. b) Hallar la linea de cuadrados mínimos para aproximar la relación entre el número de personas que entran a la tienda y la venta de dulces por día. c) Probar a un 5% de nivel de significancia si la pendiente es cero. d) Probar a un 5% de nivel de significancia si el intercepto es cero. e) Calcular el coeficiente de correlación entre el número de personas y las ventas. f) Calcular el coeficiente de Determinación e interpretar éste resultado. g) Si el número de personas que entran a la tienda es de 130, predecir las ventas de ese día a un 95% de confianza. h) Obtener las bandas de confianza para el valor medio y de predicción i) Realizar un análisis de varianza y sacar sus conclusiones. Edgar Acuña Capítulo 9 Regresión Lineal 251 3. En un país se eligen 10 pueblos al azar y se anota el ingreso personal promedio de los habitantes ( en miles ) y la tasa de divorcio ( por cada 1000 personas). Los datos están en el archivo divorcio. a) Hacer un plot de los datos b) Hallar el coeficiente de correlación r e interpretarlo c) Hallar la línea de regresión estimada e interpretar las constantes a y b d) Probar si la pendiente de la línea de regresión es cero. e) Trazar la línea de regresión sobre el plot de los puntos f) ¿Cuánto es el coeficiente de Determinación y qué significa? g) ¿Cuál será la tasa de divorcio estimada de un pueblo en donde el ingreso promedio anual es 12,500. h) Hallar además el intervalo de confianza del valor medio y el intervalo de predicción. Interpretar cada uno de ellos. i) Obtener la gráfica de las bandas de confianza. j) ¿Qué conclusión se obtendrá de la siguiente tabla de análisis de varianza? k) Hallar una regresión que pase por el origen e interpretar el resultado. 4. En un pueblo se eligen 15 personas al azar y se anota su salario mensual (X) y la cantidad que ahorran mensualmente (Y): Salario Ahorro 800 150 850 100 900 280 1200 400 1500 350 1700 500 1900 635 2000 600 2300 750 2500 680 2700 900 3000 800 3200 300 3500 1200 5000 1000 a) Hallar la línea de regresión. e interpretar sus coeficientes. b) Trazar la linea de regresión por encima del diagrama de puntos. c) Probar la hipótesis de que la pendiente es cero. Comentar su resultado d) Hacer una regresión que pase por el orígen e interpretar la pendiente e) Asigne un valor adecuado a la variable predictora y halle un intervalo de confianza del 90 por ciento para el valor medio de la variable de respuesta e intrepretar el resultado. Edgar Acuña Capítulo 9 Regresión Lineal 252 f) Asigne un valor adecuado a la variable predictora y halle un intervalo de predicción del 95% para un valor individual de la variable, de respuesta e interpretar su resultado. g) Obtenga las bandas de confianza para el valor medio y de predicción y explicar para qué se usan.. h) Interpretar el coeficiente de determinación i) Hacer un análisis de residuales y comentar sus resultados j) Si existen "outliers" eliminar uno de ellos y explicar su efecto en los cálculos del coeficiente de determinación y de la linea de regresión. k) Hacer una regresión cuadrática y compararla con la regresión lineal 5. El conjunto de datos brain contiene las variables: MRI (X), conteo en pixels del 18 scans de resonancia magnética del cerebro de una persona Score_IQ, (Y) score en un test de inteligencia. Mientras más alto sea el conteo de pixels más grande es el cerebro de las personas. a) Hallar la línea de regresión. e interpretar los coeficientes de la linea de regresión b) Trazar la línea de regresión encima del diagrama de puntos. c) Probar la hipótesis de que la pendiente es cero. Comentar su resultado d) Hacer una regresión que pase por el origen e interpretar la pendiente e) Asigne un valor adecuado a la variable predictora y halle un intervalo de confianza del 90 por ciento para el valor medio de la variable, de respuesta e intrepretar el resultado. f) Asigne un valor adecuado a la variable predictora y halle un intervalo de prediccion del 95% para un valor individual de la variable, de respuesta e interpretar su resultado. g) Obtenga las bandas de confianza para el valor medio y de prediccion y explicar para qué se usan. h) Interpretar el coeficiente de determinación i) Hacer un análisis de residuales y comentar sus resultados j) Si existen "outliers" eliminar uno de ellos y explicar su efecto en los cálculos del coeficiente de determinación y de la linea de regresión. k) Hacer una regresión cuadrática y compararla con la regresión lineal 6. El conjunto de datos pesobajo contiene las variables: peso, (Y): peso del recién nacido en gramos duración (X): duración del período de gestación a) Hallar la linea de regresión. e interpretar los coeficientes de la linea de regresión b) Trazar la linea de regresión encima del diagrama de puntos. c) Probar la hipótesis de que la pendiente es cero. Comentar su resultado d) Hacer una regresión que pase por el origen e interpretar la pendiente Edgar Acuña Capítulo 9 Regresión Lineal 253 e) Asigne un valor adecuado a la variable predictora y halle un intervalo de confianza del 90 por ciento para el valor medio de la variable, de respuesta e intrepretar el resultado. f) Asigne un valor adecuado a la variable predictora y halle un intervalo de predicción del 95% para un valor individual de la variable, de respuesta e interpretar su resultado. g) Obtenga las bandas de confianza para el valor medio y de predicción y explicar para qué se usan. h) Interpretar el coeficiente de determinación i) Hacer un análisis de residuales y comentar sus resultados j) Si existen "outliers" eliminar uno de ellos y explicar su efecto en los cálculos del coeficiente de determinación y de la linea de regresión. k) Hacer una regresión cuadrática y compararla con la regresión lineal 7. En la siguiente tabla se presentan las presiones arteriales Sistólica y Diastólica de 20 personas persona pres. Sisto pres. Dias Persona pres. Sisto pres. Dias 1 130 80 11 120 75 2 100 70 12 130 95 3 130 80 13 130 80 4 140 80 14 140 90 5 130 70 15 110 80 6 115 75 16 160 95 7 120 85 17 150 110 8 125 75 18 130 95 9 110 65 19 125 75 10 125 70 20 130 80 a) Construya un diagrama de dispersión (“scatteplot”) para los datos. b) Hallar la Regresión lineal, considerando como variable dependiente la Presión Arterial Diastólica. c) Interpretar los coeficientes de la regresión obtenida en la parte a). d) Trazar la línea de regresión estimada encima del diagrama de Dispersión. e) Estime la presión Arterial Diastólica de una persona que tiene una presión Arterial Sistólica de 128. f) Determine un intervalo al 95% para el valor medio de la variable, de respuesta si la presión arterial Sistólica es de 128, interpretarlo. g) Graficar las bandas de confianza para el valor medio y de predicción. h) Realizar un análisis de Residuales. 8. La siguiente tabla muestra el número (en cientos) de bacterias que sobreviven después de ser expuestas a rayos X de 200 kilovoltios por períodos de tiempo T de 6 minutos de duración cada uno: Tiempo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Bacterias 355 211 197 166 142 106 104 60 56 38 36 32 21 19 13 Edgar Acuña Capítulo 9 Regresión Lineal 254 a) Hacer un plot de los datos que relacione el número de bacterias sobrevivientes versus el tiempo. b) Ajustar varios modelos que pueden ser linealizados y decidir acercar el mejor modelo para representar la relación entre las variables. c) Predecir el número de bacterias sobrevivientes después de 18 periodos de exposición 9. Usar los archivos de datos homedat.mtw, salary.mtw y pulse.mtw que están dentro de MINITAB. Para homedat escoger Y=c1, para salary escoger Y=C7 y no usar las columnas c1 y c2, para Pulse escoger Y=c2. a) Hallar el modelo de regresión múltiple e interpretar tres de los coeficientes de regresión. b) Interpretar el coeficiente de Determinación. c) Probar que todos los coeficientes del modelo de regresión son ceros. Comentar el resultado. d) Probar que cada uno de los coeficientes del modelo de regresión es cero. Comentar el resultado. e) Probar la hipótesis Ho: B 2 =B 4 =0. Comentar su resultado. f) Hallar un Intervalo de Confianza para el valor medio de Y y el valor Predicho del 99% para Y, escogiendo valores adecuados de las variables predictoras. Comentar sus resultados g) Usar los métodos “Backward” y "Forward" para elegir el modelo de Regresión. Interpretar la salida de MINITAB. Osea explicar cada paso del método y porqué es que se detiene. 10. Dada la siguiente información: Y: medida de severidad de la enfermedad respiratoria X1: años de educación X2: número de personas en el edificio donde vive la persona X3: medida de la calidad del aire (un número grande indica pobre calidad) X4: nivel de nutrición X5: 0 es no fuma y 1 si fuma. Y X1 X2 X3 X4 X5 40 7 25 22 94 0 67 7 33 61 18 1 30 6 19 30 103 0 71 15 29 50 17 1 47 11 21 43 109 0 53 10 24 54 0 1 39 8 21 28 33 0 55 14 22 35 21 1 47 10 26 22 76 0 56 9 32 43 97 1 43 8 22 48 104 0 41 8 19 27 37 0 Edgar Acuña Capítulo 9 Regresión Lineal 255 51 9 28 32 87 1 48 8 22 62 131 0 36 8 19 37 53 0 a) Hallar la regresión lineal múltiple. Comentar los coeficientes. b) Hacer un análisis de residuales y comentar sus resultados. c) Aplicar el método "stepwise" para elegir el mejor modelo. Comentar los resultados. d) Aplicar el método de "Los mejores subconjuntos" para elegir el mejor modelo. Comentar sus resultados. 11. El archivo de datos rendimiento contiene la siguiente información: Y=rendimiento de la enfermera X1=firmeza de carácter X2=entusiasmo X3=ambición X4=habilidad para comunicarse X5=habilidad para resolver problemas X6=iniciativa a) Hallar la regresión lineal múltiple. Comentar los coeficientes. b) Probar las hipótesis de que las variables entusiasmo e iniciativa no son importantes para predecir el rendimiento de la enfremera. c) Hacer una análisis de residuales y comentar sus resultados. d) Aplicar el método "stepwise" para elegir el mejor modelo. Comentar los resultados. e) Aplicar el método de "Los mejores subconjuntos" para elegir el mejor modelo. Comentar sus resultados. 12. El archivo de datos detroit que aparece en la página de internet del texto contiene la siguiente información acerca de la tasa de homicidio en Detroit entre 1966 y 1973 FTP - Full-time police per 100,000 population UEMP - % unemployed in the population LIC - Number of handgun licences per 100,000 population CLEAR - % homicides cleared by arrests WM - Number of white males in the population NMAN - Number of non-manufacturing workers in thousands GOV - Number of government workers in thousands HE - Average hourly earnings HOM - Number of homicides per 100,000 of population a) Hallar la regresión lineal múltiple considerando Y=HOM. Comentar los coeficientes. b) Hacer un análisis de residuales y comentar sus resultados. Edgar Acuña Capítulo 9 Regresión Lineal 256 c) Aplicar el método "stepwise" para elegir el mejor modelo. Comentar los resultados. d) Aplicar el método de "Los mejores subconjuntos" para elegir el mejor modelo. Comentar sus resultados. 13. Los siguientes datos corresponden al precio de venta (en dólares) de 25 propiedades. Para cada una de ellas se tomó datos acerca del número de cuartos, años de antiguedad, área total de la propiedad (en metros cuadrados) y área patio exterior (en metros cuadrados) Precio Cuartos Antiguedad Área Patio 108360 5 41 463 243 460800 20 7 1779 340 189000 5 33 594 379 611440 20 32 1775 395 198000 5 28 520 175 360000 10 32 1250 150 130500 4 41 730 426 331846 11 12 515 160 504000 20 9 1175 750 714000 32 36 1750 1400 672000 26 37 1121 821 321600 13 28 1200 400 348000 9 38 1600 469 207840 6 11 550 100 387600 11 12 1180 280 195000 5 9 530 150 424200 20 31 1500 160 161280 4 35 600 100 224400 8 10 908 158 186840 4 29 650 100 111000 4 41 658 248 132000 4 25 460 80 887000 14 5 11200 8820 96600 4 41 762 372 336600 4 42 910 510 a) Construir diagramas de dispersión entre el precio y el área total, el precio y la antiguedad de la propiedad. b) Hallar el modelo de Regresión Lineal Múltiple e interpretar los coeficientes de Regresión. c) Presentan los datos evidencia suficiente para concluir que los coeficientes de regresión son distintos de cero? , use un  = 0.05. d) Hacer un análisis de varianza, e interpretar los resultados. Edgar Acuña Capítulo 9 Regresión Lineal 257 14. Los siguientes datos corresponden a las mediciones de peso (en libras), estatura (en pulgadas) y edad de 26 personas Peso (y) Talla (x1) Edad (x2) 123 4.7 17 111 4.9 19 130 4.9 19 150 5.1 19 164 5.3 23 151 5 23 147 5.2 26 138 5.1 27 159 5.2 28 160 5.1 28 150 4.8 28 175 5 28 152 4.9 29 156 5.2 30 145 4.8 30 143 5.3 30 171 5.4 30 172 5.2 30 177 5.5 31 202 5.3 36 199 5.5 38 174 5.1 40 186 5.3 44 170 5.2 44 210 5.3 50 199 5.4 55 a) Hallar un modelo de regresión lineal múltiple de la variable peso en función de las variables predictoras; estatura y edad. Interpretar los coeficientes. b) Hacer un Análisis de Residuales y comentar sus resultados. CAPÍTULO 10 DISEÑOS EXPERIMENTALES 10.1 Diseños Experimentales de Clasificación Simple En un diseño experimental de clasificación simple, se trata de comparar varios grupos generalmente llamados Métodos o Tratamientos, como por ejemplo diferentes maneras de tratar una enfermedad: con medicamentos, quirúrgicamente, acupuntura, etc. o de enseñar un curso: dando conferencias, usando transparencias, cooperativamente, etc. Para hacer la comparación se usa una variable de respuesta cuantitativa Y que es medida en cada uno de los grupos. Los grupos también pueden ser los niveles de una variable cualitativa que es llamada Factor, como por ejemplo niveles de conocimiento: básico, intermedio, avanzado. Los datos deben ser recolectados de la siguiente manera: Grupo 1 Grupo 2 Grupo 3 … Grupo k Y 11 Y 21 Y 31 Y k1 Y 12 Y 22 Y 32 Y k2 Y 13 Y 23 Y 33 Y k3 … … Y 1n1 Y 2n2 Y 3n3 … Ykn k Donde el Grupo 1 tiene n 1 observaciones, el Grupo 2 tiene n 2 observaciones, y así sucesivamente. Un Diseño experimental se puede escribir como un modelo lineal al estilo de un modelo de regresión. Así ij i ij y       , donde: ij y : Es la j-ésima observación del grupo i .  : Es la media total. i  : Es el efecto del grupo i . ij  : Error aleatorio de la j-ésima observación del grupo i . Comparar los grupos se reduce a determinar si hay igualdad de medias poblacionales de la variable de respuesta en todos los grupos. Es decir, H o :  1 =  2 =  3 = … =  k ( Los k grupos tienen medias poblacionales iguales) versus H a : Al menos un grupo tiene distinta media poblacional La prueba estadística que se usa para tomar una decisión es la prueba de F. Para que la prueba sea válida se requiere que se cumplan ciertas suposiciones tales como, que la variable de respuesta se distribuya normalmente y con igual variabilidad en cada grupo. La prueba F es obtenida al completar la tabla del análisis de varianza. Edgar Acuña Capítulo 10 Diseños Experimentales 257 La tabla del análisis de varianza tiene el siguiente formato: Fuentes de Variación Grados de Libertad Suma de Cuadrados Cuadrados Medios F Entre Grupos k-1 BSS BMS = BSS/k-1 BMS/MSE Dentro de Grupos n-k SSE MSE = SSE/n-k Total n-1 SST Aquí    k i i n n 1 representa el total de datos tomados, La Suma de cuadrados del total (SST) se calcula por: n y y SST k i n j ij k i n i ij k k         1 1 2 1 1 2 ) ( La Suma de cuadrados Entre Grupos (BSS) se calcula por: n y n T n T n T BSS k i n j ij k k k         1 1 2 2 2 2 2 1 2 1 ) ( .... donde: T i representa el total del i-ésimo Grupo. SSE es la suma de cuadrados del Error, llamado también Suma de Cuadrados Dentro de Grupos y se calcula por diferencia: SSE = SST – BSS. Si la F calculada es mayor que una F con k-1 y n-k al nivel de significación  entonces, se rechaza la hipótesis nula. MINITAB da el “p-value” para la prueba de F y con ese valor se puede llegar a tomar una decisión. En MINITAB, el análisis de Diseños Experimentales se lleva a cabo usando la opción ANOVA del menú Stat, cuyo submenú aparece en figura 10.1. La opción One-Way del menú ANOVA se usa para hacer análisis de varianza de clasificación simple cuando los datos de la variable de respuesta van en una sola columna y los niveles del factor (o Grupos) van en otra columna. La opción One-Way (Unstacked), se usa también para hacer diseños de clasificación simple, pero cuando los datos de los grupos a comparar son entrados columna por columna. Edgar Acuña Capítulo 10 Diseños Experimentales 258 Figura 10.1. Las opciones del menú ANOVA Ejemplo 10.1. Se desea comparar 3 métodos de enseñanza A, B y C, se eligen al azar una muestra de estudiantes de cada método y se le aplica una prueba final común. Los resultados son como sigue: método A método B método C 89 78 64 45 85 69 59 93 82 46 81 74 64 79 79 71 98 94 ¿Habrá suficiente evidencia para concluir que hay diferencia entre métodos? Solución: Los datos son escritos en tres columnas llamadas: método A, método B y método c respectivamente. Usando la opción One-way[Unstacked] la ventana de diálogo se completará como sigue: Edgar Acuña Capítulo 10 Diseños Experimentales 259 Figura 10.2. Ventana de diálogo de One-way[Unstacked] para el ejemplo 10.1 y la ventana session mostrará el siguiente contenido: One-way ANOVA: Método A, Método B, Método C Source DF SS MS F P Factor 2 1957 978 7.44 0.006 Error 15 1971 131 Total 17 3928 S = 11.46 R-Sq = 49.81% R-Sq(adj) = 43.12% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev ------+---------+---------+---------+--- Método A 6 62.33 16.54 (-------*-------) Método B 7 86.86 8.07 (------*-------) Método C 5 73.60 7.30 (--------*--------) ------+---------+---------+---------+--- 60 72 84 96 Pooled StDev = 11.46 I nterpretación: Observando el “P-value”=.006 se rechaza la afirmación, “todos los métodos sean iguales”, o sea en al menos uno de los métodos el rendimiento de los estudiantes es distinto al de los otros métodos. También aparecen los intervalos de confianza para las medias de los tres grupos y se puede ver que no hay superposición entre los intervalos de confianza para los métodos A y B, lo cual sugiere también que se debe rechazar la hipótesis nula. Edgar Acuña Capítulo 10 Diseños Experimentales 260 También se puede hacer una comparación gráfica de los grupos oprimiendo el botón Graph, en la ventana de diálogo lo cual produce: Figura 10.3 Ventana de diálogo para elegir la gráfica en un Anova de clasificación simple. Eligiendo boxplots se obtiene la gráfica que aparece en la figura 10.4. Figura 10.4. Boxplots para comparar los tres métodos del ejemplo 10.1 Edgar Acuña Capítulo 10 Diseños Experimentales 261 I nterpretación: La posición de la mediana y las medias sugiere que aún cuando los métodos B y C no están muy distantes, si existe una diferencia marcada entre los métodos B y A, lo cual llevará a rechazar la hipótesis de iguldad de medias. Hay que notar que la variabilidad del método A es mucho mayor que los otros dos métodos. Para usar la opción One-Way los datos deben ser entrados en dos columnas: Una de ellas conteniendo los valores de la variable de respuesta y la otra los valores que indican a que grupo pertenecen dichos datos. Para el ejemplo anterior se han usado dos columnas: notas, que contiene los valores de la variable de respuesta y método que contiene los grupos. De la siguiente manera: notas método 89 1 45 1 59 1 46 1 64 1 71 1 78 2 85 2 93 2 81 2 79 2 98 2 94 2 64 3 69 3 82 3 74 3 79 3 La ventana de diálogo se completará como lo muestra la figura 10.5 Edgar Acuña Capítulo 10 Diseños Experimentales 262 Figura 10.5. Ventana de diálogo para la opción oneway de ANOVA y el contenido de la ventana session será similar al anterior: One-way ANOVA: notas versus método Source DF SS MS F P método 2 1957 978 7.44 0.006 Error 15 1971 131 Total 17 3928 S = 11.46 R-Sq = 49.81% R-Sq(adj) = 43.12% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev ------+---------+---------+---------+--- 1 6 62.33 16.54 (-------*-------) 2 7 86.86 8.07 (------*-------) 3 5 73.60 7.30 (--------*--------) ------+---------+---------+---------+--- 60 72 84 96 Pooled StDev = 11.46 Es posible convertir datos de grupos que aparecen en varias columnas a datos en dos columnas, esto se llama hacer un stack, ver el ejemplo 2.1. Edgar Acuña Capítulo 10 Diseños Experimentales 263 10.2 Comparaciones Múltiples Una vez que se ha rechazado que todos los grupos son iguales hay que determinar cuáles de ellos son comparables entre si. Existen muchos métodos para hacer estas comparaciones, pero los métodos más usados son: Tukey y Fisher. Todos los métodos son similares y aplican el siguiente criterio: Los Grupos i y j son comparables entre ellos, si se cumple: | media del Grupo i -Media del Grupo j | <valor crítico La diferencia entre ellos está en la manera como se calcula el valor crítico. En MINITAB las pruebas de comparaciones múltiples se obtienen al oprimir el botón Comparisons de Oneway. Aparece la ventana de diálogo que se muestra en la figura 10.6 En el método de Tukey, el valor crítico está dado por: j i n n s Q 1 1 2  donde: n i es el tamaño del i-ésimo grupo y, n j es el tamaño del j-ésimo grupo, s es igual a la desviación estándar combinada de los grupos y es igual a la raíz cuadrada del cuadrado medio del error (MSE), y Q es el percentil de 100% de la distribución del rango estudentizado con parámetros k-1 y n-k.. En el método de Fisher, el valor crítico está dado por: j i k n n n s t 1 1 ) , 2 / (    Aquí, t (/2,n-k) representa el valor de la distribución t tal que, el área a la derecha es /2. Edgar Acuña Capítulo 10 Diseños Experimentales 264 Figura 10.6. Ventana de diálogo para la opción comparisons de one-way. Los resultados para los datos del ejemplo anterior serán como sigue: Tukey 95% Simultaneous Confidence Intervals All Pairwise Comparisons among Levels of método Individual confidence level = 97.97% método = 1 subtracted from: método Lower Center Upper -----+---------+---------+---------+---- 2 7.97 24.52 41.08 (-------*--------) 3 -6.75 11.27 29.28 (--------*--------) -----+---------+---------+---------+---- -20 0 20 40 método = 2 subtracted from: método Lower Center Upper -----+---------+---------+---------+---- 3 -30.68 -13.26 4.16 (-------*--------) -----+---------+---------+---------+---- -20 0 20 40 Fisher 95% Individual Confidence Intervals All Pairwise Comparisons among Levels of método Simultaneous confidence level = 88.31% Edgar Acuña Capítulo 10 Diseños Experimentales 265 método = 1 subtracted from: método Lower Center Upper ----+---------+---------+---------+----- 2 10.93 24.52 38.12 (------*------) 3 -3.53 11.27 26.06 (-------*------) ----+---------+---------+---------+----- -20 0 20 40 método = 2 subtracted from: método Lower Center Upper ----+---------+---------+---------+----- 3 -27.56 -13.26 1.05 (------*-------) ----+---------+---------+---------+----- -20 0 20 40 I nterpretación: Por cada combinación de grupos aparecen los limites inferiores y superiores de los intervalos de confianza para la diferencia poblacional de las dos medias. Si los limites de los intervalos son de signos distintos entonces los grupos son comparables de lo contario no. Básicamente esto equivale a ver si CERO está contenido o no en el intervalo. En este ejemplo los métodos de Tukey y Fisher llevan a la conclusión que los métodos de enseñanza A y C son comparables al igual que B y C pero A y B no lo son. Hay un nivel superior formado por los métodos B y C y un nivel inferior formado por C y A. Notar que C aparece en ambos niveles. Ejemplo 10.2. Los siguientes datos representan los tiempos de sobrevivencia a varios tipos de cáncer, después que se lo ha diagnosticado Estómago Pulmón Colon Ovario Seno 248 124 1234 81 1235 377 42 89 461 24 189 25 201 20 1581 1843 45 356 450 1166 180 412 2970 246 40 537 51 456 166 727 519 1112 63 3808 455 46 64 791 406 103 155 1804 365 876 859 3460 942 146 151 719 776 340 166 372 396 37 163 223 101 138 20 72 283 245 Hacer un análisis de varianza para probar si hay igual tiempo de sobrevivencia para los diversos tipos de cáncer. Aplicar los métodos de comparaciones múltiples de Fisher y Tukey para identificar los tipos de cáncer con tiempos de sobrevivencia similares. Edgar Acuña Capítulo 10 Diseños Experimentales 266 Solución: La hipótesis nula es H o : Los tiempos promedios de sobrevivencia de los pacientes diagnosticados con cáncer de estómago, pulmón, colon, ovario y seno son iguales. La hipotesis alterna es H a : Al menos uno de los tipos de cáncer tiene tiempo de sobrevivencia promedio distinto a los otros. Primero se entran los datos en dos columnas: Sobrevivencia, que contiene los tiempos de sobrevivencia y Organo, que contiene los órganos donde el cáncer es detectado. Luego se sigue la secuencia Stat ANOVA One-Way , y oprimiendo el botón comparisons se obtiene los siguientes resultados en la ventana session: One-way ANOVA: tiempo versus cancer Source DF SS MS F P cancer 4 11535761 2883940 6.43 0.000 Error 59 26448144 448274 Total 63 37983905 S = 669.5 R-Sq = 30.37% R-Sq(adj) = 25.65% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev --+---------+---------+---------+------- colon 6 884.3 1098.6 (----------*----------) estomago 17 457.4 427.2 (-----*------) ovario 17 211.6 209.9 (-----*------) pulmon 13 286.0 346.3 (-------*------) seno 11 1395.9 1239.0 (-------*-------) --+---------+---------+---------+------- 0 500 1000 1500 Pooled StDev = 669.5 Tukey 95% Simultaneous Confidence Intervals All Pairwise Comparisons among Levels of cancer Individual confidence level = 99.34% cancer = colon subtracted from: cancer Lower Center Upper ---------+---------+---------+---------+ estomago -1321.7 -426.9 467.8 (--------*--------) ovario -1567.5 -672.7 222.0 (--------*--------) pulmon -1528.3 -598.3 331.6 (--------*--------) seno -444.7 511.6 1467.9 (--------*---------) ---------+---------+---------+---------+ -1000 0 1000 2000 cancer = estomago subtracted from: cancer Lower Center Upper ---------+---------+---------+---------+ ovario -892.1 -245.8 400.5 (------*-----) pulmon -865.6 -171.4 522.8 (------*------) seno 209.4 938.5 1667.6 (------*-------) ---------+---------+---------+---------+ -1000 0 1000 2000 Edgar Acuña Capítulo 10 Diseños Experimentales 267 cancer = ovario subtracted from: cancer Lower Center Upper ---------+---------+---------+---------+ pulmon -619.8 74.4 768.6 (------*------) seno 455.2 1184.3 1913.4 (------*------) ---------+---------+---------+---------+ -1000 0 1000 2000 cancer = pulmon subtracted from: cancer Lower Center Upper ---------+---------+---------+---------+ seno 338.0 1109.9 1881.8 (-------*-------) ---------+---------+---------+---------+ -1000 0 1000 2000 Fisher 95% Individual Confidence Intervals All Pairwise Comparisons among Levels of cancer Simultaneous confidence level = 72.17% cancer = colon subtracted from: cancer Lower Center Upper -------+---------+---------+---------+-- estomago -1063.1 -426.9 209.3 (------*-----) ovario -1308.9 -672.7 -36.6 (-----*------) pulmon -1259.6 -598.3 62.9 (------*------) seno -168.4 511.6 1191.5 (------*------) -------+---------+---------+---------+-- -1000 0 1000 2000 cancer = estomago subtracted from: cancer Lower Center Upper -------+---------+---------+---------+-- ovario -705.3 -245.8 213.7 (----*---) pulmon -665.0 -171.4 322.2 (----*----) seno 420.1 938.5 1456.9 (----*-----) -------+---------+---------+---------+-- -1000 0 1000 2000 cancer = ovario subtracted from: cancer Lower Center Upper -------+---------+---------+---------+-- pulmon -419.2 74.4 568.0 (----*----) seno 665.9 1184.3 1702.7 (----*----) -------+---------+---------+---------+-- -1000 0 1000 2000 cancer = pulmon subtracted from: cancer Lower Center Upper -------+---------+---------+---------+-- seno 561.1 1109.9 1658.8 (----*-----) -------+---------+---------+---------+-- -1000 0 1000 2000 Edgar Acuña Capítulo 10 Diseños Experimentales 268 Interpretación: El "P-value" de la prueba de F es .0000, lo cual sugiere que la hipótesis nula se rechaza y se concluye que hay suficiente evidencia estadística para afirmar que al menos uno de los tipos de cáncer tiene tiempo de sobrevivencia promedio distinto a los otros. De acuerdo al método de Tukey: El tiempo promedio de sobrevivencia para cáncer de estómago es similar al cáncer al pulmón, al colon y al ovario, pero no al seno. El tiempo promedio de sobrevivencia para cáncer de pulmon es similar al cáncer al estómago y al colon, pero no al ovario, ni al seno. El tiempo promedio de sobrevivencia para cáncer de colon es similar al cáncer al estómago, al pulmón y al ovario, pero no al seno. El tiempo promedio de sobrevivencia para cáncer de ovarios es similar al cáncer al estómago, al colon, al pulmón, y al seno. El tiempo promedio de sobrevivencia para cáncer de senos es similar al cáncer a los ovarios, pero no al estómago, ni al pulmón, ni al colon. En resumen: Los cáncer al pulmón, estómago, colon y ovarios tienen tiempos de sobrevivencia similares, formado una categoría inferior. Los cáncer de ovarios y senos tienen tiempos promedios de sobrevivencias similares, formando una categoría superior. De acuerdo al método de Fisher: Hay un sólo cambio con respecto al método de Tukey y es que los tiempos promedios de sobrevivencia de cáncer de pulmón y ovarios son similares. En resumen: Los cáncer al pulmón, estómago y colon tienen tiempos de sobrevivencia similares y forman una categoría inferior. Los cáncer al estómago, colon y ovarios tienen tiempos de sobrevivencia similares y forman una categoría intermedia. Los cáncer de ovarios y senos tienen tiempos promedios de sobrevivencias similares y forman la categoría superior. 10.3 Diseños Experimentales de clasificación Doble En este caso se trata de comparar grupos (métodos o tratamientos) pero, tomando en cuenta un segundo factor el cual podría afectar la comparación de los mismos. Los datos de un experimento de clasificación doble con k grupos, B bloques y con dos observaciones por celdas, pueden ser representados de la siguiente manera: Grupo 1 Grupo 2 … Grupo k Bloque 1 Y 111 Y 112 Y 211 Y 212 … Y k11 Y k12 Bloque 2 Y 121 Y 122 Y 221 Y 222 … Y k21 Y k22 … … … … … … Bloque B Y 1B1 Y 2B1 … Y kB1 Edgar Acuña Capítulo 10 Diseños Experimentales 269 Y 1B2 Y 2B2 Y kB2 Hay dos pruebas de hipótesis que se pueden hacer: H o :  1 =  2 =  3 = … =  k ( Los k grupos tienen medias poblacionales iguales) versus H a : Al menos un grupo tiene distinta media poblacional que los otros y, H o :  1 =  2 = 3 =…= B ( Los B bloques tienen medias poblacionales iguales) versus H a : Al menos un bloque tiene media poblacional distinta al de los otros. La prueba estadística correspondiente es la prueba de F, la cual es obtenida al completar la tabla del análisis de varianza. La tabla del análisis de varianza para un diseño con k grupos, b bloques y c observaciones en cada celda tiene el siguiente formato: Fuentes de Variación Grados de Libertad Suma de Cuadrados Cuadrados Medios F Grupos k-1 SSG MSG=SSG/k-1 MSG/MSE MSB/MSE Bloques b-1 SSB MSB=SSB/b-1 Error kbc-k-b+1 SSE MSE=SSE/kbc-k-b+1 Total kbc-1 SST Donde MSG es el cuadrado medio de Grupos, y MSB es el cuadrado medio de Bloques y MSE es el cuadrado medio del Error. Si la F calculada es mayor que una F con k-1 y kbc- k-b+1 al nivel de significación  entonces, se rechaza la hipótesis nula de igualdad de medias de grupos, y si la F calculada es mayor que una F con b-1 y kbc-k-b+1 al nivel de significación  entonces se rechaza la hipótesis nula de igualdad de medias de bloques. MINITAB da el “p-value” para ambas prueba de F y con ese valor se puede llegar a tomar una decisión. La opción Two-Way se usa para analizar diseños de clasificación doble siempre y cuando haya igual número de observaciones por celda. Ejemplo 10.3 Se trata de comparar 3 métodos de enseñanza (a, b y c) pero tomando en cuenta además el factor turno (m, t y n), es decir el tiempo del día al cual se da clase. Los datos son como siguen: a b c m 80.000 65.000 66.000 78.000 79.000 49.000 Edgar Acuña Capítulo 10 Diseños Experimentales 270 t 69.000 50.000 34.000 72.000 58.000 58.000 n 73.000 62.000 46.000 74.000 65.000 59.000 Solución: Primero se entran los datos en tres columnas: nota método turno 80 a m 78 a m 69 a t 72 a t 73 a n 74 a n 65 b m 79 b m 50 b t 58 b t 62 b n 65 b n 66 c m 49 c m 34 c t 58 c t 46 c n 59 c n Las hipótesis que se deben probar son: Ho: No hay diferencia entre los tres métodos de enseñanza Ha: Al menos uno de los métodos de enseñanza tiene un rendimiento distinto a los otros, y Ho: Hay igual rendimiento de los estudiantes en los tres turnos Ha: En al menos uno de los turnos los estudiantes rinden distinto a los otros dos turnos. Eligiendo la secuencia Stat Anova Two-Way se obtiene la ventana de diálogo de la figura 10.7. Notar que la opción Fit Additive model debe ser seleccionada, de lo contario se ajustará un modelo con Interacción que será discutido en la siguiente sección. Edgar Acuña Capítulo 10 Diseños Experimentales 271 Figura 10.7. Ventana de diálogo para la opción two-way del menú ANOVA. Los resultados son los siguientes: Two-way ANOVA: nota versus turno, método Source DF SS MS F P turno 2 481.33 240.667 4.41 0.034 método 2 1496.33 748.167 13.72 0.001 Error 13 708.83 54.526 Total 17 2686.50 S = 7.384 R-Sq = 73.61% R-Sq(adj) = 65.50% Individual 95% CIs For Mean Based on Pooled StDev turno Mean --------+---------+---------+---------+- m 69.5000 (--------*---------) n 63.1667 (--------*---------) t 56.8333 (--------*--------) --------+---------+---------+---------+- 56.0 63.0 70.0 77.0 Individual 95% CIs For Mean Based on Pooled StDev método Mean -----+---------+---------+---------+---- a 74.3333 (-----*------) b 63.1667 (-----*------) c 52.0000 (------*------) -----+---------+---------+---------+---- 50 60 70 80 Edgar Acuña Capítulo 10 Diseños Experimentales 272 Una mejor alternativa es usar la opción General Linear Model del menú ANOVA la cual permite analizar diseños de clasificación doble aún cuando no haya igual número de observaciones por celda y además tiene una opción que permite hacer comparaciones múltiples. Para el ejemplo anterior la ventana de diálogo lucirá así: Figura 10.8 Ventana de diálogo para la opción General Linear Model de ANOVA. Los resultados obtenidos serán: General Linear Model: nota versus método, turno Factor Type Levels Values método fixed 3 a, b, c turno fixed 3 m, n, t Analysis of Variance for nota, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P método 2 1496.33 1496.33 748.17 13.72 0.001 turno 2 481.33 481.33 240.67 4.41 0.034 Error 13 708.83 708.83 54.53 Total 17 2686.50 S = 7.38415 R-Sq = 73.61% R-Sq(adj) = 65.50 Edgar Acuña Capítulo 10 Diseños Experimentales 273 I nterpretación: Viendo los “P-values” correpondientes a ambos factores se llega a la conclusión de que en al menos uno de los métodos de enseñanza el rendimiento es distinto y que en al menos uno de los turnos los estudiantes rinden distinto a los de los otros dos turnos. Oprimiendo el botón comparisons se puede hacer comparaciones de medias de los dos factores. La ventana de diálogo se muestra en la siguiente figura: Figura 10.9. Ventana de diálogo para hacer comparaciones múltiples usando General Linear Model. y los resultados serán: Tukey 95.0% Simultaneous Confidence Intervals Response Variable Nota All Pairwise Comparisons among Levels of Método Método = a subtracted from: Método Lower Center Upper ----+---------+---------+---------+-- b -22.41 -11.17 0.08 (----------*----------) c -33.58 -22.33 -11.09 (-----------*----------) ----+---------+---------+---------+-- -30 -20 -10 0 Edgar Acuña Capítulo 10 Diseños Experimentales 274 Método = b subtracted from: Método Lower Center Upper ----+---------+---------+---------+-- c -22.41 -11.17 0.07766 (----------*----------) ----+---------+---------+---------+-- -30 -20 -10 0 Tukey Simultaneous Tests Response Variable Nota All Pairwise Comparisons among Levels of Método Método = a subtracted from: Difference SE of Adjusted Método of Means Difference T-Value P-Value b -11.17 4.263 -2.619 0.0520 c -22.33 4.263 -5.239 0.0004 Método = b subtracted from: Difference SE of Adjusted Método of Means Difference T-Value P-Value c -11.17 4.263 -2.619 0.0520 Tukey 95.0% Simultaneous Confidence Intervals Response Variable Nota All Pairwise Comparisons among Levels of Turno Turno = m subtracted from: Turno Lower Center Upper +---------+---------+---------+------ n -17.58 -6.33 4.911 (-------------*-------------) t -23.91 -12.67 -1.422 (-------------*-------------) +---------+---------+---------+------ -24.0 -16.0 -8.0 0.0 Turno = n subtracted from: Turno Lower Center Upper +---------+---------+---------+------ t -17.58 -6.333 4.911 (-------------*-------------) +---------+---------+---------+------ -24.0 -16.0 -8.0 0.0 Tukey Simultaneous Tests Response Variable Nota All Pairwise Comparisons among Levels of Turno Turno = m subtracted from: Difference SE of Adjusted Turno of Means Difference T-Value P-Value n -6.33 4.263 -1.486 0.3293 t -12.67 4.263 -2.971 0.0273 Turno = n subtracted from: Difference SE of Adjusted Turno of Means Difference T-Value P-Value t -6.333 4.263 -1.486 0.3293 Edgar Acuña Capítulo 10 Diseños Experimentales 275 I nterpretación: El método A es comparable con el B, pero no con el C. El método B es comparable con el C. El turno de la mañana es comparable con el turno de la noche pero no con el de la tarde. El turno de la noche es comparable con el de la tarde. 10.4 Modelos con Interacción En un diseño de clasificación doble, algunas veces es conveniente cotejar si existe un efecto combinado de ambos factores en el comportamiento de la variable de respuesta, este efecto es llamado Interacción. El efecto interacción puede ser detectado gráficamente, usando los llamados plots de interacción. La ventana de diálogo de la opción Interaction Plots de ANOVA para los datos del ejemplo anterior se completará como se muestra en la figura 10.10. Los plots de interacción para los datos del ejemplo 10.3 son mostrados en la figura 10.11. Figura 10.10. Ventana de diálogo para hacer los plots de interacción para el ejemplo 10.3 Edgar Acuña Capítulo 10 Diseños Experimentales 276 Figura 10.11 Interacción plots para el ejemplo 10.3 I nterpretación: Si hay cierto paralelismo entre las líneas entonces, hay muy poca interacción. Si las lineas se cruzan bastante entonces hay bastante interacción. En el ejemplo se puede ver que no hay interacción. En este caso además de las hipótesis acerca de igualdad de medias de grupos y de igualdad de medias de bloques hay una tercera hipótesis referente a Interacción: H o : No hay interacción entre grupos y bloques H a : Si hay interacción. En MINITAB la tabla de Análisis de varianza es obtenida usando two-way con la opción Fit Additve Model sin ser elegida. Los resultados son como siguen: Edgar Acuña Capítulo 10 Diseños Experimentales 277 MTB > Twoway 'nota' 'turno' 'metodo'. Two-way Analysis of Variance Analysis of Variance for nota Source DF SS MS F P turno 2 481.3 240.7 3.29 0.085 método 2 1496.3 748.2 10.23 0.005 Interaction 4 50.3 12.6 0.17 0.947 Error 9 658.5 73.2 Total 17 2686.5 Otra alternativa es usar General Linear Model. La interacción está representada en el modelo por la expresión método*turno. Los resultados son como siguen: MTB > GLM 'nota' = metodo turno método*turno; SUBC> Brief 2 . General Linear Model Factor Type Levels Values metodo fixed 3 a b c turno fixed 3 m n t Analysis of Variance for nota, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P método 2 1496.33 1496.33 748.17 10.23 0.005 turno 2 481.33 481.33 240.67 3.29 0.085 método*turno 4 50.33 50.33 12.58 0.17 0.947 Error 9 658.50 658.50 73.17 Total 17 2686.50 I nterpretación: El valor del "P-value" para Interacción es .947 que lleva a concluir que se debe aceptar la hipótesis nula de que no existe interacción entre los factores, lo cual ya se habia concluido gráficamente. Edgar Acuña Capítulo 10 Diseños Experimentales 278 EJERCICIOS 1. Se toma una muestra de la produccion de 36 fincas donde se han sembrado 4 variedades de maíz y se observan los siguientes resultados: VAR 1 VAR 2 VAR 3 VAR 4 29.5 30.1 23.7 35.7 24.7 29.0 26.4 36.9 28.0 26.6 26.5 35.0 31.5 36.4 37.5 36.5 39.8 36.6 34.6 34.9 29.8 35.3 35.6 48.2 33.8 54.7 39.7 41.3 37.7 53.2 46.2 43.3 35.5 31.4 34.2 51.7 a) ¿Habrá diferencia entre las producciones promedios de cada variedad de maíz? Escribir las hipótesis y comentar sus resultados. b) Hacer Boxplots para comparar las producciones promedio por variedad Comentar la gráfica. 2. Los siguientes datos representan los niveles de colesterol para consumidores de tres tipos de carne: Res Cerdo Pollo/Mariscos 241 245 249 218 197 222 261 199 221 190 162 215 238 191 207 256 182 193 248 160 205 224 180 227 225 208 203 238 227 180 178 174 200 185 209 154 194 225 211 224 271 204 221 187 169 a) ¿Habrá diferencia de niveles de colesterol entre los tres tipos de consumidores?. Escribir las hipótesis y comentar sus resultados. b) Hacer Boxplots para comparar los niveles de colesterol por tipo de consumidor Comentar la gráfica. 3. Se hace un experimento para probar los efectos de 5 diferentes dietas en pavos. Se asignan al azar 6 pavos a cada una de las 5 dietas y, se los alimentó por un período fijo Edgar Acuña Capítulo 10 Diseños Experimentales 279 de tiempo. Luego se registró la ganancia en peso en libras. Los resultados son como siguen. dieta a dieta b dieta c dieta d dieta e 4.10000 5.20000 6.30000 6.50000 9.50000 3.30000 4.80000 6.50000 6.80000 9.60000 3.10000 4.50000 7.20000 7.30000 9.20000 4.20000 6.80000 7.40000 7.50000 9.10000 3.60000 5.50000 7.80000 6.90000 9.80000 4.40000 6.20000 6.70000 7.00000 9.10000 a) Probar si la ganancia en peso es la misma en todas las dietas.Justificar su contestación. b) Hacer comparaciones múltiples para detectar qué dietas producen igual ganancia en peso. Comentar sus resultados. 4. Los siguientes datos representas los niveles de Sarcodiosis en 5 grupos de pacientes A B C D E 102 64 130 82 123 74 56 136 51 113 63 42 137 72 138 67 39 107 77 126 68 29 155 45 135 58 42 137 85 138 77 61 138 80 124 55 67 120 51 102 80 40 138 76 125 78 89 165 95 103 87 47 138 82 124 89 44 163 92 128 a) Probar si los niveles de sarcodiosis son los mismos para los 5 grupos.Justificar su contestación. b) Hacer comparaciones múltiples para detectar qué tipos de pacientes tienen iguales niveles de sarcodiosis. Comentar sus resultados 5. Se toma una muestra de los salarios y de los años de educacion de 48 empleados de 4 departamentos de una cierta empresa y se observan los siguientes resultados: Filas: EDUC Columnas: DEPT 1 2 3 4 0 29548 30115 23654 35487 24749 28985 26452 36487 27985 26578 26548 34987 Educ: Años de educacion después de la escuela superior 4 31528 36431 37548 36512 39828 36571 34632 34869 29876 35468 35631 48184 Dept: 1 = ventas, 2 = compras, 3 = publicidad, y 4 = ingenieria. Edgar Acuña Capítulo 10 Diseños Experimentales 280 6 33791 54679 39743 41255 37674 53234 46211 43331 35467 31425 34231 51698 10 28985 24782 36578 65487 32920 56326 68425 58695 31889 47536 69246 54899 a) ¿Habrá diferencia entre los salarios promedios de cada departamento? b) Hacer Boxplots para comparar los salarios promedios por departamentos. Comentar la gráfica c) Hacer comparaciones múltiples para comparar los salarios promedios por departamento. ¿A qué conclusión se llegará? d) Hacer un análisis de clasificación doble para ver si la variable educación afecta a la comparación de los salarios por departamentos. ¿A qué conclusiones se llegará? 6. Se seleccionaron al azar ministros de 3 religiones: 8 metodistas, 10 católicos y 9 pentecostales y, se desea probar si poseen el mismo conocimiento sobre enfermedades mentales. Los resultados de un test para medir sus conocimientos son los siguientes: Metodista Católico Pentecostal 32 32 28 30 32 21 30 26 15 29 26 15 26 22 14 23 20 14 18 14 09 19 16 11 14 08 15 a) Probar si los ministros de las 3 religiones poseen igual conocimiento de enfermedades mentales. b) Usar comparaciones múltiples para comparar los 3 grupos. Comentar sus resultados. c) Hacer un boxplot para comparar los 3 grupos. Comentar su gráfica 7. Una panadería desea saber si hay un efecto de la posición ( abajo, en medio, arriba) en que se colocan en los anaqueles, y del ancho de los anaqueles (normal, bastante ancho), en la venta de sus panes. Se registran el número de bolsas de panes vendidas diariamente en 24 supermercados, y los datos que se obtienen son: Posición Ancho del anaquel Normal Bastante Ancho Abajo 47 43 50 55 46 40 41 38 Edgar Acuña Capítulo 10 Diseños Experimentales 281 En Medio 62 68 65 70 67 71 65 69 Arriba 41 39 35 37 42 46 40 45 a) Hacer una prueba de análisis de varianza para probar las hipótesis de que los promedios de ventas son los misnos para cada posición . Comentar sus resultados b) Hacer una gráfica de boxplots para comparar los promedios de ventas según la posición, comentar su gráfica. c) Hacer comparaciones de medias para identificar las posiciones en los anaqueles que producen en promedio iguales ventas de los panes. d) Hacer un diseño de clasificación doble para determinar si hay un efecto del ancho del anaquel en las ventas promedio según la posición. ¿A qué conclusión se llegará? CAPÍTULO 11 PRUEBAS NOPARAMÉTRICAS En las pruebas estadísticas que se han discutido hasta ahora se hacen suposiciones acerca de la forma como se distribuye la población, la que por lo general se asume que se distribuye normalmente. De no haber normalidad las pruebas estadísticas no son válidas. Como se ha visto en el capítulo 5 la normalidad de la población se puede cotejar en base a la muestra tomada. Frecuentemente se arriva a la conclusión de que no hay normalidad y en consecuencia las pruebas que se hacen no son muy confiables, pero a pesar de todo se usan. En este capítulo se estudiarán las pruebas noparamétricas, las cuales no requieren asumir normalidad de la población y que en su mayoría se basan en el ordenamiento de los datos. Todas las pruebas vistas en este capítulo requieren que la población sea contínua. El parámetro que se usa para hacer las pruebas estadísticas es la Mediana y no la Media. Existen una serie de pruebas noparámetricas, nosotros sólo veremos las más usadas. En MINITAB, las pruebas noparamétricas aparecen cuando se elige la secuencia STAT Noparametrics. 11.1 Pruebas Noparamétricas para una sola muestra 11.1.1 Prueba de los Signos Se usa para hacer pruebas de hipótesis acerca de la mediana de una población de una variable continua. Es una alternativa a la prueba de Z o de t para la media poblacional. La hipótesis nula es H o : La Mediana poblacional es igual a un valor dado y la Hipótesis alterna H a : La mediana es menor (mayor ó distinta ) del valor dado. La prueba estadística está basada en la distribución Binomial con probabilidad de éxito p=1/2, puesto que la probabilidad de que un dato sea mayor o menor que la mediana es ½. Para calcularla se determinan las diferencias de los datos con respecto al valor dado de la mediana y se cuenta los signos positivos y negativos. Cuando la hipótesis alterna es "mayor que" y el número de diferencias positivas es mayor que las diferencias negativas entonces, el "p-value" se calcula por n c i i n P ) 2 1 ( 0 1            , donde c es el número de diferencias positivas y, n es igual al número de datos pero, si hay datos de valor igual a la mediana que se asume en la hipótesis nula entonces, n es igual al número de datos menos la cantidad de datos iguales a la mediana asumida, cuando el Edgar Acuña Capítulo 11 Pruebas Noparamétricas 280 número de diferencias positivas es menor que el número de diferencias negativas entonces el "p-value" es igual a n n c i i n P ) 2 1 ( 2            . Si la hipótesis alterna es "menor que", y el número de diferencias positivas es mayor que el número de diferencias negativas entonces "p-value"=P 2 en caso contrario "p- value"=P 1 . Cuando la hipótesis alterna es de dos lados y el número de diferencias positivas son mayores que el número de diferencias negativas entonces, el ”p-value"=2P 2 , si hay menor número de diferencias positivas entonces "p-value"=2P 1, y si hay igual número de diferencias positivas y negativas entonces, "p-value"=1.0. Si n>20 se puede usar aproximación Normal a una Binomial con p=q=.5, para calcular los "p-values". Es decir, n n X Z 5 . . 5 .   La aproximación mejora si incluímos el factor de corrección por continuidad igual a 1/2. En MINITAB, para hacer la prueba de los signos, se sigue la secuencia STAT Noparametrics 1-sample Sign. Ejemplo 11.1 Probar si los datos del tiempo de vida después del transplante del ejemplo 7.5 sugieren que la mediana sea distinta de 5. Solución: La hipótesis nula H o , es que la mediana del tiempo de sobrevivencia es igual a 5 años y, la hipótesis alterna H a , es que la mediana de los tiempos de sobrevivencia es distinta de 5 años. La ventana de diálogo se completará como se muestra en la figura 11.1. En la ventana session aparecerán los siguientes resultados: Sign Test for Median: tiempo Sign test of median = 5.000 versus not = 5.000 N Below Equal Above P Median tiempo 12 7 0 5 0.7744 3.700 I nterpretación: Como el "P-value" es mayor que .05 se aceptará la hipótesis nula. Es decir que la mediana del tiempo de vida después del transplante es 5.0. En este ejemplo el "P-value" es 2 veces la probabilidad de que una binomial con n=12 y p=.5 sea menor o igual que 5, ya que el número de diferencias positivas es menor que el de las negativas. Edgar Acuña Capítulo 11 Pruebas Noparamétricas 281 Si usamos aproximación normal a la binomial el P-value=2P(X5)=2P(Z< 12 5 . 6 5 . 5  )=2P(Z<-.2886)=2(.38864)=.77728. El valor aproximado está bastante cerca al valor exacto a pesar de que el tamaño de muestra es n=12 menor que 20. Figura 11.1. Ventana de diálogo para la prueba de signo del ejemplo 11.1 11.1.2 La Prueba de Rangos con signos de Wilcoxon Al igual que la prueba de los signos, es usada para hacer pruebas de hipótesis acerca de la mediana. La prueba estadística se basa en el estadístico de Wilcoxon (1945), el cual se calcula de la siguiente manera: i) Se resta de cada dato el valor de la mediana que se considera en la hipótesis nula. ii) Se calcula los rangos de las diferencias sin tomar en cuenta el signo de las mismas ( o sea en valor absoluto). En el caso de haber empate se asigna un rango promedio a todas las diferencias empatadas es decir; se les asigna el rango: (menor rango del grupo del empate + mayor rango del grupo del empate)/2. iii) Finalmente el estadístico W de Wilcoxon será la suma de los rangos correspondientes a las diferencias positivas. Cuando la hipótesis alterna es "mayor que" y la suma de los rangos correspondientes a las diferencias positivas es mayor que el de las diferencias negativas, entonces el "p-value" se calcula por P 1 =P(WW c ), donde W c es el valor calculado de la prueba de Wilcoxon. Cuando la suma de los rangos correspondientes a las diferencias Edgar Acuña Capítulo 11 Pruebas Noparamétricas 282 positivas es menor que el de las diferencias negativas, entonces el "p-value" se calcula por P 2 =P(WW c ). Si la hipótesis alterna es "menor que", y la suma de los rangos correspondientes a las diferencias positivas es mayor que el de las diferencias negativas, entonces "p- value"=P 2 . En caso contrario "p-value"=P 1 . Cuando la hipótesis alterna es de dos lados y la suma de los rangos correspondientes a las diferencias positivas es mayor que el de las diferencias negativas, entonces el ”p- value"=2P 2 , si la suma de los rangos correspondientes a las diferencias positivas es la menor entonces "p-value"=2P 1 y si las sumas de los rangos correpondientes a las diferencias positivas y negativas son iguales entonces "p-value"=1.0. Sea n, número de diferencias distintas de cero, es decir se está considerando que todos los valores de la muestra son distintos que el valor de la mediana que aparece en la hipótesis nula. Si n.16 entonces, los "p-values" se encuentran usando tablas de la distribucion del estadístico de Wilcoxon. Cuando n es mayor que 16, se usa aproximación Normal para hallar el "P-value" de la prueba pués, se puede mostrar que el estadístico de Wilcoxon se aproxima a una normal con media igual a n(n+1)/4, y varianza n(n+1)(2n+1)/24 , cuando no hay empates. Más especificamente, si no hay empates se tiene que: ) 1 , 0 ( ~ 24 ) 1 2 )( 1 ( 4 ) 1 ( N n n n n n W z      No hay que olvidarse de aplicar un factor de corrección por continuidad igual a 1/2, pues se está aproximando una distribución discreta por una contínua. Si hubieran empates entonces, la varianza sufre una ligera moddificación.y se aplica: ) 1 , 0 ( ~ 2 24 ) 1 2 )( 1 ( 4 ) 1 ( 1 3 N t t n n n n n W z g i i i          donde, g es el número de grupos empatados y t i es el tamaño del i-ésimo grupo empatado. En MINITAB, para hacer la prueba de Wilcoxon se sigue la secuencia STAT Noparametrics 1-Sample Wilcoxon. Ejemplo 11.2. Aplicar la prueba de Wilcoxon a los datos del ejemplo anterior. Solución: La ventana de diálogo se completará como se muestra en la figura 11.2 Los resultados en la ventana session serán: Edgar Acuña Capítulo 11 Pruebas Noparamétricas 283 Wilcoxon Signed Rank CI: tiempo Confidence Estimated Achieved Interval N Median Confidence Lower Upper tiempo 12 4.63 94.5 1.85 7.30 Figura 11.2 . La ventana de diálogo para la prueba de Wilcoxon del ejemplo 11.2 I nterpretación: Como el “P-value”=.906 es mayor que .05 no se rechaza la hipótesis nula. Es decir, hay suficiente evidencia estadística para concluir que la mediana de los tiempos de vida es 5.0. La media del estadístico de Wilcoxon es 39 y su varianza es 162.5. Como la hipótesis alterna es de dos lados entonces, el "P-value" es dos veces la probabilidad de que W37. Usando aproximación normal para calcular el “P-value”, después de aplicar el factor de correción por continuidad y estandarizar, resulta que el “P-value”=2P(Z<- 1.5/12.7475)=2(0.4532)=0.9064. 11.2 Pruebas Noparamétricas para muestras pareadas. La prueba de los signos y la prueba de Wilcoxon se pueden usar también como una prueba alterna a la prueba de t para comparaciones pareadas. En este caso se aplica la Edgar Acuña Capítulo 11 Pruebas Noparamétricas 284 prueba noparamétrica a las diferencias entre los dos grupos. En el siguiente ejemplo se ilustra la prueba de Wilcoxon para comparar dos muestras pareadas. Ejemplo 11.3. Se desea probar si el rendimiento en la prueba de aprovechamiento matemático es mejor que en la prueba de aptitud matemática. Para ello se toma una muestra de los resultados de 40 estudiantes: Row aprovech aptitud diferenc 1 658 598 60 2 562 623 -61 3 679 587 92 4 731 644 87 5 710 630 80 6 631 616 15 7 663 682 -19 8 654 598 56 9 565 673 -108 10 654 567 87 11 669 694 -25 12 710 647 63 13 720 674 46 14 700 609 91 15 657 644 13 16 721 720 1 17 795 673 122 18 635 673 -38 19 617 694 -77 20 580 619 -39 21 638 651 -13 22 642 688 -46 23 704 661 43 24 767 674 93 25 641 660 -19 26 721 705 16 27 625 643 -18 28 694 780 -86 29 615 619 -4 30 617 609 8 31 623 457 166 32 689 662 27 33 689 641 48 34 683 717 -34 35 702 624 78 36 694 630 64 37 729 664 65 38 710 598 112 39 689 673 16 40 741 636 105 Wilcoxon Signed Rank Test: diferenc Test of median = 0.000000 versus median > 0.000000 N for Wilcoxon Estimated N Test Statistic P Median diferenc 40 40 591.0 0.008 27.75 Edgar Acuña Capítulo 11 Pruebas Noparamétricas 285 I nterpretación: Como el "P-value" es menor que .05, se rechaza la hipótesis nula y se concluye que hay evidencia estadística de que el rendimiento en aprovechamiento es mejor que en aptitud. 11.3. La prueba de Mann-Withney para dos muestras independientes Se usa cuando se quiere comparar dos poblaciones usando muestras independientes, es decir; es una prueba alterna a la prueba de t para comparar dos medias usando muestras independientes. También es conocida como la prueba de suma de rangos de Wilcoxon. La hipótesis nula es que la mediana de las dos poblaciones son iguales y la hipótesis alterna puede ser que la mediana de la población 1 sea mayor ( menor ó distinta) de la mediana de la población 2. Consideremos que se ha tomado una muestra de tamaño n 1 de la población 1 y de tamaño n 2 de la población 2. Para calcular la prueba estadística se combinan las dos muestras tomadas en una sola y se calculan los rangos en orden ascendente, en caso de datos empatados se asigna un rango promedio a ellos. Luego el estadístico W es igual a la suma de los rangos correspondientes a la muestra tomada de la población 1. Existen tablas para calcular los “p-values” de la prueba estadística. Cuando tanto n 1 como n 2 sean mayores que 10, se puede demostrar que si no hay empates, entonces W se distribuye aproximadamente como una normal con media n 1 (n 1 +n 2 +1)/2 y varianza n 1 n 2 (n 1 +n 2 +1)/12. Es decir; cuando no hay empates: ) 1 , 0 ( ~ 12 ) 1 ( 2 ) 1 ( 2 1 2 1 2 1 1 N n n n n n n n W z       No hay que olvidarse de aplicar un factor de corrección por continuidad igual a 1/2, pués se está aproximando una distribución discreta por una continua. Cuando hay empates entonces, la varianza es modificada.y se obtiene: ) 1 , 0 ( ~ ) 1 )( ( 1 [ 12 2 ) 1 ( 1 2 1 2 1 3 2 1 2 1 2 1 1 N n n n n t t n n n n n n n W z g i i i              donde, g y t i tienen el mismo significado dado anteriormente. En MINITAB, para hacer la prueba de Mann-Withney, se sigue la secuencia STAT Noparametrics Mann-Withney. Edgar Acuña Capítulo 11 Pruebas Noparamétricas 286 Ejemplo 11.4. Usando los datos del ejemplo 7.11 probar si el rendimiento en la prueba de aprovechamiento matemático de los estudiantes de escuela pública y privada es el mismo. Los datos son como siguen: privada pública 642 580 767 638 641 704 721 694 625 615 689 617 623 689 Solución: La ventana de diálogo se completará así: Figura 11.3. Ventana de diálogo para la prueba de Mann-Whitney del ejemplo 11.4 La ventana session mostrará los siguientes resultados: Mann-Whitney Test and CI: privada, pública N Median privada 6 665.5 pública 8 630.5 Point estimate for ETA1-ETA2 is 26.5 95.5 Percent CI for ETA1-ETA2 is (-47.0,104.0) W = 56.5 Test of ETA1 = ETA2 vs ETA1 not = ETA2 is significant at 0.1556 The test is significant at 0.1551 (adjusted for ties) Edgar Acuña Capítulo 11 Pruebas Noparamétricas 287 I nterpretación: Como el "P-value" 0.1551 (ajustado por empates), es mayor que 0.05 se acepta hipótesis nula. Es decir; que hay evidencia estadística para concluir que el rendimiento en aprovechamiento matemático es el mismo para estudiantes de escuela pública y privada. 11.4 La prueba de Kruskal-Wallis para comparar más de dos grupos La prueba de Kruskal-Wallis, es una alternativa a la prueba F del análisis de varianza para diseños de clasificación simple. En este caso se comparan varios grupos pero usando la mediana de cada uno de ellos, en lugar de las medias. Es decir, la hipótesis nula es Ho: La mediana de las k poblaciones consideradas son iguales, y la alterna Ha: Al menos una de las poblaciones tiene mediana distinta a las otras. La prueba estadística, denotada por H, se calcula hallando primero los rangos de cada una de los k grupos pero, considerando que se ha combinado todos los grupos en uno sólo. En caso de haber datos empatados se asigna un rango promedio a cada dato del grupo empatado. Sea R k la suma de los rangos del grupo k, el estadístico de Kruskal-Wallis necesario para hacer la prueba estadística se calcula por. ) 1 ( 3 ) 1 ( 12 1 2       n n R n n H k i i i donde, n es el total de datos. Si hay empates en los datos entonces, se aplica la siguiente modificación a H. n n t t H H g i i i       3 1 3 1 ' Se puede mostrar que si los tamaños de cada grupo son mayores que 5 entonces, H se distribuye como una Chi-Cuadrado con, k-1 grados de libertad. Luego, la hipótesis nula se rechaza si 2 1 , 1      k H . Para hacer la prueba de Kruskal-Wallis en MINITAB, los datos de la variable cuantitativa deben ir en una columna y los niveles del factor en otra. No se permite en este caso entrar los grupos en columnas separadas. Ejemplo 11.5. Usar la prueba de Kruskal-Wallis para comparar los métodos de enseñanza del ejemplo 10.1 Solución: Edgar Acuña Capítulo 11 Pruebas Noparamétricas 288 La hipótesis nula es Ho: Las medianas de los tres métodos de enseñanza son iguales y la hipótesis alterna es Ha: Al menos uno de los métodos de enseñanza tiene mediana distinta a los otros. La ventana de diálogo se completará así: Figura 11.4 Ventana de diálogo para la prueba de Kruskal-Wallis del ejemplo 11.5 En la ventana session se obtendrá: Kruskal-Wallis Test: notas versus método Kruskal-Wallis Test on notas método N Median Ave Rank Z 1 6 61.50 5.4 -2.29 2 7 85.00 13.8 2.72 3 5 74.00 8.4 -0.54 Overall 18 9.5 H = 8.23 DF = 2 P = 0.016 H = 8.25 DF = 2 P = 0.016 (adjusted for ties) I nterpretación: Como el “P-value” es 0.016 menor que .05, se rechaza la hipótesis nula y se concluye que los métodos no son todos iguales. Es decir; al menos uno de los métodos tiene mediana distinta a los otros. Edgar Acuña Capítulo 11 Pruebas Noparamétricas 289 11.5. El Coeficiente de Correlación de Spearman. La correlación de Spearman mide el grado de asociación entre dos variables cuantitativas que siguen una tendencia siempre creciente o siempre decreciente. Es decir, es más general que el Coeficiente de correlación de Pearson, el cual asume que la relación entre las dos variables solamente es lineal, la correlación de Spearman, en cambio se puede calcular para relaciones exponenciales o logaritmicas entre las variables. El coeficiente de correlación de Spearman es simplemente la correlación de Pearson entre los rangos del los valores de las dos variables. Para hallar los ordenamientos, se usa la opción Rank del menú Calc. Los ordenamientos se guardan en otras columnas y, luego se halla simplemente el coeficiente de correlación usual entre éstas dos columnas usando la opción correlación del submenú Basic Statistics del menú STAT. Ejemplo 11.6. Calcular el coeficiente de Correlación de Spearman y compararlo con el coeficiente de correlación de Pearson para los siguientes datos: Años como Realtor (X) 3 4 6 7 8 12 15 20 22 26 Casas Vendidas(Y) 9 12 16 19 23 119 34 37 40 45 Solución: Ordenando los datos de cada variable se obtiene: rankx 1 2 3 4 5 6 7 8 9 10 ranky 1 2 3 4 5 10 6 7 8 9 La correlación de Spearman de las variables X e Y será igual a la correlación de Pearson entre las variables rankx y ranky dando un valor de 0.879 lo que indica una alta asociación entre las variables. Sin embargo; la correlación de Pearson entre las variables X e Y da solamente 0.371, lo que indica una baja asociación lineal entre las variables. Notar que el "outlier" 119 ha afectado grandemente al coeficiente de correlación de Pearson, pero no ha tenido efecto sobre la correlación de Spearman. MINITAB también incluye en el menú de Pruebas Noparamétricas a la Prueba de Friedman para análisis de diseños en bloques al azar y la prueba de Mood. Edgar Acuña Capítulo 11 Pruebas Noparamétricas 290 EJERCICIOS 1. En un hospital oncológico se llevan estadisticas acerca del tiempo de supervivencia de pacientes de cáncer Los resultados en una muestra aleatoria de 25 pacientes fueron los siguientes. 42 45 51 46 340 81 246 63 155 151 37 138 245 377 455 365 776 163 20 1234 201 2970 456 1235 1581 Usar una prueba noparamétrica para probar que la mediana del tiempo de supervivencia de pacientes de cáncer, es mayor de 300 dias. Escribir las hipótesis y comentar sus resultados. 2. Se eligen al azar 10 empleados de una empresa y se anotan sus sueldos mensuales (en dólares 1500 1250 900 800 1450 990 1200 1900 1300 1050 Usando un nivel de significación del 10% ¿se podrá concluir que el sueldo mediana excede a 1200? 3. El tiempo de producción (en horas) de un artículo de 15 máquinas elegidas al azar en una gran planta de fabricación son: 5.80 6.06 5.90 5.92 5.68 6.27 6.08 6.15 5.93 5.96 5.88 5.63 6.00 5.96 5.70 A un nivel de significación de 0.05: a) Probar si la mediana del tiempo requerido difiere de 5.8 b) Probar si la mediana es mayor a 5.8 4. Las notas de una evaluación hecha a 40 estudiantes elegidos al azar son: 78 75 52 65 68 75 52 62 73 75 77 70 50 72 66 62 77 76 74 75 68 71 70 66 68 66 67 85 82 66 72 65 71 77 67 82 65 69 82 87 a) Probar si la mediana de las notas difiere de 70. Usar  = 0.05 b) Probar si la mediana de las notas es menor de 70. Usar  = 0.05 5. La efectividad de Bezendrine en acelerar el rítmo cardíaco (medido en pulsaciones por minuto), fue cotejado en 10 pacientes elegidos al azar. Cada paciente sirvió como su propio control con la mitad de los pacientes asignados al recibir Bezendrine durante el primer período de estudio y, la otra mitad a recibir un Placebo(solución alcalina). Todos los pacientes fueron examinados para determinar su rítmo cardiaco, 2 horas después de recibir el medicamento. Después de dos semanas donde no se les dio ninguna medicina a los pacientes que habían recibido el Placebo se les dio Bezendrine, y a la otra mitad el Placebo. Los resultados son como siguen: Paciente Placebo Bezendrine 1 250 258 Edgar Acuña Capítulo 11 Pruebas Noparamétricas 291 2 271 285 3 243 245 4 252 250 5 266 268 6 272 278 7 293 280 8 296 305 9 301 319 10 298 308 Usar una prueba no paramétrica para probar la efectividad del Bezendrine. Escribir las hipótesis correspondientes. Comparar su resultado con el de la prueba T 6. Se está estudiando la efectividad de un nuevo medicamento para reducir la presión arterial Sistólica, el medicamento fue suministrado a 20 pacientes . Se les ha medido la presión arterial, antes y dos horas después de suministrarles el medicamento. Los datos se presentan en la siguiente tabla: Sujeto pre. Inic Pre. Post sujeto pre. Inic pre. Post 1 102 103 11 118 114 2 142 140 12 144 139 3 185 182 13 136 137 4 110 108 14 130 126 5 143 140 15 121 125 6 131 129 16 151 150 7 115 111 17 137 135 8 124 126 18 142 136 9 150 145 19 120 117 10 108 108 20 153 149 A un nivel se significación del 1%, probar si hay evidencia suficiente para afirmar que el medicamento es efectivo. 7. Se desea comparar la eficacia de dos compuestos en la producción de glucosa en la sangre, para tratar a personas que padecen de Hipoglicemia, para tal propósito se seleccionaron al azar 7 ratones, los resultados del estudio se presentan en la siguiente tabla: Ratón Comp 1 Comp 2 1 4.6 5 2 5.3 5.2 3 3.8 3.5 4 7.2 6.3 5 8.4 8.6 6 4.8 4.2 7 3.5 4.4 ¿A qué conclusión llegará usando un nivel de significación del 5 por ciento? Edgar Acuña Capítulo 11 Pruebas Noparamétricas 292 8. El presidente de una empresa piensa que el número de ausencias injustificadas para el personal gerencial es menor que la de los obreros. Para esto se eligen al azar 7 gerentes y 10 obreros, y se registran sus ausencias injustificadas durante un año. Gerentes: 20 14 19 22 25 30 17 Obreros: 37 29 51 18 40 26 41 24 19 28 a) Probar la hipótesis usando una prueba noparametrica. ¿A qué conclusión llega? b) Probar la hipótesis usando una prueba de t. ¿A qué conclusión llega? ¿Cómo se comparan los P-values? 9. Se seleccionaron al azar ministros de 3 religiones: 8 metodistas, 10 católicos y 9 pentecostales y se desea probar si poseen el mismo conocimiento sobre enfermedades mentales. Los resultados de un test para medir sus conocimientos son los siguientes Metodista Católico Pentecostal 32 32 28 30 32 21 30 26 15 29 26 15 26 22 14 23 20 14 18 14 09 19 16 11 14 08 15 Escribir la hipótesis correspondiente y usar una prueba noparamétrica para probarla. Analizar sus resultados y compararlo con la prueba F del análisis de varianza. 10. El peso (en libras), y estatura (en pulgadas) de 15 jóvenes se muestra en la siguiente tabla. Calcule el coeficiente de correlación de Spearman y compararlo con el coeficiente de correlación de Pearson. estatura Peso 4.8 115.3 4.9 124.9 5.1 123.8 5.2 137.2 5.3 138.3 4.8 113.1 5.2 137.9 4.8 101.2 5.4 131.9 4.8 102.7 4.9 115.0 5.3 130.5 5.2 108.0 Documents Similar To Estadistica con Mitab.pdfSkip carouselcarousel previouscarousel nextOrganización y Presentación de Datos EjerciciosUnidad 1- Análisis Estadístico de datos PPT1.pptxUNIEST21II_I_Estadistica_3.1_Introduccion.docxEstadistica I. UNEESTADISTICAACTIVIDAD 12 Taller Estadistica (1)CO-3321 Estadistica Descriptiva Guía del prof Romulo Mayorca y Giselle Alvarez.pdfESTADISTICA1Introduccion EstadisticaUnidad I MejoradoTRABAJO DE ESTADISTICA.docxESTADISTICA IPN ESIME TICOMANProbabilidad y EstadisticaEB_U2_EA_ccintervalosdeclaseestadstica-130715121115-phpapp02.pptxanalisisdepareto-111107134730-phpapp02Estadística y Matemáticas AdministrativasESTADÍSTICA DESCRIPTIVADistribución de FrecuenciasExperiencias de Aprendizaje (Parte 2)Taller de Estadistica 2017 rTABLA DISTRIBUCION DE FRECUENCIASRES341_S1_F_Procesos de investigaci+¦n_ULA_Actualizada-20171. Descriptiva, Tablas y GraficosDistribucion de Frecuencias Parte 1Guia de EstadisticaEsta Di SticaAplicaciones Organizacion de DatosPráctica de MatemáticaEstadísticaMore From Jesus EscobarSkip carouselcarousel previouscarousel nextTomo ICTomo IALibro TDE TEXO pp sap.docxWORD SPA CO 11Contabilidad SAP ERP TERD.docxContabilidad SAP ERP TERD.docxzmmajustelibro de MPRF SAP.docxLibro 78Libro TDE TEXO pp sap.docxTomo IBLibro DEFLibro de MPRF SAPTESIS LISTASzmmajuste_inventario.docLibro 1Libro 223001E86Libro 65Libro 90Fundamento Tecnico(015) It-mm-mi01-01 Crear Documento de Inventario Rev 2Libro 78Libro 4.docxInstructivo_para_la_elaboracion_PTF_y_TF_-_Abril_2015.pdfInstructivo Para La Elaboracion PTF y TF UCVMM MI05 Modificar Recuento de InventarioLibro de Mi05 SAPTabla de verbos para redactar objetivos Tesis Cocos Sex SigmaFooter MenuBack To TopAboutAbout ScribdPressOur blogJoin our team!Contact UsJoin todayInvite FriendsGiftsLegalTermsPrivacyCopyrightSupportHelp / FAQAccessibilityPurchase helpAdChoicesPublishersSocial MediaCopyright © 2018 Scribd Inc. .Browse Books.Site Directory.Site Language: English中文EspañolالعربيةPortuguês日本語DeutschFrançaisTurkceРусский языкTiếng việtJęzyk polskiBahasa indonesiaYou're Reading a Free PreviewDownloadClose DialogAre you sure?This action might not be possible to undo. Are you sure you want to continue?CANCELOK
Copyright © 2024 DOKUMEN.SITE Inc.