Manual+de+Estadística+2014.docx

MANUAL PARA EL ALUMNODE PROBABILIDAD Y ESTADÍSTICA Manual de Probabilidad y Estadística CBTA No. 33 INTRODUCCIÓN El presente manual es una recopilación de varios autores y sitios de internet que ofrecen información con respecto al estudio de la estadística y la probabilidad, se pretende que sea una herramienta que facilite el trabajo tuyo como alumno y del maestro, por supuesto, ya que contiene información sobre conceptos que en esta asignatura estaremos abordando y además una serie de ejercicios que tendrás que ir resolviendo para reforzar los conocimientos, con el propósito de que al finalizar el curso puedas tener la competencia y el dominio de los temas vistos. Es importante que el este materia lo tengas a la mano todos los días que marca el horario de clases para que no te quedes sin realizar las actividades que se realicen cada día en la clase así como contar con una calculadora tipo científica para que te apoyes a realizar los ejercicios, ya que los dos elementos son indispensables para tu avance académico. El manual está distribuido por unidades, en la primera de ellas analizaremos algunos aspectos relacionados con la historia y sus principales exponentes o descubridores de importantes aportaciones a las matemáticas, específicamente la estadística, también analizaremos algunos conceptos relacionados con la asignatura, todo lo referente a las variables redondeo de datos y notación sumatoria. Para la segunda unidad se estarán considerando los temas como la distribución de frecuencias desde la toma de datos hasta la representación de estos datos mediante gráficas. En la tercera unidad se abordarán temas relacionados con las medidas de tendencia central como los promedios, la media, la mediana, la moda, entre otras. La cuarta unidad está conformada por temas relacionados con las medidas de dispersión como la dispersión, el rango, desviación media, entre otras y por ultimo en la unidad número cinco se abordaran los temas que tienen que ver con la probabilidad como lo es los antecedentes, conceptualización, análisis de funciones y rapidez, probabilidad axiomática y probabilidad para eventos. Deseo que el curso se torne interesante una vez que arranquemos y que puedas demostrar tus habilidades matemáticas y de desempeño para llevar a cabo cada una de las actividades que el manual tiene y que el maestro te señale que debes realizar, así como los ejercicios que cuentan para la calificación o también llamados exámenes. A continuación te muestro algunos acercamientos al estudio de la estadística: Como dijera Huntsberger: "La palabra estadística a menudo nos trae a la mente imágenes de números apilados en grandes arreglos y tablas, de volúmenes de cifras relativas a ME. Gonzalo Joel Bautista Lara 2 Manual de Probabilidad y Estadística CBTA No. 33 nacimientos, muertes, impuestos, poblaciones, ingresos, deudas, créditos y así sucesivamente. Huntsberger tiene razón pues al instante de escuchar esta palabra estas son las imágenes que llegan a nuestra cabeza. La Estadística es mucho más que sólo números apilados y gráficas bonitas. Es una ciencia con tanta antigüedad como la escritura, y es por sí misma auxiliar de todas las demás ciencias. Los mercados, la medicina, la ingeniería, los gobiernos, etc. Se nombran entre los más destacados clientes de ésta. La ausencia de ésta conllevaría a un caos generalizado, dejando a los administradores y ejecutivos sin información vital a la hora de tomar decisiones en tiempos de incertidumbre. Los estudiantes confunden comúnmente los demás términos asociados con las Estadísticas, una confusión que es conveniente aclarar debido a que esta palabra tiene tres significados: la palabra estadística, en primer término se usa para referirse a la información estadística; también se utiliza para referirse al conjunto de técnicas y métodos que se utilizan para analizar la información estadística; y el término estadístico, en singular y en masculino, se refiere a una medida derivada de una muestra. Se pretende que tú como alumno de V semestre desarrolles durante el semestre con los temas que abordaremos, las siguientes competencias disciplinares: 1. Construye e interpreta modelos matemáticos deterministas o aleatorios mediante la aplicación de procedimientos aritméticos, algebraicos, geométricos y variacionales, para la comprensión y análisis de situaciones reales o formales. 2. Propone, formula, define y resuelve diferentes tipos de problemas matemáticos buscando diferentes enfoques. 3. Propone explicaciones de los resultados obtenidos mediante procedimientos matemáticos y los contrasta con modelos establecidos o situaciones reales. 4. Argumenta la solución obtenida de un problema, con métodos numéricos, gráficos, analíticos y variacionales, mediante el lenguaje verbal y matemático. 5. Analiza las relaciones entre dos o más variables de un proceso social o natural para determinar o estimar su comportamiento. 6. Cuantifica, representa y contrasta experimental o matemáticamente magnitudes del espacio que lo rodea. 7. Elige un enfoque determinista o uno aleatorio para el estudio un proceso o fenómeno, y argumenta su pertinencia. ME. Gonzalo Joel Bautista Lara 3 Manual de Probabilidad y Estadística CBTA No. 33 8. Interpreta tablas, gráficas, mapas, diagramas y textos con símbolos matemáticos y científicos. Definición: Las competencias disciplinares se refieren a las nociones de cada campo disciplinar que se consideran necesarias para que los estudiantes se desarrollen en diferentes contextos a lo largo de la vida. http://www.dgeta.edu.mx/riems/index.php? option=com_content&view=article&id=54&Itemid=66 ) ME. Gonzalo Joel Bautista Lara 4 Manual de Probabilidad y Estadística CBTA No. 33 Contenido INTRODUCCIÓN............................................................................................................... 2 UNIDAD I.......................................................................................................................... 7 Historia y conceptualización de la estadística.........................................................................7 1.1. Historia y usos de la estadística hasta nuestros tiempos.......................................7 1.2.- Conceptualización y elementos básicos................................................................15 1.3. Redondeo de Datos............................................................................................... 22 1.4. Cifras Significativas........................................................................................... 25 1.5. Cálculos............................................................................................................ 26 UNIDAD No. II................................................................................................................. 31 Distribución de frecuencias................................................................................................ 31 a) Paso uno: Toma de los datos................................................................................ 31 b) Paso dos: Ordenación de los datos........................................................................32 d) Paso cuatro: Determinar el Rango del conjunto de datos........................................33 e) Paso cinco: Calcular el número de intervalos de Clase............................................34 f) Paso seis: Determinar el ancho de clase................................................................34 g) Paso siete: Calcular el punto medio o marca de clase.............................................35 h) Paso ocho: El Límite real de cada clase, tanto el inferior como el superior...............35 i) Paso nueve: Frecuencia relativa............................................................................36 j) Paso diez: Frecuencia absoluta acumulada ascendente..........................................36 k) Paso once: Frecuencia absoluta acumulada descendente.......................................37 l) Paso doce: Representación gráfica de los datos.....................................................37 I. Histograma............................................................................................................ 37 II. Gráfica de barras.................................................................................................... 39 III. Polígono de frecuencias........................................................................................ 39 IV. Gráfica de pastel o circular.................................................................................... 40 V. Pictograma o gráfica de imágenes.............................................................................40 UNIDAD III...................................................................................................................... 47 Medidas de tendencia central............................................................................................. 47 3.1. Promedios............................................................................................................. 47 La Media ( X )............................................................................................................. 47 3.2. Medias de tendencia central para Datos no Agrupados.................................................47 La Mediana ( X ) (Me)............................................................................................... 48 ME. Gonzalo Joel Bautista Lara 5 Manual de Probabilidad y Estadística CBTA No. 33 ^ La Moda( X ) (Mo)...................................................................................................... 49 3.3. Medidas de tendencia central para datos agrupados....................................................55 Cuartiles, Deciles y Percentiles:................................................................................... 70 Regresión Lineal......................................................................................................... 72 UNIDAD IV...................................................................................................................... 74 Medidas de Dispersión...................................................................................................... 74 DISPERSIÓN ABSOLUTA:............................................................................................. 76 DISPERSIÓN RELATIVA:............................................................................................... 76 Desviación Media....................................................................................................... 79 Rango Intercuartil...................................................................................................... 82 UNIDAD V....................................................................................................................... 89 Probabilidad.................................................................................................................... 89 Conceptos básicos........................................................................................................ 89 Modelos matemáticos.................................................................................................... 90 Permutaciones y combinaciones..................................................................................... 91 Diagrama de árbol........................................................................................................ 91 Bibliografía...................................................................................................................... 98 ME. Gonzalo Joel Bautista Lara 6 Manual de Probabilidad y Estadística CBTA No. 33 UNIDAD I Historia y conceptualización de la estadística 1.1. Historia y usos de la estadística hasta nuestros tiempos. Conocer los aspectos históricos de esta área del conocimiento es fundamental para entender muchos de los fenómenos actuales y a tener explicaciones más claras de cómo nuestros ancestros podían predecir acontecimientos sin el avance de la tecnología que tenemos en la actualidad y sin el conocimiento científico de los fenómenos sociales y naturales que se presentaban. Por lo anterior en necesario que pongamos atención en los pasajes de nuestra historia donde se hizo y se pudo hacer presente el estudio de la estadística y la probabilidad y la forma en que resolvían a aplicaban el conocimiento de esta ciencia en la resolución de problemas. Los antecedentes de la probabilidad y la estadística se remontan hasta las primeras civilizaciones. Es posible que una de las primeras aplicaciones fuera cuando en las primeras civilizaciones empezaron a ver que el número de sus habitantes era cada vez mayor, requiriéndose entonces hacer un conteo de los habitantes y sus bienes; o bien que tal los cálculos que hacía un combatiente guerrero en cuanto a cuánta gente tenía y la que necesitaba para derrotar al enemigo. Cuando el hombre tuvo que hacerse sedentario, entonces también tuvo la necesidad de producir alimento y almacenarlo para su subsistencia. Ahora analizaremos algunos hallazgos históricos reveladores que para el año 7000 a.C., en la CD. de Jericó, la ciudad más antigua del mundo ya se contaba con una organización bien estructurada en cuanto al número de habitantes, la superficie en la que se situaba y a las actividades a las que se dedicaban sus habitantes. Esta ciudad milenaria ubicada al norte de Jerusalén, se extendía por el valle del rio Nilo, muy religiosos sus habitantes, establecieron el calendario de los 365 días. Conocieron y manejaron el ciclo agrícola, la irrigación así como la producción, almacenamiento y comercialización de productos agrícolas. Existieron ahí también grandes astrónomos y constructores de templos y pirámides espectaculares. En el Papiro de Rhind, uno de los documentos más antiguos que se conoce y que data del año 1650 a.C., se observan problemas matemáticos y el gran conocimiento que tenían de un sistema de numeración vigesimal. ME. Gonzalo Joel Bautista Lara 7 Manual de Probabilidad y Estadística CBTA No. 33 Otras grandes aportaciones de la civilización antigua es que aplicaban sus observaciones al control e interpretación de los fenómenos naturales, buscando siempre el mejoramiento de la vida de sus habitantes. Por ejemplo ellos debían saber cuánta producción agrícola necesitaban para comercializar con su gente y cuanta deberían de almacenar así como sus respectivos pronósticos en los excedentes y de paso aplicaban algunos conocimientos empíricamente de probabilidad. Los censos de población se conocen desde épocas muy remotas al igual que el pago de los impuestos. Además existen algunos datos en la biblia que antes del año 1657 a.C., se hizo el acopio de animales, como el caso del Arca de Noe; el pago del 20% de los impuestos sobre la producción de la tierra en Egipto; o bien el recuento de hombres mayores de 20 años de las tribus de Israel a la salida de Egipto, antes del año 1473 a.C., haciendo un total de 603550 personas. En Babilonia los escribas testimonio, lo mismo de contratos de compra – venta de terrenos en el siglo XIV a. C. que de inventarios de lo conquistado en una ciudad después de la batalla. En las antiguas ciudades de Egipto y Grecia, se utilizaba la estadística para conocer el número de habitantes de un lugar, el recuento de propiedades, el registro de volúmenes de producción, un padrón para el cobro de impuestos. Otro ejemplo era en Roma al igual que Grecia, conocían y aplicaban la estadística para controlar el pago de los tributos de los pueblos sometidos por ellos. En América, allá por los años 2500 a. C., la agricultura donde las condiciones la permitían, se sometía a una observación de la naturaleza y las experiencias para determinar el conocimiento de las causas y efectos en la práctica de la agricultura, como principal fuente de alimentación de los pueblos del continente. Los aztecas utilizaban el sistema numérico vigesimal, el calendario lo dividieron en 18 meses de 20 días cada uno a lo que añadían 5 días en forma intercalada. A su vez el mes lo dividieron en 4 semanas con 5 días. Agregaban 12 días y medio a cada ciclo de 52 años, por lo que fue el calendario más exacto, al considerar el de la duración de 365 días y 6 horas. Los aztecas coincidieron en la periodicidad de los solsticios y equinoccios.(Chávez Escalante, 2001) Para los mayas manejaban los códices llamados Popol Vuh o el Chilam Balam que atestiguan tradiciones, descripciones de ritos, leyendas y concepciones tecnológicas que se manifestaban en ese tiempo. Tenían un sistema de numeración superior a la de los griegos y los romanos, que utilizaban el cero; su calendario era más preciso que el gregoriano; en ME. Gonzalo Joel Bautista Lara 8 Manual de Probabilidad y Estadística CBTA No. 33 astronomía conocían el movimiento revolucionario de los planetas, llegando a predecir los eclipses. Entre los sacerdotes mayas se encontraban los Chilam, que tenían la tarea de predecir y adivinar acontecimientos, así como la curación de los enfermos y la interpretación de los oráculos de los dioses. Ejemplos de sitios arqueológicos en américa que aún conservan templos, pirámides y centros ceremoniales con trazos precisos de sus ciudades son Teotihuacán, Chichén Itzá, Monte Albán, etc. (Chávez Escalante, 2001) Así pues la estadística era considerada como la exposición sistemática y ordenada de las características más notables de un estado; se relacionaban con la recolección y análisis de datos relativos a la población y riquezas para fines de guerra o finanzas. (Chávez Escalante, 2001) Su evolución es generada por los ingleses desde el siglo XVII, con personajes como Cöning (1600 – 1681), quien fuera el fundador de la estadística universitaria, John Graunt (1620 – 1676), llamado también el aritmético político, calcula la población de Londres y otras ciudades europeas mediante la utilización de demográficos. Seguidores de Graunt lograron que la estadística fuera una de las ramas de las matemáticas dedicada a investigar fenómenos colectivos. Para el año 1532 empezaron a registrarse en Inglaterra las defunciones debido al temor que Enrique VII tenía por la peste. Más o menos por la misma época, en Francia la ley exigió a los clérigos registrar los bautismos, fallecimientos y matrimonios. Durante un brote de peste que apareció a fines de la década de 1500, el gobierno inglés comenzó a publicar estadísticas semanales de los decesos. Esa costumbre continuó muchos años, y en 1632 estos Bills of Mortality (Cuentas de Mortalidad) contenían los nacimientos y fallecimientos por sexo. En 1662, el capitán John Graunt usó documentos que abarcaban treinta años y efectuó predicciones sobre el número de personas que morirían de varias enfermedades y sobre las proporciones de nacimientos de varones y mujeres que cabría esperar. El trabajo de Graunt, condensado en su ME. Gonzalo Joel Bautista Lara 9 Manual de Probabilidad y Estadística CBTA No. 33 obra Natural and PoliticalObservationsMadeupontheBills of Mortality (Observaciones Políticas y Naturales. Hechas a partir de las Cuentas de Mortalidad), fue un esfuerzo innovador en el análisis estadístico. (Ruíz Muñoz, sa) Por el año 1540 el alemán Sebastián Muster realizó una compilación estadística de los recursos nacionales, comprensiva de datos sobre organización política, instrucciones sociales, comercio y poderío militar. Durante el siglo XVII aportó indicaciones más concretas de métodos de observación y análisis cuantitativo y amplió los campos de la inferencia y la teoría Estadística. (Ruíz Muñoz, sa) En 1730 De Moivre desarrollo la ecuación de la curva de distribución normal. Pierre Simon Laplace y Karl Friedich Gauss realizaron también importantes aportaciones sobre el cálculo de probabilidades y los aplicaron a la astronomía. En el siglo XIX se presentaron algunos personajes que dejaron importantes aportaciones al estudio de la estadística y la probabilidad, de los cuales se hace mención de algunos de ellos: Adolfo Quetelet (1796 – 1874) aplicó la estadística a problemas sociales y educativos y se le atribuye el que desarrolló la teoría estadística a todos los campos de observación. Por otro lado Francis Galton contribuyó notablemente en estudios de la herencia, eugenesia y antropometría. A él se le atribuyen los conocimientos de la correlación. Junto con Karl Pearson desarrollaron fórmulas de correlación y regresión que actualmente se siguen utilizando. A finales de este siglo XIX en estados Unidos se aplica la estadística en los planes de estudio de las universidades mediante los métodos estadísticos aplicados a psicología y educación. Otros que aportaron teoremas a la probabilidad en campos como la biología, física y estadística, fueron William Feller y AdreiNikolaevich. Por ultimo en el siglo XX, John Von Newman aplicó la teoría de las computadoras, integrando un analizador matemático al ordenador, conocido como MANIAC, en 1952; y para finales del este siglo ya casi en los comienzos del actual los procesos de estadística y probabilidad se han convertido en disciplinas de primordial importancia, que se conjugan y se fortalecen para aplicar los métodos y toma de decisiones apropiadas en todos los campos científicos. Datos históricos de la estadística Sumerios y Asirios utilizaban un hueso extraído del talón de animales como ovejas, ciervos o caballos, denominado astrágalo o talus, que tallaban para que pudieran caer en cuatro posiciones distintas, por lo que son considerados como los precursores de los dados. ME. Gonzalo Joel Bautista Lara 10 Manual de Probabilidad y Estadística CBTA No. 33  En el caso de la civilización egipcia, algunas pinturas encontradas en las tumbas de los faraones muestran tanto astrágalos como tableros para el registro de los resultados.  Por su parte, los juegos con dados se practicaron ininterrumpidamente desde los tiempos del Imperio Romano hasta el Renacimiento, aunque no se conoce apenas las reglas con las que jugaban. Uno de estos juegos, denominado "hazard", palabra que en inglés y francés significa riesgo o peligro, fue introducido en Europa con la Tercera Cruzada. Las raíces etimológicas del término provienen de la palabra árabe "al-azar", que significa "dado". Posteriormente, en el "Purgatorio" de Dante el término aparece ya como "azar".  En la actualidad, ruletas, máquinas tragaperras, loterías, quinielas,..., nos indican que dicha fascinación del hombre por el juego, continúa. La historia de la probabilidad comienza en el siglo XVII cuando Pierre Fermat » y Blaise Pascal » tratan de resolver algunos problemas relacionados con los juegos de azar. Aunque algunos marcan sus inicios cuando Cardano (jugador donde los haya) escribió sobre 1520 El Libro de los Juegos de Azar (aunque no fué publicado hasta más de un siglo después, sobre 1660) no es hasta dicha fecha que comienza a elaborarse una teoría aceptable sobre los juegos. Christian Huygens conoció la correspondencia entre Blaise Pascal y Pierre Fermat suscitada por el caballero De Méré, se planteó el debate de determinar la probabilidad de ganar una partida, y publicó (en 1657) el primer libro sobre probabilidad: De Ratiociniis in Ludo Aleae, (Calculating in Games of Chance), un tratado sobre juegos de azar. Se aceptaba como intuitivo el concepto de equiprobabilidad, se admitía que la probabilidad de conseguir un acontecimiento fuese igual al cociente entre Durante el siglo XVIII, debido muy particularmente a la popularidad de los juegos de azar, el cálculo de probabilidades tuvo un notable desarrollo sobre la base de la anterior definición de probabilidad. Destacan en 1713 el teorema de Bernoulli y la distribución binomial, y en 1738 el primer caso particular estudiado por De Moivre» , del teorema central del límite. En 1809 Gauss » inició el estudio de la teoría de errores y en 1810 Laplace, que había considerado anteriormente el tema, completó el desarrollo de esta teoría. En 1812 Pierre Laplace » publicó Théorieanalytique des probabilités en el que expone un análisis matemático sobre los juegos de azar. A mediados del siglo XIX, un fraile agustino austríaco, Gregor Mendel, inició el estudio de la herencia, la genética, con sus interesantes experimentos sobre el cruce de plantas de ME. Gonzalo Joel Bautista Lara 11 Manual de Probabilidad y Estadística CBTA No. 33 diferentes características. Su obra, La matemática de la Herencia, fue una de las primeras aplicaciones importantes de la teoría de probabilidad a las ciencias naturales Desde los orígenes la principal dificultad para poder considerar la probabilidad como una rama de la matemática fue la elaboración de una teoría suficientemente precisa como para que fuese aceptada como una forma de matemática. A principios del siglo XX el matemático rusoAndreiKolmogorov » la definió de forma axiomática y estableció las bases para la moderna teoría de la probabilidad que en la actualidad es parte de una teoría más amplia como es la teoría de la medida. ACTIVIDAD 1:Identificando y analizando los antecedentes y aplicaciones de la estadística a lo largo de la historia. Revisar en forma individual la presentación en Power Point y completa la tabla que se encuentra en la página 13 de tu guía de trabajo y asegúrate de que el profesor anote tu participación de trabajo completo. NOMBRE DEL ALUMNO(A): ____________________________________ GRUPO _____ ACTIVIDAD No. 2: Apoyados de la presentación en powerpoint sobre la historia de la Estadística, completa el cuadro, con al menos diez sucesos de diferente época donde se observa a la estadística que fue aplicada en algún momento de nuestra historia, toma en cuenta el ejemplo que se te presenta en el mismo. CIVILIZACIÓN, LUGAR O PERSONAJE (Ejemplo) 1.- Jericó AÑO O ¿CUÁL FUE SU APORTACIÓN A LA ÉPOCA ESTADISTICA MÁS RELEVANTE? 1650 a.C. Sistema numérico vigesimal y problemas de matemáticas. 2.3.- ME. Gonzalo Joel Bautista Lara 12 Manual de Probabilidad y Estadística CBTA No. 33 4.5.6.7.8.9.10.11.- San José de Gracia, Mich. a ___ de _____________ del _201____ FIRMA DEL ALUMNO __________________ ACTIVIDAD 2:Reforzamiento de aprendizaje sobre la historia de la estadística. Mediante el análisis del tema “Historia y usos de la estadística hasta ME. Gonzalo Joel Bautista Lara nuestros tiempos”, resuelve de forma individual el cuestionario que 13 el profesor te indique, entrégalo oportunamente. Manual de Probabilidad y Estadística CBTA No. 33 1.2.- Conceptualización y elementos básicos. Es importante para el estudio de cualquier disciplina adentrarnos un poco al conocimiento de los conceptos que se utilizan, para darnos una idea clara de su uso al momento que los estemos utilizando dentro del desarrollo de los contenidos programáticos de la asignatura, por ello es necesario que además de los que se te ofrecen en este manual, el profesor te pedirá que realices algunas actividades para que refuerces el conocimiento de los conceptos básicos de la estadística y la probabilidad. Estadística: Es un método científico que recopila, organiza, analiza e interpreta los datos obtenidos para tener conocimiento de los hechos pasados, para prever situaciones futuras y tomar decisiones en base a la experiencia. En el estudio de la estadística, se diferencian dos tipos de estadísticas: Estadística descriptiva o deductiva y Estadística inferencial o inductiva. Estadística Descriptiva: Es aquella cuyo objetivo es describir cuantitativamente una serie de personas, animales o cosas, su estudio incluye las técnicas de colectar, presentar, analizar e interpretar datos. Esta parte de la estadística es la que estudiaremos en el presente curso de probabilidad y estadística, será la que nos auxilie a resolver preguntas de investigaciones como las siguientes: ¿Cómo ordenar los datos y analizarlos adecuadamente? ¿Qué tipo de representación gráfica es más conveniente utilizar para presentar los datos? ¿Cuál es la media aritmética o promedio de los datos obtenidos? ¿Qué tan dispersos están los datos con respecto a otra muestra? Estadística Inferencial: Es aquella cuyo objetivo es obtener información sobre una población o grupo grande de personas o cosas, mediante un metódico procedimiento de los datos de una muestra tomada de él. Es determinante su estudio en la toma de decisiones y conclusiones sobre una población. ME. Gonzalo Joel Bautista Lara 14 Manual de Probabilidad y Estadística CBTA No. 33 De este último tipo de estadística no profundizaremos en éste curso ya que la descriptiva nos toma suficiente tiempo, además de la parte inicial de la probabilidad, pero hagamos un ejercicio para analizar cuál es la diferencia entre estos dos tipos de estadística, tomaremos un caso de una escuela hermana del estado de Nayarit. A un grupo de 50 alumnos del CBTA 107 Extensión Xalisco le preguntamos ¿Cuál es la materia que les gusta más? Los datos arrojados por ésta encuesta, en éste grupo en particular, es incumbencia de la Estadística Descriptiva, ya que ordenamos los datos, los analizamos obteniendo sus parámetros como la media, la desviación, los graficamos y hasta los interpretamos Pero… Si queremos hacer conclusiones a nivel estatal de todos los alumnos de los CBTAs del estado de Nayarit, éste grupo de 50 encuestados sería una parte de las diferentes muestras que nos servirían para saber la tendencia de toda la población estudiantil respecto a la materia que les gusta más, y debemos tomar más muestras de estudiantes de otros CBTAs, por lo cual ya entraríamos en el campo de la Estadística Inferencial y sus datos deberán de analizarse de otra manera más profunda, haciendo pruebas de hipótesis para obtener las inferencias o conclusiones a futuro. La Estadística que conocemos hoy en día debe gran parte de su realización a los trabajos matemáticos de aquellos hombres que desarrollaron la teoría de las probabilidades, con la cual se adhirió a la Estadística a las ciencias formales. La Estadística es la ciencia cuyo objetivo es reunir una información cuantitativa concerniente a individuos, grupos, series de hechos, etc. y deducir de ello gracias al análisis de estos datos unos significados precisos o unas previsiones para el futuro. La estadística, en general, es la ciencia que trata de la recopilación, organización presentación, análisis e interpretación de datos numéricos con el fin de realizar una toma de decisión más efectiva. Otros autores tienen definiciones de la Estadística semejantes a las anteriores, y algunos otros no tan semejantes. Para Chacón esta se define como “la ciencia que tiene por objeto el estudio cuantitativo de los colectivos”; otros la definen como la expresión cuantitativa del conocimiento dispuesta en forma adecuada para el escrutinio y análisis. La más aceptada, sin embargo, es la de Minguez, que define la Estadística como “La ciencia que tiene por objeto aplicar las leyes de la cantidad a los hechos sociales para medir su intensidad, deducir las leyes que los rigen y hacer su predicción próxima”. ME. Gonzalo Joel Bautista Lara 15 Manual de Probabilidad y Estadística CBTA No. 33 Población: Es la colección o conjunto de cosas, individuos, objetos o eventos cuyas propiedades serán analizadas. Población finita: Es aquella en la que se conocen todos los elementos que la componen, ejemplo, las vocales, estados de la república mexicana, países del mundo. Población infinita: Es el tipo de población de cual se desconoce la totalidad de sus elementos que la componen, ejemplo, estrellas en el universo. Muestra:Es un subconjunto que representa a la población, consta de objetos, cosas, individuos, o medidas seleccionadas de la población por un proceso aleatorio. Esta debe ser representativa de la población. La muestra elegida debe cumplir con ciertos requisitos indispensables: a) Validez. Debe representar a la población, esto es, ha de pertenecer a ésta y ser elegida al azar o 67en forma aleatoria, para que todos los elementos de la población tengan la misma probabilidad de ser considerados. b) Confiable. Los resultados que se obtengan deben poder generalizarse a toda la población con cierto grado de precisión. c) Práctica. Debe ser sencilla de llevar acabo. d) Eficiente. Debe proporcionar la mayor información con el menor costo. DATOS: Son las medidas, valores o características susceptibles de ser observadas y contadas. Variable: Es una propiedad o característica de algún evento, objeto o persona, que puede tener diversos valores en diferentes instantes, según las condiciones. La altura, el peso, el tiempo de reacción y la dosis de un medicamento, son ejemplos de variables. Dato: es el valor que se le da a una variable asociada a un elemento de la población o muestra, puede ser número, palabra o símbolo, Ejemplo: Juan tiene el cabello color (negro) Beatriz vive en (Puebla) En una producción de cerillos, cada caja tiene por lo menos (1) cerillo defectuoso. Datos: Conjunto de valores recolectados de acuerdo a la variable de cada elemento que pertenece a la muestra. Ejemplo: ME. Gonzalo Joel Bautista Lara 16 Manual de Probabilidad y Estadística CBTA No. 33 El conjunto de 50 edades recolectadas de estudiantes (edades) El conjunto de 122 salarios de empleados de una empresa (122) Datos primarios: Son los datos originales, que obtenemos de la primera fuente original y que han sido recogidos especialmente con este propósito en mente. Datos secundarios: Son los que se han recopilado para otros fines. Experimento: Es una actividad que se planea para obtener resultados de una muestra. Parámetro: Es el valor numérico que resume la información de una población. Es promedio de datos obtenidos y que describe una población. Estadística: (como término usado en resultados) Valor numérico que describe los datos de las muestras y se determina con la ayuda de fórmulas. Por ejemplo; la edad promedio de los estudiantes de quinto semestre del CBTA 33 en meses. Ejemplo: Identifica los ocho términos de la Estadística: El 23 % de la población adulta en Canadá padece de alergia. En una muestra aleatoria de 1,200 adultos se encontró que el 20.2 % tiene alergia. Solución: Población: Personas adultas en Canadá Muestra: 1200 adultos Variable: Padecen Alergia Dato: “Si” y “No” padecen alergia Datos: 1200 datos entre los que “Si” y “No” Experimento: Muestra aleatoria Parámetro: 23% de la población “Si” padece alergia Estadística: 20.2% Veamos otro Ejemplo: Un estudiante está interesado en determinar el valor promedio de los automóviles de los maestros de su escuela y en especial los profesores de matemáticas. Determina los términos estadísticos del planteamiento: ME. Gonzalo Joel Bautista Lara 17 Manual de Probabilidad y Estadística CBTA No. 33 Solución: Población: Todos los automóviles de los maestros Muestra: Automóviles de los maestros de matemáticas Variable: Valor en pesos. Dato: Valor del automóvil del profesor Ledezma, $110,000.00 Datos: 110,000.00; 95,000.00; 75,000.00; 185,000.00; etc. Experimento: Métodos aplicados, preguntas a los maestros de matemáticas Parámetro: Promedio de la población Estadística: Promedio de los autos de los profesores de matemáticas. Ahora hagamos algunos ejemplos más: ACTIVIDAD No. 3Resuelve los siguientes dos ejercicios de fortalecimiento para el tema de términos estadísticos. Ejercicio1: Identifica los términos estadísticos en el planteamiento siguiente: Se desea saber el promedio de estatura de los alumnos hombres del V semestre del CBTA 33, de los cuales se selecciona uno de los grupos para hacer la medición directa. El promedio de la estatura es de 175 cms., de la m uestra obtenida el promedio de estatura de los 25 hombres fue de 178. cms. Población: ________________________________________ Muestra: ________________________________________ Variable: ________________________________________ Dato: ________________________________________ Datos: ________________________________________ Experimento: ________________________________________ Parámetro: ________________________________________ Estadística: ________________________________________ ME. Gonzalo Joel Bautista Lara 18 Manual de Probabilidad y Estadística CBTA No. 33 Ejercicio2: Identifica los términos estadísticos en el planteamiento siguiente: El año pasado de los 87 estudiantes que egresaron del CBTA 33, el 70 % continúan estudiando alguna carrera de nivel profesional, esto se sabe mediante la aplicación de una encuesta cada fin de ciclo al 30% de los que egresan, fueron 26 alumnos encuestados mediante un procedimiento al azar. Población: ________________________________________ Muestra: ________________________________________ Variable: ________________________________________ Dato: ________________________________________ Datos: ________________________________________ Experimento: ________________________________________ Parámetro: ________________________________________ Estadística: ________________________________________ ACTIVIDAD No. 4Ahora practica tus habilidades y competencias en el uso de las TIC, y resuelve el ejercicio de la dirección electrónica www.thatquiz.org/es en la que podrás acceder solo con un código que el profesor te proporciona en forma individual. Tipos de variables: Recordemos que variable es la característica de nuestro interés de cada elemento que vamos a observar o medir en una población determinada y que puede tomar cualquier valor numérico o característica, por lo tanto tenemos dos tipos de variables, cuantitativas y cualitativas. a) Variable Cuantitativa, es la que se obtiene de conteos, mediciones, de un conjunto de datos, existen dos tipos de esta variable: Variable Discreta: Está representada por números reales o cero. Veamos algunos ejemplos: ME. Gonzalo Joel Bautista Lara 19 Manual de Probabilidad y Estadística CBTA No. 33 Si queremos saber el número de hermanos de los alumnos del CBTA No. 33. Serán desde cero en adelante y como es lógico no puede haber medio hermano o tres cuartos de hermano, por lo tanto la variable número de hermanos es una variable numérica o cuantitativa “discreta” Otro ejemplo será el número de preguntas acertadas en un examen de conocimientos; los años cumplidos de los estudiantes, el número de materias que cursan en el quinto semestre, etc.... Ya que son variables numéricas que pueden tomar sólo valores enteros. Es la que puede tomar cualquier valor entre los números reales o el intervalo entre ellos. Observemos algunos ejemplos: Si queremos saber la estatura de los alumnos del quinto semestre con una aproximación a milímetros, tendríamos que utilizar una regla de dos metros y dividida en centímetros y milímetros. Los valores posibles de la variable serán todos los números pertenecientes a algún intervalo. Variables numéricas o cuantitativas “continuas” El peso que tienen las personas que asisten a un evento será también una variable numérica continua, pues podrán pesar kilos, con gramos y hasta miligramos, dependiendo de la precisión que queramos los resultados. b) Las variables cualitativas o de atributos, son aquellas que no se representan con números, se utilizan atributos que se describen con palabras o cualidades, como nacionalidad, ocupación, etc. Estas pueden ser de tipo Nominal y Ordinal. Variable Nominal: Es la variable que describe o identifica a un elemento de la población, ejemplo, color favorito, género, estado civil, etc. Variable Ordinal: Esta representa una posición, clasificación u ordenamiento, por ejemplo los grados de estudio, nivel de satisfacción, preferencia de un producto, etc. Conocer cuál es el candidato de la preferencia de los electores en una campaña política en determinado estado de la república. Variable cualitativa ordinal. Identificar el porcentaje de mujeres que asisten a un partido de fut bol del equipo queseros de San José de Gracia. Variable cualitativa nominal. ACTIVIDAD No. 5 Identifica el tipo de variables en cada uno de los planteamientos y comparte los resultados con el resto de tus ME. Gonzalo Joel Bautista Lara compañeros. 20 Manual de Probabilidad y Estadística CBTA No. 33 Anota el tipo de variable según el caso nominal, ordinal, discreta o continua: a) El Género (sexo) de cada alumno del grupo de quinto semestre. ________________________ b) La cantidad de estudiantes en cada grupo de una escuela: _____________________________ c) El Peso de los niños mexicanos de 6 años. _________________________________________ d) El daño causado a los pulmones de los jóvenes que fuman. ___________________________ e) Tipo de material con el que se construyen los techos de las viviendas de una localidad. ________________________________ f) El número de naranjas producidas por cada naranjo en una huerta. su mamá. ________________________ g) La cantidad de afecto o amor que siente un niño por ____________________________ h) El tiempo de reacción de una sustancia química un conmutador en el laboratorio. _________________________ i) El número de llamadas de en 10 min. ____________________________________ j) Tiempo que tarda en sanar una herida _______________________________________________ 1.3. Redondeo de Datos Dado que estaremos dando nuestras respuestas finales con dos decimales y en ciertas ocasiones hasta con cuatro cifras decimales, necesitamos decidir cómo determinar el valor de los últimos dígitos. Si nuestro resultado final tiene ENTEROS redondearemos a DOS DECIMALES Primer ejemplo cuando el residuo es menor que 0.5: 34.01350 = 34.01 es la respuesta potencial y .350 el residuo; como .350 es menor que 0.5, el último dígito de la respuesta potencial permanece sin cambio y la respuesta final es 34.01 ME. Gonzalo Joel Bautista Lara 21 Manual de Probabilidad y Estadística CBTA No. 33 Segundo ejemplo cuando el residuo es mayor que 0.5: 34.01761 34.01 es la respuesta potencial y .761 el residuo; como .761 es mayor que 0.5, al último dígito de la respuesta potencial debemos sumar 1 al último dígito, por lo que la respuesta correcta es 34.02 Tercer ejemplo cuando el residuo es igual a 0.5 y el último dígito de la respuesta potencial es impar: 43.07500 43.07 es la respuesta potencial y .500 el residuo; como es impar el último dígito de la respuesta potencial se AUMENTA 1, por lo que la respuesta correcta es 43.08 Cuarto ejemplo cuando el residuo es igual a 0.5 y el último dígito de la respuesta potencial es par: 17.06500 17.06 es la respuesta potencial y .500 el residuo; como es par el último dígito de la respuesta potencial NO se aumenta 1, por lo que la respuesta correcta es 17.06 Si nuestro resultado final tiene puras DECIMALES redondeamos a CUATRO DECIMALES Siguiendo los mismos principios anteriores, si tenemos una cifra de 0.7544762 su respuesta correcta es 0.7545; en cambio si es 0.1136211 la respuesta correcta es 0.1136; si tenemos que 0.3463500 lo correcto será 0.3464; finalmente si tenemos 0.7728500 lo correcto será 0.7728. ACTIVIDAD No. 6.Realiza el redondeo de los siguientes ejercicios, en la primera columna realiza el redondeo de acuerdo a lo visto en la clase y en la segunda columna deberás anotar con nombre según corresponda por el número de cifras de cada cantidad. Milésimos 22.666666 = ______22.667_________ 65.368 _________________________ Enteros 0.7654598 = ____________________ 0.32 Centésimos 57.87754 = ____________________ 109.00 ________________________ Décimos 0.0663597= ____________________ 008.56 ________________________ Milésimos 3876.2255 = ___________________ 5826.1 ________________________ Centésimos 0.3877865 = ___________________ 9.236 ________________________ Enteros 99.7156 = ______________________ 67.01 _____Centésimos_________ ME. Gonzalo Joel Bautista Lara 22 _________________________ Manual de Probabilidad y Estadística Décimos CBTA No. 33 0.005329 = _____________________ 15.00 ________________________ Sigamos ejercitando: Cifra 7.4657 45.700008 31.328 4.2467 962.367 Enteros Décimos 7.5 Centésimos Milésimos 45.70 4.247 962 ACTIVIDAD No.7 En forma individual resuelve los ejercicios que el profesor te proporcione en fotocopias y en el pintarrón. Notación Sistematizada En estadística, por lo general, trabajamos con datos agrupados resultantes de medir una o más variables. Con gran frecuencia, los datos se obtienen de las muestras y en ocasiones de las poblaciones. Para fines matemáticos, generalmente se utiliza la letra mayúscula X y a veces la Y, para representar la(s) variable(s). Así, si estuviéramos midiendo la edad de los sujetos, haríamos que X represente la variable “edad”. Si existen muchos valores de la variable agregamos un subíndice al símbolo X. Ilustramos este proceso en la siguiente tabla, la cual contiene los datos de diez sujetos, para esta ocasión tomaremos en cuenta el peso en kgs. Número de sujeto ejemplo Símbolo del dato 1 X1 2 X2 3 X3 4 X4 5 X5 6 X6 7 X7 8 X8 ME. Gonzalo Joel Bautista Lara 9 10 23 X9 X10 Valor del dato, edades En este Manual de Probabilidad y Estadística CBTA No. 33 representamos la variable “edad” de diez alumnos del grupo __ de V semestre mediante el símbolo X, además, N representa el número total de datos que hay en la distribución. En este ejemplo, N = 10, Cada uno de los diez datos representa un valor específico de X. Distinguimos los diez datos diferentes, al agregar un subíndice a X, correspondiente al número de sujeto que tiene el valor dado. Así, el símbolo X1 corresponde al valor del dato __, X 2 al valor del dato __ hasta el X10 que corresponde al valor __. En general, podemos referirnos a un único dato de la distribución X como Xi, donde i puede asumir cualquier valor de 1 a N, según el dato que queramos designar. En resumen: X o Y representa la variable medida. N representa el número total de sujetos o datos. Xies el i-ésimo dato, donde i puede variar de 1 a N 1.4. Cifras Significativas En la estadística analizamos datos; este análisis implica muchos cálculos matemáticos. Con mucha frecuencia tenemos un residuo decimal, por ejemplo, después de realizar una división. Cuando esto ocurre, necesitamos decidir la cantidad de cifras decimales que utilizaremos para el residuo. En las ciencias físicas, por lo general, se utiliza el mismo número de cifras significativas que tienen los datos en bruto, Por ejemplo, si medimos el peso de cinco sujetos hasta tres cifras significativas (173, 156, 162, 165, y 175 libras) y queremos calcular el promedio de estos pesos, nuestra respuesta debe contener sólo tres cifras significativas. Así X  X N  173  156  162  165  175 831   166.2  166 5 5 La respuesta de 166.2 se redondea a tres cifras significativas, dando un resultado final de 166 libras. Por varias razones y mas por continuar una tradición, en el presente curso de estadística utilizaremos DOS cifras decimales redondeadas cuando el resultado tenga ENTEROS y CUATRO cifras decimales cuando NO EXISTAN ENTEROS, sin importar las cifras significativas de los datos en bruto. Así cuando se pida que el resultado tenga dos cifras decimales, debemos realizar los cálculos intermedios con al menos CUATRO cifras decimales y redondear la respuesta final a dos cifras. ME. Gonzalo Joel Bautista Lara 24 Manual de Probabilidad y Estadística 1.5. CBTA No. 33 Cálculos N X i 1 i Una de las operaciones que se realizan con más frecuencia en estadística consiste en sumar todos o una parte de los datos que pertenecen a una distribución. Como no es práctico escribir “suma de todos los datos” cada vez que se necesite emplear esta operación, particularmente en las ecuaciones, se utiliza una abreviatura simbólica. La letra griega mayúscula sigma ( ∑) indica la operación de sumatoria. La frase algebraica utilizada para la sumatoria es: Esta expresión se lee como “la suma de la variable X de i = 1 a N”. Las notaciones que aparecen arriba y debajo del signo de la sumatoria indican los datos que deben incluirse en la operación. El término que aparece debajo del signo de la sumatoria nos indica el primer dato en esta operación, y el término que se encuentra arriba de dicho signo indica el último dato. Así, esta frase señala que debemos sumar los datos X, comenzando con el primero y concluyendo con el N-ésimo dato. N X i 1 i  X 1  X 2  X 3  ...  X N Así. Ecuación de una sumatoria Al “aplicar la sumatoria” a los datos de las edades de la tabla anterior, tenemos que: N X i 1 i  X1  X 2  X 3  X 4  X 5  X 6 Sustituimos 8 + 10 + 7 + 6 + 10 + 12 = 53 N X X i 1 i Cuando la sumatoria se realiza con todos los datos (de 1 a N), es frecuente que la propia frase de esta operación se abrevie, omitiendo las notaciones arriba y abajo del signo de la suma, al igual que el subíndice i. Así. ME. Gonzalo Joel Bautista Lara 25 Manual de Probabilidad y Estadística CBTA No. 33 X Se abrevia con frecuencia como En el ejemplo anterior, = 53 Esta expresión indica que la suma de todos los datos X es 53. Observa que no es necesario que la sumatoria se realice de 1 a N, Por ejemplo, podríamos querer sumar sólo el segundo, tercer, cuarto y quinto dato. Recuerda que la notación debajo del signo de la sumatoria nos dice dónde comenzar la suma, y el término arriba de dicho signo nos dice dónde terminarla. 5 X Utilizaríamos el símbolo i 2 N X i 1 Para los datos anteriores, tenemos que: i  X 2  X 3  X 4  X 5  10  7  6  10  33 i Resolvamos algunos ejemplos: Determina la sumatoria siguiente 3  X i  10  12  13  35 3 X i 1 i con X1= 10, X2 = 12, X3 = 13, X4= 18 i 1 Por lo tanto: 4 X i 2 i  3: Determina la sumatoria siguiente Con 4 X i  3  (24  25  28)  3  80 i2 Por lo tanto: ME. Gonzalo Joel Bautista Lara 26 X1=20, X2=24, X3=25, X4=28, X5=30, X6=31 Manual de Probabilidad y Estadística 4 (X  3) i i 2 CBTA No. 33 Determina la sumatoria siguiente Con 4 (X i 2 i X1=20, X2=24, X3=25, X4=28, X5=30, X6=31  3)  ( 24  3)  ( 25  3)  ( 28  3)  86 Por lo tanto: Algunas consideraciones al realizar las sumatorias, vamos revisando y practicando. Existen otros dos tipos de sumatorias que veremos con frecuencia en estadística y son: 2 ∑X y (∑X)2. Aunque se parecen, son distintos y, en general, proporcionan diferentes respuestas. Utiliza los valores siguientes para el desarrollo de las operaciones: X1=6; X2=9; X3=13; X4=7; X5=-8 Y1=-2; Y2=12; Y3=5; Y4=1; Y5=6 El símbolo ∑X2 (suma de los cuadrados de los datos X) indica que primero debemos elevar el cuadrado de los datos X y luego sumarlos. Así: X 2  X 12  X 22  X 32  ... X N2 ( X ) 2  ( X 1  X 2  X 3  ... X N ) 2 El símbolo (∑X)2, o (el cuadrado de la suma de los datos X), indica que primero debemos sumar los datos X y luego elevar al cuadrado la suma resultante. Así, La suma de los productos de dos variables es diferente al producto de la suma de la primera variable por la segunda variable, o sea, sustituimos los valores anteriores para demostrarlo. n n n i=1 i=1 i=1 ∑ Xi∗Yi ≠ ∑ Xi+ ∑ Yi ME. Gonzalo Joel Bautista Lara 27 Manual de Probabilidad y Estadística Sigamos viendo las propiedades de la sumatoria CBTA No. 33 ∑¿ ¿ 1.- La sumatoria de dos variables es igual a la suma de la sumatoria de cada una de las variables, es decir: n n n i=1 i=1 i=1 ∑ Xi +Yi=∑ Xi +∑ Yi Sustituye los valores anteriores y realiza la demostración. 2.- La sumatoria de la diferencia de dos variables es igual a la diferencia de la sumatoria de cada variable, así tenemos la siguiente fórmula. n n n i=1 i=1 i=1 ∑ Xi−Yi=∑ Xi−∑ Yi 3.- La sumatoria de una constante multiplicada por una variable es igual a la variable multiplicada por la suma de la variable, veamos: n n i=1 i=1 ∑ c∗Xi=c∗∑ xi 4.- Ahora, la sumatoria de una constante es igual a la constante multiplicada por el número de elementos de la sumatoria, por lo tanto: n ∑ c =c∗n i=1 La confusión es muy común cometerla, sobre todo cuando se calculan las desviaciones estándar, eso lo analizaremos en otro tema un poco más adelante. ME. Gonzalo Joel Bautista Lara 28 Manual de Probabilidad y Estadística CBTA No. 33 ACTIVIDAD No. 8 Con los datos que se te proporcionan resuelve las siguientes sumatorias en forma individual y después en forma ordenada muestra los resultados de tus operaciones paso a paso en el pizarrón. X1=3; X2=6; X3=8; X4=2; X5=9; X6=1; X7=5 n X i 1 i  _________________________________________________________ n X i 1 i  12  __________________________________________________________ 4  (X i 2 i ) * 205  ___________________________________________________________ n ∑ X 2=¿ ___________________________________________________________ i=1 n ( ) ∑ Xi i=1 2=¿ __________________________________________________________ Xi−45=¿ n ∑¿ __________________________________________________________ i=1 ME. Gonzalo Joel Bautista Lara 29 Manual de Probabilidad y Estadística CBTA No. 33 7∗Xi=¿ n ∑¿ __________________________________________________________ i=1 Xi /4=¿ 5 ∑¿ __________________________________________________________ i=1 6 ( X i )  8  2 i2 5 ( X i ) 2  510  i 1 ____________________________________________________________ ____________________________________________________________ ACTIVIDAD No. 9 Con los valores asignados a X y Y, resuelve las siguientes sumatorias en forma individual y después en forma ordenada muestra los resultados de tus operaciones paso a paso en el pizarrón. X1=10; X2=7; X3=-3; X4=16; X5=2; ME. Gonzalo Joel Bautista Lara 30 Y1= -4; Y2= 6; Y3= 8; Y4=2; Y5= 9 Manual de Probabilidad y Estadística ∑X ∑Y ∑Y2 (∑Y)2 CBTA No. 33 ∑X2 (∑X)2 ∑(X-Y) ∑(Y – X) ∑2Y ∑(X – Y)2 ∑(2-Y) ∑(3-X) Operaciones correctas______ Calificación _________ Calificó___________________________ UNIDAD No. II Distribución de frecuencias La Tabla de Distribución de Datos o Tabla de Distribución de Frecuencias, además de ser un instrumento útil para resumir un conjunto de datos obtenidos en una investigación, es una herramienta muy importante con que cuenta la estadística para realizar las observaciones de manera rápida y sencilla. Para construir dicha Tabla realizaremos doce pasos y para tu mejor aprendizaje, desarrollaremos un ejemplo con una variable numérica continua, ya que deseamos conocer el ME. Gonzalo Joel Bautista Lara 31 Manual de Probabilidad y Estadística CBTA No. 33 “tiempo en minutos que emplearon para resolver los ejercicios anteriores” 50 estudiantes del CBTA 33 en la materia de estadística. a) Paso uno: Toma de los datos La recopilación de los datos consiste en asistir al grupo de estudiantes y obtener los valores mediante una pregunta abierta sobre el tiempo en minutos que emplearon para estudiar el tema de estadística o si desconfiamos, podemos medir directamente el tiempo durante las asesorías que emplearon cada uno de los alumnos al estudiar estadística. En resumen para recopilar los datos debemos "asistir" al lugar donde vamos a 'tomar" o "levantar" los datos. Esto puede ser mediante entrevistas, cuestionarios, observaciones o mediciones directas a los individuos o cosas que corresponda nuestra variable. Dato: Frecuencia: Porcentaje: Absoluto: Muestra: Población: ME. Gonzalo Joel Bautista Lara 32 Manual de Probabilidad y Estadística CBTA No. 33 Supongamos que los 50 datos obtenidos en nuestra variable: tiempo para resolver los ejercicios anteriores en minutos fueron los siguientes y que corresponden a los 50 estudiantes: 70 75 60 80 67 81 71 74 63 72 74 76 62 82 63 81 66 78 68 80 72 67 74 84 70 63 77 68 82 74 74 76 64 75 80 69 85 71 79 60 70 83 75 67 72 78 64 77 81 76 b) Paso dos: Ordenación de los datos La Ordenación de los datos consiste en colocar los datos tomados en orden creciente (de menor a mayor) o decreciente (de menor a mayor). Nosotros los vamos a ordenar en forma creciente y sobre todo "contando" y "anotando" los que se repitan, que será la frecuencia. Ordena aquí los datos anteriores de menor a mayor para poder realizar el paso tres. 60 63 67 70 72 74 75 77 80 82 60 64 67 70 72 74 76 78 80 82 62 64 68 70 72 74 76 78 81 83 63 66 68 71 74 75 76 79 81 84 63 67 69 71 74 75 77 80 81 85 c) Paso tres: Elaborar el cuadro de conteo llamado de distribución de frecuenciascon las siguientes recomendaciones: En la primera columna se anotarán los datos que se obtuvieron de la muestra o de la población que se pretende estudiar, en la segunda columna te sirve para ir haciendo el conteo de cada vez que se repite un dato y la tercera columna se escribe con número el total de veces que se repitió el dato. Tiempo empleado en minutos Conteo ME. Gonzalo Joel Bautista Lara 33 Frecuencia Manual de Probabilidad y Estadística CBTA No. 33 60 62 63 64 66 67 68 69 70 71 72 74 75 76 77 78 79 80 81 82 83 84 85 // / /// // / /// // / /// // /// ///// /// /// // // / /// /// // / / / Total 2 1 3 2 1 3 2 1 3 2 3 5 3 3 2 2 1 3 3 2 1 1 1 50 Es importante que la suma total sea igual al número de datos que tomamos en la investigación. Ahora te invito a realizar los siguientes cálculos de los pasos 4,5 y 6. No pierdas de vista este proceso porque van a determinar tu dominio para la elaboración de las distribuciones de frecuencias de cada uno de los ejercicios que más delante tienes que resolver. d) Paso cuatro: Determinar el Rango del conjunto de datos. El rango o recorrido es la diferencia que hay entre el dato mayor y el menor. Una vez que se ordenaron los datos en forma creciente obtenemos el rango 85 que es el dato mayor 60 que es el dato menor 25 será el rango o recorrido e) Paso cinco: Calcular el número de intervalos de Clase. Cuando se tiene un gran número de datos, se recomienda distribuirlos en clases o categorías llamadas intervalos de clase o celdas. Para decidir la cantidad de intervalos de clase que se van a utilizar (o número de clases) y la amplitud de los intervalos (o ancho del intervalo) se siguen las siguientes operaciones: Primero el NÚMERO DE CLASES o INTERVALOS se obtienen con la fórmula: ME. Gonzalo Joel Bautista Lara 34 Manual de Probabilidad y Estadística CBTA No. 33 El intervalo de clase se calcula mediante la raíz cuadrada del número de datos, para este caso es 50 el número de datos y su raíz cuadrada es 7.07, redondeado nos quedamos en 7. En resumen y de acuerdo a la formula el número de intervalos será de 7. Intervalos de Clase FRECUENCI MARCA FRECUENCIA FRECUENCIA FRECUEN DE PORCENTUAL ABSOLUTA CIA F% ACUMULADA ABSOLUT Límite Real Límite Real Ao Inferior Superior NÚMERO LRI LRS DE VECES PUNTO ASCENDENTE A DEL DATO MEDIO Faaa ACUMULA F (X) CLASE O PM DA DESCEND ENTE Faad Agregar filas según sea necesario Resulta claro que si lo ancho del intervalo es de 4 y el número de intervalos son 7; (4 ) (7) = 28 se cubrirá todo el rango de datos que para este ejercicios es de 25. f) Paso seis: Determinar el ancho de clase Con los datos del ejemplo, el dato más bajo es el 60 y como el ancho del intervalo es de 4, su límite superior será de 64. El siguiente intervalo sería 64 más 4 del ancho del intervalo nos da 68 como límite superior y así sucesivamente. Ahora antes de pasar el siguiente momento de esta actividad debemos elaborar un cuadro, el cual iremos desarrollando uno a uno los procesos para llenar los espacios, con las siguientes columnas y filas con los datos necesarios. g) Paso siete: Calcular el punto medio o marca de clase La marca de clase es el punto medio del intervalo de clase y se obtiene sumando el límite real inferior más el límite real superior y dividiéndolo el resultado entre dos. Hagámoslo practicando, llena los espacios que faltan. Se suma 59.5 + 64.5 = 123 = 62 2 ME. Gonzalo Joel Bautista Lara 35 Manual de Probabilidad y Estadística L.R. Inferior CBTA No. 33 Intervalos de Clase L.R. Superior 59.5 64.5 69.5 74.5 79.5 84.5 64.5 69.5 74.5 79.5 84.5 89.5 MARCA DE CLASE O PUNTO MEDIO 62 h) Pas o ocho: El Límite real de cada clase, tanto el inferior como el superior ¿Cómo se obtiene el LRC de cada uno de los intervalos?, Debemos hacer uso de los Límites reales Inferiores (L.R.I.), quitando 0.5 al dato más chico que en nuestro caso es de 60 minutos. Por lo tanto será de 59.5 el L.R.I. Luego a este se le suma lo ancho del intervalo que es de 5 resultando 64.5 que es el Límite Real Superior (L.R.S.) por lo que ahora si podemos decir que los dos datos 64 se deberán anotarse en el 2do. Intervalo que iniciaría en 64.5 hasta 69.5 como límite real superior y así sucesivamente. Adelante ayúdanos a completar el siguiente cuadro, INTERVALOS DE CLASE Límite Real Inferior Límite Real Superior 59.5 64.5 64.5 74.5 74.5 84.5 ME. Gonzalo Joel Bautista Lara 36 Manual de Probabilidad y Estadística CBTA No. 33 i) Paso nueve: Frecuencia relativa Para el cálculo de esta columna es necesario tomar en consideración el porcentaje correspondiente a cada una de las clases, así tenemos que para este ejercicio toma en cuenta la frecuencia de cada clase, se divide entre el total de datos y se multiplica por 100, como lo muestra el cuadro de enseguida. También puedes utilizar una “regla de tres” para calcular los porcentajes. Intervalos de Clase F (X) MARCA DE CLASE O PM F% Faaa Faad L.R. Inferior L.R. Superior 59.5 64.5 8 62 16 8 50 64.5 69.5 7 67 14 15 42 69.5 74.5 13 72 26 28 35 74.5 79.5 11 77 22 39 22 79.5 84.5 10 82 20 49 11 84.5 89.5 1 87 2 50 1 Σ 50 100 j) Paso diez: Frecuencia absoluta acumulada ascendente. Este paso consiste en ir sumando a cada una de las frecuencias la de la siguiente clase y así cada una de ellas, partiendo de la frecuencia de menor tamaño, observa el ejemplo de la tabla que se muestra enseguida. Intervalos de Clase F (X) MARCA DE CLASE O PM F% Faaa Faad L.R. Inferior L.R. Superior 59.5 64.5 8 62 16 8 50 64.5 69.5 7 67 14 15 42 69.5 74.5 13 72 26 28 35 74.5 79.5 11 77 22 39 22 79.5 84.5 10 82 20 49 11 84.5 89.5 1 87 2 50 1 ME. Gonzalo Joel Bautista Lara 37 Manual de Probabilidad y Estadística Σ CBTA No. 33 50 100 k) Paso once: Frecuencia absoluta acumulada descendente. Este paso consiste en ir sumando a cada una de las frecuencias al igual que en el paso anterior pero en este caso iniciando con el total de datos, y así con cada una de ellas, observa el ejemplo de la tabla que se muestra enseguida. Intervalos de Clase F (X) MARCA DE CLASE O PM F% Faaa Faad L.R. Inferior L.R. Superior 59.5 64.5 8 62 16 8 50 64.5 69.5 7 67 14 15 42 69.5 74.5 13 72 26 28 35 74.5 79.5 11 77 22 39 22 79.5 84.5 10 82 20 49 11 84.5 89.5 1 87 2 50 1 Σ 50 100 l) Paso doce: Representación gráfica de los datos I. Histograma Cuando las variables son cuantitativas o numéricas sean discretas o continuas la representación gráfica más común es el HISTOGRAMA DE FRECUENCIAS y el POLÍGONO DE FRECUENCIAS. Este tipo de gráfica consiste en una serie de rectángulos trazados en un sistema de coordenadas cartesianas o rectangulares. Para realizar el histograma es necesario agrupar los datos en intervalos de clase, con sus límites reales inferiores y superiores, además de su frecuencia absoluta. Los rectángulos tienen sus bases sobre el eje horizontal con centros en las marcas de clase y su longitud es igual a la anchura de los intervalos de clase. La altura de cada rectángulo ME. Gonzalo Joel Bautista Lara 38 Manual de Probabilidad y Estadística CBTA No. 33 corresponde al valor de la frecuencia que tenga el intervalo que representa. En éstos histogramas los rectángulos se trazan adyacentes entre si. En el histograma se localizan los puntos medios en la parte superior de cada intervalo de clase y en el eje horizontal, se indican las marcas de clase o puntos medios de cada intervalo. Para trazar el polígono de frecuencia unimos con rectas los puntos medios o marcas de clase con su frecuencia absoluta respectiva, en donde estaban la parte alta de los rectángulos del histograma. II. Gráfica de barras Se usa cuando se pretende resaltar la representación de porcentajes de datos que componen un total. Una gráfica de barras contiene barras verticales que representan valores numéricos, generalmente usando una hoja de cálculo. Las gráficas de barras son una manera ME. Gonzalo Joel Bautista Lara 39 Manual de Probabilidad y Estadística CBTA No. 33 de representar frecuencias; las frecuencias están asociadas con categorías. Una gráfica de barras se presenta de dos maneras: horizontal o vertical. III. Polígono de frecuencias. Los polígonos de frecuencia también se construyen a partir de datos con variables cuantitativas o numéricas y se puede realizar a partir de un histograma si se desea. Una vez trazado el histograma, se localizan los puntos medios o marcas de clase en la parte superior de cada uno de los rectángulos o intervalos de clase. Se trazan segmentos de recta que unen cada punto medio de cada uno de los intervalos. Este polígono se encierra uniendo con el eje horizontal en el punto que corresponde al punto medio de un rectángulo imaginario y adyacente al histograma, esto se hace en los extremos izquierdos y derechos del polígono. IV. Gráfica de pastel o circular También llamada cuadro de pastel. Es una gráfica circular que utiliza radios para dividir el círculo en sectores, de manera que las áreas de los sectores son proporcionales a las cantidades representadas. ME. Gonzalo Joel Bautista Lara 40 Manual de Probabilidad y Estadística V. CBTA No. 33 Pictograma o gráfica de imágenes También llamada gráfica de imágenes o pictografía. Es un diagrama que utiliza imágenes o símbolos para mostrar datos para una rápida comprensión. En un pictograma, se utiliza una imagen o un símbolo para representar una cantidad específica. ¿Cuáles de las gráficas que te he mostrado te han gustado más y explica la razón por la que tu utilizarías esas? ME. Gonzalo Joel Bautista Lara 41 Manual de Probabilidad y Estadística CBTA No. 33 ¿Cuál de las gráficas observadas se facilita más la interpretación de los resultados obtenidos y observados? ME. Gonzalo Joel Bautista Lara 42 Manual de Probabilidad y Estadística CBTA No. 33 Tabla de distribución de frecuencias de una variable numérica “Tiempo dedicado a estudiar la materia de estadística” Intervalos de Clase L.R. Inferior L.R. 59.5 64.5 69.5 74.5 79.5 84.5 Superior 64.5 69.5 74.5 79.5 84.5 89.5 Σ F (X) MARCA DE F% Faaa Faad 16 8 15 50 CLASE O PM 8 7 13 11 10 1 50 62 Con los datos anteriores terminamos los componentes principales del cuadro que también recibe el nombre de... "TABLA DE DISTRIBUCIÓN DE FRECUENCIAS" por lo que... Ya podemos obtener algunas CONCLUSIONES de nuestra investigación. Ejemplo de algunas conclusiones… Te recordamos que los 50 datos son del tiempo en minutos dedicado a estudiar estadística por los estudiantes. Si analizamos detenidamente sus datos, podemos ver que el mayor número de casos (frecuencia absoluta) es 11 y dedican de 71.5 a 75.5 minutos en estudiar (su intervalo) pero además representan el mayor porcentaje con un 22% del total. Caso contrario, son lo que dedican de 83.5 a 87.5 minutos en estudiar pues únicamente son 2 y representan un 4 % del total. Si observamos en global el cuadro, podemos decir que la mayoría de los estudiantes (Los intervalos 3,4 y 5) dedican de 67.5 a 79.5 minutos en estudiar y representan el 54 % del total. Analizando otros datos podremos obtener más conclusiones de nuestro trabajo e ir descubriendo lo importante de nuestra investigación. Mas adelante aprenderás a realizar GRÁFICAS con los datos obtenidos de la tabla de frecuencias. Quedamos pendientes. .. , ME. Gonzalo Joel Bautista Lara 43 Manual de Probabilidad y Estadística CBTA No. 33 ACTIVIDAD No. 10 Elaboración de un distribución de frecuencias tomando en cuenta los doce pasos que revistaste anteriormente y representando los resultados en los diferentes tipos de gráficas. Ahora realiza la siguiente ACTIVIDAD DE APRENDIZAJE: Hagamos juntos un repaso de lo que ya estuvimos viendo en el capítulo. Estaturas de 55 estudiantes con aproximación en centímetros. 154 160 159 161 162 165 173 168 161 160 156 160 149 174 170 160 161 163 160 163 159 166 169 168 168 170 162 157 152 157 151 153 162 169 165 163 163 159 165 159 166 156 168 156 163 166 170 155 166 160 153 165 163 166 160 Aquí realiza los pasos que ya revisamos y tus cálculos correctamente hasta llenar tu Tabla de distribución de frecuencias y graficar los resultados. Tabla de distribución de frecuencias de una variable numérica Paso 1.- Toma de datos, en este caso son las estaturas de los 55 estudiantes. Paso 2.- Ordenar de menor a mayor todos los datos. Paso 3.- Realizar el conteo de las frecuencias, o sea ver cuáles son los datos que más se repiten. Paso 4.- Determinar el rango Paso 5.- Calcular el número de intervalos que tendrá nuestra distribución de frecuencias. Paso 6.- Ahora debemos determinar el ancho de cada clase. Paso 7.- Identificar o calcular el punto medio de cada clase. Paso 8.- Encontrarás los límites reales de las clases de los intervalos. Paso 9.- Calcula las frecuencias relativas o porcentuales. Paso 10.- Es momento de calcular las frecuencias absolutas acumuladas ascendentes. Paso 11.- Determina las frecuencias absolutas acumuladas descendentes. Paso 12.- Grafica utilizando todos los tipos de gráfica que vimos. Intervalos de Clase L.R.I. L.R.S. Marca de Clase TOTAL = ME. Gonzalo Joel Bautista Lara 44 Frecuencia Absoluta Frecuencia Relativa (%) Faaa Faad Manual de Probabilidad y Estadística CBTA No. 33 Principales conclusiones: 1.________________________________________________________________ 2._______________________________________________________________ 3_________________________________________________________________ Otros tipos de gráficas VI. La ojiva o polígono de frecuencia acumulada ascendente y descendente Se le llama ojiva o polígono de frecuencia acumulada, a la gráfica que muestra la distribución de frecuencia acumulada. Al construirla, los intervalos de clase se disponen en el eje horizontal, y las frecuencias acumuladas se representan en el eje vertical. Luego se unen los puntos localizados mediante segmentos. Primero se coloca un punto sobre el eje horizontal donde está el 9.5, puesto que no hay observaciones de ésta o de inferior magnitud. Luego se traza el siguiente punto en el 12.5 a la altura del 3, esto se puede hacer porque hay 3 registros iguales o menores de 12.5 de esta manera se continúan representando el resto de los puntos. TABLA DE DISTRIBUCIÓN DE FRECUENCIAS INTERVALO DE CLASE MARCA DE CLASE FRECUENCIA ABSOLUTA FRECUENCIA ACUMULADA FRECUENCIA RELATIVA ACUMULADA 100% T O T A L: ME. Gonzalo Joel Bautista Lara 45 Manual de Probabilidad y Estadística CBTA No. 33 ACTIVIDAD DE APRENDIZAJE: Con los datos del ejercicio anterior realiza las gráficas ascendentes y descendentes de las frecuencias acumuladas absolutas. Actividad No. 11 Con los datos e indicaciones que el profesor te proporcione realiza los ejercicios de distribución de frecuencias aplicando los doce pasos, en forma manual y en el programa de Excel, según corresponda. EJERCICIO 1:Las calificaciones finales obtenidas por los 80 alumnos de un primer curso de Estadística figuran en la tabla adjunta, ya están ordenados para obviar el primer paso los demás si deben de ir indicados con sus respectivos procedimientos. 53 57 59 60 60 60 61 61 62 62 62 62 63 63 65 65 65 66 67 67 68 68 68 69 71 71 71 72 72 73 73 73 73 74 74 74 75 75 75 75 75 75 75 76 76 76 76 77 77 78 78 78 78 78 79 79 79 80 81 82 82 83 84 85 85 85 86 87 88 88 88 89 90 93 93 94 95 95 96 97 EJERCICIO 2:Se hansometido a un tratamiento a 30 enfermos en un asilo de ancianos con las siguientes edades, 84 92 95 88 98 87 98 92 98 99 89 90 97 94 102 96 88 100 94 87 93 95 85 97 86 96 91 101 92 94 EJERCICIO 3:Supuestamente un cereal para desayuno incluye 200 pasas en cada caja. Una muestra de 60 cajas, el día de ayer, mostró el siguiente número de pasas en cada caja. Desarrolle una distribución de frecuencias para el proceso. ¿Qué intervalo de clase sugeriría? Resuma sus conclusiones. 200 200 202 204 206 197 199 200 204 195 206 193 196 200 195 202 ME. Gonzalo Joel Bautista Lara 46 Manual de Probabilidad y Estadística CBTA No. 33 199 202 200 206 197 202 198 203 201 198 198 200 205 205 206 200 197 203 201 198 202 206 205 207 196 199 199 200 196 205 203 201 200 191 199 200 193 200 198 202 201 193 204 204 EJERCICIO 4:Es el número de libros que se consultan a diario en el CBTA 33 por parte de los estudiantes de diferentes materias y de los distintos grados, registrados en 95 días. 14 22 15 17 16 20 18 23 21 23 17 23 15 18 15 20 21 19 17 23 16 16 21 22 22 18 20 15 14 17 14 23 17 19 19 19 21 14 16 23 15 21 16 15 16 14 23 19 18 19 18 14 21 19 19 14 18 22 15 14 14 21 17 20 22 14 21 23 15 21 21 20 22 16 21 22 21 18 15 14 15 18 20 14 19 21 14 19 16 17 17 14 15 18 22 EJERCICIO 5:Número de personas que entraron a la presidencia a tramitar un asunto diariamente durante el primer cuatrimestre del 2013. 2 2 3 0 3 3 3 5 3 8 4 0 4 5 4 9 2 2 3 0 3 3 3 5 3 8 4 1 5 0 2 3 3 0 3 3 3 5 3 8 4 1 4 5 5 0 2 4 3 0 3 4 3 5 3 8 2 6 4 2 3 1 4 6 3 5 5 2 3 7 2 5 3 9 3 0 4 3 3 4 4 7 3 6 5 3 3 8 2 7 4 2 3 1 4 6 3 5 5 2 3 7 2 6 3 9 3 0 4 3 3 6 4 7 3 8 5 3 4 2 2 7 4 7 3 1 5 2 3 5 2 6 3 7 3 0 4 0 3 4 4 3 3 6 4 7 3 9 5 4 4 2 2 7 4 7 3 1 5 2 3 5 ME. Gonzalo Joel Bautista Lara 47 Manual de Probabilidad y Estadística 3 7 4 9 4 0 6 4 4 4 2 9 4 8 3 3 5 5 3 5 2 8 3 8 3 1 4 0 3 5 4 5 3 8 4 9 4 0 7 2 4 4 3 4 ME. Gonzalo Joel Bautista Lara 48 CBTA No. 33 4 8 4 5 6 1 2 8 3 2 3 5 3 8 4 0 4 5 4 8 6 2 2 8 3 2 3 5 3 8 4 0 4 5 Manual de Probabilidad y Estadística CBTA No. 33 UNIDAD III Medidas de tendencia central Para dar inicio con este tema haremos algunas precisiones sobre las propiedades de la media aritmética, las cuales nos establecen el comportamiento de este tipo de medidas en cada uno de los casos que se presenten. a) La sumatoria de las diferencias de cada dato y la media aritmética es igual a cero o tiende a cero. b) La media puede utilizarse para determinar el valor total (suma) de la población o muestra aplicando lo siguiente. Suma*x =suma de x (total) c) La media resulta sustancialmente afectada hacia arriba o hacia abajo con la presencia de valores extremos. Cuando es así se recomienda recurrir a otra alternativa para calcular la medida de tendencia central. 3.1. Promedios En estadística al promedio se le conoce como medida de localizado tendencia hacia el central, medio o ya centro que está de una distribución, en la que la mayoría de los valores tenderán a concentrarse. Entre los más comunes se pueden mencionar: la media aritmética, la mediana y la moda Media Aritmética MEDIDAS DE TENDENCIA CENTRAL Mediana Moda La Media ( X ) La media aritmética o simplemente media, es el promedio aritmético de un conjunto de observaciones y “se obtiene al sumar todos los datos y dividir dicha suma entre el total de datos”. 3.2. Medias de tendencia central para Datos no Agrupados. Algebraicamente se representa como: X 1  X 2  X 3  ...  Xn n X = ME. Gonzalo Joel Bautista Lara 49 Manual de Probabilidad y Estadística CBTA No. 33 Donde: X es la media aritmética de la muestra X1 ,X2, X3, ... Xnson los datos de la muestra y “n” es el total de los datos de la muestra. Ejemplo: En la muestra siguiente la media aritmética es: 30  32  32  32  32  34  34  34  34  34  34  36  36  36  36  36  38  38  38  40 20 X= X= 696 20 = 34.8 Obsérvese que la “media” no necesariamente tiene que ser uno de los valores de la muestra. Una manera más sencilla de encontrar esta “media aritmética” es multiplicando cada dato por su frecuencia y continuar el proceso respectivo, como se ilustra a continuación: 1(30)  4(32)  6(34)  5(36)  3(38)  1(40) 20 X= 30  128  204  180  114  40 20 X= 696 20 X= X = 34.8 Principales características de la media aritmética: 1. El cálculo de la media aritmética está basado en todos los valores de un conjunto de datos. El valor de cada elemento en los datos afecta el valor de la media. 2. Cuando algunos valores extremos son incluidos en los datos, la media puede llegar a ser menos representativa del conjunto de valores. ME. Gonzalo Joel Bautista Lara 50 Manual de Probabilidad y Estadística CBTA No. 33 3. La media tienen dos propiedades matemáticas importantes que proporcionan un análisis matemático adicional, haciéndola más popular que cualquier otro tipo de promedio. a. La suma algebraica de las desviaciones de los valores individuales respecto a la media, es cero. b. La suma del cuadrado de las desviaciones con respecto a la media es mínima. ~ La Mediana ( X ) (Me) ~ La mediana ( X ) de una muestra de “n” datos, se localiza en la mitad de la muestra o del conjunto de elementos ordenados de mayor a menor o viceversa. Su característica principal es dividir el conjunto ordenado en 2 grupos iguales; la mitad de los números tendrá valores que son “menores que” la mediana y la otra mitad alcanza “valores mayores” que ésta. Mediana para Datos no Agrupados Si el número de elementos es impar, se toma el dato central; si es par la mediana está dada por el promedio de los datos centrales, pudiéndose obtener un valor no dado en la muestra. Ejemplo: ¿Cuál es la mediana aritmética de 3, 4, 4, 5, 6, 8, 8, 10? Como los números están ya ordenados, la mediana es Me = 5+6 / 2 = “5.5“, Otro ejemplo: 5.1, 6.5, 8.1, 9.1, 10.1, 15.5, Como los números están ordenados, la mediana es Me = 8.1+9.1 / 2 = 8.6 Principales características de la mediana 1. La mediana es un promedio de posición y por su forma de cálculo no es afectada por valores extremos. 2. La mediana no está definida algebraicamente como lo está la media aritmética. 3. La mediana en algunos casos, no puede ser calculada exactamente como sí puede serlo la media. 4. Cuando el número de elementos incluidos en una serie de datos es par, la mediana es aproximadamente el punto medio de los elementos centrales en una serie de datos. ^ La Moda( X ) (Mo) La moda se define como el valor que tiene la mayor frecuencia (o que se repite mas) en un grupo de datos. ME. Gonzalo Joel Bautista Lara 51 Manual de Probabilidad y Estadística CBTA No. 33 Hay casos en que la moda no es única, esto es, puede ser bimodal con dos modas, o trimodal con tres modas. También hay casos en que la moda no existe. Moda para Datos no Agrupados. Ejemplo: ¿Cuál es la moda de la serie: 4, 5, 5, 6, 7, 7, 7, 8, 9, 1 La Moda es Mo = 7 porque es el número que más se repite. Otro ejemplo: 60, 74, 82, 85, 90, 95, La moda no existe. Otro ejemplo: 10,12, 14, 16, 17, 17, 18, 19, 20, 20, 21. La moda es bimodal o sea, Mo = 17 y 20 Principales características de la Moda. 1. La moda representa más elementos que cualquier otro valor dentro de un conjunto de datos. 2. La moda no se calcula incluyendo todos los valores y no está definida algebraicamente como si lo está la media. 3. La moda no es afectada por valores extremos. 4. Para una distribución de frecuencias, la moda no puede ser calculada exactamente, como si puede serlo la media. Otros tipos de medidas de tendencia central, menos comunes pero igual de importantes en la estadística: a) Media cuadrática. Es la medida que se determina mediante la raíz cuadrada de la sumatoria de los cuadrados de los datos divididos entre el número de ellos, esta media se utiliza mayormente en el campo de la física, se representa con la formula siguiente: X C =√ ∑ X2 n Media cuadrática igual a la raíz cuadrada de la sumatoria de cada dato al cuadrado dividido entre el número total de datos. Ejemplo: Determinar la media cuadrática de los datos 2, 9, 5,10, 4 X C =√ 22+ 92 +52 +102 +4 2 5 X C =√ 226 5n = √ 4.26=6.72 b) Media armónica. La media armónica de n datos se determina por el cociente del número de datos entre la suma de los recíprocos de los datos, por lo tanto, algebraicamente se representa de la siguiente manera: ME. Gonzalo Joel Bautista Lara 52 Manual de Probabilidad y Estadística X CBTA No. 33 n 1 x h= ∑ Solo tendrás que cambiar los datos según corresponda el ejercicio que estés realizando o ir supliendo los datos en la fórmula. Ejemplo: Determinar la media armónica de los siguientes datos 5, 8, 2, 3, 4, 5, 4 X 7 h= 1 1 1 1 1 1 1 + + + + + + 5 8 2 3 4 5 4 = 7 =3.766816 1.858333 c) Media geométrica. Este tipo de media se puede aplicar en problemas de crecimiento exponencial, de interés compuesto, ya que determina la raíz elevada a la potencia igual al número de datos del producto del grupo de datos. La fórmula que los representa es: X g=√ x n 1∗ x2 ∗x 3…∗x n Ejemplo: Calcular la media geométrica para los siguientes datos: 5, 8, 3, 4, 10, 6 X g=√5∗8∗3∗4∗10∗6 6 X g=√ 28800 6 = 5.5364 d) Media ponderada. Esta media se utiliza cuando algunos valores por determinar representan una mayor importancia numérica que otros, por ejemplo, al evaluar un empleado, su calificación en conocimientos, puntualidad, presentación y otros conceptos tienen una importancia relativa diferente en función de quien y con qué propósito se hace la evaluación. También es muy común usarla para evaluar en los submódulos que llevas en la carrera de técnico agropecuario. Se representa con la siguiente fórmula: X w= ∑ wx ∑w Ejemplo: Un comerciante compró tres lotes de dulces, de diferente precio por kilogramo, con la finalidad de hacer una mezcla de todos ellos y venderlos en bolsas de un kilo. Los dulces que compró dicha persona por lote fueron de la siguiente forma: 60 kg a $130.00; 140 kg a $80.00 y 250 kg a $35.00 La X representa el precio y la W será la que represente los kilos. No debemos hacer la suma y dividir directamente porque estaríamos alterando el resultado que queremos obtener, es importante utilizar la fórmula y suplir los datos correspondientes. ME. Gonzalo Joel Bautista Lara 53 Manual de Probabilidad y Estadística X X w= ∑ wx = 60∗130+140∗80+250∗35 60 +140+250 ∑w w= $ 27750 =$ 61.70 /kg 450 kg CBTA No. 33 Comparación entre la media, mediana y moda para datos no agrupados. Medida Definición Ventajas Limitaciones 1. Refleja cada valor. Media Aritmética Es la suma de los valores de cierto número de cantidades, dividido entre su número. 2. Tiene propiedades matemáticas atractivas. 3. Todos los valores afectan su resultado. 4 Si se quiere calcular los totales, es mejor usar la media. 1. La mitad de los valores son mayores, la otra mitad son menores. Mediana Es el valor que divide un conjunto de datos previamente ordenados. 2. Es menos sensible a valores extremos que la media. 3. Si se quiere ubicar las condiciones de una variable categórica es mejor usar la mediana. 1. Es la de menor sensibilidad a los valores extremos. Moda Es el valor que ocurre con mayor frecuencia. 1. Puede ser excesivamente influida por los valores extremos. 2. Tiene más valores reunidos en este punto que en cualquier otro. 1. Difícil de determinar si hay gran cantidad de datos. 2. Puede resultar falsa si los datos son irregulares y si hay lagunas en los valores. 1. No se presta para análisis matemático. 2. Puede no haber un valor modal para algunos conjuntos de datos. 3. Puede tener varias modas. Finalmente, la medida de tendencia central que se debe utilizar depende de la información disponible y el objetivo que se desea alcanzar. ME. Gonzalo Joel Bautista Lara 54 Manual de Probabilidad y Estadística CBTA No. 33 Actividades de aprendizaje: 1) Calcula la media aritmética, cuadrática, geométrica, armónica, ponderada, la mediana y la moda con sus respectivas operaciones de las series de valores siguientes: Fila No. I 2, 3, 7, 4, 5, 4, 8. Fila No. II 8, 8, 6, 5, 3, 1, 1, 4. Media Aritmética =___________________________________________= _______________ Media cuadrática= __________________________________________ = _______________ Media geométrica= __________________________________________ = _______________ Media armónica = ___________________________________________ = _______________ Mediana = _________________________________________________ = _______________ Moda = ___________________________________________________ = _______________ Fila No. I 1, 9, 9, 4, 3, 5, 2, 7, 6, 9. Fila No. II 3, 4, 8, 7, 3, 2, 3. Media Aritmética =___________________________________________= _______________ Media cuadrática= __________________________________________ = _______________ Media geométrica= __________________________________________ = _______________ Media armónica = ___________________________________________ = _______________ Mediana = _________________________________________________ = _______________ Moda = ___________________________________________________ = _______________ 2) Obtén la mediana y la moda de la siguiente variable categórica o nominal. Variable categórica “Actividad Económica de 16 alumnos del 5to. Semestre” Trabajo en hogar (TH); Trabajo albañil (TA); Trabajo en campo (TC); Trabajo en Tiendas (TT) TH, TH, TC, TA, TC, TA, TT, TT, TC, TH, TC, TA, TT, TC, TC, TA. Ordenación de los datos; Media aritmética = No se puede utilizar Mediana = _________________ Moda = ___________________ Calcula la media ponderada y resuelve los planteamientos del siguiente caso: Un productor de lácteos adquiere para elaborar queso, leche de diferentes ganaderías y en diferentes cantidades, durante el mes pasado adquirió en promedio los siguientes lotes de leche: ME. Gonzalo Joel Bautista Lara 55 Manual de Probabilidad y Estadística CBTA No. 33 950 lts a $3.80; 620 lts a $4.25; 400 lts a $4.50 y 250 lts a $5.10. El productor de lácteos ha hecho sus cálculos y sabe que puede elaborar un kilo de queso con 8 litros de leche de la mezcla. 1.- ¿A cómo pago en promedio cada litro de leche de la mezcla? 2.- ¿Qué precio debe tener el kilo de queso si se quiere tener una utilidad del 16% sobre el costo? 3.- 300 litros de leche la va a vender al menudeo, por lo que, ¿cuál sería el precio del litro de leche para obtener el mismo porcentaje de utilidad? 4.- ¿Cuánta leche fue la que destinó a la producción de queso y cuántos kilogramos obtuvo? 5.- ¿Cuál fue la utilidad que tuvo durante el mes tanto de queso como de la venta de leche al menudeo? ME. Gonzalo Joel Bautista Lara 56 Manual de Probabilidad y Estadística CBTA No. 33 Ahora analicemos la media, mediana y moda pero con “DATOS AGRUPADOS” o también se llaman de distribución de frecuencias agrupadas. Empecemos con la… 3.3. Medidas de tendencia central para datos agrupados Media Aritmética para Datos Agrupados Si los datos o valores han sido agrupados en intervalos de clase, entonces se considera que todos los valores incluidos dentro de un determinado intervalo son iguales o están representados por el punto medio del intervalo o la marca de clase. En este caso se procede a multiplicar cada punto medio por su respectiva frecuencia. Luego se suman estos productos, para finalmente dividir este resultado entre el total de datos. Es importante señalar que el valor de la media de la frecuencia agrupada es suficientemente aproximado para trabajos de estadística y que el valor de la media no será suficientemente aproximado si la distribución de frecuencias agrupadas es muy irregular o demasiado asimétrica. La fórmula para la media aritmética en datos agrupados es la siguiente: X  ( f )( X ) n Donde f = Frecuencias absolutas de los intervalos. X = Marca de clase o punto medio. n = La suma de las frecuencias. Mediana para Datos Agrupados  n   2 c Me  Li    (i ) Fme     Cuando Los datos simples son agrupados en una distribución de frecuencias, cada uno de los valores pierde su identidad en la tabla, significando que la mediana de los datos simples puede no ser igual a la mediana obtenida de una distribución de frecuencias del mismo conjunto de datos. Es importante mencionar, que la ME. Gonzalo Joel Bautista Lara 57 Manual de Probabilidad y Estadística CBTA No. 33 mediana de los datos agrupados es una aproximación de la verdadera mediana. La aproximación puede ser obtenida mediante el uso de la siguiente fórmula:  n   2  c Me  Li    (i ) fme     Donde: Me = Mediana Li = Límite real inferior de la clase que contiene la mediana. n = El número de datos o frecuencia total. c = La frecuencia acumulada precisamente hasta la clase anterior a la clase mediana o la suma de las frecuencias de los intervalos por debajo de la mediana. fme = La frecuencia de la clase mediana. i = Tamaño del intervalo o amplitud de la clase mediana. Moda para Datos Agrupados. Cuando la moda se calcula a través de la fórmula para datos agrupados, los valores y frecuencia en la clase modal y las frecuencias en las clases inmediatamente antes y después de la clase modal, son también empleadas. Por lo tanto se aplica la siguiente fórmula.  d1   (i )  d1  d 2  Mo  Li   Donde: Mo = Moda L1 = Límite real inferior de la clase que contiene la moda d1= Diferencia de la frecuencia de la clase modal y la frecuencia de la clase contigua inferior. d2 = diferencia de la frecuencia de la clase modal y la frecuencia de la clase contigua superior. ME. Gonzalo Joel Bautista Lara 58 Manual de Probabilidad y Estadística CBTA No. 33 i = Tamaño del intervalo o amplitud del intervalo de la clase modal. A continuación resolveremos un ejercicio para utilizar las fórmulas de la media, la mediana y la moda de datos agrupados. Ejemplo: En la siguiente tabla se resumen los datos de los pesos en kilogramos de 50 estudiantes. Con base a la siguiente tabla de distribución de frecuencias, calculemos los valores de la media, la mediana y la moda, recordando cómo se conforman las columnas de Intervalos de clase ( I ), Marca de clase o punto medio ( X ), Frecuencia absoluta( f ), Frecuencia relativa % ( f’ ) y la Frecuencia acumulada ( F ). Marca de clase Intervalos de clase( I ) Frecuencia Absoluta (X) Frecuencia relativa (f ) ( f’ ) (F) 30.5 – 33.5 32 1 .02 1 33.5 – 36.5 35 2 .04 3 36.5 – 39.5 38 6 .12 9 39.5 – 42.5 41 11 .22 20 42.5 – 45.5 44 16 .32 36 45.5 – 48.5 47 9 .18 45 48.5 – 51.5 50 4 .08 49 51.5 – 54.5 53 1 .02 50 50 1.0 o 100% TOTAL = Cálculo de la Media Aritmética para Datos Agrupados X Frecuencia acumulada  ( f )( X ) n Su fórmula es… ME. Gonzalo Joel Bautista Lara 59 Manual de Probabilidad y Estadística CBTA No. 33 Esta expresión no se puede aplicar directamente, ya que únicamente se cuenta con el dato del denominador, esto es n = 50, pero no se tiene el dato del numerador. Para ello se agrega una columna a la tabla, donde se proporcionan los datos agrupados en intervalos. Esta columna se construye multiplicando el punto medio de cada intervalo por su respectiva frecuencia y cuando se tengan todos los productos, se procede a obtener la suma de ellos. La tabla original ya con la columna Fx y la suma de ésta queda de la siguiente manera. I x f f’ F fx 30.5 – 33.5 32 1 .02 1 32 33.5 – 36.5 35 2 .04 3 70 36.5 – 39.5 38 6 .12 9 228 39.5 – 42.5 41 11 .22 20 451 42.5 – 45.5 44 16 .32 36 704 45.5 – 48.5 47 9 .18 45 423 48.5 – 51.5 50 4 .08 49 200 51.5 – 54.5 53 1 .02 50 53 50 1 o 100 TOTAL = 2161 Entonces: 2161 50 _ X = = 43.22 será el resultado de la media aritmética Más actividades de aprendizaje: Calcula la media aritmética de los tres ejercicios siguientes. Intervalos de Clase Marca de Frecuencia L.R.I. Clase (x ) Absoluta (f ) L.R.S. 59.5 - 63.5 61.5 6 63.5 - 67.5 65.5 6 ME. Gonzalo Joel Bautista Lara 60 (f)(x) Manual de Probabilidad y Estadística CBTA No. 33 67.5 - 71.5 69.5 8 71.5 - 75.5 73.5 11 75.5 - 79.5 77.5 8 79.5 - 83.5 81.5 9 83.5 - 87.5 85.5 2 TOTAL = 50 Intervalos de Clase Marca de Frecuencia L.R.I. Clase (x) Absoluta (f) 150.5 3 L.R.S. 148.5 152.5 TOTAL = (f)(x) 55 Intervalo de clase L.R.I. Marca Frecuencia L.R.S de clase (x) de clase (f) 9.5 – 12.5 11 3 12.5 – 15.5 14 4 ME. Gonzalo Joel Bautista Lara 61 (f)(x) Manual de Probabilidad y Estadística CBTA No. 33 T O T A L: 47 Cálculo de la Mediana para Datos Agrupados. Intervalo x f f’’ F 30.5 – 33.5 32 1 .02 1 33.5 – 36.5 35 2 .04 3 36.5 – 39.5 38 6 .12 9 39.5 – 42.5 41 11 .22 20 42.5 – 45.5 44 16 .32 36 45.5 – 48.5 47 9 .18 45 48.5 – 51.5 50 4 .08 49 51.5 – 54.5 53 1 .02 50 50 1 TOTAL = Si partimos de la definición, la mediana es el dato central, como hay OCHO INTERVALOS estará entre el cuarto y quinto intervalo; entonces, debe estar comprendida en el intervalo 42.5 – 45.5, ya que observando la columna “F”, a este intervalo le corresponde una frecuencia acumulada de 36. Note Usted que si se toma el intervalo inmediato inferior, 39.5 – 42.5 se observa en la columna “F”, que hasta esta celda hay 20 VEINTE casos y como se tiene un total de 50 datos, el caso central es el número 25. Así pues el intervalo donde está la mediana es: 42.5 – 45.5 44 16 32 36 Algunos autores efectúan el siguiente razonamiento, sin utilizar la fórmula, pero si interpolando una relación proporcional: ANALIZA DETENIDAMENTE n = 50 por lo tanto la media está en 50/2 = 25 El L.R.I. de la mediana = 42.5 Como 20 casos (1+2+6+11) caen por debajo del L.R.I. de la mediana, necesitamos 5 datos más, para llegar a 25. Dado que existen 16 casos (frecuencia) en el intervalo y éste tiene 3 de amplitud o ancho, hacemos una regla de tres. 16 es a 3 como 5 es a x 16 : 3 :: 5 : x x= (3)(5) = ME. Gonzalo Joel Bautista Lara 62 15 = 0.9375 Manual de Probabilidad y Estadística CBTA No. 33 16 16 Al L.R.I. le sumamos el resultado Me = 42.5 + 0.9735 = 43.4375 Finalmente mediana = 43.44 Kg. Ahora utilicemos la fórmula para determinar la mediana en datos agrupados:  n   c   Me  Li   2  (i ) Fme     Li = Límite real inferior de la clase que contiene la mediana. n = El número de datos o frecuencia total. c = La frecuencia acumulada precisamente hasta la clase anterior a la clase mediana o la suma de las frecuencias de los intervalos por debajo de la mediana. fme = La frecuencia de la clase mediana. i = Tamaño del intervalo o amplitud de la clase mediana. 39.5 -- 42.5 41 11 .22 20 .40 451 42.5 – 45.5 44 16 .32 36 .72 704 Analizando estos dos intervalos se pueden obtener los siguientes valores: L1= 42.5 límite real inferior que contiene la mediana n  2 n = 50 es el número total de frecuencias de donde: 25 c = 20 es la frecuencia acumulada hasta la clase anterior a la clase mediana fme = 16 es la frecuencia de la clase mediana ME. Gonzalo Joel Bautista Lara 63 Manual de Probabilidad y Estadística CBTA No. 33 i = 3 es el tamaño del intervalo o amplitud de la clase mediana. Sustituyendo estos datos en la fórmula se tiene: Me= 42.5+  25  20   16    ( 3 ) = 42.5+  5  16    ( 3 ) = 42.5 +  15     16  = 42.5 +  15     16  Me = 42.5 + 0.9375+ = 43.4375 Finalmente mediana = 43.44 Kg MÁS ACTIVIDADES DE APRENDIZAJE: presentado. Intervalos de Clase L.R.I. L.R.S. Calcula la MEDIANA de los tres ejercicios que se han Marca de Clase (x ) Frecuencia Absoluta (f ) 59.5 - 63.5 61.5 6 63.5 - 67.5 65.5 6 67.5 - 71.5 69.5 8 71.5 - 75.5 73.5 11 75.5 - 79.5 77.5 8 79.5 - 83.5 81.5 9 83.5 - 87.5 85.5 2 TOTAL = 50 Intervalos de Clase L.R.I. L.R.S. 148.5 152.5 Marca de Clase (x) 150.5 Frecuencia Absoluta (f) 3 152.5 156.5 154.5 7 156.5 160.5 158.5 13 160.5 164.5 162.5 12 164.5 168.5 166.5 13 168.5 172.5 170.5 5 172.5 176.5 174.5 2 TOTAL = 55 ME. Gonzalo Joel Bautista Lara 64 Manual de Probabilidad y Estadística CBTA No. 33 Intervalo de clase L.R.I. L.R.S. 9.5 – 12.5 Marca De clase (x) 11 Frecuencia de clase (f) 3 12.5 –15.5 14 4 15.5 – 18.5 17 6 18.5 – 21.5 20 7 21.5 – 24.5 23 9 24.5 – 27.5 26 8 27.5 – 30.5 29 5 30.5 – 33.5 32 3 33.5 – 36.5 35 2 T O T A L: 47 Cálculo de la Moda para Datos Agrupados. Para determinar el valor de la moda, habrá que observar las columnas “ f ” y seleccionar el intervalo que presenta la mayor frecuencia. En este caso, el intervalo que donde está incluida la moda es: 42.5 – 45.5 44 16 32 36 72 704 La fórmula que se utiliza para encontrar el valor de la moda es:  d1   (i ) d  d 2   1 Mo  Li   L1 = Límite real inferior de la clase que contiene la moda d1= Diferencia de la frecuencia de la clase modal y la frecuencia de la clase contigua inferior. d2 = diferencia de la frecuencia de la clase modal y la frecuencia de la clase contigua superior. i = Tamaño del intervalo o amplitud del intervalo de la clase modal. ME. Gonzalo Joel Bautista Lara 65 Manual de Probabilidad y Estadística CBTA No. 33 Para determinar los valores de cada término en esta expresión, se requiere además del intervalo donde está localizada la moda, de las celdas inmediata inferior y superior que queda como sigue: 39.5 - 42.5 41 11 .22 20 .40 451 42.5 - 45.5 44 16 .32 36 .72 704 45.5 - 48.5 47 9 .18 45 .90 423 A partir de estos intervalos se adquieren los valores requeridos y que son: Li = 42.5 d1= 16 - 11 = 5 d2 = 16 – 9 = 7 i =3 Sustituyendo estos datos en la formula se obtiene:  Mo = 42.5 + 5   5  7   Mo = 42.5 + (3) 15 12 Mo = 42.5 + = 42.5 + 1.25 = 43.75 Finalmente la Moda = 43.75 ME. Gonzalo Joel Bautista Lara 66  5    12  ( 3 ) Manual de Probabilidad y Estadística CBTA No. 33 MÁS ACTIVIDADES DE APRENDIZAJE: Calcula la MODA de los tres ejercicios que se han presentado de ejercicios anteriores. Intervalos de Clase L.R.I. L.R.S. 59.5 - 63.5 Marca de Clase (x ) 61.5 Frecuencia Absoluta (f ) 6 63.5 - 67.5 65.5 6 67.5 - 71.5 69.5 8 71.5 - 75.5 73.5 11 75.5 - 79.5 77.5 8 79.5 - 83.5 81.5 9 83.5 - 87.5 85.5 2 TOTAL = 50 Intervalos de Clase L.R.I. L.R.S. 148.5 152.5 Marca de Clase (x) 150.5 Frecuencia Absoluta (f) 3 152.5 156.5 154.5 7 156.5 160.5 158.5 13 160.5 164.5 162.5 12 164.5 168.5 166.5 13 168.5 172.5 170.5 5 172.5 176.5 174.5 2 TOTAL = 55 ME. Gonzalo Joel Bautista Lara 67 Manual de Probabilidad y Estadística CBTA No. 33 Intervalo de clase L.R.I. L.R.S. 9.5 – 12.5 Marca de clase (x) 11 Frecuencia de clase (f) 3 12.5 –15.5 14 4 15.5 – 18.5 17 6 18.5 – 21.5 20 7 21.5 – 24.5 23 9 24.5 – 27.5 26 8 27.5 – 30.5 29 5 30.5 – 33.5 32 3 33.5 – 36.5 35 2 T O T A L: 47 Realiza la siguiente actividad de aprendizaje: De las edades de los maestros del C.B.T.a 33, calcula las MEDIDAS DE TENDENCIA CENTRAL (MEDIA, MEDIANA Y MODA) Tanto de los datos sin agrupar como agrupados. Edades: ¿????????? CALCULA PRIMERO LA MEDIA ARITMETICA, MEDIANA Y MODA DE LOS DATOS SIN AGRUPAR. Media Aritmética = _____________________________________________________ Ordena los datos: _____________________________________________________________________ Cuál es la Mediana =____________________ Cuál es la Moda = ___________________ ME. Gonzalo Joel Bautista Lara 68 Manual de Probabilidad y Estadística CBTA No. 33 AHORA PARA DATOS AGRUPADOS. Realiza la Tabla de distribución de frecuencias con los 7 pasos: PASO 1. Ordenación de datos: Edad de los maestros conteo Frecuencia PASO DOS: Rango o recorrido: PASO TRES: Intervalos de Clase: Número de intervalos o clases: Ancho del Intervalo o clase: PASO CUATRO: Límites reales inferiores y límites reales superiores: PASO CINCO: Marca de Clase PASO SEIS: Frecuencia Absoluta PASO SIETE: Frecuencia Relativa (%) Realiza tus operaciones en orden y limpieza hasta llenar la tabla de frecuencias ME. Gonzalo Joel Bautista Lara 69 Manual de Probabilidad y Estadística CBTA No. 33 TABLA DE DISTRIBUCIÓN DE FRECUENCIAS “Edades de los maestros del C.B.T.A.” Intervalos de Clase L.R.I. L.R.S Marca de Clase (X) Frecuencia Absoluta (f) Frecuencia Relativa (f’) Frecuencia Acumulada (F) AHORA UTILIZA LAS FORMULAS PARA DATOS AGRUPADOS Y CALCULA….. MEDIA ARITMETICA: Resultado Media =__________ MEDIANA: Resultado Mediana =_______ MODA: Resultado Moda =__________ ME. Gonzalo Joel Bautista Lara 70 (f )(x) Manual de Probabilidad y Estadística CBTA No. 33 Finalmente realiza una comparación de los tres ejercicios anteriores, comparando su media mediana y moda de cada uno. Intervalos de Clase L.R.I. L.R.S. 59.5 - 63.5 Marca de Clase (x ) 61.5 Frecuencia Absoluta (f ) 6 63.5 - 67.5 65.5 6 67.5 - 71.5 69.5 8 71.5 - 75.5 73.5 11 75.5 - 79.5 77.5 8 79.5 - 83.5 81.5 9 83.5 - 87.5 85.5 2 TOTAL = Media = ____________ Mediana=:___________ Moda=_____________ 50 Intervalos de Clase L.R.I. L.R.S. 148.5 152.5 Marca de Clase (x) 150.5 Frecuencia Absoluta (f) 3 152.5 156.5 154.5 7 156.5 160.5 158.5 13 160.5 164.5 162.5 12 164.5 168.5 166.5 13 168.5 172.5 170.5 5 172.5 176.5 174.5 2 TOTAL = 55 ME. Gonzalo Joel Bautista Lara 71 Media = ____________ Mediana=:___________ Moda=_____________ Manual de Probabilidad y Estadística Intervalo de clase 9.5 – 12.5 Marca de clase (x) 11 CBTA No. 33 Frecuencia de clase (f) 3 12.5 –15.5 14 4 15.5 – 18.5 17 6 18.5 – 21.5 20 7 21.5 – 24.5 23 9 24.5 – 27.5 26 8 27.5 – 30.5 29 5 30.5 – 33.5 32 3 33.5 – 36.5 35 2 T O T A L: Media = ____________ Mediana=:___________ Moda=_____________ 47 Cuartiles, Deciles y Percentiles: La mediana no es más que uno de muchos fractiles; éstos dividen los datos en dos o más partes, tan iguales “como sea posible”. Entre ellos también encontramos los cuartiles, deciles y percentiles, que pretenden dividir los datos en cuatro, diez, y cien partes. Hasta hace poco, los fractiles se manejaban principalmente para distribuciones de conjuntos numerosos de datos. El cuartil se utiliza a fin de conocer los intervalos dentro de los cuales quedan representados proporcionalmente los términos de una distribución, para esto, se divide la distribución de frecuencias en 4 partes iguales, cada una contiene IGUAL NÚMERO DE OBSERVACIONES (el 25% del total). Los puntos de separación de los valores de X se llaman CUARTILES.  El primer cuartil corresponde al 25% y se designa con Q1.  El segundo cuartil se designa con Q2 que representa el valor de 50% y coincide con la mediana.  El tercer cuartil es Q3 representa el 75% de las observaciones. Si en lugar de dividir en 4 partes iguales se hace con 10 partes, se tienen 9 puntos de división, CORRESPONDIENDO A CADA PUNTO UN DECIL, de donde, el primer decil es el valor por debajo del cual está el 10% de las observaciones, para el segundo decil el 20% y así sucesivamente. ME. Gonzalo Joel Bautista Lara 72 Manual de Probabilidad y Estadística CBTA No. 33 PRIMER EJEMPLO: Consideremos las siguientes lecturas de temperaturas altas en doce ciudades Europeas en un día de junio: 90, 75, 86, 77, 85, 72, 78, 79, 94, 82, 74, y 93 grados. Ordenando estas cifras de acuerdo con su tamaño, tenemos: 72 74 75 77 78 79 82 85 86 90 93 94 observa que son 12 datos Para el cálculo de los cuartiles dividimos los datos en CUATRO PARTES IGUALES. Para ilustrar dicho procedimiento tenemos la siguiente figura: n = 12 72 90 74 93 75 94 77 78 79 82 85 86 Se puede apreciar que las líneas punteadas dividen los datos en cuatro partes iguales. Si determinamos que los puntos centrales entre 75 y 77, 79 y 82, y 86 y 90 sean los tres cuartiles, tenemos: Q3  86  90 79  82  88 Q2   80.5 2 2 Q1  75  77  76 2 Es evidente que Q2 = 80.5, también es la mediana y se puede verificar con facilidad que se satisfacen las tres propiedades de los cuartiles. Todo lo anterior funcionó muy bien porque los doce datos resultó ser múltiplo de 4. No obstante ¿Qué podemos hacer si fueran 11 datos? Como los siguientes. 72 74 75 78 79 82 85 86 90 93 94 observa que son 11 datos Una solución es n = 11, la posición de la mediana es 11 + 1 = 12 = 6 o sea el sexto dato 2 2 La mediana o Q2 ahora es 82. 72 90 74 93 75 94 78 79 82 85 86 n = 11 El cuartil inferior (Q1) es la mediana de los cinco valores por debajo de la mediana, esto es, 75. ME. Gonzalo Joel Bautista Lara 73 Manual de Probabilidad y Estadística CBTA No. 33 Y el cuartil superior (Q3) es la mediana de los cinco valores por arriba de la mediana, o sea, 90. Ahora te toca realizar las actividades de aprendizaje: Realiza un esquema o dibujo de cada uno de los ejercicios, aun lado de la página a) Calcula a mediana (Q2) y los cuartiles (Q1) y (Q3) de las siguientes calificaciones de nueve alumnos en una prueba de matemáticas. 86, 82, 73, 94, 88, 66, 79, 90, y 74 b) Calcula los tres cuartiles de las siguientes lecturas de presión de nueve personas después de haber efectuado ejercicios de esfuerzo; 104, 100, 98, 111, 191, 94, 103, 96, 108 y 99. Regresión Lineal La regresión lineal es un modelo de regresión mediante el cual es posible inferir datos acerca de una población. Se conoce como regresión lineal ya que usa parámetros lineales (potencia 1). Supuestos del error Para poder crear un modelo de regresión lineal, es necesario que se cumpla con los supuestos del error: Los errores son independientes. Los errores tienen media cero. Los errores tienen varianza constante. Los errores tienen una distribución normal. Tipos de modelos de regresión lineal Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus parámetros: Regresión lineal simple. Sólo se maneja una variable independiente, por lo que sólo cuenta con dos parámetros. Regresión lineal múltiple. Maneja varias variables independientes. Cuenta con varios parámetros. Regresión lineal simple Para calcular los parámetros se cuenta con las siguientes fórmulas: ME. Gonzalo Joel Bautista Lara 74 Manual de Probabilidad y Estadística CBTA No. 33 Regresión lineal múltiple Para calcular los parámetros debe tomarse en cuenta que se está refiriendo a matrices: ME. Gonzalo Joel Bautista Lara 75 Manual de Probabilidad y Estadística CBTA No. 33 UNIDAD IV Medidas de Dispersión A menudo escuchamos que en los países latinoamericanos existe mucha DIFERENCIA entre los ingresos que perciben por ejemplo los políticos y los trabajadores de otra clase social de la población. Esas diferencias tienen sus raíces en distintos fenómenos sociales, políticos y económicos; sin embargo, un economista diría “el ingreso per cápita en los países latinoamericanos está más DISPERSO que el ingreso per cápita de los países desarrollados”. El concepto de DISPERSIÓN resulta importante en casi todos los estudios, ya que puede darse el caso de poblaciones con igual valor central (Media aritmética, Mediana o Moda), pero una puede estar más DISPERSA que la otra, es decir, los promedios nos sirven para describir los datos representados por la tendencia central del conjunto. Por lo tanto, el promedio no logra por si mismo describir completamente a una colección de datos; se necesitan otros valores que nos indiquen el grado en que las observaciones estudiadas se apartan o VARÍAN con respecto al valor central, es decir, el GRADO DE VARIACIÓN O DISPERSIÓN. ANALIZA CON DETENIMIENTO EL SIGUIENTE EJEMPLO… ME. Gonzalo Joel Bautista Lara 76 Manual de Probabilidad y Estadística CBTA No. 33 Con los siguientes datos de dos poblaciones, analicemos primeramente sus medias aritméticas: Población A) : 1 (7) , 2 (11), 3 (13), 4 (9), 5 (5), 6( 3), 7( 2), 8(1) = 169 = 3.31 51 n = 51 15 -13 -- Histograma de los datos de la población A 11 -Frecuencia 9 -- Media aritmética (promedio) =3.31 7 -5 -3 -1 -1 2 3 4 5 6 Población B) : 1 ( 3 ), 2 ( 9 ), 3 ( 15 ), 4 ( 12 ), 5 ( 9 ) = Población A 7 8 159 = 3.31 igual que la 48 n = 48 15-13-- Histograma de los datos de la población B 11-Frecuencia 9-7-- Media aritmética (promedio) = 3.31 5-3-1-1 2 3 4 5 No obstante que en las dos poblaciones se obtuvo una media aritmética igual de 3.31; al observar los dos histogramas nos damos cuenta que no son iguales PERO... ¿EN CUÁL HISTOGRAMA ESTÁN MÁS DISPERSOS LOS DATOS? ME. Gonzalo Joel Bautista Lara 77 Manual de Probabilidad y Estadística CBTA No. 33 En la población “A”____________ o en la población “B”_____________ Explica porque? ________________________________________________________ ______________________________________________________________________ Por tal motivo las medidas de tendencia central, no dicen nada por sí mismas, por lo que se deben calcular las MEDIDAS DE DISPERSIÓN o LAS VARIACIONES de los datos. Por su cálculo las MEDIDAS DE DISPERSIÓN se dividen en absolutas y relativas, aún que existen más, estudiaremos las siguientes: DISPERSIÓN ABSOLUTA: Rango o recorrido Rango intercuartilico o desviación cuartil Desviación Media Varianza Desviación Estándar DISPERSIÓN RELATIVA: Coeficiente de variación Rango o recorrido: Como se ha indicado con anterioridad, el rango o recorrido es la diferencia entre el valor mayor y el valor menor de un grupo de datos o sea: RANGO = Dato mayor – Dato menor El rango es una medida de dispersión que no se utiliza mucho, aunque su cálculo es muy rápido. Si analizamos el rango de los histogramas anteriores tenemos que; En la primera población A su rango es: R=8–1=8 (su rango o recorrido es 8) En la segunda población B se rango es: R=5–1=5 (su rango o recorrido es 5 ) Por lo tanto y como 8 > 5, podemos señalar con seguridad que los datos de la primera población A), está más dispersa o desviados que los datos de la segunda población B). ME. Gonzalo Joel Bautista Lara 78 Manual de Probabilidad y Estadística CBTA No. 33 AHORA ESTUDIAREMOS OTRAS MEDIDAS DE DISPERSIÓN PARA DATOS NO AGRUPADOS Desviación media, varianza, desviación estándar o típica y coeficiente de variación, que son medidas de dispersión que tienen relación con la media aritmética, y por sus propiedades algebraicas son las de más frecuente aplicación y de mayor importancia. PERO ANTES QUE NADA … ¿QUE ES EL DESVÍO O DESVIACIÓN ? El desvío de cada observación (o dato) es la DIFERENCIA ENTRE LA OBSERVACIÓN (o el dato) Y LA MEDIA ARITMÉTICA. El desvío es un concepto fundamental que nos permitirá comprender posteriormente otras medidas de dispersión. Por lo tanto. x Desvío ( d ) = x1 – Pero hagamos un ejemplo… Si el conjunto de datos son: 4, 2, 5, 8, 2, 1, 7, 8, 5, y 7 su media aritmética es = 4.9 ¿Cuál es la dispersión de cada dato? ¿Cuál es el dato que está mas disperso? ¿Cuál es el dato menos disperso? Ordenamos los datos de menor a mayor 1, 2, 2, 4, 5, 5, 7, 7, 8, 8 y grafiquemos x 1 2 4 4.9 7 8 9 Según la fórmula anterior, desvío es igual al dato menos la media aritmética por lo tanto tenemos: ME. Gonzalo Joel Bautista Lara 79 Manual de Probabilidad y Estadística CBTA No. 33 La desviación de cada dato será: Datos 1 2 2 4 5 5 7 7 8 9 49/10=. x desvío = Calculo del desvío d = X1 1 – 4.9 = 2 – 4.9 = 2 – 4.9 = 4 – 4.9 = 5 – 4.9 = 5 – 4.9 = 7 – 4.9 = 7 – 4.9 = 8 – 4.9 = 8 – 4.9 = 9 - 3.9 -2.9 -2.9 -0.9 0.1 0.1 2.1 2.1 3.1 3.1 -10.6 Suman – 10.6 Suman + 10.6 +10.6= 0.0 De acuerdo a los resultados de la tabla ¿Cuál es el dato que está más disperso? Es el número 1, porque independientemente de su signo, su valor absoluto es el mas alto y es de – 3.9 de desvío. Ahora ¿Cuál es el dato menos disperso? Es el número 5 porque está más cerca de la media aritmética y tiene un desvío de 0.1. Si observas la tabla anterior en muy importante obtener primero el valor de la media aritmética que en nuestro caso fue de 49 / 10 = 4.9 para después restarle al valor de cada dato, dicha media. Por otro lado, al sumar los resultados NEGATIVOS de los desvíos nos arroja un valor de – 10.6 y al sumar los resultados POSITIVOS de los desvíos también nos da un valor de + 10.6 por lo tanto, se comprueba que la diferencia de los desvíos negativos y los positivos, nos da cero o en su defecto tiende a ser cero. Ahora resolvamos un problema para utilizar las medidas de dispersión ME. Gonzalo Joel Bautista Lara 80 Manual de Probabilidad y Estadística CBTA No. 33 Desviación media, varianza, desviación estándar o típica y coeficiente de variación con datos no agrupados. Número de muestra 1 DATOS de la resistencia del concreto kg/cm2 358 2 369 3 363 4 358 5 336 6 341 Un constructor, para asegurarse de la calidad de su obra, tomó seis muestras de concreto y obtuvo los resultados del cuadro. Al preguntarle uno de sus colaboradores ¿Cuál de todas las muestras del grupo era la más dispersa? el constructor elaboró la siguiente tabla: Número de Finalmente el constructor en base a muestra 1 la tabla y a los cálculos realizados le indicó a su colaborador: Resistencia Kg/cm2 x 358 desvíos d = x1 – 358 – 354.17 = 3.83 2 369 369 – 354.17 = 14.83 3 363 363 – 354.17 = 8.83 4 358 358 – 354.17 = 3.83 5 336 336 – 354.17 = -18.17 341 341 – 354.17 = - 13.17 Diferencia = 0.02 6 Suma =2125 2125/6= Media =354.17 LA MUESTRA NÚMERO 5 ES LA MÁS DISPERSA, DEBIDO A QUE OBTUVO EL MAYOR VALOR ABSOLUTO DE DESVÍO CON -18.17. En este caso particular, el mayor valor tuvo el signo negativo lo que significa que la observación es menor que el valor de la media. Calculemos ahora la… Desviación Media. La desviación media es la media aritmética de los valores absolutos (ignorando el signo) de las desviaciones de cada elemento del conjunto de datos, es decir, hay que restar a la media aritmética cada valor del conjunto de datos, ignorando el signo, y sumamos todas las diferencias para dividirlo entre el número total de datos. ME. Gonzalo Joel Bautista Lara 81 Manual de Probabilidad y Estadística N dm  x 1 i 1 CBTA No. 33 x N Suma de los valores absolutos Su fórmula es Número de datos Sigamos el mismo ejemplo y AUMENTEMOS UNA COLUMNA para los valores absolutos al cuadro anterior: Datos de resistencia 358 x3.83 2 369 14.83 14.83 3 363 8.83 8.83 4 358 3.83 3.83 5 336 -18.17 18.17 341 -13.17 0.02 13.17 Suma = 62.66 6 x 2125  6 Desvío x x Número de muestra 1 x Valor absoluto |x- | 3.83 = 354.17 Desviación media es igual a... La suma de los valores absolutos entre el número de muestras Desviación Media ( dm ) = 62.66 = 10.44 6 Como se ve en el ejemplo anterior, La Desviación Media MIDE LA DISPERSIÓN ALREDEDOR DEL PROMEDIO, mas que la dispersión de ciertos valores, ya que el concepto de desviación media se origina cuando los desvíos se toman en valor absolutos, eliminando así el efecto de que la suma de los desvíos (x1 – x = 0 ) que es igual a cero (o tiende a cero). ME. Gonzalo Joel Bautista Lara 82 Manual de Probabilidad y Estadística N S2  (x i 1 CBTA No. 33  x )2 1 N Otra forma de hacerlo, es elevar al cuadrado los desvíos, por lo que surge la VARIANZA (S2):Que es la media aritmética (promedio) de los cuadrados de los desvíos y su fórmula es la siguiente: Suma de desvíos al cuadrado Número de datos Sigamos el mismo ejemplo para calcular la varianza ( S2): AUMENTAMOS OTRA COLUMNA a la tabla, ahora para los desvíos al cuadrado Número de muestra x Datos de resistencia Valor absoluto Desvío x Desvíos al cuadrado x (x - )2 1 358 3.83 |x- | 3.83 2 369 14.83 14.83 219.93 3 363 8.83 8.83 77.97 4 358 3.83 3.83 14.67 5 336 -18.17 18.17 330.15 6 341 -13.17 13.17 173.45 x- x Se tiende a 2125/6 144.67 Suma= 62.66 Suma = 830.83 0.02 = 354.17 Calculamos la varianza según la fórmula anterior y tenemos: Varianza (S2) = Suma de desvíos al cuadrado = 830.83 Número de datos = 138.47 6 DESVIACIÓN ESTÁNDAR o TÍPICA ( S ): Es la raíz cuadrada de la varianza (S2 ) S  ( x  x) 2 1 N También se puede definir como la raíz cuadrada de la media aritmética de los cuadrados de los desvíos. ME. Gonzalo Joel Bautista Lara 83 Manual de Probabilidad y Estadística CBTA No. 33 En el mismo ejemplo tendríamos lo siguiente: Varianza (S2) fue igual a = 138.47 por lo tanto… Desviación Estándar ( S ) = 138.47 = 11.77 Finalmente analicemos la medida de dispersión relativa llamada COEFICIENTE DE VARIACIÓN ( C.V ): Es el resultado de la división de la desviación estándar entre la media aritmética. Este tipo de coeficiente es muy útil para medir la DISPERSIÓN RELATIVA en base a la desviación estándar y la media y sirve básicamente para comparar muestras distintas en términos numéricos adimensionales, es decir, que mientras las demás medidas de dispersión tienen unidades, el coeficiente de variación carece de ellas. Su fórmula es... C.V. = S( Desviación Estándar) . X ( Media Aritmética) En el mismo ejemplo que estamos analizando, el coeficiente de variación será: C. V = 11.77 . = 0.033 354.17 También se puede expresar en porcentaje al multiplicar por 100 esto es, (0.033) (100) = 3.30% C.V. = 3.30 % Rango Intercuartil El rango intercuartil es el resultado de la diferencia entre el tercer cuartil Q3 y el primero Q1, se expresa: Rango intercuartilQ = Q3 - Q1 Cuando habiéndose aplicado la media aritmética se quiere evitar la influencia de los valores extremos, se analiza únicamente la situación intermedia de la distribución de frecuencias aplicando el RANGO INTERCUARTIL. El RANGO SEMIINTERCUARTIL o DESVIACIÓN CUARTIL, es la mitad del rango intercuartil, se designa con QD Rango semiintercuartil QD = ME. Gonzalo Joel Bautista Lara 84 Q3 - Q1 Manual de Probabilidad y Estadística CBTA No. 33 2 Hagamos un ejemplo: Calcular el rango intercuartil y la desviación cuartil de los siguientes datos. n = 12 Q3  72 74 75 77 78 79 82 85 86 86  90 79  82 75  77  88 Q2   80.5 Q1   76 2 2 2 Rango intercuartil Q = Q3 – Q1 Q =88 – 76 = 12 Rango semiintrecuartil o Desviación cuartil QD = Q3 – Q1 2 QD = 12 = 6 2 El rango semiintercuartil (desviación cuartil) mide la dispersión con mayor precisión que el rango, sin embargo, presenta las limitaciones siguientes: a) No toma en consideración todos los valores de la distribución de frecuencias y puede suceder que los valores menores a Q1 o superiores a Q3 estén muy compactos o muy dispersos, y el valor de Q sería el mismo. b) No es posible, conociendo únicamente Q, hacer la ubicación precisa de una observación dentro de la distribución de frecuencias. c) Igual que la mediana, no tiene propiedades que permitan su uso en las relaciones matemáticas que utiliza la estadística Percentiles Percentil, en estadística, parámetro que indica el porcentaje de individuos de una distribución que tienen un valor inferior a él. Es una medida de posición. Por ejemplo, el percentil 80, p80, es un número que supera al 80% de los datos de la distribución. Los percentiles también se llaman centiles. A CONTINUACIÓN TE PRESENTO UN RESUMEN DE LAS MEDIDAS DE DISPERSIÓN ESTUDIADAS Y SU USO MÁS ADECUADO. ME. Gonzalo Joel Bautista Lara 85 Manual de Probabilidad y Estadística CBTA No. 33 RANGO ( R )= Es la diferencia del valor mayor menos el valor menor en un conjunto de datos y se emplea de manera muy limitada, ya que es sólo una apreciación de la amplitud de los datos, y presenta poca estabilidad; se usa, casi siempre que se requiera rapidez. RANGO INTERCUARTIL ( Q ): es el resultado de la diferencia entre el tercer cuartil Q3 y el primero Q1. Su utilidad es baja y su valoración respecto a la cantidad de datos que incluye en su aplicación en una distribución normal es del 50 % DESVIACIÓN MEDIA ( dm )= Es el promedio de los valores absolutos (ignorando signos) de las desviaciones de cada dato; En ésta prueba se pueden calcular los desvíos tanto con la media aritmética como la mediana, según convenga. Actualmente ésta prueba casi no se usa. En una distribución normal, la cantidad de datos que incluye en su aplicación es de aproximadamente el 58%. VARIANZA( S2) = Es el promedio de los cuadrados de los desvíos y se utiliza en análisis estadístico avanzado, pero tiene el inconveniente de que sus unidades son las mismas de la variable al cuadrado. DESVIACIÓN ESTÁNDAR(S) = Es la raíz cuadrada de la varianza o del promedio de los cuadrados de los desvíos. Es la más importante de todas las medidas de dispersión ya que incluye más o menos el 68% de los términos de una distribución normal, además por sus propiedades algebraicas se utiliza con facilidad en el análisis estadístico COEFICIENTE DE VARIACIÓN( CV) = Es el cociente entre la desviación estándar y la media aritmética. Generalmente se utiliza para comparar muestras distintas y saber cuál tiene mayor o menor dispersión den sus datos. SIGAMOS PRACTICANDO PARA OBTENER LAS MEDIDAS DE DISPERSIÓN PARA DATOS NO AGRUPADO S Toma los datos de los tiempos que realizas para llegar a la escuela de los grupos de estudiantes del CBTA 33, que están en el V semestre de Agropecuario. A cada uno de los grupos le obtendrás las medidas de dispersión siguientes: DESVIOS de tiempo, DESVIACIÓN MEDIA, VARIANZA, DESVIACIÓN ESTÁNDAR Y COEFICIENTE DE VARIACIÓN ¡¡¡ Claro que puedo!!! Tiempo Desvío s Valor absoluto Desvíos al cuadrado ME. Gonzalo Joel Bautista Lara 86 Tiempo Desvío s Valor absoluto Desvíos al cuadrado Manual de Probabilidad y Estadística CBTA No. 33 1 Grupo I Grupo II En la siguiente página… REALIZA TUS CÁLCULOS DE ACUERDO A LAS FÓRMULAS CORRESPONDIENTES, HASTA OBTENER SUS RESULTADOS PARA CADA GRUPO. Cálculos para el grupo “I” Cálculos para el grupo “II” RESULTADOS DEL GRUPO “II” DESVIACIÓN MEDIA (dm) = ____________________ VARIANZA (S2) = _____________________________ AHORA CONTESTA ¿CUÁL DE LOS DOS GRUPOS TIENE SUS DATOS MÁS DISPERSOS? Respuesta: Grupo I ____ o Grupo II _____ ¿Por qué?___________________________________________________ ME. Gonzalo Joel Bautista Lara 87 Manual de Probabilidad y Estadística CBTA No. 33 FINALMENTE OBTENGAMOS LAS MEDIADAS DE DISPERSIÓN PARA DATOS AGRUPAD OS OBTENER LA DESVIACIÓN MEDIA (dm), VARIANZA (S2), DESVIACIÓN ESTANDAR (S) Y COEFICIENTE DE VARIACIÓN (C.V.) Completa las siguientes filas de las columnas para que calcules la Desviación media (dm), la Varianza (S2) la Desviación estándar o típica ( S ). Intervalo clase (estaturas ) Marca de clase (X) 121.5 – 126.5 126.5—13.1.5 131.5—136.5 136.5—141.5 141.5—146.5 146.5—151.5 151.5—156.5 156.5—161.5 Frecuencia (alumnos) (f) 124 2 3 8 23 27 20 16 3 134 144 1 Frecuencia por marca de clase (f)(X) 248 Valor absoluto del desvío X1  X Frecuencia por desvíos f X1  X Desvíos al cuadrado (X – X)2 Frec. por desvíos al cuadrado XX 2 f 20.62 46.86 112.78 0.62 383.60 477 14.38 206.78 59 161.5—166.5 Totales 2 n = 104 15041 638.64 6383.92 Media aritmética = 15041/ 104 = 144.625 = 144.62 Aquí o aun lado de la página, realiza tus cálculos con orden y limpieza; y utilizando las formulas correspondientes hasta que obtengas la Desviación media, Varianza y Desviación estándar. N dm  f i 1 x1  x N Fórmula para obtener la desviación media = N S2   f (x i 1 1  x)2 N Fórmula para obtener la varianza = ME. Gonzalo Joel Bautista Lara 88 Manual de Probabilidad y Estadística N S   f (x 1 i 1 CBTA No. 33  X )2 N Fórmula para obtener la desviación estándar (S) = S (100) X C.V .  Fórmula para obtener el coeficiente de variación en porcentaje RESULTADOS Desviación media = Varianza= Actividades de aprendizaje: Calcula las medidas de dispersión (desviación media, varianza, desviación estándar y coeficiente de variación) de los siguientes dos ejercicios. Intervalos de Clase Marca de Clase (x) Frecuencia Absoluta (f ) 59.5 - 63.5 61.5 6 63.5 - 67.5 65.5 6 67.5 - 71.5 69.5 8 71.5 - 75.5 73.5 11 75.5 - 79.5 77.5 8 79.5 - 83.5 81.5 9 83.5 - 87.5 85.5 2 TOTAL = Frecuencia por marca de clase (f)(X) Valor absoluto del desvío X1  X 50 ME. Gonzalo Joel Bautista Lara RESULTADOS 89 Desviación media = Frecuencia por desvíos X1  X f Desvíos al cuadrado (X – X)2 Frec. por desvíos al cuadrado XX f 2 Manual de Probabilidad y Estadística CBTA No. 33 Ahora realiza el siguiente ejercicio tomado de datos de ejercicios anteriores. Intervalos Marca de de Clase Clase (x) 148.5 152.5 150.5 152.5 156.5 154.5 156.5 160.5 58.5 160.5 164.5 162.5 164.5 168.5 166.5 168.5 172.5 170.5 172.5 176.5 174.5 TOTAL = Frecuencia Absoluta (f) 3 7 13 12 13 5 2 55 RESULTADOS Desviación media = Varianza = ME. Gonzalo Joel Bautista Lara 90 Manual de Probabilidad y Estadística CBTA No. 33 UNIDAD V Probabilidad El problema central de la estadística es el manejo del azar y la incertidumbre. Los eventos aleatorios siempre se han considerado como misteriosos. El libro de Job ponderó hace mucho tiempo la función del intento divino en los acontecimientos al azar y fue, varios siglos más tarde, que se usó el poder de las matemáticas para explicar la aleatoriedad. Los orígenes de las matemáticas de la probabilidad se remontan al siglo XV, las primeras aplicaciones se relacionan básicamente a los juegos de azar. Los jugadores ganadores utilizaron el conocimiento probabilístico para desarrollar estrategias de apuestas en loterías, casinos, carreras de caballos etc. Los avances científicos de los siglos que siguieron al Renacimiento, enfatizando la observación y la experimentación cuidadosa, dieron lugar a la teoría de la probabilidad para estudiar las leyes de la naturaleza y los problemas de la vida cotidiana. Conceptos básicos Con el objeto de familiarizarse con el concepto de la probabilidad comenzaremos por dar una definición de probabilidad que sólo es válida cuando todos los resultados son igualmente probables. Si hay n posibilidades igualmente probables y una de ellas debe ocurrir, entonces la probabilidad de que ocurra algún evento o suceso de k de estas n posibilidades es k / n. Las palabras SUCESO O EVENTO aquí los utilizaremos como sinónimos. Si un experimento se repite muchas veces, digamos n y si el suceso o evento E1 se observa k veces, entonces la probabilidad S del suceso E1 es el cociente de la razón k / n. Probabilidad S = núm de veces que el suceso E1 ocurrió Total de sucesos realizados =k . n La experiencia justifica esta igualdad, pues a medida que n se hace mayor, la frecuencia relativa se aproxima más a la probabilidad matemática. Este concepto se utiliza para definir la razón citada como probabilidad empírica, algunos autores la citan como FORMULA BÁSICA de la probabilidad. Otro concepto importante es que la probabilidad de que suceda un evento es un número real entre cero y uno. Entre más pequeño sea este número, el evento es menos probable, y ME. Gonzalo Joel Bautista Lara 91 Manual de Probabilidad y Estadística CBTA No. 33 entre más cercano a uno sea este número, el evento es más probable. Cuando la probabilidad es igual a ½ el evento tiene la misma probabilidad de ocurrir que de no ocurrir. Coloquialmente también hablamos de probabilidades empleando porcentajes. Así la posibilidad de que al tirar el dado el resultado sea 2 o 5 es de 2/6 = 1/3 que sería igual al 33.33 % ya que se dividió 1/3 por 100. ¿Cuál es la probabilidad de obtener un número impar al lanzar un dado?. S = ( 1, 2, 3, 4, 5, 6 ) E = ( 1, 3, 5, ) p(E)= 3 = 1 6 2 La probabilidad es de ½ o 0.5 en porcentaje será el 50% ¿Cuál es la probabilidad de extraer una ficha de dominó con 7 puntos de una caja, sin ver?. S = (6,6), (6,5), (6,4), (6,3), (6,2), (6,1), (6,0), (5,5), (5,4), (5,3), (5,2), (5,1), (5,0), (4,4), (4,3), (4,2), (4,1), (4,0), (3,3), (3,2), (3,1), (3,0), (2,2), (2,1), (2,0), (1,1), (1,0), (0,0) E = { (6,1), (5,2), (4,3) } p( E ) = 3 = 0.1071 en porcentaje será el 10.71% 28 Modelos matemáticos En la teoría de probabilidadmatemática se define la probabilidad con los tres axiomas de Kolmogorov. Axiomas de Kolmogorov Primer axioma La probabilidad de un suceso A es un númerorealentre 0 y 1. . Segundo axioma Ocurre un suceso de la muestra de todos los sucesos o espacio de sucesos probabilidad 1. . la probabilidad del espacio muestral es igual a 1: p(S)=1 ME. Gonzalo Joel Bautista Lara 92 con Manual de Probabilidad y Estadística CBTA No. 33 Tercer axioma Si A1, A2 ... son sucesos mutuamente excluyentes (incompatibles dos a dos, disjuntos o de intersección vacía dos a dos), entonces: . Permutaciones y combinaciones Para pronosticar el triunfador de una elección municipal necesitamos al menos conocer quiénes son los candidatos de los distintos partidos políticos, así como para pronosticar si la selección mexicana de fútbol ganará un partido, es necesario saber si en caso de empate el partido se decidirá en tiempos extras o por medio de penales. En general, NO ES POSIBLE HACER PREDICCIONES RAZONABLES A MENOS DE QUE CONOZCAMOS LO QUE ES POSIBLE, es decir, es necesario conocer LO QUE ES POSIBLE antes de juzgar LO QUE ES PROBABLE. Por lo tanto estudiaremos someramente cómo determinar en algunos casos lo que es posible. En el estudio de “lo que es posible” hay esencialmente dos tipos de problemas. Existe el problema de hacer una lista de todo lo que puede suceder en una situación determinada y se tiene el problema de determinar cuántas cosas diferentes pueden suceder. El segundo tipo de problema es de especial importancia porque hay muchas situaciones en que no necesitamos una lista completa y por tanto, podemos ahorrarnos una gran cantidad de trabajo. Diagrama de árbol Aunque el primer tipo de problema puede parecer directo y sencillo, existen problemas que ilustran que esto no siempre es el caso; hagamos unos ejercicios para reflexionar. En un estudio médico se clasifica a los pacientes de acuerdo con el tipo de sangre que tengan, ya sea, tipo A; B, AB u O y también de acuerdo con su tipo de presión sanguínea, ya sea baja, normal o alta. ¿De cuántas maneras distintas se puede clasificar a un paciente? Este tipo de problemas se puede manejar sistemáticamente trazando un DIAGRAMA DE ÁRBOL como el siguiente, donde se puede apreciar que la respuesta es 12. Comenzando por la ME. Gonzalo Joel Bautista Lara 93 Manual de Probabilidad y Estadística CBTA No. 33 parte superior, el primer camino a lo largo de las “ramas” corresponde a un paciente con tipo de sangre A y presión sanguínea baja, el segundo camino a un paciente con tipo de sangre A y presión sanguínea normal … y el duodécimo camino corresponde a un paciente que tiene sangre tipo O y una presión sanguínea alta. La respuesta que obtuvimos es de 4 por 3 = 12, específicamente es el producto del número de tipos de sangre por el número de niveles de presión sanguínea. Otro ejemplo: ¿Cuántas palabras de tres letras se pueden formar si se dispone de un alfabeto con dos letras; a y b.? (Nota: Son permisibles palabras como bba) Solución: Si tenemos 2 letras (a, b) y formamos la palabra con tres letras tendremos 23 = 2 x 2 x 2 = 8 esto quiere decir que formaremos ocho palabras con tres letras. Para comprender mejor hagamos otro “DIAGRAMA DE ÁRBOL” Letra Letra letra palabra Inical central final formada a ………………….. aaa a b …………………… a a b a a …………………… a b a b b ………………….. abb a ………………….. baa b …………………. bab a …………………. bba b …………………. b bb a b b ME. Gonzalo Joel Bautista Lara 94 Manual de Probabilidad y Estadística CBTA No. 33 Te toca a ti resolver el siguiente ejercicio utilizando un principio de conteo. ¿Cuántas placas distintas hay con dos letras a la izquierda y tres números a la derecha? Considerando que el alfabeto es de 27 letras castellanas y por supuesto 10 números Realiza aquí tus operaciones. ANIMO TU PUEDES PLACA DE MICHOACÁN SI OBTUVISTE BIEN EL RESULTADO, HAS DESCUBIERTO UN PRINCIPIO DEL CONTEO QUE ES EL… PROCESO DE CONTAR Si un primer suceso o evento puede efectuarse de p1 maneras diferentes, y si después de que este suceso ha sido efectuado, un segundo suceso puede efectuarse de p2 maneras diferentes, entonces los dos sucesos pueden verificarse siguiendo el orden indicado de p1. p2 maneras diferentes. Analiza con cuidado: De cuantas maneras diferentes se pueden seleccionar parejas de diferentes sexo de un grupo de 4 hombres y 6 mujeres? Solución: Como cada hombre puede ser seleccionado de cuatro maneras diferentes y cada mujer puede ser seleccionada de 6 maneras diferentes; entonces, cada pareja puede ser escogida de: 4 ( 6 ) = 24 maneras diferentes. Si el suceso o evento incluye más de dos sucesos diferentes podemos ampliar el principio multiplicativo, de manera que si después de haber ocurrido los dos primeros sucesos, puede ocurrir un tercero de p3 maneras diferentes, un cuarto de p4 maneras diferentes, y por último un n-ésimo de pn maneras diferentes, entonces los sucesos pueden ocurrir en el orden siguiente: p1 p2 p3 p4 …, pn maneras diferente. Reflexiona y piensa: Una cafetería ofrece una comida especial que consiste en un emparedado (usando una de ocho carnes distintas y uno de cuatro tipos diferentes de pan), una de cuatro clases distintas de sopa y una de tres bebidas diferentes. ¿De cuántas maneras distintas una persona puede seleccionar una de estas comidas especiales? ME. Gonzalo Joel Bautista Lara 95 Manual de Probabilidad y Estadística CBTA No. 33 Solución: Dado que p1 = 8, p2 = 4, p3 = 4, p4 = 3, hay (8)(4)(4)(3) = 384 maneras diferentes en que se puede seleccionar una comida especial. Sigue pensando y analizando: Un examen de estadística, consta de quince preguntas de opción múltiple, de las cuales cada una tiene cuatro posibles respuestas. ¿De cuántas maneras distintas un estudiante puede marcar una respuesta para cada pregunta? Solución: puesto que p1=p2=p3=…= p15 = 4, en total hay 4.4.4.4.4.4.4.4.4.4.4.4.4.4.4 = 1,073,741,824 diferentes maneras en que un estudiante puede marcar una respuesta para cada pregunta. Nótese que sólo en una de las 1,073,741,824 posibilidades todas las respuestas son correctas. Y si queremos saber todas las respuestas incorrectas? será: 3.3.3.3.3.3.3.3.3.3.3.3.3.3 = 14,348,907 todas las respuestas incorrectas. En una calculadora científica este tipo de problema se resuelve de la siguiente forma: p15 (o quince preguntas) tiene 4 posibles respuestas = cuatro respuestas por las 15 preguntas tenemos = 415 ponemos 4 y tecleamos X y , ponemos 15 y la tecla = y nos arroja el resultado 1,073,741,824 El principio multiplicativo nos permite en muchos casos calcular el número de posibilidades sin necesidad de listar todas ellas o de desarrollar un diagrama de árbol excesivamente grande. ES IMPORTANTE TENER EN CUENTA QUE PARA APLICAR ESTA REGLA, NO DEBE HABER RESTRICCIONES EN LAS COMBINACIONES POSIBLES. FACTORIAL ¿QUE ES EL FACTORIAL DE UN NÚMERO? Uno de los principales conocimientos que nos servirán como base para el cálculo de las técnicas de conteo (permutaciones y combinaciones), es el factorial de un número. Su definición y algunos ejemplos se comentan enseguida. El producto de cualquier número entero positivo n por todos los enteros menores que n se llama FACTORIAL de n y se expresa con el símbolo n!, por lo tanto: 0! = 1 por definición 1! = 1 (1) = 1 2! = 2 (1) = 2 3! = 3 (2) (1) = 6 4! = 4 (3)(2)(1) = 24 ME. Gonzalo Joel Bautista Lara 96 Manual de Probabilidad y Estadística CBTA No. 33 5! = 5 (4)(3)(2)(1) = 120 . . . n! = (n) (n-1) (n-2) ,…(1) El factorial de los primeros números enteros positivos se pueden obtener directamente utilizando una calculadora, para números mayores se obtienen con la formula aproximada de Stirling o consultando tablas elaboradas con resultados. En tu calculadora científica pon 6 y oprime la tecla n! y te arrojará 720, que es el factorial de 6. Cuanto es el factorial de 7! = ______________________ 8! = ______________________ 9! =_______________________ 10! = _______________________ Actividades de aprendizaje: Resuelve los siguientes problemas de probabilidades de frecuencia relativa en fracciones ( 0 a 1) y en porcentajes (%). REALIZA AQUÍ TUS CÁLCULOS. 1) ¿Cuál es la probabilidad de obtener un AS de una baraja de póker (de 52 cartas)? 2) De cada 1000 personas a quienes se les practican exámenes médicos 35 tienen problemas de la vista. ¿Cuál es la probabilidad de que una persona examinada padezca algún malestar con su vista? 3) En una caja hay 75 canicas azules y 225 rojas. ¿Cuál es la probabilidad de sacar al azar una canica azul? Además calcula ¿cual es la probabilidad de sacar una roja? 4) En una caja hay 25 tornillos en buen estado y 80 defectuosos. ¿Cuál es la probabilidad de sacar de la caja al azar? ME. Gonzalo Joel Bautista Lara 97 Manual de Probabilidad y Estadística CBTA No. 33 a) Un tornillo en buen estado b) Un tornillo defectuoso? MAS ACTIVIDADES DE APRENDIZAJE: UTILIZA LA HOJA DE AUN LADO O DE ATRAZ, PARA RESOLVER LOS SIGUIENTES PROBLEMAS DE CONTEO (Diagrama de árbol y principio multiplicativo,) 1) ¿De cuántas maneras diferentes se puede arreglar uno de los viajes especiales de fin de semana a 12 ciudades distintas, por avión, tren o autobús, que ofrece una agencia de viajes?: ELABORA UN DIAGRAMA DE ÁRBOL PARA ESTE EJERCICIO. 2) En un restaurante ofrecen 4 tipos de comidas (a,b,c,d); 3 tipos de sopas (1,2,3); y 3 tipos de postres( x,y,z), ¿Cuáles son el número total de posibles formas de arreglos? ELABORA UN DIAGRAMA DE ÁRBOL PARA ESTE EJERCICIO. 3) Un examen de 10 preguntas consiste en 6 preguntas de elección múltiple, cada una con 4 posibles respuestas, y la otra parte del examen con 4 preguntas de falso y verdadero. a) ¿De cuántas maneras (diferentes) se puede contestar el examen? b) ¿En cuantas maneras es posible responder el examen y obtener todas las respuestas mal? 4) Una persona piensa comprar cierto automóvil. El fabricante ofrece cualquier combinación de las siguientes alternativas: SEIS colores diferentes; DOS tipos de motor; TRES tipos de rines; Transmisión manual o automática; sin radio, con radio AM-FM, con radio AM-FMTocacintas o con radio AM-FM-CD; y sin aire acondicionado o con aire acondicionado. Cada ME. Gonzalo Joel Bautista Lara 98 Manual de Probabilidad y Estadística CBTA No. 33 comprador debe hacer UNA elección con respecto al color, motor, rines, transmisión, radio y aire acondicionado. 5) De una ciudad A a otra B hay 4 caminos; a su vez de la ciudad B a la C hay 6 caminos, si todos los caminos son diferentes, de cuantas formas es posible: a) Viajar de A hasta C pasando por B b) Hacer el viaje “redondo” saliendo de A hasta C pasando por B y de C hasta A pasando por B c) Hacer el viaje “redondo” desde A hasta C pasando por B pero sin utilizar el mismo camino más de una vez. Ciudad Ciudad A ME. Gonzalo Joel Bautista Lara 99 B Ciudad C Manual de Probabilidad y Estadística CBTA No. 33 Bibliografía y Referencias Chávez Escalante, M. (2001). Fundamentos de Estadística Descriptiva y Probabilidad. México, D.F.: DGETA. Ruíz Muñoz, D. y. (sd de sm de sa). http://www.eumed.net/libros/2006a/rmss/00.htm. Recuperado el 11 de julio de 2011, de http://www.eumed.net/libros/2006a/rmss/00.htm: http://www.eumed.net/libros/2006a/rmss/00.htm Antología de Probabilidad y Estadística, DGETA, SILVA MARTÍNEZ, Jesús Manuel, Asómate a las matemáticas, Ed. Progreso, México, DF. 2011 COLLINS, Jane, Probabilidad y estadística, ALEC, México DF. 2013. http://www.julioprofe.net/ http://www.vitutor.com/estadistica.html http://www.youtube.com/watch?v=akNzV9KX6jI http://www.youtube.com/watch?v=ugOQZtMlwcY ME. Gonzalo Joel Bautista Lara 100

Comments

Description