Ensayo sobre el Método de Muestreo Hipercubo Latino2 El Método de Muestreo Hipercubo Latino Introducción El método muestreo hipercubo latino (LHS por las siglas en ingles de “Latin Hypercube Sampling”) es un método estadístico para generar una muestra de colecciones plausibles de valores de los parámetros de una distribución multidimensional. El método de muestreo se utiliza a menudo para la construcción de experimentos por computadora. El LHS fue descrito por McKay en 1979 ([MC79], [McK92]). Ronald L. Iman y colaboradores contribuyeron a su elaboración en 1981 ([IH88], [Hel08]). La implementación detallada y manuales se publicaron más tarde ([WJ98]). Muestreo Aleatorio Simple El muestreo aleatorio simple implica formar repetidamente vectores aleatorios de los parámetros de distribuciones de probabilidad prescritos. Una variable aleatoria ? distribuida normalmente con media ? y desviación estándar ? puede ser generada por ? ∗ = ??' + ? donde ?' son números aleatorios con distribución normal con media 0 y varianza 1. Una distribución normal multivariada con matriz de varianza-covarianza ? puede ser muestreada utilizando el método de descomposición de la matriz triangular inferior y superior (LU) - [Dav87]. La matriz de varianza-covarianza ? se descompone por la factorización de Cholesky: ? = ? ?, donde ? es la matriz triangular inferior. Para generar el vector de variables aleatorias ?, la matriz ? es multiplicada por el vector ?? de números aleatorios normales e independientes con media 0 y varianza 1 ? = ? ?? + ? El procedimiento se repite para un tamaño de la muestra ?? lo que resulta en un conjunto de variables con un vector de medias ? y una matriz de varianza-covarianza ? ??? ?? ?, . Ya que los números aleatorios son independientes, la matriz de covarianza ??? ?? debe ser igual a ? (la matriz identidad) ? ??? ?? ?, = ? ? ?, = ? ?, = ? es un procedimiento estratificado aleatorio que proporciona una forma eficiente de generación de variables de sus distribuciones ([MC79]). Los ? valores obtenidos para cada variable son juntados (apareados o emparejados) al azar con las otras variables. para el i-ésimo intervalo. La distribución acumulada para cada variable se divide en ? equiprobables intervalos. ?: . • Transformar los valores de probabilidad de la muestra en el valor de ? usando la inversa de la función de distribución ? C8 ? = ? C8 ???? los ? valores obtenidos para cada variable ? se emparejan al azar con los ?? valores de las otras variables. El método se basa en la suposición de que las variables son independientes entre sí. ?< . la probabilidad acumulativa muestreada se puede expresar como ([WJ98]) ????@ = 8 A ?B + @C8 A donde ?B es un número aleatorio con distribución uniforme entre 0 y 1. . … . pero en realidad la mayor parte de las variables de entrada se correlacionan en alguna medida. este método asegura una cobertura completa del rango de cada variable. LHS implica generar ?? valores de muestreo de la distribución prescrita de cada una de las ? variables ?8 . El método LHS puede resumirse de la siguiente manera: • Dividir la distribución acumulada de cada variable en ? intervalos equiprobables. Se selecciona al azar un valor de cada intervalo (ver Figura 1). El emparejamiento aleatorio de variables correlacionadas podría resultar en combinaciones imposibles. A diferencia del muestreo aleatorio simple. al estratificar al máximo cada distribución marginal.Ensayo sobre el Método de Muestreo Hipercubo Latino 3 Muestreo Hipercubo Latino El muestreo hipercubo latino. • En cada intervalo seleccionar un valor al azar. 4 Probabilidad de x2 CDF Ensayo sobre el Método de Muestreo Hipercubo Latino CDF x1 Probabilidad de x1 x2 Figura 1. Ejemplo del método LHS: muestreo aleatorio estratificado de variables ?1 y ?2 a intervalos de 5 (izquierda) y apareamiento aleatorio de ?1 y ?2 formando un hipercubo latino (derecha) . ? = ? ?J .P = ?PC8 [email protected] ? = 1. que tiene una matriz de correlación igual a ?. • Definir la matriz ? de ? columnas y ? filas que contienen el orden o rango correspondiente a la matriz de correlación objetivo. la matriz triangular inferior de ?. Supongamos que la matriz ? se compone de variables aleatorias independientes con matriz de correlación ? y ? es la matriz de correlación deseada.Ensayo sobre el Método de Muestreo Hipercubo Latino 5 Inducción de Correlación en el Muestreo Hipercubo Latino [IC82] propone un método para inducir la correlación entre las variables restringiendo la forma en que las variables son apareadas basado en la correlación de rangos de algunos valores objetivo. [Ste87] también propone un método para el muestreo de variables dependientes en base al rango de una distribución multivariada objetivo. ?. … . … . la matriz de correlación de ?. El método se resume de la siguiente manera: • Generar la matriz ? utilizando el método de muestreo hipercubo latino de ? variables y ?? tamaño de la muestra. Al igual que en el muestreo aleatorio simple. • Reorganizar los valores de cada variable en ? ya que tienen el mismo rango (orden) que la matriz objetivo ?∗ . El método se basa en la descomposición de Cholesky de la matriz de correlación. • Obtener la matriz ? tal que ? = ? ? ?J que se calcula a partir de ? = ? ?C? . ? por medio de ?@. En [PH99] y [ZP03] se puede obtener información más detallada. • Calcular ?. • Calcular la matriz de correlación objetivo ?∗ = ? ?J . la multiplicación del vector ? ?J produce variables aleatorias con matriz de correlación ?. • Obtener la muestra del hipercubo latino ?@. . • Obtener la matriz ? de ? variables y tamaño de la muestra ? mediante un muestreo aleatorio simple. La matriz ? puede ser definida como ? = ? ?J donde ? es la matriz triangular inferior. ? = 1.P − ?B ? Con esta transformación. Por lo tanto el objetivo es reorganizar las variables de entrada cerca de la matriz de correlación deseada. • Calcular la matriz triangular inferior de la matriz de correlación ? usando la factorización de Cholesky ? = ? ?J y también ?. los valores de la muestra producen aproximadamente una distribución conjunta. ya sea porque los resultados se ven bien. las computadoras ahora son al menos 1. etc. el muestreo estratificado tiene que hacerse para cada distribución antes de iniciar la simulación. lo que puede provocar largos tiempo de espera antes de que inicie la simulación de modelos grandes. el número de distribuciones en un modelo era extremadamente modesto y las simulaciones tardaban horas o días en completarse. Sin embargo. LHS proporcionaría beneficios marginales en la simulación si no trajera consigo una serie de restricciones. La siguiente lista describe algunas de esas restricciones: 1. en ese momento. Detener la ejecución de la simulación antes de su finalización. Sin embargo. Existen pruebas estadísticas para determinar el nivel de precisión que se ha logrado mediante la ejecución de una simulación de Monte Carlo basado en la proximidad de los resultados reales con el teórico. no hay tales pruebas estadísticas disponibles si se utiliza LHS.Ensayo sobre el Método de Muestreo Hipercubo Latino 6 Crítica al método LHS El método se remonta a 1979. o el nivel de precisión requerido se ha alcanzado.000 veces más rápidas que a principios de 1980. el extender una simulación requiere que LHS realice un nuevo conjunto de estratificaciones que se se superponen con las anteriores. Ampliar el número de muestras. Esto es posible tanto con el método Monte Carlo y LHS. cuando la capacidad de cómputo era escasa. y proporcionará poca o ninguna precisión adicional si esto no se produce. Correlación. técnicas legadas. cuestión de tiempo o paciencia. Era. Precisión de resultados. una técnica atractiva porque permitía que fuese posible obtener una salida estable con un número mucho menor de muestras de una simulación Monte Carlo. y el valor de LHS ha desaparecido como consecuencia de ello. 3. LHS se basa en el modelo se ejecute para todo el número de muestras especificado originalmente. El uso de LHS en la época actual probablemente se deba a factores anacrónicos. reduciendo cualquier beneficio que podría ofrecer LHS. técnicas aprendidas en la escuela mucho tiempo atrás. A menudo sucede que se quiere ampliar el número de muestras. pero debido a que no utilizan el método de inversión no se pueden implementar con LHS. haciendo una simulación más práctica con las herramientas computacionales disponibles en ese momento. . Velocidad. LHS sólo funciona si se generan las muestras de distribuciones de probabilidad utilizando el método de inversión descrito anteriormente. Con LHS. No es posible utilizar copulas como mecanismo para representar correlaciones objetivo con LHS. Una corrida de simulación a menudo se detiene antes de que el número predeterminado de muestras esté completa. 4. Existen muchos algoritmos para generar muestras aleatorias de distribuciones que son tan precisos como el método de inversión o incluso mejores y que pueden ser ordenes de magnitud más rápidos que el método de inversión. 2. 5. [Hel08] Helton. (2003). [ZP03] Zhang. 143-151. from https://en. In Wikipedia. la media se estabilizará más rápidamente con LHS. M. SAND98-0210. The Free Encyclopedia. [PH99] Pebesma. Albuquerque. In Computational Methods in Transport: Verification and Validation (pp. 71-90. J. Y. ACM. Uncertainty and sensitivity analysis for models of complex systems. NM. (1988). R. (1987). 207-228). Modelos con una o dos distribuciones y necesidad de una respuesta rápida. 91-98. In Proceedings of the 24th conference on Winter simulation (pp.php?title=Latin_hypercube_sampling&oldid=694518257 [Dav87] Davis. Beckman.. (1979). W. 2016. Retrieved 01:07. aspectos importantes en el análisis de riesgos.wikipedia. An investigation of uncertainty and sensitivity analysis techniques for computer models. & Jorgensen. aunque la propagación y la forma de la distribución de salida no se estabilizarán mucho más rápidamente que con Monte Carlo.. J.. M.. (1998). Water Resources Research. K. L. [IC82] Iman.. Latin hypercube lattice sample selection strategy for correlated random hydraulic conductivity fields. & Heuvelink.Ensayo sobre el Método de Muestreo Hipercubo Latino 7 LHS es útil en los siguientes casos: 1. Latin hypercube sampling as a tool in uncertainty analysis of computer models. W. Technometrics.. J. 11(3). December 9). 239-245. 2. 557-564). L. G. [Ste87] Stein. R. 21(2). G. D. Communications in Statistics-Simulation and Computation. 303-312. & Conover. (1999). M. February 13. En esta situación. Comparison of Three Methods for Selecting Values of Input Variables in the Analysis of Output from a Computer Code. B. Muestreo para una integración numérica ([Ste87]). G. J.org/w/index. 8(1). 19(2). A user’s guide to LHS: Sandia’s Latin hypercube sampling software. R. [WJ98] Wyss. Technometrics. J. D. (1982). Mathematical Geology. Large sample properties of simulations using Latin hypercube sampling. Risk analysis. C. C. H. Referencias Latin hypercube sampling. (1992). Latin hypercube sampling of Gaussian random fields. J. E. Production of conditional simulations via the LU triangular decomposition of the covariance matrix. (2015. [MC79] McKay. (1987). & Pinder. & Conover. Sandia National Laboratories.. (2008). . 39(8). Technometrics. Esta es una situación técnica muy específica que aplica sobre todo en el trabajo científico y de ingeniería donde LHS es una mejor opción que Monte Carlo. [IH88] Iman. [McK92] McKay. para la mayoría de los modelos. 311-334. M. D. A distribution-free approach to inducing rank correlation among input variables. W. 29(2). & Helton. 41(4). Springer.