4 ConstrucciónEn este capítulo se describe la secuencia de pasos para configurar las herramientas utilizadas para la construcción del Data Mart. 4.1 Configuración del software Para el presente proyecto se utilizarán el sistema operativo Windows XP, base de datos PostgreSQL y la suite Pentaho. A continuación se muestra las configuraciones de estas herramientas. 4.1.1 Configuración de la Base de Datos Para la configuración del motor de base de datos PostgreSQL se deben realizar los siguientes pasos: Descargar el paquete postgreSQL 8.3 de página de descargas de postgreSQL: http://www.postgresql.org/download/windows Instalar el paquete postgreSQL 8.3 que incluye la interfaz gráfica pgAdmin III. Configurar la conexión local que se va a utilizar para la creación de las bases de datos. Para ello se ingresan los siguientes datos: o o o o o o o Nombre: postgreSQL Servidor: localhost Puerto: 5432 BD de Mantenimiento: postgres Usuario: postgres Contraseña: ****** Servicio: postgresql-8.3 Crear la base de datos para almacenar las dimensiones y las tablas de hechos, para ello se ingresan los siguientes datos: o Nombre: multidimensional En ella se registran las contraseñas que se utilizarán para el usuario administrador y para realizar publicaciones.1. Además se incluye la creación de un usuario cliente estándar con una contraseña por defecto (Joe/password).com/products/try_bi_suite. luego se tienen que configurar las herramientas que se utilizarán para el proceso ETL. transformación y salida de los procesos. una interfaz gráfica que permite arrastrar los componentes de entrada.o o o Propietario: postgres Codificación: UTF8 Tablespace: pg_default 4. .pentaho. Data Integration (Kettle): Esta herramienta servirá para la construcción de los procesos ETL.php. Para su configuración se debe iniciar Pentaho Data Integration desde la ruta: C:\Archivos de programa\pentaho\design-tools\dataintegration\spoon. la elaboración de los cubos y los reportes.2 Configuración de Pentaho Para la configuración de Pentaho se debe descargar la suite Pentaho de la página: http://www. estas son: Plataforma: Para la instalación de la plataforma se sigue el Wizard que proporciona el instalador de Pentaho.bat y se mostrará la siguiente pantalla de inicio. específicamente se usará la aplicación Spoon. jar. Para su configuración se debe tener los drivers correspondientes a las bases de datos que utilizaremos.jdbc3. Schema Workbench (Kettle): Esta herramienta servirá para la creación de los archivos XML que usaremos para la construcción de los cubos.3-604. para el caso de postgreSQL se utilizará el driver postgresql-8. estos deben estar en la siguiente carpeta: C:\Archivos de programa\pentaho\design-tools\schema-workbench\drivers.Driver Conexión URL: jdbc:postgresql://localhost:5432/multidimensional Usuario: postgres Contraseña: ****** . Luego se debe iniciar Schema Workbench desde la ruta: C:\Archivos de programa\pentaho\design-tools\schema-workbench y se configuran las preferencias. y se ingresan los siguientes datos: Tipo de conexión: postgreSQL Servidor: localhost Nombre de la BD: postgres Puerto: 5432 Usuario: postgres Contraseña: ***** Finalmente se ingresa un nombre y una descripción para el repositorio. Para ello se ingresa al menú Herramientas / Preferencias. para ello primero se configura la base de datos que se usará. En esa ventana se ingresan los siguientes datos: Driver: org.postgresql.En esta ventana se crea el repositorio de los objetos de los procesos ETL. 4.2 Construcción de procesos de carga Para la construcción de los procesos ETL el primer paso es definir las transformaciones que se realizarán sobre los datos extraídos. Marca y Modelo. La tabla destino donde se almacenará la dimensión es: dim_producto.Para comprobar el paso anterior se debe ingresar al menú Archivo/ Nuevo/ Explorador JDBC.2. estas son: Producto. Para añadir una transformación se ingresa al menú Archivo/ Nuevo/ Transformación y para añadir los steps (pasos que sigue esta transformación) basta con arrastrar los íconos desde la barra lateral. A continuación se muestra como ejemplo la carga de la dimensión producto. para ello se ingresa al menú Transformación/ Ejecutar. A continuación se muestra el diagrama ETL para la carga de esta dimensión. Finalmente para crear los cubos ingresar al menú Archivo/ Nuevo/ Esquema. Luego para crear las relaciones (hops) entre steps se debe seleccionar un step y dejar presionado el botón central del Mouse arrastrándolo hasta el siguiente step.1 Carga de dimensión Producto Esta dimensión utiliza cinco tablas del modelo relacional. Luego de definir un proceso ETL se realizan las pruebas respectivas. Para eso se utilizará la interfaz gráfica Spoon. Subfamilia. En la parte inferior se observará una pestaña con la descripción los steps realizados y otra más con el historial de las operaciones internas para realizar dichos steps. Familia. 4. . dim_zona_geografica y dim_tiempo Además utiliza la tabla ventas por zona del modelo relacional para obtener las unidades vendidas de productos por zona. .4.2 Carga de Fact Table Venta por Zona Esta tabla utiliza como fuente a la dimensión producto creada en el paso anterior y a las dimensiones zona geográfica y tiempo que se cargan de la misma manera que producto y se almacenan en las tablas: Dim_producto.2. A continuación se muestra el diagrama ETL para la construcción de esta tabla de hechos. 4. A continuación se muestra la estructura en forma de árbol con las jerarquías. . tablas y el código XML generado a partir de la herramienta Schema Workbench. Para crear el cubo “ventas” se utilizarán además de esta tabla de hechos las dimensiones producto. Esta información se almacena en la tabla de hechos ventas_por_Zona.3 4. zona_geográfica y tiempo.1 Construcción de Reportes Reporte de ventas por zona Este reporte muestra el volumen de ventas por zona geográfica.3. se elige el esquema y cubo publicados y se obtiene un cuadro con las dimensiones cargadas como se muestra a continuación en la siguiente pantalla. Allí se escoge un nuevo Analysis View.Finalmente después de publicar este archivo XML. . se observará el resultado en la consola cliente ingresando con el usuario por defecto (joe/password). . los volúmenes de venta si fueron estimados. en cambio. Además la data que se utilizó se ajusta a los datos reales que se encuentran en los catálogos de productos de la empresa que los comercializa. la integración y la escritura en la tabla dimensional. A continuación se muestra el resultado de una ejecución de la carga de la dimensión producto. . es decir la lectura de cada una de las tablas transaccionales. Esta información se obtuvo del log de actividades del Pentaho Data Integration.4. es decir con una base de datos en localhost tanto para las tablas transaccionales como para las dimensionales y tablas de hechos.4 Ejecución de las Pruebas de proceso de carga Todas las pruebas se realizaron en un ambiente local. se puede ver las actividades que se realizó por cada step.