Marco de trabajo basado en ontologías para el proceso ETL

Marco de trabajo basado en ontologías para el proceso ETL

Joel Villanueva Chávez
 

Texto completo de la Tesis     

 


Resumen

En sus inicios, los sistemas de información capturaban y almacenaban información sin un propósito especifico bajo diversos medios como: archivos de texto, binarios o XML y Bases de datos entre otros. Esto propicio la aparición los sistemas OLTP (Procesamiento de Transacciones en Línea), los cuales están orientados al uso de transacciones de inserción, modificación, y recuperación rápida de información. Recientemente los investigadores propusieron enfoques para analizar y extraer conocimiento e información de los datos almacenados por sistemas OLTP, dando origen a los sistemas OLAP (procesamiento analítico en línea), estos están orientados al análisis de grandes cantidades de datos contenidos en un Data warehouse (almacén de datos o DWH). La construcción de un data warehouse se realiza siguiendo el proceso ETL (Extracción Transformación y Carga). El cual comienza con la extracción de información de los sistemas OLTP, después esta es transformarla y finalmente depositada en el almacén de datos. El problema central del proceso ETL es la interoperabilidad provocada por la diversidad léxico-sintáctica de las fuentes de información. Los enfoques actuales hacen la integración hasta un nivel léxico dejando el semántico (el mas complejo) en manos de las personas. Este tipo de problemas eran difíciles de afrontar, pero hoy en día se cuenta con herramientas como las ontologías con las cuales es posible combatir la interoperabilidad a un nivel semántico. En este trabajo de tesis presentamos un marco de trabajo basado en ontologías para mitigar la interoperabilidad de el proceso ETL. Proponemos una metodología para capturar reglas de negocio con ayuda de las ontologías y gestión de conocimiento; modelar el contenido y estructura del almacén de datos y realizar el proceso ETL basado en el uso del conocimiento de las ontologías para lograr la integración de información a nivel semántico.

 

Abstract

In the beginnings, the information systems were used to capture and store information without a specific propose and under different media such as: data, binary and XML files and databases. These systems have evolved and lead to OLTP (On-Line Transaction Processing) systems, which are oriented to insert, modify and retrieve information transactions. In recent time the researches have proposed different approaches in order to analyze and extract knowledge and information from the OLTP systems stored data. It produced the OLAP (On-Line Analytical Processing) systems origins. They are oriented to analyze huge amount of information in a Data warehouse (DWH). The ETL process (Extraction Transformation and Loading) is followed to build a data warehouse. It begins with the Extraction of information from the OLTP systems, then it is transformed and finally it is loaded in the data warehouse. The main problem of ETL process is the interoperability due to the lexicalsyntactic diversity from the data sources. Current approaches make the integration up to lexical level and leaves the semantic level (the hardest) in the user's duty. These problems used to be hard to face however today we have tools like ontologies, they allow to deal with the interoperability even to a semantic level. In this thesis we present a framework ontology-based to mitigate the interoperability problems in ETL process. We propose a methodology to capture the business rules through ontologies and knowledge management, modeling the content and structure of data ware house and making the ETL process based in the use of ontologies' knowledge to get the information integration to a semantic level.