Una plataforma base para Big Data



Una plataforma base para Big Data

José Juan Martínez Peláez
 

Texto completo de la Tesis            Video del evento          

 



Resumen

 

Big Data es el término usado desde la década pasada para referirse al análisis de datos en grandes cantidades, de diferentes tipos, o ambos, con el propósito de ayudar a la toma de decisiones. También se refiere a las herramientas de software para realizar tal análisis, particularmente MapReduce, el modelo de programación y ambiente de ejecución desarrollado por Google para procesar grandes cantidades de datos en paralelo y así reducir el tiempo de respuesta. Aunque la mayoría de tales herramientas son libres y abiertas, su complejidad es tal que no es trivial instalarlas ni utilizarlas en conjunto. Por esta razón un proyecto Big Data requiere de un grupo interdisciplinario de personas: analistas, expertos del área y especialistas de software. Esta tesis presenta BDSP (del inglés Big Data Start Platform), un sistema web en el que usuarios pueden realizar tareas de manejo y análisis de datos tipo Big Data desde cualquier lugar, a cualquier hora y con cualquier dispositivo con acceso a Internet y un browser. Databricks es el único sistema web similar a BDSP, pero es comercial. BDSP consiste de una interfaz de gráfica con la que usuarios especifican dichas tareas, y de los módulos que las realizan sobre un cluster de procesamiento paralelo con Hadoop, la versión libre y abierta de MapReduce. BDSP también integra diferentes fuentes de datos externas (Twitter, Facebook, entre otras) por medio de servicios Web. El propósito de BDSP es servir como prototipo inicial de proyectos Big Data, como plataforma base para extenderla según se requiera, y como vehículo de capacitación en análisis de datos y en desarrollo de software Big Data. BDSP es un sistema desarrollado sobre el servidor Web Apache HTTP. La interfaz de usuario es adaptable a las capacidades de visualización de cualquier dispositivo con acceso a Internet. Actualmente BDSP integra los paquetes Hadoop, Mahout y NLTK, con los que soporta los siguientes tipos de análsis: regresión, clasificación, agrupamiento y análisis de sentimiento. La tesis muestra el uso de BDSP en la solución de dos tipos distintos de análisis. El diseño modular de BDSP basado en web services permite que sus módulos puedan ser usados por aplicaciones externas y puedan ser sustituídos por otros módulos de funcionalidad equivalente.

 

 

Abstract

Big Data is the term used since the last decade to refer to the analyses of data in very large amounts, or of data of diferent types, or both, for the purpose of supporting decision making. It also refers to the software tools used to carry out such analyses, particularly to MapReduce, the programming model and execution environment developed by Google to process large amounts of data in parallel in order to reduce response time signi cantly. Although most of such tools are free and open, their complexity is far from trivial, making it dicult to install and used them combined. For this reason, a Big Data project typically involves an interdisciplinary team of: data analysts, software experts, and experts in the area of the problem being solved. This thesis presents BDSP (Big Data Start Platform), a Web system where in users can carry out Big Data management and analyses tasks from anywhere, anytime, and through any device with a browser and access to Internet. Databricks is currently the only Web system similar to BDSP, but is a commercial product. BDSP consists of a graphical interface through which users specify those tasks, and of the modules that carry out such tasks on a parallel processing cluster with Hadoop, the free open version of Mapreduce. BDSP also integrates various external data sources, such as Twitter and Facebook, through Web services. The purpose of BDSP is to serve as a base prototype of Big Data projects to be extended as needed, and as a training vehicle both in data analysis and in developing software for Big Data tasks BDSP was developed atop the Apache HTTP Web server. Its user interface is adaptable to the visualisation capabilities (screen sizes) of distinct devices with access to Internet. BDSP currently integrates the packages Hadoop, Mahout and NLTK, with which it can support the following types of analyses: regression, classification, clustering, and sentiment analysis. The thesis shows the use of BDSP in solving three different types of data analyses. The modular design of BDSP, based on Web services, makes it possible for its modules to be used by external applications, or to be replaced with other modules with equivalent functionality.