Herramienta para el preprocesamiento de tweets con base en búsqueda por tópico



Herramienta para el preprocesamiento de tweets con base en búsqueda por tópico

Yareli Licet Andrade Jiménez
 

Texto completo de la Tesis            Video del evento          

 



Resumen

 

El análisis de redes sociales es un tema que ha cobrado importancia en los últimos años. Esto se debe principalmente al éxito de las redes sociales en línea. Las redes sociales son un medio de comunicación que permite tener disponible gran cantidad de información. Conocer la información que se encuentra implícita en los mensajes compartidos en redes sociales ayuda a averiguar los intereses y opiniones de los usuarios respecto a determinado tema. Existen diversos tipos de análisis que pueden realizarse en redes sociales. No obstante, en cualquier caso es necesario seguir un proceso de análisis de datos. Este proceso se compone básicamente de cuatro etapas: la obtención de datos, el preprocesamiento de datos, el análisis o minería de datos y la interpretación de los resultados obtenidos. El preprocesamiento es la fase de mayor importancia para la obtención de resultados óptimos. Como consecuencia al fenómeno de las redes sociales en línea, se han desarrollado diferentes aplicaciones que permiten la exploración y análisis de información generada en éstas. Sin embargo, una de las dificultades que presenta el análisis de redes sociales es la gran cantidad de datos que se requieren analizar. El preprocesamiento es la etapa clave que permite reducir información. A su vez este proceso debe garantizar que la información que se obtiene es suficiente para la etapa de análisis. El propósito de esta tesis es desarrollar una herramienta para el preprocesamiento de datos de redes sociales, particularmente Twitter. Nosotros planteamos que la base del preprocesamiento sea la búsqueda por temas. Como parte de la solución se desarrolló un módulo para obtener información de esta red social, el cual permite crear corpus con datos actuales y relacionados con un tema específico. Por último, se consideró el algoritmo TF-IDF como ejemplo para analizar los datos obtenidos en la etapa de preprocesamiento y así verificar la funcionalidad de los mismos.

 

Abstract

The analysis of social networks is a topic that has gained importance in recent years. This is mainly due to the success of online social networks. Social networks are a media that allows lots of information available. Knowing the information that is implicit in shared messages on social networks helps to determine the interests and opinions users regarding certain topic. There are different types of analysis that can be performed on social networks. However, in any case it is necessary to follow a process of data analysis. This process basically consists of four stages: data collection, data preprocessing, analysis or data mining and interpretation of results. The preprocessing phase is the most important for obtaining optimal results. As a result the phenomenon of online social networks, different applications that allow the exploration and analysis of information generated in them have been developed. However, one of the difficulties of social network analysis is the amount of data that is necessary to analyze. The preprocessing is the key stage to reduce information. In turn, this process should ensure that the information obtained is sufficient for the analysis stage. The purpose of this thesis is to develop a tool for data preprocessing of social networks, particularly Twitter. We propounded the subject search as a basis of preprocessing stage. As part of the solution, a module for collect Twitter information has been developed, which allows create corpus with current data and related with an specific topic. Finally, TF-IDF algorithm was considered as an example to analyze obtained data in the preprocessing stage, in order to verify the functionality thereof.