Análisis de sentimientos para textos en Español con recursos lingüísticos

 



Análisis de sentimientos para textos en Español con recursos lingüísticos

Roberto Francisco Hernández Petlachi
 

Texto completo de la Tesis            Video del evento          

 



Resumen

 

Hoy en día se pueden expresar diferentes opiniones a través de las redes sociales. Los usuarios pueden expresar su sentir acerca de un producto o servicio, mediante opiniones con sentimientos positivos, negativos o neutrales. Las opiniones juegan un papel importante en la toma de decisiones de las personas porque pueden influir en la compra de algúun producto o servicio, ya que tienen la posibilidad de leer las opiniones y comentarios escritos de otros consumidores y verificar que su selección sea la adecuada. El análisis de estas opiniones ha llamado la atención del ámbito empresarial, ya que brindan la oportunidad de conocer como son percibidos sus productos o servicios. Por lo tanto, es importante destacar que una herramienta para analizar las opiniones de acuerdo a los sentimientos expresados, sería de gran interés para las empresas que deseen saber que tan aceptados son sus productos o servicios. Para resolver este problema, en esta tesis se propone desarrollar una herramienta que permita realizar la clasificación de las opiniones escritas según su polaridad. Las opiniones se clasifican en dos tipos de categorías: en cuatro niveles (positivo, negativo, neutro, ningún sentimiento) y seis niveles (fuertemente positivo, positivo, fuertemente negativo, negativo, neutro, ningún sentimiento). La herramienta de esta tesis para el análisis de sentimientos se basada en diccionarios de orientación semántica con reglas gramaticales, para clasificar las opiniones expresadas en español. Se llevan a cabo siete etapas en la herramienta propuesta, las cuales son: extracción y validación de información de un archivo XML, preprocesamiento de datos, corrección ortográfica, etiquetación, clasificación de polaridad, reglas gramaticales para atacar los intensificadores y reglas gramaticales para resolver la negación de las opiniones. Cabe destacar que la corrección ortográfica no ha sido tomada en cuenta en muchos trabajos relacionados. En esta propuesta se identifican los términos que son gramaticalmente incorrectos, para reemplazarlos por su forma correcta y obtener su carga emocional, en caso de que la tuvieran, y así obtener una clasificación más precisa. El desarrollo de esta herramienta contribuye en el ámbito empresarial o político ya que puede ser utilizada para satisfacer las necesidades de las personas y obtener la reacción de los consumidores acerca de los servicios brindados. Palabras Clave: análisis de sentimientos, minería de textos, recursos lingüísticos, clasificación de polaridad.

 

Abstract

Nowadays social networks are tools that allow you to express different opinions about specific topics. Users can express their feelings about a product or service through views with positive, negative or neutral sentiments. Opinions play an important role in making decisions that can influence people into buying a product or service because they have the ability to read the opinions and written comments from consumers and ensure that your selection is correct. Analysis of these opinions has attracted the attention of the business world, as they provide the opportunity to know as perceived their products or services. Therefore is important to highlight that a tool to analyze the opinions according to the sentiments expressed will be of great interest to companies who want to know how accepted are your products or services. To solve this problem, this thesis aims to develop a tool that allows for the classification of written opinions according to their polarity. Opinions are divided into two types of categories: four levels (positive, negative, neutral, no feeling) and six levels (strongly positive, positive, strongly negative, negative, neutral, no feeling). The tool of this thesis for sentiment analysis is based on semantic orientation dictionaries with grammatical rules to classify the opinions expressed in Spanish. They are held in seven phases proposed tool, which are: information extraction and validation from an XML file, data preprocessing, spell checking, tagging, polarity classification, grammatical rules to attack intensifiers and grammatical rules to solve the negation of opinions. Note that the spelling has not been taken into consideration in many related works. In this proposal, the terms that are grammatically incorrect, to replace them with proper form and get your emotional load (in case they had it) and get a more accurate classification are identified. The development of this tool helps in the business world or political as it can be used to meet the needs of people and get the reaction of consumers about the services offered. Keywords: sentiment analysis, data mining, linguistic resources, polarity classification.