Algoritmo de Clustering Basado en Entropía para Descubrir Grupos en Atributos de Tipo Mixto

Algoritmo de Clustering Basado en Entropía para Descubrir Grupos en Atributos de Tipo Mixto

Edna Hernández Valadez
 

Texto completo de la Tesis     

 


Resumen

La mayorí­a de los algoritmos de clustering se basan en analizar datasets que contienen ya sea atributos de tipo numérico o categórico. Recientemente, el problema del análisis de clustering en datasets con tipos de datos mixtos ha comenzado a tomar gran interés, ya que en aplicaciones de la vida real los datasets con atributos de tipo mixto son muy comunes.
En la literatura, los primeros algoritmos de clustering se diseñaron para trabajar en datasets que contenían exclusivamente datos de tipo numérico o categórico. Al utilizar algún dataset con datos mixtos, se tenía la problemática de convertir variables categóricas a numéricas o viceversa, lo cual puede representar pérdidas de información en algunas características de los datos originales.
En este trabajo de tesis, proponemos un algoritmo de clustering denominado ACEM, el cual es capaz de manejar datasets con tipos de datos mixtos. El algoritmo propuesto pre-clasifica los datos categóricos puros del dataset y realiza una evaluación de entropía de los clústers utilizando el conjunto de datos mixtos para verificar la pertenencia de los datos a los clústers. En caso necesario, cambia los datos al clúster con más características en común (menor valor de entropía). Con la presentación de esta tesis, proponemos un algoritmo de clustering para datos mixtos que extienda las características de un algoritmo de clustering de datos categóricos, introduciendo nociones de entropía para medir la heterogeneidad de los clústers.
Para medir el desempeño del algoritmo propuesto, se realizaron experimentos de comparación con otros algoritmos de clustering utilizando datasets de la vida real con tipos de datos categórico y mixto obtenidos de la UCI o Machine Learning Repository. En general, los resultados experimentales demuestran que nuestro algoritmo presenta un comportamiento estable y un buen desempeño en la medición del error tanto para datasets de tipo categórico como para los datasets de tipo mixto evaluados en este trabajo.