Clustering Entropico Evolutivo

Clustering Entropico Evolutivo

Dr. Angel Kuri

Texto completo de la Conferencia   

Resumen

Clustering es un proceso no supervisado en el cual un conjunto de datos D es dividido en k grupos o clusters de acuerdo con un criterio de similitud. La mayoría de los métodos o algoritmos de clustering restringen la forma de los clusters a hiperesferas debido al uso generalizado de distancia como criterio de similitud, lo cual tiene como consecuencia que dichos clusters no representen en muchos casos la distribución real de los datos.
El propósito de este trabajo es presentar una propuesta para la búsqueda de un algoritmo, que no utilice medidas de distancia como criterio de similitud. Dicha propuesta está sustentada en un trabajo preliminar, que permiti establecer que en principio, es posible hacer agrupamiento de datos sin utilizar medidas de distancia. Este último esta basado en una fórmula desarrollada por Johan Gielis denominada la "superfórmula"  que permite generar cuerpos de formas arbitrarias en un espacio n-dimensional a través de la modificación de ciertos parámetros. La idea consiste en representar cada cluster como un conjunto de datos contenidos en un cuerpo irregular generado a partir de la superfórmula, cuyos parametros son determinados a través de un algoritmo genético (AG). Aunque el método es superior a otras alternativas en 3D, se encontro que dicho planteamiento es inviable desde el punto de vista computacional para datos en espacios n-dimensionales.

Por ello, se plantea un método de clustering basado en algunos conceptos de la teoría de la información y los algoritmos genéticos que dan origen a lo que aquí se denomina como "Clustering Entropico Evolutivo". Este se verificó experimentalmente para un caso particular con datos en un espacio 3D demostrando ser eficiente desde el punto de vista computacional y presentando un alto porcentaje de efectividad respecto al agrupamiento. El problema fundamental es encontrar una generalización que permita obtener un algoritmo de clustering para datos en un espacio n-dimensional, independiente del dominio o área de aplicación, computable y que genere clusters de formas arbitraria que representen la naturaleza o distribución de los datos.


  Esbozo Curricular

 Ingeniero en Electrónica egresado de la Universidad Anáhuac, en México, D.F. Maestría en Ciencias de la Universidad de Illinois y Doctorado en Ciencias de la Computación de Kennedy-Western University. Es autor y coautor de siete libros de texto y de más de 140 artículos publicados en revistas y conferencias internacionales. Ha sido catedrático de la UNAM, del Instituto Politécnico Nacional, la Universidad Anáhuac, el Instituto Tecnológico Autónomo de México, la Universidad Iberoamericana, la Academia Naval Helenica (Grecia), la Universidad Federal de Santa Catarina (Brasil) y la Universidad de Santiago (Cuba), entre otras. Es miembro del Sistema Nacional de Investigadores (SNI). Fue ganador del Premio Internacional "Iterated Prisoner's Dilemma" en el Congreso Internacional de Computación Evolutiva 2000. Recibió el premio al mejor trabajo en ICDM 2007 (7th Industrial Conference in Data Mining), Leipzig, Alemania. Esta incluido en la publicación Who is Who in the World en 1988, 1998, 2000, 2002, 2003 y 2007. Fue Presidente del Congreso Internacional CIC 2000 y de los congresos internacionales MICAI 2005, 2006, 2007 y 2008. Fue socio fundador de Micromex S.A. e IDET S.A. de C.V. y subdirector de Investigación Aplicada del Centro de Investigación en Computación del IPN. Es Distinguished Lecturer de la Association for Computing Machinery (ACM) y miembro del Comité Científico de World Scientific and Engineering Academy and Society (WSEAS). Fue miembro del Consejo Ejecutivo de Iberamia y Presidente de la Sociedad Mexicana de Inteligencia Artificial de 2006-2009. Actualmente es Investigador en el Instituto Tecnológico Autónomo de México e Investigador invitado en Grupo Nacional Provincial en el área de Minera de Datos.