Clasificación por nivel socioeconómico de las regiones geográficas de México

Clasificación por nivel socioeconómico de las regiones geográficas de México

Raúl Maximiliano Urrutia Hernández
 

Texto completo de la Tesis     

 


Resumen

La clasificación es una tarea del aprendizaje automático que permite asignar una categoría a cada elemento de un conjunto de datos, a partir de un conjunto de elementos cuyas categorías son conocidas. De entre todas las aplicaciones que tiene, podemos utilizarla para clasificar a las regiones geográficas del país de acuerdo al nivel socioeconómico de la población de estas. Sin embargo, la información necesaria para determinar el nivel socioeconómico de una región es proporcionada mediante los censos de población y vivienda que efectúa el Instituto Nacional de Estadística, Geografía e Informática (INEGI) con una periodicidad de 10 años. En el presente trabajo estudiamos la posibilidad de realizar una clasificación de las regiones de México por nivel socioeconómico, con base en el tipo y la cantidad de unidades económicas que estas posean. La fuente de información que utilizamos es el directorio estadístico nacional de unidades económicas (denue), que es un registro de los negocios y establecimientos que existen en el país. Dado que toda tarea de clasificación requiere de un conjunto de datos clasificados para entrenamiento, primero realizamos un agrupamiento de regiones mediante la información del censo del año 2010 para así tener una aproximación de las clases a las que pertenecen. Posteriormente creamos un conjunto de datos a partir de los datos del denue, con el cual se puede diseñar un modelo de clasificación. Fueron probados diversos tipos de algoritmos de clasificación; el modelo creado por un bosque aleatorio es el que otorga la mayor exactitud, con un 70% de regiones correctamente clasificadas para un número de 3 clases.

 

Abstract

Classification is a machine learning task that assigns a category to each element of a data set, based on a set of elements whose categories are known. Among all the applications it has, we can use it to classify the geographical regions of the country according to the socioeconomic level of its population. However, the information necessary to determine the socioeconomic level of a region is provided through the population and housing censuses carried out by the National Institute of Statistics, Geography and Informatics (INEGI) with a periodicity of 10 years. In this work we study the possibility of making a classification of the regions of Mexico by socioeconomic level, based on the type and quantity of economic units in them. The source of information we used is the national statistical directory of economic units (denue), which is a record of the businesses and establishments that exist in the country. Since every classification task requires a set of classified data for training, we first performed a clustering of the regions using the information from the census of the year 2010 in order to have an approximation of the classes to which they belong. Subsequently we created a data set from the denue data, with which a classification model can be designed. Various types of classification algorithms were tested; the model created by a random forest is the one the grants the highest accuracy, with 70% of the regions correctly classified for 3 classes.