Algoritmos de Teoría de la Información para analizar redes genéticas e identificar genes principales en cáncer de seno



Algoritmos de Teoría de la Información para analizar redes genéticas e identificar genes principales en cáncer de seno

Moises Omar León Pineda
 

Texto completo de la Tesis     

 



Resumen

El cáncer es un desafío importante para la salud pública a nivel mundial debido a su rápido aumento en las últimas décadas. Los tumores primarios pueden dar lugar a réplicas cancerosas o metástasis heterogéneas, que son extremadamente difíciles de controlar e inhibir, y son la principal causa de muerte en pacientes con cáncer. En esta tesis, se utiliza información de conjuntos de biopsias de pacientes con cáncer de mama disponibles en las bases de datos GEO y GDCDP para desarrollar redes genéticas. Estas redes se crean para tres tipos de tejidos: 1) tejido mamario sin cáncer, 2) tejido mamario con tumor primario de cáncer y 3) tejido de la primera metástasis del cáncer de mama en los ganglios linfáticos. Se aplica el algoritmo ARACNe, basado en las ecuaciones de entropía e información mutua, a los perfiles de expresión genética de las biopsias utilizando su versión multinúcleo. Esto permite obtener matrices de co-expresión genética y posteriormente generar las redes genéticas utilizando herramientas computacionales específicas. Mediante el análisis estructural de estas redes genéticas, se identifican los genes nodos con más información mutua en comparación con otros genes y con mayor grado dentro de la red, respectivamente. Se analiza la importancia de estos genes clave en los tres tipos de tejidos mediante el estudio de los principales procesos biológicos y funciones moleculares en los que participan. Además, se realiza una revisión de la escasa literatura existente sobre dichos genes. El aporte de esta tesis radica en la metodología utilizada para crear las redes, identificar los nodos con mayor grado e información mutua en los tres tipos de tejidos, que puede ser aplicable a cualquier tipo de cáncer, y validar su papel relevante en cada tipo de tejido utilizando herramientas de análisis genético, así como determinar su importancia en la formación del cáncer. Palabras clave: Cáncer, metástasis del cáncer, teoría de la información, simulación computacional, redes genéticas.

 

Abstract

Cancer represents a significant challenge to global public health due to its accelerated growth in recent decades. Primary tumors can give rise to cancerous replications or heterogeneous metastases, which are extremely difficult to control and inhibit and are the leading cause of death in cancer patients. This thesis uses information from sets of breast cancer patient biopsies available in the GEO and GDCDP databases to develop genetic networks. These networks are created for three types of tissues: 1) nonbreast cancer tissue, 2) breast cancer primary tumor tissue, and 3) breast cancer metastasis in lymph nodes. The ARACNe algorithm, based on entropy equations and mutual information, is applied in its multi-core version to the gene expression profiles of the biopsies. This allows for obtaining the genetic co-expression matrices and generating the genetic networks using specific computational tools. Through the structural analysis of these genetic networks, the gene nodes with the highest mutual information with other genes and the highest degree within the network are identified, respectively. The importance of these key genes in the three types of tissues is analyzed by studying the main biological processes and molecular functions in which they participate. The analysis is supplemented by reviewing the -limited- literature on these genes. The contribution of this thesis lies in the methodology used to create the networks, identify the nodes with the highest degree and mutual information in the three types of tissues, which can be applicable to any type of cancer, and validate their relevant role in each type of tissue using genetic analysis tools. Additionally, it aims to determine their relevance in cancer formation. Keywords: Cancer, cancer metastasis, information theory, computational simulation, genetic networks.