Reconocimiento de marcadores con redes profundas

Reconocimiento de marcadores con redes profundas

Gonzalo Adán Chávez Fragoso
 

Texto completo de la Tesis     

 


Resumen

El reconocimiento de marcadores fiduciales es una parte importante de varias tareas dentro del área de visión por computadora, ente las que se encuentran la realidad aumentada, la localización y la navegación de robots. Aunque los métodos de reconocimiento de marcadores basados en técnicas clásicas de procesamiento de imágenes y reconocimiento de patrones muestran una gran exactitud, aún existen problemas abiertos por resolver, tales como la robustez frente a oclusión o la capacidad de reconocer múltiples marcadores en la misma escena. Esto sin olvidar el requerimiento de procesamiento en tiempo real. Recientemente las redes neuronales profundas han mostrado una gran superioridad, respecto a métodos clásicos, en tareas de visión como clasificación, detección y segmentación de objetos.

El propósito de esta tesis es usar redes neuronales profundas para reconocer marcadores fiduciales y probar su efectividad para resolver los problemas descritos anteriormente. Nuestro trabajo comprende la comparación de redes neuronales convolucionales profundas para la detección de objetos que ofrecen un nivel competitivo de precisión y adicionalmente una ejecución en tiempo real. Se realizan pruebas de varias arquitecturas de redes neuronales convolucionales profundas tipo YOLO usando pesos pre-entrenadas, midiendo su tiempo de ejecución en un procesador utilizando un solo núcleo. Construimos conjuntos de entrenamiento para probar su desempeño en el reconocimiento de un marcador fiducial captado mediante la cámara web PlayStation Eye. Se muestra la necesidad del uso de una GPU para acelerar el entrenamiento de las redes profundas dado que el tiempo de entrenamiento usando únicamente CPU no es manejable. Finalmente se proponen varias modificaciones a las arquitecturas de redes neuronales profundas para mejorar su tiempo de procesamiento considerando el cambio en precisión de los resultados.

 

Abstract

Fiducial marker recognition is an important part in several computer vision tasks, such as augmented reality, location, and robot navigation. Although markers' recognition methods based on classical image processing and pattern recognition techniques show great accuracy, there are still open problems to solve, such as robustness to occlusion or the ability to recognize multiple markers at the same time, within a given scene, particularly without removing the requirement of real-time processing. Recently deep neural networks have shown great superiority, compared to classical methods in vision tasks such as object classification, detection and segmentation.

The purpose of this thesis is to use deep neural networks to recognize fiducial markers and test their effectiveness in solving the problems described above. Our work comprises the comparison of deep convolutional neural networks for object detection which offer a competitive level of accuracy while allowing real-time execution. Several YOLO-type deep neural network architectures are tested using pre-trained weights, measuring their execution time on a processor using a single core. We build training sets to test its performance on the recognition of a fiducial marker captured by the PlayStation Eye webcam. The need to use a GPU to speed up the training of deep neural networks is made evident, since training using only a CPU is not feasible. Finally, several modifications to deep neural network architectures are proposed to improve their execution time, by taking into account a change of accuracy of the results.