Interfaz de lenguaje natural usando Kinect

 

Interfaz de lenguaje natural usando Kinect

Sergio Herman Peralta Benhumea
 

Texto completo de la Tesis     

 



Resumen

 

Las interfaces de usuario fueron creadas como respuesta a la necesidad de facilitar la interacción con las computadoras. La evolución de las interfaces de usuario nos ha llevado desde las tarjetas perforadas y línea de comandos, hasta las interfaces gráficas, cuyo uso ha sido predominante desde hace más de dos décadas, lo que ha permitido que la computadora y los dispositivos móviles se posicionen como herramientas de la vida cotidiana. La evolución de la computación, además de concentrarse en el desarrollo de hardware y software más poderoso y con mayores prestaciones, ha llevado también a la investigación para el desarrollo de interfaces de usuario más poderosas, fáciles de usar y con la característica de que éstas sean las que se adapten al usuario y no viceversa. Esta búsqueda ha llevado a la investigación de la Interacción Natural (IN) y de las Interfaces Naturales de Usuario (INU). El objetivo de la INU es permitir al usuario interactuar con la computadora como si ésta se tratase de otro humano, es decir, busca eliminar la necesidad de estar consciente del uso de cualquier dispositivo, al enfocarse en mecanismos basados en habilidades del humano, tales como gesticulaciones o movimientos específicos y voz, que le son familiares al usuario, para ser utilizados como datos de entrada a la interfaz, volviendo más natural la interacción con la computadora. Gracias al sensor Kinect, la consola Xbox 360 de Microsoft permite la interacción con videojuegos sin más que con movimientos del cuerpo y voz, eliminando el uso del control de la consola, como en el caso del Wii de Nintendo. El Kinect entrega imágenes de profundidad que permiten interpretar el ambiente y estimar el movimiento del usuario con la ayuda de bibliotecas de software. El propósito de esta tesis es diseñar y experimentar con la construcción de una interfaz natural basada en la interpretación de secuencias de movimientos del usuario a comandos de interacción utilizando el sensor Kinect, Qt, diversas bibliotecas de desarrollo y el ambiente de GNU/Linux. Para verificar el funcionamiento de la interfaz, se diseñaron e implementaron tres aplicaciones construidas sobre ésta: (1) un ratón virtual, (2) una navegación en menús y, (3) una interfaz para la manipulación de objetos virtuales. Palabras claves: Visión por Computadora, Interfaz Natural de Usuario, Interacción Humano-Computadora, Reconocimiento de Comandos, Cámara de Profundidad.

 

Abstract

User interfaces were created as a response to the need of facilitating computer-human interaction. The evolution of user interfaces has taken us from punch cards and the command line to graphical interfaces, whose usage has been predominant for more than two decades and also has positioned the computers and mobile devices as daily life tools. In addition to focusing on the development of high performance hardware and software, this computing evolution has also led to interface research focused in it’s ease of use, and the charateristic that the interface is the one that adapts to the user and not vice versa. This search has led to the research of Natural Interaction (NI), and Natural User Interfaces (NUI). The aim of the NUI is to allow the user to interact with a computer as if it were another human. NUI seeks to eliminate the need to be aware of the use of any device by focusing on mechanisms based on human skills such as specific movements and estures or voice, which are familiar to the user, for use as input to the interface, becoming a more natural interaction with the computer. With the Kinect sensor, the Microsof Xbox 360 console allows us to interact with video games using nothing but body movements and voice, eliminating the need to use console’s controller, as in the case of Nintendo’s Wii. Kinect generates depth images that allow us to interpret the environment and estimate the movement of the user using some software libraries. The purpose of this thesis is to design and experiment by developing a natural interface system based on the translation of user’s movements sequences to interaction commands using the Kinect sensor, Qt, some free software libraries and the GNU/Linux environment. To verify the correct functionality of the natural interface, three applications were developed on top of the system: (1) a virtual mouse, (2) a menu navigation and (3) a virtual object interface handler. Keywords: Computer Vision, Natural User Interface, Human-Computer Interaction, Command Recognition, Depth Camera.