Sistema de reconocimiento de voz y del habla multi-fuente orientado a compañeros digitales



Sistema de reconocimiento de voz y del habla multi-fuente orientado a compañeros digitales

Ivan Giovanni Valdespin Garcia
 

Texto completo de la Tesis     

 



Resumen

Durante los últimos años, se han logrado grandes avances tecnológicos en múltiples sectores. Uno de ellos es el hogar, donde es cada vez más común encontrar diversos dispositivos inteligentes, como televisores y refrigeradores, y más recientemente asistentes personales controlados por voz. Estos últimos han ganado popularidad debido a su potencial para realizar múltiples tareas dentro del hogar, como controlar aparatos electrónicos, gestionar la iluminación y recordar eventos importantes. No obstante, su utilidad va más allá, ya que pueden ser utilizados en diferentes ámbitos, como en el sector industrial o incluso en el sector de la salud. Existen propuestas que, aprovechando los asistentes más populares en la actualidad, como Alexa y Google Assistant, ayudan a gestionar enfermedades mediante recordatorios de medicamentos o la programación de citas médicas, con el objetivo de mejorar la calidad de vida de los pacientes. Sin embargo, todos estos asistentes sufren de algunas deficiencias notables. La carencia de conciencia contextual es uno de los problemas, ya que estos asistentes requieren que el usuario esté a una distancia relativamente corta para reconocer los comandos, sin poder adaptarse a situaciones en las que el usuario esté en un lugar más alejado dentro del mismo entorno (e.g., en otra habitación del hogar). Esta limitación se debe a que estos asistentes utilizan una sola fuente de entrada. Otra de las deficiencias de estos asistentes es que la información del usuario es compartida con las grandes compañías que los han desarrollado; debido a que todo el procesamiento de la petición del usuario se realiza utilizando cómputo en la nube, la información proporcionada por el usuario tiende a ser enviada a la base de información de estas compañías como Google o Amazon, permitiendo que estas puedan tener acceso a la información personal de todos estos usuarios. En este trabajo de tesis, se propone, como solución a estas deficiencias, el desarrollo de un sistema de reconocimiento de voz y habla que admita múltiples fuentes de captación de audio (multi-fuente), lo que permitirá crear un entorno consciente del contexto. Asimismo, con el objetivo de mantener la información del usuario en un entorno local, el sistema de reconocimiento de voz y habla está basado en la utilización de herramientas que no requieran del cómputo en la nube, evitando que la información sea compartida con alguna compañía. Finalmente, este sistema es versátil, ya que puede interactuar con distintos sistemas externos (e.g., el broker de un compañero digital o dispositivos del Internet de las Cosas) haciéndolo capaz de ser implementado en distintos casos de estudio. Palabras clave: asistentes personales comandados por voz, captura multi-fuente de audio, entorno consciente de contexto, reconocimiento de voz y habla.

 

Abstract

Over the last few years, great technological advances have been made in multiple sectors, specially in domestic scenarios, where it is increasingly common to find various smart devices, such as televisions and refrigerators, and more recently voice-controlled personal assistants. The latter have gained popularity due to their potential to accomplish multiple tasks within the home, such as controlling electronic appliances, managing lighting and remembering important events. However, their practicality goes beyond that, as they can be used in different fields, such as the industrial or healthcare sectors. There are proposals that, taking advantage of the most popular assistants today, such as Alexa and Google Assistant, help manage diseases through reminders about scheduling medical appointments or medication intake, to improve patients’ quality of life. However, all of these assistants suffer from some notable shortcomings, notably, lack of contextual awareness. Typically, users must be within close proximity for these devices to recognize commands, limiting their functionality in larger spaces, such as different rooms within a house. This is a consequence of relying on a single audio input source. Additionally, privacy concerns arise as these devices, utilizing cloud computing, often share user data with their parent companies, such as Google or Amazon. In this thesis, we propose a solution to these deficiencies, through the development of a speech and voice recognition system that supports multiple audio sources, which will allow the creation of a context-aware environment. Moreover, in order to keep the user’s information private, the speech and voice recognition system is confined to the local environment, operating independently of cloud computing. The system is also versatile, allowing interaction with different external systems, including a digital companion broker and Internet of Things devices, rendering it capable of being implemented in different case studies. Keywords: context-aware environment, multi-source audio capture, speech and voice recognition, voice-controlled personal assistants.