Decodificación de gestos de labios a texto con redes neuronales convolucionales.

La lectura de labios puede ser una habilidad útil para personas con problemas auditivos y para la comunicación en situaciones donde el audio es desfavorecido por interferencias. Desafortunadamente, se ha observado que a pesar de que sí existe un estímulo visual en el habla, éste resulta empobrecido...

Full description

Saved in:
Bibliographic Details
Main Author: Salinas Villanueva, Omar Adrián
Other Authors: González Campos, José Saúl
Format: Trabajo recepcional licenciatura
Language:spa
Published: Universidad Autónoma de Ciudad Juárez 2019
Subjects:
Online Access:http://hdl.handle.net/20.500.11961/5377
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:La lectura de labios puede ser una habilidad útil para personas con problemas auditivos y para la comunicación en situaciones donde el audio es desfavorecido por interferencias. Desafortunadamente, se ha observado que a pesar de que sí existe un estímulo visual en el habla, éste resulta empobrecido al punto de no permitir una correcta interpretación. Por lo general, las personas promedio (tanto con entrenamiento en la lectura de labios como sin él) no suelen superar el 30% de precisión para el reconocimiento de palabras, con un rango de entre 5% y 29% para palabras monosilábicas y entre 10% y 32% para palabras compuestas. A su vez, el correcto reconocimiento de visemas rara vez supera el 50%. Para resolver estos problemas, se propuso la implementación de una red neuronal de convoluciones espaciotemporales con la capacidad de lograr una mayor precisión en la lectura e interpretación de gesticulaciones labiales para generar frases. La red fue entrenada con el conjunto de datos GRID corpus, un conjunto de videos diseñados para el estudio de la percepción del habla. El modelo final fue capaz de generalizar a través de hablantes desconocidos del conjunto GRID con una precisión de reconocimiento de palabras del 84.2% y 90.9% para caracteres. Estos resultados fueron comparados con la precisión promedio lograda por personas con y sin entrenamiento previo en la lectura de labios. Asimismo, se compararon contra previos trabajos de lectura de labios mediante redes neuronales y contra la implementación original de la arquitectura LipNet.