Decodificación de gestos de labios a texto con redes neuronales convolucionales.

La lectura de labios puede ser una habilidad útil para personas con problemas auditivos y para la comunicación en situaciones donde el audio es desfavorecido por interferencias. Desafortunadamente, se ha observado que a pesar de que sí existe un estímulo visual en el habla, éste resulta empobrecido...

Fuld beskrivelse

Saved in:
Bibliografiske detaljer
Hovedforfatter: Salinas Villanueva, Omar Adrián
Andre forfattere: González Campos, José Saúl
Format: Trabajo recepcional licenciatura
Sprog:spa
Udgivet: Universidad Autónoma de Ciudad Juárez 2019
Fag:
Online adgang:http://hdl.handle.net/20.500.11961/5377
Tags: Tilføj Tag
Ingen Tags, Vær først til at tagge denne postø!
Beskrivelse
Summary:La lectura de labios puede ser una habilidad útil para personas con problemas auditivos y para la comunicación en situaciones donde el audio es desfavorecido por interferencias. Desafortunadamente, se ha observado que a pesar de que sí existe un estímulo visual en el habla, éste resulta empobrecido al punto de no permitir una correcta interpretación. Por lo general, las personas promedio (tanto con entrenamiento en la lectura de labios como sin él) no suelen superar el 30% de precisión para el reconocimiento de palabras, con un rango de entre 5% y 29% para palabras monosilábicas y entre 10% y 32% para palabras compuestas. A su vez, el correcto reconocimiento de visemas rara vez supera el 50%. Para resolver estos problemas, se propuso la implementación de una red neuronal de convoluciones espaciotemporales con la capacidad de lograr una mayor precisión en la lectura e interpretación de gesticulaciones labiales para generar frases. La red fue entrenada con el conjunto de datos GRID corpus, un conjunto de videos diseñados para el estudio de la percepción del habla. El modelo final fue capaz de generalizar a través de hablantes desconocidos del conjunto GRID con una precisión de reconocimiento de palabras del 84.2% y 90.9% para caracteres. Estos resultados fueron comparados con la precisión promedio lograda por personas con y sin entrenamiento previo en la lectura de labios. Asimismo, se compararon contra previos trabajos de lectura de labios mediante redes neuronales y contra la implementación original de la arquitectura LipNet.