Decodificación de gestos de labios a texto con redes neuronales convolucionales.

La lectura de labios puede ser una habilidad útil para personas con problemas auditivos y para la comunicación en situaciones donde el audio es desfavorecido por interferencias. Desafortunadamente, se ha observado que a pesar de que sí existe un estímulo visual en el habla, éste resulta empobrecido...

Ful tanımlama

Kaydedildi:
Detaylı Bibliyografya
Yazar: Salinas Villanueva, Omar Adrián
Diğer Yazarlar: González Campos, José Saúl
Materyal Türü: Trabajo recepcional licenciatura
Dil:spa
Baskı/Yayın Bilgisi: Universidad Autónoma de Ciudad Juárez 2019
Konular:
Online Erişim:http://hdl.handle.net/20.500.11961/5377
Etiketler: Etiketle
Etiket eklenmemiş, İlk siz ekleyin!
Diğer Bilgiler
Özet:La lectura de labios puede ser una habilidad útil para personas con problemas auditivos y para la comunicación en situaciones donde el audio es desfavorecido por interferencias. Desafortunadamente, se ha observado que a pesar de que sí existe un estímulo visual en el habla, éste resulta empobrecido al punto de no permitir una correcta interpretación. Por lo general, las personas promedio (tanto con entrenamiento en la lectura de labios como sin él) no suelen superar el 30% de precisión para el reconocimiento de palabras, con un rango de entre 5% y 29% para palabras monosilábicas y entre 10% y 32% para palabras compuestas. A su vez, el correcto reconocimiento de visemas rara vez supera el 50%. Para resolver estos problemas, se propuso la implementación de una red neuronal de convoluciones espaciotemporales con la capacidad de lograr una mayor precisión en la lectura e interpretación de gesticulaciones labiales para generar frases. La red fue entrenada con el conjunto de datos GRID corpus, un conjunto de videos diseñados para el estudio de la percepción del habla. El modelo final fue capaz de generalizar a través de hablantes desconocidos del conjunto GRID con una precisión de reconocimiento de palabras del 84.2% y 90.9% para caracteres. Estos resultados fueron comparados con la precisión promedio lograda por personas con y sin entrenamiento previo en la lectura de labios. Asimismo, se compararon contra previos trabajos de lectura de labios mediante redes neuronales y contra la implementación original de la arquitectura LipNet.