Decodificación de gestos de labios a texto con redes neuronales convolucionales.

La lectura de labios puede ser una habilidad útil para personas con problemas auditivos y para la comunicación en situaciones donde el audio es desfavorecido por interferencias. Desafortunadamente, se ha observado que a pesar de que sí existe un estímulo visual en el habla, éste resulta empobrecido...

وصف كامل

محفوظ في:
التفاصيل البيبلوغرافية
المؤلف الرئيسي: Salinas Villanueva, Omar Adrián
مؤلفون آخرون: González Campos, José Saúl
التنسيق: Trabajo recepcional licenciatura
اللغة:spa
منشور في: Universidad Autónoma de Ciudad Juárez 2019
الموضوعات:
الوصول للمادة أونلاين:http://hdl.handle.net/20.500.11961/5377
الوسوم: إضافة وسم
لا توجد وسوم, كن أول من يضع وسما على هذه التسجيلة!
الوصف
الملخص:La lectura de labios puede ser una habilidad útil para personas con problemas auditivos y para la comunicación en situaciones donde el audio es desfavorecido por interferencias. Desafortunadamente, se ha observado que a pesar de que sí existe un estímulo visual en el habla, éste resulta empobrecido al punto de no permitir una correcta interpretación. Por lo general, las personas promedio (tanto con entrenamiento en la lectura de labios como sin él) no suelen superar el 30% de precisión para el reconocimiento de palabras, con un rango de entre 5% y 29% para palabras monosilábicas y entre 10% y 32% para palabras compuestas. A su vez, el correcto reconocimiento de visemas rara vez supera el 50%. Para resolver estos problemas, se propuso la implementación de una red neuronal de convoluciones espaciotemporales con la capacidad de lograr una mayor precisión en la lectura e interpretación de gesticulaciones labiales para generar frases. La red fue entrenada con el conjunto de datos GRID corpus, un conjunto de videos diseñados para el estudio de la percepción del habla. El modelo final fue capaz de generalizar a través de hablantes desconocidos del conjunto GRID con una precisión de reconocimiento de palabras del 84.2% y 90.9% para caracteres. Estos resultados fueron comparados con la precisión promedio lograda por personas con y sin entrenamiento previo en la lectura de labios. Asimismo, se compararon contra previos trabajos de lectura de labios mediante redes neuronales y contra la implementación original de la arquitectura LipNet.