Decodificación de gestos de labios a texto con redes neuronales convolucionales.

La lectura de labios puede ser una habilidad útil para personas con problemas auditivos y para la comunicación en situaciones donde el audio es desfavorecido por interferencias. Desafortunadamente, se ha observado que a pesar de que sí existe un estímulo visual en el habla, éste resulta empobrecido...

Descrizione completa

Salvato in:

Dettagli Bibliografici
Autore principale:	Salinas Villanueva, Omar Adrián
Altri autori:	González Campos, José Saúl
Natura:	Trabajo recepcional licenciatura
Lingua:	spa
Pubblicazione:	Universidad Autónoma de Ciudad Juárez 2019
Soggetti:	Lectura de labios, técnica Machine, técnica Deep Learning, LipNet LCC::TECHNOLOGY info:eu-repo/classification/cti/7
Accesso online:	http://hdl.handle.net/20.500.11961/5377
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne! !

Descrizione
Riassunto:	La lectura de labios puede ser una habilidad útil para personas con problemas auditivos y para la comunicación en situaciones donde el audio es desfavorecido por interferencias. Desafortunadamente, se ha observado que a pesar de que sí existe un estímulo visual en el habla, éste resulta empobrecido al punto de no permitir una correcta interpretación. Por lo general, las personas promedio (tanto con entrenamiento en la lectura de labios como sin él) no suelen superar el 30% de precisión para el reconocimiento de palabras, con un rango de entre 5% y 29% para palabras monosilábicas y entre 10% y 32% para palabras compuestas. A su vez, el correcto reconocimiento de visemas rara vez supera el 50%. Para resolver estos problemas, se propuso la implementación de una red neuronal de convoluciones espaciotemporales con la capacidad de lograr una mayor precisión en la lectura e interpretación de gesticulaciones labiales para generar frases. La red fue entrenada con el conjunto de datos GRID corpus, un conjunto de videos diseñados para el estudio de la percepción del habla. El modelo final fue capaz de generalizar a través de hablantes desconocidos del conjunto GRID con una precisión de reconocimiento de palabras del 84.2% y 90.9% para caracteres. Estos resultados fueron comparados con la precisión promedio lograda por personas con y sin entrenamiento previo en la lectura de labios. Asimismo, se compararon contra previos trabajos de lectura de labios mediante redes neuronales y contra la implementación original de la arquitectura LipNet.

Decodificación de gestos de labios a texto con redes neuronales convolucionales.

Documenti analoghi