Sistema audiovisual para reconocimiento de comandos

Se presenta el desarrollo de un sistema automático de reconocimiento audiovisual del habla enfocado en el reconocimiento de comandos. La representación del audio se realizó mediante los coeficientes cepstrales de Mel y las primeras dos derivadas temporales. Para la caracterización del vídeo se hizo...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autores principales: Ceballos,Alexander, Serna-Morales,Andrés F, Prieto,Flavio, Gómez,Juan B, Redarce,Tanneguy
Lenguaje:Spanish / Castilian
Publicado: Universidad de Tarapacá. 2011
Materias:
Acceso en línea:http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-33052011000200012
Etiquetas: Agregar Etiqueta
Sin Etiquetas, Sea el primero en etiquetar este registro!
id oai:scielo:S0718-33052011000200012
record_format dspace
spelling oai:scielo:S0718-330520110002000122012-05-28Sistema audiovisual para reconocimiento de comandosCeballos,AlexanderSerna-Morales,Andrés FPrieto,FlavioGómez,Juan BRedarce,Tanneguy Reconocimiento audiovisual del habla modelo oculto de Markov (HMM) coeficientes de Mel contorno activo pseudotono estándar MPEG-4 puntos FAPs seguimiento de características Se presenta el desarrollo de un sistema automático de reconocimiento audiovisual del habla enfocado en el reconocimiento de comandos. La representación del audio se realizó mediante los coeficientes cepstrales de Mel y las primeras dos derivadas temporales. Para la caracterización del vídeo se hizo seguimiento automático de características visuales de alto nivel a través de toda la secuencia. Para la inicialización automática del algoritmo se emplearon transformaciones de color y contornos activos con información de flujo del vector gradiente ("GVF snakes") sobre la región labial, mientras que para el seguimiento se usaron medidas de similitud entre vecindarios y restricciones morfológicas definidas en el estándar MPEG-4. Inicialmente, se presenta el diseño del sistema de reconocimiento automático del habla, empleando únicamente información de audio (ASR), mediante Modelos Ocultos de Markov (HMMs) y un enfoque de palabra aislada; posteriormente, se muestra el diseño de los sistemas empleando únicamente características de vídeo (VSR), y empleando características de audio y vídeo combinadas (AVSR). Al final se comparan los resultados de los tres sistemas para una base de datos propia en español y francés, y se muestra la influencia del ruido acústico, mostrando que el sistema de AVSR es más robusto que ASR y VSR.info:eu-repo/semantics/openAccessUniversidad de Tarapacá.Ingeniare. Revista chilena de ingeniería v.19 n.2 20112011-08-01text/htmlhttp://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-33052011000200012es10.4067/S0718-33052011000200012
institution Scielo Chile
collection Scielo Chile
language Spanish / Castilian
topic Reconocimiento audiovisual del habla
modelo oculto de Markov (HMM)
coeficientes de Mel
contorno activo
pseudotono
estándar MPEG-4
puntos FAPs
seguimiento de características
spellingShingle Reconocimiento audiovisual del habla
modelo oculto de Markov (HMM)
coeficientes de Mel
contorno activo
pseudotono
estándar MPEG-4
puntos FAPs
seguimiento de características
Ceballos,Alexander
Serna-Morales,Andrés F
Prieto,Flavio
Gómez,Juan B
Redarce,Tanneguy
Sistema audiovisual para reconocimiento de comandos
description Se presenta el desarrollo de un sistema automático de reconocimiento audiovisual del habla enfocado en el reconocimiento de comandos. La representación del audio se realizó mediante los coeficientes cepstrales de Mel y las primeras dos derivadas temporales. Para la caracterización del vídeo se hizo seguimiento automático de características visuales de alto nivel a través de toda la secuencia. Para la inicialización automática del algoritmo se emplearon transformaciones de color y contornos activos con información de flujo del vector gradiente ("GVF snakes") sobre la región labial, mientras que para el seguimiento se usaron medidas de similitud entre vecindarios y restricciones morfológicas definidas en el estándar MPEG-4. Inicialmente, se presenta el diseño del sistema de reconocimiento automático del habla, empleando únicamente información de audio (ASR), mediante Modelos Ocultos de Markov (HMMs) y un enfoque de palabra aislada; posteriormente, se muestra el diseño de los sistemas empleando únicamente características de vídeo (VSR), y empleando características de audio y vídeo combinadas (AVSR). Al final se comparan los resultados de los tres sistemas para una base de datos propia en español y francés, y se muestra la influencia del ruido acústico, mostrando que el sistema de AVSR es más robusto que ASR y VSR.
author Ceballos,Alexander
Serna-Morales,Andrés F
Prieto,Flavio
Gómez,Juan B
Redarce,Tanneguy
author_facet Ceballos,Alexander
Serna-Morales,Andrés F
Prieto,Flavio
Gómez,Juan B
Redarce,Tanneguy
author_sort Ceballos,Alexander
title Sistema audiovisual para reconocimiento de comandos
title_short Sistema audiovisual para reconocimiento de comandos
title_full Sistema audiovisual para reconocimiento de comandos
title_fullStr Sistema audiovisual para reconocimiento de comandos
title_full_unstemmed Sistema audiovisual para reconocimiento de comandos
title_sort sistema audiovisual para reconocimiento de comandos
publisher Universidad de Tarapacá.
publishDate 2011
url http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-33052011000200012
work_keys_str_mv AT ceballosalexander sistemaaudiovisualparareconocimientodecomandos
AT sernamoralesandresf sistemaaudiovisualparareconocimientodecomandos
AT prietoflavio sistemaaudiovisualparareconocimientodecomandos
AT gomezjuanb sistemaaudiovisualparareconocimientodecomandos
AT redarcetanneguy sistemaaudiovisualparareconocimientodecomandos
_version_ 1714203392077725696