Facebook
Gaceta digital FI Ingenieria en Marcha
Comunicafi TVIngenieria comunicafi_unam
Investigación y Vinculación
2018-12-04
HTK2SPHINX-Converter y HTK-Benchmark
Dos programas originales de reconocimiento de voz automáticos para el español mexicano desarrollados en FI.
Por: Aurelio Perez-Gómez
Fotografía: Jorge Estrada Ortíz
Comunicafi
Integrantes del Laboratorio de Tecnologías del Lenguaje

Los doctores Carlos Daniel Mena y José Abel Herrera Camacho del Laboratorio de Tecnologías del Lenguaje de la Facultad de Ingeniería (FI) crearon HTK2SPHINX-Converter y HTK-Benchmark, programas originales de apoyo en el reconocimiento de voz automáticos para el español hablado en el Centro de México, los cuales fueron inscritos en el Registro Público del Derecho de Autor y como titular la Universidad Nacional Autónoma de México.

Cabe mencionar que el Instituto Nacional del Derecho de Autor (INDAUTOR) define a los programas de cómputo como la expresión original en cualquier forma, lenguaje o código, de un conjunto de instrucciones que, con una secuencia, estructura y organización determinada, tiene el propósito que una computadora o dispositivo realice una tarea o función específica.

Comentaron que HTK2SPHINX-Converter es un software codificado en Python 2.7 que permite usar el sistema de reconocimiento de voz HTK casi de la misma forma que el sistema de reconocimiento de voz CMU-SPHINX 3 y los mismos archivos de entrada. Las diferencias principales entre el HTK2SPHINX-Converter y CMU-SPHINX 3 son que el primero es un sistema de reconocimiento basado en gramática que depende del hablante, y el segundo puede usar un modelo de lenguaje o podría ser un hablante independiente.

El HTK-Benchmark es un reconocedor de voz estadístico en español, basado en software codificado en Python 2.7 que posibilita al usuario utilizar el sistema de reconocimiento de voz HTK casi de la misma manera que el sistema de reconocimiento de voz CMU-SPHINX 3 y los mismos archivos de entrada. Se basa en el reconocimiento utilizando un modelo de lenguaje de trigramas en formato ARPA compatible con SPHINX3 y Modelos Ocultos de Markov.

Los avances actuales en el reconocimiento de voz automático (ASR) se deben a los recursos de voz disponibles, tales como: grabaciones de voz, transcripciones ortográficas, diccionarios de pronunciación, grandes colecciones de texto y software computacional para la construcción de sistemas ASR. Sin embargo, la disponibilidad de estos recursos varía de lenguaje a idioma. Hasta hace poco, la creación de tales recursos se ha centrado en gran medida en el inglés, comentaron.

Esto ha tenido un efecto positivo en el desarrollo de la investigación del campo y la tecnología del habla; los procesos se han transferido a otros idiomas que en la actualidad se crean los reconocedores más exitosos para otros idiomas. Para formar un corpus más robusto, se le integró a cada grabación con su transcripción mejorada, la cual consistió en una convención ortográfica que facilitó la transcripción fonética y fonológica automática.

Apuntaron que, para difundir el uso de los recursos, se incluyeron en la página de CIEMPIESS (www.ciempiess.org/downloads). "Esto lo convierte en una opción excelente en comparación con otros recursos en español que no están disponibles fácil o libremente". Esta tecnología puede utilizarse en la investigación de las lenguas indígenas y conservar nuestro patrimonio cultural, finalizaron.