Facebook
Gaceta digital FI Ingenieria en Marcha
Comunicafi TVIngenieria comunicafi_unam
Vida Académica
2016-06-22
Corpus Hecho en México 150
Diseña el Laboratorio de Tecnologías del Lenguaje FI nuevo corpus aceptado en el Linguistic Data Consortium.
Por: Marlene Flores García
Fotografía: Jorge Estrada Ortíz
Comunicafi
Mtro. Carlos Daniel Hernández Mena y Dr. Abel Herrera

Una segunda base de datos creada por el maestro Carlos Daniel Hernández Mena, bajo la dirección del doctor Abel Herrera, fue aceptada por el Linguistic Data Consortium (LDC). Se trata del Corpus Hecho en México (CHM150), que consta de 150 archivos de audio y sus respectivas transcripciones fonéticas.

Para cumplir su principal misión de apoyar la educación, investigación y desarrollo de tecnologías del habla, el LDC busca crear, adquirir y compartir diversos recursos lingüísticos: datos, herramientas y estándares.

La inclusión del CHM150 en este consorcio significa que el trabajo que se realiza en la Facultad de Ingeniería se equipara al de investigadores especialistas de otros países, y, lo más importante, que contamos con las bases para crear nuestras propias tecnologías del habla.

"Los mejores reconocedores de voz en español ni siquiera están hechos por hispanohablantes; el habla nos pertenece y tenemos que resolver sus problemas, no depender de otros para que lo hagan", enfatizó el maestro Carlos Hernández.

El corpus se elaboró en el Laboratorio de Tecnologías del Lenguaje, del que ambos académicos forman parte, y en él participaron 150 personas (mitad hombres y mujeres), de entre 18 y 35 años, que en sesiones breves donaron su voz para hacer el proyecto posible.

Se puede aplicar en lingüística forense, para reconocimiento de voz en general y para evaluar el word error rate de otros sistemas. Adicionalmente, este trabajo destaca por ser una base de datos que satisface los requerimientos de un proyecto de ingeniería y no uno de lingüística.

El maestro Hernández comentó que al colaborar en el Laboratorio de Tecnologías del Lenguaje ha aprendido el manejo de múltiples sistemas de código abierto para hacer reconocimiento de voz, el procesamiento de los corpus de forma adecuada, así como a crear herramientas que le ayudan a hacer las transcripciones fonéticas automáticas y a lidiar con grandes cantidades de datos.

Cabe destacar que el Laboratorio reúne ingenieros de las áreas de computación, telecomunicaciones, eléctrica, electrónica y mecatrónica, por lo que el doctor Abel Herrera invita a los estudiantes a realizar su servicio social en el grupo. Para este propósito puedes escribir a ca_hernandez@uxmcc2.iimas.unam.mx o a abelhc@hotmail.com.