Facultad de Ingeniería / Coordinación de Comunicación

Ciudad Universitaria a 21 de Abril de 2026

Vida Académica

2016-06-22

Corpus Hecho en México 150

Diseña el Laboratorio de Tecnologías del Lenguaje FI nuevo corpus aceptado en el Linguistic Data Consortium.

Por: Marlene Flores García

Fotografía: Jorge Estrada Ortíz

Mtro. Carlos Daniel Hernández Mena y Dr. Abel Herrera

Una segunda base de datos creada por el maestro Carlos Daniel Hernández Mena, bajo la dirección del doctor Abel Herrera, fue aceptada por el Linguistic Data Consortium (LDC). Se trata del Corpus Hecho en México (CHM150), que consta de 150 archivos de audio y sus respectivas transcripciones fonéticas.

Para cumplir su principal misión de apoyar la educación, investigación y desarrollo de tecnologías del habla, el LDC busca crear, adquirir y compartir diversos recursos lingüísticos: datos, herramientas y estándares.

La inclusión del CHM150 en este consorcio significa que el trabajo que se realiza en la Facultad de Ingeniería se equipara al de investigadores especialistas de otros países, y, lo más importante, que contamos con las bases para crear nuestras propias tecnologías del habla.

"Los mejores reconocedores de voz en español ni siquiera están hechos por hispanohablantes; el habla nos pertenece y tenemos que resolver sus problemas, no depender de otros para que lo hagan", enfatizó el maestro Carlos Hernández.

El corpus se elaboró en el Laboratorio de Tecnologías del Lenguaje, del que ambos académicos forman parte, y en él participaron 150 personas (mitad hombres y mujeres), de entre 18 y 35 años, que en sesiones breves donaron su voz para hacer el proyecto posible.

Se puede aplicar en lingüística forense, para reconocimiento de voz en general y para evaluar el word error rate de otros sistemas. Adicionalmente, este trabajo destaca por ser una base de datos que satisface los requerimientos de un proyecto de ingeniería y no uno de lingüística.

El maestro Hernández comentó que al colaborar en el Laboratorio de Tecnologías del Lenguaje ha aprendido el manejo de múltiples sistemas de código abierto para hacer reconocimiento de voz, el procesamiento de los corpus de forma adecuada, así como a crear herramientas que le ayudan a hacer las transcripciones fonéticas automáticas y a lidiar con grandes cantidades de datos.

Cabe destacar que el Laboratorio reúne ingenieros de las áreas de computación, telecomunicaciones, eléctrica, electrónica y mecatrónica, por lo que el doctor Abel Herrera invita a los estudiantes a realizar su servicio social en el grupo. Para este propósito puedes escribir a ca_hernandez@uxmcc2.iimas.unam.mx o a abelhc@hotmail.com.

Tweets by @FIUNAM_MX

Hecho en México, Universidad Nacional Autónoma de México, Facultad de Ingeniería, Coordinación de Comunicación.
Todos los derechos reservados 2026. Esta pagina puede ser reproducida con fines no lucrativos, siempre y cuando no se mutile, se cite la fuente completa y su dirección electrónica. De otra forma requiere permiso previo por escrito de la institución.

Administración de contenidos: Coordinación de Comunicación. Administración Técnica: UNICA
Los textos publicados en este portal son responsabilidad de sus autores.

MAPA DE SITIO
CONTACTO

VISITANTES: 17260670