Facebook
Gaceta digital FI Ingenieria en Marcha
Comunicafi TVIngenieria comunicafi_unam
Investigación y Vinculación
2015-03-05
CIEMPIESS: Corpus en Español de México
Una contribución tecnológica de la Facultad de Ingeniería para el
Por: Rosalba Ovando Trejo
Fotografía: Jorge Estrada Ortíz
Comunicafi
Dr. Abel Herrera Camacho

El Corpus de Investigación en Español de México del Posgrado de Ingeniería Eléctrica y Servicio Social (CIEMPIESS), desarrollado por el maestro Carlos Daniel Hernández Mena, estudiante de posgrado de la Facultad de Ingeniería, será distribuido de forma gratuita por el Linguistic Data Consortium (LDC) en su sitio web entre marzo y abril de este año. En él se darán a conocer herramientas gratuitas y de código abierto para procesamiento digital de voz en español, a fin de fomentar el desarrollo de tecnologías del lenguaje en México y América Latina.

Al respecto el doctor Abel Herrera Camacho, responsable del Laboratorio de Procesamiento de Voz (LPV) de la FI y asesor del proyecto, señaló que el corpus también puede ser descargado gratuitamente en www.ciempiess.org.

"Aunque ya existían otras bases de datos en español, estas no eran específicas para México y están limitadas a contratos privados de empresas, mientras que CIEMPIESS es el primero en su tipo, además de que es de uso abierto y gratuito", destacó.

Durante dos años el maestro Carlos Hernández ha perfeccionado las técnicas a fin de crear un modelo acústico de reconocimiento automático de voz para palabras continuas y aplicación en tiempo real. Actualmente, el CIEMPIESS cuenta con 16,717 archivos descargados de Radio-IUS, estación por internet de la Facultad de Derecho, e incluye transcripciones de texto y todos los archivos necesarios para hacer experimentos con el sistema de reconocimiento CMU-Sphinx.

Entre las características del corpus está la indicación de la vocal tónica de las palabras en su archivo de transcripción y en el modelo de lenguaje, esto permite que se mejore el reconocimiento en el orden del 1.5 por ciento y se incrementaría si se perfeccionara el diccionario de pronunciación. La marcación de la vocal tónica la hicieron de forma automática herramientas del LPV, las cuales están en una fase primigenia y no son tan efectivas para acentuar palabras en un contexto, pero sí en palabras aisladas; mejorando este acentuador automático se optimizaría la precisión del sistema en el uso de vocales tónicas.

El doctor Abel Herrera precisó que el modelo del lenguaje utilizado en el corpus está basado en unigramas, bigramas y trigramas generados en los boletines que la UNAM ha publicado entre 2010 y 2013.

"El diccionario de pronunciación fue extraído del archivo de transcripción del propio corpus y del modelo de lenguaje y tiene más de 50 mil palabras sin repetición, basados en el alfabeto fonético Mexbet (versión 2004); además, contiene sólo voces con acento del centro de México y vocabulario aceptado por la Real Academia de la Lengua Española. Cada archivo de audio contiene una sola voz, sin ruido ni música de fondo; cuenta con un etiquetado de palabras, es decir, para cada archivo de audio existe un archivo de texto en el que se indica el segundo donde empieza una palabra y en la que termina", precisó.

El CIEMPIESS, acotó el doctor Abel, puede ser usado por laboratorios o centros de investigación en sistemas de tecnologías de lenguaje, como empresas de computación o telefonía que buscan hacer traductores automáticos. En las universidades, dijo, los estudiantes de ingeniería en computación, telecomunicaciones, electrónica y mecatrónica pueden hacer investigación en torno a la interacción hombre-máquina, como las aplicaciones domóticas que están de moda.

"Este corpus también estará a disposición de las compañías transnacionales como Google o Microsoft, así que las universidades debemos hacer lo propio y desarrollar aplicaciones usando esta base de datos. Si nosotros no generamos tecnología, alguien más lo hará y tendremos que comprarla. Entre las investigaciones que tenemos contempladas está la de crear un corpus por región lingüística", explicó.

Este corpus es un proyecto PAPIIT en el que han colaborado más de una treintena de prestadores de servicio social, provenientes de diferentes carreras e instituciones: "ha sido una gran labor, integrar la base de datos implicó muchas horas de transcripción, separación y grabación de las palabras. Yo supervisé el diseño, las condiciones de grabación, las palabras que se utilizarían, etcétera. Carlos coordinó toda la parte logística y actualmente sigue trabajando en este tema para obtener el doctorado, le agradezco su empeño", destacó.

El responsable del LPV asegura que este proyecto coloca a México en el plano internacional como país de avanzada tecnológica y el grupo selecto de países que desarrollan herramientas para proyectos tecnológicos de nueva generación que tienen que ver con la interacción hombre- máquina.

El doctor Herrera Camacho señaló que el reto ahora es utilizarlo y obtener la validación de instituciones internacionales, pues este desarrollo está basado en corpus que se vinieron realizando desde 1980 y que ya han sido validados por especialistas en todo el mundo en congresos, revistas y convenciones.

Para el grupo de Procesamiento de Voz el reconocimiento que les otorga el Linguistic Data Consortium representa un gran orgullo, pues éste sólo reconoce aquéllos proyectos de calidad que se realizan con bases científicas. "Con este resultado respondemos a la confianza de la FI de brindarnos un laboratorio en el que hemos podido desarrollar un proyecto como CIEMPIESS, aporte tecnológico de gran envergadura de la FI-UNAM para el mundo", finalizó.