Facebook
Gaceta digital FI Ingenieria en Marcha
Comunicafi TVIngenieria comunicafi_unam
Vida Académica
2015-08-18
Procesador de Síntesis de Texto a Voz
La FI y la UNAM crean tecnología de vanguardia única en el país y en Latinoamérica.
Por: Rosalba Ovando Trejo
Fotografía: Jorge Estrada Ortíz
Comunicafi
Dr. Abel Herrera, responsable Lab. Tecnologías del Lenguaje

El doctor Abel Herrera, responsable del Laboratorio de Procesamiento de Voz de Posgrado de la Facultad de Ingeniería, ofreció la plática Procesador de síntesis de texto a voz en la 5ª Conferencia Internacional sobre Circuitos, Sistemas y Simulación (Conference on Circuits, System and Simulation, ICCS), organizado por la American Society for Research (ASR), los días 20 y 21 de julio, en Madrid, España. En este evento los participantes intercambiaron nuevas ideas y experiencias de aplicaciones, y tuvieron la oportunidad establecer relaciones comerciales, de investigación y colaboraciones internacionales.

La plática que ofreció el doctor Herrera es llamada Keynote Speech, un distintivo que le dan a los mejores especialistas del mundo en el área del congreso, lo cual representa un orgullo para México, la UNAM y la Facultad de Ingeniería por el nivel alcanzado en síntesis de texto a voz.

La invitación al Congreso, patrocinado por una organización china, significó una oportunidad para acercarse a colegas de Asia y de otras partes del mundo y mostrar los avances logrados en la Facultad de Ingeniería en la síntesis texto a voz (TTS, por sus siglas en inglés), cuyo objetivo es generar una voz sintética que se confunda con la voz de una persona. "En la FI se ha desarrollado un procesador de síntesis de texto, en el que la máquina puede reproducir cualquier texto que se escriba y, en consecuencia, reproducirlo, a tal grado que no se distingue si es una máquina o una persona", explicó el doctor Herrera.

Para realizar las pruebas se grabó un texto lingüísticamente equilibrado de 120 minutos de duración con dos locutores profesionales, Iris Moreno y Ernesto Mendoza, en una cámara anecoica y con equipo profesional, a un muestreo de 16 kHz, en el que se está trabajando para corregir las fallas que se han presentado.

Agregó que se trata de un sistema sin restricciones que procesa cualquier caracter no alfabético, respetando reglas de ortografía del español del centro de México, como las sílabas acentuadas y puntuaciones, con posibilidad de segmentar el texto y así se le pueda asignar una entonación y ritmo significativos. También se identifican verbos, adjetivos y sustantivos; las abreviaciones y cantidades son expandidas a su forma completa, por ejemplo Dr. se pronuncia doctor y 1014 se convierte en mil catorce, todo esto con el fin de hacer más fluida la pronunciación. Cabe señalar que ya se hacen pruebas en inglés y otros idiomas y que se puede personalizar la voz de la máquina, con base en otras voces, modificando sus fonemas, tonos y timbres, incluso, con voces específicas como la de un artista.

Este sintetizador es el resultado de versiones anteriores más los avances recientes; para verificar su funcionamiento se realizarán pruebas de su rendimiento estadísticamente válidas, como la MOS (Mean Opinion Score) que estudia la calidad de voz, y las conclusiones dependerán de la retroalimentación de los probadores. "En esta ocasión unas 70 personas evaluarán la calidad de audio de 30 grabaciones de frases de prueba, los resultados estadísticos validarán qué tanto se acerca a la voz humana nuestro sintetizador de texto", señaló. Además del doctor Herrera también participan los maestros Fernando del Río y Carlos Franco, y el tesista Ricardo Moreno, estudiante de Ingeniería en Computación.

Nuestra tecnología, basada en el HMM-based Text to Speech (HTS), es un logro para la FI: "Desarrollamos un sistema basado en HTS para el español de México con grabaciones no profesionales, algunas variantes y diseños nuevos; se trata de la primera versión en su tipo en México y en Latinoamérica. Ahora lo interesante será tener voces de las regiones importantes del norte, sur y centro de México ( zonas de alto nivel socioeconómico y populares), con sus variantes en el tono y los modos de hablar, además de los diversos dialectos", puntualizó.

La interacción hombre-máquina abre la oportunidad comercial para que México genere su propia tecnología en lugar de comprarla, pagar patentes o mantenimiento a empresas extranjeras, "hay que esperar la evaluación y que las empresas interesadas se acerquen. De ser así, para el 2016 ya estaría en el mercado, incluso en dispositivos móviles", advirtió.

El doctor Abel Herrera reflexiona sobre la doble responsabilidad de la ingeniería: crear sistemas que puedan sustituir la tecnología extranjera por la nacional y adaptar la tecnología extranjera para poderla comercializar: "ahí radica la diferencia entre la investigación en ingeniería y la científica. Esto requiere tiempo, esfuerzo y conocimientos que no son de investigación de punta, pero sí proyectos de ingeniería, labores que no son reconocidas en el ámbito científico, pero sí en el tecnológico".

Este procesador de síntesis de texto a voz, además de barato, tiene un sinfín de aplicaciones: recados telefónicos, monitoreo del funcionamiento de los automóviles, recomendaciones de sitios; apagado y encendido de luces y aparatos electrónicos, o abrir y cerrar puertas y ventanas. Sería una opción para difundir las lenguas de los 65 grupos indígenas de México, fomentar el bilingüismo en algunas partes del país y para conservar el acervo de las lenguas que están en vías de desaparición.

"La UNAM, en particular la FI, siguen siendo líderes en este rubro gracias a sus esfuerzos en el avance científico y tecnológico del país. Agradezco a la Dirección General Asuntos del Personal Académico por su apoyo", finalizó.