Facebook
Gaceta digital FI Ingenieria en Marcha
Comunicafi TVIngenieria comunicafi_unam
Vida Académica
2017-09-05
Registra FI Espectrograma 3D en INDAUTOR
Programa de cómputo creado en el Laboratorio de Procesamiento de Voz.
Por: Aurelio Perez-Gómez
Fotografía: Jorge Estrada Ortíz
Comunicafi
Dr. José Abel Herrera Camacho

Con fundamento en la Ley Federal de Derecho de Autor (Art. 83), el Instituto Nacional del Derecho de Autor (INDAUTOR) inscribió en el Registro Público del Derecho de Autor, rubro programas de cómputo, el software Espectrograma en 3D desarrollado en el Laboratorio de Tecnologías del Lenguaje de la Facultad de Ingeniería (FI) por Carlos Andrés Acosta Ramos, José Abel Herrera Camacho, Héctor Adrián Zúñiga Sainos, quedando como titular de los derechos la Universidad Nacional Autónoma de México.

En entrevista, el doctor José Herrera Camacho definió los espectrogramas como una herramienta ampliamente utilizada para observar el comportamiento de sonidos, particularmente la voz humana, mediante la integración de diferentes transformadas cortas de Fourier en una sola gráfica.

Cada emisión de voz tiene dos componentes: tiempo y amplitud, a los cuales se les integra otra variable física: la frecuencia. "Gracias a la combinación de estos tres elementos se creó el Espectrograma en 3D, que es la transformación de dichas variables en aspectos matemático y numérico con objeto de crear una animación en tres dimensiones, aunque fue desarrollada en Windows 7, es compatible con la versión 10, Matlab y en algunas aplicaciones basadas en metalenguajes", explicó el doctor Herrera.

Este tipo de investigación, relató, inició a finales de la década de los ochenta, cuando se crearon los primeros espectrogramas, los cuales han sido herramientas muy valiosas para los ingenieros especialistas en el procesamiento digital de voz, antropólogos, lingüistas e incluso para los médicos foniatras u otorrinolaringólogos, que conforman el público meta del software.

Precisó que cada oración que pronunciamos está constituida por una gran cantidad de información, que puede llegar a perderse; por eso y con objeto de estudiarla más a fondo, el procesamiento digital de voz determinó dividir la palabra en fragmentos más pequeños de 5 a 10 milisegundos, llamados tramas. Aclaró que un fonema, el sonido de una emisión de voz, se le conoce como la mínima articulación de un sonido vocálico y consonántico; por ejemplo "ma" puede estar formado de cinco a 15 tramas siguiendo el estándar internacional.

Considera que el estudio de la voz es complejo: "La letra "a" de las palabras casa o mamá está afectada por las consonantes aledañas y éstas a su vez, por las vocales. Aunado a ello, existe una enorme cantidad de información contextual.

En ese contexto, contar con un espectrograma con la suficiente información se convierte en algo relevante para los peritos, investigadores, otorrinolaringólogos o lingüistas. "La mayor ventaja competitiva del Espectrograma en 3D es que puede dar giros de 360 grados para un mejor y mayor entendimiento del fenómeno, a diferencia de los comerciales que solamente presentar dos o tres visualizaciones".

Este desarrollo, comenta, puede ser utilizado para identificar la voz de un delincuente a modo de prueba de cargo, en juicios civiles, penales o laborales, ya que su efectividad es del 98 por ciento. Además, subraya que desde hace algunos años la UNAM lo invitó a participar como perito experto en juicios.

En una disputa legal, el espectrograma en tres dimensiones tiene varias ventajas, ya que al ser visual es más fácil de ejemplificar las pruebas, argumentar el dictamen y es más sencillo para el juez entenderlo. Por otra parte, le sirve a los lingüistas para generen imágenes que identifiquen los diferentes acentos que posee un idioma.

Las versiones comerciales de los espectrogramas son muy caras; en el 2016, una concesión por un año costaba entre dos o tres mil dólares. "El software desarrollado por la FI, además de ser cien por ciento mexicano —primero en su tipo en el país—, tiene un costo muy accesible. Nuestro objetivo no es la venta del producto, sino participar en otras investigaciones y colaborar con diversos especialistas. Estamos muy emocionados porque el Instituto de Investigaciones Antropológicas ya lo solicitó".

Uno de los usos más extendidos de este tipo de software es la síntesis de voz, hoy en día en plena revolución: es casi imposible distinguir si la voz de un dispositivo es humana o no. Se le conoce como síntesis de voz cuando una máquina te habla (como es el caso del asistente personal de inteligencia artificial: SIRI de Apple o Cortana Microsoft). "En este campo ya podemos estudiar cuáles son las características que hacen que una voz no parezca natural".

Si bien, el Laboratorio de Tecnologías del Lenguaje ha desarrollado varios proyectos, no hubo la cultura de patentarlos: "Por ello y para cambiar ese paradigma, la UNAM ha desarrollado varias campañas para fomentar la reserva de derechos. Este programa es el primero registrado en toda la historia del laboratorio".

Por su parte, Héctor Adrián Zúñiga, quien está concluyendo su tesis de licenciatura, mencionó que este fue un proyecto muy interesante, pues le ayudó a entender las diferencias de la voz humana: cada individuo cuenta con rasgos característicos al pronunciar una palabra, sin embargo, cambia cuando se está enfermo, sano, contento, enojado, triste... En cada uno de estos casos se genera una gráfica distinta.

Invitó a los alumnos de todas las carreras a integrarse en algunas de las líneas de investigación de la FI: "Es tan importantes cursar las materias curriculares, como colaborar en un proyecto, ya que complementan y fortalecen nuestra formación profesional".