microSint HR4 - Sintetizador de voz


Ir a pastbytes	Introducción	uSint HR4	uSint HR6	uSint HD1	Descargas	Contacto	Foro

MICROSINT HR4 > SINTETIZADOR DE VOZ

El sintetizador de voz dispone de 21 fonemas y 6 silencios, de los cuales son variables los fonemas A, E, I, O, U, L, M, N, y el espacio _.

Es posible modificar tanto la duración en ciclos como el tono de voz y la nota de los fonemas variables, para esto primero hay que entender como genera la voz el sintetizador.

Los fonemas variables se almacenan como tablas de ondas que se reproducen a la nota especificada mediante comandos de configuración, por defecto esta nota es C3 para el tono base de la voz (ajustable con el comando Z), y C2 para la nota de la voz (ajustable con el comando N). La nota natural de los sonidos, es decir la nota a la que hay una correspondencia 1 a 1 entre una muestra del fonema y una muestra emitida, es C3, que se representa con 66 muestras. Cuando se configura al sintetizador para emitir sonido una octava más abajo, es decir C2, lo que hace es repetir cada muestra 2 veces, dado que siempre se emite la misma cantidad de muestras por segundo, y que una onda en C2 tiene una duración del doble que una nota en C3. La cantidad de muestras emitidas para un fonema dependerá de la nota que se configure, repitiendo muestras si se baja de C3, y eliminando muestras, y perdiendo por lo tanto la calidad del sonido, si se pasa de C3.

Para emitir la voz en la calidad original se debe configurar el tono base a C3, con el comando (Z30), que especifica la octava 3 y la nota 0 (Do). El tono base de la voz no modifica la nota a la que se genera la voz, sino mas bien el tipo de voz, es decir si el tono de la voz en general es bajo, medio o alto.

Lo que define la nota a la que se genera la voz es una onda envolvente cuya nota puede configurarse con el comando N, y que por defecto se configura en la nota C2, que se escribiría (N20), esto es octava 2, nota 0 (Do). Este es el comando que se tiene que utilizar para cantar, y está relacionado con el comando C.

El sintetizador repite continuamente la onda base a la nota configurada con el comando Z, y le aplica una envolvente que define la nota de la voz, configurada con el comando N. La duración del fonema está especificada en ciclos de la envolvente, lo que se hace con el comando C. Esto significa que al enviar la secuencia (Z30N20C06)OLA, se configurará el tono base de la voz en C3, la envolvente en C2 (un ciclo de envolvente por cada 2 ciclos de la onda base), y la duración de los fonemas variables en 6 ciclos, luego se reproducirán 6 ciclos de envolvente del fonema O, 5 ciclos de envolvente del fonema L (enseguida aclararemos esto), y 6 ciclos de envolvente del fonema A.

La duración del fonema L es un caso especial a tener en cuenta, ya que el sintetizador está configurado para el uso normal de la voz, en la cual el fonema L suele tener una duración menor que la de las vocales, por lo cual para evitar tener que configurar la duración antes y después de un fonema L, el programa la calcula automáticamente a alrededor de 3/4 de la duración configurada con el comando C.

El silencio variable _, si bien no emite sonido, opera con las mismas reglas que los fonemas variables, debiendo calcularse su duración en base a la cantidad de ciclos del comando C y la nota especificada con el comando N.

También existen dos modificadores temporales que aplican a las vocales y sirven para dar acentuación a las mismas, estos son los caracteres + y -, que enviados a continuación de una vocal elevan o disminuyen una cantidad configurable de semitonos a la nota configurada con el comando N. Debe tenerse en cuenta sin embargo que el efecto es temporal, ya que no se altera la nota configurada, y la nota modificada sólo se aplica a esa ejecución en particular. De esta forma pueden agregarse acentos a las palabras sin tener que agregar comandos de configuración.

Como se explicó en la sección comandos de voz, algunos de los fonemas incluyen un silencio inicial, ya que están pensados para usarse en medio de una frase, si se está usando alguno de esos fonemas al comienzo de una secuencia o después de un silencio, puede especificarse que se elimine el silencio inicial agregando un 1 luego del fonema. Los que permiten esto son los fonemas CH, F, K, P y T.

A continuación tenemos un ejemplo de uso de los comandos:

Texto original: "Sintetizador de voz microsint, version 1.2"

Texto a enviar: "SINTETISADO+R DE BO+S MIKROSI+NT,BERSIO+N U+NO PU+NTO DOS "

En este caso se reemplazan las Z por S, las V por B, se agregan los acentos (la O de SINTETIZADOR, la O de VOZ, la I de MICROSINT, la O de VERSION, la U de UNO, y la U de PUNTO) y se pronuncia la última sílaba de la frase con un tono menor, ya que la O de DOS normalmente debería acentuarse. También se agrega un espacio final para que suene la S, ya que el sintetizador queda a la espera del próximo caracter para saber si debe pronunciar S o se trata del sonido SH. Al enviar otro carácter distinto de H, interpreta el sonido como S.

Las marcas, productos y logos que aparecen en este sitio pertenecen a sus respectivos propietarios