Voz + innovación

Victoria la voz del fútbol

Victoria, la voz sintética para la locución de noticias deportivas

Un proyecto innovador en la creación de una voz generada por IA para PRISA Radio para la lectura de noticias deportivas, el primero de este tipo lanzado en España.

¿En qué consiste este proyecto?

“Victoria, la voz del fútbol” es la colaboradora virtual de Cadena SER (Carrusel Deportivo) y AS con la que puedes conversar en Alexa. Te dará la información de tu equipo y te narrará las últimas noticias del mismo que vienen desde AS.com.

Desde nuestro lado, trabajamos en la creación de la voz de Victoria, una voz sintética generada por Inteligencia Artificial que mezcla características de las voces de las que aprende pero que no identificara a ninguna de las mismas. El proyecto se ha realizado en conjunto con el equipo de PRISA Radio y con la colaboración de Amazon Alexa.

Puedes conversar con Victoria en Alexa, diciendo: "Alexa, abre Victoria" o desde este enlace.

¿Cómo es la voz de Victoria?

La voz de Victoria es una voz personalizada, que tiene unas características de voz que la hacen idónea para el caso de uso: energía, velocidad, y con un tono medio-grave. Además, tiene dos estilos de prosodia diferentes, utilizados en la lectura de noticias deportivas y en la experiencia conversacional en Alexa. La prosodia de lectura de noticias tiene una entonación característica de noticias deportivas, y una velocidad que hace que la escucha sea mejor que con otras voces sintéticas más neutras y diseñadas para casos de uso generales. La prosodia en la conversación con el usuario es distinta, siendo ésta más lenta, más expresiva y más natural, para que la conversación sea más efectiva. Esta voz sintética está adaptada en términos de calidad sonora al uso de la voz en Alexa.

¿Cómo ha sido el proceso de creación de esta voz sintética generada por IA?

Para la creación de la voz sintética de Victoria, con expresividad y distintos estilos de prosodia, realizamos los siguientes pasos en un proceso iterativo hasta conseguir el resultado deseado:

Proceso de creación de una voz sintética de marca, generada por IA

  1. Definición de la personalidad de Victoria, como interfaz conversacional (asistente disponible en Alexa) y la voz, en un workshop junto a PRISA y los equipos de AS y Carrusel Deportivo.
  2. Traducir los rasgos de la personalidad y de la voz, en atributos sonoros que nos ayudarían a elegir la voz en términos de prosodia.
  3. Grabación en estudio de una selección de frases diseñadas específicamente para el caso de uso. Se utilizaron cuatro voces femeninas con diferentes estilos de prosodia: conversacional y de locución de noticias y noticias deportivas. Además, también se grabaron frases con más expresividad para que la voz tuviera energía suficiente.
  4. Preparación de los datos: aunque fueron necesarias más de 12 horas de estudio para la grabación de las más de 4.200 frases, el conjunto de datos de entrenamiento resultante contenía más de 4 horas de audio limpio para el entrenamiento, tras su revisión fonética y preparación, un proceso que duró semanas.
  5. Entrenamiento de varios modelos propios de síntesis de voz multispeaker, experimentando con las voces incorporadas a cada modelo, la expresividad, y el estilo de prosodia. Nuestra tecnología utiliza métodos generativos como las redes generativas adversarias o GANs, entre otros, para obtener voces únicas. Se realizaron muchas pruebas con los estilos de prosodia, comparando la lectura de noticias con la voz de Alexa. El entrenamiento de cada modelo duró semanas, incluyendo el último modelo entrenado desde cero, que necesitó más de seis días completos y realizó más de 350.000 iteraciones de aprendizaje.
  6. Selección de la voz de Victoria: mezclando características y variables que habían aprendido los diferentes modelos, seleccionamos y realizamos varias evaluaciones de la voz. Se realizaron evaluaciones en términos de MOS (Mean Opinion Score), que mide la calidad de la voz en función de las valoraciones y percepciones subjetivas de quienes la escuchan. También se probaron diferentes configuraciones de la voz hasta encontrar qué voz se ajustaba mejor a los rasgos de la personalidad definida.
  7. Uso de la voz: a partir de cualquier texto recibido se genera el audio con la narración de la voz de Victoria. Los textos pueden ser recibidos programáticamente a través de API, por ejemplo desde AS.com, o desde Fonos. Para la pronunciación de palabras extranjeras, como pueden ser jugadores y estadios de fútbol, se cuenta con un diccionario fonético, con más de 3.000 términos, y creciendo mes a mes.

 ¿Cómo ha sido la acogida?

El lanzamiento al público se realizó en noviembre de 2022, y ha sido la primera voz sintética generada por IA en español creada de esta manera, presente en Alexa y participando en el programa de la radio “Carrusel Deportivo”. Logró una notable repercusión mediática y contó con el patrocinio de una marca líder en automoción, sumando además unas 100.000 interacciones con usuarios en Alexa.

Este proyecto pone a la Cadena SER a la vanguardia en la creación de contenido sintético (synthetic media) y ha abierto la puerta para seguir desarrollando productos con Inteligencia Artificial. Además, Victoria se consolida como una herramienta para transversalizar la información deportiva de diferentes verticales del grupo, abriendo nuevas formas de distribuir nuestros contenidos a nuevas audiencias.

Este proyecto ha sido ganador en la categoría "Best New Audio and Voice Product 2023" en los premios Global Awards 2023 de la International News Media Association (INMA).

Más información

Agradecimientos

NEOTEC - CDTI

Nuestra tecnología de síntesis de voz se enmarca en el proyecto “Síntesis de voz en castellano para la creación de sistemas conversacionales naturales”, que ha sido subvencionado por el CDTI.

Otros posts que hemos escrito

¿Hablamos?

¿Tienes una idea o proyecto en mente? Trabajemos juntos y hagamos algo memorable. ¡Escríbenos!

Encuéntranos en

Impact Hub Alameda

C/ Alameda, 22. 28014 Madrid