Responsable

Mireia Farrús

Grupo de investigación

CLiC

Investigador principal

Maria Taulé Delor

Institución

Universitat de Barcelona

Tecnología para convertir texto en voz y voz en texto, adecuada para aplicaciones donde la privacidad es crítica o cuando se requiere un rendimiento de alto nivel en un dominio específico. 

A diferencia de las soluciones basadas en la nube, este sistema opera localmente y garantiza que los datos sensibles no se transmitan por internet. Utiliza arquitecturas neuronales profundas, como Tacotron2 y modelos basados en Transformers para la síntesis de voz, y Vaw2Vec o Deepspeech para la trascripción. Se puede entrenar con datos de un dominio específico y personalizar con la propia voz o con voces de un dialecto o acento específico.

La tecnología de trascripción y síntesis automática de voz de dominio específico tiene un gran potencial en entornos de accesibilidad digital, ya que proporciona herramientas más precisas, naturales y seguras. Algunas aplicaciones específicas:

  • Lectores de pantallas
  • Asistentes de voz para personas con discapacidades motoras
  • Aplicaciones de trascripción para personas sordas o con problemas de audición
  • Entrada predictiva de texto para personas con discapacidades motoras
  • Aprendizaje adaptativo
  • Adaptación a dialectos o acentos regionales
Categoría
  • Tecnología
Área temática
  • Lectura fácil - Comunicación clara
  • Accesibilidad digital

Si quieres más información, ponte en contacto con nosotros.

Captura de pantalla con un espectrograma y un sintetizador