Responsable

Mireia Farrús

Grup de recerca

CLiC

Investigador principal

Maria Taulé Delor

Institució

Universitat de Barcelona

Tecnologia per a convertir text a veu i veu a text, adequada per a aplicacions on la privacitat és crítica o quan es requereix un rendiment d’alt nivell en un domini específic. 

A diferència de les solucions basades en el núvol, aquest sistema opera localment, garantint que les dades sensibles no es transmetin a través d'Internet. Utilitza arquitectures neuronals profundes com el Tacotron2 i models basats en Transformers per a la síntesi de veu, i Wav2Vec o DeepSpeech per a la transcripció. Es pot entrenar amb dades d’un domini específic i personalitzar amb la pròpia veu o amb veus d’un dialecte o accent específic.

La tecnologia de transcripció i síntesi automàtica de veu de domini específic té un gran potencial en entorns d'accessibilitat digital, ja que proporciona eines més precises, naturals i segures. Algunes aplicacions específiques:

  • Lectors de pantalla
  • Assistents de veu per a persones amb discapacitats motores
  • Aplicacions de transcripció per a persones sordes o amb problemes d'audició
  • Entrada predictiva de text per a persones amb discapacitats motores
  • Aprenentatge adaptatiu
  • Adaptació a dialectes o accents regionals
Categoria
  • Tecnologia
Àrea temàtica
  • Lectura fàcil – Comunicació clara
  • Accessibilitat digital

Si vols més informació, posa't en contacte amb nosaltres.

Captura de pantalla amb un espectrograma i un sintetitzador