Sintesi vocale

Esempio di sintesi vocale realizzata con Vocoder (frase Somewhere in a future)

Esempio di sintesi vocale usata per l'accessibilità: la voce Festival Speech Synthesis da en:wikipedia convertita in audio tramite il programma txt2audio

La sintesi vocale (in inglese speech synthesis) è la tecnica per la riproduzione artificiale della voce umana. Un sistema usato per questo scopo è detto sintetizzatore vocale e può essere realizzato tramite software o hardware. I sistemi di sintesi vocale sono noti anche come sistemi text-to-speech (TTS) (in italiano: da testo a voce) per la loro possibilità di convertire il testo in parlato. Esistono inoltre sistemi in grado di convertire simboli fonetici in parlato^[1]. Il processo inverso è chiamato riconoscimento vocale.

La sintesi vocale si può realizzare concatenando registrazioni di parti vocali memorizzate in un database. I vari sistemi di sintesi vocale si differenziano a seconda delle dimensioni dei campioni vocali memorizzati: un sistema che memorizza singoli fonemi o fonemi doppi consente di ottenere il numero massimo di combinazioni a discapito della chiarezza complessiva, mentre in altri sistemi concepiti per un impiego specifico si ricorre alla registrazione di parole intere o di intere frasi per ottenere un risultato di qualità elevata. In alternativa, un sintetizzatore può incorporare un modello dei tratti vocali e di altre caratteristiche umane per creare una voce completamente di sintesi^[1].

La qualità di un sintetizzatore vocale si valuta sulla base sia della somiglianza con la voce umana che con il suo livello di comprensibilità. Un programma di conversione da testo a voce con una buona resa può avere un ruolo importante nell'accessibilità, per esempio consentendo a persone con problemi di vista o di dislessia di ascoltare documenti scritti sul computer. Per questo tipo di applicazione fin dai primi anni ottanta molti sistemi operativi includono funzioni di sintesi vocale.

^ (EN) Rubin, P., Baer, T., & Mermelstein, P. (1981). An articulatory synthesizer for perceptual research. Journal of the Acoustical Society of America, 70, 321-328.

[1] (EN) Rubin, P., Baer, T., & Mermelstein, P. (1981). An articulatory synthesizer for perceptual research. Journal of the Acoustical Society of America, 70, 321-328.

[1]