La sintesi vocale (in inglese speech synthesis) è la tecnica per la riproduzione artificiale della voce umana. Un sistema usato per questo scopo è detto sintetizzatore vocale e può essere realizzato tramite software o hardware. I sistemi di sintesi vocale sono noti anche come sistemi text-to-speech (TTS) (in italiano: da testo a voce) per la loro possibilità di convertire il testo in parlato. Esistono inoltre sistemi in grado di convertire simboli fonetici in parlato[1]. Il processo inverso è chiamato riconoscimento vocale.
La sintesi vocale si può realizzare concatenando registrazioni di parti vocali memorizzate in un database. I vari sistemi di sintesi vocale si differenziano a seconda delle dimensioni dei campioni vocali memorizzati: un sistema che memorizza singoli fonemi o fonemi doppi consente di ottenere il numero massimo di combinazioni a discapito della chiarezza complessiva, mentre in altri sistemi concepiti per un impiego specifico si ricorre alla registrazione di parole intere o di intere frasi per ottenere un risultato di qualità elevata. In alternativa, un sintetizzatore può incorporare un modello dei tratti vocali e di altre caratteristiche umane per creare una voce completamente di sintesi[1].
La qualità di un sintetizzatore vocale si valuta sulla base sia della somiglianza con la voce umana che con il suo livello di comprensibilità. Un programma di conversione da testo a voce con una buona resa può avere un ruolo importante nell'accessibilità, per esempio consentendo a persone con problemi di vista o di dislessia di ascoltare documenti scritti sul computer. Per questo tipo di applicazione fin dai primi anni ottanta molti sistemi operativi includono funzioni di sintesi vocale.