Speechz Text to speech 1.0

Licenza: Gratuito ‎Dimensioni del file: N/A
‎Valutazione utenti: 0.0/5 - ‎0 ‎Voti

Speechz Sintesi vocale

La sintesi vocale è la produzione artificiale del linguaggio umano. Un sistema informatico utilizzato per questo scopo è chiamato sintetizzatore vocale e può essere implementato in prodotti software o hardware. Un sistema di sintesi vocale (TTS) converte il normale testo del linguaggio in parlato; altri sistemi rendono rappresentazioni linguistiche simboliche come trascrizioni fonetiche nel discorso. [1] Il riconoscimento vocale sintetizzato può essere creato concatenando parti di riconoscimento vocale registrato archiviate in un database. I sistemi differiscono per le dimensioni delle unità vocali memorizzate; un sistema che memorizza telefoni o diphone fornisce la più ampia gamma di output, ma potrebbe mancare di chiarezza. Per domini di utilizzo specifici, l'archiviazione di intere parole o frasi consente un output di alta qualità. In alternativa, un sintetizzatore può incorporare un modello del tratto vocale e altre caratteristiche della voce umana per creare un'uscita vocale completamente "sintetica". [2] La qualità di un sintetizzatore vocale è giudicata dalla sua somiglianza con la voce umana e dalla sua capacità di essere compreso. Un programma di sintesi vocale intelligibile consente alle persone con disabilità visive o di lettura di ascoltare opere scritte su un home computer. Molti sistemi operativi informatici hanno incluso sintetizzatori vocali sin dai primi anni '90.

Panoramica di un tipico sistema TTS

Annuncio automatico MENU0:00 Una voce sintetica che annuncia un treno in arrivo in Svezia. Problemi durante la riproduzione di questo file? Consulta la Guida dei media.

Esempio di Microsoft Sam MENU0:00 Voce predefinita del sintetizzatore vocale di Microsoft Windows XP che dice "La volpe marrone veloce salta sopra il cane pigro 1.234.567.890 volte. soi" Problemi durante la riproduzione di questo file? Consulta la Guida dei media. Un sistema di sintesi vocale (o "motore") è composto da due parti:[3] un front-end e un back-end. Il front-end ha due compiti principali. In primo luogo, converte il testo non elaborati contenente simboli come numeri e abbreviazioni nell'equivalente delle parole scritte. Questo processo è spesso chiamato normalizzazione del testo, pre-elaborazione o tokenizzazione. Il front-end assegna quindi trascrizioni fonetiche a ogni parola e divide e contrassegna il testo in unità prosodiche, come frasi, clausole e frasi. Il processo di assegnazione delle trascrizioni fonetiche alle parole è chiamato conversione da testo a fonema o da grafema a fonema. Trascrizioni fonetiche e informazioni di prosodia insieme co formano la rappresentazione linguistica simbolica che viene estasiata dal front-end. Il back-end&mdash,spesso indicato come synthesizer—quindi converte la rappresentazione linguistica simbolica in suono. In alcuni sistemi, questa parte include il calcolo della prosodia bersaglio (contorno dell'intonazione, durate del fonema),[4] che viene quindi imposta al discorso di output.

cronologia delle versioni

  • Versione 1.0 pubblicato il 2013-10-06

Dettagli del programma