Glossario

E-mail Stampa PDF

ASR: acronimo di Automatic Speech Recognition. E’ una tecnologia che permette ad un computer di identificare le parole che una persona pronuncia attraverso un telefono o un microfono. L’operazione di riconoscimento deve essere indipendente dal tono di voce e dall’accento della persona, dal rumore di fondo, dalle caratteristiche del microfono. La tecnologia che sta alla base degli ASR è chiamata Hidden Markov Model (HMM)

Fonema: è il suono di una lingua considerato in base alla funzione distintiva che ha in un determinato sistema linguistico. Unità minima di una parola, non dotata di significato. Il numero complessivo di fonemi può variare in base alla lingua, si passa dai 10 propri di un idioma della Nuova Guinea ai 141 di una lingua parlata nell’Africa Meridionale. L’italiano comprende 30 differenti fonemi.

HMM: acronimo di Hidden Markov Model. Questa tecnologia sta alla base del riconoscimento vocale.
Una volta rilevato il segnale sonoro del parlato si procede ad una accurata analisi in cui si individuano i fonemi che vengono opportunamente concatenati per ricostruire la stringa. Il riconoscimento avrà esito positivo solo se la stringa ricostruita è presente nel file di grammatica, che contiene unicamente i vocaboli che devono essere presi in considerazione nel riconoscimento. Questa procedura si basa sull’ HMM, che è un vero e proprio modello probabilistico. Infatti, il riconoscimento di una certa parola è sempre accompagnato da un livello di confidenza che oscilla tra il valore minimo zero e il valore massimo uno: il livello di confidenza pari ad uno corrisponde alla certezza che la parola sia stata riconosciuta.

IVR: acronimo di Interactive Voice Response. E’ un sistema in grado di recitare informazioni ad un chiamante interagendo tramite tastiera telefonica (DTMF). Le informazioni che un IVR di solito permette di recitare sono: messaggi preregistrati, menù a scelta multipla, memorizzare dati introdotti da tastiera, mandare fax, interrogare database aziendali, ecc.. I sistemi IVR più evoluti, integrano il riconoscimento vocale ma l’utente, a differenza delle piattaforme vocali, può dettare solo un comando vocale per volta.

TTS: acronimo di Text-To-Speech. Tecnologia che permette di riprodurre con voce umana sintetizzata un testo scritto, riproducendo i suoni corrispondenti al testo. Per trasformare un testo scritto in un messaggio vocale il sintetizzatore analizza un testo, ne individua la struttura sintattica, anche se non ne comprende la sintattica, seleziona all'interno del vocabolario acustico i difoni (ossia le coppie di fonemi) corrispondenti alle lettere scritte, infine li ricombina mediante sofisticati algoritmi.

Voice XML: È un “dialog markup language” (definizione del W3C) sulla sintassi XML, utilizzato per sviluppare applicazioni in cui la comunicazione uomo-computer non si realizza solo per mezzo di un interfaccia grafica ma anche e soprattutto mediante un’interfaccia vocale.

 

Newsflash

Area Privata