Negli ultimi due anni l’attenzione si è rivolta in particolare alle interfacce con controllo vocale. Grazie a Kinect, le esperienze di gioco o gli elementi dei televisori sono controllabili parlando al dispositivo e l’integrazione con Windows 8 si delinea come possibilità concreta nel prossimo futuro. Tuttavia, la tecnologia più ovvia per l’uso del controllo vocale rimane quella mobile.
Siri, Google Now e S-Voice
Nel 2011, Apple iPhone 4S presenta un’assistente digitale integrata di nome Siri, controllabile vocalmente. La campagna pubblicitaria mira a sottolineare in particolare questa funzionalità, mostrando celebrity come Samuel L Jackson, Martin Scorsese, Zooey Deschsnel e John Malkovitch impegnate in una conversazione su schermo con il software. Una delle principali differenze con i prodotti precedenti è la vera e propria personalità: i programmatori hanno previsto risposte a domande come “Cosa indossi”, “Quando è il tuo compleanno?”, o addirittura “Chi è Dio?”, confererdo a Siri un apparente senso dell’umorismo e scatenando la diffusione di siti web umoristico con le risposte alle domande più strane poste dagli utenti.
Anche Google possiede app di ricerca con il controllo vocale, tra cui Google Now, aggiunta ad Android Jelly Bean, che oltre a fornire le informazioni richieste, costruisce un profilo dell’utente fornendo delle risposte ancor prima che si pongano le domande.
Samsung, invece. ha sviluppato il sistema S-Voice, presente nel modelli principali dei telefoni cellulari.
L’ostacolo principale per questi sistemi è interpretare l’input dell’utente gestendone i diversi fattori di influenza. La compagnia
Nuance mira a risolvere il problema su desktop con Dragon Dictate, uno tra i software più avanzati nel settore. Il riconoscimento vocale è un problema estremamente complesso a livello computazionale.
Una frase composta da 17 parole in un dizionario di 50.000 è come trovarne una corretta con una possibilità di 7,6×1079 piu o meno il numero di atomi presenti nell’universo osservabile. Per individuare un contesto, la ricerca di Google analizza possibilità nettamente inferiori, circa 1×1012.
Digitando le parole sulla tastiera la questione è molto più semplice, entra in gioco il codice binario (o si preme un tasto, oppure no).
Con i comandi vocali la variabilità è ampia considerando accenti, tonalità, condizioni ambientali, rumori di sottofondo e qualità del microfono. Per il riconoscimento vocale su desktop si sfrutta il profilo dell’utente, che permette al computer di comprendere le sfumature nel suo modo di parlare, cosicché il software possa essere più accurato. Man mano che lo si utilizza e si correggono gli errori, può applicare al profilo ciò che ha appreso.
L’utilizzo così particolare evidenzia le sfide in vista per il software mobile, che molti sfruttano ogni giorno. “Siri è a tutti gli effetti un sistema di riconoscimento vocale speaker independent” dice Grant.
“Non traccia un profilo dell’utente, almeno non a livello accurato, è potenzialmente utilizzabile da più membri della famiglia, perciò si trova a gestire voci diverse per lo stesso dispositivo, iI processo & molto più complesso e non prevede la memorizzazione anticipata di un particolare accento“.
I passi avanti compiuti grazie ai microfoni dotati di riduzione del rumore e al costante perfezionamento dei software di riconoscimento vocale stanno riscontrando un rapido miglioramento in ogni settore tecnologico. La stessa Nuance offre una versione del software per iPad e iPhone e senza dubbio gli aggiornamenti continui a Siri e Google Voice Search apporteranno miglioramenti negli anni a venire al controllo vocale nei computer portatili.
In risposta all’influenza sempre maggiore dei tablet, i produttori stanno cominciando a integrare la tecnologia per il controllo
vocale anche nei computer portatili.
Uno degli aspetti più accattivanti di Siri è l’integrazione dei comandi in tutto il sistema: può gestire ii calendario, inviare e-mail, tweet, aggiornamenti di Facebook e riprodurre musica specifica, tutto attraverso una singola interfaccia. E’ necessario un simile livello di profondità perchè il riconoscimento vocale abbia un impatto consistente nell’utilizzo giornaliero dei mezzi informatici.
A tal proposito, Windows offre un opportunità agli sviluppatori. II software presenta un certo grado di integrazione, non solo a livello di dettatura, ma di comandi e controllo per applicazioni come Microsoft Office. II concetto di controllo vocale è rimasto per decenni un punto fisso nella fantascienza. Con il passaggio all’universo mobile non andremo di certo in giro con la tastiera, il controllo vocale e un passo naturale.