Los móviles que entienden.

3 Diciembre, 2006, por Juan Diego Martín

Que nadie lo pille por el lado que no es… El caso es que como el otro día hablábamos del reconocimiento de voz en Windows Vista. O sea, en equipos de sobremesa. Hoy, he pensado que estaría bien echar un vistazo al reconocimiento en los teléfonos móviles.

El reconocimiento de voz que utilizamos en un teléfono móvil puede ser de dos tipos en función de dónde se realice el reconocimiento:

  • En inglés llaman “Embedded” al reconocimiento que se realiza en el mismo terminal.
  • El otro se suele llamar “network” o “server” y se realiza en un servidor (un ordenador) que está en alguna parte al otro lado de la red telefónica o de internet, en caso de que usemos VoIP (voz sobre el protocolo de internet)

Distinguir uno de otro a simple vista antes resultaba sencillo:

  • Si llamabas a un número de teléfono y este servicio te preguntaba cosas, tú contestabas y el cacharro te entendía, el reconocimiento era “network”. Es lo que en jerga se llama un sistema IVR (Interactive Voice Response)
  • Si apretabas un botoncito en tu terminal y el teléfono te reconocía un comando sencillo, sin establecer la llamada, era “embedded”. Las agendas de muchos de los primeros móviles GSM usaban este tipo de reconocimiento.

Ahora ya no resulta tan sencillo distinguir un sistema de otro a simple vista, sobre todo con la llegada de los Smartphones. Por varios motivos:

  • Por un lado estos terminales tienen la suficiente capacidad de procesamiento para realizar reconocimientos complicados dentro del terminal.
  • Por otro lado, la posibilidad de establecer sesiones de datos sobre las que circule la voz, hace que desaparezca un poco el concepto de llamada.

Aquí os dejo un ejemplo, y otro más. ¿Quién se atreve a decir a qué tipo de reconocimiento corresponde cada uno?

La principal ventaja de los sistemas “enbedded” es que no hay que pagar cada vez que se usan. Los inconvenientes son que, normalmente, hay que pagar por el software que se instala y que de las actualizaciones se tiene que ocupar uno mismo.

Los sistemas “network”, sin embargo, están actualizados tanto como se ocupe el proveedor del servicio, sin que yo tenga que ocuparme lo más mínimo. Sin embargo cada vez que los uso, pago. Bien por el tiempo de llamada (en caso de telefonía móvil GSM o basada en GSM) o por el volumen de datos que intercambio (GPRS o UMTS)

Al final hay sitio para los dos y hasta para una tercera solución de compromiso: DSR Distributed Speech Recognition, una iniciativa para reducir el tamaño de los datos que se intercambian entre el terminal y la red, enviando en lugar de toda la voz, sólo la información de la voz que es interesante para realizar el reconocimiento.

Tags: , ,