¿Reconocer la voz?

5 Diciembre, 2006, por Joaquim Llisterri

Si alguien me llama por teléfono y reconozco su voz, sé de quién se trata, pero quizás no llegue a entender lo que me está diciendo por el ruido de la línea o por cualquier otro motivo. Las voces sirven, entre otras cosas, para identificar a las personas, igual que la cara o las huellas; el habla, en cambio, es un medio para comunicarnos, que empleamos para transmitir contenidos o cualquier tipo de información. Cuando un ordenador reconoce mi voz (voice) no hace otra cosa que verificar mi identidad, mientras que cuando reconoce el habla (speech) convierte una señal sonora en una representación que le permite, por ejemplo, escribir mis palabras en una pantalla o reservarme una entrada de cine. Por eso me resulta curioso que se siga empleando “reconocimiento de voz” cuando, en realidad, se quiere decir “reconocimiento del habla”. ¿Serán manías de lingüista?

Tags: ,

Los móviles que entienden.

3 Diciembre, 2006, por Juan Diego Martín

Que nadie lo pille por el lado que no es… El caso es que como el otro día hablábamos del reconocimiento de voz en Windows Vista. O sea, en equipos de sobremesa. Hoy, he pensado que estaría bien echar un vistazo al reconocimiento en los teléfonos móviles.

El reconocimiento de voz que utilizamos en un teléfono móvil puede ser de dos tipos en función de dónde se realice el reconocimiento:

  • En inglés llaman “Embedded” al reconocimiento que se realiza en el mismo terminal.
  • El otro se suele llamar “network” o “server” y se realiza en un servidor (un ordenador) que está en alguna parte al otro lado de la red telefónica o de internet, en caso de que usemos VoIP (voz sobre el protocolo de internet)

Distinguir uno de otro a simple vista antes resultaba sencillo:

  • Si llamabas a un número de teléfono y este servicio te preguntaba cosas, tú contestabas y el cacharro te entendía, el reconocimiento era “network”. Es lo que en jerga se llama un sistema IVR (Interactive Voice Response)
  • Si apretabas un botoncito en tu terminal y el teléfono te reconocía un comando sencillo, sin establecer la llamada, era “embedded”. Las agendas de muchos de los primeros móviles GSM usaban este tipo de reconocimiento.

Ahora ya no resulta tan sencillo distinguir un sistema de otro a simple vista, sobre todo con la llegada de los Smartphones. Por varios motivos:

  • Por un lado estos terminales tienen la suficiente capacidad de procesamiento para realizar reconocimientos complicados dentro del terminal.
  • Por otro lado, la posibilidad de establecer sesiones de datos sobre las que circule la voz, hace que desaparezca un poco el concepto de llamada.

Aquí os dejo un ejemplo, y otro más. ¿Quién se atreve a decir a qué tipo de reconocimiento corresponde cada uno?

La principal ventaja de los sistemas “enbedded” es que no hay que pagar cada vez que se usan. Los inconvenientes son que, normalmente, hay que pagar por el software que se instala y que de las actualizaciones se tiene que ocupar uno mismo.

Los sistemas “network”, sin embargo, están actualizados tanto como se ocupe el proveedor del servicio, sin que yo tenga que ocuparme lo más mínimo. Sin embargo cada vez que los uso, pago. Bien por el tiempo de llamada (en caso de telefonía móvil GSM o basada en GSM) o por el volumen de datos que intercambio (GPRS o UMTS)

Al final hay sitio para los dos y hasta para una tercera solución de compromiso: DSR Distributed Speech Recognition, una iniciativa para reducir el tamaño de los datos que se intercambian entre el terminal y la red, enviando en lugar de toda la voz, sólo la información de la voz que es interesante para realizar el reconocimiento.

Tags: , ,