¿Cómo sabe mi teléfono si soy feliz? (1)

Como muy acertadamente señalaba Antonio Rubio, el reconocimiento automático de las emociones del hablante a través de su voz es uno de los temas más candentes en el campo de las tecnologías del habla. También Olga Soler y Pilar Orero insistían en la importancia de detectar el estado de ánimo del usuario de un servicio –por ejemplo, el enfado-, algo que un operador humano puede llevar a cabo con relativa facilidad, pero que resulta extraordinariamente complejo para un ordenador.

Tengamos en cuenta, en primer lugar, que en una interacción telefónica tradicional –es decir, que no contemple la multimodalidad- los indicios que permiten reconocer un determinado estado del interlocutor se reducen a los que se encuentran en la voz. Bien es cierto que la sintaxis y el léxico también aportan información, pero tratarla requeriría desarrollar analizadores específicos de los que no siempre se dispone.

Por tanto, buena parte del trabajo se ha centrado en los elementos que pueden extraerse de modo automático de esa señal sonora que es la voz humana. Como es de esperar, los parámetros prosódicos o suprasegmentales son lo que se relacionan de modo más directo con la expresión de emociones.

En primer lugar, ha sido necesario recopilar corpus hablados que contengan una cierta variedad de emociones, y aquí surgen los primeros interrogantes: ¿cuáles son las emociones básicas? -dejo la respuesta a los psicólogos- ¿cuántas emociones diferentes es necesario reconocer? ¿cómo se logra de un modo natural que los hablantes que están grabando el corpus experimenten diferentes emociones? En muchas ocasiones se ha trabajado con actores, pero siempre cabe plantearse si, precisamente, no existe en peligro de que sobreactúen.

Una vez superados estos primeros problemas, parte del corpus recogido se utiliza para entrenar un reconocedor de habla; dicho de otro modo, se proporcionan muestras de habla con emociones a un algoritmo que “aprende” a asociar determinados parámetros acústicos, extraídos de la voz, con la emoción que se le indica, y se espera que, a partir de las muestras que ha procesado, pueda identificar la emoción que aparece en una muestra nueva. Éste es, seguramente, el enfoque predominante en el mundo de la ingeniería, donde el aprendizaje automático y las técnicas estadísticas son omnipresentes. La opinión de un lingüista podemos discutirla en otro momento…

Comparte o imprime artículo:Estos Áconos enlazan con webs de marcadores sociales que permiten a los lectores compartir y descubrir nuevas webs.
  • Blog Memes
  • del.icio.us
  • digg
  • fresqui
  • meneame
  • neodiario
  • YahooMyWeb
  • Enviar esta entrada por E-Mail
  • Imprimir esta entrada

Tags: Ninguno

8 Comentarios a “¿Cómo sabe mi teléfono si soy feliz? (1)”

  1. Raquel Navarro dice:

    Hola,
    el tema me parace muy interesante, pero me surgen varias preguntas. ¿porque es realmente importante que mi teléfono sepa si estoy enfadado?
    supongo que mi prengunta real es no sólo cómo averiguamos las emociones sino qué hacemos con ellas, cómo cambiamos la interacción que hace el usuario con la tecnología a raiz de conocerlas…
    Incluso un paso más alla… ¿podemos cambiar o provocar (en el mejor sentido de la palabra estados emocionales “positivos”? En esto está el área de “emotional computing”. Como botón de muestra hago el link al siguiente artículo de “WASHINGTON TIMES”.

    Do human beings really want an emotional relationship with a mechanical mind?
    http://washingtontimes.com/metro/20041110-102008-4297r.htm

  2. Joaquim Llisterri dice:

    Tiene toda la razón Raquel: lo que importa no es que lo sepa el teléfono, sino que lo sepa quien está al otro lado del receptor. Cuando el interlocutor es una máquina, parece que en los servicios de atención al cliente es importante detectar emociones como el enfado o la impaciencia para, si es el caso, poder pasar la llamada a un operador humano (y no perder un cliente!). También se está aplicando la identificación de emociones a los sistemas de enseñanza asistida por ordenador o de autoaprendizaje, de modo que se pueda reconocer la frustración o el aburrimiento y establecer un ritmo de aprendizaje adaptado al usuario. Efectivamente, como bien dice Raquel, el objetivo siempre es adaptar la respuesta del sistema al estado emocional de la persona que lo utiliza.

  3. David Cadenas dice:

    Realmente, como bien dice Joaquim, es obvio que no es al teléfono a quien le interesa si el usuario está alegre o enfadado, si no al sistema automático que está dialogando con él. A partir de este conocimiento, existen muchas posibilidades de servicio para corresponder con el estado emocional del usuario. Pero es más, también nos puede interesar conocer automáticamente si el usuario está enfadado o no en el diálogo con un operador, para una posterior monitorización de las llamadas a un call center. Conocer automáticamente qué llamadas han acabado con un cliente insatisfecho puede ayudar al supervisor de un call center a conocer más rápidamente el origen del posible mal funcionamiento del sistema.
    Sobre la entrada, difiero a lo que se refiere a descartar los analizadores sintácticos, léxicos y semánticos para el reconocimiento de emociones. Hoy por hoy, estos sistemas dan los mismos resultados que el análisis acústico de la voz.
    También me gustaría hacer un apunte sobre las bases de datos que se recogen para la creación del corpus.Actualmente existen varios estudios que apuntan que los corpus creados con voces de actores simulando las emociones pueden ser no adecuadas para los sistemas de reconocimiento de emociones. La opción más adecuada, según estos estudios, es la utilización de diálogos reales, pero para ello se necesita muchos recursos para clasificar las llamadas, y que previamente, los call center graben sus llamadas, tal como ya hacen muchas empresas.
    El campo del reconocimiento de las emociones abrenmuchas posibilidades de creación de servicios en diversos ámbitos, a parte de los ya apuntados en esta entrada. Esta tecnología puede suplir, en algunos casos, la falta de fiabilidad que existen en los sistemas de tecnologías del habla actualmente, que esperemos que en un futuro se llegue a alcanzar.

  4. Joaquim Llisterri dice:

    Coincido completamente con las reflexiones de David Cadenas y, especialmente, sobre el tipo de corpus que debería emplearse: a mí tampoco me convencen las “emociones imitadas” y no estoy nada seguro de que proporcionen buenos resultados en un entorno real.

    En cuanto a los analizadores sintácticos, léxicos y semánticos para la detección de emociones, con gusto cedo la palabra a los colegas que conocen mejor que yo los entresijos del procesamiento del lenguaje natural :-) Seguramente lo mejor sería combinar la información acústica que se puede extraer de la señal sonora con la información de otros niveles lingüísticos, de modo que ambas se reforzaran y complementaran.

  5. David Cadenas dice:

    Así es, se supone que los reconocedores multimodales pueden ser los que tengan mejores resultados, combinando tanto el análisis acústico como el análisis lingüístico. Incluso ya hay estudios que combinan también el reconocimiento de los gestos de la cara, el movimiento de las manos, pero esto ya es otra historia, sobretodo a lo que se refiere al nuevo hardware que haría falta.
    No hay duda que este tipo de tecnología dará mucho que hablar en un futuro no muy lejano.

  6. Juan Carlos dice:

    Es muy interesante que se piense que la tecnología del nuevo hardware para poder procesar reconocedores multimodales esté en un futuro no muy lejano. De hecho esta tecnología ya existe porque en estos momentos con las webcams podemos tener chats en los que se interactua con la voz y con imágenes. Es cierto que las imágenes no son maravillosas, y cuando hay movimiento éste se recoge de forma muy ralentizada, pero haberlo haylo.
    Yo creo que el futuro está en que el PC casero se convierta en una máquina polivalente donde podamos ver la TV, recibir enviar emails, y realizar muchísimos servicios. De esta manera se podría hacer que los medios fueran más accesibles, y quizá se podrían evitar por completo los contestadores de teléfono automáticos.
    Podríamos en lugar de tener que soprtar a la voz que nos dice:
    -Si quiere que le contestemos en catalán pulse la tecla 1, si quiere que contestemos en castellano pulse la 2, para que al final hagan lo que quieran.
    Este diálogo podría aparecer en pantalla. De esta manera los sordos lo podrían leer, y como la web debería ser accesible los ciegos también. Creo que sería una buena solución.
    ¿Por qué no interesa este tipo de comunicador y se insiste en el teléfono?

  7. Modesta García Roa dice:

    No es motivo de duda que por medio de un analizador acústico logren detectarse las señales sonoras y con ello las emociones del hablante; sin embargo, considero que no se puede prescindir de la sintaxis, de la semántica, ni del léxico a la hora de hacer un análisis de este tipo, pues es necesario acudir a la lengua y al estudio de sus niveles para lograr un estudio íntegro del mensaje del hablante.
    Expreso lo anterior porque la sintaxis nos ayuda a conocer la simbolización de los contenidos; no es un nivel autónomo, pues junto con la semántica se pueden conocer los componentes fundamentales de la codificación del léxico: la topicalidad, lo que el hablante considera más (o menos) importante.
    Mi comentario persigue exponer que un proyecto como el del reconocimiento automático de las emociones por medio de parámetros prosódicos o suprasegmentales utilizados en tecnologías del habla –como dice Joaquim en su artículo-, podría enriquecerse muy favorablemente si se intenta desarrollar herramientas que aporten información sintáctico-semántica, ya que, desde mi punto de vista, son insustituibles en una labor como ésta.

  8. Robin Macias Kempe dice:

    Hola a todos. Me encontraba e la busqueda de mi información para la realización de mi tesis y me encontre con este blog referente a la detección de emociones mediante voz. Me llamó mucho la atención el titulo de “¿Cómo sabe mi teléfono si soy feliz? y es por eso que decidí hacer un comentario al respecto.

    Yo soy un estudiante de Ingenieria en Sistemas Computacionales de la Universidad de las Américas Puebla, y como ya dije, me encuentro realizando mi Tesis. Mi tema es ‘Crear un corpus en español bien diseñado y etiquetado, de voz y video, que sirva para el estudio de los estados emocionales y la construcción de sistemas capaces de detectarlos’. En realidad me enfoco mas a lo que es nerviosismo y miedo, que me lleven a la detección de mentiras.

    Es un tema muy largo y existe demasiada informacion al respecto pero a pesar que se ha comprobado signos y sintomas de los diferentes estados emocionales en base a diversas metodologías, no hay una regla que afirme que siempre será así. Por lo cual, me enfoqué en la entrevista como método para la detección de emociones. con la ayuda de un psicólog, realizamos 20 entrevistas a diferentes personas. Se tomaron 2 ángulos a cada persona, el principal del rostro por supuesto, y el otro del cuerpo completo en un ángulo no mayor a los 60 grados. El cuestionario abarcaba todo tipo de preguntas, naturalmente tuve que limitar la forma en realizar las preguntas dado que eran voluntarios y no podía faltarles el respeto o comprometerlos. Pero en parte esa era la intención pues en la vida real, es decir, donde los sistemas de detección de emociones actuarán realmente, no existen actores que faciliten la detección.

    Considero que mi material es bueno pero que sería muy interesante analizarlo mas a fondo y con un equipo de colaboradores conocedores del tema obtener nuevos resultados con respecto a la deteccion de emociones. La finalidad de todo esto es la creación de sistemas autónomos que sean capaces de detectar si una persona miente o no, o si experimenta ciertos estados de animo especificos que nos puedan llevar a actos ilicitos, ilegales o porque no, a prevenir situaciones lamentables. Pero no solo en la seguridad se puede aplicar, sino en la educación por ejemplo para exámenes a larga distancia en donde no se cuenta más que con datos de audio y video de la persona.

    Bueno, espero que les haya interesado mi proyecto en el que me encuentro acutalmente. Mi correo es: robinmk82@gmail.com

    Buen dia

Comentar

This is a captcha-picture. It is used to prevent mass-access by robots. (see: www.captcha.net)

Debes leer y teclear los 5 caracteres entre 0..9 y A..F, y enviar la respuesta.

  

No puedo leer esto. Por favor, generar un