Artículo traducido de la entrada original en el Furhat blog What makes a social robot good at interacting with humans?. Alisys es partner y distribuidor oficial de Furhat.

¿Qué es un robot social? La palabra “robot” procede de la obra de teatro de 1920 R. U. R. (Rossum’s Universal Robots), del escritor checo Karel Čapek, y significa literalmente “esclavo” en checo. En la industria, el término se ha utilizado sobre todo para las máquinas que realizan algunas tareas pesadas, peligrosas o repetitivas para nosotros. El objetivo principal de un robot social, en cambio, no es realizar tareas físicas, sino interactuar con los humanos. Un ejemplo de la ciencia ficción es C-3PO en La Guerra de las Galaxias, que es un “droide de protocolo” experto en etiqueta, costumbres y traducción, y que conoce más de seis millones de idiomas, pero al que rara vez se le ve utilizar sus brazos y manos.

Así que, en esencia, se podría decir que un robot social es una interfaz de usuario, una nueva forma de interactuar con las máquinas que es similar a cómo nos comunicamos entre nosotros: a través de una conversación cara a cara.

Aunque esta forma de interacción es potencialmente más impactante e intuitiva que las interfaces de usuario tradicionales, ya que la aprendemos de niños y la utilizamos a diario, también es un reto técnico construir una máquina de este tipo. Esto se conoce como la paradoja de Moravec: las tareas que son difíciles para los humanos (como calcular 345×827) son muy fáciles para los ordenadores, mientras que las tareas que son fáciles para los humanos (como pelar un plátano o entender un chiste) son extremadamente difíciles para las máquinas.

Sin embargo, los recientes avances en la IA nos permiten ahora mantener conversaciones cara a cara con las máquinas de una forma que era imposible hace apenas diez años.

En esta entrada del blog, argumentaré por qué los robots sociales como el robot Furhat permiten una interacción más natural con las máquinas, y explicaré las soluciones técnicas que permiten a Furhat mantener conversaciones con humanos.

¿Estás ahí?

Cuando hablo con mi altavoz inteligente o con el asistente de voz de mi smartphone, parece que estoy hablando con alguien que no está presente conmigo. Para iniciar la conversación, tengo que utilizar una “palabra de activación” (como “Oye Siri”) o pulsar un botón. El asistente no sabe si estoy presente, por lo que no podría iniciar una interacción conmigo. Además, nunca sabe si sigo en la habitación, así que tendré que seguir usando la palabra de activación en cada turno de la conversación. En cambio, un robot social puede ver a las personas que le rodean y averiguar si siguen participando en la conversación o no. Como humanos, también entendemos esto de forma intuitiva: nos parece natural acercarnos al robot y mirarlo cuando queremos hablar con él, y cuando nos desvinculamos de la conversación, naturalmente nos alejamos o miramos hacia otro lado. Esto permite una interacción mucho más natural.

Los robots sociales suelen seguir a las personas que se encuentran en su entorno mediante una cámara. A diferencia de los humanos, que utilizan sus ojos para ver, la cámara de Furhat está fijada en el pecho, pero es de gran angular, por lo que se puede seguir a muchas personas al mismo tiempo. Gracias a los recientes avances en el aprendizaje automático, Furhat cuenta con un software de detección facial muy robusto, que también funciona en condiciones de poca luz. Mediante algoritmos de seguimiento de rostros y software de reconocimiento de rostros, Furhat puede seguir el movimiento de estos rostros de un fotograma a otro sin confundir a los usuarios individuales. Esta información se combina para crear el llamado modelo de situación, que hace un seguimiento de los diferentes usuarios que participan en la conversación, así como de los espectadores que no participan, y ayuda al robot a saber cuándo alguien entra o sale de la interacción. (Por razones de privacidad, el seguimiento y el reconocimiento facial sólo se procesan localmente en el robot, y los datos no se almacenan a largo plazo).

Como un robot social tiene una idea clara de cuándo empieza y termina la conversación, podemos ofrecer una experiencia de interacción mucho más fluida, con una toma de turnos más rápida, que la que es posible con un asistente de voz.

El poder de la conversación

Para entender lo que dice el usuario, el robot tiene que hacer un reconocimiento de voz, que traduce el discurso del usuario a texto, y luego una comprensión del lenguaje natural, que traduce este texto a algo que tenga sentido para un ordenador. En esencia, Furhat extrae la intención general de lo que dice el usuario (como, por ejemplo, un Saludo, una Petición o una Afirmación), así como piezas de información llamadas entidades (como una hora, una fecha o el nombre de una ciudad). Como hay muchas formas de decir lo mismo, el desarrollador tiene que “enseñar” a Furhat a reconocer las intenciones, proporcionándole ejemplos de cómo puede ser, por ejemplo, un pedido de pizza. A continuación, se utiliza el aprendizaje automático para entrenar al robot sobre estos ejemplos, de modo que pueda reconocer la intención de una nueva expresión.

Sin embargo, en una conversación, gran parte del significado de lo que se dice no viene determinado por las palabras concretas utilizadas, sino por el contexto. Esto hace que la conversación sea extremadamente eficaz. Si sacara una expresión fuera de contexto, como “mañana”, no podrías saber cuál es mi intención. Por tanto, el robot también tiene que llevar la cuenta del estado actual del diálogo (es decir, el contexto actual del mismo). Una forma de seguirlo es utilizar las denominadas máquinas de estados, en las que la conversación siempre se encuentra en un estado concreto y se espera que el usuario diga algo relacionado con ese estado. Por ejemplo, después de que el robot pregunte “¿Quiere pagar con tarjeta de crédito?”, se podría esperar que el usuario dijera “sí” o “no”. Sin embargo, en una conversación real, no estamos obligados a seguir esas expectativas, también podríamos decir “¿acepta Mastercard?” o “en realidad, me gustaría cambiar mi pedido”. Para manejar esta forma de diálogo de iniciativa mixta, Furhat hace un seguimiento de los múltiples estados del diálogo al mismo tiempo, mediante el uso de statecharts jerárquicos.

Otra característica clave de los robots sociales es la capacidad de interactuar con varias personas al mismo tiempo.

¿Me estás hablando a mí?

Imagina a dos personas reservando billetes en un aeropuerto al mismo tiempo, o a un robot social enseñando a dos estudiantes un nuevo idioma en un entorno colaborativo. Esto no es posible con un asistente de voz, ya que no estaría claro quién se dirige a quién. Incluso si se tratara de un agente animado presentado en una pantalla, la interacción entre varias personas se vuelve problemática, ya que no está claro a quién se dirige el agente (piense en un lector de noticias que mira a la cámara: todos los presentes creen que se dirigen a ellos).

La razón por la que somos capaces de interactuar sin esfuerzo con varias personas en entornos físicos cara a cara (pero no en conferencias telefónicas) es que podemos controlar fácilmente la dirección de la mirada de los demás. Esto significa que un robot social debe tener dos características importantes: en primer lugar, algún medio para controlar la dirección de la mirada de los usuarios para deducir hacia dónde dirigen su atención y a quién pueden estar dirigiéndose. En segundo lugar, debe quedar claro para los usuarios si el robot les está mirando a ellos, a la persona que está a su lado o a algún objeto del espacio compartido. De nuevo, esto sólo es posible si el robot está físicamente presente.

Además de rastrear la ubicación de los usuarios individuales, Furhat rastrea su postura de la cabeza, que es un indicador bastante fiable (pero no perfecto) de la dirección de su mirada, y por lo tanto es capaz de inferir si el usuario está atendiendo a Furhat o a otro lugar. Mediante el uso de múltiples micrófonos, Furhat también puede detectar de qué dirección viene el habla (al igual que nosotros tenemos dos orejas para lograr lo mismo). Como Furhat puede mover su cabeza (mediante un cuello mecánico) y sus ojos (mediante animación facial) de forma independiente, también puede cambiar rápidamente su atención entre los usuarios. Utilizando la cámara y el seguimiento facial, Furhat puede mover la cabeza y los ojos para mantener el contacto visual. La combinación de estos elementos hace que Furhat sea especialmente adecuado para participar en interacciones con varias personas, a diferencia de otras interfaces conversacionales.

Este es claramente uno de los puntos fuertes de Furhat (en comparación con otros robots), ya que la animación facial permite al robot comunicar estas cosas de forma sutil, pero muy expresiva. Como humanos, reaccionamos automáticamente a estas señales, no es algo que tengamos que aprender. Pero, por supuesto, también es importante que el robot detecte esas señales. Mediante el software de seguimiento facial del robot, puede detectar cuándo el usuario está sonriendo. Esto podría servir, por ejemplo, para que Furhat le devolviera la sonrisa, o para que un robot humorista detectara si al usuario le ha hecho gracia el chiste.

Conclusiones

En resumen, los robots sociales están empezando a aprender las cosas que apreciamos en las conversaciones cara a cara.

Por supuesto, como humanos tenemos muchas habilidades sociales que los robots aún no tienen, por lo que todavía podemos preferir hablar con un humano, si esa opción está disponible. Pero en muchos casos, hablar con un humano no es una opción.

Por ejemplo, normalmente sólo hay un profesor en un aula, que no puede prestar ayuda individual a todos al mismo tiempo. Si tienes prisa en un aeropuerto y necesitas ayuda, puede que no haya ningún humano cerca para ayudarte. E incluso puede haber situaciones en las que prefieras hablar con un robot social que te escuche pacientemente sin juzgarte, algo que a los humanos no siempre se les da bien. En esos casos, un robot social puede ser una alternativa mejor, más cercana a la experiencia de hablar con un humano, que una pantalla táctil o un asistente de voz. Y debemos recordar que sólo estamos al principio de este viaje hacia los robots socialmente inteligentes. Dados los avances tecnológicos que hemos visto en la última década, será muy emocionante ver qué habilidades sociales dominarán los robots en los próximos años.

Artículo publicado en blog de Alisys: https://alisysrobotics.com/es/blog/que-hace-que-un-robot-social-sea-bueno-en-la-interaccion-con-humanos