|

Modelos de lenguaje visual entrenan robots para interpretar emociones humanas

Si los robots van a trabajar alguna vez junto a los humanos de forma más generalizada, necesitarán leer nuestros estados de ánimo
Modelos de lenguaje visual entrenan robots para interpretar emociones humanas

Modelos de lenguaje visual entrenan robots para interpretar emociones humanas-. A medida que los robots mejoran su destreza y otras capacidades físicas , aumenta la probabilidad de que los humanos trabajen junto a ellos. Si esto sucede, ¿cómo deberán evolucionar las capacidades emocionales de los robots para que puedan trabajar con éxito con las personas?

En un estudio reciente, investigadores entrenaron robots colaborativos para interpretar las emociones humanas, teniendo en cuenta no solo las expresiones faciales, sino también los factores contextuales de las interacciones. Mediante experimentos con 40 voluntarios, evaluaron cómo la capacidad del robot para interpretar las emociones humanas y ajustar su comportamiento influía en la percepción que el humano tenía del robot y sus capacidades durante la colaboración en tareas. Los resultados , que demuestran que las capacidades emocionales de los robots tienen sus límites en la interacción con los humanos, se publicaron el 18 de mayo en IEEE Robotics and Automation Letters .

Seung Chan Hong dirigió el estudio como parte de su tesis de pregrado en la Universidad de Monash, en Melbourne, Australia. Señala que, si bien se ha generado mucha expectación en torno a las crecientes capacidades físicas de los robots, esto es solo una parte del problema. «También necesitamos innovar en lo que respecta a su interacción real con los humanos, no solo en sus capacidades físicas», afirma.

Te puede interesar: Revelan el secreto de los robots ganadores de maratones

Esto lo impulsó a profundizar en los aspectos emocionales de las interacciones entre humanos y robots. En primer lugar, Hong y sus coautores decidieron entrenar a un robot para que interpretara las emociones humanas utilizando un modelo de lenguaje visual (VLM), similar a los modelos de lenguaje a gran escala (LLM) como ChatGPT, pero que también puede procesar información visual.

Para evaluar su modelo de aprendizaje por voz (VLM), que utilizaba Gemini 2.5, los investigadores pidieron a voluntarios que vieran vídeos de robots entregando objetos a humanos —con distintos grados de éxito— y que describieran las emociones que expresaban estos. Es importante destacar que los voluntarios que etiquetaron estos vídeos pudieron tener en cuenta un mayor contexto en estas interacciones, en lugar de limitarse a informar sobre las expresiones faciales de los humanos. Por ejemplo, una persona que se detiene a pensar con el ceño fruncido puede simplemente estar concentrada en su tarea y no necesariamente estar enfadada. Factores contextuales como tamborilear con los dedos, fruncir los labios u otros comportamientos pueden indicar la verdadera causa del ceño fruncido.

Los investigadores compararon su modelo de lenguaje virtual (VLM) con un sistema de IA convencional que se basa en el análisis facial estándar y el seguimiento de objetos utilizados en las interacciones humano-robot. Descubrieron que el VLM superaba al método tradicional. En una escala de 0 (ninguna similitud en el significado con la emoción identificada por los voluntarios humanos) a 1 (coincidencia perfecta), el sistema de IA convencional obtuvo una puntuación de 0,77. En comparación, el VLM obtuvo una puntuación de 0,86.

Leer más: España impulsa vinculación entre inteligencia artificial y educación

Hong afirma: “Creo que [el VLM] pudo alinearse mucho mejor con lo que veían los observadores humanos, porque no se trataba solo de mirar el rostro de la persona durante un breve período de tiempo, sino de ver toda la escena: dónde estaba la persona, qué estaba haciendo y cómo interactuaba con el robot”.

En un segundo experimento, el equipo de investigación pidió a 40 voluntarios que interactuaran con un robot utilizando su modelo de lenguaje virtual (VLM), pero programaron intencionadamente al robot para que cometiera un error. El robot debía entonces ofrecer una disculpa emocionalmente adaptada que tuviera en cuenta la reacción percibida del humano ante el error, o bien una disculpa verbal preescrita.

Los participantes prefirieron abrumadoramente la respuesta emocionalmente adaptativa, con 31 de cada 40 personas que se decantaron por este enfoque frente a una disculpa genérica.

Sin embargo, las respuestas a la encuesta pusieron de manifiesto que esta adaptabilidad emocional era mucho menos importante que la funcionalidad del robot. Tras colaborar con un robot que falló en su tarea, muchos participantes redujeron su confianza en él, independientemente de cómo se disculpara por su error. «Una disculpa personalizada actúa como un lubricante social, pero no puede reparar la confianza perdida cuando el robot falla en su tarea física», afirma Hong.

Curiosamente, el modelo de aprendizaje por voz (VLM) clasificó las emociones de sus compañeros humanos de forma similar a como lo hicieron los voluntarios humanos que observaron una interacción desde la perspectiva de un tercero. Sin embargo, cuando las evaluaciones del VLM se compararon con las emociones que los propios humanos reportaron durante el segundo experimento —las descripciones más precisas de sus emociones reales—, su capacidad para predecir emociones con exactitud disminuyó significativamente.

EO// Con información de: IEEE Spectrum