Suscriptor digital

Los videos de cocineros le están enseñando a las computadoras a mirar

Los videos tomados con una GoPro en la frente permiten tomar la perspectiva del cocinero y ayudar a los sistemas de análisis de imágenes
Los videos tomados con una GoPro en la frente permiten tomar la perspectiva del cocinero y ayudar a los sistemas de análisis de imágenes
Montse Hidalgo Pérez
(0)
28 de mayo de 2018  • 00:57

Una mano derecha recoge un plato de la mesa y lo lleva a la mesada. Entonces aparece la izquierda, que ayuda a despegar dos trozos de pizza del papel de horno y entre las dos los dejan en el plato. Una vez allí, los cortan y los pasan a un tupperware. Durante los siguientes nueve minutos el par de manos continúa desempeñando una práctica milenaria: recoger la cocina.

"Cuando la gente trabaja en su cocina, hace multi-tasking de manera natural: lava platos mientras cocina, añade ingredientes mientras revuelve... Estas interacciones con objetivos paralelos nunca habían sido capturadas en datasets egocéntricos", explica Dima Damen, profesora asociada de visión artificial de la Universidad de Bristol. Estas son algunas de las peculiaridades que hacen único el proyecto que lidera y que ha dado como resultado Epic Kitchens, el mayor dataset de vídeo egocéntrico -grabado en primera persona, con una cámara en la frente- sin guión y con anotaciones que se ha recopilado jamás. Cuatro ciudades, 32 cocinas y 55 horas de grabación.

Podría parecer poco, pero es cinco veces la saga de El señor de los anillos y viene a llenar la milésima parte de un vacío que sufre toda la comunidad científica dedicada al análisis y procesamiento de vídeo. "Hay mucho vídeo disponible -datos-, pero no hay etiquetas -metadatos- que describan esos contenidos. Si no hay metadatos, no tenemos ninguna forma de decirle a la máquina qué está ocurriendo", dice Marcos Nieto, investigador principal en Vicomtech.

Los sistemas de reconocimiento de imagen, que nunca habían sido tan inteligentes, amplían cada día sus capacidades de detección e identificación de objetos. "Lo que todavía no está resuelto, y queda mucho para lograrlo, son los procesamientos más complejos, como la identificación de acciones", señala Nieto. Así, en una escena de Epic Kitchens, sería más sencillo obtener una lista de entidades, como trapo rejilla, clara, yema, servilletas, individuo enojado... que la descripción de lo que está ocurriendo: un huevo kamikaze se ha tirado de la mesada al suelo. "Ahí los seres humanos todavía somos mucho mejores que las máquinas. Nosotros tenemos 20, 30, 40 años de entrenamiento, mientras que a las máquinas las podemos entrenar con una cantidad de imágenes muy, muy inferior".

Dos destinos y un problema

En Vicomtech necesitan estas fuentes de vídeos descritos para mejorar el reconocimiento de situaciones en tiempo real en sistemas de transporte. En Epic Kitchens quieren saberlo todo sobre nuestra manera de interactuar con el entorno. Convergen en la escasez de filmografía que enturbia la mirada de sus sistemas de visión artificial, pero difieren en las soluciones propuestas.

El equipo de Nieto ha trabajado en desarrollar herramientas de deep learning que automaticen la interpretación de grandes cantidades de vídeo. "Mientras se graba, se ejecutan algoritmos que van generando anotaciones de forma automática", precisa. Posteriormente, un equipo de anotadores revisa, valida y, en el peor de los casos, corrige las asociaciones propuestas. Así, se rompe el círculo vicioso donde las máquinas no aprenden porque no tienen libros y los libros no existen porque no hay máquinas capaces de crearlos; y se comienza a construir un círculo virtuoso donde cada nuevo análisis mejora aprendiendo de los errores detectados durante el anterior. "Ahora estamos centrados en escenarios de automoción, pero este mismo concepto podría aplicarse prácticamente a cualquier cosa", añade.

Epic Kitchens parte del producto completo: sus 55 horas de video ya están inequívocamente procesadas y han resultado en la identificación de nada menos que 39.594 segmentos de acción y 454.158 objetos. "En este momento, el mayor reto en el análisis de vídeo egocéntrico es que los datasets disponibles limitan la evaluación de los métodos actuales", explica Damen. Su esperanza es que estos contenidos, que ya están colgados en la web al alcance de cualquier ingeniero con acceso a internet, sirvan como base para comparar problemas y soluciones.

Las ventajas de llevar una cámara en la frente

La universidad de Washington usa videos grabados desde la perspectiva de un perro para intentar entender su pensamiento
La universidad de Washington usa videos grabados desde la perspectiva de un perro para intentar entender su pensamiento

"La visión egocéntrica ofrece puntos de vista únicos de los objetos mientras se están usando", asegura Damen. Además, las actividades en la cocina resultan más predecibles y orientadas a objetivos concretos que el curso de acción de quien se dedica a haraganear en el salón. "Creemos que una comprensión automatizada del vídeo egocéntrico pondrá los cimientos para una interacción más cautivadora entre humanos y computadoras", promete la líder del proyecto.

De hecho, el potencial del vídeo egocéntrico ya ha cruzado la frontera del reino animal. Investigadores de la Universidad de Washington han compilado su propio dataset de video egocéntrico desde la perspectiva de un perro. Los modelos derivados del análisis de estas nueve horas de vídeo son "prometedores", según los autores del estudio. "Pueden predecir cómo se mueve el perro en distintos escenarios y cómo decidirá moverse de un estado a otro".

ENVÍA TU COMENTARIO

Ver legales

Los comentarios publicados son de exclusiva responsabilidad de sus autores y las consecuencias derivadas de ellos pueden ser pasibles de sanciones legales. Aquel usuario que incluya en sus mensajes algún comentario violatorio del reglamento será eliminado e inhabilitado para volver a comentar. Enviar un comentario implica la aceptación del Reglamento.

Para poder comentar tenés que ingresar con tu usuario de LA NACION.

Usa gratis la aplicación de LA NACION, ¿Querés descargala?