Un equipo de investigadores ha desarrollado un algoritmo de aprendizaje profundo que puede predecir con éxito lo que ocurrirá en un corto de video basándose en una instantánea de la filmación.
El Laboratorio de Ciencias de la Computación e Inteligencia Artificial del instituto de Tecnología de Massachusetts (MIT) realizó este logro en visión predictiva entrenando un algoritmo con 600 horas de videos YouTube.
Al buscar patrones y objetos reconocibles como manos y rostros, el algoritmo pudo predecir interacciones humanas como abrazar, besar, estrechar manos y “high fiving” (chocar las manos en alto).
La investigación será presentada esta semana en la Conferencia Internacional sobre Visión por Computadora y Reconocimiento de Patrones (CVPR).
“La experiencia hace que los humanos aprendan a anticipar las acciones automáticamente, y eso nos llevó a tratar de infundir el mismo tipo de sentido común en las computadoras”, explicó Carl Vondrick, estudiante de doctorado en MIT, y autor principal del artículo.
“Queríamos demostrar que, con solo observar grandes cantidades de video, las computadoras pueden adquirir suficientes conocimientos para hacer predicciones consistentes sobre su entorno”, añadió.
Las pruebas demostraron que el algoritmo acertó 43 por ciento de las veces al mostrarle una imagen fija tomada un segundo antes que ocurriera la acción. A modo de comparación, los sujetos humanos de control predijeron correctamente la acción 71 por ciento de las veces.
Vondrick y sus colegas investigadores esperan que, algún día, el algoritmo contribuya a mejorar la forma como los robots interactúan con las personas.
“La comprensión y predicción de las interacciones humanas conlleva mucha sutileza”, apuntó Vondrick. “Esperamos poder trabajar con base en este ejemplo y que pronto seamos capaces de predecir tareas mucho más complejas”.
“Estoy ansioso por ver lo mucho que mejorarían los algoritmos si pudiéramos introducir los videos de toda una vida. Tal vez veríamos algunas mejoras significativas que nos acercarían más al uso de la visión predictiva en situaciones del mundo real”.