Los investigadores de OpenAI han enseñado con éxito a una IA a jugar Minecraft usando videos que se encuentran en la web. Para lograr tal hazaña, utilizaron el aprendizaje por imitación y tuvieron que desarrollar algoritmos para anotar automáticamente miles de horas de video grabado en el juego.
La inteligencia artificial ha experimentado un desarrollo importantísimo en los últimos años, gracias al aprendizaje profundo, y especialmente gracias al aprendizaje por refuerzo. Con este método, la IA realiza acciones aleatorias hasta llegar a un objetivo y obtener una recompensa, método que le permite, por ejemplo, vencer a los humanos en los videojuegos. Sin embargo, el próximo gran avance en IA podría provenir de otro método, el aprendizaje por imitación.
Con esta técnica, la computadora aprende imitando a los humanos. Actualmente, uno de los mejores entornos para este tipo de aprendizaje es el juego MinecraftMinecraft, donde los jugadores evolucionan en un mundo abierto sin tener un objetivo específico. Esto fue hecho por OpenAI, que por lo tanto requirió muchas horas de videos de humanos jugando este juego.
Una IA para anotar automáticamente 70.000 horas de juego
Para que funcione correctamente, el aprendizaje por imitación necesita que se anoten los vídeos para entender lo que está pasando. Los investigadores de OpenAI contrataron humanos para crear videos mientras grababan todas las acciones del teclado y el mouse. Consiguieron así 2.000 horas de vídeos. Luego entrenaron una IA para crear un modelo de dinámica inversa (IDM). Al analizar las acciones del teclado y el mouse, así como el resultado producido en la pantalla, puede anotar videos automáticamente.
Este es el primer paso en un método de aprendizaje por imitación semisupervisado que los investigadores han llamado «video preentrenamiento» (VPT). Los algoritmos obtenidos por IDM se utilizan luego en videos que se encuentran en la web. Minecraft es uno de los juegos más populares, hay muchos videos en el juego hechos por fanáticos. De este modo, el equipo pudo recopilar 70 000 horas de videos, que fueron anotados por el IDM.
Aprendizaje por imitación combinado con aprendizaje por refuerzo
La IA aprende así a talar árboles, transformar los troncos en tablones y luego hacer un banco de trabajo. Para un jugador experimentado, esta secuencia requiere 960 acciones y 48 segundos. Los investigadores llevaron el modelo un paso más allá al combinar su método con el aprendizaje por refuerzo para impulsarlo a crear herramientas de diamante. La IA recibe una recompensa en cada etapa (obtener troncos, crear tablones, crear un banco de trabajo, crear un pico de madera, etc.). Consigue crear un pico de diamante en un 2,5% de sesiones de juego de 10 minutos, actividad que para un humano requiere una media de 20 minutos y 24.000 acciones. Los investigadores también lo compararon con una IA que solo usa aprendizaje por refuerzo. Solo logró recoger algunos palos, pero nunca troncos, por lo que no pudo avanzar más.
Los investigadores también demostraron que a pesar del procesamiento automático, el entrenamiento realizado sobre las 70.000 horas de videos anotadas con el IDM fue mucho más efectivo que el realizado solo sobre las 2.000 horas de videos donde pudieron registrar las acciones en el teclado. y ratón Luego quieren recopilar un millón de horas de videos para mejorar su modelo. También creen que esta técnica se puede generalizar a otras acciones, como navegar por sitios web, usar Photoshop o incluso reservar vuelos.