El clásico videojuego es ahora protagonista en el desarrollo de agentes de IA, un tipo de modelos que tiene mucho potencial para cambiar la experiencia de usuario en nuestros dispositivos los próximos años.
El mes de mayo en el Google I/O, Sundar Pichai hablaba orgullosamente de cómo Gemini Pro, su modelo de IA, había llegado a los créditos de Pokémon Azul. Aunque suene extraño, los clásicos juegos de la GameBoy se han convertido en un test real para el desarrollo de esta tecnología.
A pesar de ser un juego de niños (de los 90 eso sí), Pokémon requiere de ciertos conocimientos y capacidad de aprendizaje. Desde lo más básico, como los controles para caminar e interactuar con el mundo, hasta lo más complejo, como ganar la Liga Pokémon. Sencillo para un humano, pero un reto para los grandes modelos de lenguaje (LLM en inglés).
Esa es la clave de los agentes de IA, modelos dedicados a adaptarse a cualquier programa externo y hacer uso de él como haría un usuario. Los modelos generativos que conocemos funcionan en base a un input humano; pero un agente debe ser capaz de actuar por su cuenta.
Los problemas de este benchmark
La novedad de usar los juegos de la GameBoy viene de Anthropic con su modelo Claude 3.7 Sonnet, ahora Claude 4, que juega en directo en Twitch demostrando sus capacidades de razonamiento, análisis y ejecución. Aunque por el momento todavía no ha sido capaz de llegar al final del juego.
Por su parte, Gemini llegó a los créditos hace meses, con una configuración hecha por alguien ajeno a Google, que mostraba también en Twitch su partida. Pero hay una diferencia importante, Gemini cuenta con un minimapa que aporta información clave de lugares destacados del escenario, más allá de lo que puede ver y reconocer en la pantalla estándar.
Esto es una ayuda que hace imposible comparar justamente la efectividad de estos modelos.La idea es vistosa y original, definitivamente dice mucho de los avances y el camino que toma la industria de los grandes modelos de lenguaje.
Ahora bien, no es el benchmark definitivo y sobre todo muestra el trabajo que aún queda por hacer de cara a la Inteligencia Artificial General. Si hay algo que nos está demostrando la carrera tecnológica de la IA, es que esto ya no es cosa de ficción, sino un futuro cercano, pero con ciertos límites.







