Niantic ha creado un sistema de localización visual utilizando 30 mil millones de imágenes urbanas de Pokémon Go, alcanzando una precisión a nivel de centímetros, y ha comenzado a probar con 1,000 robots de reparto.
La popularidad mundial del juego de realidad aumentada Pokémon Go, desarrollado por Niantic, ha llevado a su empresa filial de inteligencia artificial, Niantic Spatial, a aprovechar las decenas de miles de millones de imágenes urbanas capturadas por los jugadores durante años para construir un sistema de localización visual y un modelo de mundo basado en IA que comprende el entorno real. Esta tecnología puede localizarse con precisión en entornos urbanos donde las señales GPS son inestables, y ya ha sido probada en colaboración con empresas de robots de reparto, abriendo nuevas posibilidades para la navegación de robots y IA en el mundo real.
Desde su lanzamiento en 2016, Pokémon Go se convirtió rápidamente en un juego globalmente popular, donde los jugadores usan la cámara de sus teléfonos para capturar Pokémon en el mundo real. Este famoso juego de realidad aumentada (AR), desarrollado por Niantic, sigue manteniendo más de 100 millones de jugadores activos cada año, incluso después de varios años desde su lanzamiento.
Sin embargo, durante el juego, los jugadores deben apuntar continuamente la cámara del teléfono hacia edificios y puntos de referencia urbanos, acumulando sin querer una gran cantidad de datos de imágenes.
Recientemente, Niantic Spatial, la compañía de inteligencia artificial de Niantic, anunció que ha recopilado y organizado aproximadamente 30 mil millones de fotos de entornos urbanos en todo el mundo, todas con información precisa de ubicación y datos de captura, como dirección del teléfono, velocidad de movimiento y ángulo de toma. Estos datos se están utilizando actualmente para entrenar IA y construir un «modelo del mundo» que comprende el espacio real.
Según reporta NewsForce, la tecnología más reciente desarrollada por Niantic Spatial es un sistema de localización visual (Visual Positioning System, VPS). Este modelo de IA puede analizar fotos de edificios o puntos de referencia para determinar la ubicación del usuario con una precisión que puede llegar a centímetros.
La compañía afirma que su base de datos ya cubre más de un millón de puntos de referencia en todo el mundo. En cada uno de estos lugares, se han acumulado miles de imágenes tomadas en diferentes momentos, desde distintos ángulos y bajo diversas condiciones climáticas. La IA, mediante la comparación de estas características visuales, puede estimar la posición y la dirección de vista del dispositivo, logrando una localización bastante precisa.
El director técnico de Niantic Spatial, Brian McClendon, señala que esto difiere del método tradicional de GPS, que depende de señales satelitales. En cambio, VPS determina la posición mediante lo que «puede ver»:
En entornos urbanos densos, las señales GPS a menudo presentan desviaciones, con errores que pueden alcanzar decenas de metros o incluso errores en la orientación.
Este tipo de error no suele afectar a los usuarios comunes, pero para robots que requieren una navegación precisa, puede ser un problema grave. Por ello, la tecnología de localización basada en reconocimiento de imágenes es una solución que también preocupa a las empresas de robots.
Actualmente, Niantic Spatial ha comenzado a colaborar con la empresa de robots de reparto Coco Robotics para realizar pruebas. Coco ha desplegado aproximadamente 1,000 robots en varias ciudades de Estados Unidos y Europa, principalmente para servicios de entrega de comida y comestibles. Estos robots, del tamaño de una maleta pequeña, pueden transportar hasta ocho pizzas grandes o cuatro bolsas de compras.
La compañía indica que, aunque estos robots ya han realizado más de 500,000 entregas, todavía enfrentan dificultades debido a errores en la localización GPS, lo que a veces impide que puedan detenerse con precisión frente a restaurantes o en las puertas de los clientes:
Gracias al modelo de localización visual de Niantic, los robots pueden usar sus cuatro cámaras para analizar el entorno circundante y determinar con mayor precisión su posición y dirección de movimiento, mejorando así la fiabilidad de las entregas.
El CEO de Niantic Spatial, John Hanke, explica que el desarrollo inicial de la tecnología de localización visual fue para apoyar gafas de realidad aumentada y aplicaciones AR, pero con el rápido crecimiento de la industria de robots, la compañía comenzó a enfocar la tecnología en la navegación de robots.
Hanke menciona que están construyendo un sistema llamado «Mapa Vivo» (Living Map), que es un modelo digital del mundo altamente detallado y en constante actualización, capaz de reflejar los cambios en el entorno real en tiempo real.
En el futuro, los robots de reparto, dispositivos inteligentes e incluso dispositivos AR podrán convertirse en fuentes de datos para el mapa, enviando continuamente información del entorno y acercando cada vez más el mundo digital a la apariencia dinámica del mundo real.
En los últimos años, el concepto de «modelo del mundo» ha cobrado importancia en la investigación en IA. Aunque los grandes modelos de lenguaje (LLM) muestran un excelente rendimiento en procesamiento de texto y conocimientos, todavía enfrentan limitaciones claras en la comprensión del espacio físico y el entorno real.
Al combinar mapas, imágenes e información del entorno, el modelo del mundo busca que la IA pueda entender objetos, relaciones espaciales y cambios en el entorno. Empresas como Google DeepMind también están desarrollando modelos que generan mundos virtuales para entrenar agentes de IA.
Por su parte, Niantic Spatial adopta una estrategia diferente, reconstruyendo gradualmente un modelo digital del mundo real a partir de una gran cantidad de datos de imágenes del entorno real. A medida que se acumulan más datos, este sistema puede convertirse en una infraestructura clave para que robots y IA comprendan el mundo físico en el futuro.