Google DeepMind ha logrado avances constantes en el campo de la IA con actualizaciones periódicas y de gran prestigio de Gemini, Imagen, Veo, Gemma y AlphaFold. Hoy, el equipo de IA de Google continúa siendo noticia al anunciar oficialmente su entrada en la industria de la robótica con el lanzamiento de dos nuevos modelos basados en Gemini 2.0: Gemini Robotics y Gemini Robotics-ER.
Gemini Robotics: Modelo avanzado de visión, lenguaje y acción
Gemini Robotics es un modelo avanzado de visión-lenguaje-acción (VLA) desarrollado en base a Gemini 2.0, con la incorporación de acciones físicas como nuevo método de salida para el control del robot. Google afirma que este nuevo modelo puede comprender situaciones que ni siquiera ha experimentado durante el entrenamiento.
En comparación con otros modelos VLA líderes, Gemini Robotics tiene el doble de rendimiento en un conjunto integral de puntos de referencia de generalización. Dado que está construido sobre el modelo Gemini 2.0, es capaz de comprender muchos tipos diferentes de lenguajes naturales, lo que significa que puede entender comandos humanos con mayor precisión.
En términos de destreza, Google afirma que Gemini Robotics puede manejar tareas complejas de varios pasos que requieren una manipulación precisa. Por ejemplo, este modelo puede doblar origami o colocar bocadillos en bolsas Ziploc.
Gemini Robotics-ER: Un modelo de lenguaje visual centrado en el razonamiento espacial
Gemini Robotics-ER es un modelo visual-lingüístico avanzado centrado en el razonamiento espacial, que permite a los especialistas en robótica integrarse con sus controladores de bajo nivel existentes. Utilizando este modelo, el robotista tendrá todos los pasos para controlar el robot a la vez, incluida la percepción, la estimación del estado, la comprensión espacial, la planificación y la generación de código.
El futuro de la robótica Gemini
Google se ha asociado con Apptronik para construir robots humanoides basados en los modelos Gemini 2.0. Google también está trabajando con varios socios de pruebas confiables, incluidos Agile Robots, Agility Robotics, Boston Dynamics y Enchanted Tools, para guiar el desarrollo futuro de Gemini Robotics-ER.
Al permitir que los robots comprendan y realicen tareas complejas con mayor precisión y adaptabilidad, Google DeepMind está allanando el camino para un futuro en el que los robots puedan integrarse perfectamente en muchos aspectos de nuestras vidas.