Em 24 de junho de 2025, o Google DeepMind apresentou o modelo Gemini Robotics On-Device, um modelo de linguagem avançado capaz de rodar diretamente dentro de robôs, sem depender de conexão com a internet . Esse lançamento complementa o modelo Gemini Robotics anunciado em março de 2025 , focado em ensinar robôs a manipular objetos e executar tarefas físicas a partir de comandos de voz. O novo modelo permite controlar movimentos físicos do robô por meio de instruções em linguagem natural , oferecendo desempenho próximo ao do modelo original na nuvem e, segundo o Google, superando outras soluções embarcadas em benchmarks gerais.
- Executa tarefas de forma totalmente local, dispensando internet.
- Controla movimentos robóticos via prompts de linguagem natural.
- Desempenho comparável ao do modelo em nuvem, superando outras soluções embarcadas nos testes.
Demonstrações e capacidades práticas
Em testes de demonstração, robôs equipados com o Gemini On-Device conseguiram realizar tarefas físicas realistas, como deszipar bolsas e dobrar roupas . O modelo foi treinado inicialmente para o robô ALOHA, mas logo foi adaptado para outros sistemas, incluindo o robô humanoide Apollo (da Apptronik) e o robô de dois braços Franka FR3 . Notavelmente, o Franka FR3 executou tarefas inéditas para ele, como montagem de componentes em uma esteira industrial , demonstrando capacidade de generalização a situações não vistas durante o treinamento.
SDK Gemini Robotics
Além do modelo, o Google DeepMind lançou o SDK Gemini Robotics, um kit de desenvolvimento que permite programadores treinarem o modelo em novas tarefas . Com o SDK, é possível mostrar ao robô dezenas de demonstrações (tipicamente 50 a 100) de um determinado procedimento usando o simulador de física MuJoCo . Esse recurso facilita o ajuste fino do Gemini On-Device para aplicações específicas sem depender da nuvem.
Avanços no campo de IA e robótica
A iniciativa do Google DeepMind está alinhada a outros esforços do setor de integrar IA avançada diretamente em robôs. Por exemplo, a NVIDIA anunciou o Project GR00T, um modelo fundacional para robôs humanoides . A Hugging Face lançou em 2024 o repositório LeRobot, com modelos abertos, conjuntos de dados e ferramentas para robótica , além de desenvolver seus próprios robôs humanoides de código aberto. Em paralelo, a startup sul-coreana RLWRLD (apoiada pela Mirae Asset) construiu um modelo fundacional específico para robótica . Essas iniciativas indicam um esforço conjunto da indústria para avançar modelos gerais de robótica e democratizar tecnologias de IA embarcada.
O lançamento do Gemini Robotics On-Device e de seu SDK representa um avanço importante para tornar a IA avançada mais acessível em sistemas robóticos. Ao operar localmente, o modelo reduz latências de resposta e mitiga preocupações de privacidade e conectividade . Isso abre caminho para aplicações mais seguras e eficientes de robôs em áreas como saúde, indústria e serviços.
