来自IC外汇官网：谷歌推端侧VLA模型，机器人版安卓问世，50次演示就能学会新动作

发表评论

A+

所属分类：科技

摘要

编译 | 李水青编辑 | 心缘智东西6月25日报道，今日凌晨，谷歌推出首个设备机器人模型Gemini Robotics On-Device，进一步将Gemini 2.0的多模态推理和现实世界理解能力带入物理世界。

IC外汇快讯：

编译 | 李水青

编辑 | 心缘

智东西6月25日报道，今日凌晨，谷歌推出首个设备机器人模型Gemini Robotics On-Device，进一步将Gemini 2.0的多模态推理和现实世界理解能力带入物理世界。

通常情况下，

今年3月，谷歌推出了其最强VLA（视觉语言动作）模型Gemini Robotics。今日推出的Gemini Robotics On-Device是Gemini Robotics经过优化的版本，也是其首个可供微调的VLA模型，可在本地机器人设备上运行，具备强大的通用灵活性和任务泛化能力。

有分析指出，

如视频所示，Gemini Robotics On-Device将AI引入机器人，容许开箱即用地处理各种棘手的双手办理任务，如叠衣服、拉开袋子等。

必须指出的是，

同时，谷歌还推出Gemini Robotics SDK，帮助开发者评估Gemini Robotics 在设备上的性能，包括在MuJoCo物理模拟器中进行测试。开发者只需50-100个演示即可完成模型评估，让机器人学习新技能。

很多人不知道，

该模型一经发布引起近30万社交平台X终端围观，有终端称：“这些设备内置模型让Gemini Robotics稳稳地走上了成为‘机器人界的安卓’的道路。最终，OEM（集成）厂商只需专注于打造最优秀的机器人硬件，Gemini只需作为‘大脑’即可。”

可能你也遇到过，

一、专为灵巧办理设计，能让机器人拉开袋子、叠衣服

这你可能没想到，

Gemini Robotics On-Device是一个为双臂机器人设计的基础模型，容许最大限度地减少计算资源需求。它基于Gemini Robotics的任务泛化和灵活性用途，并且具备以下特点：

IC外汇用户评价：

1、专为灵巧办理的迅速实验而设计。

据报道，

2、通过微调来适应新任务，提高性能。

IC外汇资讯：

3、经过优化，可在本地运行并实现低延迟推理。

说出来你可能不信，

Gemini Robotics On-Device在广泛的测试场景中实现了强大的视觉、语义和行为泛化，遵循自然语言指令，容许顺畅完成诸如拉开袋子、叠 EX外汇官网衣服等高度灵巧的任务。所有这些都是在机器人上直接办理时完成的。

值得注意的是，

在谷歌的评估中，Gemini Robotics On-Device在完全本地运行时表现出强大的泛化性能。下图是其与谷歌Gemini Robotics旗舰模型和之前最好的设备模型进行比较的结果，Gemini Robotics On-Device在Visual Gen、Semantic Gen、Action Gen三项测试中均获得最高分。

来自IC外汇官网：谷歌推端侧VLA模型，机器人版安卓问世，50次演示就能学会新动作

说到底，

在更具挑战性的分布式任务和棘手的多操作路径指令方面，Gemini Robotics On-Device模型的表现也优于其他设备端替代方案。下图是Gemini Robotics On-Device的指令跟踪性能评估结果，其与旗舰Gemini Robotic XM外汇开户 s模型和之前最好的设备模型相比得分都更高。

通常情况下，

更多详情可阅读谷歌今年3月发布的Gemini Robotics技术报告《Gemini Robotics: Bringing AI into the Physical World（Gemini Robotics：将 AI 带入物理世界）》。

说到底，

报告地址：https://arxiv.org/pdf/2503.20020

但实际上，

二、首个可供微调的VLA模型，适用机械臂、人形机器人等多种形态

大家常常忽略的是，

Gemini Robotics On-Device是谷歌首个可供微调的VLA模型。

很多人不知道，

虽然许多任务容许直接运行，但开发者也容许挑选调整模型，使其应用获得更佳性能。Gemini Robotics On-Device能够迅速适应新任务，只需50-100次演示即可完成，这充分表明了该设备端模型能够将其基础知识推广到新任务的能力。

谷歌展示了Gemini Robotics On-Device在涉及微调至新模型的任务上如何超越目前最佳的设备端 VLA。他们测试了该模型，涉及了七项不同难度的灵巧办理任务，包括拉开午餐盒拉链、画卡片和倒沙拉酱等。

IC外汇专家观点：

下图展示了Gemini Robotics On-Device的任务适应性能，其中包含近100个示例。

谷歌还进一步调整了Gemini Robotics On-Device，使其适用于不同的机器人。虽然其仅针对ALOHA机器人训练了该模型，但他们能够进一步将其适配到双臂Franka FR3机器人和Apptronik的Apollo人形机器人。

在双臂Franka上，该模型容许执行通用指令，包括处理以前未见过的物体和场景、完成折叠衣服等灵巧的任务，或执行需要精确度和灵巧性的工业皮带组装任务。

但实际上，

在Apollo人形机器人上，谷歌调整了模型，使其适应截然不同的形态。同样的通用模型容许遵循自然语言指令，并以通用的路径操控不同的物体，包括之前从未见过的物体。

谷歌正根据其人工智能原则开发所有Gemini Robotics模型，并应用涵盖语义和物理放心的整体放心方法。

其实，

结语：大模型加速落地物理世界

根据公开数据显示，

Gemini Robotics On-Device标志着强大的机器人模型在易访问和适应性方面迈出主要一步，有望帮助机器人开发者应对主要的延迟和连接挑战。

IC外汇资讯：

值得一提的是，Gemini Robotics SDK容许开发者根据自身需求调整模型，进一步加速创新。下一步，小编有望看到更多机器人开发者利用这些新插件构建具有创新应用的机器人。

发表评论取消回复