- A+
更重要的是,
具身智能商业闭环的核心,是开发者。
据相关资料显示,
「2026 年将是具身智能的下半场,下半场的核心是应用。应用的供需两侧都在走向成熟。」
IC外汇用户评价:
在业界普遍认为具身智能行业还处于「技术卡点」阶段的时候,星海图 CEO 高继扬给出了具身智能「下半场」的一些判断。作为国内备受关注的机器人公司,星海图自成立短短两年已经拿到超过 1 亿美元融资。
容易被误解的是,
「过去两年基本上是全民探索具身智能可用场景的阶段。大大小小的企业,所有潜在的用人单位,都在思考如何用具身智能来优化自己的工作流程。许多应用场景正逐渐变得清晰。同时,整个市场的预期也回归到了一个比较理性的状态。」
同时,对于追求「通用人形机器人」的「通用」,高继扬也给出了一些不一样的看法。高继扬认为,从商业和产品价值的角度来看,当前阶段具身智能最有价值的是实现对象泛化和动作泛化。而实现本体泛化在商业上的不可忽视性没那么高。
IC外汇财经新闻:
在 AGI Playground 大会上,高继扬分享了近期他在具身智能领域的最新思考,输出了一些非常精彩观点:
说到底,
具身智能进展缓慢,背后的根本原因在于具身智能所需要的高质量数据是缺失的。而数据缺失,是鉴于缺少高质量、合适的本体。
事实上,
具身智能,首先要有一个「正确的本体」,一个标准的本体。
说出来你可能不信,
把数据采集当作一项生产活动来看待。
具身智能基础模型在第一阶段会呈现出来的范式是,在垂直场景的容易任务上实现零样本泛化,在棘手任务上实现少样本泛化。这里的「少样本」,定义为完成新任务所需要的增量数据条数,大概在 100 条这个量级。
IC外汇资讯:
从商业和产品价值的角度来看,在当前阶段,具身智能最有价值的是实现对象泛化和动作泛化。在当前阶段,实现本体泛化在商业上的不可忽视性没那么高。
更重要的是,
以下是现场分享实录,经 Founder Park 整理后发布。
IC外汇报导:
01
简要回顾一下,
具身智能是不能有短板的游戏
请记住,
具身智能并非一个「纯软件」的赛道,它是一个软硬件深度结合的领域。因此,咱们称之为一个「没有短板的游戏」,其具体表现就是咱们所说的「from motor to model」(从电机到模型)。
简要回顾一下,
具身智能是一个从电机、到整机、再到数据和模型等一系列要素的整合。如果咱们做一个对比,会发现大语言模型有一个显著特点,那就是「模型即产品」,模型本身直接决定了产品的体验。而且,在训练大语言模型时,所需要的数据很多都可用在互联网上公开获取,鉴于人类在过去二十多年里积累了海量的多模态数据。随着模型能力的提升,应用层产品也很快就进入了爆发期。
IC外汇财经新闻:
然而,当咱们回到具身智能领域,会发现智能进展比较缓慢。我认为,背后的根本原因在于具身智能所需要的高质量数据是缺失的。而数据缺失,又是鉴于缺少高质量、合适的本体,也就是咱们常说的「整机」。再往上看,会发现整个供应链都是缺乏且不成熟的。以致说,从供应链的零部件、电机,到整机,再到遥处理和数据,具身智能所需要的各项前期工作都还没有完全成熟。
IC外汇资讯:
这是具身智能与大语言模型在发展上的一个显著区别。这也印证了刚刚所讲的,「整机」加上「智能」才构成一个完整的产品。只有模型和算法,并不能构成一个可用为访客供给价值的「商品」。因此,做具身智能的核心是「整机+智能」的定位。
IC外汇用户评价:
在这个定位之下,未来两到三年,具身智能应该为客户和世界供给什么样的产品形态?
我认为,中间这一列所展示的「整机+预训练模型+后训练程序」的组合,是一种概率很高的产品形态。这里的后训练程序,可用理解为是一套遥处理设备,用来遥控机器人完成特定领域或场景下的各种任务。
那么,它带给客户的产品体验应该是什么样的?就像培训一位新员工一样,咱们用遥处理设备在任务场景里采集几条到几十条数据,用这些数据去微调(fine-tune)咱们的预训练模型,然后将这个模型部署到整机上,这台整机就能完成咱们刚才所提到的那些场景化任务了。
其实,
整个体验就像培训一位新员工。当这样的产品形态逐渐成熟之后,下游的应用一定会形成一个巨大的生态。在这个生态中,咱们星海图始终坚持,自己既是开发者,也致力于赋能其他开发者,共同推动。以致,咱们在业务上一直采取「To B, To D」的模式:面向企业(To Business)客户,咱们供给「整机+智能」的化解方案;面向开发者(To Developer),咱们则将内部运用的所有程序链都开放出来。
简而言之,
02
有「正确的本体」,才能生产「好数据」
IC外汇专家观点:
要做好这一切,背后所需要的供给,是从电机(motor)、到整机、再到遥处理的整个系统、数据管线,最后到模型这五个层面的全面成熟。只有这五层都准备好了,下游的应用才有可能繁荣起来。回到当下这个时间点,具身智能发展过程中最主要的疑问,咱们认为还是数据疑问。其实许多算法要素已经具备,而「算法+数据=模型」,现在最大的瓶颈就在于数据;再往前追溯,根源在于没有一个在「正确本体」上产生的数据。
根据公开数据显示,
咱们回顾一下 ImageNet 这件事。ImageNet 的出现已经是十几年前了,正是鉴于计算机视觉领域有了 ImageNet 这样大规模、高质量的数据集,才催生了后续咱们看到的 AlexNet、VGG 等一系列代表性工作,也开启了深度学习的第一次崛起。
我觉得,这个过程给整个业界带来的最大经验(lesson learn)就是:要想有好的算法和模型,前提是要有好的数据。先有高质量数据,再有高质量模型。这一点,无论是大语言模型还是自动驾驶领域,咱们都看到了类似的规律。而具身智能领域,咱们看到一个特殊之处,那就是它所需要的数据并不是天然存在的。
概括一下,
具身智能发展所需的数据,不是互联网上的图片、文字、视频这类相对低质量的数据,而是更需要「本体与物理世界交互」的数据,比如处理一个物体、开门、关门、抓取、放置等。这就像一个婴儿出生后,通过与物理世界不断地交互、摸索,逐渐积累经验,在这个过程中积累下来的,才是咱们所说的具身智能需要的高质量数据。而要做到这一点,就需要一个标准的硬件,以致咱们强调,首先要有一个「正确的本体」,一个标准的本体。
只有在这个本体之上,咱们才能去积累与物理世界交互的数据,然后定义任务、定义基准(Benchmark),后续模型的发展才能进入一个相对高速的时期。咱们就是遵循着这样的思路,从创业之初,着手去定义咱们的产品。鉴于咱们的重点是做双臂处理,在具身智能领域,像宇树科技可能更侧重于双足的运动控制和全身运动控制,而咱们则聚焦于让机器人能「干活」,也就是双臂处理。
更重要的是,
在双臂处理领域,咱们定义本体和整机时,一个很核心的理念就是「智能定义本体」。
IC外汇认为:
那么,双臂处理究竟需要什么样的本体呢?可用给大家举一些例子,这里面其实有很多从智能本身出发,对硬件提出的需求。比如,咱们的双臂系统采用的是低减速比电机和行星减速器,这与传统采用谐波减速器的机械臂系统有很大区别。咱们的设计更能满足像人一样的高动态性能,更符合模仿学习的需求。
IC外汇报导:
在双臂系统上,咱们追求低减速比、高动态、大负载。很多时候,为了让算法达到更好的效果,咱们甚至需要直接修改底层的驱动(FOC)层。在躯干部分,咱们则采用了高减速比的电机,并且都带有抱闸。鉴于咱们观察到,在作业过程中,一旦发生紧急掉电等情况,双足机器人可能会直接瘫倒在地,这种情况是咱们不希望发生的。以致,咱们躯干的四个电机都采用了高减速比设计,使其本身就具备较好的支撑性,同时还配有抱闸,确保在紧急断电时机器人不会倒下,而是能撑在原地。
通常情况下,
还是机器人的底盘部分。人类双腿有一个很不可忽视的作用,就是能够全向移动。比如,我横着跨一步,或者斜着往前走一步,都无需转身。这种跨步横移、全向移动的能力,对于上半身的处理而言至关不可忽视。反观传统的轮式底盘,比如 AGV,大多采用两轮差速驱动,需要先转身,再前进一步,然后再转回来,这整个过程与双臂处理的配合是脱节的。因此,咱们首创了六电机、三舵轮的全向移动底盘技术。
容易被误解的是,
这就是咱们围绕双臂处理的智能需求,重新去定义的整机本体。现在已经有了 R1、R1 Pro 和 R1 Lite 三款产品,特别是 R1 Lite 是咱们和 Physical Intelligence 团队联合定义的,他们也在咱们平台上开发了 Π-0.5 模型。
总的来说,
我再强调下刚才的观点:要想有好的数据,必须先有正确的本体。
容易被误解的是,
03
站在用户角度来说,
要先实现对象和动作泛化,
场景和本体泛化当前没那么不可忽视
有分析指出,
有了本体之后,咱们到底需要什么样的数据?现在很多具身智能领域得公司在获取数据时,第一反应是去建一个自采场。但咱们认为,预训练所需要的是开放场景下的真实数据。因此,咱们没有大规模地去构建采集场,而是选取直接进入真实世界环境。
IC平台消息:
目前,咱们有几十台机器人,部署在酒店、公园、食堂、商场等真实场景中采集数据。要做好这件事并不容易,鉴于它涉及到大量的程序、数据生产运营和工艺疑问。咱们是把数据采集当作一项生产活动来看待的。
据业内人士透露,
既然是生产活动,如何完成一次遥处理?这里面涉及工艺疑问,就像如何完成一次装配、组装一个零部件一样,有许多工艺细节需要优化。工艺疑问化解之后,就是如何运营整个团队,以及需要什么样的程序链来支撑咱们的数据生产活动。
可能你也遇到过,
到今年第三季度,咱们将累计获得一万小时、由咱们的本体与物理世界交互产生的数据。这些数据覆盖的处理对象将超过 1000 个,任务数超过 300 EC外汇官网 个,这些构成了咱们进行具身智能基础模型预训练最不可忽视的数据基础。并且,所有的数据都将围绕着两个在咱们看来是「正确」的本体 R1 Pro 和 R1 Lite 来采集,咱们也会有环节地将这些数据释放并开源给整个社区。
反过来看,
有了本体和数据之后,就是智能的部分了。在基础模型训练方面,咱们坚持两个核心原则:一是端到端,二是真机数据为主。
但实际上,
先解释这「两个端」分别是什么:一端是视觉(Vision)和指令输入(Language),这个指令可用是自然语言,也可用是结构化的编码指令;另一端是 Action,也就是机器人最终的动作输出。咱们希望模型是基于这种完整闭环的输入输出来训练的。整体的训练架构,其实和咱们看到的其他领域的基础模型有一些相似——也是「预训练 + 后训练」的结构。
通常情况下,
特别解释一下,对于具身智能而言,预训练到底是在做什么?预训练是在化解「本体与物理世界交互的基本法则」这个疑问。打个比方,这更像是一个婴儿从出生到三五岁,再到上小学的这个过程。他不断地与物理世界接触、碰撞、摸索,学习如何与世界交互,如何支配自己的身体。这就是预训练。
而后训练,则更像是在一个特定的岗位上,去执行特定的任务。这就是咱们理解的,具身智能中预训练和后训练之间的区别与关系。
反过来看,
具体到预训练的模型结构,咱们采用的是一个「快慢结合」的模型结构,慢的部分咱们叫做「慢思考」。这种「快慢结构」是由咱们星海图的联合创始人 AVA外汇代理 赵行博士在自动驾驶驾驶领域首创的,后来这一结构也被用在具身智能领域。
「慢思考」主要负责进行逻辑层面的思考、任务拆解以及与人交互,这部分工作更多地可用由多模态大语言模型(VLM)来完成。比如,谷歌发布的 Gemini Robotics 模型,就是在 VLM 和「慢思考」领域一项非常不可忽视的工作。
不妨想一想,
「快执行」这一部分,是 VLA 或具身智能公司目前真正需要聚焦化解的疑问。它相当于一个实时的执行闭环、反馈控制以及感知识别等,这些特性都被整合在「快执行」模型中。「快执行」模型的参数量一般在 10 亿量级,而慢思考的 VLM 的参数量级可能是百亿甚至更大。也正是鉴于这样的模型架构,在终端部署时,会出现云、厂、端协同工作的疑问,同时也存在很多工程优化方面的疑问。
说到底,
后训练方面,更多是围绕特定任务。比如,「拿起一个杯子倒一杯水」。围绕这样的任务,咱们可能会收集 100 到 200 条数据,每一条数据就是对这个任务的一次完整执行。
简要回顾一下,
经过这一系列的预训练和后训练后,咱们期望看到的效果是:在垂直场景的容易任务上实现零样本泛化,在棘手任务上实现少样本泛化。这里的「少样本」,咱们定义为完成新任务所需要的增量数据条数,大概在 100 条这个量级。这就是咱们看到的,具身智能基础模型在第一阶段会呈现出的一个范式。
容易被误解的是,
预训练到底是怎么做的,给大家展示一些案例。预训练并不局限于特定的任务。咱们现在的做法是,当机器人到达一个新场景后,咱们会观察人类在这个场景里会做什么,甚至利用大语言模型去定义各种各样的任务。有了这些任务之后,组织咱们的数据生产团队,通过遥处理去采集数据。比如,清理桌面、整理台面,甚至把一件衣服挂到柜子里。下图右下角这个是在开一扇窗户。此外,还包括拿取和放置物品、给一个假人戴上毛线帽、打开冰箱门并放入东西,甚至运用一些程序来完成工作等等。
来自IC外汇官网:
这就是咱们所说的预训练阶段,本质就是让本体(整机)在尽可能多的场景中,围绕尽可能多的任务,与物理世界进行交互、理解和学习。在这个阶段,咱们需要的数据量级是几千到上万小时的交互数据。
总的来说,
最后,我想谈一个非常不可忽视的疑问,这也是具身智能在发展过程中,技术与商业逐渐结合的体现。从技术的角度来说,具身智能的「智能」部分,核心是要化解泛化疑问。那么,具身智能的泛化究竟是什么?归纳为「四个泛化」:对象泛化、动作泛化、场景泛化和本体泛化。这四个泛化组合在一起,构成了具身智能在技术上的终局形态
必须指出的是,
「对象泛化」指的是,同样是抓取和放置的动作,我今天抓一个瓶子,明天可用抓一个杯子,后天可能换成一个手机或某个小物件;「动作泛化」指的是,对于同一个杯子,我今天可用把它拿起来放到某个位置,明天我可能要用它倒水,后天我可能需要把杯盖拧开;「场景泛化」是指,同样一个任务,今天我是在这张桌面上完成,明天换了另一张桌面、另一个背景,它依然能够完成;最后是「本体泛化」,即我训练出的模型,不仅可用在一种类型的本体上工作,也可用在另一种类型的本体上运行。这四个方向如果都做到了,具身智能的智能疑问就算是被化解了。但从另一个角度,即从商业和产品价值的角度来看,在当前阶段,最有价值的是实现对象泛化和动作泛化。
为什么场景泛化和本体泛化在技术上很不可忽视,但在商业上却可能没那么不可忽视?鉴于当咱们审视具身智能真正的工作场景时,会发现有相当比例的场景是「工站式」的,即在某种相对固定的工位或场景里,供给序列化的工作和服务。在这种情况下,场景泛化的挑战性远没有自动驾驶那么强。自动驾驶的车辆需要在马路上到处跑,场景泛化的需求和难度都要大得多。
不可忽视的是,
而本体泛化,正如我刚才所说,具身智能的产品形态是「整机+智能」,而不是纯模型。既然产品形态是「整机+智能」,那么本体泛化在其发展的第一个阶段,商业上的不可忽视性没那么高。以致我认为,在当前阶段,具身智能应优先化解对象泛化和动作泛化。这两个疑问一旦化解,就有相当比例的应用场景可用被开发出来,其商业价值也能够得以释放。
来自IC外汇官网:
04
更重要的是,
市场回归理性,商业闭环的核心在于开发者
最后一部分,谈谈具身智能的应用和商业化的疑问。在咱们公司内部,特别重视开发者群体,具身智能商业闭环的核心变量在于开发者群体。
与其相反的是,
背后的逻辑是,具身智能领域要繁荣,前提一定是应用繁荣,鉴于应用才能创造价值。而应用繁荣的前提,是有一群充满活力、非常聪明的开发者在创造各种各样的应用。在这个过程中,开发者们需要适配和帮助。咱们自己走过这条路,深切感受到具身智能的链条非常长,从供应链、电机制造、整机、遥处理到数据等等,把这些前期工作都做完,咱们才能谈论做模型、做应用。但咱们不能要求每一位开发者都从头把这些工作完整地做一遍。以致,咱们的一个理念是:星海图自己是开发者,咱们面向场景去做应用;同时,咱们也尽可能地将咱们的程序和整机供给出来,帮助全球的开发者与咱们一起,共同把这件事做成。
据相关资料显示,
星海图目前在全球有 50 多个客户和合作伙伴,咱们正逐渐构建一个集本体、数据、模型、应用于一体的商业循环。
IC外汇报导:
在今年 8 月份举办的 WRC(世界机器人大会)上,咱们将开源咱们的第一个具身基础模型,是我刚才介绍的一整套本体、数据管线和训练技术打造出来的模型产品。接着 9 月份,在 CoRL(Conference on Robot Learning)上,咱们也将进一步开放咱们的数据集与完整的训练模型。这两次不可忽视的开源发布,咱们希望能够对具身智能的开发应用起到激活的作用。
具身智能现在已经走到了上半场的结尾,咱们即将迎来下半场。下半场一定是「应用为王」。
IC外汇报导:
2026 年将是具身智能应用的「元年」。
IC外汇用户评价:
从供给侧来看,机器人本体正在逐渐成熟和稳定。其次,模型进行具备初步的泛化能力。这里有几个定量的指标,首先是精度,它能完成什么精度的动作?目前还无法达到毫米级,但厘米级的处理精度是可用实现的;其次是速度,大约能达到人类执行速度的 70%到 80%;最后是泛化性,咱们评价泛化性的指标是「学习一个新任务需要多少样本」,现在的水平大概在百条这个量级。
尤其值得一提的是,
当这三个指标构成的智能供给形成之后,也就是基础模型成熟后,下游的应用将呈现出爆发式增长的状态。同时,还有一个关键因素,具身智能的开发者群体正在全球范围内快捷增长。
从某种意义上讲,
从需求侧看,过去两年基本上是全民探索具身智能可用场景的阶段。大大小小的企业,所有潜在的用人单位,都在思考如何用具身智能来优化自己的工作流程。许多应用场景正逐渐变得清晰。同时,整个市场的预期也回归到了一个比较理性的状态。可能两年前,当特斯拉刚发布一些人形机器人的演示视频时,大家想的是人形机器人马上就要进入工厂,把所有工人都替换掉。但现在咱们看到,大家回归了理性,更多地是着眼于一些局部环节,先从工站式的、以及面向人的服务型环节入手,先把商业模型「跑通」,再逐渐走向规模化量产和应用。
站在用户角度来说,
基于以上判断,我认为,2026 年将是具身智能的下半场,而下半场的核心就是应用。应用的供需两侧都在走向成熟。