哈密罐体保温工程 智元发SOP系统:打破离线训练瓶颈,让具身智能在“干中学”
2026-01-12 12:23:37 82

当通用能力主要通过大规模预训练获得之后,下一阶段的关键在于让已经具备通用能力的模型,在真实部署环境中持续进化。
这是智元机器人席科学家罗剑岚博士在接受量子位采访时给出的论断。
2025 年机器人领域火的 VLA 让机器人通过预训练具备了相当的通用,但与此同时,机器人能否长时间,稳定,高地完成任务仍是一个问号。
基于此,当机器人走出实验室,走向开放、复杂且持续变化的真实世界时,一个更核心的问题随之出现:如何真正实现通用机器人的规模化部署与智能化运行。
为此,智元机器人具身研究中心提出SOP(ScalableOnlinePost-training)——一套面向真实世界部署的在线后训练系统。
这是业界次在物理世界的 VLA 后训练中,系统地融在线学习、分布式架构与多任务通才,使机器人集群能够在真实环境中持续进化,让个体经验在群体中高复用,从而将"规模"转化为"智能"。
真实世界中的规模化智能增长挑战
要在真实世界中大规模运行,通用机器人须同时满足两个看似矛盾的要求:
在复杂多变的环境中保持稳定与可靠。
在处理差异巨大的任务时,仍具备良好的泛化能力。
现有 VLA 预训练模型已经提供了强大的通用。但真实世界的部署受困于更高的任务精度要求,以及离线数据采集方式的边际益递减,往往需要通过后训练获得更高的任务成功率。
遗憾的是,当前主流的 VLA 后训练方法仍受离线、单机、串行采集等因素制约,难以支撑高、持续的真实世界学习。
这些限制并非源自具体算法,而是来自学习范式本身。
SOP:分布式在线后训练框架
SOP 的核心目标,是让机器人在真实世界中实现分布式、持续的在线学习。研究将 VLA 后训练从"离线、单机、顺序"重构为"在线、集群、并行",形成一个低延迟的闭环系统:多机器人并行执行→云端集中在线更新→模型参数即时回流。
SOP 架构设计
△SOP 架构设计图
SOP 采用 Actor – Learner 异步架构:
Actor(机器人侧)并行经验采集
多台部署了同一 policy 模型的机器人(actors)在不同地点同时执行多样任务,持续采集成功、失败以及人类接管产生的交互数据。每台机器人的经验数据被汇总传输至云端 Experience Buffer 中。
Learner(云端)在线学习
所有交互轨迹实时上传至云端 learner,形成由在线数据与离线家示教数据组成的数据池。系统通过动态重采样策略,根据不同任务的能表现,自适应调整在线 / 离线数据比例,以更高地利用真实世界经验。
即时参数同步
更新后的模型参数在分钟级别内同步回所有机器人,实现集群一致进化,维持在线训练的稳定。
SOP 本身是一套通用的框架,可以即插即用的使用任意后训练算法,让 VLA 从在线经验数据中获益。
研究选取 HG-DAgger(交互式模仿学习)与 RECAP(离线强化学习)作为代表算法,将其接入 SOP 框架以进化为分布式在线训练。
关键优势
隔音能安静是卧室的基本需求。若周边充斥高频噪音,像汽车喇叭声、广场舞音乐等,中空玻璃是不错的选择。其内部的空气层能有缓冲声音传播,降低噪音干扰。要是常受火车、飞机等低频噪音困扰,三层恒温玻璃搭配中空设计的门窗则更为适,能为你营造一个安静的睡眠环境。
选购前,先搞清楚铝金门窗的分类,这能帮助我们根据自家需求精准定位。铝金门窗主要分为普通铝金门窗和断桥铝金门窗两大类,前者适用于预算有限的普通住宅,后者则更适追求高能的家庭。
高状态空间探索:分布式多机器人并行探索,显著提升状态–动作覆盖率,避免单机在线学习的局限。
缓解分布偏移:所有机器人始终基于低延迟的新策略进行理采集,管道保温施工提升在线训练的稳定与一致。
在提升能的同时保留泛化能力:传统的单机在线训练往往会使模型退化为只擅长单一任务的"家",SOP 通过空间上的并行而非时间上的串行,在提升任务能的同时保留 VLA 的通用能力,避免退化为单任务家。
实验评估:能、率与 ScalingLaw
联系人:何经理研究围绕三个问题系统评估 SOP:
SOP 能为预训练 VLA 带来多大能提升?
实验结果说明,在各类测试场景下,结 SOP 的后训练方法均得到了显著的能提升。
相比预训练模型,结 SOP 的 HG-Dagger 方法在物品繁杂的商超场景中实现了 33% 的综能提升。
对于灵巧操作任务(叠衣服和纸盒装配),SOP 的引入不仅提升了任务的成功率,结在线经验学习到的错误恢复能力还能明显提升策略操作的吞吐量。
结 SOP 的 HG-Dagger 方法让叠衣服的相比 HG-Dagger吞吐量跃升 114%。
SOP 让多任务通才的能普遍提升至近乎,不同任务的成功率均提升至 94% 以上,纸盒装配更是达到 98% 的成功率。
SOP 能提升
为了进一步测试真机 SOP 训练后 VLA 模型是否达到家级能,研究让 SOP 训练的 VLA 模型进行了长达 36 小时的连续操作,模型展现出了惊人的稳定和鲁棒,能够有应对真实世界中出现的各种疑难杂症。
36h 连续叠纸盒(50 倍速)
36h 连续叠衣服(50 倍速)
机器人规模如何影响学习率?
研究使用了三种机器人队伍数量(单机、双机、四机配置),在同样的数据传送总量的基础上,进行了比较。实验结果表明,在相同的总训练时间下,更多数量的机器人带来了更高的能表现。
在总训练时间为 3 小时的限制下,四机进行学习的终成功率达到了 92.5%,比单机高出 12%。
研究认为,多机采集可以有阻止模型过拟到单机的特定特征上。
同时,SOP 还将硬件的扩展转化为了学习时长的大幅缩短,四机器人集群相比单机能够将模型达到目标能的训练速度增至 2.4 倍。
SOP 学习率提升
不同预训练规模下 SOP 是否稳定有?
后,研究探究了 SOP 和预训练数据之间的关系。
研究把总量为 160 小时的多任务预训练数据分为了三组:20 小时,80 小时和 160 小时,分别训练一组初始模型后再进行 SOP。
研究发现,预训练的规模决定了基座模型和后训练提升的轨迹。SOP 能为所有初始模型带来稳定的提升,且终能与 VLA 预训练质量正相关。
同时,对比 80 小时和 160 小时实验果,研究也可以明显注意到,在解决特定失败情况时,在轨策略经验带来了非常显著的边际果。
SOP 在三小时的在轨经验下就获得了约 30% 的能提升,而 80 小时额外人类家数据只带来了 4% 的提升。
这说明在预训练出现边际应递减的情况下,SOP 能够高突破 VLA 能瓶颈。
△SOP 在不同预训练数据规模下的对比
部署即进化:重塑机器人生命周期
后研究将机器人队伍放到了预训练模型没有见到的真实新环境下执行任务,并使用 SOP 进行在线训练。
当机器人被置于不同的环境时,即便是同样的任务,起初成功率和吞吐量如预期般下降,但在 SOP 介入仅仅几个小时后,机器人的能便显著回升,能够鲁棒地执行相对复杂的实际任务。
SOP 改变的不仅是训练范式,更是机器人系统的生命周期。
研究相信机器人不应当是"能固定的标品",而是"在真实世界中持续提升的生命体"。部署不是技术迭代的终点,而是更大规模学习的起点。
如果说 VLA 让机器人第一次具备了通用理解与行动能力,那么 SOP 所做的是让众多机器人的经验共同驱动智能的快速成长。训练不被锁死在过去,智能成长在当下。
论文博客:https://www.agibot.com/research/sop_zh
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 � �
感兴趣的小伙伴欢迎关注 � � 了解详情
� � 点亮星标 � �
科技前沿进展每日见
产品中心
热点资讯
-
1.六盘水铁皮保温工程 输给北控5分!揪出3个“废柴”,坑惨了青
- 1

- 六盘水铁皮保温工程 输给北控5分!揪出3个“废柴”,坑惨了青
- 2026-02-02
- 1
-
2.三门峡设备保温施工队 布局厨房环境-厨房风水-
- 2

- 三门峡设备保温施工队 布局厨房环境-厨房风水-
- 2026-01-21
- 2
-
3.鹰潭罐体保温施工队 市场低开回升显韧,有色、芯片股强者恒强,
- 3

- 鹰潭罐体保温施工队 市场低开回升显韧,有色、芯片股强者恒强,
- 2026-01-05
- 3
-
4.钦州铝皮保温工程 035期甜瓜摆设三预测号:6码组六参考
- 4

- 钦州铝皮保温工程 035期甜瓜摆设三预测号:6码组六参考
- 2026-02-10
- 4
-
5.梧州设备保温工程 华为 nova 11 / Pro / Ul
- 5

- 梧州设备保温工程 华为 nova 11 / Pro / Ul
- 2026-01-14
- 5
-
6.郴州罐体保温厂家 《不雅公孙大娘弟子舞剑器行》
- 6

- 郴州罐体保温厂家 《不雅公孙大娘弟子舞剑器行》
- 2026-01-30
- 6
-
7.万宁铝皮保温 217CF9月占卜抽行径施行与励先容 穿越火线
- 7

- 万宁铝皮保温 217CF9月占卜抽行径施行与励先容 穿越火线
- 2026-01-16
- 7
-
8.长治铝皮保温施工队 足球小将-原创-高清正版视频在线观看-爱
- 8

- 长治铝皮保温施工队 足球小将-原创-高清正版视频在线观看-爱
- 2026-01-12
- 8
-
9.大连铝皮保温 示范金课回顾丨带你穿越千年攻克文言文难关
- 9

- 大连铝皮保温 示范金课回顾丨带你穿越千年攻克文言文难关
- 2026-01-01
- 9
-
10.阿拉善盟铝皮保温工程 五大经典单机捕鱼游戏荐2025 受欢迎
- 10

- 阿拉善盟铝皮保温工程 五大经典单机捕鱼游戏荐2025 受欢迎
- 2026-01-16
- 10
推荐资讯
-
天水管道保温厂家 香港证监会: 谴责盛宝金融(香港)并罚款4
2026-01-07
-
湖州铝皮保温 全链条塑造绿色低空产业
2026-01-06
-
佳木斯设备保温厂家 它是人类历史上糟糕的调味剂,比白糖和酒精
2026-01-09
-
佛山储罐保温施工队 纪录预警!杜兰特仅差15分就能超越张伯伦
2026-01-09
-
鸡西不锈钢保温施工队 周跃龙5-4逆转布雷切尔 晋级斯诺克英
2025-12-31
