联系人: 张生
手机: 13845690023
电话: 0512-50135789
邮箱: 520233699@qq.com
地址: 江苏省苏州市姑苏区白洋湾街道朱家湾街8号2幢B座406区01室
机器人长出800个心眼?阿里达摩院开源具身新大脑硅谷又坐不住了
【新智元导读】硅谷还在苦等真机数据,中国队已先一步交卷。RynnBrain大脑横空出世,通用具身智能时刻更近了。
1X就祭出了1XWM「世界模型」,让NEO在脑内学会模拟现实,把视频生成内化为肌肉记忆;
而Figure更是通过下一代神经网络Helix 02让Figure 03实现了「全身协同运动」,行走、操作与平衡从此无缝融合。
比如,这个机器人正忙着给桌上的食物分类,半路突然杀出一个「请帮我拿个面包」的指令。
更有意思的是,哪怕你当着它的面把盘子移走,它也能实时调整路径,坚持「物归原位」。

机器人一眼扫过配料表和文字标签,大脑迅速计算,立马就能精准找出最合适的那一个。

有趣的是,机器人凭借着「空间规划」与「长程规划」的能力,给出了一个绝妙的解法——「叠罗汉」。


Figure、π、Covariant押注的这条路最为火热,主张用一个模型从感知直通动作。
![]()
![]()
在英伟达杰出科学家Jim Fan看来,2026年将是「大世界模型」(LWM)为机器人乃至多模态AI奠定基础的真正元年。
![]()
基于本身就具有泛化能力的VLM(视觉-语言模型),进一步造出通向物理世界的「具身大脑」。
这种架构巧妙利用了VLM海量数据的泛化优势,同时通过「空间定位」让思考过程落地,解决了以往模型只会在脑子里「空想」的幻觉问题。
开篇一些惊艳演示,正是来自这第三条路线的最新破局者——阿里达摩院刚刚亮出的RynnBrain。
![]()
![]()
在这场通往通用机器人的马拉松里,最优解虽未落定,但阿里达摩院已在无人区迈出了关键一步。
要造「大脑」,得先解决一个更基础、却也更棘手的问题:如何让机器真正「看懂」物理世界?
现有的大模型虽然能用诗意的语言描述图像,却对物理世界中物体的材质(是软是硬?)、功能(能坐还是能开?)、真实尺度(多高多宽?)完全「摸不透」。

这种设计让模型不再局限于笼统地「看图说话」,而是具备了区域级别的视频交互能力,能够精准锁定局部物体。
为了训练这双「眼睛」,团队设计了一套如同人类认知课程般的四阶段训练范式,从最基础的掩码对齐开始,逐步注入颜色、材质等物体属性知识,再进阶到距离、方位等空间推理,最后通过指代分割防止遗忘。
经过这套严苛课程的「特训」,RynnEC不仅能回答关于物体属性的复杂问题,还能在视频Kaiyun官方入口流中实时生成分割掩码,真正理解了物理世界的几何与语义。
RynnBrain正是继承了RynnEC这双「火眼金睛」的数据和能力,并在此基础上长出了负责逻辑推理和时空规划的「大脑」。
在拥有了极致的感知后,RynnBrain在模型架构上选择了「效率至上」。
它基于Qwen3-VL底座,使用自研RynnScale架构,让Dense模型和MOE模型训练加速两倍。
尤其是,MoE架构的RynnBrain,仅用3B推理激活参数,性能全面超越Pelican-VL(72B)巨型模型。
![]()
针对传统大模型在物理世界中「看不准」和「记不住」的痛点,RynnBrain引入了两项关键技术:
举个栗子,让机器人去厨房拿可乐,结果刚转个身,就忘了厨房门在哪,或者忘了刚才看见的可乐在桌子左边还是右边。
这种能力让机器人能够在完整的历史记忆中建立起涵盖空间、位置、事件、轨迹等多维度的三维认知表征,而不仅仅是简单地批处理历史图像。
通过这种深度的时空建模,模型能够在当前视野受限的情况下,精准定位历史画面中出现过的物体或目标区域。
甚至在复杂的动态环境中,它还能基于历史信息预测运动轨迹,赋予了机器人一种类似「心眼」的能力,即便转过身去,依然能在脑海中清晰地构建出周围环境的完整地图,从而实现可靠的全局回溯。
RynnBrain抛弃了纯文本推理范式,采用了一种「文本与空间定位交错」的策略。
模型在输出推理文本的过程中,必须将提到的物体或区域与视频流中的具体像素位置进行强制绑定(Grounding)。
这种「言必有据」的机制充当了一个严厉的考官,迫使推理过程紧密扎根于物理环境,从而极大地抑制了纯文本模型中常见的物理幻觉问题,确保了每一个指令都是可执行、可验证的。
为此,RynnBrain构建了庞大的数据工程,在预训练阶段,采用了2000万高质量数据对。
具身认知数据:复用自研RynnEC训练数据,并引入Sensenova-SI、VSI-590k、Molmo2提高模型的空间理解和动态计数能力,以及自生成100万自我为中心的OCR问答数据。
具身定位数据:五大定位任务分别标注大量视频和图像数据,分别为:物体定位、区域定位、操作点定位、轨迹定位和夹爪位姿定位。
规划数据:导航和操作两类数据,前者使用R2R和RxR数据和ScaleVLN的开源数据,后者数据来自OpenX-Embodiment和AGIBot。
利用Gemini 2.5 Pro生成初步推理链,GPT-4o-mini进行实体分类,最后由人工对关键物体和区域进行画框精标。
值得注意的是,所有定位结果都会以结构化格式 : ...; (coordinates) 融入推理文本,从而实现语言与空间的对齐。
作为基础底座,在后训练阶段,RynnBrain展现了极强的泛化与下游任务适配能力。
在导航后训练中,团队基于导航SOTA模型StreamVLN的训练数据,微调了RynnBrain模型。
在架构完全不变的情况下,RynnBrain-Nav导航成功率比原来SOTA提升了2%-3%。
相较于Qwen3-VL,在相同的数据下微调,RynnBrain作为基础模型可以让导航能力额外提升5%。
这组数据有力证明了,RynnBrain在具身相关任务中预训练的作用巨大,拉高了后续微调模型的上限。
![]()
另外,在操作规划任务中,仅用几百条数据微调,RynnBrain-Plan-30B(A3B)便在域内和域外的任务上全面超越Gemini 3 Pro。
这恰恰充分体现了,论文中「文本与定位交错」规划方式,更适用于复杂多变的物理世界。
![]()
具身智能的赛道上,从不缺重量级玩家。但真正的变量,往往来自沉默的深耕者。
但实际上,早在2023年,这支团队便已在具身智能的深水区低调潜行,并构建起一套完整的技术版图。
![]()
它之于具身智能,恰如MCP之于AI智能体——在异构的数据、模型与机器人本体之间,构筑了一座无缝连接的桥梁。
目前,RynnRCP已成功适配Pi0、GR00T N1.5等热门模型及SO-100、SO-101等多款机械臂,生态朋友圈正在极速扩张。
老黄更是断言,AI与机器人的结合正在酝酿数万亿美金的机遇,是无可争议的下一个前沿。
![]()
一个能感知、推理、决策的具身大脑,是机器走向自主化的前提;而对硬件的精密控制、平台级的架构支撑、上下游的生态整合,则是让大脑落地的躯干。
正如PC时代的Windows、移动时Kaiyun官方入口代的Android,具身智能亟需一个统一的底层系统,来承载算法与硬件的复杂交互。
针对具身智能领域在「时空细粒度」任务上的空白,RynnBrain-Bench基准涵盖物体认知、空间认知、物体定位、具身点预测四大关键维度,重点考察模型对记忆视频序列的细粒度理解及精准时空定位能力。
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
冬奥会女选手夺冠时激动拉开上衣,露出内衣品牌,或将因此赚得100万美元!
巨大争议!加州80岁华裔老太太撞死苹果高管一家四口,迅速转移财产,仅缓刑+吊销驾照
6次化疗、19次放疗,知名女演员抗癌归来,第5次登上春晚,又出“名场面”
揭秘春晚“机器人蔡明” 公司负责人:蔡明脸好小,机器人尺寸压缩了30%
冬奥会女选手夺冠时激动拉开上衣,露出内衣品牌,或将因此赚得100万美元!
macOS Tahoe 26.4加入电池充电限制滑块 带来更精准的满电量控制
终于不用抢了!华为Mate 80 Pro开放购买:麒麟9030 Pro管够

