首页 > 行业动态 > 行业资讯

行业动态

NEWS

行业动态

NEWS

联系我们

联系人：张生

手机： 13845690023

电话： 0512-50135789

邮箱： 520233699@qq.com

地址：江苏省苏州市姑苏区白洋湾街道朱家湾街8号2幢B座406区01室

行业资讯

机器人长出800个心眼？阿里达摩院开源具身新大脑硅谷又坐不住了

作者：小编点击：发布时间：2026-02-17 21:24:24

　　【新智元导读】硅谷还在苦等真机数据，中国队已先一步交卷。RynnBrain大脑横空出世，通用具身智能时刻更近了。

　　1X就祭出了1XWM「世界模型」，让NEO在脑内学会模拟现实，把视频生成内化为肌肉记忆；

　　而Figure更是通过下一代神经网络Helix 02让Figure 03实现了「全身协同运动」，行走、操作与平衡从此无缝融合。

　　比如，这个机器人正忙着给桌上的食物分类，半路突然杀出一个「请帮我拿个面包」的指令。

　　更有意思的是，哪怕你当着它的面把盘子移走，它也能实时调整路径，坚持「物归原位」。

机器人长出800个心眼？阿里达摩院开源具身新大脑硅谷又坐不住了(图1)

　　机器人一眼扫过配料表和文字标签，大脑迅速计算，立马就能精准找出最合适的那一个。

机器人长出800个心眼？阿里达摩院开源具身新大脑硅谷又坐不住了(图2)

　　有趣的是，机器人凭借着「空间规划」与「长程规划」的能力，给出了一个绝妙的解法——「叠罗汉」。

机器人长出800个心眼？阿里达摩院开源具身新大脑硅谷又坐不住了(图3)

机器人长出800个心眼？阿里达摩院开源具身新大脑硅谷又坐不住了(图4)

　　Figure、π、Covariant押注的这条路最为火热，主张用一个模型从感知直通动作。

　　在英伟达杰出科学家Jim Fan看来，2026年将是「大世界模型」（LWM）为机器人乃至多模态AI奠定基础的真正元年。

　　基于本身就具有泛化能力的VLM（视觉-语言模型），进一步造出通向物理世界的「具身大脑」。

　　这种架构巧妙利用了VLM海量数据的泛化优势，同时通过「空间定位」让思考过程落地，解决了以往模型只会在脑子里「空想」的幻觉问题。

　　开篇一些惊艳演示，正是来自这第三条路线的最新破局者——阿里达摩院刚刚亮出的RynnBrain。

　　在这场通往通用机器人的马拉松里，最优解虽未落定，但阿里达摩院已在无人区迈出了关键一步。

　　要造「大脑」，得先解决一个更基础、却也更棘手的问题：如何让机器真正「看懂」物理世界？

　　现有的大模型虽然能用诗意的语言描述图像，却对物理世界中物体的材质（是软是硬？）、功能（能坐还是能开？）、真实尺度（多高多宽？）完全「摸不透」。

机器人长出800个心眼？阿里达摩院开源具身新大脑硅谷又坐不住了(图10)

　　这种设计让模型不再局限于笼统地「看图说话」，而是具备了区域级别的视频交互能力，能够精准锁定局部物体。

　　为了训练这双「眼睛」，团队设计了一套如同人类认知课程般的四阶段训练范式，从最基础的掩码对齐开始，逐步注入颜色、材质等物体属性知识，再进阶到距离、方位等空间推理，最后通过指代分割防止遗忘。

　　经过这套严苛课程的「特训」，RynnEC不仅能回答关于物体属性的复杂问题，还能在视频Kaiyun官方入口流中实时生成分割掩码，真正理解了物理世界的几何与语义。

　　RynnBrain正是继承了RynnEC这双「火眼金睛」的数据和能力，并在此基础上长出了负责逻辑推理和时空规划的「大脑」。

　　在拥有了极致的感知后，RynnBrain在模型架构上选择了「效率至上」。

　　它基于Qwen3-VL底座，使用自研RynnScale架构，让Dense模型和MOE模型训练加速两倍。

　　尤其是，MoE架构的RynnBrain，仅用3B推理激活参数，性能全面超越Pelican-VL（72B）巨型模型。

　　针对传统大模型在物理世界中「看不准」和「记不住」的痛点，RynnBrain引入了两项关键技术：

　　举个栗子，让机器人去厨房拿可乐，结果刚转个身，就忘了厨房门在哪，或者忘了刚才看见的可乐在桌子左边还是右边。

　　这种能力让机器人能够在完整的历史记忆中建立起涵盖空间、位置、事件、轨迹等多维度的三维认知表征，而不仅仅是简单地批处理历史图像。

　　通过这种深度的时空建模，模型能够在当前视野受限的情况下，精准定位历史画面中出现过的物体或目标区域。

　　甚至在复杂的动态环境中，它还能基于历史信息预测运动轨迹，赋予了机器人一种类似「心眼」的能力，即便转过身去，依然能在脑海中清晰地构建出周围环境的完整地图，从而实现可靠的全局回溯。

　　RynnBrain抛弃了纯文本推理范式，采用了一种「文本与空间定位交错」的策略。

　　模型在输出推理文本的过程中，必须将提到的物体或区域与视频流中的具体像素位置进行强制绑定（Grounding）。

　　这种「言必有据」的机制充当了一个严厉的考官，迫使推理过程紧密扎根于物理环境，从而极大地抑制了纯文本模型中常见的物理幻觉问题，确保了每一个指令都是可执行、可验证的。

　　为此，RynnBrain构建了庞大的数据工程，在预训练阶段，采用了2000万高质量数据对。

　　具身认知数据：复用自研RynnEC训练数据，并引入Sensenova-SI、VSI-590k、Molmo2提高模型的空间理解和动态计数能力，以及自生成100万自我为中心的OCR问答数据。

　　具身定位数据：五大定位任务分别标注大量视频和图像数据，分别为：物体定位、区域定位、操作点定位、轨迹定位和夹爪位姿定位。

　　规划数据：导航和操作两类数据，前者使用R2R和RxR数据和ScaleVLN的开源数据，后者数据来自OpenX-Embodiment和AGIBot。

　　利用Gemini 2.5 Pro生成初步推理链，GPT-4o-mini进行实体分类，最后由人工对关键物体和区域进行画框精标。

　　值得注意的是，所有定位结果都会以结构化格式 : ...; (coordinates) 融入推理文本，从而实现语言与空间的对齐。

　　作为基础底座，在后训练阶段，RynnBrain展现了极强的泛化与下游任务适配能力。

　　在导航后训练中，团队基于导航SOTA模型StreamVLN的训练数据，微调了RynnBrain模型。

　　在架构完全不变的情况下，RynnBrain-Nav导航成功率比原来SOTA提升了2%-3%。

　　相较于Qwen3-VL，在相同的数据下微调，RynnBrain作为基础模型可以让导航能力额外提升5%。

　　这组数据有力证明了，RynnBrain在具身相关任务中预训练的作用巨大，拉高了后续微调模型的上限。

　　另外，在操作规划任务中，仅用几百条数据微调，RynnBrain-Plan-30B(A3B)便在域内和域外的任务上全面超越Gemini 3 Pro。

　　这恰恰充分体现了，论文中「文本与定位交错」规划方式，更适用于复杂多变的物理世界。

　　具身智能的赛道上，从不缺重量级玩家。但真正的变量，往往来自沉默的深耕者。

　　但实际上，早在2023年，这支团队便已在具身智能的深水区低调潜行，并构建起一套完整的技术版图。

　　它之于具身智能，恰如MCP之于AI智能体——在异构的数据、模型与机器人本体之间，构筑了一座无缝连接的桥梁。

　　目前，RynnRCP已成功适配Pi0、GR00T N1.5等热门模型及SO-100、SO-101等多款机械臂，生态朋友圈正在极速扩张。

　　老黄更是断言，AI与机器人的结合正在酝酿数万亿美金的机遇，是无可争议的下一个前沿。

　　一个能感知、推理、决策的具身大脑，是机器走向自主化的前提；而对硬件的精密控制、平台级的架构支撑、上下游的生态整合，则是让大脑落地的躯干。

　　正如PC时代的Windows、移动时 Kaiyun官方入口代的Android，具身智能亟需一个统一的底层系统，来承载算法与硬件的复杂交互。

　　针对具身智能领域在「时空细粒度」任务上的空白，RynnBrain-Bench基准涵盖物体认知、空间认知、物体定位、具身点预测四大关键维度，重点考察模型对记忆视频序列的细粒度理解及精准时空定位能力。

　　特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

　　冬奥会女选手夺冠时激动拉开上衣，露出内衣品牌，或将因此赚得100万美元！

　　巨大争议！加州80岁华裔老太太撞死苹果高管一家四口，迅速转移财产，仅缓刑+吊销驾照

　　6次化疗、19次放疗，知名女演员抗癌归来，第5次登上春晚，又出“名场面”

　　揭秘春晚“机器人蔡明” 公司负责人：蔡明脸好小，机器人尺寸压缩了30%

　　冬奥会女选手夺冠时激动拉开上衣，露出内衣品牌，或将因此赚得100万美元！

　　macOS Tahoe 26.4加入电池充电限制滑块带来更精准的满电量控制

　　终于不用抢了！华为Mate 80 Pro开放购买：麒麟9030 Pro管够

Kaiyun（凯云）中国·官方网站

机器人长出800个心眼？阿里达摩院开源具身新大脑硅谷又坐不住了