Kaiyun(凯云)中国·官方网站

行业动态
NEWS
行业动态
NEWS
联系我们
Contact us

联系人: 张生

手机: 13845690023

电话: 0512-50135789

邮箱: 520233699@qq.com

地址: 江苏省苏州市姑苏区白洋湾街道朱家湾街8号2幢B座406区01室

公司动态

Mano-P:全球第一的端侧GUI智能体模型让AI在你的设备上替你操作电脑

作者:小编 点击: 发布时间:2026-04-17 19:20:09

  

Mano-P:全球第一的端侧GUI智能体模型让AI在你的设备上替你操作电脑(图1)

  AI for Personal——最懂你的 AI,只有你自己能造。2026 年 3 月,明略科技(港交所:在 GitHub 上开源了 Mano-P——一款专为边缘设备设计的 GUI 智能体模型,围绕隐私与个性化两大支柱,让每个人都能在自己的设备上拥有一双 AI 的手。72B 模型屠榜,4B 蒸馏版上机。Mano-P 在 OSWorld 基准测试中以 58.2% 的成功率拿下专用模型全球第一,领先第二名超过 13 个百分点,并在 WebRetriever 等多项评测中超越千亿参数级通用大模型。与当前主流的云端 GUI 智能体不同,Mano-P 可以完全在用户自己的 Mac 上本地运行,屏幕截图和任务数据不出设备。这款采用 Apache 2.0 协议的开源项目,正在重新定义 AI 操作电脑的方式。

  本地模式下所有推理在设备上完成,屏幕截图不出设备,支持完全离线 Pro 上峰值内存仅 4.3GB,预填充 476 tokens/s——一台 MacBook 就能流畅运行

  三种使用形式(命令行/SDK/Agent Skill)覆盖开发者到普通用户全场景

  Apache 2.0 开源协议,三阶段逐步释放完整技术栈——从 CUA Skills 到本地模型 + SDK 到训练方法 + 剪枝量化技术

  Mano-P 是明略科技推出的开源 GUI 智能体模型。Mano 是西班牙语里“手”的意思,P 有两重含义:Person(个体)与 Party(组织)——我们相信,无论个人还是企业,都能够创造属于自己的个性化 AI。其三阶段开源计划正在逐步释放完整的技术栈:Phase 1 开源 CUA Skills,Phase 2 开源本地模型 + Python SDK,Phase 3 开源训练方法 + 剪枝量化技术。

  一句话概括:Mano-P 是一双 AI 的手,能像人类一样看屏幕、理解界面、操作电脑,而且完全跑在你自己的设备上。

  Mano-P 不是一个概念产品——它的能力经过了权威基准测试的严格验证。

  处理高分辨率屏幕截图时,Mano-P 智能识别关键信息——保留界面结构骨架和重要 UI 元素,将视觉 Token 压缩至 12.57%。打个比方:看一张复杂的屏幕截图,普通模型会逐像素地“读”完整张图,而 Mano-P 只看最重要的 13%——按钮在哪、输入框在哪、当前选中了什么——推理速度提升数倍,任务成功率几乎不受影响。

  用更紧凑的方式存储模型——权重用 4bit 存储,激活值保留 16bit。效果:

  峰值内存:4.3GB(MacBook 32GB 内存绰绰有余,跑 AI 的同时还能正常办公)

  预填充速度:476 tokens/s(每秒吐出约 300-400 个中文字,回答几乎瞬间出现)

  传统模型只做单向学习——你告诉它“点击登录按钮”,它学会去找登录按钮。Mano-P 同时训练两个方向:“描述→定位和定位→描述”,通过循环一致性互相验证——既能根据指令找到按钮,也能看到按钮说出它是什么。配合三阶段渐进训练(SFT → 离线 RL → 在线 RL),模型从“背操作手册”进化到“真正学会操作界面”。

  ”。这没错,但更根本的原因是:云端 AI 不可能真正“主动”帮你。真正有用的 AI 助手应该是主动的——自己发现你有个会议快开了,自动帮你准备资料;看到你收到一封重要邮件,自动提醒你;发现常用的系统数据有异常,主动去核查。但这种“主动性”意味着 AI 要不停地自发运算——每隔几分钟检查一次邮箱、日历、文件。

  在云端,每一次运算都消耗平台的算力和费用。一个用户一天可能产生上千次自发调用,乘以几百万用户,服务Kaiyun器费用爆炸。所以云端平台必然限制 AI 的主动性——不让它太频繁地自己动,因为每“主动”一次就是在烧平台的钱。

  端侧模型从根本上解决了这个问题:AI 跑在你自己的设备上,用的是你自己的芯片和电。 它主动跑一万次也不花平台一分钱。这才是线 贴身 AI 助手的唯一解。

  Mano-P 提供本地模式和云端模式两种推理方式。核心差异在于数据流向:

  ,实时显示任务进度。敏感操作执行前会要求用户确认——AI 干活,人类监督。

  系统接收自然语言需求后,自动完成需求澄清 → 技术架构设计 → 代码生成 → 本地部署 → 多层测试(API 测试 + 视觉检测 + 端到端 GUI 自动化测试)。测试不通过时自动定位根因、修复代码、重新部署。全流程无需人工干预。

  从下发指令到视频生成、上传、分析、剪辑、二次评测的完Kaiyun整工作流。系统自主操作网页与剪辑软件,完成文件处理、字幕修改等精细操作,生成包含主客观指标的分析报告。

  支持 100+ 步骤的企业级业务流程自动化,包括跨应用数据录入、系统间信息迁移、批量文档处理等复杂任务,全程无需联网。

  Mano-P 采用 Apache 2.0 开源协议——宽松且附带专利保护的开源协议,任何人和企业都可以自由使用、修改和商用,无传染性限制,且自动授予专利许可——企业用了不会被专利诉讼。对投资人来说,这意味着生态壁垒不靠法律锁定,而靠技术领先和社区信任。

  分三个阶段渐进开放完整技术栈。其三阶段开源计划正在逐步释放完整的技术栈:

  芯片边缘设备上本地运行。它使用纯视觉理解来跨平台自动化桌面 GUI 操作。P 代表 Person(个体)与 Party(组织)——无论个人还是企业,都能够创造属于自己的个性化 AI。

  可以! 在本地模式下,所有模型推理都在 Apple M4 设备上运行。不会向外部服务器发送任何截图或任务描述。

  要求。适合高安全需求场景和需要 AI 主动服务的场景。(文章来源:界面新闻)


相关标签:
热门产品