人人拥有贾维斯?浙大团队OS Agents综述讲明白了

学术头条·2025年08月19日 20:06
一文读懂。

图|OS Agents 领域在近些年的发展进程,包括基础模型、Agent 框架、基准测试和产品等。

在过去的一年里,人工智能(AI)领域出现了一个格外引人关注的新方向——OS Agents。它指的是能够直接在电脑、手机、浏览器,甚至各种设备上帮你“动手”的智能体(agent)。

例如,它可以替你点奶茶、填表格、订机票,真正把指令变成行动。相比偏聊天的 Chatbot,OS Agents 让“能干活的助手”变得越来越真实。

OS Agents 代表了 AI 行业发展的下一个趋势:AI 不再只停留在回答层面,而是逐步走向“全能操作员”。未来,也许每个人都能拥有一个属于自己的 AI 操作系统,帮你跨平台完成各种任务,让生活和工作效率都翻倍。

此前,浙江大学团队及其合作者发表了一篇关于 OS Agents 的综述,近期又在预印本网站 arXiv 上发布。这篇综述文章颇具价值。对于想紧跟 AI 发展趋势的你来说,是个不错的“入门读物”。分享给大家。

该综述详细介绍了基于多模态大语言模型(MLLM)的 Agent 如何在不同平台和任务环境中发挥其潜力,揭示了当前面临的技术瓶颈和未来发展方向。

论文链接:https://arxiv.org/abs/2508.04482

我们离JARVIS还有多远?

构建一个类似于漫威电影《钢铁侠》中 J.A.R.V.I.S. 的超级智能 AI 助手——能够协助 Tony Stark 操控各种系统、自动完成任务——是我们无数人的梦想。

在 AI 行业,类似这样的实体被称为 OS Agents,它们通过操作系统提供的环境与界面(如图形用户界面 GUI),使用计算设备(如计算机和移动终端)完成任务。OS Agents 能够自主执行操作,或可提升全球数十亿用户的生活质量。

试想一个由 Agents 无缝完成诸如网购、行程安排等日常事务的世界,这将极大提高人们的效率与生产力。

在过去,Siri、Google Assistant 等虚拟助手已初步展示了这类潜力,但由于模型能力受限,缺乏上下文理解能力,这些产品并不具备完整功能,且尚未被广泛应用。

幸运的是,近年来 MLLM 的快速发展,为 OS Agents 的实现提供了新的可能性。这些模型具备强大的理解与生成能力,使 OS Agents 更加擅长理解复杂任务,并能够操控计算设备予以执行。

OS Agents是什么?

OS Agents 能够利用操作系统提供的环境、输入和输出接口,通常通过计算设备来响应用户设定的目标。它们的核心设计目标是自动化执行操作系统内部的任务,并依靠 MLLM 的理解与生成能力,从而提升用户体验感和操作效率。

为实现这一目标,OS Agents 构建在三个关键组成部分之上:环境、观察空间和动作空间,这三者共同支持 Agents 与操作系统之间的高效交互。

环境,是指 OS Agents 运行的平台或系统,可以是桌面操作系统、移动端或网页端。这些环境涵盖了各种任务,要求 Agents 在多个界面之间进行规划和推理。

观察空间,是指 OS Agents 能够访问的系统状态和用户活动信息, Agents 通过这些观察结果来理解环境、做出明智决策,并决定如何执行合适的行动以达成用户设定的目标。

动作空间,则定义了 OS Agents 通过操作系统输入接口操控环境的所有交互方式。

此外,OS Agents 还需具备三项核心能力:理解、规划和 grounding。这些能力使得它们能够理解任务需求、制定行动策略,并在操作环境中有效执行具体操作。

理解,是 OS Agents 的一项关键能力,它要求 Agents 理解复杂的操作系统环境。这种能力不仅对信息检索任务至关重要,也是执行其他各类任务的前提。

规划,是 OS Agents 的基础能力,它使 Agents 能够将复杂的任务分解为可管理的子任务,并制定行动序列以实现具体目标。

grounding,是一种将文本指令或计划转化为操作环境中可执行的具体动作的能力。

图|OS Agents 的基础原理。

构建“能用”的OS Agents

为 OS Agents 构建基础模型主要涉及两个关键方面:模型架构训练策略。模型架构决定了模型在操作系统环境中如何处理输入与输出,而训练策略则赋予模型完成复杂任务的能力。

图|在基础模型构建中应用的训练策略

这些训练策略主要包括预训练、有监督微调强化学习。近期基础模型中用于 OS Agents 的架构和训练策略如下:

图|OS Agents 基础模型。Arch:架构,Exist:现有,Mod:修改,Concat:拼接,PT:预训练,SFT:监督微调,RL:强化学习

OS Agents 框架通常由四个核心组件构成:感知、规划、记忆和行动。其中,感知模块负责收集并分析环境信息;规划模块负责任务分解和行动序列的生成;记忆模块用于信息存储和经验积累;而行动模块则负责执行特定的操作指令。

所有这些组件共同协作,使得 OS Agents 能够具备理解、规划、记忆并与操作系统进行有效交互的完整能力。

OS Agents 框架在这四个核心模块的基础上,具有一定的技术特征和其具体的实现方式。

图|用于 OS Agents 的 Agents 框架,TD:文本描述,GS:GUI 屏幕截图,VG:视觉定位,SG:语义定位,DG:双重定位,GL:全局,IT:迭代,AE:自动化探索,EA:经验增强,MA:管理,IO:输入操作,NO:导航操作,EO:扩展操作。

评估在 OS Agents 的开发过程中起着至关重要的作用,因为它有助于衡量 Agents 在不同场景中的表现和有效性。当前文献采用了多种评估技术,这些技术根据具体环境和应用的不同而有所变化。

OS Agents 评估的关键在于评估原则和评估方法。评估需要多方面和多技术的结合,以全面了解 Agents 的能力与局限性。评估过程主要分为客观评估和主观评估。

OS Agent 的评估过程主要考察其理解、规划和 grounding 方面的能力。

为了全面评估 OS Agents 的性能和能力,研究人员开发了多种基准测试。这些基准测试基于不同的平台和配置,构建了多样的评估环境,并涵盖了各种任务类型。

图|OS Agents 基准测试

挑战与未来

尽管 OS Agents 已取得了令人瞩目的进展,但该领域仍然面临诸多挑战,需要进一步的研究与改进。

安全是 OS Agents 落地过程中必须慎重考虑的关键问题。学术界已经开始研究针对 OS Agents 的对抗攻击,一些研究者也着手构建 LLM Agents 的安全框架与策略。未来的研究应集中于为 OS Agents 开发全面且可扩展的安全解决方案。除了安全,隐私也是不容忽视的因素。

正如电影中钢铁侠的 Jarvis 根据 Tony Stark 的偏好提供量身定制服务一样,开发个性化的 OS Agents 同样是 AI 研究的一个长期目标。目前,一些大型模型(如 OpenAI 的新功能 memory)已开始朝这个方向迈进,赋予模型“记住”的能力。然而,总体而言,多数(M)LLM 在提供个性化体验和在用户交互中的自我进化能力上仍显不足。

此外,将记忆的模态从文本扩展到其他形式,如图像、语音,以及如何有效地管理和检索这些记忆也是目前面临的重大挑战

研究人员相信,未来如果能够克服这些挑战,OS Agents 将能够提供更加个性化、动态且具上下文感知能力的帮助。同时,这些 Agents 还将具备更复杂的自我进化机制,能够持续适应用户的需求和偏好。

MLLM 的快速发展为 OS Agents 开辟了新的机会,使得“人人拥有贾维斯”的梦想离我们更近。

本文来自微信公众号 “学术头条”(ID:SciTouTiao),作者:学术头条,36氪经授权发布。

+1
1

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000
36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业