
第一作者孙秋实是香港大学计算与数据科学学院博士生,硕士毕业于新加坡国立大学数据科学系。主要研究方向为 Computer-using agents 和 Code intelligence,在 NLP 和 ML 顶会 ACL,EMNLP,ICLR,COLM 等发表多篇论文。本文的 OS-Copilot 团队此前已发布了 OS-Atlas、OS-Genesis 和 SeeClick 等同系列电脑智能体研究成果,被广泛应用于学术界与产业实践中。
用于辅助科学研究的大模型智能体,正在悄然发生变化
1 背景与动机
过去几年,随着 LLMs 和 VLMs 的飞速进步,我们见证了 AI 在自然语言处理、编程、图像理解等领域的广泛应用。而在科学研究这一关乎人类知识积累的关键场域,基于这些强大模型的智能体正悄然成为科研工作流的 “新型合作者”。
在早期,AI 在科学中的角色往往是 “分析器”—— 帮助分析数据、撰写文献、生成图表。但随着电脑智能体(Computer-Using Agents,也称 CUA)的出现,这一角色正在发生根本性转变。相比于传统的语言模型助手,这类智能体能够像人类一样操作计算机,通过图形界面点击、拖拽、输入命令,或是编写程序完成计算任务,完成对真实科研软件的自动化控制。这意味着,它们不再只是回答问题,而是在主动与你一起完成科学任务,成为具备 “执行能力” 的 AI 合作者。