首个面向科学任务、真实交互、自动评估的多模态智能体评测环境

2025-06-26

第一作者孙秋实是香港大学计算与数据科学学院博士生，硕士毕业于新加坡国立大学数据科学系。主要研究方向为 Computer-using agents 和 Code intelligence，在 NLP 和 ML 顶会 ACL，EMNLP，ICLR，COLM 等发表多篇论文。本文的 OS-Copilot 团队此前已发布了 OS-Atlas、OS-Genesis 和 SeeClick 等同系列电脑智能体研究成果，被广泛应用于学术界与产业实践中。

用于辅助科学研究的大模型智能体，正在悄然发生变化

1 背景与动机

过去几年，随着 LLMs 和 VLMs 的飞速进步，我们见证了 AI 在自然语言处理、编程、图像理解等领域的广泛应用。而在科学研究这一关乎人类知识积累的关键场域，基于这些强大模型的智能体正悄然成为科研工作流的 “新型合作者”。

在早期，AI 在科学中的角色往往是 “分析器”—— 帮助分析数据、撰写文献、生成图表。但随着电脑智能体（Computer-Using Agents，也称 CUA）的出现，这一角色正在发生根本性转变。相比于传统的语言模型助手，这类智能体能够像人类一样操作计算机，通过图形界面点击、拖拽、输入命令，或是编写程序完成计算任务，完成对真实科研软件的自动化控制。这意味着，它们不再只是回答问题，而是在主动与你一起完成科学任务，成为具备 “执行能力” 的 AI 合作者。

页码:下一页

最新文章

奔驰E级价格“大跳水”！跌至31.98万起，30天卖9524辆

阅读国内新能源汽车发展的如火如荼，对于合资汽车品牌造成了很大的冲击，不过相对来说，国产新能源汽车对于豪车市场的冲击 […]

Meta重组AI业务成立超级智能实验室，豪华阵容曝光

阅读当地时间6月30日消息，Meta首席执行官马克·扎克伯格宣布对公司人工智能业务进行重大重组，成立全新机构Met […]

这家电池回收公司现在正在为AI数据中心清洁供电

阅读在内华达州里诺郊外的一个沙地工业区，一排排曾经驱动电动汽车的电池组现在正在为一个小型 AI 数据中心供电。本 […]

特斯拉Robotaxi登场：首日低调运营，未来扩张挑战重重？

阅读美东时间6月22日周日，特斯拉备受瞩目的自动驾驶出租车Robotaxi在德克萨斯州奥斯汀正式启动试点。然而，此 […]

微软推出新一代Surface Laptop与Surface Pro

阅读7月1日上午消息，微软中国今日宣布，全新Surface Laptop，13英寸和Surface Pro，12英 […]