返回 科技讯息
   

DeepResearch震撼发布!性能比肩OpenAI

2025-09-18

相比于海外的旗舰模型昂贵和限制的调用,通义 DeepResearch 团队做到了完全开源!开源模型,开源框架,开源方案!在 Humanity’s Last Exam、BrowseComp、BrowseComp-ZH、GAIA、xbench-DeepSearch, WebWalkerQA 以及 FRAMES 等多个 Benchmark 上,相比于基于基础模型的 ReAct Agent 和闭源 Deep Research Agent,其 30B-A3B 轻量级 tongyi  DeepResearch,达到了 SOTA 效果。

通义 DeepResearch 团队也在 Blog 和 Github 完整分享了一套可落地的 DeepResearch Agent 构建方法论,系统性地覆盖了从数据合成、Agentic 增量预训练 (CPT)、有监督微调 (SFT) 冷启动,到强化学习 (RL) 的端到端全流程。尤其在 RL 阶段,该团队提供了集算法创新、自动化数据构建与高稳定性基础设施于一体的全栈式解决方案。在推理层面,模型展现出双重优势:基础的 ReAct 模式无需提示工程即可充分释放模型固有能力;而深度模式 (test-time scaling) 则进一步探索了其在复杂推理与规划能力上的上限。

1 数据策略:基于全合成数据的增量预训练和后训练

模型能力的提升,主要得益于通义 DeepResearch 团队设计的一套多阶段数据策略。这个策略的核心目标是,不依赖昂贵的人工标注,也能大规模地生成高质量的训练数据。

1.1 增量预训练数据

团队引入了 Agentic CPT(增量预训练)来为模型打下坚实的 Agent 基础。为此,开发了一个系统化、可扩展的数据合成方案。它能利用后续训练流程产生的数据,形成一个数据生成的正向循环。

最新文章

京东成iPhone 17首选渠道 64%消费者认为其货量最足

推荐

 

阅读9月12日,iPhone  17系列正式开启预购,Apple官网不出意外地陷入拥堵状态。据Apple产品京东自 […]

科技媒体 Appleinsider 昨日(9 月 15 日)发布博文

推荐

 

阅读IT之家 9 月 16 日消息,科技媒体 Appleinsider 昨日(9 月 15 日)发布博文,评测了适 […]

AMD发布RX 7700显卡:16GB显存加持

推荐

 

阅读9月19日,随着新版驱动软件Adrenalin Edition 25.9.2的推出,AMD正式为采用“RDNA […]

今年新势力销售版图当中最大的变化,莫过于零跑登顶

推荐

 

阅读零跑创始人朱江明出身中电科系,自身对电控架构和系统集成有很深的理解(他本人应该有大量的工程师实践经验)。有舆论 […]

Meta Connect 2025:智能眼镜迈向“超智能”时代

推荐

 

阅读美国当地时间9月17日,Meta在加州举行的年度Meta Connect大会上发布了多款全新智能眼镜产品和配件 […]