大洋彼岸的中国市场,GPU赛道正迎来爆发式冲刺——摩尔线程与沐曦均在6月30日递交A股科创板IPO招股书;另据路透社报道,壁仞科技近期完成新一轮15 亿元融资,计划三季度递交港股上市申请。
当算力巅峰与自主突围同步加速,这是否意味着AI产业的新周期已在开启临界点?
市场普遍认为,对英伟达芯片的需求“显然极为旺盛”,其产品是“AI进入下一发展阶段的必需品”。不过在上周的英伟达股东大会上,黄仁勋谈到算力的需求还在增长。他表示,推理需要更多计算,过去一年,Tokens生成激增了50-100倍,仅微软在上个季度就处理了超过100万亿的Tokens,是一年前的5倍。为了满足这种指数级的激增,大型AI工厂正在各地崛起。
关于未来,黄仁勋认为,英伟达在多个领域都有增长机会,AI和机器人技术是最大的两个机会,代表着数万亿美元级别的增长。
如今,英伟达早已远超单一的芯片供应商,不仅展现了在产业与地缘方面的双重影响力,同时也在深刻塑造全球科技格局。它虽然仍在设计芯片,但商业模式已发生转变:其完整的AI架构包括专有软件(CUDA)、网络基础设施(NVLink、Spectrum-X)、可扩展系统(MGX)以及企业解决方案(AI Enterprise、DGX Cloud等)。它不再只是芯片方案供应商,而是基础设施提供者。
最重要的是,其增长不再仅仅集中在超大规模企业(亚马逊、谷歌、Meta、微软),同时在扩展到新的集群:“主权”人工智能(阿联酋、沙特阿拉伯等)、二级云、工业公司、大学,甚至国防。
在美国市场,英伟达已经在支撑关键性的国家项目落地,深度参与美国“星门计划”,该项目被美国政府定位为“AI时代的曼哈顿计划”,旨在通过巨资投入巩固美国在AI领域的全球领导地位,项目规划建设25座超算中心,而英伟达的Blackwell架构GPU是目前“星门计划”数据中心的核心组件之一。
面向全球市场,英伟达已经展现了全球化基础设施的渗透能力。近年来,英伟达已经逐步成为北美、东亚、中东等地区国家级AI算力项目的核心合作伙伴,主导数据中心建设标准;并在新兴市场加速布局,协助日本等国建设本土AI云平台,输出从芯片到系统的端到端解决方案。
这种多样化的客户覆盖,增强了英伟达未来几年的收入可见性,并使周期不再依赖于通常的巨头企业的资本支出。
英伟达的登顶,也印证了AI产业的底层逻辑:唯有持续创造增量价值,才能撬动指数级影响力。4万亿市值的刻度之上,不仅是英伟达的里程碑,也是AI首次将智能产业规模化、工业化、货币化推至巅峰。
成立于2020年的摩尔线程,在短短几年间展现出强劲的增长势头:其营收从2022年的4608万元跃升至2024年的4.38亿元,复合增长率高达208.44%。 这种爆发式增长背后,是其对覆盖AI智算与图形渲染两大核心赛道的产品矩阵的快速构建。
该公司自主研发的MUSA统一计算架构是关键基石,不仅提供了高性能的并行计算能力,更在设计上兼容国际主流GPU生态,显著降低了开发者的迁移成本。这使得摩尔线程的产品能广泛应用于云端数据中心(如夸娥智算集群)和边缘终端(如AI PC、智能汽车),并在部分关键性能上展现出竞争力——其MTT S80显卡的单精度浮点算力已接近英伟达RTX 3060水平,基于MTT S5000构建的千卡集群效率甚至超越了同等规模的国外同代产品。
然而,高增长也伴随着高投入,摩尔线程近三年累计研发投入达38亿元,占同期累计营收比例高达626.03%,这也导致其归母净利润仍处于亏损状态(2024年为-14.92亿元),不过亏损幅度已呈现收窄趋势。 这清晰地体现了国产GPU企业当前“以研发换市场、以投入搏未来”的发展策略。
沐曦
另一家冲刺科创板的国产GPU企业沐曦,不同于摩尔线程的全功能GPU路线,目前主要专注于数据中心AI算力市场。 两家企业在GPU方面的不同路径,也被业界比喻为“瑞士军刀”和“手术刀”。
同样成立于2020年的沐曦,营收增长堪称“火箭式蹿升”:从2022年的42.64万元飙升至2024年的7.43亿元,三年复合增长率高达惊人的4074.52%。2025年第一季度营收已达3.20亿元,增长势头不减。
支撑这一爆发性增长的,是其清晰定位数据中心的三条核心产品线: 旗舰级“曦云C系列”聚焦AI训练与通用计算,已量产的训推一体芯片(如曦云C500/C550)具备强大的并行计算能力,并在多个智算中心规模化部署;面向AI推理的“曦思N系列”提供高算力与视频处理密度;而规划中的“曦彩G系列”则承载着未来向图形渲染领域拓展的蓝图。尤为关键的是,基于国产供应链的曦云C600已完成流片,标志着自主可控进程的深化。
技术壁垒的突破是其核心竞争力。 沐曦自研了统一计算平台及基础软件栈MXMACA,不仅提供全栈式高效开发工具,更在API层面高度兼容国际主流CUDA生态,显著降低应用迁移门槛。其产品性能已跻身国际同类型主流高端处理器水平:单卡性能国内领先;自研高带宽互连技术MetaXLink支撑的集群性能表现出色,是国内少数实现千卡集群大规模商业化落地的GPU供应商,并已成功支持百亿级MoE大模型全量预训练。
与摩尔线程相似,沐曦的高增长同样建立在巨额研发投入之上。 近三年累计研发投入达22亿元,占同期累计营收比例282.11%,这也导致其净利润仍处于深度亏损状态(2024年为-14.09亿元)。这也再次印证了国产高端GPU企业“以战略投入换取市场与技术突破”的普遍模式。
壁仞
酝酿IPO的还有壁仞。据路透社消息,壁仞科技近期完成了新一轮15亿元融资,并准备今年第三季度赴港交所申请上市,最快可能在8月。
这家成立于2019年的公司,专注于打造自主高性能通用GPU体系。其发展路径鲜明:聚焦云端通用智能计算,以“高性能计算(HPC)+特定领域优化”策略,寻求在AI训练/推理及图形渲染领域实现国产超越。
2022年是壁仞的里程碑之年: 3月成功点亮首款通用GPU芯片,刷新当时的国产算力纪录;8月正式发布BR100系列(含BR104和BR100),其单芯片峰值算力不仅达到PFLOPS(每秒千万亿次计算)级别,更宣称超越国际厂商在售旗舰产品算力三倍以上,标志着中国通用GPU正式迈入“每秒千万亿次计算”时代。
强劲的技术潜力吸引了雄厚资本支持。 公开信息显示,壁仞成立至今已完成8轮融资,总额超过50亿元人民币,投资方阵容堪称“豪华天团”,包括启明创投、IDG资本、高瓴创投、中国平安等顶级机构,这都为其业务发展和即将启动的港股IPO之旅奠定了坚实基础。
首先是推理型AI的需求激增。以GPT-4调用成本来估算,其API价格是纯文本输入每1000个prompt token定价0.03美元,每1000个completion token定价0.06美元。也就是说,每次调用GPT-4的成本取决于使用的token数量。这对企业级应用来说,每天的成本非常“可观”。例如,如果每次调用消耗1000个token,那么每次调用的成本为0.03美元(prompt)或0.06美元(completion)。如果日均消耗百万次,那么每日的成本将分别是3万美元(prompt)或6万美元(completion),这甚至可能成为企业AI商业化的生死线。
这一需求也在倒逼技术革新,催生稀疏计算与模型蒸馏等技术的爆发。目前已经看到,国产推理卡正在使用动态张量分解提升LLaMA-3、ResNet-50提升推理能效,前不久华为Cloudmatrix384超节点也公布了在推理成本方面的显著降低,这也印证了“降本即增长”商业逻辑。
其次,随着AI向边缘渗透,多元算力格局正加速成型。AI眼镜领域的爆发最具代表性,2025年Q1全球销量同比激增216%,中国市场以116%的增速领跑。更值得关注的趋势是它正在从极客玩具向生产力工具进化,这将带来更大的蓝海市场,以及对更高端芯片的需求,倒逼芯片向低功耗、高集成度(NPU+ISP融合)升级。
智能汽车也是边缘算力新高地。相关行业数据显示,2025年L2+渗透率有望实现翻倍提升,从2024年的14%快速提升到30%。同时,随着智能驾驶技术的普及和功能的增加,对域控制器的算力需求呈现出快速增长的趋势,包括高算力、高能效比、高实时响应能力等,正在重塑智驾算力的新体系。
此外,Agent应用打通终端价值闭环的愿景在逐步逼近。据OpenAI透露,GPT-5有望整合编程、搜索、分析、记忆四大Agent能力,实现“输入需求-输出结果”的零切换工作流,大大缩短企业项目周期。
在这一趋势下,AI将从对话交互转向自主执行,这一转变有望催生两类新型算力需求:
对于垂直行业来说,专用架构需求增长明显,因为金融合规审查、医疗诊断辅助等场景要求芯片能够高效处理非连续任务(动态稀疏计算),并支持毫秒级专业数据库调用(比如进行实时知识检索),传统通用GPU在高并发场景面临效率瓶颈,这恰恰是新的机会点。
同时,在AI Agent应用中,多个智能终端设备都是任务的执行节点,需构建跨硬件算力调度系统,确保端侧实时响应与云端模型优化协同运作。这也意味着,算力的实时响应能力与能效比会成为衡量价值的关键,毕竟每优化1%性能,可能就撬动对应行业的运营成本骤降。