
阿里发布万亿参数AI数学竞赛拿满分,中国AI这次真遥遥领先了?
2025年9月24日,在杭州云栖大会上,阿里巴巴正式发布了其首个参数量超过一万亿的旗舰级大型语言模型——Qwen3-Max。紧随其后,一个更令人震撼的消息传来:其推理增强版本,在两项国际顶级的数学竞赛基准测试中,取得了国内首次满分100%的突破性成绩。
这一系列成就,迅速在全球科技界引发热议。从LMArena文本排行榜上稳居全球前三,到在编程、Agent能力等多个核心维度上展现出世界顶级的性能,Qwen3-Max的横空出世,让一个激动人心的问题再次被摆上台面:中国AI,这次真的实现遥遥领先了吗?
解构万亿参数背后的硬实力
要回答这个问题,我们必须首先深入解构Qwen3-Max的“硬实力”。其强大的性能,并非简单的参数堆砌,而是源于其在模型架构和训练方法上的多项创新。
● 超大规模与效率。模型参数量超过一万亿,预训练数据量高达36T tokens。为了驾驭如此庞大的规模,Qwen3-Max采用了先进的混合专家(MoE)架构。可以将其理解为一个由无数“专家”组成的庞大团队,在处理一个特定任务时,系统只会智能地激活最相关的“专家”组进行工作。这种设计,在实现巨大模型容量的同时,也保证了推理的高效性。
● 极限的推理能力。其推理增强版本Qwen3-Max-Thinking之所以能在AIME 25和HMMT(哈佛-MIT数学竞赛)这两大顶级数学竞赛中取得满分,其核心秘诀在于集成了代码解释器。这意味着,模型在解决复杂的数学问题时,不再仅仅依赖于语言的逻辑推演,而是学会了像人类数学家一样,通过编写和执行代码来进行精确的计算和验证。这种“语言+代码”的双重推理能力,是其实现极限数学性能的关键。
● 强大的智能体(Agent)能力。一个AI Agent,可以理解为一个能够自主理解任务、规划步骤、并调用工具来完成工作的“数字员工”。Qwen3-Max-Instruct版本,在衡量Agent工具调用能力的权威基准Tau2-Bench测试中,取得了74.8分的成绩,超越了众多国际顶级模型。这表明,它已经具备了成为强大AI Agent“大脑”的核心潜力。
从“遥遥领先”到“并驾齐驱”
那么,这是否就意味着中国AI已经全面超越、遥遥领先了呢?
从Qwen3-Max的表现来看,更准确的描述或许是,中国AI在基础大模型领域,已经成功地从过去的“跟跑者”,进化为了与世界顶尖水平“并驾齐驱”的“并跑者”。
在编程能力(SWE-Bench 69.6分)、Agent能力(Tau2-Bench 74.8分)以及极限数学推理(AIME 100分)等多个关键的、代表模型“智商”上限的维度上,Qwen3-Max已经展现出了毫不逊色甚至在部分领域领先的实力。
然而,我们也需要清醒地认识到,一个AI生态的强大,不仅取决于最顶尖的旗舰模型,更取决于其开源生态的繁荣程度、开发者社区的活跃度、以及商业化落地的广度与深度。阿里巴巴自身也强调,将坚定地通过开源开放,打造“AI时代的Android系统”。
Qwen3-Max的发布,无疑是中国AI发展史上一个极其重要的里程碑。它用无可辩驳的数据和性能,证明了中国AI技术力量已经稳居全球第一梯队。
或许,“谁遥遥领先”的讨论,在飞速迭代的技术浪潮中,并没有一个永恒的答案。但可以确定的是,一个由中美两国共同引领、相互竞争、相互促进的全球AI新格局,已经形成。而对于我们每一个人而言,这场竞争带来的,将是一个AI能力更强大、应用更丰富、也更触手可及的智能新未来。