2025 年 9 月,国内 AI 大模型领域迎来了一场技术风暴。美团与蚂蚁集团,两家科技巨头相继开源了其最新的、基于混合专家(MoE)架构的大语言模型 ——LongCat-Flash-Thinking 与 Ring-flash-2.0。这一系列动作,不仅在开源社区引发了热烈讨论,更清晰地标志着,AI 大模型的竞争焦点,已从过去单纯追求万亿参数的 “规模竞赛”,全面转向了对 “效能比” 的极致追求。

这场由 MoE 架构驱动的效能革命,正在深刻地改变着 AI 技术的应用范式和商业前景。

美团 LongCat 的技术路径:极致效率与 Agent 能力

美团于 9 月 22 日正式开源的 LongCat-Flash-Thinking,是一个总参数量高达 5600 亿的庞大模型。然而,其设计的精妙之处在于,通过 “零计算专家” 等创新设计,模型在处理任务时,动态激活的参数量仅在 186 亿至 313 亿之间。这意味着,它用远小于整体规模的计算量,实现了顶尖的性能表现。

这种高效能的背后,是美团自研的 DORA 异步弹性共卡训练系统。据其技术报告,该系统实现了相较于同步强化学习(RL)训练框架 3 倍以上的加速,在 30 天内即完成了超过 20 万亿 tokens 的训练。在推理端,其速度超过 100 Tokens Per Second (TPS),而每百万输出 tokens 的成本仅为 $0.70,实现了速度与经济性的高度统一。

更重要的是,LongCat 将这种高效能,聚焦于了下一代 AI 的核心能力 —— 智能体(Agent)。通过其创新的 “双路径推理框架”,模型能够自主筛选最优查询样本,并将智能体推理与代码执行器等外部工具相结合。在权威的 Agent 工具调用基准测试 τ²-Bench 中,LongCat 以 74.0 分刷新了开源模型的 SOTA(State-of-the-Art,即当前最佳水平)成绩,展现了其在理解复杂指令、并调用工具完成多步骤任务方面的强大能力。

蚂蚁 Ring-flash 的训练突破:攻克 MoE 与 RL 结合的世界级难题

紧随其后,蚂蚁百灵大模型团队于 9 月 19 日开源的 Ring-flash-2.0,则从另一个关键维度,推动了 MoE 架构的边界。它专注于攻克一个世界级的技术难题:如何在长思维链(Long-CoT)场景下,对 MoE 模型进行稳定、高效的强化学习(RL)训练。

MoE 模型虽然高效,但在 RL 训练中,由于其稀疏激活的特性,很容易出现梯度回传不稳定,导致训练在数百步后就 “奖励崩溃” 或梯度爆炸。蚂蚁团队独创的 “icepop” 算法,通过一种巧妙的 “双向截断 + 掩码修正” 机制,阻止了训推差异过大的 token 回传无效梯度,成功实现了 MoE 模型在长思维链 RL 任务上的持续稳定训练。

在效能方面,Ring-flash-2.0 同样出色。其总参数量为 1000 亿,但激活参数量仅为 61 亿,却能撬动约 400 亿参数稠密模型的性能。在硬件部署上,仅需 4 张 H20 GPU 即可实现超过 200 token/s 的吞吐量。

MoE 架构的胜利与开发者的选择

美团与蚂蚁的开源力作,共同指向了一个清晰的行业趋势:混合专家(MoE)架构,已成为实现大模型能力与成本效益平衡的最优解。

对于广大开发者和企业而言,这一趋势带来了前所未有的机遇。然而,层出不穷的先进 MoE 模型,也带来了新的选择难题。除了 LongCat 和 Ring-flash,市场上还有像 DeepSeek V3.1、Qwen3-Coder、GLM-4.5 等众多优秀的 MoE 模型,它们各有所长,适用于不同的应用场景。

要快速跟进并应用这些前沿模型,一个便捷、统一的接入平台至关重要。例如,通过七牛云 AI 大模型推理服务这样的平台,开发者可以省去为每个模型单独部署、配置和适配 API 的繁琐工作。这类平台通常会快速跟进业界的最新开源成果,并提供统一的 API 接口。开发者可以在一个地方,便捷地测试、对比和集成各种最先进的 MoE 模型,从而将主要精力聚焦于上层的应用创新。

美团和蚂蚁在 2025 年 9 月的接连开源,不仅是为社区贡献了两个强大的 AI 模型,更是吹响了 AI “效能革命” 的号角。这场革命的核心,是以 MoE 架构为代表的先进技术,让 AI 的能力不再是少数巨头的 “专利”,而是正在成为广大开发者触手可及的、兼具高性能与经济性的强大生产力工具。