蚂蚁集团百灵大模型 Ling-2.6-flash 发布，匿名上线一周日均 tokens 调用达 100B 级

报道介绍了蚂蚁集团百灵大模型发布的 Instruct 模型 Ling-2.6-flash（总参数量 104B、激活参数 7.4B），并披露其匿名测试版本“Elephant Alpha”在 OpenRouter 上的高调用量表现。文章重点说明该模型通过混合线性架构提升推理效率（4 卡 H20 下最高 340 tokens/s、Prefill 吞吐为 Nemotron-3-Super 的 2.2 倍）、在训练中优化 Token 效率以降低实际消耗（在 Artificial Analysis 评测中仅用 15M tokens，约为同类模型的 1/10）、以及针对 Agent 场景增强工具调用、多步规划与任务执行能力，取得多项基准接近或达 SOTA 的成绩。文中还提及限时免费 API 调用、后续按量计费策略（OpenRouter 与官方平台的不同定价与免费额度）及即将开源的 BF16/FP8/INT4 等版本。

4 月 22 日消息，蚂蚁集团旗下的百灵大模型今日宣布，推出一款总参数量 104B 、 激活参数 7.4B 的 Instruct 模型 Ling-2.6-flash 。

一周前，代号为 Elephant Alpha 的匿名模型登陆 OpenRouter。上线以来，其调用量持续增长，连续多日位列 Trending 榜首，日均 tokens 调用量达 100B 级别。百灵大模型今日宣布 Elephant Alpha 正是百灵模型 Ling-2.6-flash 的匿名测试版本。

官方表示，面对持续攀升的 Token 压力，Ling-2.6-flash 选择了一条不同的技术路径：不是单纯依赖更长输出换取更高分数，而是围绕推理效率 、Token 效率与 Agent 场景表现进行系统性优化，在保持竞争力智能水平的同时，尽可能做到更快、更省和更适合真实业务场景。

Ling-2.6-flash 的核心能力体现在三个方面：

**混合线性架构，释放推理效率：**通过引入混合线性架构，模型从底层优化计算效率，在 4 卡 H20 条件下推理速度最快可达到 340 tokens/s，Prefill 吞吐达到 Nemotron-3-Super 的 2.2 倍
**Token 效率优化，提升智效比：**在训练过程中对 Token 效率进行了针对性校准，力求以更精简的输出完成既定目标。在 Artificial Analysis 的完整评测中，Ling-2.6-flash 仅消耗 15M tokens，约为 Nemotron-3-Super 等模型的 1/10
**面向 Agent 场景进行定向增强：**针对当前需求最旺盛的 Agent 应用，在工具调用、多步规划与任务执行能力上持续打磨，使模型在 BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench 等评测中，即使面对激活参数更大的模型，依然能够取得相近甚至 SOTA 级别的表现

▲ Ling-2.6-flash 在 Agent 相关基准上达到同尺寸 SOTA 水平

为方便更多开发者快速体验 Ling-2.6-flash，百灵大模型将在 OpenRouter 与官方平台同步提供一周免费 API 调用。

免费期结束后，将按使用量计费：输入 0.1 美元 / 百万 tokens，输出 0.3 美元 / 百万 tokens，缓存命中 0.02 美元 / 百万 tokens（按 20% 计费）。

Ling-2.6-flash 官方 API 服务也已正式开放，官方免费期结束后，平台仍将提供每日 50 万 tokens 免费额度；超出部分按量计费：输入 0.6 元 / 百万 tokens，输出 1.8 元 / 百万 tokens。

IT之家注意到，官方表示，模型的 BF16、FP8、INT4 等版本也将于近期正式开源。