蚂蚁百灵大模型团队开源高性能思考模型 Ring-flash-2.0
蚂蚁百灵大模型团队宣布正式开源 ring-flash-2.0,这是一款基于 ling-flash-2.0-base 深度优化的高效思考模型。与 ling-flash-2.0 一致,ring-flash-2.0 拥有总计 100b 参数,但在每次推理过程中仅激活 6.1b 参数,显著提升计算效率。

Ring-flash-2.0 架构图如下:

据团队介绍,该模型在数学竞赛、代码生成、复杂逻辑推理等多项高难度基准测试中表现卓越,性能不仅超越了参数量在 40B 以内的主流 dense 模型,还能与更大规模的开源 MoE 模型及闭源高性能思考模型 API 相匹敌。


为了进一步增强 Ring-flash-2.0 的综合能力,蚂蚁百灵团队构建了 Two-staged RL 训练流程:

- 第一阶段采用轻量级 Long-CoT SFT,使 Ling-flash-2.0-base 掌握多样化的思维链模式;
- 第二阶段引入具备可验证奖励机制的 RLVR 训练,持续挖掘模型深层推理潜力;
- 最后结合 RLHF 阶段,优化模型的通用性与用户对齐能力。
此次开源内容包括 Ring-flash-2.0 的完整模型权重、RL 训练方法以及数据构建方案:
https://www.php.cn/link/c74305e736bb51926e0f568d7ae72545
https://www.php.cn/link/4504a21322621ea6e8b2af2f6564e81a
网友留言(0 条)