10月14日,小米和北京大学联合署名的论文发表于arXiv,曾被曝获小米集团创始人兼CEO雷军以高薪招募的DeepSeek"天才少女"罗福莉出现在论文通讯作者之列。但论文作者中并未标注罗福莉属于小米大模型团队。
罗福莉是95后,本科就读于北京师范大学计算机专业,硕士毕业于北京大学计算语言学研究所。她曾在阿里巴巴达摩院主导开发多语言预训练模型VECO,2022年入职DeepSeek,参与了MoE大模型DeepSeek-V2研发。小米曾被曝以高薪挖角她,但双方至今未公开确认。
这篇论文提出了提升MoE模型强化学习训练的新方法Rollout Routing Replay(R3)。实验表明,R3在多步更新场景中,GRPO+R3平均得分68.05,比GSPO高1.29分;GSPO+R3进一步提升至69.00。在单步更新场景,R3在SFT模型上比TIS高5.58分,比基础模型高1.51分。所有组合方法全过程无崩盘,训练-推理KL散度始终较低,极端token比例减少一个量级。
强化学习已成为提升大语言模型能力的关键方法,但在MoE模型中,路由机制常引入不稳定性,甚至导致训练崩溃。R3的工作原理是在序列生成期间从推理引擎捕获路由分布,并直接重放到训练引擎中,显著缩小训练和推理之间的差距。实验显示,应用R3后,Qwen3-30B-A3B模型的训练-推理KL散度从1.5×10⁻³降至7.5×10⁻⁴,接近稠密模型的6.4×10⁻⁴水平。
R3的三大贡献是:系统识别和分析了MoE模型中训练和推理的路由分布差异;提出Rollout Routing Replay,重用推理时间路由分布协调训练和推理;在多种RL设置中应用R3,证明其优于GSPO和TIS。
R3同时适用于在线策略和小批量式离线策略强化学习场景。通过路由掩码缓存,R3能与多轮对话场景无缝集成,无需重新预填充。值得注意的是,R3与TIS组合并未带来明显性能提升,甚至可能降低性能,如SFT模型单小步设置下,TIS+R3比R3低1.69分,因为R3已显著降低了策略差异。
实验显示,R3具有更小的梯度范数、更平滑的序列增长和更稳定的熵,能更快捕捉优化方向。在训练开始时,生成序列长度迅速上升,表明R3能快速捕捉优化方向,而其他方法在80步后才缓慢上升,波动明显。
R3的提出为MoE模型训练提供了新思路,通过解决路由分布不一致这一根本问题,实现了训练稳定性与性能的提升,为MoE模型在强化学习中的应用提供了重要支持。