9月17日，梁文锋团队在《自然》杂志发表论文，介绍开源AI模型DeepSeek-R1采用的大规模推理模型训练方法。研究表明，通过纯强化学习训练大规模推理模型，可有效提升大语言模型推理能力并降低人类输入需求。模型以解决问题获奖励机制强化学习，减少训练成本与复杂性。-FX168速递

全球数字财富领导者

财富汇｜美股投研｜客户端｜旧版｜｜

FX168 全球视野中文财经

登录 / 注册

2025-09-18 01:03:02

分享

9月17日，梁文锋团队在《自然》杂志发表论文，介绍开源AI模型DeepSeek-R1采用的大规模推理模型训练方法。研究表明，通过纯强化学习训练大规模推理模型，可有效提升大语言模型推理能力并降低人类输入需求。模型以解决问题获奖励机制强化学习，减少训练成本与复杂性。

24小时热点

暂无内容