清华蚂蚁联合开源AReaL

速途网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

速途网6月5日消息(报道:李楠)近日,清华蚂蚁联合研发的全异步强化学习训练系统AReaL-boba2(AReaL v0.3 )正式宣布开源。据了解,这一系统全面实现了异步强化学习训练,完全解耦模型生成与训练,性能效果不变的前提下,训练速度对比上一版本最高提升2.77倍,GPU资源利用率大幅优化。研究人员使用这一系统在Qwen3 系列模型上做强化学习训练,实现8B、14B 模型在 LiveCodeBench, Codeforce, Codecontest 等benchmark上达到SOTA水准。 此外, AReaL-boba2还原生支持多轮智能体强化学习训练,开发者可以根据自己的需求自由定制智能体和智能体环境,进行多智能体Agentic RL训练。

寻找兼顾高效能、高效率的强化学习训练方式,一直是从业人员持续面临的课题。在传统的强化学习训练流程中,同步强化学习训练每一个批次(batch)的数据都是由同一个模型版本产生,因此模型参数更新需要等待批次中数据全部生成完成才能启动。由于推理模型的输出长短差异极大,在同样的批大小(batch size)下,强化学习训练必须等待批次中最长的输出生成完才能继续进行训练,以及进行下一个批次的数据收集,造成极大GPU资源浪费。而异步强化学习(Asynchronous RL)将数据生成与模型训练完全解耦,以不间断的流式生成和并行训练的计算方式,极大提高了资源使用率,天然适用于多轮次交互的Agent场景。业界认为,异步强化学习是一种重要的算法范式,将成为未来强化学习的重要方向之一。

在AReaL-boba2的工作中,研究人员通过算法系统co-design的方式实现了完全异步强化学习训练(fully asynchronous RL),从根本上解决了同步强化学习的各种问题。AReaLboba2生成任务持续流式进行以保证GPU资源始终满载运行,杜绝了GPU空闲。AReaLboba2的系统设计可以在保证稳定RL训练的同时,参数同步的通信和计算花销仅占总训练时间的1%以内。此外,由于全异步RL中同批次数据可能由不同版本的模型产生,AReaLboba2也对RL算法进行了升级,在提速的同时确保模型效果。

AReaL由蚂蚁技术研究院和清华大学交叉信息研究院共同发起,是国内首个完整开源数据、代码、模型、脚本的强化学习开源项目。目前AReaL已经开源了AReaL v0.1版、AReaL v0.2版(AReaL-boba)。其中,AReaL v0.2(AReaL-boba) 版本是其里程碑版本,可用128张H800 GPU 在1天训练完成SOTA 1.5B推理模型训练,256张H800 GPU 2天内完成SOTA 7B 推理模型训练的效果。此前AReaL-boba项目也得到了来自海外开发者的高度认可,评价“AReal-boba通过开放SOTA推理模型的资源和透明的训练方式,让先进的AI推理技术平权化,降低了研究的门槛。 ”

AReaL团队在技术报告中表示,该项目融合了蚂蚁强化学习实验室与清华交叉信息院吴翼团队多年的技术积累,也获得了大量来自蚂蚁集团超算技术团队和数据智能实验室的帮助。AReaL 的诞生离不开 DeepScaleR、Open-Reasoner-Zero、OpenRLHF、VeRL、SGLang、QwQ、Light-R1、DAPO 等优秀开源框架和模型的启发。

随意打赏

提交建议
微信扫一扫,分享给好友吧。