DAPO(解耦裁剪和动态采样策略优化,Decoupled Clip and Dynamic Sampling Policy Optimization)作为一个突破性的开源大语言模型强化学习系统应运而生,为该 ...
近日,清华 AIR 和字节联合 SIA Lab 发布了他们的第一项研究成果:DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪辑和动态采样策略优化)。