企业级提供商,为企业级商家提供app、定制化后台及解决方案服务
咨询热线:400-083-286
清华联合团队开源TTRL框架,基于无标注数据的测试时RL实现推理性能突破
2025-05-23

清华与上海ai lab联合开源测试时强化学习框架TTRL,通过动态构建伪标签奖励信号,使LLM在推理阶段无需标注数据即可实现性能提升。该方法利用预训练模型的先验知识,在测试时通过多次采样生成候选输出,采用多数投票机制生成共识答案作为伪标签,并基于预测与伪标签的一致性构建稀疏奖励函数。通过梯度上升策略优化模型参数,TTRL在保持原有模型结构的同时,实现了对新数据分布的自适应调整。实验显示,在AIME 2024数学推理任务中,Qwen-2.5-Math-7B模型经TTRL优化后,pass@1指标提升159.3%,性能接近基于标注数据训练的监督模型;在AMC等基准测试中,平均性能提升达84.1%。 该框架突破传统TTS/TTT对标注数据或人工干预的依赖,兼容PPO、GRPO等RL算法,且具备跨任务泛化能力。研究显示其在分布外任务中仍保持性能提升,未发生过拟合。但方法依赖预训练模型质量,对高难度任务或小规模模型存在瓶颈。

转载此文于“量子位”,转载是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请在30日内与本网联系,我们将第一时间更正、删除,谢谢。