AI Agents

从会回答到会行动:Agentic RL 的原理与评估

2026年4月12日By SchemaX
#Agentic RL#强化学习#AI Agent#LLM#评估
从会回答到会行动:Agentic RL 的原理与评估 - AI Agents相关的学习和博客内容图片

大模型已经很会“说话”了,但离“会做事”还有一段距离。

比如,给模型一个数学题、一个代码仓库,或者一组可调用工具,我们真正想要的并不是一句表面流畅的回答,而是它能够分步思考、调用工具、根据反馈调整策略,最终把任务完成。这也是为什么最近大家越来越关注一个关键词:Agentic RL

简单来说,Agentic RL 不是把大模型当成一个只会一次性输出答案的聊天机器,而是把它当成一个能在环境中持续决策的智能体,并用强化学习去优化它的行为轨迹。

这篇文章重点梳理两个问题:

  1. Agentic RL 到底在解决什么问题;
  2. 一个 Agentic RL 模型,应该怎么评估。

什么是 Agentic RL

Agentic RL 可以理解为:把 LLM 作为策略模型,放进“感知—决策—执行”的循环里,用强化学习优化它在多步任务中的表现。

它和传统后训练最大的不同在于:优化对象变了。

传统的偏好对齐或单轮后训练,更像是在做这样一件事:

  • 给模型一个 prompt;
  • 让它生成一个回答;
  • 根据这个回答好不好,给一个奖励。

这种方式很适合做对话助手,因为目标是“生成更好的单次回答”。

但如果任务变成:

  • 先理解问题;
  • 再拆解步骤;
  • 必要时调用工具;
  • 根据工具返回结果继续推理;
  • 最后再输出结论;

那它就不再是一个“一步到位”的生成问题,而变成了一个多步序贯决策问题。这正是强化学习更擅长的场景。

Agentic RL 和传统 LLM 后训练的根本区别

如果从强化学习里的 MDP(Markov Decision Process)视角看,区别会非常清楚。

MDP 可以理解成强化学习里描述“智能体如何一步步做决策”的基本框架。它通常包含五个要素:状态(state)、动作(action)、状态转移(transition)、奖励(reward)、折扣因子(discount factor)。放到 Agent 场景里,就是:模型看到当前上下文,决定下一步是继续推理、调用工具还是执行操作,然后根据返回结果继续往下走,直到任务完成。

1. 状态不再是静态 prompt,而是动态上下文

传统单轮优化里,状态几乎就是用户输入本身。

但在 Agentic RL 里,状态会随着过程不断演化:

  • 初始问题;
  • 中间推理结果;
  • 工具调用返回值;
  • 环境反馈;
  • 历史上下文。

也就是说,模型不是只看“用户一开始问了什么”,而是要看“我已经做到了哪一步”。

2. 动作不再只是生成文本

传统训练里,动作通常只有一个:继续生成 token。

但 Agentic RL 里,动作空间会更丰富,大致可以分为两类:

内部推理动作:模型在上下文中进行思考和规划,比如生成推理步骤、拆解子问题、输出中间结论。这些动作不涉及外部系统,但会影响后续的决策路径。

外部交互动作:模型主动与外部环境发生交互,比如调用搜索引擎获取信息、使用代码执行器运行程序、浏览网页、读写文件等。这些动作的特点是会带来新的观察结果,模型需要根据返回的反馈继续决策。

所以它优化的不只是“说什么”,而是“下一步该做什么”。

3. 奖励不再只看最后一句,而是看整个轨迹

在很多复杂任务里,最后答对当然重要,但过程同样重要。

一个模型可能最终答对了,但:

  • 推理非常冗长;
  • 工具用得很乱;
  • 中间步骤不稳定;
  • 格式不规范。

Agentic RL 的目标,就是把这些都纳入优化对象。它追求的是长期累积回报,而不是单次输出的奖励。

为什么只靠监督学习还不够

监督微调(SFT)当然很重要,但它有天然上限。

因为 SFT 的本质是“模仿答案”。它擅长教会模型:

  • 按什么格式输出;
  • 什么样的回答像是对的;
  • 常见题型该怎么写。

但它不擅长解决这类问题:

  • 如果训练数据里的推理路径不是最优的怎么办?
  • 如果任务需要探索多种策略怎么办?
  • 如果真正重要的是长期结果,而不是某一步的局部正确怎么办?

这就是强化学习介入的原因。通过试错,模型可以自己生成多个候选轨迹,再根据奖励去学习哪些路径更优。于是,它不再只是复制人类答案,而是有机会超越训练数据里现成的解法

Agentic RL 的训练逻辑

在 Agentic RL 场景里,一条常见路线是:

预训练 → SFT → 强化学习

这里的“预训练”更多是在讲完整训练链路。实际做 Agentic RL 时,通常不会从零预训练,而是直接基于一个已有的大模型继续训练。这个已有模型可能是只做过预训练的 base model,也可能是已经做过 SFT、RLHF 或其他对齐训练的 instruct/chat model

1. 预训练:获得通用语言能力

这是模型会“读”和“写”的基础,但还不会做具体任务。

2. SFT:学会任务格式和基本套路

在大多数实践中,SFT 是 Agentic RL 非常重要的前置步骤。因为如果模型连基本输出格式都不会,强化学习的探索效率会非常低。

SFT 主要解决几个问题:

  • 学会结构化输出;
  • 学会 Step 1 / Step 2 / Final Answer 这类任务格式;
  • 建立一个可用的初始策略;
  • 缩小后续 RL 的探索空间。

不过值得一提的是,SFT 并非严格的必要条件。DeepSeek-R1-Zero 的实验表明,直接从 base model 上做 RL,模型也能自发涌现出推理能力和格式规范,只是效率和稳定性不如先 SFT 再 RL 的路径。所以“先 SFT 再 RL”更多是一条经过验证的高效路径,而不是唯一选择。

3. RL:通过试错优化策略

有了 SFT 打底后,强化学习才真正发挥作用。此时优化的重点不再是“像不像训练样本”,而是“能不能更稳定、更高效地完成任务”。

Agentic RL 常用的训练方法

在具体训练时,Agentic RL 可以使用不同的强化学习方法。早期比较常见的是 PPO,它也是 RLHF 中经常被提到的方法。PPO 的经典做法是额外训练一个与策略模型同等规模的 critic(价值网络) 来估计每一步的回报基线,这在小模型上问题不大,但当策略模型本身已经有数十亿甚至上千亿参数时,再维护一个同等规模的 critic 网络,显存和计算开销就会非常高。

为了解决这个问题,后来出现了 GRPO(Group Relative Policy Optimization) 这类方法。GRPO 的核心思路是不需要额外的 critic 网络,而是对同一个问题采样一组回答,用组内的相对排序来估计基线,从而大幅降低训练开销。这也是它更适合大模型推理训练的关键原因。

这些方法的共同目标,是让模型在多次尝试中比较不同行动轨迹的好坏,并根据奖励信号强化更有效的策略。不同方法之间的差异,主要体现在训练稳定性、资源开销,以及如何控制模型更新幅度上。

奖励函数:Agentic RL 成败的核心

如果说 SFT 决定了模型有没有起跑线,那奖励函数决定了它会往哪个方向跑。

奖励函数本质上定义了什么叫“好的行为”。

对于数学推理任务,最简单的奖励可以是:

  • 答对:1;
  • 答错:0。

这就是最典型的准确率奖励。但如果想把模型训练成真正好用的 agent,这显然不够。因为一个好 agent 不只要“对”,还要:

  • 过程合理;
  • 成本可控;
  • 格式清晰;
  • 工具使用得当。

因此更常见的做法是设计组合式奖励:

  • 准确率奖励:最终答案正确给 1,错误给 0
  • 长度惩罚:答案虽然对,但如果过于冗长,奖励会被打折。比如同样答对,有的答案拿 1.0,过长的答案可能只拿 0.8
  • 步骤奖励:在多步任务里,不一定非要等到最后才给分。比如成功获取仓库结构 +0.1,成功读取关键文件 +0.1,分析过程合理 +0.2,最后报告质量高 +0.6
  • 组合奖励:把准确率、长度控制、步骤质量等信号加权组合起来,而不是只盯着最后答案。

从奖励形态上看,还可以分成三种:

  • 稀疏奖励:只在任务结束时给一次奖励;
  • 密集奖励:每一步都给小的反馈;
  • 混合奖励:把最终结果奖励和中间步骤奖励结合起来。

这背后有一个非常重要的原则:你奖励什么,模型就会学什么。

如果只奖励“最后答对”,模型可能会学会一种并不好用的策略:虽然结果对了,但过程很啰嗦,或者中间步骤很乱。反过来,如果奖励里把“答对”“简洁”“步骤合理”都考虑进去,模型学到的行为通常会更接近我们真正想要的 agent。

如何评估一个 Agentic RL 模型

评估 Agentic RL,不能只看结果对不对,还要看它是怎么做对的、花了多大代价、以及在哪些地方容易出错。换句话说,Agentic RL 评估的不是一句最终答案,而是一整条 trajectory。

1. 先看核心指标

一个更完整的评估体系,通常可以拆成三类指标。

  • 准确性指标(Accuracy):包括 Accuracypass@kNumerical Error。其中 pass@k 很有价值,因为它衡量的是模型的潜力:对同一个问题采样 k 次,只要有一次答对就算通过。如果单次输出不稳定,但多采样后经常能命中正确答案,说明模型已经“会了”,只是策略还不够稳。
  • 效率指标(Efficiency):包括 Average LengthAverage StepsInference Time。Agent 不是越能想越好,真实系统里还要考虑 token 成本、响应延迟和执行开销。
  • 过程质量指标(Quality):包括 Format CorrectnessReasoning CoherenceExplainability。因为很多 Agent 任务并不是只交付一个最终答案,而是需要保留一个可检查、可复盘、可继续执行的中间过程。

2. 不只打分,还要做 error analysis

知道模型错了还不够,更重要的是知道它为什么错。

常见错误大致可以分成四类:

  • 计算错误:思路对了,但算错了;
  • 推理错误:逻辑链路本身有问题;
  • 理解错误:题目理解偏了;
  • 格式错误:答案可能对,但不符合输出格式。

这个分类很有实践价值,因为不同错误,对应的改进手段完全不同:

  • 计算错误,可能要加强 tool use 或数值校验;
  • 推理错误,可能要优化 trajectory 奖励;
  • 理解错误,可能要补充数据覆盖;
  • 格式错误,可能需要加强 SFT 或格式奖励。

也就是说,评估不是为了生成一张漂亮的分数表,而是为了指导下一轮训练。

3. 还要看 generalization 和分层表现

除了总体分数,还应该看模型在不同难度、不同场景、不同任务类型下的表现。

比如同样是数学题,可以按推理步数划分:

  • 简单题;
  • 中等题;
  • 困难题。

很多时候总体准确率看起来不错,但一拆分就会发现:

  • 简单题表现很好;
  • 一到长链路任务就明显掉点。

这说明模型未必真的具备了稳定的推理能力,而可能只是掌握了较浅层的模式匹配。对 Agent 来说,这种分层评估尤其重要,因为真实世界任务往往是长尾、复杂、动态的。

归根结底,一个完整的评估框架至少要回答四个问题:

  1. 任务完成了吗?
  2. 完成得稳不稳?
  3. 完成得高不高效?
  4. 完成过程是否合理、可解释、可复用?

这也是 Agentic RL 和普通 LLM 调优最不一样的地方:它评估的对象,从“输出文本”升级成了“决策过程”。

结语

Agentic RL 的真正价值,不只是把大模型的分数再提一点。

它更重要的意义在于:它把大模型从“回答问题的系统”推进成了“完成任务的系统”。

一旦训练目标从“生成更像人的回答”转向“在环境中持续做出更优决策”,模型的能力边界就会发生变化:

  • 它会更重视长期目标;
  • 更擅长处理多步任务;
  • 更可能学会工具使用;
  • 也更需要一套围绕“轨迹”和“行为质量”的评估体系。

所以,理解 Agentic RL,不能只盯着 RL 算法本身。更关键的是理解:我们到底希望 agent 学会什么,又该如何判断它真的学会了。

参考

  • Hello-Agents 第十一章:https://hello-agents.datawhale.cc/#/./chapter11/%E7%AC%AC%E5%8D%81%E4%B8%80%E7%AB%A0%20Agentic-RL
  • Hello-Agents 仓库:https://github.com/datawhalechina/hello-agents

More from “AI Agents” series