跳到主要内容

DART:推理与工具使用的梯度正交冲突,LoRA 参数级解耦方案

Summary

论文揭示 Agentic RL 中推理和工具使用的梯度近乎正交(~90°),联合训练互相干扰而非协同。DART 方案:冻结骨干+两个独立 LoRA(推理/工具)+token 级路由,梯度完全隔离。3B 规模 EM +6%,多跳推理 +30%,接近 2-Agent 上限但保持单模型效率。更广泛意义:LoRA 从高效微调工具升级为能力模块化载体。

Key Concepts

  • Gradient Conflict — 推理与工具 token 梯度近正交,联合训练折中次优
  • DART — Disentangled Action-Reasoning Tuning,双 LoRA 参数解耦
  • Dual LoRA — 推理 LoRA + 工具 LoRA,独立低秩子空间
  • Token Level Routing — 按 token 类型路由到对应 LoRA
  • LEAS — Linear Effect Attribution System,量化能力间协同/干扰

Why Conflict?

阶段梯度关系原因
预训练大致对齐共享底层语言表征
Agentic RL 后训练近正交推理(思维链)vs 工具(API/控制流)目标完全不同

DART Architecture

Backbone (frozen)
├── Reasoning LoRA (B_r, A_r) ← reasoning tokens only
└── Action LoRA (B_a, A_a) ← tool tokens only
Token-level router decides which LoRA receives gradient

Results (3B scale)

指标提升
平均 EM vs Search-R1-GRPO+6%
多跳推理相对提升~30%
vs 2-Agent 系统接近上限,单模型效率

Broader Insight

  • 不是所有能力都应共享参数空间联合训练
  • 梯度冲突时,参数解耦 > 复杂奖励设计
  • LoRA 新角色:能力模块化 + 结构解耦载体
  • SKILL-0:无梯度更新的 In-Context Agentic RL 技能内化
  • AI 工程四层模型:从 Prompt 到 Architecture
  • Gemma 4 免费微调:Google Colab + Unsloth Studio 零成本方案
  • Transformer 架构解析:Attention 机制与工作原理