跳到主要内容

OSGym:1024 并行 OS 沙箱训练 Computer Use Agents

Summary

专为训练 Computer Use Agents(GUI 操作 Agent)设计的并行 OS 沙箱基础设施。支持 1024 个并行沙箱,$0.23/天/沙箱,较原方案降低 90% 成本。大规模 RL 训练 Agent 的基础设施。

Key Concepts

  • Computer Use Agent — GUI 操作 Agent,通过截图+操作与 OS 交互
  • Parallel Sandboxes — 1024 并行 OS 环境,大规模训练
  • Agent Training Infrastructure — Agent RL 训练的基础设施层
  • RL Environment — 强化学习环境,OS 作为 gym 环境

Cost Profile

指标数值
并行数1024 沙箱
成本$0.23/天/沙箱
成本降低90%
  • agent-infra/sandbox - AI Agent 一体化沙盒环境
  • SKILL-0:无梯度更新的 In-Context Agentic RL 技能内化
  • Scaling Agent Systems - Google/MIT 多Agent扩展量化规律