LLM-in-Sandbox：给大模型一台电脑，激发通用智能体能力

技术演进与范式创新 - 大模型能力正通过不同范式解锁，包括无需微调的上下文学习、提升复杂问题求解能力的思维链以及可调用工具和多轮交互的智能体框架 [2] - LLM-in-Sandbox 是技术演进的下一个关键范式，其核心思想是让大模型在一个代码沙盒（虚拟电脑）中自由探索以完成任务 [3] - 该范式不仅对代码任务有效，更能显著提升模型在数学、物理、化学、生物医学、长文本理解、指令遵循等多个非代码领域的表现，且无需额外训练 [3] 核心思想与设计原理 - LLM-in-Sandbox 的核心思想是“给大模型一台电脑”，利用电脑的通用性来解锁模型的通用智能潜力 [5][7] - 电脑的通用性源于三大元能力：通过网络访问外部资源和知识、持久化地读写和组织文件、以及执行计算 [6] - 该范式采用轻量级、通用化的沙盒设计，与需要为每个任务配置特定环境的现有方案不同，其环境是通用的，依赖项在运行时安装，存储使用单一共享镜像 [10] - 这种设计带来了泛化性和可扩展性优势，例如，扩展到数千个任务时，传统方法可能需要高达 6TB 的存储，而 LLM-in-Sandbox 仅需约 1.1GB [11] - 沙盒环境基于 Docker 的 Ubuntu，仅预装 Python 和基础科学计算库，将领域特定工具的获取交给模型自主完成 [13] - 工作流采用多轮交互的探索式方法，模型在每一轮生成工具调用并接收反馈，直到任务完成或达到轮次限制 [15] 性能表现与实验结果 - 在六个非代码领域的实验表明，强大的语言模型在 LLM-in-Sandbox 模式下获得了一致性提升，且完全无需额外训练 [17][20] - 具体提升示例如下：Claude-Sonnet-4.5-Think 在数学任务上得分从 85.6 提升至 92.2（+6.6），在物理任务上从 56.9 提升至 63.3（+6.4）[20] - GPT-5 在数学任务上得分从 87.8 提升至 97.9（+10.1）[20] - DeepSeek-V3.2-Thinking 在指令遵循任务上得分从 60.3 提升至 74.7（+14.4）[20] - Qwen3-Coder-30B-A3B 在数学任务上得分从 17.9 提升至 42.1（+24.2），在物理任务上从 36.8 提升至 47.9（+11.1）[20] - 模型展现了涌现的工具使用能力，例如在化学任务中自主安装 Java 环境和 OPSIN 库以转换分子结构 [21] - 在长文本理解任务中，模型使用 grep、sed 等工具处理超过 100K tokens 的文档，而非将其全部放入 prompt [22] - 在指令遵循任务中，模型编写 Python 脚本来统计字符和检测词汇重叠，以迭代优化生成结果 [23] 强化学习增强与泛化能力 - 对于能力较弱的模型，研究者提出了 LLM-in-Sandbox RL，使用非智能体数据在沙盒环境中训练模型以增强其泛化能力 [27][28] - 训练采用基于上下文的任务，迫使模型主动探索沙盒以学会利用其能力 [29] - 实验表明，LLM-in-Sandbox RL 展现出强大的跨领域、跨推理模式和跨模型能力的泛化能力 [31] - 例如，在 Qwen3-4B-Instruct 模型上，经过 RL 训练后，其在数学任务的沙盒模式得分从基线的 35.4 提升至 50.2（+14.8），在物理任务上从 36.3 提升至 47.7（+11.4）[30] - 该方法不仅提升了沙盒模式表现，也同时提升了纯 LLM 模式的表现，说明学到的能力可以迁移 [31] 部署效率与成本优势 - 在长文本场景下，LLM-in-Sandbox 通过将文档存储在沙盒中而非放入 prompt，可显著降低 token 消耗，最多可降低 8 倍（例如从 100K tokens 降至 13K tokens）[32] - 通过将计算卸载到沙盒，工作负载从慢速的自回归生成转移到快速的并行预填充，保持了有竞争力的吞吐量 [34] - 效率数据显示，在平均情况下，MiniMax 模型可实现 2.2 倍的加速（QPM Ratio）[33][34] - 其他模型的 QPM 比率分别为：DeepSeek 0.6倍，Kimi 1.0倍，Qwen 1.1倍 [33] 超越文本的通用能力与未来展望 - LLM-in-Sandbox 突破了纯文本输入输出的范式，解锁了纯 LLM 无法完成的能力 [35] - 新能力包括：通过调用专业软件处理生成图像、视频、音频和交互式应用等跨模态能力；直接生成可用的文件（如 .png, .mp4）；以及自主发现、安装和学习使用任意软件库 [36] - 随着模型能力增强和沙盒环境完善，LLM-in-Sandbox 可能演化为真正的通用数字创作系统 [38] - 研究者认为，鉴于其显著的性能提升和几乎可忽略的部署成本，LLM-in-Sandbox 应当成为大模型的默认部署范式，取代纯 LLM 推理 [3][40]