让LLM扔块石头,它居然造了个投石机
量子位·2025-10-22 23:27

研究核心与平台介绍 - 研究团队开发了名为BesiegeField的新平台,作为大模型的“机械工程师训练场”,测试AI从零开始设计并制造可动复杂机器的能力[2] - 平台支持上百次并行实验,结合强化学习后,大模型可实现“自我进化”,从物理反馈中调整策略,学会结构设计的物理逻辑[2] - 核心方法为“组合式机械设计”,将机械结构限定在用标准零件组装范围内,把复杂设计简化为离散结构组合问题[4][5] - 平台运行于Linux集群,能同时进行数百个机械实验,并提供速度、受力、能量变化、投掷距离等完整物理反馈[9] - 模型在设计平台中形成生成→仿真→获取反馈→调整的闭环,即使不更新参数也能优化输出,引入强化学习后可系统性提升能力[11][12] 技术实现与工作流 - 采用类似XML的结构化表示机制,使机械设计变成语言模型擅长的结构生成任务[6] - 研究团队构建了“智能体工作流”,让多个AI角色协作,包括总设计师、结构设计师、审查员、反馈查询员和分析优化员[23][28] - 在多角色分层设计策略下,Gemini 2.5 Pro能根据仿真反馈识别具体结构问题并提出有效修改方案[27] - 对比数据显示,分层设计策略在投石机和小车任务上的平均分和最高分均显著优于单一模型或简单迭代策略[31][32] 性能表现与进化能力 - 人类设计的投石机投掷距离近200米,而大模型设计的产品常低于30米,差距体现在对结构协同和发力效率的理解[19][20] - 引入基于可验证反馈的强化学习策略,利用仿真反馈作为奖励信号指导模型改进[33][34] - 采用Pass@k Training方法对Qwen2.5-14B-Instruct模型进行微调,随着迭代次数增加,模型设计结构和投掷距离持续改善[34][35] - 在冷启动结合强化学习的策略下,模型在小车任务最高分达到45.72,投石机任务的平均分和最高分均为最优[37][38] 行业影响与未来展望 - BesiegeField代表了一种新的“结构创造范式”,将复杂机械设计转变为AI擅长的结构化语言生成任务[39][40] - 平台提供了任务难度可控、流程模块化、结果可定量评估的环境,是观察AI获得空间智能和物理智能的起点[40] - 未来展望AI能制造出可奔跑、搬运、协作的各种复杂结构,使语言模型真正具备创造可动物体的能力[40]