Workflow
代码生成
icon
搜索文档
Stable-DiffCoder超越自回归模型!扩散模型在代码生成取得新突破
机器之心· 2026-02-06 07:45
文章核心观点 - 华中科技大学与字节跳动联合推出的Stable-DiffCoder,证明了扩散训练范式本身是一种强大的数据增强和表征学习手段,能够有效提升代码大模型的能力上限,并在多项基准测试中超越了同规模的自回归模型[1] - 该研究打破了“扩散模型只能做并行加速”的刻板印象,提出了一种新的模型演进路径:将自回归模型作为高效的知识压缩器,再利用扩散训练作为“强化剂”,进一步提升模型性能[31] 模型性能表现 - 在Base模型评测中,Stable-DiffCoder-8B-Base在HumanEval上得分为79.3,在HumanEval+上得分为73.8,在MBPP上得分为83.6,在MBPP+上得分为67.7,超越了包括Qwen2.5-Coder-7B、DeepSeek-Coder-6.7B-Base在内的多个8B规模开源模型[23] - 在代码推理任务CRUXEval上,Stable-DiffCoder-8B-Base在Input-CoT和Output-CoT上分别取得53.8和60.0的分数,表现优于多数同规模模型[24] - 在Instruct模型评测中,Stable-DiffCoder-8B-Instruct在HumanEval上得分为86.6,在HumanEval+上得分为82.3,在MBPP上得分为85.7,在MBPP+上得分为72.8,超越了其自回归原型Seed-Coder-8B-Instruct及其他8B规模的DLLM模型[26] - 在多语言代码生成任务(涵盖Python、Java、C++等13种语言)上,Stable-DiffCoder-8B-Instruct平均得分为75.3,与Seed-Coder-8B-Instruct持平,并显著超越其他同规模模型[27] - 在更具挑战性的代码基准测试中,Stable-DiffCoder-8B-Instruct在MHPP上达到42.4 pass@1,在BigCodeBench Full和Hard上分别达到54.8和31.8,在LiveCodeBench上达到23.5 pass@1,表现优异[27] - 在代码编辑任务CanItEdit上,Stable-DiffCoder-8B-Instruct取得了60.0 pass@1的分数,显著优于其他同规模模型,展现了惊艳的代码编辑能力[29] 技术创新与方法 - 研究揭示了纯双向扩散过程在高效学习样本知识上的缺陷:当掩码比例较大时,模型难以映射到清晰的规则,且会引入噪声和错误知识[4][5][11] - 通过实验证明,采用“自回归预训练 -> 扩散持续预训练”的课程学习方案(AR->BiDLLM)效果最佳,优于纯双向扩散训练,说明自回归结构更适合作为知识压缩的先验[11][13][14][15] - 最终训练流程设计为:先用自回归方式压缩知识,再用其检查点通过持续预训练转换为小块的块扩散模型,以探索扩散过程的数据增强能力[16] - 团队设计了一种稳定的持续预训练预热策略,通过逐步增加掩码比例上限和移除损失函数中的加权系数,解决了训练不稳定的问题[18][20] - 针对块扩散,团队设计了块级截断的噪声调度,通过设置噪声采样下界为1/B(B为块大小),确保每个块都能产生有效的损失信号,避免了小块时信号丢失的问题[21][22] 行业影响与意义 - 该研究证明了扩散训练范式在代码理解和生成质量上可以超越传统的自回归模型,为大型语言模型的演进提示了一条新路径[1][31] - 模型在预训练数据较少的稀疏代码语言(如C、PHP)上,相比自回归基线获得了大幅增强,验证了扩散训练过程起到了数据增强的效果[24] - Stable-DiffCoder-8B-Instruct在多项综合评测中表现优越,在闭源测试集MHPP上达到了Qwen2.5-Coder-32B-Instruct的水平,在BigCodeBench上仅次于DeepSeek-Coder-V2-Instruct (21B/236B)[25][27]
一个近300篇工作的综述!从“高层规划和低层控制”来看Manipulation任务的发展
具身智能之心· 2026-01-06 08:32
文章核心观点 - 机器人操纵作为具身智能的核心难题,正因大型基础模型的出现而迎来变革,其技术框架可统一为“高层规划”与“低层学习型控制”两大模块的协同体系 [1] - 当前技术突破在于基础模型提升了机器人的感知与语义泛化能力,使其能基于自然语言指令在非结构化环境中工作,但规模化落地仍面临通用架构缺失、数据瓶颈、物理交互不足及安全协作等核心挑战 [1][23][26] - 未来研究方向聚焦于构建通用机器人架构、破解数据困境、强化多模态物理交互以及保障安全协作,以推动机器人操纵从实验室走向真实复杂场景 [30][31] 高层规划:任务解构与决策引导 - 高层规划负责明确动作意图、时序组织及环境注意力分配,其核心是融合多模态信息解决“做什么”和“按什么顺序做”的问题,包含六大核心组件 [4] - **基于LLM的任务规划**:以大型语言模型为核心实现自然语言到任务步骤的映射,早期方法如SayCan选择可执行技能,进阶方案如Inner Monologue引入闭环反馈实现动态调整,LLM+P和REFLECT强化了长时程推理与失败处理 [5] - **基于MLLM的任务规划**:联合视觉与语言进行推理,PaLM-E通过机器人具身数据与视觉语言模型共训练实现端到端任务推理,VILA直接复用GPT-4V能力无需微调,机器人专用MLLM如RoboBrain、Gemini Robotics在具身基准测试中表现优于通用模型 [8] - **代码生成**:将规划转化为可执行程序以弥补语言计划的精度缺陷,Code as Policies通过暴露API让LLM生成控制代码,Demo2Code、SHOWTELL支持从演示中提炼程序,Statler、HyCodePolicy通过维护世界状态提升闭环控制鲁棒性 [9] - **运动规划**:利用LLM或视觉语言模型生成连续运动目标以衔接高层推理与低层轨迹优化,VoxPoser构建语言-视觉条件的3D价值图提供优化目标,CoPa、ManipLLM融入物理先验确保可行性,ReKep通过关系关键点实现自主轨迹生成 [10] - **可用性学习**:聚焦“物体能做什么”,从几何、视觉、语义及多模态四个维度学习物体的交互可能性,为操纵决策提供先验知识 [11] - **3D场景表征**:将环境感知转化为结构化动作提案,通过高斯splatting实现可编辑的3D场景表示支持抓取候选生成,借助神经描述场等隐式表征编码几何与语义信息,实现少样本姿态迁移等任务 [12] 低层学习型控制:动作生成与执行落地 - 低层控制负责将高层规划转化为精准物理动作,解决“怎么做”的问题,从学习视角可拆解为学习策略、输入建模、潜态学习、策略学习四大核心组件 [14] - **学习策略**:定义技能获取的核心范式,主要分为三类:强化学习(包括无模型方法如QT-Opt、PTR和有模型方法如Dreamer、TD-MPC)、模仿学习(包括基于动作的模仿如行为克隆和基于观察的模仿)以及辅助任务学习(如世界建模和目标提取) [16][18] - **输入建模**:定义多模态感知的融合方式,主要包括:视觉-动作模型(基于2D视觉如Diffusion Policy或3D视觉如RVT)、视觉-语言-动作模型(整合语义时空信息,如RT-2、OpenVLA、SpatialVLA)以及触觉/力/音频等额外模态(如T-DEX融合触觉信号提升接触-rich操纵的鲁棒性) [19][20] - **潜态学习**:负责从输入数据中获取鲁棒通用的表征并优化其向动作的解码,包括在通用数据上预训练视觉编码器,以及将动作抽象为离散token(如VQVLA)或连续向量(如MimicPlay、LAD)以平衡泛化性与执行精度 [21][24] - **策略学习**:定义将表征解码为可执行动作的模型架构,主流范式包括:结构简单的MLP-based策略、利用注意力建模时序依赖的Transformer-based策略(如ACT)、通过迭代去噪生成多模态轨迹的扩散策略以及提升推理速度与平滑度的流匹配策略 [25] 核心挑战与未来方向 - **通用架构缺失**:现有方法多针对特定任务或机器人形态,缺乏能适配多样模态、载体及任务的通用基础模型,且长时程执行中易出现误差累积,难以维持稳定表现 [26] - **数据与仿真瓶颈**:真实世界机器人数据采集成本高、规模有限,而仿真环境与真实场景存在差异,导致模型迁移性能不佳,缺乏高效的数据循环机制 [27] - **多模态物理交互不足**:当前方法以视觉为中心,对触觉、力等物理交互信号的融合不够充分,难以应对可变形物体、复杂材料等接触动力学主导的场景 [28] - **安全与协作问题**:在人机共存环境中,现有方法在满足内在安全约束、意图推理与故障恢复能力上仍有欠缺 [29] - **未来研究方向**:针对挑战明确了四大重点:构建支持灵活模态接口与载体适配的通用“机器人真脑”架构;建立自主数据采集与提炼的“数据飞轮”并提升仿真保真度;融合触觉、听觉等多模态信号以强化物理交互;设计内在安全的控制策略并建立故障恢复机制,采用“学习+经典控制”的混合范式保障可靠性 [30]
代码生成要变天了?被质疑架空后,Yann LeCun携320亿参数开源世界模型“杀回来了”
AI前线· 2025-09-25 16:04
代码世界模型技术突破 - Meta FAIR CodeGen研究团队发布全球首个代码世界模型,该模型拥有320亿参数,是密集解码器自回归开放权重大语言模型[4] - 与传统模型依赖静态代码训练不同,CWM在中期训练阶段引入Python解释器和代理Docker环境的大量"观察—动作"轨迹数据,通过动态交互提升代码理解和推理能力[7] - 模型采用多任务强化学习技术,在可验证编码、数学和多轮软件工程等场景中强化推理和规划水平,使其能模拟代码逐步执行过程[7] - CWM支持最高131k token的上下文输入,为复杂编程和推理任务提供更强语境理解能力[10] - 训练数据涵盖预训练、中期训练和后期训练阶段,特别通过Python执行轨迹和ForagerAgent两项大规模数据收集工作增强世界建模能力[10] 模型性能表现 - 在SWE-bench Verified任务中取得65.8%的分数,领先所有开源同规模模型,接近GPT-4水平[8] - 在LiveCodeBench上达到68.6%的得分,在Math-500上高达96.6%,在AIME 2024上取得76.0%的优异成绩[8] 行业技术演进 - 传统代码生成模型主要通过海量代码语料库学习统计模式预测标记,但存在合理但错误的代码、缺乏状态意识和多步骤任务困难三大陷阱[12][14][15] - CWM创新性地学习"代码是如何运行的"而不仅是"代码是如何编写的",通过代码执行轨迹和交互历史作为核心训练数据实现突破[14] - 模型训练采用标准三阶段流程:在8192上下文长度上预训练包含8T token,在131072上下文长度上中期训练包含5T token,最后通过监督微调和强化学习进行后训练[15][16] 公司战略调整 - 此次发布是Meta AI业务重组后首款模型,团队由博士生和经验丰富的资深员工组成[5][18] - Meta在6个月内进行第四次AI业务组织架构改革,将新成立的AI部门超级智能实验室分成四个小组:TBD实验室、FAIR实验室、PAR团队和MSL Infra基础设施团队[23][24] - 架构调整中首席AI科学家Yann LeCun的头衔未提及,被外界解读为边缘化或降级,象征基础研究在公司AI战略中地位相对弱化[24][25] - TBD实验室内部讨论下一代AI模型可能不再开源,意味着公司从"全面开源"转向"选择性闭源"战略重心出现重大转折[25] - CWM作为重组后首款开源模型表明Meta并未彻底放弃开源,仍在代码生成等关键领域通过开源维持学术界与开发者社区联系[26]
大模型年中报告:Anthropic 市场份额超 OpenAI,开源模型企业采用率下降
Founder Park· 2025-08-04 21:38
基础大模型发展趋势 - 基础大模型正成为生成式AI核心引擎并重塑计算未来 其能力与成本控制的演进将推动系统 应用及产业格局变革 [2] - 模型API支出在6个月内从35亿美元增长至84亿美元 企业重心从训练微调转向模型推理 标志阶段性转折 [2] - 代码生成成为首个大规模爆发的AI应用场景 基础模型能力升级路径新增"带验证器的强化学习"(RLHF with verifiers) [2] 市场竞争格局变化 - Anthropic以32%企业使用率超越OpenAI(25%)和Google(20%) 成为市场新领跑者 Meta Llama占9% DeepSeek仅1% [9] - Anthropic崛起始于2024年6月Claude Sonnet 3 5发布 2025年系列版本(Claude Sonnet 3 7/4 Opus 4 Claude Code)巩固领先地位 [12] - 企业投入集中流向少数高性能闭源模型 开源采用趋势因前沿突破放缓而减弱 [3] Anthropic成功驱动因素 - 代码生成领域占据42%市场份额(OpenAI为21%) 催生19亿美元生态系统及AI IDE 应用构建工具等新形态产品 [13][14] - 采用带可验证奖励的强化学习(RLVR)突破数据瓶颈 成为提升模型可靠性与实际能力的关键路径 [15] - 率先实现Agent范式突破 通过多轮自我优化及工具调用提升模型执行力 2025年被称为"Agent之年" [16] 开源模型发展现状 - 开源模型运行任务占比从19%降至13% Meta Llama仍领先但Llama 4表现未达预期 [17] - 中国公司贡献突出开源模型(DeepSeek 字节跳动 阿里巴巴等) 但性能落后前沿闭源模型9-12个月 叠加部署复杂度导致份额停滞 [17][20] - 开源吸引力在于定制化 成本优势及私有化部署 但初创企业生产负载正加速转向闭源 [20] 企业模型选择行为 - 66%开发者选择原供应商升级 仅11%切换供应商 性能(非价格)是核心决策因素 [24][27] - 性能优先逻辑下 旧模型即使降价十倍也无法挽回用户 Claude 4发布一个月内即抢占45%用户 [27][30] - AI支出从训练转向推理 初创企业推理任务占比从48%升至74% 近半数企业主要计算任务由推理驱动 [31]
从OpenAI离职创业到估值1700亿美元,Anthropic用4年时间引硅谷巨头疯狂押注
量子位· 2025-07-30 17:44
融资与估值 - Anthropic即将达成新一轮50亿美元融资,总估值达1700亿美元[1] - 成为继OpenAI后第二家千亿估值的AI独角兽公司[2] - 估值从3月的615亿增长至1700亿,涨幅近3倍[3][5] - 融资总额将突破200亿美元大关[16] 竞争对手动态 - OpenAI最新估值达3000亿美元,xAI寻求2000亿美元估值融资[4] - Anthropic估值仅次于OpenAI和SpaceX(约4000亿)[8] 投资方与融资细节 - 本轮融资由Iconiq Capital主导,预计投资10亿美元[8] - 亚马逊可能参与本轮融资,此前已累计投资80亿美元[9][14] - 谷歌累计投资30亿美元[15] - 上一轮领投方Lightspeed继续参与,其他潜在投资方包括Menlo Ventures等[10] 产品与技术优势 - Claude 3.7 Sonnet在SWE-bench测试中超越GPT-4(70.3% vs 62.3%)[19][20] - Claude Opus 4在复杂任务理解上超越GPT-4和Gemini 1.0 Ultra[22] - Claude Code支持自然语言生成代码,主导代码生成领域[22][23] 收入与商业模式 - 70-75%收入来自API调用付费(如Claude Sonnet 4每百万token收费3/6美元)[25] - 消费者服务(如Claude Pro)仅占总收入10-15%[26] - 年化收入从年初10亿增长至40亿,预计年底达90亿[27] - 代码生成业务贡献主要收入增长,消耗token量为普通对话10-50倍[24][27] 战略合作 - 亚马逊为最大投资者,Anthropic优先使用AWS云服务及定制AI芯片[14] - 与亚马逊、谷歌达成深度合作,强化研发与市场竞争力[12][14][15]
AI编码工具双雄也开始商业互捧了?Cursor × Claude 最新对谈:两年后,几乎100%代码都将由AI生成!
AI前线· 2025-06-21 11:38
公司发展里程碑 - 成立不到两年即实现年经常性收入1亿美元,达到大多数SaaS公司需十年才能完成的里程碑 [1] - 公司成立一年半总融资达95亿美元,四位创始人年龄均为25岁 [5] - 4个月内ARR从1亿增至3亿美元,团队规模不足50人 [5] - 每日编写代码量达10亿行,工程师人均处理2万笔交易/秒 [3][7] 产品技术突破 - 通过Claude 3.5 Sonnet实现跨文件编辑能力跃升,推动产品大规模普及 [15][16] - 后台Agent功能支持异步任务处理,可完成90%工作后由开发者完善剩余部分 [23] - 采用"用Cursor构建Cursor"的递归开发模式,通过内部使用驱动产品迭代 [20][21] - 代码生成工具在用户中渗透率超90%,Tab功能完成70%手动编码内容 [39] 行业范式变革 - 开发者效率提升10倍,正在重构软件开发范式 [12] - 代码编写将遵循"AI生成+人类审核"模式,预计2027年AI参与度近100% [38][39] - 软件验证成为下一瓶颈,需解决代码审查与隐性知识获取难题 [24][27] - 代码结构趋向扁平化,API设计显性适配模型处理需求 [32] 核心竞争优势 - 专注开发者生产力工具赛道,拒绝盲目扩张保持小团队高效运作 [6] - 获得OpenAI领投的800万美元种子轮融资,形成战略联盟 [6] - 产品技术深度整合Claude系列模型,持续优化代理编码能力 [34][35] - 通过严格限制团队规模(<50人)维持极高人均产出效率 [5][7] 未来发展方向 - 重点突破大型代码库理解能力,解决数百万文件级别的复杂场景 [27][28] - 探索软件自适应进化,实现系统根据用户交互实时调整功能 [41] - 深化非技术因素整合,如销售端需求与代码决策的关联 [30] - 持续优化模型在工具链集成、环境迁移等方面的工程实践 [26]
AI 编程终结的不是代码,而是作为「容器」的软件
Founder Park· 2025-06-03 20:56
AI驱动的软件生产变革 - 大语言模型(LLM)将软件开发的边际成本压至趋近于零 类似互联网对内容生产的颠覆效应 [3][6] - 代码生成成本降至零后 传统软件作为独立"应用程序"或"平台"的形式将逐渐消失 [3][6] - 工作重点从"怎么写代码"转变为"描述需求" 模型自主决定实现方式 [10] 产业层级重构 - 算力作为最底层资源 正从中心化数据中心向边缘设备渗透 本地模型开始部署于终端设备 [13] - 上下文数据(用户习惯/偏好/历史)构成中间层 使模型比公开语料更了解个体需求 [13] - 信任成为最稀缺的顶层资源 决定AI代理能否代表用户做决策 [13] 软件形态进化 - 软件容器的概念正在消融 功能将脱离特定应用形态实现自由流动 [15][16] - 历史类比显示 内容自由流动会导致载体消亡(如报纸→网页 CD→流媒体) [15] - 未来软件功能将实现"无处不在 触手可及"的无限调用状态 [16] 生产力跃迁 - 原本需要团队完成的软件原型 现可通过单一提示词即时生成 [8] - AI赋予"描述"这一新生产动词 取代Web2.0时代的"上传"动词 [10] - 系统响应速度将成为新竞争维度 透明度让位于便利性 [13]