Workflow
机器之心
icon
搜索文档
继宇树后,唯一获得三家大厂押注的自变量:具身模型不是把DeepSeek塞进机器人
机器之心· 2026-01-14 15:18
文章核心观点 - 具身智能的核心战场正从移动、导航转向由“大脑”主导的“操作”领域,其关键在于构建独立于语言和多模态模型的“物理世界基础模型”,以实现与复杂物理世界的深度交互和自主操作能力 [1] - 自变量公司认为,具身智能并非AI模型的下游应用,而需要一种“生于物理世界、用于物理世界”的平行新范式,并已通过自研的端到端、通用型基础模型WALL-A系列在此方向取得进展,其模型在真实商业场景中展现了稳定运行能力 [7][12][13] 对具身智能本质的重新定义 - 物理世界的关键信息(如瓶盖是否拧紧)往往隐藏在“看不出来但会影响行为”的细节中,需要通过真实交互而非静态观察才能暴露 [4][6] - 物理智能要求模型能处理长行为序列并理解因果在时间中的展开,还需具备对未来进行内部推演的能力,这是静态训练的语言或多模态模型难以胜任的 [6] - 因此,需要构建与语言模型、多模态模型平行存在的“物理世界基础模型”,而非作为其下游应用 [7] 构建物理世界基础模型的方法论 - **采用端到端统一架构**:信息必须在统一空间流动,以发现深层关联,避免模块化拼接导致的细节和物理直觉损失,这是实现整体性、具身理解的关键 [9][10] - **打造通用模型**:让模型同时学习大量杂糅任务,迫使其发现背后的物理规律、物体属性等共性结构,从而降低学习新任务的数据需求,甚至出现“涌现” [11] - **升级损失函数**:从预测动作升级为预测“多模态状态”(如视觉画面、触感变化),以强迫模型理解因果律,将物理世界复杂性压缩进模型 [12] - **模型能力体现**:自研的WALL-A模型不仅能输出动作,还能进行语言对话、根据图片重建三维环境、预测未来,展现了物理世界基础模型的雏形 [12] 自研基础模型的战略选择 - 公司坚持基础模型自研,源于判断具身智能下一阶段竞争本质是数据闭环构建与模型进化能力的竞争,模型不掌握在自己手中则竞争无从谈起 [15] - 物理世界的属性无法从互联网文本习得,必须建立从数据采集到模型架构的完整自研体系,原始创新者将定义规则 [15][16] - 公司拥有自研的核心模型WALL-A和轻量化模型WALL-OSS,其架构首创了视觉语言动作模型与世界模型深度融合的系统范式,并率先实现了具身多模态思维链 [16] - 公司将WALL-OSS开源,并围绕其发起“具亮计划”黑客松,鼓励开发者跑通从数据到真机部署的完整链路,以推动技术社区发展 [16][20] 行业挑战与前景 - 机器人领域未出现类似语言模型的“涌现时刻”,因为物理世界的规律(重力、摩擦等)未被显式编码,散落在交互细节中,构建基础模型如同“重走婴儿的路” [21][22] - 构建物理世界基础模型是学习人类“做得出但说不清”的东西,这可能是智能更本源的形态,道路漫长但迷人 [22]
仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的
机器之心· 2026-01-14 13:37
Anthropic发布Cowork智能体工具 - 公司发布名为Cowork的全新智能体工具,是Claude Code的简化版本,专为普通用户设计,旨在让非技术用户也能轻松处理非技术性任务[1] - 该工具目前作为研究预览版,仅向macOS桌面端的Claude Max订阅者开放,用户通过授权访问特定文件夹,即可用自然语言指令让AI自主读取、编辑或创建文件[6] - Cowork具备自动制定计划、并行执行任务、实时更新进度并邀请用户参与指导的能力,具体功能包括自动整理下载文件夹、从截图生成电子表格、基于散乱笔记起草报告,以及连接Google Calendar等现有工具直接生成文档或演示文稿[6] 产品的开发与能力展示 - Cowork的开发仅用了一周半时间[4] - 其全部代码均由Claude Code编写完成,这被视作Claude Code能力的最佳展示[7] - 有用户实测反馈称,安装Cowork后仅用2小时就完成了原本需要2个月的工作,内容包括生成职位描述、营销策略文档、合作伙伴邮件、网站文案等,导致其日程、待办和收件箱清空,对后续工作安排感到“惊慌”[10] 对行业和创业生态的冲击 - 该产品的出现被视为对当前AI创业生态的冲击,有观点认为这将使许多YC(Y Combinator)创业项目“原地蒸发”,因为真正的价值在于AI地基和模型本身,而非依附于巨头的“套壳挂件”[11] - 已有类似产品的“受害者”出现,有用户表示因Cowork的推出导致其产品失去竞争力,从而选择将项目开源,该项目在GitHub上快速获得了3千个Star[13][14] - 社区出现调侃,称当前科技创业似乎只需要一个聪明的大脑和一张能支付AI公司账单的信用卡,反映了AI工具对创业门槛和结构的影响[16] 市场反应与用户适应 - 对于用户分享的极高效率反馈,评论区存在质疑,认为可能是夸张的营销或搞笑帖[11] - 尽管AI助理智能体日益强大,但用户对智能体完全代理工作任务似乎尚未做好预期和准备,有用户表示在效率大幅提升的同时感到自己“完全没用”[17] - 文章提出思考,相比于其他公司通过巨额并购投资构建生态,Anthropic借助AI能力,在短时间内以低成本方式打造用户端智能体的策略可能更具价值[18]
AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
机器之心· 2026-01-14 13:37
文章核心观点 - 针对开源大语言模型生成代码存在运行时错误、调试成本高的问题,提出了一种名为自适应渐进式偏好优化(AP2O)的新方法,并构建了AP2O-Coder框架 [2][3] - 该方法借鉴人类“按题型高效刷题”的学习模式,通过“考试-分析-纠错-小测”的系统性流程,旨在提升模型代码纠错能力,并在多款主流开源模型上实现了最高3%的pass@k性能提升,同时降低了训练数据需求量 [3] 现有方法的核心挑战与针对性设计 - 现有基于偏好优化的方法(如DPO)在代码纠错任务中面临三大挑战:错误类型感知缺失、训练聚焦性不足、动态适配能力薄弱 [5][12] - 错误类型感知缺失:仅依赖单元测试的二元反馈,无法知晓具体错误类型(如KeyError、ValueError),导致模型难以定位错误原因 [5] - 训练聚焦性不足:训练数据随机打乱输入,模型需在多种错误类型间频繁切换,纠错学习针对性不强 [12] - 动态适配能力薄弱:静态构建的训练集无法匹配模型训练过程中不断变化的能力短板,易引发灾难性遗忘或资源浪费 [12] - AP2O-Coder针对性地借鉴人类“错题整理-专题突破-定期复盘”的学习模式,构建了包含四大核心模块的优化框架 [6] AP2O-Coder的核心技术框架与工作机制 - 框架包含四个关键步骤:代码生成评估(Exam)、错误诊断分析(Analysis)、渐进式偏好优化(Correction)、自适应错误回放(Quiz) [8] - **代码生成评估(Exam)**:为掌握模型初始能力边界,让LLM在M个编程任务上生成N个候选答案,通过单元测试获取“通过/失败”标签,形成初始数据集 [10] - **错误诊断分析(Analysis)**:使用编程语言专用分析工具对失败答案进行结构化解析,标注具体错误类型并统计频率,构建结构化的“错题本” [11] - **渐进式偏好优化(Correction)**:基于错题本设计差异化优化顺序,对小参数模型(如0.5B)采用“低频错误->高频错误”(L2H)路径,对大参数模型(如34B)采用“高频错误->低频错误”(H2L)策略,通过构建DPO滑动窗口分阶段集中优化特定错误 [13] - **自适应错误回放(Quiz)**:定期在小验证集上评估模型性能,实时捕捉当前高频错误类型,将对应失败答案重新纳入训练,动态调整训练数据分布以聚焦能力短板 [14] 实验验证与结果分析 - 研究在6款主流LLM上进行了系统验证,包括代码专用模型(CodeLlama、DeepSeek-Coder、Qwen2.5-Coder)与通用模型(Llama3、Qwen2.5、Qwen3),参数规模覆盖0.5B至34B,实验基准包括EvalPlus(HumanEval/MBPP)与LiveCodeBench v6 [16] - **性能提升有效性**:AP2O-Coder在不同类型与规模的模型上均展现出稳定性能改进,在EvalPlus(HumanEval)基准上,AP2O-Coder (H2L) 即使对30B+大参数模型也能实现2.8%至3.4%的性能优化,且未出现性能退化现象 [16] - **错误抑制效果与泛化能力**:相较于SFT、DPO等基线方法,AP2O-Coder能有效降低各类错误发生频率,且未引入新错误类型,在Qwen2.5-Coder-7B实验中,高频错误“WrongResult”发生率显著下降,IndexError等小众错误在训练后期实现清零,同时在pass@5、pass@10指标上的稳定提升表明其增强了模型代码生成的泛化能力 [22] - **样本效率优化**:AP2O-Coder通过错误类型的精准聚焦,显著提升了训练数据利用效率,仅需4%至60%的偏好数据即可达到传统DPO方法的最优性能,在32B参数规模模型上数据需求量减少更为明显 [25] - **通用LLM适配性**:AP2O-Coder不仅适用于代码专用LLM,也能有效支持通用LLM向代码领域适配,在Qwen3、Llama3等通用模型的实验中,经过该方法优化后,模型在MBPP基准上的pass@1分数显著提升 [28] 研究发现与方法特性 - 对于Qwen2.5-Coder,小参数模型(≤ 3B)采用“低频错误->高频错误”(L2H)优化顺序更具优势,可避免模型因能力有限陷入高频常见错误的学习困境 [31] - 大参数模型(≥ 7B)采用“高频错误->低频错误”(H2L)顺序效果更优,能够充分发挥其强学习能力,快速实现整体错误率的下降 [31]
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
机器之心· 2026-01-14 09:39
1X公司技术突破:NEO机器人引入世界模型 - 公司推出基于视频预训练的世界模型1XWM,并将其集成至人形机器人NEO中,标志着其从依赖远程操控或死记硬背动作,转向具备通过“想象”来规划行动的能力[3][4] - 该技术使NEO能够通过观看海量网络视频和人类第一视角录像来理解物理世界运作规律,并在接到指令时,先在脑海中生成一段“成功完成任务”的视频,再倒推出具体动作[4] - 官方承认技术存在“脑子学会了,手没学会”的挑战,即生成视频完美但实际动作可能失败的情况[5] - 相关推文在截稿时浏览量已突破500万,显示市场关注度极高[6] 技术范式:从VLA到世界模型 - 当前许多机器人基础模型采用视觉-语言-动作范式,其视觉语言模型侧重于语义理解,缺乏对物理动态的预测,导致学习简单任务也需要数万小时昂贵的机器人数据[10] - 1XWM采用世界模型驱动策略,通过文本条件下的视频生成来推导机器人动作,其核心优势在于能够借助互联网规模视频学习真实世界动力学,无需大规模机器人数据预训练或遥操作演示,即可泛化到新物体、新运动和新任务场景[11] - 这被视为机器人智能范式的一次转变,使机器人能直接受益于视频预训练的规模化能力提升[11] 1X世界模型的技术架构与训练 - 1XWM主干是一个140亿参数的文本条件扩散模型,训练分为三阶段:先在互联网规模视频数据上预训练,再用900小时人类第一视角视频进行中期训练,最后用70小时NEO机器人数据进行具身微调[16][18] - 公司采用多阶段训练策略,并利用视觉语言模型为简要的第一视角任务描述生成更详细的描述性字幕,通过“字幕上采样”提升模型对提示词的遵循能力[16] - 模型包含世界模型主干和逆动力学模型两部分:世界模型负责高保真预测场景演化;逆动力学模型则负责从生成帧中预测出精确的动作序列,并施加运动学约束以确保动作可行性[17] - 逆动力学模型在400小时未过滤的机器人数据上训练,使其能准确追踪NEO在任意状态下的运动[16] 模型能力与实验评估 - 实验评估显示,搭载1XWM的NEO能够执行多种超出既有经验的任务,包括抓取分布内与分布外的物体、操作具备复杂可供性的新物体,以及完成需要全新动作模式的任务[24] - 在需要双手协调和人机交互的任务上,NEO也展现出能力,表明此类知识来源于视频预训练和第一人称视角的人类交互训练,并因其类人身体结构而得以直接迁移[28] - 系统性实物实验显示,1XWM在多种动作原语上保持稳定成功率,但对倒液体、绘图等精细操作任务仍具挑战性[30] - 研究团队通过并行生成多个视频并执行质量最好的一个来提升成功率,该选择过程可手动完成,也可使用视觉语言模型评估器自动化[32] 关键训练要素分析 - 消融分析证实,“字幕上采样”在所有评测数据集上都能提升视频生成质量,因为更细致的字幕与预训练文本条件更匹配,能更清晰引导动作生成[39] - 引入第一视角人类数据显著提升了在新任务和分布外场景下的生成质量,说明这类数据为操作任务提供了可迁移的通用先验[39] - 然而,在已有大量NEO数据覆盖的分布内任务上,额外加入第一视角数据可能会稀释后训练数据分布,对效果提升有限甚至略有负面影响[40] - 后训练数据集主要包含高质量的桌面抓取和放置数据,占比98.5%[21]
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
机器之心· 2026-01-14 09:39
文章核心观点 - 大语言模型在工程上取得了巨大成功,但其理论研究仍处于起步阶段,被视为“黑盒”,存在理论与应用同步滞后的挑战[2][5] - 为了推动LLM研究从“工程启发式”向“严谨科学”转型,研究团队提出了一种基于生命周期的统一分类法,将LLM理论研究整合为六个阶段,并系统综述了驱动其性能的底层理论与机制[2][6] LLM理论与机制的六大阶段 - **数据准备阶段**:探讨数据混合的数学逻辑、去重与过滤的理论保障以及记忆机制的量化分析,是决定模型能力的基石[11][18] - **模型准备阶段**:从理论上评估架构能力,理解Transformer结构的表示能力极限、优化景观,并从展开优化视角设计新架构[11][21] - **训练阶段**:研究简单学习目标如何锻造复杂涌现能力,分析Scaling Laws的本质、预训练的获益机制以及参数高效微调(如LoRA)的机制[11][24] - **对齐阶段**:探讨鲁棒对齐在数学上是否可实现,分析RLHF的动力学,研究“超级对齐”与“弱到强泛化”[11][27] - **推理阶段**:解密冻结权重的模型如何在测试时模拟学习与算法执行,分析提示工程、上下文学习的机制以及推理时扩展带来的能力提升[12][31] - **评估阶段**:从理论上定义与衡量复杂的人类价值观,探讨基准测试的有效性、LLM-as-a-Judge的可靠性以及安全性与透明度的形式化保证[13][34] 各阶段代表性研究内容与前沿挑战 数据准备阶段 - 数据混合的数学逻辑:利用多源学习视角,证明当多任务结构共享时,泛化界限取决于总压缩编码长度而非原始参数量,并通过“数据混合定律”预先计算大规模混合策略性能[18] - 前沿开放问题:包括合成数据能否带来理论上的性能提升以实现自主进化,以及如何从理论上规避或缓解训练与测试数据泄漏带来的隐私挑战[18] 模型准备阶段 - 表示能力的边界:探讨Transformer作为通用逼近器的数学证明及其图灵完备性,并通过电路复杂度理论分析其在处理层级结构语言时的表达上限与下限[21] - 理论驱动的架构设计:从“展开优化”和“测试时训练”视角,将网络层等效为优化算法的迭代步骤,为理解前沿模型架构提供统一框架[21] - 前沿架构探索:关注线性注意力模型是否存在表示瓶颈(如关联回想能力缺失),以及循环架构是否能通过增加推断深度以更少参数实现更强泛化[21] 训练阶段 - 预训练的收益机制:论证预训练本质是学习数据的底层上下文结构,提出“压缩即智能”观点,并从信息论视角论证LLM作为无损压缩器,其压缩效率与下游任务性能存在强线性关系[24] - Scaling Laws的本质:通过对计算、数据和参数规模的幂律关系分析,探讨能力“涌现”背后的连续性过程,并分析流形假设下内在维度如何决定缩放指数[24] - 微调的数学保障:针对LoRA等技术,分析其在低秩子空间中的优化动力学,证明低秩适配器在对齐预训练特征梯度方面的有效性,并揭示权重初始化对收敛稳定性的关键影响[24] - 前沿优化问题:包括如何实现小规模模型上的最优超参数“零样本”迁移至万亿级模型,以及矩阵敏感型优化器如何利用Hessian结构加速收敛[24] 对齐阶段 - 对齐的理论基础:分析安全对齐的数学边界,探讨现有方法是否只是“浅层防御”,以及对齐后模型是否存在回复原始分布的“弹性”,认为只要有害行为概率未被完全消除,通过对抗性提示触发违规在数学上不可避免[27] - 弱到强泛化:从偏差-方差分解等视角,分析强模型纠正弱信号错误的机制,并界定泛化增益,以解决超智能时代弱监督者如何可靠控制强受训者的问题[27] - 强化学习的作用:探讨RL是激活了预训练中的潜在模式还是真正扩张了推理边界,同时量化对齐与预训练知识保持之间的权衡,并从变分信息瓶颈视角提出缓解“Reward Hacking”的方法[27] - 深层开放挑战:包括SFT和RL在塑造模型行为上的本质区别,以及如何在缺乏验证器的开放领域设计高效的奖励信号[27] 推理阶段 - 提示工程与机制分析:从任务重参数化角度理解Prompt,利用Token分布动力学和归纳头机制,剖析Prompt如何引导模型内部的信息路由[33] - 上下文学习的机制:对比“算法执行”与“任务定位”两种观点,探讨Transformer是否在推断时隐式运行优化算法[33] - 推理时扩展:分析思维链如何作为模型的“深度扩展器”,证明其能显著提升Transformer的计算复杂度上限,并探讨搜索算法如何通过外部计算换取推理质量[33] - 特殊理论现象:包括“过度思考”(投入更多计算资源是否总是正向)以及“隐式推理”(模型能否在隐空间中完成多路径思维并行)[33] 评估阶段 - 基准测试理论:利用不同理论框架分析传统基准测试的饱和问题与捷径学习现象,并剖析“LLM-as-a-Judge”模式中的系统性偏见[38] - 安全性与透明度:深入探讨可解释性技术对模型内部特征的解构,并利用计算不可解性证明在任何可计算的LLM中,幻觉都是不可消除的理论必然[38] - 抗误用机制:通过水印等技术,探讨识别AI生成内容与保持文本质量之间的理论权衡[38] - 内部表示讨论:包括语义概念(如真实性)在模型潜空间中是否以线性方向编码的“线性表示假设”,以及“逆转诅咒”和“位置偏差”等推理失效模式揭示的自回归模型本质缺陷[38]
视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说
机器之心· 2026-01-13 18:04
研究背景与核心问题 - 视觉基础模型长期面临“语义理解”与“像素细节还原”难以兼得的矛盾,导致系统需将两套表示拼合使用,造成训练效率下降和表示互相干扰[3] - 该矛盾的本质在于如何构建一个既能共享语义、又能保留各模态细粒度信息的统一世界信息表示[4] 核心理论:棱镜假说 - 论文提出“棱镜假说”,旨在通过统一自编码器来协调语义与像素表示[5] - 核心洞察是:语义编码器(如DINOv2、CLIP)的能量更集中于低频,擅长类别、属性等抽象信息;而像素编码器(如SD-VAE)则保留更多中高频细节,擅长纹理、边缘等重建[5] - 通过能量谱分析证实,跨模态语义对齐主要依赖于共享的低频基座,文本-图像检索的R@5在去除低频后会崩塌至接近随机水平[6] - 将真实世界输入视为投影到同一“特征频谱”上,低频对应全局结构与语义,高频对应局部细节与质感[10] 核心方法:统一自编码器 - UAE方法围绕“低频语义基座 + 高频细节残差”的思路,将统一编码器学习为多频段潜变量,结构化地拆分语义与细节的职责[13] - 统一编码器从预训练的语义编码器(如DINOv2)初始化,以构建统一潜空间[14] - 采用残差拆分流,在频域使用FFT和径向掩码进行可控的频带分解,将潜变量拆分为多个频带,并强调分解的可逆性与空间一致性[15] - 引入频带调制器,训练时对高频带进行噪声扰动以增强鲁棒性,然后将各频带在通道维度拼接融合,作为解码器的唯一输入[16] - 语义对齐损失仅施加在最低频的前K个频带上,以继承语义先验,同时放开对高频细节的约束以学习像素重建[17] 实验结果:重建质量 - 在256×256图像重建任务上,UAE在ImageNet数据集上达到PSNR=33.08、SSIM=0.94、rFID=0.16;在MS-COCO数据集上达到PSNR=32.84、SSIM=0.94、rFID=0.17[19] - 在相同DINOv2编码器设置下,UAE相比RAE基线在PSNR/SSIM上更高,并且rFID下降超过90%[20] - 实验验证了低频带承载语义与全局结构,而更高频带逐步承载边缘、纹理等细节残差[21] - 与其他方法对比,UAE (DINOv2-L) 在ImageNet-1K和MS-COCO 2017的重建指标上表现优异[23] 实验结果:生成与语义理解能力 - 在ImageNet 256×256类条件生成任务上,UAE达到gFID=1.68、IS=301.6[25] - 在ImageNet-1K线性探测任务中,UAE在ViT-B骨干下达到Top-1准确率83.0%,与RAE性能持平[26][27]
相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
机器之心· 2026-01-13 18:04
活动概览 - 上海人工智能实验室将于2026年1月22日在新加坡中心城区举办“北极星X星启交流会暨云帆AI Talent Meetup” [1][7] - 活动旨在与全球同行进行深度交流与研讨 主要面向AAAI论文作者 多学科交叉领域的教授 博士后及产学研创新实践者 [1] - 该系列交流会已在中国 美国 新加坡 加拿大等地成功举办多场 为数千名AI人才连接全球机遇 [1] 活动详情 - 活动时间为1月22日17:30-20:30(新加坡时间) 报名截止时间为1月19日12:00p.m. [4][7] - 活动为邀约制 需提交报名信息 审核通过后将收到邀请函 席位有限 [2] - 咨询邮箱为luochen@pjlab.org.cn [5] 活动议程亮点 - 顶尖学术分享:上海AI实验室科学家将分享创新成果并进行前沿技术主题演讲 [7] - 实验室直通车:参与者可与实验室团队负责人零距离交流 直通核心科研与工程岗位 [7] - 产学资源直通:实验室将邀请合作科研机构 高校及企业嘉宾分享 解锁前沿技术洞察 [7] - 具体议程以现场实际为准 [8] 公司介绍与人才吸引 - 上海人工智能实验室定位为国际级人工智能新型科研机构 采取有组织科研与原创探索深度融合的研究范式 [9] - 公司目标是建成世界一流的人工智能实验室 成为享誉全球的人工智能原创理论和技术的策源地 [9] - 公司为人才提供顶级科研平台与资源 包括超大规模算力集群和数据支持 [10] - 公司提供清晰的职业发展通道 通过链接顶尖高校 科研机构和行业企业 助力人才承担重大项目并获得产业验证价值的机会 [11]
不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?
机器之心· 2026-01-13 12:08
文章核心观点 - 联想ThinkStation PGX是一款1升体积的桌面AI工作站,其核心价值在于配备了128GB统一内存和原生NVIDIA CUDA生态,为开发者在本地微调和运行30B参数级别的多模态大模型提供了“确定性”解决方案,填补了消费级显卡与工业级服务器之间的市场空白 [13][19][50][51] 行业痛点与需求 - 将AI引入传统行业(如机械、金融)需要能理解复杂图纸和图表的多模态助手,这对模型的理解能力和部署成本提出了高要求 [1] - 30B参数的多模态模型被认为是“黄金尺寸”,在理解能力和部署成本间取得平衡,适合企业私有化部署 [2][3] - 然而,多模态模型微调面临巨大显存挑战:处理高分辨率图像产生大量视觉Token,加上梯度、优化器状态和激活值,使得显存需求远超纯文本模型 [4][5][6] - 顶级消费级显卡(24GB显存)无法满足30B多模态模型微调需求,常见妥协手段(如Batch Size降为1、梯度检查点、极限量化)会严重牺牲训练速度或模型精度 [8][9][16] - 虽然Mac Studio等设备拥有大内存(128GB),但其生态(苹果芯片)与主流的Linux+CUDA生产环境存在割裂,导致开发效率低下和部署迁移风险 [11][12] 联想ThinkStation PGX产品详解 - **核心配置**:基于NVIDIA Grace Blackwell架构的GB10超级芯片,拥有128GB统一内存,CPU与GPU可通过NVLink-C2C高速共享该内存池 [17][19][25][26] - **产品定位**:是NVIDIA DGX Spark参考设计的OEM量产版本,由联想负责工程化制造与定制 [17] - **物理设计**:体积仅1升,采用蜂窝状散热设计以压制GB10芯片高达170W(整机240W)的功耗,实测GPU温度控制良好 [17][41][33] - **存储与系统**:提供1TB和4TB存储版本,预装NVIDIA AI软件栈,运行原生Linux系统和CUDA环境 [21] - **扩展能力**:内置NVIDIA ConnectX-7网络技术,支持两台PGX通过NVLink互联,组合成拥有256GB统一内存的系统 [45][48] 性能实测与优势 - **微调实测**:在PGX上成功对完整的Qwen3-VL-30B-A3B-Instruct模型使用FoodieQA数据集进行微调,训练稳定后GPU使用率约23%,统一内存占用接近60GB [28][32] - **性能表现**:60GB的内存占用在消费级显卡上会导致溢出,但在PGX上游刃有余,且设备温度控制出色(最高约40℃) [32][33] - **训练效果**:微调后模型在验证集上的损失从4.03降至1.06,下降了74% [34] - **核心优势总结**: - **从容加载**:无需量化即可加载FP16/BF16精度的原始大模型 [43] - **大胆训练**:可开启较大Batch Size,提升训练效率,避免内存溢出(OOM) [43] - **原生体验**:纯正CUDA生态,代码无缝迁移,无需环境适配痛苦 [43] - **确定性**:消除了本地微调大模型时在显存、量化、算子兼容性方面的不确定性 [50] 应用场景与目标用户 - **算法工程师的本地沙盒**:适用于金融、医疗等数据敏感行业,可在本地验证大模型想法,确保数据不出域 [43] - **野外科研的离线算力站**:便携性支持在无网络环境下处理海量监控或勘探影像 [43] - **长视频生成与数字艺术**:大内存支持生成更长时间的连贯视频,并本地化运行私有风格模型库 [43] - **具身智能仿真**:可在桌面运行高保真仿真环境训练,并零成本迁移至同架构的Jetson模块部署 [43] - **目标用户**:受显存焦虑困扰的专业开发者、对数据安全要求高的科研团队、希望快速验证创意的初创公司 [51][52] 市场定位与价值主张 - **定价**:1TB版本售价31,999元,4TB版本售价36,999元,价格相当于一块高端专业显卡 [51] - **价值对比**:以低于3.7万元的价格,提供了相当于昂贵专业计算卡或云端A100实例的128GB级显存能力,同时保障数据完全私有 [51][52] - **服务保障**:联想提供中国区独享服务,包括3年上门保修、硬盘数据恢复服务以及覆盖广泛的售后技术支持 [46] - **购买建议**:对于需要本地处理30B+多模态模型的开发者,ThinkStation PGX被认为是4万元以内唯一的最优解,其价值在于让开发者从配置调试中解放,回归创造力本身 [51][52][53]
华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能
机器之心· 2026-01-13 12:08
文章核心观点 华为研究团队推出的SWE-Lego是一个仅基于监督微调(SFT)的软件工程代码智能体解决方案,旨在解决复杂软件工程任务训练成本高、高质量数据稀缺的挑战[4][9] 该方法无需复杂的强化学习(RL)流程,通过在数据构建、训练方法和测试策略三方面的创新,在SWE-bench Verified基准测试中取得了同等规模开源模型的SOTA性能,甚至超越部分更大规模闭源模型[2][5] 混合数据集构建 - 采用真实世界数据与合成数据互补的混合构建策略,共包含32,119个高质量任务实例和18,110个验证轨迹(其中14,110个完全解决,4,000个半解决),覆盖3,251个代码仓库[14][24] - 真实数据来自严格筛选的GitHub Pull Requests,提供贴近生产环境的复杂性和真实性,但数量有限且成本较高[14] - 合成数据通过AST转换和LLM重写在真实代码库中故意注入Bug生成,具有可扩展、成本低、可共享沙箱的优势,但复杂度相对较低[15] - 通过严格的轨迹验证流程确保数据质量,包括防止Git历史泄露导致的解决方案泄露、处理工具调用错误、精简工具集以及过滤低质量轨迹[20][21][22] - 实验表明,混合数据集是性能提升的最大驱动力,为SWE-Lego-Qwen3-32B模型贡献了+25.6%的性能提升[13][25] 改进的监督微调 - 引入步骤级错误掩码技术,在保持完整轨迹上下文的同时,仅对正确的步骤计算损失,避免模型学习专家轨迹中的中间错误步骤[26][28] - 采用基于轨迹交互轮数的课程学习策略,将数据按难度分为简单(0-50轮)、中等(50-70轮)、困难(70-100轮)三个等级,并分阶段进行训练[29] - 改进的SFT方法(错误掩码+课程学习)为SWE-Lego-Qwen3-32B模型带来了+3.8%的性能提升[13] - 经过改进的SFT训练后,SWE-Lego-Qwen3-8B和32B模型在SWE-bench Verified上的解决率分别达到42.2%和52.6%[5][33] 测试时扩展策略 - 测试时扩展(TTS)可在不重新训练的情况下,通过分配额外测试阶段计算资源提升模型性能,为SWE-Lego-Qwen3-32B模型贡献了+6.2%的提升[13] - 策略包含两个正交维度:串行扩展(增加最大交互轮次)与并行扩展(生成多个候选轨迹并选优)[34] - 在有限测试预算下,应优先进行串行扩展至性能饱和(约100-140轮),再将剩余资源分配给并行扩展[34][37] - 在并行扩展中,比较了生成式与回归式两种打分器,生成式打分器在候选轨迹数量(K值)增加时表现更优且持续改进,而回归式打分器易趋于饱和[37][38][39] - 使用生成式打分器的SWE-Lego-Verifier-8B在TTS@16设置下达到49.6%的解决率,超越了OpenHands-Critic-32B(44.0%)和R2E-Gym-Verifier-14B(47.0%)[40] 性能成果与行业意义 - SWE-Lego在SWE-bench Verified基准测试中,基于Qwen3系列模型微调后,其8B和32B版本分别达到42.2%和52.6%的解决率,取得了同等规模开源模型的SOTA水平[5][8] - 该方法证明了仅使用轻量级的SFT方法,无需复杂RL流程,也能在软件工程任务上达到顶尖性能,降低了训练成本与复杂度,对中小团队更具可行性[2][43] - 项目已全面开源,包括代码、模型和全部数据,可供行业直接获取和使用[2] 未来展望 - 未来工作将探索更大模型与更多数据的组合,并将方法扩展到Python之外的其他编程语言及其他类型的代码任务[43] - 计划处理企业级的长序列、多文件复杂任务,并将SWE-Lego应用到真实的软件开发流程中[43]
OpenAI的首款硬件:是AI耳机,今年销量要冲5000万
机器之心· 2026-01-13 12:08
OpenAI硬件项目“Sweetpea”概况 - 公司正在开发一款代号为“Sweetpea”的特殊音频产品,旨在取代苹果AirPods [1] - 富士康已接到通知,要求在2028年第四季度前为五款设备做好量产准备,其中还包括一款家居设备和一款手写笔在研发考量中 [1] 产品细节与规格 - 产品预计于9月左右发布,第一年预估出货量高达4000-5000万部,作为对比,苹果AirPods系列年出货量约6000-7000万支 [3] - 工业设计由苹果前首席设计官Jony Ive团队操刀,设计“独一无二、前所未见”,主机采用金属材质,外形酷似卵石 [3] - 佩戴方式为从“卵石”主机内取出两个胶囊状单元佩戴在耳后,目前没有采用骨传导的计划 [3][6] - 核心性能方面,主处理器目标锁定为2nm制程的智能手机级芯片,最看好三星Exynos,可使大部分AI推理任务在本地运行 [3] - 项目还开发了一款定制芯片,允许用户通过指令控制Siri来“替代iPhone的操作” [3] 战略背景与定位 - 此次硬件尝试是公司进军可穿戴AI市场的一次大胆尝试 [7] - 公司于去年5月以65亿美元收购了由Jony Ive创办的硬件初创公司io,并于2025年7月完成团队整合,旨在开发“为AI时代而生”的新型计算设备 [7] - 该设备延续了io公司的思路,旨在打破以智能手机屏幕为核心的交互逻辑,寻找更自然、更具直觉的AI交互形态 [7] - 由于选材和组件规格更接近手机,外界担心其物料清单成本极高,但据称设备功能将比现有产品更强大 [4]