Workflow
机器之心
icon
搜索文档
相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
机器之心· 2026-01-13 18:04
活动概览 - 上海人工智能实验室将于2026年1月22日在新加坡中心城区举办“北极星X星启交流会暨云帆AI Talent Meetup” [1][7] - 活动旨在与全球同行进行深度交流与研讨 主要面向AAAI论文作者 多学科交叉领域的教授 博士后及产学研创新实践者 [1] - 该系列交流会已在中国 美国 新加坡 加拿大等地成功举办多场 为数千名AI人才连接全球机遇 [1] 活动详情 - 活动时间为1月22日17:30-20:30(新加坡时间) 报名截止时间为1月19日12:00p.m. [4][7] - 活动为邀约制 需提交报名信息 审核通过后将收到邀请函 席位有限 [2] - 咨询邮箱为luochen@pjlab.org.cn [5] 活动议程亮点 - 顶尖学术分享:上海AI实验室科学家将分享创新成果并进行前沿技术主题演讲 [7] - 实验室直通车:参与者可与实验室团队负责人零距离交流 直通核心科研与工程岗位 [7] - 产学资源直通:实验室将邀请合作科研机构 高校及企业嘉宾分享 解锁前沿技术洞察 [7] - 具体议程以现场实际为准 [8] 公司介绍与人才吸引 - 上海人工智能实验室定位为国际级人工智能新型科研机构 采取有组织科研与原创探索深度融合的研究范式 [9] - 公司目标是建成世界一流的人工智能实验室 成为享誉全球的人工智能原创理论和技术的策源地 [9] - 公司为人才提供顶级科研平台与资源 包括超大规模算力集群和数据支持 [10] - 公司提供清晰的职业发展通道 通过链接顶尖高校 科研机构和行业企业 助力人才承担重大项目并获得产业验证价值的机会 [11]
不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?
机器之心· 2026-01-13 12:08
文章核心观点 - 联想ThinkStation PGX是一款1升体积的桌面AI工作站,其核心价值在于配备了128GB统一内存和原生NVIDIA CUDA生态,为开发者在本地微调和运行30B参数级别的多模态大模型提供了“确定性”解决方案,填补了消费级显卡与工业级服务器之间的市场空白 [13][19][50][51] 行业痛点与需求 - 将AI引入传统行业(如机械、金融)需要能理解复杂图纸和图表的多模态助手,这对模型的理解能力和部署成本提出了高要求 [1] - 30B参数的多模态模型被认为是“黄金尺寸”,在理解能力和部署成本间取得平衡,适合企业私有化部署 [2][3] - 然而,多模态模型微调面临巨大显存挑战:处理高分辨率图像产生大量视觉Token,加上梯度、优化器状态和激活值,使得显存需求远超纯文本模型 [4][5][6] - 顶级消费级显卡(24GB显存)无法满足30B多模态模型微调需求,常见妥协手段(如Batch Size降为1、梯度检查点、极限量化)会严重牺牲训练速度或模型精度 [8][9][16] - 虽然Mac Studio等设备拥有大内存(128GB),但其生态(苹果芯片)与主流的Linux+CUDA生产环境存在割裂,导致开发效率低下和部署迁移风险 [11][12] 联想ThinkStation PGX产品详解 - **核心配置**:基于NVIDIA Grace Blackwell架构的GB10超级芯片,拥有128GB统一内存,CPU与GPU可通过NVLink-C2C高速共享该内存池 [17][19][25][26] - **产品定位**:是NVIDIA DGX Spark参考设计的OEM量产版本,由联想负责工程化制造与定制 [17] - **物理设计**:体积仅1升,采用蜂窝状散热设计以压制GB10芯片高达170W(整机240W)的功耗,实测GPU温度控制良好 [17][41][33] - **存储与系统**:提供1TB和4TB存储版本,预装NVIDIA AI软件栈,运行原生Linux系统和CUDA环境 [21] - **扩展能力**:内置NVIDIA ConnectX-7网络技术,支持两台PGX通过NVLink互联,组合成拥有256GB统一内存的系统 [45][48] 性能实测与优势 - **微调实测**:在PGX上成功对完整的Qwen3-VL-30B-A3B-Instruct模型使用FoodieQA数据集进行微调,训练稳定后GPU使用率约23%,统一内存占用接近60GB [28][32] - **性能表现**:60GB的内存占用在消费级显卡上会导致溢出,但在PGX上游刃有余,且设备温度控制出色(最高约40℃) [32][33] - **训练效果**:微调后模型在验证集上的损失从4.03降至1.06,下降了74% [34] - **核心优势总结**: - **从容加载**:无需量化即可加载FP16/BF16精度的原始大模型 [43] - **大胆训练**:可开启较大Batch Size,提升训练效率,避免内存溢出(OOM) [43] - **原生体验**:纯正CUDA生态,代码无缝迁移,无需环境适配痛苦 [43] - **确定性**:消除了本地微调大模型时在显存、量化、算子兼容性方面的不确定性 [50] 应用场景与目标用户 - **算法工程师的本地沙盒**:适用于金融、医疗等数据敏感行业,可在本地验证大模型想法,确保数据不出域 [43] - **野外科研的离线算力站**:便携性支持在无网络环境下处理海量监控或勘探影像 [43] - **长视频生成与数字艺术**:大内存支持生成更长时间的连贯视频,并本地化运行私有风格模型库 [43] - **具身智能仿真**:可在桌面运行高保真仿真环境训练,并零成本迁移至同架构的Jetson模块部署 [43] - **目标用户**:受显存焦虑困扰的专业开发者、对数据安全要求高的科研团队、希望快速验证创意的初创公司 [51][52] 市场定位与价值主张 - **定价**:1TB版本售价31,999元,4TB版本售价36,999元,价格相当于一块高端专业显卡 [51] - **价值对比**:以低于3.7万元的价格,提供了相当于昂贵专业计算卡或云端A100实例的128GB级显存能力,同时保障数据完全私有 [51][52] - **服务保障**:联想提供中国区独享服务,包括3年上门保修、硬盘数据恢复服务以及覆盖广泛的售后技术支持 [46] - **购买建议**:对于需要本地处理30B+多模态模型的开发者,ThinkStation PGX被认为是4万元以内唯一的最优解,其价值在于让开发者从配置调试中解放,回归创造力本身 [51][52][53]
华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能
机器之心· 2026-01-13 12:08
文章核心观点 华为研究团队推出的SWE-Lego是一个仅基于监督微调(SFT)的软件工程代码智能体解决方案,旨在解决复杂软件工程任务训练成本高、高质量数据稀缺的挑战[4][9] 该方法无需复杂的强化学习(RL)流程,通过在数据构建、训练方法和测试策略三方面的创新,在SWE-bench Verified基准测试中取得了同等规模开源模型的SOTA性能,甚至超越部分更大规模闭源模型[2][5] 混合数据集构建 - 采用真实世界数据与合成数据互补的混合构建策略,共包含32,119个高质量任务实例和18,110个验证轨迹(其中14,110个完全解决,4,000个半解决),覆盖3,251个代码仓库[14][24] - 真实数据来自严格筛选的GitHub Pull Requests,提供贴近生产环境的复杂性和真实性,但数量有限且成本较高[14] - 合成数据通过AST转换和LLM重写在真实代码库中故意注入Bug生成,具有可扩展、成本低、可共享沙箱的优势,但复杂度相对较低[15] - 通过严格的轨迹验证流程确保数据质量,包括防止Git历史泄露导致的解决方案泄露、处理工具调用错误、精简工具集以及过滤低质量轨迹[20][21][22] - 实验表明,混合数据集是性能提升的最大驱动力,为SWE-Lego-Qwen3-32B模型贡献了+25.6%的性能提升[13][25] 改进的监督微调 - 引入步骤级错误掩码技术,在保持完整轨迹上下文的同时,仅对正确的步骤计算损失,避免模型学习专家轨迹中的中间错误步骤[26][28] - 采用基于轨迹交互轮数的课程学习策略,将数据按难度分为简单(0-50轮)、中等(50-70轮)、困难(70-100轮)三个等级,并分阶段进行训练[29] - 改进的SFT方法(错误掩码+课程学习)为SWE-Lego-Qwen3-32B模型带来了+3.8%的性能提升[13] - 经过改进的SFT训练后,SWE-Lego-Qwen3-8B和32B模型在SWE-bench Verified上的解决率分别达到42.2%和52.6%[5][33] 测试时扩展策略 - 测试时扩展(TTS)可在不重新训练的情况下,通过分配额外测试阶段计算资源提升模型性能,为SWE-Lego-Qwen3-32B模型贡献了+6.2%的提升[13] - 策略包含两个正交维度:串行扩展(增加最大交互轮次)与并行扩展(生成多个候选轨迹并选优)[34] - 在有限测试预算下,应优先进行串行扩展至性能饱和(约100-140轮),再将剩余资源分配给并行扩展[34][37] - 在并行扩展中,比较了生成式与回归式两种打分器,生成式打分器在候选轨迹数量(K值)增加时表现更优且持续改进,而回归式打分器易趋于饱和[37][38][39] - 使用生成式打分器的SWE-Lego-Verifier-8B在TTS@16设置下达到49.6%的解决率,超越了OpenHands-Critic-32B(44.0%)和R2E-Gym-Verifier-14B(47.0%)[40] 性能成果与行业意义 - SWE-Lego在SWE-bench Verified基准测试中,基于Qwen3系列模型微调后,其8B和32B版本分别达到42.2%和52.6%的解决率,取得了同等规模开源模型的SOTA水平[5][8] - 该方法证明了仅使用轻量级的SFT方法,无需复杂RL流程,也能在软件工程任务上达到顶尖性能,降低了训练成本与复杂度,对中小团队更具可行性[2][43] - 项目已全面开源,包括代码、模型和全部数据,可供行业直接获取和使用[2] 未来展望 - 未来工作将探索更大模型与更多数据的组合,并将方法扩展到Python之外的其他编程语言及其他类型的代码任务[43] - 计划处理企业级的长序列、多文件复杂任务,并将SWE-Lego应用到真实的软件开发流程中[43]
OpenAI的首款硬件:是AI耳机,今年销量要冲5000万
机器之心· 2026-01-13 12:08
OpenAI硬件项目“Sweetpea”概况 - 公司正在开发一款代号为“Sweetpea”的特殊音频产品,旨在取代苹果AirPods [1] - 富士康已接到通知,要求在2028年第四季度前为五款设备做好量产准备,其中还包括一款家居设备和一款手写笔在研发考量中 [1] 产品细节与规格 - 产品预计于9月左右发布,第一年预估出货量高达4000-5000万部,作为对比,苹果AirPods系列年出货量约6000-7000万支 [3] - 工业设计由苹果前首席设计官Jony Ive团队操刀,设计“独一无二、前所未见”,主机采用金属材质,外形酷似卵石 [3] - 佩戴方式为从“卵石”主机内取出两个胶囊状单元佩戴在耳后,目前没有采用骨传导的计划 [3][6] - 核心性能方面,主处理器目标锁定为2nm制程的智能手机级芯片,最看好三星Exynos,可使大部分AI推理任务在本地运行 [3] - 项目还开发了一款定制芯片,允许用户通过指令控制Siri来“替代iPhone的操作” [3] 战略背景与定位 - 此次硬件尝试是公司进军可穿戴AI市场的一次大胆尝试 [7] - 公司于去年5月以65亿美元收购了由Jony Ive创办的硬件初创公司io,并于2025年7月完成团队整合,旨在开发“为AI时代而生”的新型计算设备 [7] - 该设备延续了io公司的思路,旨在打破以智能手机屏幕为核心的交互逻辑,寻找更自然、更具直觉的AI交互形态 [7] - 由于选材和组件规格更接近手机,外界担心其物料清单成本极高,但据称设备功能将比现有产品更强大 [4]
大模型中标TOP10里的黑马:中关村科金的应用攻坚之道
机器之心· 2026-01-13 10:33
2025年中国大模型中标市场全景与趋势 - 2025年全年大模型相关中标项目数量达到7539个,披露金额295.2亿元,较2024年分别激增396%与356% [1] - 市场结构发生关键转变,应用类项目数量占比高达58%,在2025年11月达到63%的峰值,表明产业焦点已从技术研发转向商业落地 [1] - 从季度趋势看,应用类项目占比从第一季度的44%一路攀升至第三季度的61%,第四季度稳定在60.5% [5] - 算力类项目金额占比最高,达到52.9%,但数量占比仅为27%,反映出企业更倾向于采购算力并调用或微调现有成熟模型以快速构建应用 [5] - 大模型(基座/平台)类项目占比为10%,其中智能体开发平台的采购是重要组成部分 [5] - 行业分布方面,教科、政务、通信、能源、金融是项目数量排名前五的行业 [5] - 政务行业以金额占比约40%位居榜首,这与各地政府将智算中心升级为产业赋能中心的战略密切相关 [5] - 金融行业在下半年展现出从算力投资向应用部署的明显转向 [5] 市场竞争格局与厂商表现 - 通用大模型厂商(如科大讯飞、百度、火山引擎、阿里云等)和拥有广泛渠道的三大运营商是中标市场的主力 [6] - 垂类大模型厂商(如中关村科金、蚂蚁数科)凭借在金融等细分赛道的深耕,同样在中标市场占据一席之地 [6] - 产业竞争壁垒正在转变,当通用模型能力差距收敛,生态构建能力与场景掌控力正取代单纯的模型性能,成为新的竞争关键 [6] - 根据应用类大模型项目中标厂商TOP10榜单,中关村科金以23个中标项目入围,是榜单中少数聚焦垂类场景的厂商 [11] - 在金融行业大模型项目中标厂商中,中关村科金位列第四,仅次于百度云、科大讯飞、火山引擎等大厂 [13] - 在“智能客服 & 数字人”应用场景,科大讯飞、百度、中关村科金是中标项目数量排名前三的厂商 [14] 垂类厂商攻坚样本:中关村科金的战略与落地 - 公司战略自始锚定“应用”与“落地”,沿“平台 + 应用 + 服务”的三级引擎战略推动垂类大模型在垂直行业和场景的应用 [11] - 在工业制造领域,助力中国船舶集团经济研究中心打造船舶行业大模型“百舸”,融合百万级专业知识库,构建智能问答、研报写作等行业智能体 [11] - 在有色金属冶炼场景,与南方有色金属公司合作打造广西首个有色金属行业大模型,取得量化突破:将主操手操作频率降低90%,温度控制偏差由±15℃收窄至±5℃,助力综合能耗下降8% [12] - 在交通基建行业,与宁夏交建联合打造垂类大模型“灵筑智工”,基于上万份行业规范训练,使专业问题回答准确率较通用模型提升40%,构建的专业智能体平均提效超60% [12] - 在金融领域,已服务500多家头部金融机构,包括50%以上百强银行及70%的信托机构 [13] - 依托“得助大模型平台 + 金融行业智能体平台”的核心产品组合,打造了覆盖“营销 - 风控 - 运营 - 企业服务”全链路的金融智能体矩阵 [13] - 具体金融案例包括:与中信券商合作打造大模型财富助手,助力展业效率提升3倍;为中国电建财务公司打造“财神大模型”,实现员工业务知识获取效率提升70%;为百年人寿打造保险知识库问答智能体,问答准确率稳定在90%以上,知识获取效率提升50% [14] - 根据IDC报告,中关村科金位居中国智能客服市场第四,位列垂类大模型厂商第一 [14] - 在汽车行业,与丰田合作通过大模型语音智能体进行老客营销外呼,实现超60%高接通率;为岚图汽车构建销售洞察质检平台,将销售流程合规性提升70% [15] - 在零售与消费领域,为瑞幸咖啡、添可、老板电器等品牌提供从智能应答到全量质检的一体化方案 [16] - 在全球化服务方面,通过Instadesk全球客户联络中心解决方案,帮助Imou乐橙、阿里巴巴国际站等出海企业攻克跨文化服务难题,并为UniUni、泰国大都会水务局等机构提供多语言智能客服支持 [16] 未来展望:2026年行业发展趋势 - 行业将全面驶入价值的“深水区”,竞争重点从规模增长转向深度交付 [17] - 趋势一:ROI成为硬指标,企业客户将苛刻追问AI项目的投资回报率,大模型必须从“成本中心”证明自己作为“利润中心”或“效率引擎”的价值 [18] - 趋势二:行业Know-how与高质量私有数据将构筑最坚固的护城河,基于海量、高价值、非公开行业数据构建的垂类模型效果远超通用模型,且难以复制 [19] - 趋势三:应用形态将从“单点智能工具”演进为“全链路业务智能体”,大模型将更深入与业务流程融合,进化为能自主完成复杂任务的智能体 [20] - 趋势四:生态协同将成为主流,垂类厂商与通用平台的关系从“替代”转向“共生”,形成分层协作的共生生态 [22] - 中关村科金携手华为云、阿里云、百度智能云等企业发布的“超级连接”全球生态伙伴计划,体现了开放协作的趋势 [23]
刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
机器之心· 2026-01-13 08:12
文章核心观点 - DeepSeek与北京大学合作发布新研究,提出“条件记忆”作为大语言模型稀疏化的新维度,并通过新模块“Engram”实现,旨在解决现有Transformer架构缺乏原生知识查找机制的问题 [1][2][3] - 条件记忆与混合专家模型的条件计算形成互补,研究发现了MoE与Engram之间最优分配的U型扩展规律,在等参数量、等FLOPs条件下,集成Engram的模型性能显著优于纯MoE基线 [7][8][9][10] - Engram模块通过确定性的哈希检索机制,能以O(1)时间复杂度完成知识查找,并将存储与计算解耦,在系统层面实现高效扩展,有望成为下一代稀疏大模型的核心建模原语 [8][11][12] 技术方案:Engram模块设计 - **核心架构**:Engram模块在结构上将静态模式存储与动态计算从Transformer主干网络中分离,对序列每个位置依次执行检索与融合两个功能阶段 [12][14] - **检索机制**:采用基于哈希N-gram的稀疏检索,首先对当前位置后缀进行提取与压缩,并通过哈希以确定性方式检索静态嵌入向量,此过程引入词表投影将有效词表规模缩减约23% [14][15] - **融合机制**:检索后引入上下文感知门控机制,对检索到的静态嵌入向量进行动态调整和精炼,以适应当前上下文并减少噪声干扰 [16][17] 系统效率与扩展优势 - **计算存储解耦**:Engram的确定性检索机制支持将参数存储与计算资源解耦,不同于MoE的动态路由,其检索索引完全由输入决定,支持训练时的模型并行和推理时的预取-重叠策略 [18][20] - **分层缓存设计**:利用N-gram的Zipfian分布特性,构建多级缓存层次结构,将高频嵌入存于GPU HBM或主机DRAM,低频模式存于NVMe SSD,从而支持极大规模记忆容量扩展 [21] - **几乎零开销**:确定性的寻址方式支持从主机内存预取,几乎不会带来额外性能开销 [11] U型扩展规律与稀疏性分配 - **最优分配比例**:在总参数量和训练计算量固定下,研究发现了MoE与Engram分配比例与验证损失间的U型关系,将约20%-25%的稀疏参数预算分配给Engram能获得最佳性能 [24][26][27] - **纯MoE次优**:实验表明纯MoE基准是次优的,在10B规模范围内,将稀疏参数预算的约80%分配给MoE,约20%分配给Engram时,验证损失从1.7248改善至1.7109 [26][27] - **无限记忆扩展**:在固定MoE主干上激进扩展Engram记忆槽数量,验证损失持续稳定改善,且遵循严格的幂律,表明Engram提供了可预测的、无需额外计算的扩展能力 [25][27] 实验结果:模型性能对比 - **实验设置**:训练了Dense-4B、MoE-27B、Engram-27B和Engram-40B四个模型,在包含2620亿token的语料库上预训练,激活参数量严格匹配 [33][34][35] - **全面性能提升**:在等参数量、等FLOPs条件下,Engram-27B在所有基准测试中持续优于MoE-27B,提升不仅限于知识任务(如MMLU提升+3.0,CMMLU提升+4.0),在通用推理(如BBH提升+5.0,ARC-Challenge提升+3.7)及代码数学推理(如HumanEval提升+3.0,MATH提升+2.4)上更为显著 [10][37] - **扩展有效性**:扩展至Engram-40B进一步降低了预训练损失,并提高了大多数基准测试性能,表明扩展的记忆容量尚未在当前token预算内完全饱和 [38] 长上下文能力分析 - **架构优越性**:在控制基础模型能力的前提下,Engram在长上下文任务中表现出显著增益,例如在多查询NIAH任务中准确率从84.2提升至97.0 [10][44] - **等损耗设置对比**:当预训练损失对齐时,Engram-27B在复杂检索任务上大幅超越MoE-27B基准(多查询NIAH:97.0 vs 84.2;变量跟踪VT:87.2 vs 77.0) [45] - **注意力容量释放**:通过将局部依赖建模卸载至静态查找,Engram为处理全局上下文保留了宝贵的注意力容量,从而提升了长程检索和推理能力 [40] 表示对齐与收敛速度 - **加速收敛**:基于LogitLens的逐层KL散度分析显示,在模型浅层KL散度持续保持较低水平,表明Engram加速了预测的收敛 [44] - **有效深度增加**:基于CKA计算的相似度热力图显示,Engram浅层在功能上等效于MoE模型的深层,从而有效地增加了模型的有效深度 [44]
一个模型统一4D世界生成与重建,港科大One4D框架来了
机器之心· 2026-01-13 08:12
技术框架与核心创新 - 香港科技大学研究团队提出One4D,一个统一的4D生成与重建框架,旨在解决现有视频扩散模型缺乏三维几何显式建模的问题,以支持世界模型导向的应用如空间推理和具身智能[4] - 该框架的核心是构建一个能同步输出多模态结果的视频扩散模型,可同时生成RGB视频和Pointmap(XYZ)几何视频,并支持从单张图像生成4D、从稀疏帧生成与重建4D、以及从完整视频重建4D等多种任务形态[4][9] - 其核心算法设计包含两大亮点:一是解耦LoRA控制(DLC),通过为RGB和Pointmap分别挂载模态专属LoRA并辅以少量控制连接,在低资源微调下减少模态干扰并确保像素级对齐[8][11][13][14];二是统一掩码条件(UMC),通过将不同条件统一打包,使同一模型无需改变结构即可在不同生成与重建任务间平滑切换[8][17] 技术实现与数据策略 - 模型将动态4D场景表示为两种同步的输出模态:RGB帧(外观)和Pointmaps(XYZ几何视频),后者可进一步导出深度并估计相机轨迹,最终可视化为4D点云和相机[8] - 训练数据采用合成数据与真实数据混合策略,合成数据通过游戏引擎渲染提供精确几何真值,真实数据则使用现有方法生成几何标注以引入真实世界分布,共计使用34K条视频在8张NVIDIA H800 GPU上训练5500步[19][20] 性能表现与评估结果 - 在用户偏好研究中,One4D在一致性、动态性、美学、深度质量和整体4D连贯性五个维度上全面领先对比方法4DNeX,例如在4D连贯性上获得90.0%的偏好,远超后者的10.0%[21][22] - 在VBench评估中,One4D的动态性得分达到55.7%,显著高于4DNeX的25.6%,同时图像到视频一致性(97.8%)与美学得分(63.8%)保持可比或略优水平[22][23] - 在完整视频4D重建任务上,One4D在Sintel和Bonn深度重建数据集上表现优于多个专用重建方法,例如在Sintel数据集上的Abs Rel指标为0.273,优于MonST3R的0.335和CUT3R的0.311,接近专用方法Geo4D-ref的0.205[25][26] - 在相机轨迹估计能力上,One4D在Sintel和TUM-dynamics数据集上保持了可用精度,例如在Sintel数据集上的ATE为0.213,RPE-T为0.057,证明了其统一重建与生成的能力[28][29] - 在稀疏视频帧到4D生成任务中,即使输入帧极度稀疏,One4D仍能生成合理的4D结构,例如当稀疏度为0.10时,在Bonn数据集上的Abs Rel为0.099,δ<1.25为92.9%,展示了其强大的动态场景生成能力[30][31] 行业意义与应用前景 - One4D推动视频生成技术从纯RGB输出走向同步生成外观与几何信息,为构建可用于理解与交互的4D世界提供了基础能力[33] - 该技术为下一代世界模型、多模态内容创作以及需要完整模拟4D世界的应用(如具身智能、机器人、自动驾驶仿真)提供了更实用的技术支撑[4][33]
引入几何约束后,VLM跨越了「空间推理」的认知鸿沟
机器之心· 2026-01-12 14:35
核心观点 - 视觉语言模型在空间推理任务中存在“语义-几何鸿沟”,导致其无法处理精确的空间量化问题[2] - 北京航空航天大学与上海人工智能实验室的研究团队提出了几何约束智能体,通过“先形式化约束,后确定性计算”的新范式,显著提升了视觉语言模型的空间推理能力[4] - GCA方法无需海量数据微调,通过构建形式化任务约束并调用视觉工具进行计算,在多个基准测试中确立了新的性能标杆[4][14] 行业痛点与问题根源 - 视觉语言模型在图像描述与通用语义理解上表现卓越,但在需要高精度几何计算的空间推理任务上表现显著下滑[6] - “语义-几何鸿沟”的根源在于视觉语言模型将丰富的像素信息压缩为抽象语义特征,导致物体精确位置、朝向、尺度等高保真几何细节大量丢失[7] - 视觉语言模型缺乏几何想象力,无法在脑海中精确构建三维场景,使其在面对复杂空间推理时力不从心[7] 技术创新与方法论 - GCA创新性地引入了形式化任务约束,将空间推理精准拆解为“任务形式化”和“几何计算”两个阶段[9] - 在任务形式化阶段,视觉语言模型将模糊的自然语言指令转化为明确的数学约束,包括目标约束和参考系约束[9][11][12] - 在几何计算阶段,视觉语言模型转变为任务求解器,严格遵循划定的边界,调用3D重建、目标检测、OCR等感知与计算工具执行确定性的几何计算[13] - GCA归纳了三种人类常用的核心参考系:基于物体的参考系、基于相机的参考系和基于方向的参考系[12] - 该方法依赖三个核心设计:智能工具调度与绑定、感知与计算的无缝衔接、以及检索增强的可靠计算[20] 性能表现与实验结果 - 在MMSI-Bench、MindCube-tiny、OmniSpatial等多个主流空间推理基准上,GCA构建了全新的空间智能性能标杆[14] - GCA取得了65.1%的平均准确率,显著超越了现有基于训练的方法与工具集成的方法[15] - 在极具挑战性的多图空间推理基准MMSI-Bench中,基于Qwen3-VL-Thinking构建的GCA准确率从32.6%跃升至47.6%,性能提升近50%[4][15] - 基于Gemini-2.5-Pro构建的GCA表现尤为惊艳,其在MMSI-Bench上的准确率从36.9%飞跃至55.0%[16] - GCA是一种无需训练的通用推理范式,实验显示,在搭载GCA架构后,受测模型在MMSI-Bench上的性能平均实现了约37%的相对提升[16] 方法有效性与前瞻性 - 对比实验表明,若仅为视觉语言模型提供工具而不施加形式化约束,其性能提升微乎其微,证明了“先约束”范式的重要性[24] - 得益于GCA架构的模块化设计,研究团队能够对推理链路进行精确的错误归因,分析显示视觉语言模型在“任务形式化”阶段的准确率已高达约70%[24] - 当前主要错误来源于下游感知工具,这表明GCA的推理逻辑是稳健的,其性能将随着感知模型的进步而持续提升[24]
真香!刚骂完AI,Linux之父的首个Vibe Coding项目上线
机器之心· 2026-01-12 14:35
文章核心观点 - Linux创始人Linus Torvalds在其个人兴趣项目AudioNoise中,公开使用了“氛围编程”方式,即借助谷歌的AI编程工具Antigravity进行开发,这标志着这位曾对AI编程持批评态度的顶尖开发者开始拥抱并实践AI辅助编程[1][3][9][16][18] Linus Torvalds的新项目AudioNoise - 项目名为AudioNoise,是一个与吉他效果器相关的数字音频处理代码库,旨在探索数字音频处理基础知识,而非打造成品设备[4][6][12][14] - 该项目于5天前上传至GitHub,已获得1.4k个Stars和49个Forks[10][11] - 项目源自其更早的“GuitarPedal”兴趣项目,该项目旨在学习模拟电路设计,已获得1.5k个Stars和47个Forks[12][13] - 项目技术核心是基础的IIR滤波器和延迟循环,进行单采样输入输出的处理,并未使用复杂的FFT或实时处理技术[15][16] - 项目中的Python可视化工具基本是使用“氛围编程”方式编写的,即借助AI工具生成代码[6][16] 对AI编程工具的使用与评价 - Torvalds在开发中使用了谷歌的AI编程平台Antigravity,该平台于去年11月发布,基于Gemini大模型,旨在驱动智能体完成端到端的软件任务[20] - 他起初采用典型的“搜索并照猫画虎”式编程,后来省去自己作为中间环节,直接让Antigravity生成音频采样可视化工具[8][16] - Torvalds对使用AI工具的过程评价积极,认为“过程基本顺利”,并肯定最终效果比自己动手写要好[17][18] - 此次实践与其此前对AI编程的公开批评态度形成鲜明对比[27][28] 行业反响与意义 - Torvalds使用AI编程工具在开发者社区引发了现象级讨论,被视为一个标志性事件[22] - 行业领袖如谷歌DeepMind工程师Varun Mohan(Antigravity创建者)和Vercel CEO Guillermo Rauch均对此事表示关注,后者将其与陶哲轩使用AI解决数学问题等事件并列,视为2026年初的重要行业动态[23][24] - 社区观察指出,一些曾强烈批评AI代码质量的顶尖程序员,其想法正在迅速改变,并对AI的能力感到震惊[22] Linus Torvalds此前对AI编程的态度 - 直到去年底,Torvalds对AI编程仍持相对保守态度,认为“氛围编程”对于生产环境和内核开发是“一个非常,非常糟糕的主意”[28][30] - 他认为当时的AI辅助编程是“90%的营销加10%的现实”,并极其反感向内核提交AI生成的“垃圾代码”的行为[30] - 在2025年1月7日的一次内核开发讨论中,他强烈反对在文档中规范AI生成内容,称讨论AI生成的垃圾“毫无意义,简直愚蠢至极”[31][32]
2026年,大模型训练的下半场属于「强化学习云」
机器之心· 2026-01-12 13:01
大模型技术范式的转移 - 2024年底,行业出现担忧,认为单纯增加参数和训练数据的Scaling Law正在撞墙,新一代旗舰模型未展现出预期的边际效益提升,有研究预测预训练数据可能在2028年耗尽[1] - OpenAI联合创始人Ilya Sutskever的言论被解读为预警,意味着单纯堆砌算力和数据的预训练路线可能已触及天花板[3] - 2025年初,OpenAI的o1模型通过引入强化推理,证明了test-time scaling(测试时间扩展)是通往更高智能的可行路径[4] - DeepSeek R1在2025年1月成功复现并开源了o1的技术路线,以极低的成本向全行业证明Scaling Law并未撞墙,而是换了引擎[4] - 行业认识到,深度的推理能力比单纯的参数规模更关键,模型通过强化学习驱动的思维链展现出类似人类“慢思考”的推理能力[4] - 算力的重心正从pre-training scaling(预训练扩展)转向post-train scaling(后训练扩展)和test-time scaling(测试时间扩展)[8] - 到2026年,可以确信大模型训练的下半场属于强化学习,模型能通过与环境的交互、试错和自我博弈进行深度逻辑推演[10][11] - 新的算力消耗重心从静态的“训练”转向动态的“探索与推理”,这导致现有的云计算架构开始显得力不从心,行业呼唤全新的算力形态[11] 九章云极的战略定位与核心产品 - 九章云极是独立智算云赛道的领军企业,率先提出了“强化学习云”概念,并定义了后训练时代的算力标准[12] - 公司认为,当智能可以并行进化,强化学习云将成为群体智能的放大器[12] - 在OpenAI o1验证路径、DeepSeek R1引爆热潮后,九章云极在最短时间内率先给出了基础设施答案[14] - 2025年6月,九章云极正式发布了业界首个工业级强化学习云平台Agentic RL[15] - 当时全球市场尚未有企业像九章云极这样,将“强化学习”独立定义为一种全新的工业级云服务形态[15] - 公司能够迅速捕捉前沿算法趋势,并率先将其转化为标准化、工业级云产品,这确立了其在独立智算云赛道的首发优势与领军地位[16] - Agentic RL的核心内涵是AI能力从单纯的“内容生成”转向复杂的“决策控制”,旨在通过RL赋予大模型在动态环境中精准感知、规划并执行的能力[20] - Agentic RL的使命是将通用模型进化为具备长时程规划、长/短期记忆、复杂工具调用、检索增强生成优化、角色一致性等多种能力的专家模型[22] - 公司提出了一个终局构想:未来的通用人工智能(AGI)可能不是单一的巨型模型,而是由成千上万个垂类专家智能体组成的“群体智能”[25] Agentic RL平台的技术优势与性能 - 传统的云计算架构是为静态负载设计的,而强化学习是高频交互、动态探索的过程,算力需求呈现剧烈的波峰波谷特征,对异构资源调度要求极高[17] - 用传统静态算力跑RL训练,会导致资源利用率极低或在探索高峰期卡死[18] - 九章云极的强化学习云Agentic RL基于混合专家(MoE)架构与Serverless理念,实现了算力的“按需即取、即用即还”[19] - 数据显示,相比于传统方案,Agentic RL可将端到端训练效率提升500%,综合成本下降60%[19] - 该平台是全球首个支持万卡级异构算力调度的强化学习基础设施平台[19] - 公司构建了极致效能的异步系统,通过全异步训练架构和rollout、n+1模型更新机制,成功将GPU利用率长期保持在95%以上[25] - 公司采用了“基于回放的离线强化学习算法”,通过对时间跨度的压缩与样本的高效回放,实现了5倍于传统方法的训练速度提升[28] - 在自动驾驶或医疗等“不能失败”的领域,公司与高校合作构建了可控的“世界模型”作为高保真虚拟沙盒,让智能体在其中安全试错[30] Alaya NeW Cloud全栈智能基础设施 - 九章云极的强化学习云能力离不开其精心构建的Alaya NeW Cloud智能基础设施[33] - 公司从一开始就围绕智能体的运行逻辑,完成了从底层基础设施到上层应用的四层全栈重构,而非在通用云上“打补丁”[34] - 基础设施层包含高性能存储网、大容量全闪AI加速存储、高性能计算网和跨网融合网关[35] - 九章智算操作系统层包含跨集群算力弹性调度、Serverless弹性和一体化算力网[35] - 智算软件平台层包含弹性容器平台VKS、专享容器平台DKS、云容器实例CCI、大模型开发套件和大模型推理平台[35] - 应用场景及生态层覆盖自动与半自动驾驶、计算机视觉、科学计算、工业机器人、消费电子等众多领域[35] - 在工程化落地层面,平台实现了云容器实例(CCI)的一键式部署,全流程覆盖,即开即用[37] - 以2025年终上线的满血版DeepSeek-3.2为例,在高端算力卡加持下,其部署速度更快,运行更高效,展现了平台对最新SOTA模型的快速支持能力[37] - 在智能体时代,九章云极扮演的角色不仅是互联网数据中心提供商,更是进化环境提供商[38] 黄山城市级智算样板与商业落地 - 九章云极在安徽黄山跑通了“智算+产业”的2.0闭环,打造了一个正在运行的、基于强化学习云的城市级实验样本[40] - 公司在黄山创造了一个行业纪录:仅用48天,一座规模达500 PFLOPS的“大位”智算中心便拔地而起并投入运营[41][42] - 这种交付速度验证了其智算操作系统在异构算力调度上的极致效率[43] - “大位”智算中心是国内首个“文旅+AI”城市级产业应用基础设施[44] - 对于开发者,只需极少代码即可启动完整的“训练-推理-回传”闭环;对于产业,各垂直领域的智能体都能在平台上找到专属的进化路径[45] - 黄山实现了国内首个“全程AI伴游”景区,成千上万个智能体在此学习理解游客意图、规划最优路线、处理突发状况,这是一场大规模的Agentic RL社会实验[47] - 根据易观分析预测,随着“大位”智算中心的全面达产,每年将直接带动黄山市营利性服务业增加值增长不少于2亿元[48] - 通过“智算基建+文旅赋能+场景落地+商业闭环”,九章云极证明了强化学习云不仅能消耗电力,更能生产GDP[50] - “黄山样板”产生了强大的磁吸效应,在大会上,中科动力、百鹏互联、歌歌AI等6家AI企业集中签约落地[50] - 九章云极用黄山的实践证明,下一代智算云必须是能直接驱动产业增长的云[51] 独立智算云的生态与行业领导力 - 九章云极选择成为独立智算云赛道的领军者,这条道路艰难但辽阔[53] - “独立智算云”的根本逻辑在于中立性,公司明确不与客户争利,不绑定特定模型[54][55] - 针对行业内只有不到10家巨头公司掌握10万卡以上资源的现状,公司明确倡导“开源1000专家模型”[57] - 公司期望通过动态组合来放大群体智能,为10万家中小企业提供高效的智能化解决方案[58] - “独立智算云+开源专家模型”的组合拳,区别于试图绑定自家闭源大模型的巨头云厂商,更有可能构建起真正的开放生态[60] - 公司发起的AI-STAR企业生态联盟连接了上游芯片厂商与下游应用厂商,共同组成了一个自主可控的产业链闭环[61] - 在算力计费混乱的草莽时代,公司率先推出了“1度算力”的普惠化标准,试图让算力像水电一样可度量、可流通[63] - 在后训练时代,公司通过强化学习云定义了下一代基础设施的标准架构:一套包含Agentic RL技术架构、Serverless弹性调度和异构资源管理在内的完整操作系统[64] - 2026年,云计算进入“进化时代”,竞争的焦点是谁能让智能体进化得更快、更强,九章云极通过首创的强化学习云Agentic RL,率先拿到了通往这个新时代的钥匙[68]