机器之心
搜索文档
全景视觉的Depth Anything来了!Insta360推出DAP,200万数据打造全场景360°空间智能新高度
机器之心· 2025-12-29 16:22
模型发布与核心意义 - 研究团队推出了首个在大规模多样化数据集上训练的全景度量深度基础模型Depth Any Panoramas,旨在解决全景深度估计领域长期面临的“数据荒”与“模型泛化差”瓶颈 [2] - 该模型统一了室内外场景,通过200万量级的数据引擎与创新的几何一致性设计,刷新了多项基准测试纪录,在多种开放世界场景下保持优异效果 [2] - DAP的出现标志着全景深度估计正式进入了开放世界时代,为自动驾驶、机器人避障提供更广阔的全知视角,并为3D场景重建、VR/AR内容创作提供了极低成本的深度获取手段 [20] 数据引擎构建 - 为突破数据规模限制,团队构建了规模空前的全景数据引擎,将数据量推向了200万级别 [7] - 数据来源包括:从互联网收集并精细过滤的170万张真实全景图;利用基于虚幻引擎5的AirSim360模拟器生成的9万张高质量室外航拍数据;以及引入DiT360模型生成的20万张室内全景图 [9] - 数据构成覆盖室内场景50万张,室外场景150万张,其中合成数据30万张,真实世界数据170万张 [8] 模型训练与架构设计 - 模型采用三阶段伪标签精炼管线来淬炼高质量监督信号:第一阶段使用小规模精准合成数据训练场景不变标注器;第二阶段引入深度质量判别器,从190万预测结果中筛选出最靠谱的60万样本再次训练;第三阶段在汇集了精炼伪标签和原始强监督标签的200万数据集上完成最终训练 [10][11] - 模型架构采用DINOv3-Large作为特征提取骨干,并设计了距离自适应分支,允许用户根据应用场景切换深度感知范围 [15][16] - 引入了包括SILog损失、锋利度损失、表面法线损失以及点云一致性损失在内的联合优化,专门针对全景图的等距柱状投影进行了畸变补偿 [16] 性能表现 - 在极具挑战性的户外测试集Deep360 / DAP-Test中,DAP的绝对相对误差为0.0781,显著超越了此前DAC的0.3197和Unik3D的0.2517 [17][18] - 在室内场景的零样本测试中,DAP的绝对相对误差大幅下降,在没有进行任何微调的情况下保持了极高的预测一致性 [17] - 模型对由Gemini或DiT-360等合成的全景图展现出了极佳的预测效果,生成的深度图边缘锐利、逻辑自洽,并且在处理全景视频流时具备优秀的帧间一致性与稳定性 [4]
AI引爆内存荒:手机电脑不仅要涨价,还要减配
机器之心· 2025-12-29 16:22
文章核心观点 - AI发展引发的内存结构性短缺正蔓延至消费电子领域,导致电子设备价格持续上涨且短期内难以缓解,建议消费者尽早购买设备 [1][3][18] AI发展导致内存结构性短缺 - AI工作负载高度依赖大容量、高带宽内存,训练和推理系统无法在不损害性能的前提下缩减内存配置 [8] - 以处理100万token的长上下文为例,推理过程可能需要约60GB至100GB以上的高速DRAM,相比常见的8K token场景需求出现约60倍的跳增 [8] - AI公司正投入数十亿美元在全球快速建设数据中心,这被视作一种结构性的市场转变,而非周期性波动 [9] 内存市场供需失衡与价格飙升 - 当前RAM芯片的需求比供应高出10%,且制造商购买DRAM芯片的成本在本季度比上一季度高出50% [4] - 若生产商想更快拿到芯片,需支付原价两到三倍的费用 [4] - 预计DRAM价格在接下来的季度将再上涨40%,且2026年价格不会下降 [5] - 有实例显示,消费者在12月17日购买的内存条,8天后价格上涨34% [7] - 到2026年,仅云端高速内存的消耗量就可能达到3艾字节(EB) [10] AI对内存产能的挤占效应 - AI竞赛焦点正从算力转向内存容量和推理成本,对HBM和GDDR7等高速内存的需求飙升 [10] - 高速内存制造更消耗产能:生产1GB HBM所消耗的晶圆产能相当于4GB标准DRAM,GDDR7则是标准DRAM的1.7倍 [10] - 2026年全球DRAM总产能预计为40EB,而AI的“等效消耗”将占到总产量的近20% [10] - DRAM年产能增长仅有10%至15%,AI需求激增将挤压PC、智能手机和服务器DDR5等标准DRAM产品的供应 [10] 芯片制造商策略与行业影响 - 内存芯片制造商正将更多产能倾斜给利润更高的AI领域高端内存,相应减少了消费电子产品的芯片供应 [12][13] - 美光科技CEO表示,在可预见的未来,整个行业的供应量将大幅低于需求 [13] - 行业面临产能瓶颈,现有工厂设施到2026年底将达到扩张极限,而新的工厂要到2027年才能投产 [16][17] 对消费电子产品的连锁影响 - 电子设备制造商面临巨大的物料成本压力,可能将成本转嫁给消费者 [14] - 未来至少一年半到两年内,消费者将面对持续上涨的电子设备价格 [18] - 制造商可能采取叫停降价促销、缩减产品规格(如手机内存从16GB减至12GB或8GB)以及DRAM规格向下分级等措施 [19] - 高端产品将通过调整定价和促销策略转嫁成本,中低端产品则可能被迫涨价或加速停产退市 [19] - 内存短缺还可能连带导致GPU供应紧张,供应链报告称英伟达计划在2026年上半年将其RTX 50系列显卡产量缩减30-40% [14] - 英伟达在2026年的市场重心将转移到AI芯片和“AI工厂”,预计不会发布全新的消费级GeForce架构GPU [14]
深度拆解沐曦MXMACA软件栈功能,算力自主+生态兼容,破解国产GPU落地难题
机器之心· 2025-12-29 12:44
文章核心观点 - 沐曦股份发布了其全栈自研异构计算软件栈MACA的全新版本3.3.0.X,该版本通过构建高度兼容的“万能接口”,旨在以极低的迁移成本将现有CUDA生态应用无缝迁移至其自研GPU平台,从而解决国产GPU面临的生态兼容核心挑战,并提升从算力到生产力的转化效率 [4][7][9][12][37][38] MACA软件栈的定位与核心作用 - MACA被定义为连接公司自研GPU硬件(曦云C系列、曦思N系列)与上层应用生态的关键纽带,是全栈软件体系的核心 [6][7] - 其覆盖了AI芯片工作流程的底层驱动、编译器、算子适配、训练推理框架、行业场景优化等全链路能力,旨在有效释放硬件算力 [9] 生态兼容性:构建“万能接口” - 新版本MACA的核心逻辑是构建一个“万能接口”,让现有生态能够近乎无缝地迁移到沐曦平台 [9] - 公司对GitHub上4490个含CUDA关键字的活跃代码仓库进行适配测试,其中4173个项目可直接适配运行,成功率高达92.94% [10] - 仅有260个项目(占比不足6%)需要微小调整,且修改主要涉及编译配置,而非核心业务逻辑,实现了现有CUDA项目的近乎“开箱即用” [10][12] 主流AI框架与操作系统的兼容 - MACA 3.3.0.X完成了对PyTorch 2.8的深度适配,覆盖全部2650个核心算子(其中GPU算子2410个) [15] - 兼容TensorFlow、PaddlePaddle、JAX等主流开源框架,以及Megatron-LM、DeepSpeed等大模型训练框架和vLLM等推理框架 [15] - 在操作系统方面,兼容Ubuntu、CentOS、RHEL、openEuler、Anolis OS、银河麒麟等主流Linux发行版 [15] - 支持混合精度训练、分布式训练、torch.compile编译优化等关键特性,适配无需调整工程构建逻辑 [15][16] 软件栈的完整架构与工具链 - MACA是一个完整的软件栈,包含开发效率引擎层和垂直场景赋能层两大核心部分 [18] - 开发效率引擎层提供了一系列针对沐曦GPU优化的高性能算子库,如mcBLAS、mcDNN、mcFlashAttention,并包含编译器、性能分析等全套自研工具链 [18][20][21][24] - 垂直场景赋能层针对AI与科学计算两大方向进行优化:AI领域优化训练与推理框架;科学计算领域重构MPI、BLAS库并移植OpenFOAM、GROMACS等框架 [22] 大模型训推一体化能力与性能优化 - 通过自研的MetaXLink高速互连技术,硬件层面构建了支持万卡级集群的低时延、高带宽分布式通信网络 [27] - 软件层面,MACA通过拓扑感知的高性能通信库和编译器优化模块,实现算子自动融合、通信与计算重叠等优化 [27] - 支持“训练-微调-推理-部署”全流程链路贯通,无需二次适配,缩短了大模型从研发到落地的周期 [29] - 关键性能优化包括:针对FlashAttention优化减少显存数据搬运开销;千卡集群训练推理线性度稳定在95%以上;专家并行效率提升15%;通过通信-计算重叠优化提升GPU利用率15%-30% [30][31] 垂直行业场景赋能与战略布局 - MACA是公司“1+6+X”战略的重要组成部分:“1”代表数字算力底座,“6”代表赋能金融、医疗健康、能源等六大核心行业,“X”代表具身智能、低空经济等新兴行业 [34] - 在搜广推、AI for Science(如材料、天气模拟、药物研发)等多个垂直场景进行了深度适配与优化,旨在将算力高效转化为行业生产力 [35][40] - 公司选择了基于全自研GPGPU核心IP及自主指令集的路线,保证了算力体系的安全合规、性能针对性与演进自主权,同时通过MACA实现与现有生态的高度兼容 [37]
上线不到一年,收徒百万,首个真人级AI导师技术底牌首次曝光
机器之心· 2025-12-29 12:44
公司产品“爱学”的核心表现与市场定位 - 产品“爱学”是国内首个真人级AI一对一导师产品,由与爱为舞公司于2025年初推出,上线不到一年已被超过百万名学员使用[3] - 产品完课率高达92.4%,单次课可能持续1-2小时且无真人介入,单个学员最长学习时长已达9000分钟[4] - 在AI课堂中,单次课的答题正确率从59.1%提升至83.2%[5],部分课程正确率超过95%[38] - 产品已实现全年龄段覆盖,并提供“多学科+长课时”的深度陪伴,突破了市场上AI导师多局限于单一学科的现状[13] 公司技术架构与核心能力 - 公司自研了国内首个AI原生教育框架,这是一个打通了“数字人+语音+大模型+工程”的全栈技术体系,成为国内首个在教育场景下打通全栈技术能力的公司[13] - 核心教学系统被设计为一个持续演化的马尔科夫决策过程,AI导师的每一次互动都是在当前学员状态下做出的最优教学决策[21][22] - 技术体系包含三大基础模型体系,覆盖从感知的“皮囊”到负责决策的“灵魂”的AI教学核心能力闭环[18] - 工程系统实现了高并发与低延迟,在万人并发下,将ASR、教学决策、内容生成、TTS、数字人驱动到音视频推流的整条长链路压缩到1.0–1.6秒,做到即问即答[54] AI教学范式的创新:从“答题”到“会教” - 公司认为新一代AI教育范式应“因材施教、授人以渔”,致力于解决“会教”的问题,而非停留在搜题、批改或简单交互的“舒适区”[8][10] - AI导师采用启发式教学,例如通过追问与对比引导学员自己发现语法规律,并做到举一反三,而非直接给出答案[11][12][13] - 公司通过构建可运行的AI教学环境来系统性生成训练数据,数据被拆解为学科本体、教学方法和真实课堂中的学员交互数据三层核心要素[27][31] - 训练体系结合了SFT和RL,通过思维链注入名师经验和GRPO算法进行强化学习,让AI在数亿次模拟试错中打磨出“教学直觉”[30] 感知层技术的突破:语音与数字人 - 自研多模态语音理解模型,在ASR解码底层引入教学语境约束,将ASR准确率从行业约80%提升至95%以上[41] - 自研流式TTS大模型将首字延迟压到300ms以内,并能随语境动态调整节奏、重音与情绪[42] - 实现了全双工语音交互,打断识别准确率达90%以上,允许学员随时插话[44] - 数字人系统实现了极致的实时互动与长期一致性,通过架构解耦与性能优化,达到百FPS级实时生成,并确保45分钟课程中外观与动作自然一致[47][48][52] 数据驱动与个性化教学效果 - 公司依靠真实的教学互动数据形成数据飞轮,驱动算法以周为单位迭代,目前已更新20多个版本[36] - 通过数据飞轮持续优化互动频次与质量,每节课有几十次一对一互动,学员有效回答率提升到95%以上[37][38] - 个性化教学通过定制教学目标、路径、交互与作业巩固实现,将学员做题准确率从不足60%提升到83%[34][38] - 为补充数据,引入了自博弈机制,让“学员模拟器”与“AI导师”在虚拟课堂中对弈,自生成千万级训练样本[32]
AAAI 2026 Oral|LENS:基于统一强化推理的分割大模型
机器之心· 2025-12-29 12:44
技术背景与行业瓶颈 - 文本提示图像分割是实现精细化视觉理解的关键技术,在人机交互、具身智能及机器人等前沿领域具有重大战略意义[2] - 当前主流技术路径(如基于监督式微调的方法)面临根本性瓶颈,本质是静态模式匹配,泛化能力受限,形成难以逾越的“能力天花板”[2] - 在处理需要多步、复杂推理的未知指令时,传统方法性能显著下降,根源在于训练中忽略了动态、显式的推理过程[2] LENS框架核心创新 - 引入LENS框架,摒弃静态监督式微调,采用端到端强化学习机制,将高层次“思考”过程与像素级“执行”过程进行动态联合优化[3] - 框架旨在赋予分割模型真正的、上下文感知的推理能力,从根本上提升其在复杂任务中的鲁棒性和泛化性[3] - 核心设计通过端到端联合优化,彻底打破传统模型中“思考”与“执行”之间的信息壁垒[9] - 相比非端到端设计,LENS通过反馈闭环具备自我纠正能力,能从不完美的初步定位中恢复,而非将误差单向传播至下游[9] LENS架构与组件 - 整体架构由三大核心组件构成:多模态大语言模型、上下文模块、分割模型[10] - 多模态大语言模型作为“推理核心”,处理图像和文本指令,生成思维链推理过程并给出初步目标边界框[10] - 上下文模块作为“信息桥梁”,是关键创新,由一组可学习的上下文查询和一个连接器组成,将推理信息转化为分割模型能高效利用的密集提示[12] - 分割模型作为“像素解码器”,接收来自上下文模块的复杂指令,结合原始图像信息,执行精准的像素级掩码生成[13] 训练与优化机制 - 基于Group Relative Policy Optimization方法构建了统一强化学习奖励机制,该机制是多维度的[14] - 奖励机制同时监督三个层级:格式奖励、边界框IoU奖励、分割掩码IoU奖励[17] - 通过联合优化,将统一的GRPO目标与监督分割损失相结合,使模型能从奖励驱动的推理改进和直接的分割监督中同时受益[16] - 端到端特性解决了定位错误向下游传播的问题,即使定位框错误,强大的上下文查询也能引导分割模型走向正确[16] 性能表现与行业地位 - 在RefCOCO系列的基准测试中取得了81.2%的平均cIoU,达到了世界最高水平[18] - 在更具挑战性的零样本基准测试GroundingSuite-Eval中,cIoU达到78.3%,超越第二优方法接近10%[18] - 具体数据:在ReasonSeg-Val数据集上,gIoU为62.1%,cIoU为64.9%;在ReasonSeg-Test数据集上,gIoU为57.2%,cIoU为58.0%;在GS-Eval数据集上,gIoU为67.0%,cIoU为78.3%[19] - 成果表明,基于统一强化学习奖励驱动的思维链推理方法能显著提升文本提示下的分割能力[19]
QwenLong-L1.5发布:一套配方,三大法宝,让30B MoE模型长文本推理能力媲美GPT-5
机器之心· 2025-12-29 12:44
文章核心观点 - 通义文档智能团队推出QwenLong-L1.5模型,旨在系统性解决大模型在长文本深度推理中面临的挑战,其核心是提供了一套完整的“数据合成 + RL优化 + 记忆管理”三位一体的后训练框架[4][5][8] 长文本推理面临的行业挑战 - 模型在“大海捞针”测试中表现良好,但在需要串联分散证据、整合全局信息的多跳推理任务中表现急转直下,暴露深度理解短板[2] - 长文本、多任务的训练数据多源多域,导致标准强化学习算法因数据分布剧烈变化而产生偏差,训练过程不稳定甚至崩溃[2] - 即使上下文窗口扩展到256K或1M,面对分析代码仓库、研读完整财报等“超框”任务时,信息量仍易突破上限,导致关键全局信息丢失和端到端推理能力降级[3] QwenLong-L1.5的技术解决方案 - **高质量数据合成流水线**:通过“先拆解,后组合”思想,打造由知识图谱引导、跨文档表格引擎、多智能体自我进化三大引擎驱动的流水线,程序化生成需要多跳溯源和全局推理的难题[9][12][13] - **稳定高效的RL优化策略**:针对数据分布异构性,采用任务均衡采样和任务专属优势估计双重策略,保证批次内数据分布均衡并提供稳定的优势信号[14][16] - **自适应熵控制策略优化**:提出AEPO算法,基于模型自身不确定性动态屏蔽或施加梯度,平衡探索与利用,解决长文本RL中的信用分配难题和训练不稳定性[17][18][19][20] - **突破极限的记忆管理框架**:为模型设计可无限扩展的“智能笔记本”,通过迭代式记忆更新和多阶段融合RL训练,将外部记忆能力与窗口内推理能力无缝融合,突破物理窗口束缚[21] 模型性能表现 - **整体性能飞跃**:相比基线模型Qwen3-30B-A3B-Thinking-2507,QwenLong-L1.5在多个权威长文本推理基准上的平均分暴涨9.9分[24][26] - **比肩顶级旗舰**:该30B-A3B模型在多项基准上的表现与GPT-5、Gemini-2.5-Pro等顶级闭源模型相媲美[24][26] - **精准能力跃升**:在考验深度推理的复杂任务上提升显著,例如在MRCR基准上性能增长+31.72,在CorpusQA上增长+9.69,在LongBench-V2上增长+6.16[24][26] - **通用能力提升**:经过长文本强化训练后,模型在通用能力上未出现“偏科”,反而在MMLU-PRO、AIME25、GPQA-Diamond等基准上获得提升,长对话记忆能力(LongMemEval)大幅增强+15.60[27] - **超长文本处理能力**:借助记忆管理框架,模型在处理1M至4M Token的超长任务时展现卓越性能,在MRCR和CorpusQA等极限挑战中性能远超同类智能体方法[29][31]
个人电脑也能进行智能体RL训练?尤佳轩团队开源OpenTinker
机器之心· 2025-12-29 11:04
研究团队与项目背景 - 研究团队由伊利诺伊大学厄巴纳-香槟分校计算机系助理教授Jiaxuan You领导,其U Lab长期从事大模型智能体研究,Jiaxuan You教授已在NeurIPS、ICML、ICLR等顶级会议发表论文三十余篇,总引用量两万余次,主导或参与的开源项目累计获得三万余颗Star [2] - 系统实现与实验工作由UIUC计算机系博士生Siqi Zhu完成,其本科毕业于清华大学,研究方向聚焦于大模型智能体与强化学习系统 [2] 行业现状与挑战 - 随着大模型进入“智能体元年”,强化学习被公认为通往通用人工智能的关键技术,但传统框架存在结构性难题,使其长期停留在少数实验室 [4][6] - 传统强化学习框架存在三大工程痛点:1) 智能体无法自然融入现有框架,复杂的工作流需要硬塞进统一训练循环,维护困难;2) 训练默认需要本地GPU集群,硬件门槛高;3) 训练后的模型与训练逻辑深度耦合,难以直接迁移到产品环境独立运行 [7] - 这些问题叠加,导致懂强化学习理论的人不少,但真正能部署的人却凤毛麟角 [8] OpenTinker系统概述 - OpenTinker是一个全新的“强化学习即服务”系统,旨在通过精细的解耦架构和友好的API,让开发者能以极少的代码启动智能体训练,无论是在GPU集群还是仅有CPU的个人电脑上 [4] - 系统的设计哲学是通过解耦和分布式思路,将繁重的RL流程拆解成独立的服务,用清晰的接口串联,使强化学习成为一个可以按需调用的云端服务 [10] 系统架构与核心组件 - OpenTinker将框架拆解为多个职责清晰的角色:客户端提供轻量接口用于定义任务与环境;调度器作为资源中枢,管理GPU工作节点并动态分配资源;训练服务器运行在GPU节点上,负责执行具体的训练与推理流程 [12][13] - 系统交互流程为:客户端打包智能体逻辑与配置提交给调度器,调度器匹配合适的GPU资源并启动实例,任务运行期间客户端与训练服务器保持数据通道以获取关键指标 [15] - 核心程序接口包括:Environment(描述世界演化)、InferenceClient(驱动智能体与环境交互)、RLClient(负责训练控制)、Scheduler(感知并调度算力资源) [18][19] 系统优势与价值 - OpenTinker实现了智能体设计的标准化,通过统一且抽象的接口规范进行模块化封装,不同实验可以像“插件”一样灵活组合与替换,显著降低试错成本并提升开发效率 [21] - 系统优化了开发体验,一旦后端服务器部署在GPU集群,开发者可从任意设备通过网络调用训练与推理能力,无需在本地配置复杂环境,使研究者能专注于算法本身 [21] - 系统提升了算力共享与资源利用率,将GPU资源统一纳入服务化调度体系,支持多用户并发访问、异步执行与任务排队,减少算力闲置,并支持跨组织的资源共享 [21] 未来展望与行业影响 - OpenTinker为下一代智能体基础设施指明了方向,其重心正从预训练时代的单一模型做大做强,转向智能体时代的模块化、服务化以及对多智能体协同进化的原生支持 [23] - 未来的智能体应用可能由大量功能专一的小模型协同构成,形成“混合专家系统”,OpenTinker的统一强化学习服务使得这些异构智能体可以被联合优化与动态组合 [24] - 系统支持具备持续自我更新能力的自进化系统,例如一个编程助手可白天收集交互数据,夜晚通过强化学习更新策略,实现“使用-反馈-更新”的自动化循环,近期U Lab的Multi-agent Evolve工作为此提供了实证支撑 [25] - OpenTinker旨在证明,只要架构设计合理,智能体的进化不必被昂贵的基础设施所垄断,AI进步不应只属于掌握巨量算力的少数巨头 [27]
Groq被收购,失去梦想的员工,人均拿到英伟达的500万美元
机器之心· 2025-12-29 11:04
交易概览 - 英伟达于2025年末以200亿美元对价,通过“资产收购+人才招募”的非典型方式(官方称为达成“非独家许可协议”)将AI推理芯片公司Groq收入麾下[1] - 该交易是英伟达历史上最大的一笔投资,交易方式展现了极高的复杂性,同时避免了反垄断问题[1] 交易估值与支付 - 交易对价为200亿美元,而Groq在交易前三个月的估值仅为69亿美元,意味着英伟达支付了近3倍的溢价[3] - 交易款项将分阶段支付:约85%在2026年中期支付,10%于2026年年中支付,剩余部分在2026年底结清[3] - 大多数Groq股东将按照200亿美元的估值获得按股计算的分配,相当于三倍左右的“市值”兑现[3] 员工安置与补偿 - 约90%的Groq员工(即约450-540人)将加入英伟达[3][6] - 加入英伟达的员工,其已归属股份将以现金形式全额兑付;未归属股份则按200亿美元估值折算为英伟达股票,并按既定时间表逐步归属[3] - 约有50名员工将获得特殊待遇,其全部股票权益将被加速归属并以现金一次性支付[3] - 对于选择留在Groq的员工,公司将支付其已归属股份的对价,并提供包含对公司未来发展经济收益参与权的补偿包[4] - 特别保护条款:无论去留,任职不满一年的Groq员工将被免除股权归属的“悬崖期”限制,确保获得即时流动性[5] - 按Groq员工数量500-600人、员工期权池占总股本10-20%估算,人均能拿到400-600万美元[6] 交易性质与行业影响 - 尽管双方强调这不是一场“收购”,但从实际结果看,Groq几乎没剩下什么,被认为是一次实质上的收购[6][8] - 交易模式被描述为“外科手术”,旨在提取关键人员和技术,同时规避反垄断法[20] - 这种“反向人才收购”或“授权和收购兼并”模式正在成为硅谷AI生态的“新常态”[14][15] - 过去两年,Inflection AI、Adept AI、Character.AI、Scale AI、Windsurf等明星创业公司都以类似方式被“收购”[14] - 该交易为投资人和关键人员带来了巨额回报,例如风投人Chamath Palihapitiya在2017年A轮领投的1000万美元,估计已变成20亿美元[6] - 交易中员工获得与200亿美元估值挂钩的公平报酬,被认为对维持初创公司对早期员工的吸引力至关重要[16] 后续运营与遗留问题 - GroqCloud将继续运营,不受中断[11] - 对于交易后留在“壳公司”的员工,前景并不总是理想,其持有的股票或期权在公司发展势头被削弱后可能价值不大[18][21] - 行业担忧这种模式可能导致投资人对AI初创公司信心下降,创业吸引力减弱,但英伟达的此次大手笔交易又给市场带来了一些信心[15]
百万人围观,「上下文图谱」火了,万亿美元新机遇?
机器之心· 2025-12-28 17:00
文章核心观点 - 智能体(Agent)的崛起正在重塑企业软件生态,其核心影响并非简单地取代传统的记录系统,而是暴露并催生了对新型“记录结构”的需求,这背后隐藏着万亿美元级别的市场机遇 [2][5][16] - 传统记录系统(如CRM、ERP)作为业务数据的“单一事实来源”不会消亡,但Agent的跨系统、面向行动的特性,迫使其角色从人类操作中心演变为服务于机器的“带API的状态机”,对数据质量和治理提出了更高标准 [10][14][15] - 当前企业自动化的真正瓶颈在于缺乏对“决策轨迹”的系统性记录,即那些解释“为什么”某个行动被允许发生的关键上下文信息,这些信息通常散落在聊天记录、个人经验和临时讨论中 [22][28][31] - 能够捕获并结构化“决策轨迹”以形成“上下文图谱”的创业公司,具备构建下一代万亿美元级平台(即“决策的记录系统”)的结构性优势,而传统软件巨头由于架构和历史原因难以涉足此领域 [26][40][42][50] - 构建有效的“上下文图谱”需要先建立“操作上下文”这一基础层,以解决身份、关系、时间状态等根本问题,而当前市场主流的RAG和AI记忆方案无法满足这一需求 [55][63][77][80] 记录系统的定义与演变 - 记录系统是企业的“总账本”和“黑匣子”,负责记录谁在何时做了什么、数据如何变更、流程进展到哪一步,用于对账、追责和合规检查,上一代万亿美元级的企业软件生态正是基于此构建 [7][8] - 传统工作流程严重依赖记录系统,例如销售必须将商机录入Salesforce,财务必须在ERP中做凭证,否则相关业务“就算没发生” [9] - Agent的出现动摇了记录系统的中心地位,Agent可以从各系统读取数据,在系统外完成决策和执行,最后只回写结果,这使得记录系统可能退化为只读的数据仓库,不再是流程的必经中心 [10] - 有观点认为记录系统已死,但反驳意见指出,自动化程度越高,越需要明确的“真相源”,记录系统通过各司其职(CRM管客户、ERP管财务)或通过数据仓库/湖仓作为“单一事实来源”来解决数据混乱问题 [11][13] - Agent是跨系统且面向行动的,其能力上限取决于对“哪个系统拥有哪项真相”以及“真相间契约”的理解,这迫使工作的用户体验与真相源分离,前端可以是自然语言界面,但底层仍需权威记录 [14] 上下文图谱:新机遇与核心价值 - “上下文图谱”是由长期积累的、结构化的“决策轨迹”构成,它是一份跨实体、跨时间连接的活的决策记录,使历史先例可搜索、可复用 [26][61] - 决策轨迹记录的是具体某次决策如何产生,包括:使用了哪种定义、基于哪个政策版本、是否获得例外审批、参考了哪些历史先例以及做了哪些调整,这与一般性的业务规则有本质区别 [24][25][58] - 上下文图谱的价值在于,它不仅能记录“发生了什么”,更能解释“为什么这些行为被允许发生”,从而成为自治系统真正的事实来源 [26][40] - 系统型Agent创业公司因位于实际执行路径中,能在决策发生时捕获完整的跨系统上下文、政策评估、例外流程和审批链条,从而具备构建上下文图谱的结构性优势 [25][42] - 上下文图谱能形成强大的反馈循环:被捕获的决策轨迹成为可搜索的先例,新的自动化决策又为图谱增添新轨迹,使得系统越用越懂业务,复利效应显著 [33] 传统系统的局限与创业公司的机会 - 传统记录系统(如Salesforce、ServiceNow)天然是孤立的、以当前状态为核心,它们擅长记录“当前状态什么样”,但无法回放决策发生时的完整世界状态,因此无法捕获支撑决策的上下文 [38][39] - 真实的业务决策几乎总是跨系统的,但没有任何传统厂商位于这个跨系统的执行路径中,因此无法捕获完整的决策上下文 [39][40] - 传统巨头可能通过并购、封锁API、收取高额数据外流费用等方式竞争,但他们无法强行插入一个自己从未参与过的编排层,因为捕获决策轨迹的前提是在决策提交时就身处执行路径中 [43] - 创业公司有三条主要发展路径:1)从头构建AI原生的记录系统以替换现有系统(如Regie);2)聚焦于例外密集的关键子流程,成为该环节的决策记录系统,并与传统系统同步状态(如Maximor);3)从编排层起步,创建专门记录决策过程的全新记录系统(如PlayerZero) [44][45] - 随着Agent规模化部署,对Agent可观测性的需求将催生新的基础设施公司,例如Arize正在构建监控和评估Agent决策质量的可观测性层 [46] 识别市场机会的关键信号 - 高人力密度是强烈信号,如果大量人力重复处理同一复杂工作流(如工单路由、跨系统对账),说明传统工具无法自动化,存在Agent切入机会 [47] - 例外密集型决策场景价值最高,例如交易审批、承保决策、合规审查、升级处理等,这些场景逻辑复杂、先例重要,需要视情况而定的判断 [48] - 位于多个系统交汇处的“胶水型”组织职能(如RevOps、DevOps、Security Ops)是通往新一代记录系统的明确信号,因为这些职能的存在本身就意味着没有现成系统能完整掌管其跨职能工作流 [49] 操作上下文:构建决策图谱的基础 - 在捕获“决策轨迹”之前,必须先解决“操作上下文”问题,即让Agent理解组织的真实结构、角色和关系 [55][63] - 操作上下文包含四个核心要素:1)身份解析,确保同一个人在不同系统中被识别为统一实体;2)所有权和关系建模,明确谁负责什么以及实体间关联;3)时间状态理解,能还原决策发生时的世界状态而非仅看当前结果;4)跨系统综合判断能力 [66][70][71][72] - 当前主流的RAG方案存储的是文本相似性,而非语义和关系;AI记忆平台记录的是聊天历史,而非组织现实,两者都无法解决操作上下文的结构性问题 [77][78][79] - 构建操作上下文层需要具备多模态数据接入、时间建模、关系映射、Agent互操作性以及企业级部署等核心能力 [81][82][83][84][85] - 决策轨迹是一种比传统Agent可观测性更高层级的业务语义记录,它描述在什么政策下、基于哪些上下文、触发了哪些例外、由谁批准、参考了哪些先例 [87]
SIGGRAPH Asia 2025最佳论文 | 港中大、曼彻斯特大学获奖
机器之心· 2025-12-28 17:00
SIGGRAPH Asia 2025最佳论文的技术突破 - 在SIGGRAPH Asia 2025的评审中,大会共收到1,106篇技术论文投稿,最终录用201篇会议论文和100篇期刊论文,其中仅有5篇获得“最佳论文奖”[2] - 本届会议将“最佳论文”授予了一项与3D打印直接相关的研究,标志着科研界关注点从生成3D模型转向了模型的“完美”物理制造[5][6] - 这项由香港中文大学和曼彻斯特大学团队带来的研究《Curve-Based Slicer for Multi-Axis DLP 3D Printing》,提出了一种可微优化的全新切片计算框架,重新定义了DLP 3D打印的切片过程[6] 传统DLP 3D打印的技术局限 - DLP打印利用投影仪将紫外光图案投射到液态树脂槽底部,通过光聚合反应逐层固化材料,因其高分辨率和快速成型的特点,已广泛应用于医疗、牙科、珠宝制造等领域[9] - 传统DLP系统依赖单轴垂直运动进行固定平面切片,这种“千层饼”式堆叠方式面临两大物理挑战:一是需要为悬垂结构添加支撑,浪费材料且留下疤痕;二是会在曲面形成明显的层纹,破坏表面光滑度[10][11] - 学术界引入“多轴”概念,通过让构建平台在机械臂上随意旋转,使打印层能贴合模型表面并避开悬垂结构,但这也带来了极高的运动轨迹规划计算复杂度[11][14] 基于可微优化的核心方法论 - 研究团队摒弃了传统基于离散平面的几何计算逻辑,构建了一个基于连续曲线的微分优化框架,将多轴打印的运动轨迹参数化为一条连续的贝塞尔曲线[16][17] - 该方法将复杂的制造过程转化为一个标准的数学优化问题:在解空间内寻找一组最优的贝塞尔曲线控制点,使得包含所有制造目标的总损失函数最小化[20][22] - 团队利用Adam优化器和深度学习框架中的自动微分机制,将物理制造约束拆解为“软目标”和“硬约束”两部分进行梯度下降求解[23] 软目标与硬约束的具体构成 - 软目标函数追求更高打印质量,包含无支撑优化和表面质量优化,通过权重进行平衡[23] - 无支撑优化通过极小化“悬垂角”来避免大角度悬垂,当模型表面法向量与打印方向夹角超过材料特定阈值时,损失函数会急剧增加[24] - 表面质量优化针对用户关注区域,驱动切片平面的法向与模型表面法向保持一致,从数学上消除阶梯效应的几何成因[24] - 硬约束函数确保物理可行性,包含防碰撞约束、无悬浮/连通性约束和完整性约束,在优化中作为惩罚项处理[25] - 防碰撞约束将环境障碍物建模为凸多面体,计算已打印部分与多面体的符号距离,出现负距离则产生巨大惩罚[27] - 无悬浮约束通过引入接触状态函数和数学近似,使“悬浮”这一离散物理现象变得可微,能被直接放入损失函数中进行优化[27] 扩展求解能力的进阶策略 - 研究引入了初始位姿的联合优化,将模型的初始摆放位姿参数化为一个变换矩阵,并作为优化变量纳入整体数学规划,算法在搜索最优切片轨迹的同时,也在连续空间中搜索最佳模型摆放角度[32][33] - 在Fertility模型中,固定角度下优化易陷入局部极小值,而联合优化后算法自动收敛到一个特定的倾斜角度,使所有悬垂区域满足无支撑阈值,实现了无支撑制造[37] - 针对复杂拓扑结构模型,论文提出了自适应多曲线划分策略,当单条曲线无法满足约束时,系统会自动利用de Casteljau算法将曲线分裂,并引入新的控制点进行协同优化[39][41] - 在Toroidal-Tubes模型中,算法从1条初始曲线开始,根据损失反馈自动迭代分裂为3条曲线,最终成功实现了这一高亏格模型的无支撑打印[43] 算法性能与物理验证 - 团队在配备NVIDIA RTX 4090的工作站上测试,基于JAX框架实现的微分优化算法展现了极高的收敛效率,对于大多数测试用例,生成轨迹的耗时控制在30秒以内[44] - 物理制造平台由UR5e六轴机械臂与DLP投影仪组成,实物验证重点验证了生成轨迹的可制造性及表面质量,所有展示模型均未添加用于支撑几何悬垂的内部结构[45][48] - 在Bunny和Woman模型中,通过引入表面质量损失函数,实物对比显示模型平缓区域的阶梯效应得到显著抑制,表面光洁度明显优于传统固定平面切片[53] 研究的核心贡献与行业意义 - 这项研究提出了一种基于可微轨迹优化的多轴DLP 3D打印切片框架,将切片过程建模为一个连续的数学优化问题,而非传统的离散几何规则方法[50] - 核心贡献包括:1) 将防碰撞、连通性、无支撑等离散制造约束转化为可微损失函数,实现连续解空间中的梯度下降求解;2) 支持对模型初始位姿和空间划分进行联合优化,显著扩展多轴系统求解能力;3) 自适应多曲线细分策略有效解决了高亏格复杂拓扑结构的覆盖难题[51][54] - 该工作验证了数值优化方法在制造工艺规划中的有效性,其将“路径规划”转化为“轨迹优化”的数学思路,具有通用借鉴意义,有望被迁移至五轴CNC加工或机器人焊接等其他制造领域[52][57]