Workflow
机器之心
icon
搜索文档
Groq被收购,失去梦想的员工,人均拿到英伟达的500万美元
机器之心· 2025-12-29 11:04
交易概览 - 英伟达于2025年末以200亿美元对价,通过“资产收购+人才招募”的非典型方式(官方称为达成“非独家许可协议”)将AI推理芯片公司Groq收入麾下[1] - 该交易是英伟达历史上最大的一笔投资,交易方式展现了极高的复杂性,同时避免了反垄断问题[1] 交易估值与支付 - 交易对价为200亿美元,而Groq在交易前三个月的估值仅为69亿美元,意味着英伟达支付了近3倍的溢价[3] - 交易款项将分阶段支付:约85%在2026年中期支付,10%于2026年年中支付,剩余部分在2026年底结清[3] - 大多数Groq股东将按照200亿美元的估值获得按股计算的分配,相当于三倍左右的“市值”兑现[3] 员工安置与补偿 - 约90%的Groq员工(即约450-540人)将加入英伟达[3][6] - 加入英伟达的员工,其已归属股份将以现金形式全额兑付;未归属股份则按200亿美元估值折算为英伟达股票,并按既定时间表逐步归属[3] - 约有50名员工将获得特殊待遇,其全部股票权益将被加速归属并以现金一次性支付[3] - 对于选择留在Groq的员工,公司将支付其已归属股份的对价,并提供包含对公司未来发展经济收益参与权的补偿包[4] - 特别保护条款:无论去留,任职不满一年的Groq员工将被免除股权归属的“悬崖期”限制,确保获得即时流动性[5] - 按Groq员工数量500-600人、员工期权池占总股本10-20%估算,人均能拿到400-600万美元[6] 交易性质与行业影响 - 尽管双方强调这不是一场“收购”,但从实际结果看,Groq几乎没剩下什么,被认为是一次实质上的收购[6][8] - 交易模式被描述为“外科手术”,旨在提取关键人员和技术,同时规避反垄断法[20] - 这种“反向人才收购”或“授权和收购兼并”模式正在成为硅谷AI生态的“新常态”[14][15] - 过去两年,Inflection AI、Adept AI、Character.AI、Scale AI、Windsurf等明星创业公司都以类似方式被“收购”[14] - 该交易为投资人和关键人员带来了巨额回报,例如风投人Chamath Palihapitiya在2017年A轮领投的1000万美元,估计已变成20亿美元[6] - 交易中员工获得与200亿美元估值挂钩的公平报酬,被认为对维持初创公司对早期员工的吸引力至关重要[16] 后续运营与遗留问题 - GroqCloud将继续运营,不受中断[11] - 对于交易后留在“壳公司”的员工,前景并不总是理想,其持有的股票或期权在公司发展势头被削弱后可能价值不大[18][21] - 行业担忧这种模式可能导致投资人对AI初创公司信心下降,创业吸引力减弱,但英伟达的此次大手笔交易又给市场带来了一些信心[15]
百万人围观,「上下文图谱」火了,万亿美元新机遇?
机器之心· 2025-12-28 17:00
文章核心观点 - 智能体(Agent)的崛起正在重塑企业软件生态,其核心影响并非简单地取代传统的记录系统,而是暴露并催生了对新型“记录结构”的需求,这背后隐藏着万亿美元级别的市场机遇 [2][5][16] - 传统记录系统(如CRM、ERP)作为业务数据的“单一事实来源”不会消亡,但Agent的跨系统、面向行动的特性,迫使其角色从人类操作中心演变为服务于机器的“带API的状态机”,对数据质量和治理提出了更高标准 [10][14][15] - 当前企业自动化的真正瓶颈在于缺乏对“决策轨迹”的系统性记录,即那些解释“为什么”某个行动被允许发生的关键上下文信息,这些信息通常散落在聊天记录、个人经验和临时讨论中 [22][28][31] - 能够捕获并结构化“决策轨迹”以形成“上下文图谱”的创业公司,具备构建下一代万亿美元级平台(即“决策的记录系统”)的结构性优势,而传统软件巨头由于架构和历史原因难以涉足此领域 [26][40][42][50] - 构建有效的“上下文图谱”需要先建立“操作上下文”这一基础层,以解决身份、关系、时间状态等根本问题,而当前市场主流的RAG和AI记忆方案无法满足这一需求 [55][63][77][80] 记录系统的定义与演变 - 记录系统是企业的“总账本”和“黑匣子”,负责记录谁在何时做了什么、数据如何变更、流程进展到哪一步,用于对账、追责和合规检查,上一代万亿美元级的企业软件生态正是基于此构建 [7][8] - 传统工作流程严重依赖记录系统,例如销售必须将商机录入Salesforce,财务必须在ERP中做凭证,否则相关业务“就算没发生” [9] - Agent的出现动摇了记录系统的中心地位,Agent可以从各系统读取数据,在系统外完成决策和执行,最后只回写结果,这使得记录系统可能退化为只读的数据仓库,不再是流程的必经中心 [10] - 有观点认为记录系统已死,但反驳意见指出,自动化程度越高,越需要明确的“真相源”,记录系统通过各司其职(CRM管客户、ERP管财务)或通过数据仓库/湖仓作为“单一事实来源”来解决数据混乱问题 [11][13] - Agent是跨系统且面向行动的,其能力上限取决于对“哪个系统拥有哪项真相”以及“真相间契约”的理解,这迫使工作的用户体验与真相源分离,前端可以是自然语言界面,但底层仍需权威记录 [14] 上下文图谱:新机遇与核心价值 - “上下文图谱”是由长期积累的、结构化的“决策轨迹”构成,它是一份跨实体、跨时间连接的活的决策记录,使历史先例可搜索、可复用 [26][61] - 决策轨迹记录的是具体某次决策如何产生,包括:使用了哪种定义、基于哪个政策版本、是否获得例外审批、参考了哪些历史先例以及做了哪些调整,这与一般性的业务规则有本质区别 [24][25][58] - 上下文图谱的价值在于,它不仅能记录“发生了什么”,更能解释“为什么这些行为被允许发生”,从而成为自治系统真正的事实来源 [26][40] - 系统型Agent创业公司因位于实际执行路径中,能在决策发生时捕获完整的跨系统上下文、政策评估、例外流程和审批链条,从而具备构建上下文图谱的结构性优势 [25][42] - 上下文图谱能形成强大的反馈循环:被捕获的决策轨迹成为可搜索的先例,新的自动化决策又为图谱增添新轨迹,使得系统越用越懂业务,复利效应显著 [33] 传统系统的局限与创业公司的机会 - 传统记录系统(如Salesforce、ServiceNow)天然是孤立的、以当前状态为核心,它们擅长记录“当前状态什么样”,但无法回放决策发生时的完整世界状态,因此无法捕获支撑决策的上下文 [38][39] - 真实的业务决策几乎总是跨系统的,但没有任何传统厂商位于这个跨系统的执行路径中,因此无法捕获完整的决策上下文 [39][40] - 传统巨头可能通过并购、封锁API、收取高额数据外流费用等方式竞争,但他们无法强行插入一个自己从未参与过的编排层,因为捕获决策轨迹的前提是在决策提交时就身处执行路径中 [43] - 创业公司有三条主要发展路径:1)从头构建AI原生的记录系统以替换现有系统(如Regie);2)聚焦于例外密集的关键子流程,成为该环节的决策记录系统,并与传统系统同步状态(如Maximor);3)从编排层起步,创建专门记录决策过程的全新记录系统(如PlayerZero) [44][45] - 随着Agent规模化部署,对Agent可观测性的需求将催生新的基础设施公司,例如Arize正在构建监控和评估Agent决策质量的可观测性层 [46] 识别市场机会的关键信号 - 高人力密度是强烈信号,如果大量人力重复处理同一复杂工作流(如工单路由、跨系统对账),说明传统工具无法自动化,存在Agent切入机会 [47] - 例外密集型决策场景价值最高,例如交易审批、承保决策、合规审查、升级处理等,这些场景逻辑复杂、先例重要,需要视情况而定的判断 [48] - 位于多个系统交汇处的“胶水型”组织职能(如RevOps、DevOps、Security Ops)是通往新一代记录系统的明确信号,因为这些职能的存在本身就意味着没有现成系统能完整掌管其跨职能工作流 [49] 操作上下文:构建决策图谱的基础 - 在捕获“决策轨迹”之前,必须先解决“操作上下文”问题,即让Agent理解组织的真实结构、角色和关系 [55][63] - 操作上下文包含四个核心要素:1)身份解析,确保同一个人在不同系统中被识别为统一实体;2)所有权和关系建模,明确谁负责什么以及实体间关联;3)时间状态理解,能还原决策发生时的世界状态而非仅看当前结果;4)跨系统综合判断能力 [66][70][71][72] - 当前主流的RAG方案存储的是文本相似性,而非语义和关系;AI记忆平台记录的是聊天历史,而非组织现实,两者都无法解决操作上下文的结构性问题 [77][78][79] - 构建操作上下文层需要具备多模态数据接入、时间建模、关系映射、Agent互操作性以及企业级部署等核心能力 [81][82][83][84][85] - 决策轨迹是一种比传统Agent可观测性更高层级的业务语义记录,它描述在什么政策下、基于哪些上下文、触发了哪些例外、由谁批准、参考了哪些先例 [87]
SIGGRAPH Asia 2025最佳论文 | 港中大、曼彻斯特大学获奖
机器之心· 2025-12-28 17:00
SIGGRAPH Asia 2025最佳论文的技术突破 - 在SIGGRAPH Asia 2025的评审中,大会共收到1,106篇技术论文投稿,最终录用201篇会议论文和100篇期刊论文,其中仅有5篇获得“最佳论文奖”[2] - 本届会议将“最佳论文”授予了一项与3D打印直接相关的研究,标志着科研界关注点从生成3D模型转向了模型的“完美”物理制造[5][6] - 这项由香港中文大学和曼彻斯特大学团队带来的研究《Curve-Based Slicer for Multi-Axis DLP 3D Printing》,提出了一种可微优化的全新切片计算框架,重新定义了DLP 3D打印的切片过程[6] 传统DLP 3D打印的技术局限 - DLP打印利用投影仪将紫外光图案投射到液态树脂槽底部,通过光聚合反应逐层固化材料,因其高分辨率和快速成型的特点,已广泛应用于医疗、牙科、珠宝制造等领域[9] - 传统DLP系统依赖单轴垂直运动进行固定平面切片,这种“千层饼”式堆叠方式面临两大物理挑战:一是需要为悬垂结构添加支撑,浪费材料且留下疤痕;二是会在曲面形成明显的层纹,破坏表面光滑度[10][11] - 学术界引入“多轴”概念,通过让构建平台在机械臂上随意旋转,使打印层能贴合模型表面并避开悬垂结构,但这也带来了极高的运动轨迹规划计算复杂度[11][14] 基于可微优化的核心方法论 - 研究团队摒弃了传统基于离散平面的几何计算逻辑,构建了一个基于连续曲线的微分优化框架,将多轴打印的运动轨迹参数化为一条连续的贝塞尔曲线[16][17] - 该方法将复杂的制造过程转化为一个标准的数学优化问题:在解空间内寻找一组最优的贝塞尔曲线控制点,使得包含所有制造目标的总损失函数最小化[20][22] - 团队利用Adam优化器和深度学习框架中的自动微分机制,将物理制造约束拆解为“软目标”和“硬约束”两部分进行梯度下降求解[23] 软目标与硬约束的具体构成 - 软目标函数追求更高打印质量,包含无支撑优化和表面质量优化,通过权重进行平衡[23] - 无支撑优化通过极小化“悬垂角”来避免大角度悬垂,当模型表面法向量与打印方向夹角超过材料特定阈值时,损失函数会急剧增加[24] - 表面质量优化针对用户关注区域,驱动切片平面的法向与模型表面法向保持一致,从数学上消除阶梯效应的几何成因[24] - 硬约束函数确保物理可行性,包含防碰撞约束、无悬浮/连通性约束和完整性约束,在优化中作为惩罚项处理[25] - 防碰撞约束将环境障碍物建模为凸多面体,计算已打印部分与多面体的符号距离,出现负距离则产生巨大惩罚[27] - 无悬浮约束通过引入接触状态函数和数学近似,使“悬浮”这一离散物理现象变得可微,能被直接放入损失函数中进行优化[27] 扩展求解能力的进阶策略 - 研究引入了初始位姿的联合优化,将模型的初始摆放位姿参数化为一个变换矩阵,并作为优化变量纳入整体数学规划,算法在搜索最优切片轨迹的同时,也在连续空间中搜索最佳模型摆放角度[32][33] - 在Fertility模型中,固定角度下优化易陷入局部极小值,而联合优化后算法自动收敛到一个特定的倾斜角度,使所有悬垂区域满足无支撑阈值,实现了无支撑制造[37] - 针对复杂拓扑结构模型,论文提出了自适应多曲线划分策略,当单条曲线无法满足约束时,系统会自动利用de Casteljau算法将曲线分裂,并引入新的控制点进行协同优化[39][41] - 在Toroidal-Tubes模型中,算法从1条初始曲线开始,根据损失反馈自动迭代分裂为3条曲线,最终成功实现了这一高亏格模型的无支撑打印[43] 算法性能与物理验证 - 团队在配备NVIDIA RTX 4090的工作站上测试,基于JAX框架实现的微分优化算法展现了极高的收敛效率,对于大多数测试用例,生成轨迹的耗时控制在30秒以内[44] - 物理制造平台由UR5e六轴机械臂与DLP投影仪组成,实物验证重点验证了生成轨迹的可制造性及表面质量,所有展示模型均未添加用于支撑几何悬垂的内部结构[45][48] - 在Bunny和Woman模型中,通过引入表面质量损失函数,实物对比显示模型平缓区域的阶梯效应得到显著抑制,表面光洁度明显优于传统固定平面切片[53] 研究的核心贡献与行业意义 - 这项研究提出了一种基于可微轨迹优化的多轴DLP 3D打印切片框架,将切片过程建模为一个连续的数学优化问题,而非传统的离散几何规则方法[50] - 核心贡献包括:1) 将防碰撞、连通性、无支撑等离散制造约束转化为可微损失函数,实现连续解空间中的梯度下降求解;2) 支持对模型初始位姿和空间划分进行联合优化,显著扩展多轴系统求解能力;3) 自适应多曲线细分策略有效解决了高亏格复杂拓扑结构的覆盖难题[51][54] - 该工作验证了数值优化方法在制造工艺规划中的有效性,其将“路径规划”转化为“轨迹优化”的数学思路,具有通用借鉴意义,有望被迁移至五轴CNC加工或机器人焊接等其他制造领域[52][57]
马斯克的「移动客厅」又火了:20人座无方向盘,每公里才3毛钱
机器之心· 2025-12-28 12:44
特斯拉Robovan产品设计 - 车辆外形接近公交车或火车车厢 采用1950年代装饰艺术风格 车身涂漆铝合金外壳搭配深色单向玻璃 前脸流线型无可见挡风玻璃 车轮隐藏[6][7] - 车辆无方向盘和踏板 完全依靠自动驾驶系统运行[7] - 采用超低离地间隙设计 通过自动负载调平悬架系统根据路况自动升降车身以通过障碍 该技术未来有望应用于FSD系统提升舒适度[9] - 车身配备滑动式玻璃门和车顶玻璃天窗 前后储物空间容量差异明显 前储物箱可容纳约10个行李箱 后备箱仅能放置2个[10] - 内部采用白色基调 配备氛围照明和空调系统 标准配置可搭载20名乘客 展示版本设14个座位并可额外容纳6人站立 座椅相对布局 车厢两端各配备一块大型显示屏[10] 特斯拉Robovan技术规格与定位 - 预计采用双电机系统 电池容量约200千瓦时 可能配备感应式无线充电功能[14] - 搭载与Robotaxi相同的纯视觉自动驾驶技术 依靠摄像头和人工智能导航 不使用雷达、激光雷达或声纳传感器[14] - 定位为多功能车型 客运模式下可作为短途公交或高频率城市交通工具 货运配置可取消座椅以提供宽敞配送空间 适合最后一公里物流[12] - 还可用于特斯拉服务、校车、婚庆用车或房车改装等场景 公司正在开发配备可展开坡道和专用安全带的轮椅无障碍版本[13] - 运营成本可降至每英里5至10美分 远低于传统公共交通[15] 特斯拉Robovan与Robotaxi进展及对比 - 在旧金山大停电时 Waymo无人驾驶出租车集体趴窝 而依靠FSD系统的特斯拉汽车未受影响[1] - Robovan目前仍处于概念阶段 由于Robotaxi计划于2026年投产 Robovan预计最早要到2027年才能量产 业内认为该车型不太可能在2028年前上市[15] - 特斯拉表示Robotaxi售价将低于3万美元 Robovan因尺寸更大、功能更多 定价预计更高 但具体数字尚未公布[16] 马斯克个人财富动态 - 特斯拉CEO埃隆・马斯克的净资产飙升至7490亿美元(约合5.28万亿元人民币) 成为人类历史上首位身家超过7000亿美元的富豪[19] - 财富增长主要源于特拉华州最高法院恢复其2018年的薪酬方案 该决定直接导致其净资产单日暴增约1390亿美元[20][21] - 该薪酬方案2018年时价值560亿美元 随着特斯拉股价上涨 其价值已攀升至1390亿美元[21] - 马斯克目前的财富超过全球第二富有的谷歌联合创始人拉里・佩奇近5000亿美元[22]
AI 真能看懂物理世界吗?FysicsWorld:填补全模态交互与物理感知评测的空白
机器之心· 2025-12-28 12:44
行业趋势:从多模态拼接迈向全模态统一智能 - 多模态大语言模型正经历快速范式转变,新兴研究聚焦于构建能够联合处理和生成跨语言、视觉、音频等信息的统一全模态大模型 [2] - 该转变的驱动力源于真实物理世界的复杂性,人类通过观察和分析视觉、听觉、空间动态等多模态信息来理解世界 [3] - 面向真实物理世界的先进全模态智能架构,不仅需对多模态交互做出正确响应,还应具备遵循物理世界规律的感知与推理能力 [4] 行业痛点:现有评测体系存在不足 - 当前评测体系难以跟上模型能力扩张,存在模态覆盖不完整、模态间缺乏真实物理世界关联、任务长期局限于文本输出等问题 [4] - 这使得研究者无法全面评估模型在复杂物理世界场景中的实际能力,也无法进行公平、统一的跨模态比较 [4] - 现有跨模态基准多数局限于以文本为中心的有限模态,鲜有工作能彻底涵盖文本、图像、视频、音频等全模态信息 [16] - 现有基准输出形式单一,多数仅考察文本输出,几乎不涉及多模态生成,也缺乏语音驱动的多模态交互任务 [16] - 现有数据集常将不同模态信息简单拼接,忽略了模态间的关联性与耦合性,导致信息密度低,不要求模型进行真正的跨模态理解和推理 [16] 公司产品:FysicsWorld 评测基准 - 飞捷科思智能科技(Fysics AI)与复旦大学认知与智能技术实验室共同推出了全球首个面向真实物理世界的统一全模态评测基准 FysicsWorld [4] - 该基准能够评测模型在图像、视频、音频与文本间进行双向输入与输出的能力,覆盖模型对真实物理世界场景的感知、理解、生成及跨模态推理等核心能力 [4] - FysicsWorld 包括具备高质量样本的 16 大任务,涉及上百类真实开放域场景,并精心设计了跨模态信息之间的依赖关系与互补性 [6] - 基准创新地提出了跨模态互补性筛选策略,通过严格的模态依赖性验证机制,确保每个样本求解时必须依赖多种模态的信息融合,有效避免“单模态捷径”带来的偏差 [8] - 通过大量实验证明,FysicsWorld 能够清晰揭示当前全模态模型在融合多模态理解推理、语音驱动人机交互、跨模态生成及物理场景感知等环节的真实短板 [10] 产品细节:任务体系与数据构建 - FysicsWorld 构建了一套从基础感知到高阶交互的系统化任务体系,包含 16 项多模态任务 [15] - 任务体系首次实现了对全模态模型从单模态到多模态、从静态到动态、从时序到空间、从感知到生成与推理的连续覆盖 [17] - 在数据构建阶段采用了严谨的多源融合流程,通过人工审校与半自动化辅助校对的双重机制,对语义一致性、表达自然度和场景匹配性进行严格筛查 [22] - 在语音驱动的人机交互任务中,构建了闭环数据构造与验证流程,基于 10 余种不同的真人语音音色构造真实自然且高度拟人化的语音交互数据 [22] 评测结果:模型能力现状与瓶颈 - 研究团队基于 FysicsWorld 对国际上 30 余个最先进的 AI 模型进行了系统性评测 [27] - 在图像、视频和音频理解的基础任务中,GPT-5 与 Gemini-2.5-Pro 等闭源模型整体领先,开源全模态模型在部分任务上逐渐缩小差距,但在长视频语义链路、复杂听觉理解及高难度推理中仍显薄弱 [28] - 当任务切换到真实物理场景下的多模态协作时,模型性能普遍出现明显下滑,尤其是在必须依赖图像、视频、音频之间真实互补关系才能作答的任务中,短板暴露无遗 [31] - 主流模型在面向真实世界的多模态对齐、信息融合、跨模态生成以及物理场景适应能力等关键环节,仍存在显著不足 [31] 未来展望:全模态智能的发展方向 - 面向真实物理世界的全模态智能的下一阶段,不仅需要继续巩固单模态能力的根基,更需要在模态融合策略上进行系统性优化,实现多模态信息在时空、语义及物理约束维度的协调与整合 [35] - 跨模态动态推理、场景化理解与生成能力,将成为衡量下一代全模态模型核心竞争力的关键指标 [35] - FysicsWorld 为面向真实物理世界的全模态智能提供了可控、系统且可比较的能力映射工具,使研究者能够清晰洞察模型在多模态感知、物理场景信息融合和跨模态推理生成上的真实水平 [36]
一封AI邮件,竟让Go语言之父爆起粗口
机器之心· 2025-12-28 12:44
事件概述 - 传奇程序员、“Go语言之父”Rob Pike对一封由AI生成的感谢邮件感到愤怒并爆粗口,该邮件来自一个名为AI Village的组织,署名Claude Opus 4.5 [1][5] - 邮件内容概括了Pike四十多年来的多项贡献,包括创造Go语言、参与Plan 9系统、发明UTF-8编码、开发编辑器以及合著书籍 [3][4] - 邮件末尾附有公开对话的声明,Pike视其为“AI生成的垃圾邮件”或“AI泔水” [5] - Python之父Guido van Rossum也收到了类似骚扰,其回应较为克制 [5] 引发愤怒的多重原因 - 直接原因是收到未经请求的、由AI生成的“垃圾邮件”式骚扰 [5] - 更深层次的不满指向当前AI行业:巨大的硬件消耗浪费资源并造成环境压力;对社会层面造成破坏;使用互联网数据训练模型却未给数据贡献者补偿 [8] - Pike个人长期致力于与软件复杂性作斗争,因此可能看不惯擅长生成臃肿代码的AI [9] 程序员群体对AI编程的反应 - 对AI生成代码的厌恶情绪在程序员群体中有一定代表性 [13] - 部分使用者感到依赖AI编程工具导致自身基本功退化 [14] - 另一种观点认为,顶尖程序员对AI的抵触可能源于难以适应AI编程的快速进步,担心被甩在后面 [15] - AI模型的发展给程序员群体带来了恐慌感,知名AI研究员Andrej Karpathy表示“作为程序员,我从未感到如此落后” [16] - Claude Code创建者Boris Cherny提供数据:过去一个月其提交的259个PR包含497次提交,代码增删达4万行和3.8万行,全部由AI编写 [18] 行业内的适应与积极尝试 - 尽管感到落后,但Karpathy对AI态度积极,积极学习并尝试,例如让Claude Code接管家庭智能系统 [20] - 面对普遍恐慌,许多建议是顺应趋势,积极使用AI编程工具,以积累实践经验 [22]
压缩之外,Visual Tokenizer 也要理解世界?
机器之心· 2025-12-28 09:30
视觉Tokenizer的演进与MiniMax VTP研究 - 传统视觉生成模型采用两阶段流程:先通过Tokenizer(如VAE)压缩图像为潜在表示,再于潜在空间训练生成模型[6] - 行业常见做法是固定VAE,专注于扩展后续生成模型(如扩散Transformer)的规模,但研究发现若第一阶段Tokenizer质量未提升,生成效果将很快达到饱和[7][8] - MiniMax与华中科技大学的研究提出新视角:提升生成模型性能不仅可依赖主模型扩展,也可通过扩展Tokenizer本身实现[8] - 研究发现,仅追求像素级重建精度、投入更多算力让自编码器重建更逼真,反而可能降低下游生成质量[8] - VTP工作揭示问题根源:传统以重建为目标的视觉Tokenizer,其潜在空间偏向低层次像素信息,缺乏对高层语义的简洁表示,导致“重建强、生成弱”[8] - 解决方案是在Tokenizer预训练中引入语义理解,使潜在表示对高级语义信息更敏感,而非过度记忆像素细节[8] - 研究发现了视觉Tokenizer的Scaling Law现象:传统自编码器在预训练算力达一定规模后性能停滞,而VTP性能持续提升[8] - 实验中,普通VAE使用不到原计算量十分之一即达生成性能瓶颈,而VTP即使将预训练计算量提高10倍,生成效果仍在持续变好[8] - VTP框架将图像-文本对比学习(CLIP)、自监督学习(DINOv2)和传统重建损失结合,统一优化视觉Tokenizer的潜在空间[9] - 具体引入两项语义导向任务:基于DINOv2的自监督损失增强局部结构与全局语义一致性;基于CLIP风格的图像-文本对比损失将语言先验注入视觉潜在空间[9][10] - 实验表明潜在空间的语义质量(以零样本分类准确率度量)与生成性能(FID指标)呈高度正相关[11] - VTP最大模型(约7亿参数)在ImageNet上达到78.2%的零样本分类准确率,压缩重建保真度rFID为0.36[11] - 将该Tokenizer替换进标准扩散模型后,在不改变模型结构和计算量的情况下,生成图像的FID相对基准降低65.8%,收敛速度提升约4倍[12] - 这意味着仅通过在Tokenizer预训练上投入更多算力,即可大幅提升下游生成质量,无需额外增加生成模型复杂度[13] 视觉生成模型的技术路径与行业影响 - 视觉Tokenizer的下一步进化关键在于理解世界,而不仅是压缩[1] - 采用1D序列形式的Tokenizer可能比2D网格序列更适合大规模训练[1] - 目前的离散Tokenizer可能只是阶段性的过渡方案[1] - 生成采样阶段的分布偏移导致了“重建强、生成弱”的普遍现象[1] - VTP工作为视觉Tokenizer研究提供了新视角,证明其Scaling Law可行后,视觉生成模型能力可能“再上一个台阶”[5][8] - VTP的研究思路并非孤立,此前已有其他工作提出不同解决方案[14] - 该研究存在一些争议,有分析指出其未系统探讨VTP如何与不同DiT架构交互,且实验采用特定配置,语义潜在空间对其他方法(如flow matching)的有效性尚不明确[8]
告别「单线程」思维:通研院提出NPR框架,让智能体进化出原生的并行推理大脑
机器之心· 2025-12-27 12:01
核心观点 - 北京通用人工智能研究院提出了一种名为“原生并行推理器”的新方法,旨在解决大语言模型在复杂推理场景中传统链式思维的局限性,通过让模型在一次思考中同时衍生并维护多条候选推理路径,并在关键节点进行分支与聚合,以合成最优解 [2] - 该方法的核心突破在于提出了一套“自蒸馏 + 并行强化学习”的三阶段训练范式,并配套专门的并行推理引擎,目标是让并行推理从外挂技巧变为模型的原生认知能力 [2] 背景与痛点 - 未来更强的智能体需要具备广泛探索多条思考路径的能力,类似MapReduce的分而治之思路,但将其天然整合进智能体存在巨大挑战 [4] - 现有方法面临三大挑战:1) 算法与架构不匹配,现有推理引擎和强化学习算法难以原生支持“分支+聚合”操作 [5];2) 低效的手工并行机制导致分支间重复计算,效率低下 [6];3) 对强监督蒸馏的依赖,使得模型难以超越教师模型的局限,达到智能瓶颈 [7] 核心理念与训练范式 - NPR的关键在于“原生”,旨在零外部监督的条件下,让模型自我进化出并行推理能力 [15] - 采用渐进式三阶段训练范式:第一阶段为并行格式学习,让模型掌握并行推理的表达结构 [16];第二阶段为自蒸馏,让模型内化并行思考逻辑,摆脱对外部教师模型的依赖 [17];第三阶段为并行感知强化学习,让模型学会在推理过程中执行并行控制逻辑 [18] - 经过三阶段训练,NPR在测试中的准确率从约17%持续爬升至50.4%,并实现了约4.6倍的生成加速 [19] 具体实现细节 - 第一阶段通过格式遵循强化学习,让模型学会生成结构化的并行格式轨迹 [21] - 第二阶段通过拒绝采样与并行预热,对第一阶段产物进行严格筛选,保留高质量并行推理轨迹用于监督微调,并引入并行注意力掩码与并行位置编码以支持并行分支独立计算并实现KV Cache重用 [21][24] - 第三阶段提出并行感知策略优化方法,直接在并行计算图内优化分支策略,并配套NPR-Engine推理引擎以解决工程化问题 [24][29] - 关键技术包括:自蒸馏与严格筛选 [23]、并行注意力掩码与并行位置编码 [24]、并行感知策略优化 [27]、以及工程改进如预算感知的KV回收和格式预检 [29][36] 主要实验与结论 - 在8个推理基准上评测,使用自行提炼的数据集替换Multiverse的训练语料后,性能显著提升:AIME24从46.7提升至50.8,ZebraLogic从60.2提升至76.1,AMC23从75.0提升至85.9,MATH500从81.6提升至91.6,总体平均得分从50.1提升至59.0 [33] - 从顺序监督微切换至并行监督微调能提升模型性能,例如AIME25从37.1提升至42.9 [34] - 在并行监督微调基础上应用并行强化学习能获得进一步性能提升,总体平均得分从62.0提升至65.0 [35] - NPR在所有八个数据集上均达到了100.0%的并行触发率,而Multiverse的并行率则因数据集而异 [37] - 在推理效率上,NPR始终优于Multiverse和自回归基线,加速比随任务难度增加,在AIME25上达到4.6倍加速,在HMMT25上达到4.1倍加速 [38][39] 案例解析与结语 - 案例显示NPR的典型推理模式为:并行产生若干独立计划,每个计划独立展开推理步骤,最后整合与交叉验证得出最终答案 [40] - 该方法构建了一个无需依赖外部教师模型即可学习自适应分解、多样化并行规划和可靠聚合的原生并行推理器,在多个基准测试上显示出显著改进,是实现更通用、可扩展智能的有前景方向 [46]
AI大佬Karpathy焦虑了:作为程序员,我从未感到如此落后
机器之心· 2025-12-27 12:01
行业变革态势 - AI技术的快速发展正在对软件工程行业产生“9级大地震”般的冲击,彻底重构编程职业[4] - 衡量AI通用能力的综合指标ECI在过去两年增长速度几乎是前两年的两倍,2024年4月更是加速增长了90%[19] - AI能力的指数级增长已超过原本预期,且增长势头很可能持续到2026年[20] 工作模式转变 - 程序员贡献的代码越来越少,更多工作转变为在各种工具之间进行串联[4] - 资深工程师表示,软件工程正在发生根本性变革,需要不断重新调整对模型能力的认知[8] - 有工程师在一个月内完全未打开IDE,依靠AI模型(Opus 4.5)生成了约200个PR的所有代码[8] 新技能要求 - 出现了一个新的可编程抽象层需要掌握,包括agents、提示词、上下文、工具、工作流等概念[4] - 需要建立思维模型来理解本质随机、易错且不断变化的AI模型的优缺点[4] - 有效使用AI的关键在于学习如何为其提供良好的上下文,并进行大量实验和项目构建[11] 生产力影响 - 若能正确利用过去一年出现的新工具,程序员的生产力可能提升10倍[4] - AI工具威力巨大但不够稳定,一旦找对方法能带来指数级的生产力提升[9] - 有技术专家表示,投入时间学习使用AI编码Agent来交付高质量产品,是其职业生涯做过的最棒的事[10] 从业者反应 - 行业资深人士(如Andrej Karpathy)感到自身技能落后,引发广泛共鸣,其帖子获得超过2.2万点赞、3000多次转发和360万浏览量[2][4][6] - 新入职的毕业生由于没有先入之见,有时能更有效地使用AI模型[8] - 部分从业者持乐观态度,认为领域开放使得创意解决方案可以来自任何地方,建议避免焦虑,专注于实验和构建[11] - 也存在反对声音,有资深工程师对AI生成的“劣质”内容和其对工程文化的冲击感到愤怒[16][18] 未来展望 - AI进化速度极快,过去30天未跟进的人,其观点可能已经过时[9][10] - 有观点认为软件工程师职业可能在未来5到10年内发生终结性变化[13] - 另一种观点认为,人工智能取代的不是程序员,而是编程语言本身[13]
SIGGRAPH Asia 2025|当视频生成真正「看清一个人」:多视角身份一致、真实光照与可控镜头的统一框架
机器之心· 2025-12-27 12:01
文章核心观点 - 当前视频生成领域的人物定制研究普遍存在一个根本性缺陷,即假设单视角下的人物相似度等同于身份保留,而忽视了真实电影制作中身份认知依赖于多视角与多光照下的稳定表现 [4][5][6] - 公司提出“Virtually Being”框架,其核心论点是:要真正学会一个人的身份,模型必须学习其在多视角与多光照下的外观,身份应被视为一个4D(空间+时间)一致的概念,而非静态的2D属性 [8][9] - 通过系统性引入基于4D重建的多视角表演数据与真实光照变化数据,该框架为解决视频生成中的多视角身份一致性问题提供了一条更贴近电影制作实际需求的路径 [10][37] 当前研究范式的问题与挑战 - **单视角假设的局限性**:主流人物定制范式(给定单张或少量人物图像生成视频)隐含了错误假设,即单视角相似度等于身份保留,但这在真实视频与电影语境中不成立 [4] - **身份具有视角依赖性**:面部轮廓、五官比例、体态与衣物形态会随观察角度发生系统性变化,单张图像无法覆盖侧脸、背面及连续视角变化中的外观一致性 [5] - **相机运动暴露问题**:相机运动会持续暴露未见过的外观区域,放大身份不一致性 [5] - **多人场景放大错误**:当多个角色同框时,轻微的身份漂移会变得非常明显 [5] - **研究空白**:显式关注多视角身份保留在当前视频定制化生成研究中几乎没有被系统性地解决 [7] Virtually Being 框架的方法论 - **数据层面重新设计**:从数据层面重新设计了人物定制流程,以解决多视角身份被长期忽视的问题 [11] - **多视角表演采集**:使用专业体积捕捉系统(75相机面部捕捉阵列、160相机全身捕捉阵列)采集真实人物在受控条件下的动态表演,而非依赖单视角参考图像 [12][14] - **4D高斯溅射作为数据生成器**:利用4D Gaussian Splatting对采集的表演进行高质量重建,生成多视角视频数据,为模型提供多视角下的身份一致性监督 [12][15] - **两阶段训练策略**: - **阶段一:相机感知预训练**:基于ControlNet架构,引入完整3D相机参数,在大规模公开视频数据上训练,使模型掌握电影级镜头语言 [18] - **阶段二:多视角身份定制**:在预训练模型基础上,使用4DGS渲染的多视角视频进行微调,为每个身份引入专属token,将身份与多视角外观显式绑定 [19] - **引入光照真实感**:通过引入基于HDR的视频重打光数据,对同一人物生成多种自然光照条件,使模型学会在光照变化下保持身份稳定 [23] - **多人物生成支持**:支持通过联合训练或推理阶段噪声混合的方式,实现多人物自然同框与互动,前提是模型对每个角色在不同视角与光照下的身份都有稳定建模 [26][27][28] 实验效果与验证 - **身份指标领先**:系统性实验表明,使用多视角数据训练的模型,在AdaFace等身份指标上显著优于仅使用正面视角数据及其他视频定制方法 [32] - **关键数据对比**:在文本到视频定制任务中,该框架的AdaFace得分为0.351,显著高于对比方法MagicMe(0.280)、ConsisID(0.301)等 [35] - **用户研究偏好明确**:在用户研究中,该框架生成结果在“多视角身份”项获得81.34%的偏好率,远超其他方法(最高为ConsisID的12.96%)[35] - **光照真实感提升**:引入重光照数据后,83.9%的用户认为生成视频的光照更自然、更符合真实拍摄效果 [23] - **单视角数据对比**:即使与自身仅使用正面视角数据的版本相比,完整框架在AdaFace得分(0.351 vs 0.327)和动态程度(0.72 vs 0.59)上仍有优势 [35] - **图像到视频定制有效**:在图像到视频定制任务中,该框架版本获得65.43%的用户偏好,优于非定制化基准的34.57% [35]