机器之心
搜索文档
VAST完成5000万美元A轮融资,加速构建世界模型与UGC互动内容平台
机器之心· 2026-03-05 15:43
公司融资与战略定位 - 通用人工智能公司VAST完成5000万美元A轮融资,由阿里、恒旭资本联合领投,元禾璞华、BV百度风投、东方嘉富等跟投,老股东春华创投、北京市人工智能产业投资基金超额加注 [1] - 公司成立于2023年,已成为全球多模态领域从基础模型研发到应用生态布局的全栈领军者 [1] - 本轮资金将重点投入世界模型的顶尖人才招募、核心算法迭代与数据积累,同时大力推进UGC互动内容平台建设 [2] 技术产品与核心突破 - 正式发布全新AI 3D大模型家族,包括迭代后的Tripo H3.1和全新架构的Tripo P1.0 [1] - Tripo H3.1在输入对齐、结构精度、贴图质量、生成速度等各项核心指标上均保持行业第一 [1][6] - Tripo P1.0重新定义了AI 3D的算法范式,能够在2秒内输出专业建模师级别的3D资产,速度较市面已有方案提升百倍以上 [1][18] - Tripo P1.0基于全新的空间建模哲学,构建了统一的原生概率空间,实现了从局部拼接向全局涌现的根本性跨越 [17] - 公司自研的SparseFlex表示方式能精准捕捉模型细节并支持高效训练策略,大幅降低内存占用 [5] 市场生态与用户数据 - 生态合作覆盖阿里巴巴、腾讯、字节、网易、上汽、拓竹、优必选等头部企业与超过9万个开发者 [1][26] - 旗下Tripo Studio平台已聚集超过650万创作者,累计生成近1亿个3D模型 [1][26] - Game Hub社区聚集超过10万名活跃开发者,累计产生2000余款AI互动内容 [27] - Tripo大使计划覆盖全球30多个国家、50余所高校 [27] - 生态插件覆盖Blender、Maya、Unity、Unreal等主流3D创作工具与内容引擎 [26] 发展愿景与未来规划 - 公司致力于让每个人都能创作、体验和分享互动内容,让互动内容成为连接数字世界与物理世界的新型信息载体 [2][44] - 2025年已将核心研发资源加注世界模型方向,首款世界模型将于近期发布 [2][32] - 判断3D生成从专业生产工具转变为大众表达语言的临界点已经接近,2026年将加速建设UGC互动内容平台 [30] - 公司致力于构建通用世界模型,具备感知、理解和物理推演能力,服务于交互内容、具身智能、仿真模拟等场景 [32] 行业影响与合作伙伴评价 - 在智能制造、互动文娱、虚拟现实、具身智能等领域,Tripo逐渐成为3D内容生产的默认能力 [26] - 恒旭资本认为VAST的3D生成方案技术成熟度和产品完成度高,是“AI赋能千行百业”的理想标的 [35] - 元禾璞华认为VAST正在将3D创作的门槛降低到前所未有的程度,蕴藏着孵化全新UGC互动内容平台的可能性 [36] - BV百度风投认为3D生成是未来虚拟世界的重要基石,也是多模态生成与世界模型的关键方向,VAST是国内具备突出优势、深耕世界模型的优质团队 [37] - 东方嘉富认为VAST正在推动空间内容创作走向更开放、更普惠、更多维的表达 [38] - 北京市人工智能产业投资基金指出,VAST在3D打印、工业设计、文化娱乐等多个领域实现规模化应用,收入呈现爆发式增长 [41]
让AI自我进化?斯坦福华人博士答辩视频火了,庞若鸣参与评审
机器之心· 2026-03-05 15:43
持续自我提升式AI的定义与目标 - 持续自我提升式AI系统被定义为一旦被创造,就能自主且持续地进行自我改进,并且其改进效果要优于人类创造者对它的改进[9] - 研究聚焦于满足两个假设的AI系统:参数化(基于神经网络)和必须经过资源密集型的预训练阶段[11] - 这类AI系统应具备三个核心特性:持续获取新知识而不灾难性遗忘旧知识、生成自身训练信号且学习效果超越人类信号、能够自主设计学习算法[17] 当前AI发展的三大局限 - 模型在初始预训练后权重静态化,无法持续融入新知识[16] - 高质量人类数据有限,前沿语言模型训练所用的token数量正迅速逼近互联网上公开可用的token总量[24] - 新算法的发现高度依赖人力,过程成本高昂且发现的仅是所有可能算法中的一个子集[27] 解决方案一:合成持续训练范式 - 提出“合成持续训练”范式,让模型在预训练后能持续学习小众领域知识,同时避免灾难性遗忘[4] - 使用“实体图合成数据生成”技术解决简单重写数据缺乏多样性的问题,通过提取实体并描述其关系来生成多样化合成语料[58] - 在QuALITY数据集(265本专业书籍,约180万个token)上的实验显示,使用实体图方法后,Llama-3-8B模型在闭卷问答准确率从基础模型的39.49%提升至56.22%[41][50][65] - 合成持续预训练与检索工具(开卷考试)结合可获得最佳效果,闭卷准确率达56.22%,开卷准确率达62.60%[65][67] 解决方案二:预训练能力的自我提升 - 提出“合成引导预训练”技术,旨在利用互联网文档间未被充分利用的相关性来普遍提升模型的预训练能力[76][79] - 技术流程分为三步:用固定数据预训练模型、将模型微调为合成数据生成器、结合真实与合成数据重新预训练以提升性能[79] - 实验使用Llama 3架构,在计算量匹配的对比中,SBPT方法在多个评估基准上表现优于仅重复数据的基准方法,且扩展曲线与能使用无限真实数据的Oracle基准相似[99][104] - 在200B token规模下,SBPT将平均问答准确率相对基准提升了2.32个百分点;模型规模和质量提升后,合成数据中的“非事实”错误率从15.1%(200B-scale)显著下降至6.5%(1T-scale, 6B)[105][110][112] 解决方案三:迈向AI设计AI - 构建“研究环境”抽象,使AI能够通过生成想法、编写代码、运行实验来自主进行AI研究[123][124] - 在后训练(使用GRPO算法进行数学推理)任务中,通过测试时搜索,模型准确率从基准的48.0%提升至69.4%,接近人类专家68.8%的水平[137] - 模型能够提出并实现创新的算法思路,例如在数学推理任务中提出“数学工作记忆模拟”概念,通过维护上下文缓冲区将性能提升10%[149] - 观察到串行计算比并行计算更有价值,串行搜索比多数投票等并行方法带来更显著的性能提升[143][144] 核心观点与哲学展望 - 研究核心是系统性地探索让AI实现持续自我提升的路径,以克服当前模型权重静态化、人类数据枯竭和算法发现依赖人力的局限[1] - 通过合成数据生成、引导预训练和自动化研究环境,展示了AI在知识获取、预训练能力提升和算法设计方面实现自我改进的潜力[4][68][115] - 类比爱因斯坦的场方程预言了其本人最初无法接受的宇宙膨胀,指出基于算法过程创造的智能体拥有进化出超越创造者智能水平的必然性[4][157][160] - 认为AI超越人类是必然的,因为创造过程具有算法性,如同物理方程的推导,其产物不限于创造者能力的子集[162]
4599起,谁能拒绝一台粉色的MacBook呢
机器之心· 2026-03-05 12:15
产品发布与定位 - 公司推出全新MacBook Neo,起售价为4599元,教育优惠价可低至3999元,成为价格最低的新款MacBook,首次将MacBook价格拉入传统Windows轻薄本区间 [1] - 产品命名“Neo”寓意“New”,象征为Mac产品线开启一条新的支线,旨在以更低成本吸引用户进入Mac生态 [3][11] - 产品核心定位清晰:面向轻度使用者而非生产力机器,目标用户包括首次购买Mac的用户、学生、对廉价Windows笔记本不满意的人以及K-12教育市场 [23][28] 核心配置与性能 - 处理器采用iPhone上的A18 Pro芯片,包含2个性能核心与4个能效核心,搭配5核GPU和16核Neural Engine,性能接近早期的M1 MacBook Air,足以应对浏览网页、文档处理、视频会议等日常任务 [9][10] - 内存配置引发讨论,全系仅提供8GB统一内存且无法升级,在macOS内存管理机制下轻度使用流畅,但对多任务、开发或创作构成限制 [19][22] - 存储提供256GB和512GB版本,但均无法升级内存 [22] 设计与功能取舍 - 外观提供Blush(腮红)、Citrus(柑橘)、Indigo(靛蓝)等更活泼的配色,机身采用铝合金材质,重量约1.23公斤 [12] - 为控制成本进行多项细节“降配”:取消屏幕刘海采用完整边框、键盘无背光、触控板改为机械结构、Logo非镜面抛光 [16][20] - 接口明显简化:配备2个USB-C接口(其中一个仅支持USB 2.0,速率480 Mbps,另一个为USB 3.0)和1个3.5mm耳机接口,不支持Thunderbolt、MagSafe充电,仅支持连接一个4K外接显示器且不支持Apple Studio Display [18][21] 屏幕与显示 - 配备13英寸Liquid Retina屏幕,分辨率为2408 × 1506,亮度约500尼特,实际观感不错 [18] - 屏幕不支持P3广色域与True Tone技术 [21] 市场竞争与产品策略 - 与最新M5 MacBook Air相比,Neo在几乎所有方面配置都更低,但两者价差显著(约1000美元 vs 600美元),目标用户决策范围不同 [25][28] - 教育价3999元的MacBook Neo直接对标Chromebook,公司可能希望建立“iPad → MacBook Neo → MacBook Air”的新用户升级路径 [34][35] - 产品策略体现典型苹果风格:通过精心计算取舍,保留macOS体验与Apple生态,同时控制关键成本,将MacBook入门价格降至新区间,旨在吸引原本只会购买Windows或Chromebook的用户 [36][38]
弯道超车?国产具身,千小时人类数据激发智能涌现
机器之心· 2026-03-05 12:15
行业趋势:硅谷共识与路线分歧 - 硅谷前沿公司已就“人类第一视角数据”是提升机器人灵巧性关键达成共识,认为其重要性超越机器人真机数据[4][7] - 英伟达发布EgoScale框架,使用超过2万小时人类第一视角视频训练机器人,证明增加人类示范数据可稳步提升机器人操作能力[4] - 英伟达此前发布的DreamDojo模型使用4.4万小时人类第一视角视频训练,展现出对陌生物体和环境的强泛化能力[6] - 硅谷多家知名公司,包括特斯拉、Figure、Physical Intelligence等,均已开始大规模采集或使用人类第一视角数据构建基座模型[7] - 行业核心判断认为,真正的机器人智能始于对“物理常识”的理解,人类第一视角数据为习得物理常识提供了天然材料[8] - Generalist AI公司使用27万小时人类数据探索机器人领域的Scaling Law,并将物理常识称为机器人学中的“暗物质”[8] - 国内具身智能领域当前竞争焦点仍在使用大模型拟合真机或仿真轨迹数据(VLA路线),期望通过堆积轨迹数据实现“通用具身智能”[17] 公司战略:深度机智的核心理念与技术路线 - 公司成立于2025年上半年,由中关村人工智能研究院研究员陈凯创立,是该国家级科研共同体孵化的首家公司[8] - 创始团队在2024年底即洞察到人类第一视角数据即将爆发,并押注通过此类数据解码“物理常识”以找到具身大模型的Scaling Law[11] - 公司核心理念是实现“具身通用智能”,而非“通用具身智能”,强调智能是原生的,具身只是其在三维世界的表现形式[18][20] - 核心技术策略是“先理解,后执行”,即首先让机器人具备通用思考能力并深刻理解物理规律,然后再执行任务[21] - 公司已搭建一套涵盖数据、架构、算法的全栈技术矩阵[11] - 公司计划在2026年上半年将人类第一视角数据规模推进到百万小时量级,以探索物理常识Scaling Law的完全显现[43] 技术创新:数据策略与PhysBrain模型 - 公司构建了Egocentric2Embodiment翻译管道,将人类第一视角视频转码成包含任务规划、关键状态、动作与物理约束的结构化监督数据[25] - 利用该管道构建了E2E-3M数据集,并用其训练了具身大脑模型PhysBrain[27] - PhysBrain模型仅使用千小时规模的人类第一视角视频和部分通用VQA数据微调,不含任何机器人轨迹数据[28] - 在SimplerEnv四个未见于训练集的操作任务上,PhysBrain-8B版本取得67.4%的平均成功率,力压使用数万小时真机数据的行业标杆Pi0.5(57.1%),领先优势达10.3个百分点[27][28] - PhysBrain模型在仅学习“成功案例”的情况下,自发涌现出灵活策略和自动纠错能力,例如在任务中自主采用未在训练数据中出现的“推”的动作[29] - 该表现被归因于模型对物理交互的直觉式理解,而非依赖大量失败轨迹数据[30] 技术创新:TwinBrainVLA架构 - 为解决模型同时保持通用理解与精确动作的优化冲突,公司设计了“左右脑”同构架构TwinBrainVLA[31] - 架构包含一个被冻结的VLM模块作为“左脑”保持通用知识,一个可训练的“右脑”网络专攻机器人感知与动作,通过非对称混合Transformer机制进行信息交互[31] - 该设计实现了知识迁移而不遗忘,确保模型学会动作控制的同时不丧失通用理解能力[32] - 在SimplerEnv测试中,TwinBrainVLA在数据量远小于Pi0.5的前提下,将Qwen3-VL-4B的能力有效迁移至机器人控制,平均成功率达64.5%,超越Pi0.5的57.1%[32] 技术创新:LangForce算法 - 为克服模型训练中忽略语言指令、仅依赖视觉画面的“视觉捷径”问题,公司改进了训练算法[34] - 设计双分支架构,通过最大化仅看画面分支与同时看画面和指令分支的动作差异,强迫模型理解并执行语言指令的语义[34] - 该算法在不使用任何机器人真机轨迹数据预训练的情况下,以Qwen-3-VL为主干微调的模型在SimplerEnv四个任务上实现66.5%的成功率,领先Pi0.5近10个百分点[35] 技术集成与综合性能 - 将数据、架构、算法三方面创新融合训练的新模型PhysBrain1.0,在SimplerEnv测试中取得79.8%的平均成功率[37] - 该成绩超越行业标杆Pi0.5达22.7个百分点,也超过了之前成绩最好的Xiaomi-Robotics-0(79.2%),达到SOTA[37] - 在强调多阶段操作与长程规划的RoboCasa测试中,PhysBrain1.0仅使用千小时人类第一视角数据增强,便以58.1%的成功率拿下SOTA,超越Physical Intelligence(41.4%)、英伟达(48.4%)等对手[38] - 模型展现出跨本体泛化能力,使用人类视频和少量ALOHA机器人数据训练,但在Franka机器人真机平台上也能实现接近100%的抓取成功率[39] 竞争格局与行业影响 - 公司通过聚焦人类第一视角数据解码物理常识,开辟了一条数据效率更高、成本结构更优、规模化门槛更低的具身智能发展路径[42] - 该路径使得后来者难以仅靠堆叠算力或真机轨迹数据在短期内追平,形成了基于认知时差的先发优势[42] - 公司技术闭环包括人类视频结构化转译、左右脑异构架构、语言与动作对齐算法,彼此咬合,带来单点指标领先和整体路径优势[42]
告别「边画边说」:LatentMorph 开启视觉生成隐式潜空间推理新范式
机器之心· 2026-03-05 12:15
文章核心观点 - 香港科技大学团队提出了一种名为LatentMorph的全新框架,旨在解决现有文生图模型在生成过程中缺乏动态思考与自我修正能力的问题[2] - 该框架通过隐式潜空间推理,直接在连续的潜空间中完成“思考”与“修正”,无需将思考过程解码为文本或中间图像,从而显著提升了生成模型的性能、效率和与人类认知的对齐度[3] 背景与现有范式 - 在LatentMorph提出之前,赋予图像生成模型“System-2”推理能力的尝试主要分为两种范式:外部循环和内部循环[6] - 外部循环范式使用多模态大模型作为外部优化器来精炼提示词或迭代编辑图片[6] - 内部循环范式则在统一多模态模型内部交替进行理解与生成分支的交互[6] - 这些显式范式存在三大核心缺陷:信息损耗、计算冗余和认知失调[7] LatentMorph方法 - LatentMorph通过四个轻量化组件构建了一个闭环的“观察-决策-思考-引导”系统[10] - 视觉记忆凝结器负责将海量生成状态提炼为紧凑的短程和长程视觉记忆[12] - 强化学习驱动的推理调用器作为一个策略网络,实时评估多维信号,并仅在遇到瓶颈或歧义时才激活思考,以最大化推理效率[12] - 潜空间翻译器负责将推理产生的抽象连续向量转化为生成分支可理解的控制信号[13] - 潜空间整形器将控制信号转换为控制Token并直接注入生成分支的KV Cache中,通过修改注意力上下文来引导后续Token的预测,实现动态修正[14] 实验分析:性能提升 - LatentMorph在五个权威基准测试中与十种主流方法进行了对比[16] - 相比基座模型Janus-Pro,LatentMorph在GenEval上提升了16%,在T2I-CompBench上提升了25%[19][22] - 在处理复杂的“非空间属性”任务时,LatentMorph超过了领先的显式推理基线TwiG-RL达7.28%[22] - 在处理抽象知识和反物理直觉提示词时,LatentMorph展现了独特优势[23] 实验分析:效率与消耗 - 与显式推理范式相比,LatentMorph大幅削减了44%的推理延时与51%的Token消耗[3][26] - 其推理调用策略表现出“任务复杂度敏感”的模式,在简单提示词上干预少,在复杂抽象任务上增加调用频率[28] 实验分析:认知对齐 - LatentMorph实现了高达71.8%的人机认知对齐度[3][28] - 热力图分析证实,其潜空间推理能更好地激活图像中细微纹理和光影对应的关注区域[27] 结论与展望 - LatentMorph证明了推理增强型模型正从“显式说理”向“隐式直觉”发生范式转移[30] - 该框架成功将逻辑思考的深度与生成流程的效率统一在潜空间内,提升了模型对复杂、抽象指令的遵循能力[30] - 未来,这种潜空间推理框架有望拓展至视频生成、3D构建等更多高维多模态领域[31]
阿里正式批准林俊旸辞职!将成立基础模型支持小组、坚持开源、加大人才投入
机器之心· 2026-03-05 11:54
核心事件与官方回应 - 阿里巴巴通义实验室(Qwen团队)负责人林俊旸突然辞职,该消息在AI社区引发极大关注 [1] - 阿里巴巴CEO吴泳铭通过内部邮件正式回应,公司已批准林俊旸的辞职 [2][3][5] - 林俊旸本人在朋友圈表示需要休息,并鼓励Qwen团队按原计划继续工作 [6] 公司后续战略与人事安排 - 靖人将继续带领通义实验室推进后续工作 [5] - 公司将成立基础模型支持小组,由吴泳铭、靖人、范禹共同协调集团资源支持基础模型建设 [5] - 公司强调发展基础大模型是面向未来的关键战略 [5] 公司未来业务方向 - 阿里巴巴表示将继续坚持开源模型策略 [4][5] - 公司将持续加大对人工智能领域的研发投入 [4][5] - 公司将持续加大吸纳优秀人才的力度 [4][5]
32B逆袭GPT-5.2:首个端到端GPU编程智能体框架StitchCUDA问世
机器之心· 2026-03-05 11:54
行业技术突破 - 现有基于LLM的CUDA代码生成方法主要聚焦于优化单个Kernel,但在涉及完整模型架构的端到端GPU程序生成任务上表现不佳,现有方法在KernelBench Level 3任务上成功率低[4] - 端到端GPU程序性能由算子融合、Launch配置、CPU-GPU同步、数据搬运等系统级因素共同决定,这超出了单Kernel优化的范畴[4] - StitchCUDA实现了从优化单个Kernel到生成完整端到端GPU程序的根本性转向,在KernelBench Level 3任务上实现了90%的成功率和1.50倍的平均加速比[2] 核心方法框架 - StitchCUDA的核心方法包含多智能体协作框架与基于Rubric Reward的Agentic RL两大模块[9] - 多智能体框架将任务分解为Planner(规划器)、Coder(编码器)和Verifier(验证器)三个专门Agent,通过迭代式“计划—编码—分析—优化”循环协作[12] - Planner负责解析参考代码、进行性能分析并制定包含Kernel效率和Host端编排的系统级分解计划[12] - Coder负责根据Planner的规划逐个子任务生成并编译CUDA实现,并根据Verifier的反馈进行迭代优化[12] - Verifier负责正确性验证和性能分析,使用Nsys识别系统级瓶颈,使用NCU分析具体Kernel瓶颈,并生成优化建议[13] - Planner和Verifier集成了RAG模块,可从NVIDIA官方文档检索最新API规范和指南,避免LLM知识过时[13] 训练方案创新 - 为提升Coder的编程能力,StitchCUDA引入了一种创新的Agentic RL训练方案,将昂贵的多轮交互分解为“从零生成”和“反馈驱动优化”两个原子技能进行单轮RL训练[14][16] - 通过原子技能分解,训练一个基于Qwen-32B的Coder仅需约160 H200-Hour,相比多轮Agentic RL减少了约60-75倍计算开销[16][32] - 该方法引入了由CUDA专家设计的Rubric Reward(评分准则奖励),从反作弊、工程质量、算子覆盖、技能遵循四个维度对生成代码进行综合评估,以解决Reward Hacking和模型行为退化问题[18][24][32] - Rubric Reward采用语义级评估,避免了依赖硬编码格式规则导致的误判或漏判困境[25] 性能评估结果 - 在KernelBench Level 3端到端任务上,StitchCUDA在H200硬件上取得了9/10的正确率、1.50倍平均加速比和70%的Fast1比例,全面领先于基线方法[21] - 在H200上,StitchCUDA对比前沿LLM GPT-5.2(正确率20%,加速比0.48倍)和多智能体基线CUDAForge(正确率60%,加速比0.87倍)有显著提升[10] - 在H200上,StitchCUDA对比RL模型基线Kevin-32B(正确率20%,加速比0.34倍)展现出巨大优势[10] - 多智能体框架本身能大幅提升端到端正确性,例如将Qwen3-32B在Level 3上的表现从0/10提升至3/10[22] - Agentic RL是实现系统级加速的关键,在Level 3上将使用Qwen-32B的Coder正确率从3/10提升至9/10,加速比从0.24倍提升至1.50倍[22] - Agentic RL带来的能力提升是模型规模难以替代的,即使使用GPT-5.2作为所有Agent的变体,在Level 3上表现仍不及使用经RL训练的Qwen-32B作为Coder的完整StitchCUDA[22] - StitchCUDA在H200上对比启用torch.compile的参考代码仍实现了1.29倍的加速,表明其手动系统级优化能超越编译器自动优化[23] - 案例显示,在GPT-2 Transformer Block任务中,StitchCUDA通过混合精度、连续数据布局、cuBLASLt Epilogue融合等协同优化实现了3.75倍加速比[29] 有效性验证 - Rubric Reward有效解决了Reward Hacking问题,将Hacking率从基线模型Kevin-32B的52%降至16%,并将完全Hacking次数从4次降至0次[26] - 消融实验表明,去除Rubric Reward后,Level 3任务成功率从90%降至50%,平均加速比从1.50倍大幅降至0.46倍,验证了其关键作用[27] - 原子技能分解的RL训练方案相比多轮Agentic RL,计算开销降低了约60-75倍[16][32]
李飞飞World Labs最新判断:AI写完代码,下一步是「写世界」?
机器之心· 2026-03-04 17:15
文章核心观点 - AI在空间创作和现实世界任务中需要一种类似“代码”的通用接口,而3D作为一种结构化的表达方式,正扮演着这个角色,它能够被生成、检查、修改、版本管理,并接入模拟与机器人系统[2] - 将3D比作代码,神经图形学比作编程语言,模拟引擎比作芯片,共同构成一个支持可编程、数据驱动空间系统的新架构栈,以实现人、智能体与软件之间的可靠沟通与协作[9][11][13][23] 3D作为通用接口的类比与优势 - 3D与代码在作为接口上具有关键的结构相似性,都能将状态外化为其他系统可用的结构化构件,从而实现推理、表示和执行的分离[3][6] - 与让大语言模型直接“成为程序”或依赖黑盒系统相比,使用结构化的3D表示能提供可操作的结构,其输出可被检查、编辑、共享并集成到现有系统中[6][7] - 3D作为接口,对人而言自然且高效,因为人类的思维围绕持久物体构建,3D编辑一次即可自动传播到所有渲染帧,这与代码只需修改一次源代码而非重写每个输出的逻辑一致[19][20] 技术驱动与神经图形学的作用 - 为机器学习优化的现代GPU硬件,拥有庞大的内存,打破了传统3D引擎在内存和计算上的限制,使得NeRF和高斯泼溅等消耗大量资源的技术得以实现,支持生成和渲染世界级规模的表示[9][10] - 神经图形学在此架构栈中扮演着类似编程语言的角色,提供了一种表现力丰富的媒介,用于描述和生成空间结构[11] - 具体技术应用包括:Marble多模态世界模型可从多种输入创建持久、可导航的3D世界并导出为高斯泼溅、网格或视频;Chisel功能允许通过粗粒度3D布局控制生成细节;RTFM实验从简单输入生成复杂视觉效果;Spark则是集成WebGL的高性能高斯泼溅渲染器[25] 模拟引擎与系统架构的重要性 - 模拟引擎是运行“3D代码”的“芯片”,它解决状态管理、物理机制、碰撞检测等系统问题,使世界模型在时间维度上实现交互、持久性和动态变化[13][14] - 完全端到端的“像素化”方法将状态、动态和渲染纠缠在单一网络中,虽然方便,但会削弱物理一致性、可回放性和确定性的保证[14] - 更可行的方案是采用因式分解或混合运行时架构,让学习到的世界模型生成结构化3D表示,同时利用外部工具和引擎组件,在感知、生成组件与需要严格规则的组件之间保持区分[15][16] 3D作为人机与机机接口的价值 - 对于机器,3D是自然通用语,能使世界模型输出直接接入现有的模拟器、机器人软件栈、CAD等工具链,并促进机器间高效交流空间意图[17][18] - 结构化的3D输出使得空间意图(如目标区域、禁区标记)能够被清晰传达,这比共享隐向量或使用低效的语言格式更为可靠[18] - 3D表示的可导出能力至关重要,它将模型的“思想”外化为具体表示,使其成为可检查、验证、版本控制、测试和重用的构件,从而支持可组合的流水线[18]
大模型的第一性原理:(三)信息论篇
机器之心· 2026-03-04 17:15
文章核心观点 - 文章提出,将香农信息论的核心从“比特”转换为“标记”,可以建立一套名为“语义信息论”的框架,从而从第一性原理上解释大模型的底层工作机制 [2] - 大模型本质上可被建模为一个“有状态、带反馈的信道”,其输入和输出均为标记序列,这为理解其训练和推理提供了与具体实现无关的数学模型 [43][44] - 通过引入“定向信息”和“定向信息密度”等信息论测度,可以形式化地描述大模型的性能指标、训练目标以及推理阶段的语义信息流 [23][33][39] - 该理论框架将大模型的预训练、后训练(如人类偏好对齐)和推理阶段统一在信息论视角下进行解释,并揭示了提示工程等信息论原理 [44][48][56] - 作者认为,“标记”是AI时代与“比特”同等重要的核心概念,它将连接经验与理性,定义新的时代 [67] Shannon信息论基础与方法论 - 香农信息论主要解决可靠数字通信问题,其三大核心结论是:信源编码定理(熵为无损压缩下界)、噪声信道编码定理(信道容量为可靠通信速率上界)、信源-信道分离定理 [7][12][14] - 香农采用“以数学补物理”的自顶向下方法论,从系统应具备的功能和数学性质出发,而非纠结具体技术实现,这对构建大模型理论具有启发性 [15] - 香农用转移概率建模信道,用互信息衡量统计相关性并导出信道容量,这些概率方法具有普适性,为后续建模奠定了基础 [8][20][21] 面向大模型的信息论测度 - **速率-失真函数**:用于刻画有损压缩性能,其核心是互信息,定义了在给定失真度约束下,重构信源所需的最小信息速率 [24] - **定向信息**:由James Massey提出,用于描述带反馈或因果关系的信道中,从输入序列到输出序列的统计相关性,突破了经典互信息的局限 [27][33] - **定向信息密度**:是定向信息在单次样本上的对应,是一个随机变量,其数学期望等于定向信息,具有良好的数学性质便于分析 [36][39][55] 大模型的信息论建模 - 大模型被抽象为一个有状态、带反馈的信道,其转移概率为 \(P(U_i | S_{1:n}, U_{n+1:i-1}; \Phi)\),其中 \(S\) 为输入标记,\(U\) 为输出标记,\(\Phi\) 为模型参数 [43] - 从信息论视角看,通信问题与大模型问题的区别在于:通信的目标是无差错恢复信息,损失函数基于互信息;大模型的目标是建模人类输出分布,损失函数使用与KL散度等价的交叉熵 [45] 训练阶段的语义信息论原理 - **预训练阶段**:定义了“定向速率-失真函数” \(R_{pre}(D)\),其描述了在生成输出与人类期望输出的KL散度不超过 \(D\) 的条件下,从输入到输出所需的最小定向信息量 [44][46] - 预训练的理想损失函数建议为 \(L(\Phi) = I(S_{1:n}; U_i | U_{n+1:i-1}; \Phi) + \lambda H(P_i^h, Q_i^\Phi)\),最小化定向信息有助于过滤无用信息,减少幻觉 [44] - 理想收敛时,预训练模型逼近 \(R_{pre}(0) = \frac{1}{N}I(S_{1:n} \rightarrow U_{n+1:N}^h)\),即从输入到输出的定向信息逼近人类水平 [47] - **后训练阶段**:定义了“奖励-失真函数”,其最优解等价于直接偏好优化算法中的损失函数,通过最大化符合人类偏好的定向信息来对齐模型 [48][49] 推理阶段的语义信息论原理 - 推理阶段关注特定输入下的输出,定义“语义信息流”为基于定向信息密度的单次推理度量 \(I(S_{1:n} \rightarrow U_{n+1:j}; \Phi^+)\) [50] - 语义信息流具有下鞅等良好数学性质,可通过现代数学工具研究 [54][55] - 定义了“语义信息容量” \(C_S\),即通过调整输入标记的概率分布 \(P(S_{1:n})\),所能最大化的、满足人类偏好奖励约束 \(W\) 的定向信息,这为提示词工程提供了信息论原理 [55][56] 因果推断与大模型 - 大模型通过预测下一个标记的训练目标,实现了逼近人类水平的格兰杰因果推断 [60] - 传递熵是有限长版本的定向信息,对于向量高斯过程,传递熵与格兰杰因果等价 [61][62] - 格兰杰因果属于Pearl因果层级中的Level-A(关联问题),关注数据驱动的预测;而Pearl因果的Level-B(干预)和Level-C(反事实)需要额外的、不可从数据中识别的因果假设 [63][64] - 当前大模型与强化学习结合,本质上是模仿人类语料中的干预和反事实模式进行预测,而非真正的因果推理 [65] 计算与估计方法 - 定向信息的计算可推广经典的Blahut-Arimoto算法 [57] - 提出了基于神经网络的定向信息估计器,以及利用Transformer本身来估计传递熵的方法,表明Transformer与定向信息天然契合 [58] 时代意义与核心概念 - “比特”连接了计算与通信,定义了信息时代;“标记”将连接经验(记忆、推断)与理性(推理),定义AI时代 [67] - 无论大模型当前技术路径能否通向AGI,其已革命性提升了信息自动化处理能力,AI时代的大幕已经开启 [68]
在AI社会抓「内鬼」?上海AI Lab推出首个多智能体极端事件解释框架
机器之心· 2026-03-04 17:15
多智能体系统极端事件研究的核心观点 - 由上海人工智能实验室联合多所高校的研究团队,开发了首个用于诊断多智能体系统极端事件的解释框架,旨在拆解数字镜像中“黑天鹅”事件的演化过程并找出诱发系统崩溃的“内鬼”[2] - 研究核心观点是:多智能体系统中出现的恶性通胀、股市崩盘等“黑天鹅”极端事件,并非源于代码漏洞,而是系统演化中自发涌现的结果,并且这些事件具有可解释的、稳定的系统性结构[2][7][17] 研究背景与问题 - 2023年斯坦福“模拟小镇”的流行开启了大语言模型驱动多智能体系统模拟人类社会的元年,如今已构建出模拟宏观经济、金融市场、社交网络等高度复杂的社会系统数字镜像[5][6] - 随着系统复杂度攀升,现实社会中的极端事件在AI多智能体系统中精准重演,但智能体间庞杂的非线性交互构成了一个巨大的涌现“黑盒”,使得难以追溯危机起源、关键驱动者及触发行为[7][12] - 研究需要解决三个溯源难题:极端事件从何时开始积累、由谁驱动、以及由何种具体行为模式促成[12][14] 研究方法与框架 - 研究团队推出了首个专门用于诊断多智能体系统极端事件的解释框架,其核心分析工具是博弈论中的沙普利值[13] - 该框架将系统爆发的灾难风险精准拆解并公平分摊到每个智能体在每一时刻的每个具体动作上,并沿时间、智能体、行为模式三个维度对风险贡献进行归纳聚类[13] - 团队进一步设计了五把量化风险的标尺来刻画极端事件的演化特征:风险潜伏期、智能体风险集中度、风险-不稳定性相关性、智能体风险同步性、行为风险集中度[13] 极端事件的五大演化规律 - **发现1(风起于青萍之末)**:极端事件的时间演化特征呈现两极分化,风险要么早已埋下伏笔蓄势待发,要么大部分源于当下瞬间引爆[19] - **发现2(害群之马)**:极端事件往往由少数高危智能体驱动[20] - **发现3(不稳定性)**:对系统崩溃贡献越大的智能体,其日常行为往往表现出极高的不稳定性[20] - **发现4(羊群效应)**:智能体之间会形成隐形默契,倾向于同步地增加或减少系统风险[20] - **发现5(毒瘤行为)**:导致系统崩盘的绝大部分风险,只源自极少数特定的行为模式[20] 实验验证与效果 - 实验在宏观经济、金融市场和社交网络三大场景中,对GPT-4o mini、Llama-3.1-8B-Instruct、Claude-3-Haiku、Qwen-Plus、DeepSeek-V3.2等多种大模型进行了测试[15][22] - 根据框架算出的风险归因分数,在系统中定向移除高贡献的“危险动作”后重演,整体系统崩溃风险出现断崖式下降[21] - 在多个场景的对比实验中,该团队的方法在降低风险方面普遍优于随机方法及其他现有方法,例如在TwinMarket场景中使用GPT-4o mini时,其方法使风险降低了`38.20%`(Top-3动作)和`60.05%`(Top-10动作),效果显著[22] 行业影响与未来展望 - 该研究意味着在风险演化的关键节点,通过精准监管并干预具有高危特征的智能体和行为模式,有望在AI模拟的数字世界乃至未来现实社会中实现真正的防患于未然[22] - 面对多智能体构建的现实镜像,掌握解释极端涌现现象的工具,是重新编译一个更加安全未来的关键[23]