Workflow
机器之心
icon
搜索文档
刚刚,图灵奖2025公布,荣誉属于两位量子信息科学奠基人
机器之心· 2026-03-18 19:02
奖项与获奖者 - 2025年ACM A.M. 图灵奖授予Charles H. Bennett与Gilles Brassard [1] - 该奖项奖金为100万美元,由谷歌公司提供资金支持 [3] - 获奖原因为表彰他们在奠定量子信息科学基础以及变革安全通信与计算方面的关键作用 [1] 获奖者核心贡献:量子密码学 - Bennett与Brassard是量子信息科学的奠基人,该领域处于物理学与计算机科学的交叉地带 [4] - 1984年,他们提出了首个实用的量子密码学协议,即BB84协议 [4] - BB84协议证明了通信双方可以建立由物理学定律保证安全的秘密加密密钥,即使面对拥有无限计算能力和量子计算机的对手也安全 [4] - 该协议无需计算假设即可实现信息论安全,依据是量子信息无法在不引起扰动的情况下被复制或测量,任何窃听尝试都会留下可检测的痕迹 [5] - BB84的变体已在全球范围内投入运行的量子通信网络中得到实施,涵盖基于光纤的陆地有线通信与基于卫星的自由空间通信 [5] 获奖者核心贡献:量子计算与通信基础 - 1993年,他们与其他合作者共同提出了量子隐形传态,展示了如何利用量子纠缠与经典通信在远距离传输任意量子态 [6] - 这一发现表明纠缠可以作为一种实用资源,相关现象的实验验证获得了2022年诺贝尔物理学奖的认可 [6] - 1996年关于纠缠蒸馏的工作表明,可以把不完美的纠缠强化为高质量的纠缠,这是迈向可扩展量子通信的关键一步 [6] - 这些思想为当前构建量子网络以及最终构建量子互联网的努力奠定了基础 [6] - 他们的工作将量子原理引入计算模型,影响了密码学、算法设计、计算复杂性、学习理论、交互式证明以及数学物理等领域 [6] 行业背景与影响 - 随着大规模量子计算机研究的推进,政府与业界正在重新评估广泛部署的公钥密码系统的长期可靠性 [5] - 量子密码学与新兴的、有望抗量子的经典方法一道,代表了未来几十年保障数字通信安全的途径之一 [5] - 在他们获奖之际,联合国宣布2025年为国际量子科学与技术年,反映出全球对量子计算、量子通信与量子传感领域的投资日益增长 [7] - 当今许多构建大规模量子系统的宏伟计划,其概念基础都可以追溯到Bennett与Brassard开创的理论突破 [7] - 量子信息科学的新篇章包括对容错量子计算机、新型量子算法以及由卫星和量子中继器支持的长距离量子通信的探索 [11] - 隐形传态、纠缠交换与蒸馏等曾经抽象的理论思想,如今已成为实用量子工程的核心组件 [11] 获奖者背景 - Charles H. Bennett是一位美国物理学家,于1973年加入IBM研究院并工作至今 [12][14] - 他的研究塑造了量子信息科学、量子密码学与量子隐形传态的基础 [12] - Gilles Brassard是一位加拿大计算机科学家,被公认为世界上首位涉足量子信息科学这一未知领域的学者 [15] - 他于2001年至2021年期间担任加拿大皇家学会量子信息科学研究主席 [16]
ICLR 2026|首个微观世界模型MicroVerse来了,AI开始模拟看不见的世界
机器之心· 2026-03-18 19:02
世界模型演进方向与微观世界模拟的重要性 - 过去两年,世界模型(World Model)正成为大模型演进的重要方向,其目标是从理解数据转向在内部构建可预测、可推演的“世界”[2] - 当前几乎所有世界模型都局限于理解“人类肉眼可见的世界”,如街道、人物和机械运动[3] - 一旦尺度缩小到细胞、组织乃至分子层级,现有模型往往只是在生成视觉纹理,而非真实过程本身[4] - 微观世界建模面临尺度跨度巨大、动态过程高度复杂、真实数据稀缺且必须满足物理与生物约束的挑战[5] - 本文提出的MicroVerse框架,旨在让生成模型从“宏观场景建模”走向微尺度科学过程模拟,其核心目标是让AI像科学模拟系统一样理解并重建微观世界的运行机制[5] 当前微观模拟的现状与问题 - 在微观尺度,生命活动的本质(如血液流动、DNA复制)发生在肉眼不可见的方寸之间,无法通过摄像头简单记录[9] - 现有医学世界模型(如MedOS、CLARITY、MeWM)大多锚定于宏观层面的临床决策支持或医疗影像模拟,服务于诊疗逻辑[11] - 当前视频生成模型在模拟“细胞分裂”或“DNA复制”等微观过程时存在三大致命硬伤:违反物理结构、生物形态错误、时间动态不一致[11][12][13] - 这些模型生成的微观视频“像真的”,但机制全错,因为它们只学习了宏观视觉统计,未学习微观物理规律[14] - 当前顶尖视频生成模型陷入“像素级真实,机制级崩塌”的尴尬境地,宏观统计规律无法推导微观物理约束[23][24] MicroWorldBench评测基准 - 研究团队提出了MicroWorldBench,这是全球首个针对微观生物模拟的量表化评测基准,旨在纠正模型在微观世界的“信口开河”[16] - 该基准从数万个候选任务中精选出459项核心模拟任务,构建了一个跨越器官级、细胞级、亚细胞级的三层模拟体系[21] - 评测引入LLM加领域专家的联合评审机制,主要评估三个维度:科学真实性(具有一票否决权)、视觉质量、指令一致性[21] - 在MicroWorldBench评测中,商业模型Veo3表现最佳,平均得分为77.2,科学真实性为65.7,视觉质量高达97.0[23] - 评测揭示了当前模型的普遍问题:视觉高分,科学低分,模型本质上是在学习像素流的统计关联,缺乏对微观生物逻辑的理解[24] MicroVerse框架的核心创新与架构 - MicroVerse的核心基石是MicroSim-10K,这是全球首个专注于微观机制的大规模专家级数据集,包含9,601段经专家验证的视频[28][29] - 该数据集配备了“机制级标注”,用精准的语义引导模型完成从视觉信号到生物逻辑的映射,例如描述免疫细胞追踪细菌的完整过程[29] - 在模型层面,MicroVerse通过引入初级的物理约束与领域知识监督,实现了从像素统计转向机制对齐的生成表现跨越[29] - 在最复杂的亚细胞级模拟中,MicroVerse-1.3B模型取得了53.3的高分,意味着模型开始呈现出具有生物学意义的动态机制[30] - 实验证明,随着模型参数扩展至14B,模型对信号级联反应等极高复杂过程的理解出现了明显的“性能涌现”,验证了Scaling Law[31] MicroVerse的性能表现与突破 - 在科学真实性方面,经过MicroSim-10K数据微调的Wan2.1-14B模型得分达到48.3,比基线(42.7)提升了5.6分[31] - 在视觉质量方面,经过通用数据与MicroSim-10K联合微调的Wan2.1-14B模型得分达到87.7,比基线(86.0)提升了1.7分[31] - 在指令遵循方面,经过联合微调的Wan2.1-14B模型得分达到56.9,比基线(53.8)提升了3.1分[31] - MicroVerse能够精准还原DNA复制中解旋酶推进、引物结合以及新链合成的动态秩序,而非通用模型生成的无规则旋转丝带[37] - 在模拟细胞凋亡时,MicroVerse能细腻呈现出细胞膜起泡、染色质固缩等一系列具有病理学意义的特征,而非模糊的淡出[37] 微观世界模拟的意义与行业影响 - 微观模拟是理解生命运作的钥匙,其意义远非“视觉奇观”,可用于加速科学洞察、降低实验成本、以及教育与科普[18] - MicroVerse的确立了科学模拟的新秩序,标志着视频生成的下一场革命不再是分辨率的竞赛,而是世界知识嵌入的竞赛[26] - 该工作构建了生命知识的数字基底,证明只要喂给模型正确的“真理”,AI就能建立起对底层机制的直觉[38] - MicroVerse的成功完成了范式转移的概念验证,标志着生成大模型正从“宏观视觉统计”向“微观机制模拟”跨越[38] - 这本质上是一条从“世界模型”通往“生命模型”的必经之路,使AI有望成为一个运行在硅基芯片上的虚拟生命实验场[35]
刚刚,MiniMax直接让龙虾学会自我进化,也认识「马嘉祺」了
机器之心· 2026-03-18 19:02
AI Agent行业趋势与市场动态 - OpenClaw(AI Agent/“养虾”)的热度从年初延续至今,已从专业工程师群体扩散至普通消费者,市场情绪中存在明显的FOMO(错失恐惧)[1] - 英伟达CEO黄仁勋在GTC 2026大会上强调“现在每一家企业都需要制定自己的OpenClaw战略”,将AI Agent提升至企业战略层面[1] - 国内大模型厂商显著加快了在“AI养虾”赛道的布局[1] MiniMax公司及其产品进展 - MiniMax于2月底在其Agent平台上推出了MaxClaw模式,依托M2.5大模型,可在10秒内部署一个24小时待命的私人助理[1] - 市场对MaxClaw的认知发生转变,从早期吐槽到认可其实际效果,特别是在云端预装一系列Agent能力后[1] - 公司于近期发布了全新一代大模型MiniMax M2.7,重点升级系统级Agent能力[4][7] - 截至3月10日,MiniMax市值已攀升至3800亿港元(约合人民币3350亿元),超过百度、京东、携程等互联网巨头[40] MiniMax M2.7模型核心能力升级 - **Agentic指令遵循与复杂任务执行**:能够在包含50+个技能、60–150个功能列表的复杂环境中保持稳定调用与流程执行[7] - **多智能体协作与工程级Coding**:实现原生智能体协作,减少对外部编排的依赖,在日志分析、Bug定位、代码重构等真实工程场景中表现稳定[8] - **领先的Agent Harness**:加强了编排工具能力,支持Agent Teams、多工具检索,配合预置技能可构建自迭代的任务执行链路[9] - **角色扮演与长期记忆**:能力全面强化,覆盖闲聊陪伴、互动小说、沉浸游戏等七大场景,支持10种语言并通过适配OpenClaw长期记忆框架赋予智能体持久身份与真实情感[9] - **办公自动化**:支持复杂Excel/Word/PPT办公任务及多轮编辑,显著提升效率[10] M2.7模型的实测性能表现 - 在科研评测MLE Lite的22道高难度竞赛题目中,一举拿下9枚金牌[10] - 在GDPval-AA榜单中,M2.7在开源模型中取得了最高分[19] - 在三次间隔24小时的迭代测试中,M2.7在MLE Lite评测的平均得牌率达到66.6%,与Gemini-3.1持平,仅次于GPT-5.4 (71.2%) 和 Opus-4.6 (75.7%)[36] - 模型成功通过了此前M2.5未能通过的“马嘉祺测试”,解决了特定知识盲点问题[26][27] M2.7在具体场景的应用展示 - **任务执行与工具调用**:能够自主安装技能、配置密钥并执行如检索X信息等任务[12] - **信息检索与总结**:可检索学术论文平台,并能阅读并总结大量文档内容,提炼出如“AI正在从‘聊天工具’进化为‘能行动的智能体’”等行业趋势洞察[13][18][19] - **编程与全栈开发**:能够在7分多钟内构建一个内容丰富的“蒸汽朋克龙虾信息网”网站,并能通过安装开源技能包(如frontend-dev)对网站进行现代化、炫酷的优化[21][22][24][25] - **办公自动化**:能够处理Obsidian知识库中的大量docx格式选题文档,并生成有见地的行业发展趋势总结[17][18][19] M2.7的系统级进化与自迭代能力 - M2.7的定位从“最强大脑”转变为拥有“手脚、工具和记忆”的多面手系统,成为优化过程的一部分而不仅是被优化对象[29][30] - 其自我进化关键在于构建与运转复杂Agent Harness的能力,该系统由多Agent协作、结构化技能模块和外部工具组成[30] - 在内部验证中,仅用1人、4天、零代码,M2系列模型就以“架构师”身份自主搭建起完整的开发Agent系统,形成“用AI迭代AI”的闭环[30] - 在强化学习实验场景中,M2.7已能够承担约30%–50%的实际工作量,自动化完成日志分析、问题排查等关键步骤[33] - 通过主动迭代Agent Harness本身,M2.7在无需人工干预的情况下,经过超过100轮迭代,在一项软件工程任务的评测集上实现了约30%的性能提升[34] - 模型建立了围绕短时记忆、自反馈与自优化的迭代机制,性能随迭代次数增加而持续攀升[36] 行业竞争焦点的演变与公司战略 - 模型竞争的焦点正在从参数、榜单和概念,逐渐转向执行质量、任务完成度与真实体验[41] - 用户的期待已发生变化,不再只满足于聪明回答,更在意AI能否持续协作、理解角色、处理约束并完成复杂任务[41] - MiniMax的演进风格契合其一贯策略:不急于讲宏大故事,而是持续将能力落地到产品、场景和成本结构中[41] - 公司认为大模型的真正价值在于作为一种日常化工具,分担繁琐工作,为未来人机共存与协作提供扎实起点[41]
第二代PPTAgent来了!中科院软件所开源首个本地通用幻灯片智能体,9B参数打平GPT-5
机器之心· 2026-03-18 15:39
文章核心观点 - 中国科学院软件研究所发布并开源了第二代PPT智能体DeepPresenter,其通过创新的“智能体沙箱环境”和“环境感知反思机制”,解决了当前通用大语言模型生成PPT时内容空洞、排版错乱等核心痛点,实现了媲美顶级闭源模型的性能,且能在消费级硬件上部署[2][4][25][26] 技术架构与创新 - **核心破局点**:放弃传统语言模型直接生成路径,为智能体构建了全功能的Docker沙箱环境,赋予其“手”和“眼睛”[4] - **解决内容痛点**:智能体拥有20+种专业工具,可通过MinerU解析PDF、连接arXiv和Google Scholar进行深度调研,并运行Python代码绘制图表,确保内容专业与数据准确[4] - **解决排版痛点**:引入“环境感知反思机制”,智能体在生成每页代码后,会调用浏览器渲染成真实图片进行视觉检查,并自适应调整,形成“写→看→改”的视觉闭环[7] - **工作流程**:用户只需一行简单指令,系统会启动Researcher智能体检索资料,再交棒给Presenter智能体设计风格,最终输出精美幻灯片[8] 性能表现与优势 - **评测结果**:在128个任务的系统评测中,仅9B参数的DeepPresenter模型在PPTEval评测中取得平均4.19分,表现与闭源的GPT-5模型(4.22分)几乎持平,并显著优于其他开源及闭源基线方案[23][25] - **成本效益**:DeepPresenter-9B在成本-性能曲线上位于“突变点”,以GPT-5几十分之一的算力成本实现了同等级别的智能表现,意味着可在消费级显卡(如单张3090或Mac)上部署运行[2][26] - **输出格式**:生成内容为`.pptx`可编辑格式,支持自由修改与二次创作,解决了某些工具生成后无法编辑的问题[15] 应用案例与能力展示 - **任务示例**:系统能处理多样化的复杂指令,例如制作关于小米SU7的PPT、以特定视角分享同人创作技巧的幻灯片,以及生成包含历史背景和文化影响的罗宾汉介绍PPT等[10][13][15] - **工作流演示**:通过模拟的智能体操作日志展示了从研读论文、创建图表、撰写文稿到设计、检查并调整幻灯片样式的完整Agentic工作流程[6] 模型训练方法 - **训练流水线**:创新训练方法包括基于多源数据构建高多样性任务数据、引入独立模型进行“外在验证引导”以打破自我验证偏差,并通过多级轨迹过滤从1,152个任务中筛选出802条顶级质量轨迹进行监督微调(SFT)[18][20]
更全面的具身智能真机评测来了!CVPR 2026 ManipArena挑战赛邀你打榜
机器之心· 2026-03-18 15:39
行业核心痛点与解决方案 - 具身智能行业在爆发式增长后,面临如何科学评估模型真实泛化能力而非针对特定任务优化的核心拷问,统一的真机评测体系长期缺位,制约模型迭代效率并带来“劣币驱逐良币”的商业风险 [1] - 在规模化落地关键节点,建立可量化、可复现、高信度的真机评测标尺已成为行业共识 [2] - 为破解困局,中山大学、自变量机器人与MBZUAI等机构在CVPR 2026的Embodied AI Workshop上推出了官方竞赛ManipArena,旨在为行业树立规范公平的评测新标杆 [3][8] ManipArena评测平台概述 - ManipArena是目前规模最大的真机操作评测平台之一,提供20个真机任务(5个初赛,15个决赛)和10812条高质量遥操作轨迹,通过绿幕可控环境和分层OOD评估设计,构建了可精确诊断模型泛化能力的科学化评测框架 [5][8] - 平台采用Server-Side远程真机评测架构,参赛者无需拥有真实机器人硬件,仅需GPU服务器和HTTP推理端点即可参与,大幅降低了参与成本 [38] - 所有20个任务均统一采用自变量机器人(X Square Robot)的双臂系统进行评测,消除了硬件差异,确保性能差异纯粹反映策略能力 [38] - 平台为赛事设置了实质性奖金激励,初赛第1-3名奖励500美元,决赛冠军奖励5000美元及2台6轴机械臂 [43] 科学评测框架的核心创新 - **分层OOD评估**:每个任务进行10次测试并按难度分层(T1-T4测域内能力,T5-T8引入视觉偏移,T9-T10为语义OOD测试),能精准诊断模型泛化瓶颈并绘制完整的泛化衰减曲线 [10][11][12] - **绿幕可控环境**:在带固定光源的绿幕封闭工作站中进行评估,从物理源头上排除光线变化等视觉干扰,保证性能差异纯粹反映策略能力 [16] - **系统化多样性注入**:在纯净视觉环境中注入物理属性层(材质、颜色、尺寸)、空间布局层(位置、朝向)和语义推理组合层(物品序列、类别)三个层级的多样性参数,防止模型依靠频率偏差走捷径 [17][19][21] - **开放56维底层感知信号**:提供每帧56维的本体感觉数据,包括关节位置、末端位姿、夹爪状态、电机电流和关节速度,鼓励力敏感策略研究,补齐力觉控制拼图 [20][22][23] 任务设置与评估规则 - 20个真机任务全部以推理为核心,涵盖15个桌面任务和5个移动操作任务,无简单抓取测试 [25] - 桌面任务细分为10个执行推理任务(如亚厘米级精准插入、力控倒水、双臂协作)和5个语义推理任务(如识别分类耳机、按颜色序列按按钮) [32][34] - 移动操作任务(如收纳衣物、挂画)将评测范围延展到3×3米真实空间,平均执行时长约144秒,是桌面任务的4.3倍,对模型时序建模能力提出极大考验 [35] - 赛事制定“单一模型”规则,要求参赛者用一个统一模型应对所有20个任务,禁止针对单一任务训练专家模型,迫使研发重心回归打造真正具备通用能力的基础模型 [36] - 评分机制摒弃二元成功率,采用子任务部分得分制,每个任务10次测试(trial),每次满分10分,15个桌面任务总分为1500分,提供更丰富的诊断信号 [43][46][47] 初步评测结果与行业洞察 - 首批基准测试对比了代表VLA的π₀.₅模型和代表世界模型的DreamZero,在满分1500分中,π₀.₅-OneModel得640.5分,π₀.₅-Single得626.3分,DreamZero得500.3分,大量任务成功率为0%,显示评测体系极具挑战性 [48] - 评测揭示了两种技术路线的互补能力边界:多任务VLA模型具备更强精细操作能力但泛化脆弱,面对分布外物体易出现灾难性退化;世界模型展现出显著泛化鲁棒性但仅限于粗粒度操作,在精细任务上力不从心 [8] - 具体数据表明,在耳机分类任务中,仅改变耳机类型时模型平均得2.0分,但同时改变类型和颜色时,平均得分直接降为0分,显示复合型分布外测试会导致性能灾难性崩溃 [13][14] - 在眼镜放置任务中,模型表现显示物体形状相似度比语义类别归属更重要:与训练集形状相同的儿童眼镜得10.0分满分,形状相似的墨镜得8.5分,形状完全不同的护目镜得分急剧下降至5.0分 [15] - 进一步分析揭示,VLA模型存在程序性遗忘,而世界模型在空间泛化上优势明显(如在篮子位置移动测试中,DreamZero得分仅下降8%,而π₀.₅模型下降44%-57%),但存在精细操作瓶颈和单步推理耗时极长(比VLA慢50至70倍)的问题 [51] - 结论指出,未来的通用操作模型需要深度融合VLA(擅长精度控制和语义理解)和世界模型(在空间泛化和粗粒度规划上更胜一筹)两种范式的优势 [52] 平台价值与行业影响 - ManipArena不仅仅是一场竞赛,更是一个高标准的开放研发平台,其分层OOD评估体系、多元化场景设计及子任务部分得分机制具备天然的学术实验适配性,可作为日常研发的benchmark [52] - 平台鼓励参赛者基于真实评测结果验证新算法并发表学术论文,通过科研创新与产业验证双向赋能,加速具身智能产业向真实世界的大规模部署迈进 [40][52]
LaPha:你的Agent轨迹其实嵌入在一个Poincaré球?
机器之心· 2026-03-18 11:35
文章核心观点 - 上海科学智能研究院与复旦大学联合提出了一种名为LaPha(Latent Poincaré Shaping for Agentic Reinforcement Learning)的新方法,旨在解决大型语言模型(LLM)作为智能体进行推理决策时面临的核心挑战[8] - 该方法的核心创新在于将智能体的行为树映射到LLM自身的潜空间(latent space),并利用双曲几何(Poincaré球)来构造密集的过程奖励、进行策略剪枝和训练价值网络,从而显著提升LLM Agent在复杂推理任务上的性能[8][12][13] 方法原理与创新 - **核心问题识别**:传统强化学习在离散动作空间中运行良好,但将LLM的token序列直接视为动作会导致动作空间近乎无限,且大量不同字符串表达同一语义,造成搜索树分支膨胀和效率低下[7][8] - **潜空间映射与几何化**:LaPha方法将每个搜索节点LLM的最后一个隐层进行平均池化得到状态向量,以提示词(prompt)的隐向量为原点进行中心化,并将所有状态向量映射到Poincaré球(一种双曲空间模型)内,后续的搜索、奖励、价值和剪枝都在此统一的潜空间上进行[14] - **构造密集过程奖励**:在双曲空间中定义几何势函数(取值在0到1之间),该函数值在离搜索树根节点越远、离最近正确解越近时越高,并利用相邻节点间的势能差分作为每一步的过程奖励,从而将稀疏的终点验证信号转化为密集的、可学习的中间信号[18][19][23] - **训练轻量价值网络**:在相同的池化隐层状态上附加一个轻量的价值头(线性层加Sigmoid),以几何势函数作为监督信号进行训练,训练完成后,该价值头可在测试时作为蒙特卡洛树搜索的启发式信号,以极低开销引导节点选择和扩展[20][25][26] - **潜空间策略剪枝**:在潜空间中根据双曲距离对非终止节点进行聚类,并对每个簇禁用一部分语义近似的重复节点,然后重建搜索前沿继续探索,这能有效减少语义重复探索,提升相同模拟预算下对真正不同思路的覆盖率[28] 性能表现与结果 - **基准测试显著提升**:在多个数学推理基准测试中,LaPha方法使不同规模的模型性能获得大幅提升[11] - 对于Qwen2.5-Math-1.5B模型,在MATH-500测试集上准确率从66.0%提升至88.2%,在Gaokao'23 (En)测试集上从46.5%提升至67.7%[24] - 对于Qwen2.5-Math-7B模型,在AIME'24测试集上准确率从10.0%提升至60.0%,在AIME'25测试集上从16.7%提升至53.3%[24] - 对于Qwen2.5-7B基础模型,使用LaPha方法(sg@128)在AIME'24上达到46.7%的准确率,相比仅使用工具(26.7%)或仅使用DAPO方法(36.7%)有显著优势[11] - **超越现有方法**:在相同模型和工具条件下,LaPha方法的表现优于DAPO、TORL、TREEPO等其他强化学习方法[11] - **实现测试时扩展**:通过训练轻量价值网络,LaPha能够以极低的额外计算开销,在测试时实现大幅度的性能扩展[12][27]
3月26日,在“硬件硅谷”深圳,这场具身智能技术沙龙邀您解锁行业实战法则
机器之心· 2026-03-18 11:35
行业现状与核心矛盾 - 行业呈现“冰火两重天”境况:海外首批具身智能创企因商业化困境相继倒闭,而国内行业头部创企融资额屡创新高 [1] - 行业长期愿景被极度看好,但当前面临模型发展不成熟、高质量数据匮乏、产业落地进展缓慢等核心痛点 [1] - 行业需要从“炫技表演”转向“产业应用”,不仅需要技术突破,更迫切需要形成行业共识并构建软硬一体、虚实融合的肥沃生态 [1] 活动背景与目标定位 - 活动由机器之心联合深圳市龙岗区人工智能(机器人)署举办,主题为“具身智能:从模型到现实,共筑龙岗AI新生态” [1] - 活动选址深圳龙岗具有战略意义,因该区域是中国“硬件硅谷”核心引擎,拥有从芯片、场景、供应链到人才池的完整产业优势,并通过政策组合拳培育具身智能企业落地 [1] - 活动旨在打造“技术前沿-应用展示-场景对接”的生态闭环,并试图回答“具身智能如何真正走进现实”这一核心议题 [4] 活动核心亮点与内容设计 - 亮点一为“前沿论剑”:汇聚高校教授、明星创企、知名VC等专家,围绕行业核心痛点进行前瞻洞察与深度报告 [4] - 亮点二为“硬核秀场”:通过多维度、沉浸式成果展示区,让技术成为看得见、摸得着的真实力量,展示“AI in Action” [4] - 亮点三为“生态Social墙”:构建连接政府、企业、资本、学界的资源池,通过“需求-资源”看板实现供需精准对接 [4] - 具体议题将聚焦高质量合成数据弥补现实鸿沟、Sim-to-Real迁移极限突破、多模态感知融合等从0到1及从1到N的关键突破点 [5] - 设置圆桌对话,主题为“从论文到量产:具身智能实战法则”,探讨从实验室走向工业级规模化应用的核心挑战与实践路径 [5] 活动展示与互动环节 - “AI in Action演示秀”将由龙岗本土具身智能企业领衔,进行最具实感的落地场景演练 [5] - “闪电SHOW”将高密度展示产业链成果,包括媲美人手运动能力的灵巧手、高性能机器人本体、核心数据体系等前沿硬件生态与底层支撑 [5] - “Demo Alley”环节邀请高潜力种子企业,展示具身智能“从模型到产品”的最小闭环,是技术首秀与商业模式的实战预演 [5] - 活动流程包含签到、互动及“具身智能生态Social墙”环节 [6] - 活动面向具身智能初创企业开放报名,可参与“Demo Alley”环节向核心圈层展示创新成果 [9]
AI大牛刘威创立的Video Rebirth,刚刚又完成8000万美元融资
机器之心· 2026-03-18 11:35
公司融资与投资方 - Video Rebirth完成总额8000万美元的融资 [2] - 本轮融资由AMD Ventures、现代汽车等产业巨头及Openspace Capital等亚洲顶尖风投机构联合投资 [1][2] - 泰合资本担任本轮独家财务顾问 [2] 公司背景与战略定位 - 公司由前腾讯杰出科学家、IEEE Fellow刘威博士创立 [2] - 公司从成立之初就确立了全球化发展的定位 [4] - 公司战略目标是构建真正具备高物理一致性和专业可控性的工业级AI视频基础设施,提供可直接商用的视觉内容 [2] - 公司旨在为全球下一代数字内容生态打造“工业级”的底层基建,而非局限于单一市场的应用工具 [4] 核心技术 - 公司致力于为AI视频生成领域制定工业级标准 [2] - 首创能够实现精准指令遵循的Dual Diffusion Transformer架构 [2] - 利用物理原生注意力机制确保画面的极致连贯 [2] - 推出了全球首个原生30fps视频生成技术 [2] - 核心技术壁垒在于对视频生成真实物理规律的精准掌控,实现了前所未有的画面连贯性与精细可控性 [5] 产品与商业化 - 核心视频大模型为Bach [1] - 新资金将强力助推核心视频大模型Bach走向市场,打造下一代数字内容生产和交互的基础设施 [1] - 新注入的资金将核心用于加速其Bach系列模型的商业化落地与全球市场扩张 [2] 行业影响与应用前景 - 公司通过用底层AI引擎替代昂贵的物理实拍与僵化的传统渲染,正在打破传统影视与互动内容之间的边界 [5] - 公司技术旨在让AI生成视频真正具备物理世界的运行逻辑和极高的画面稳定性,大幅降低了构建互动世界的门槛 [5] - 终极使命是让所有创意瞬间转化为可以游玩、交互的数字空间,让观众蜕变为创造者 [5] - 技术价值已远超传统的创意媒体范畴,将成为未来出行领域至关重要的战略伙伴 [6] - 技术能构建极度逼真的数字世界,为训练实体AI提供绝佳的仿真场景 [6] - 技术将成为打造全新内容生产管线、升级IP互动体验的核心引擎 [6] 投资方战略协同 - AMD Ventures认为公司致力于通过视频原生的方式构建世界模型,与其赋能前沿AI技术的战略愿景高度契合 [6] - AMD将作为公司长期的底层基础设施伙伴,提供最坚实、最高性能的算力底座 [6] - 现代汽车集团看好该AI引擎的商业潜力,认为其能构建极度逼真的数字世界 [6] - CJ集团期待在其广泛的娱乐生态圈中,与公司展开深度合作,共同探索真正落地的商业应用场景 [6]
CVPR2026满分论文:Proxy-GS为结构化3D高斯溅射引入统一遮挡先验
机器之心· 2026-03-18 09:57
文章核心观点 - 上海交通大学钟志航团队联合多所高校提出了一种名为Proxy-GS的新方法,该方法为基于MLP的结构化3D高斯溅射引入了统一的遮挡先验 [4] - 该方法通过构建一个轻量级代理网格,在推理阶段快速生成遮挡深度图以剔除被遮挡的锚点,在训练阶段引导锚点沿代理表面生长,从而在遮挡密集的场景中显著提升渲染速度 [4][12] - 在遮挡丰富的城市街景中,Proxy-GS在保持甚至提升画质的同时,实现了2.5倍以上的渲染加速 [4][10] 技术背景与动机 - 原始3D高斯溅射会产生大量冗余高斯且忽视场景几何结构,而基于MLP的结构化方法(如Scaffold-GS、Octree-GS)虽然提升了细节,但在大规模城市场景中,解码与渲染成本成为瓶颈 [7] - 现有工作(如剪枝或LOD)对遮挡区域的无效计算关注不足,导致大量解码浪费在被遮挡的锚点上,引入遮挡感知的锚点筛选有望显著降低计算量 [7] - 利用消费级GPU强大的硬件光栅化能力快速得到遮挡深度,是实现高效遮挡剔除的关键思路 [8] 方法概览 - 方法核心是构建一个轻量代理网格,使其能在1000×1000分辨率下于1毫秒内得到遮挡深度图 [12] - 在推理阶段,对代理网格进行仅深度的硬件光栅化得到深度图,通过深度比较剔除被遮挡的锚点,并与原有剔除策略在单一CUDA内核中融合,避免GPU-CPU-GPU往返 [15] - 在训练阶段,同样使用代理深度进行遮挡剔除,确保训练与推理的可见性一致,并提出了代理引导的增密策略,使新锚点生长在代理表面附近,减少遮挡区的无效生长 [16] 性能提升与效果 - 在MatrixCity街道场景的Block 5上,Octree-GS的渲染速度约为48 FPS,而Proxy-GS达到了151 FPS,同时PSNR更高 [21] - 在遮挡较强的Small City街景中,Proxy-GS的渲染速度(FPS)为139,显著高于Scaffold-GS的62和Octree-GS的21 [23] - 在遮挡较弱的Berlin和CUHK-LOWER场景中,Proxy-GS的FPS分别为275和239,均优于或持平于其他基线方法 [23] - 消融实验表明,仅在推理时做遮挡剔除可使FPS提升超过3倍(从48提升至165),但画质(PSNR)会从21.41下降至19.06;当训练与推理均使用遮挡剔除并加入代理引导增密后,PSNR恢复至21.68,FPS为143,实现了最佳平衡 [25][26] 技术细节与鲁棒性 - 代理网格的生成可通过COLMAP或大模型(如MapAnything)获得稠密点云并转为网格,再进行表面简化 [15] - 代理网格的分辨率对画质影响有限,从约108MB简化至约824KB时,PSNR变化不大;但对网格顶点施加随机扰动会破坏遮挡边界,导致PSNR明显下降 [27][28] - 该方法与现有3DGS渲染加速技术(如FlashGS、硬件光栅化3DGS)兼容,叠加使用可进一步提速 [33]
如何让AI走向更高质量的共情?自然选择两项开源研究提供新路径
机器之心· 2026-03-18 09:57
文章核心观点 - 当前大模型的共情能力评测与训练多集中于单轮对话,难以评估其在长期多轮互动中是否对用户心理状态产生持续、稳定的正向影响 [1][3] - 自然选择团队开源的两项研究EMPA与MAPO,为长程共情场景提供了系统性的解决方案:EMPA重新定义了“过程级”评测范式,MAPO则提供了面向长程多轮交互的强化学习算法 [3][21] - 这两项工作将主观的“共情”能力转化为可衡量、可优化的系统能力,其意义可能超越情感陪伴领域,为未来大模型进入更多需要长期理解与渐进影响用户的复杂任务提供了方法论基础 [22] EMPA:过程级共情评测框架 - **核心思路**:将共情正式建模为一种长期智能体任务,用户心理状态是潜变量,对话是持续更新状态的过程,支持效果通过弱信号间接验证 [8] - **评估对象**:不再只评估单句回复,而是评估整段对话轨迹对用户潜在心理状态的影响 [9] - **评估框架**: - 通过Real-to-Sim数据管线,将真实长对话蒸馏为可复现的心理场景 [9] - 在非脚本化的多智能体沙盒环境中,让用户、导演、裁判等智能体与被测模型进行开放式互动 [9] - 通过共情潜力模型在潜在心理空间中建模用户状态变化,从而在轨迹层面评估对话的持续正向影响 [9] - **评测方法**:采用基于准则的物理评测思路,将证据生成与最终评分进行结构性拆分 [10][12] - 裁判根据准则抽取可追溯、可归因的结构化证据,而非直接打分 [12] - 共情潜力模型在轨迹层面对证据进行聚合计算,并将其映射为潜在心理状态的变化信号 [12] - **效果**:这种新的评测路径在鲁棒性与敏感度上均明显优于传统的单轮评测或LLM-as-a-Judge方法 [13] MAPO:面向长程多轮对话的强化学习算法 - **研究目标**:训练模型在长期对话任务中表现更好,使其既能利用逐轮反馈,又能保持长期策略稳定性 [16] - **核心信号**:同时引入两类奖励信号进行优化 [16] - **逐轮过程奖励**:借助EMPA的裁判系统对每一轮回答评分,将相邻轮次评分变化带来的增量作为即时奖励,衡量单次回复是否推动对话向更好方向发展 [16] - **长期未来回报**:通过蒙特卡洛方法估计从当前回合到对话结束的累计回报,以保留长程策略信息,避免模型陷入局部最优 [16] - **技术细节**:对同一初始提示采样多条对话轨迹,将每一步视作训练样本 [19] - 针对即时奖励与对话轮次相对解耦、未来回报与轮次强相关的观察,分别对二者进行基于批次和基于轮次的归一化 [19] - 通过凸组合进行融合,从而在保留无评论员优势的同时,更稳定地优化长序列对话策略 [19] - **优势**:相比基于GRPO的智能体强化学习方法,同时绕开了仅依赖稀疏的最终结果奖励,以及每一步需要大量采样导致样本复杂度极高的问题 [18] 两项研究的综合影响与实验结果 - **完整链路**:EMPA与MAPO形成了一条完整的研究链路,前者提供评测框架,后者提供训练算法,共同将“共情”转化为可系统研究、可复现比较并可进入训练闭环的技术问题 [21] - **实验结果**: - MAPO在EMPA的动态对话沙盒环境中训练后,效果显著优于GRPO,并在EMPA基准测试上取得明显提升 [21] - 在部分设置下,一个320亿参数的模型已经可以逼近Claude-3.5的表现 [21] - MAPO在其他多轮对话基准测试上也展现出较好的泛化能力 [21] - **潜在扩展**:MAPO本质上是一种面向长程智能体场景的优化方法,并不局限于多轮对话任务,随着代码与环境进一步开源,有机会在更多真实任务中被验证与扩展 [21]