Workflow
机器之心
icon
搜索文档
SIGGRAPH Asia 2025 | OmniPart框架,让3D内容创作像拼搭积木一样简单
机器之心· 2025-10-20 12:50
OmniPart技术框架 - 提出创新的部件级别3D生成框架 通过两阶段"先规划 后生成"策略解决3D内容创作的部件控制难题[2] - 第一阶段采用自回归Transformer模型 根据2D图像和掩码预测3D包围盒规划部件布局 引入部件覆盖损失确保完整覆盖[10] - 第二阶段基于预训练生成器进行并行联合优化 结合体素丢弃机制生成高质量独立部件并确保无缝拼接[12] 性能优势 - 生成质量显著优于Part123和PartGen等方法 在几何细节 语义准确性和结构一致性上表现突出[14] - 生成效率大幅提升 端到端生成时间仅约0.75分钟 远低于Part123的约15分钟和PartGen的约5分钟[16] - 支持掩码控制生成 多粒度生成 材质编辑和几何处理等下游应用 提供显式部件控制能力[18][20][21] 技术生态与行业应用 - 形成3D部件技术矩阵 包括部件分割工作SAMPart3D 部件补全研究HoloPart和部件生成框架OmniPart[23] - 框架推动游戏开发 动画制作和虚拟现实等领域的高质量3D世界构建 增强内容可编辑性和定制化潜力[2][23] - 项目资源全面开放 提供项目主页 代码下载和Huggingface演示平台便于技术验证[4]
无需再训练即可增强性能!港大团队提出GPC框架,实现机器人「策略组合」
机器之心· 2025-10-19 17:17
文章核心观点 - 香港大学团队提出了一种名为GPC(通用策略组合)的全新免训练框架,旨在提升机器人控制策略的性能 [2] - GPC框架通过在测试时对多个预训练模型的决策分数进行动态融合,创造出一个性能超越任何单一父策略的组合策略 [2] - 该框架打破了传统性能提升方式对数据和算力的依赖,能够灵活融合不同架构和模态的机器人策略 [2] 技术原理与理论基石 - GPC的核心思想是在机器人执行任务的瞬间,通过凸组合的方式将多个预训练策略的决策分数进行动态融合 [7] - 研究证明,对决策分数进行凸组合能够生成一个在单步上具有更低误差的组合分数,比任何单一策略的分数更精确 [9] - 通过建立Grönwall型界限,研究证明了单步的误差改善能够沿整个轨迹传播,确保组合策略在系统层面具有性能提升和稳定性 [10] - 理论公式表明,组合策略的轨迹采样误差低于任何单一策略的误差 [12] 框架通用性与组合机制 - GPC框架具备“即插即用”的通用性,以免训练的方式整合各种机器人策略 [14][15] - 其统一的分数凸组合机制能有效平衡来自不同条件的信息,生成更稳定、连贯的动作轨迹 [17] - 框架能够跨越策略架构进行组合,兼容基于扩散模型或基于流匹配的策略 [19] - 框架能够融合不同输入模态的策略,如视觉-动作模型、视觉-语言-动作模型等 [19] - GPC框架自然地连接了叠加原理,提供了Logical OR和Logical AND等更强大的组合操作符 [18][20] 权重搜索与性能优化 - GPC框架的权重搜索机制能为不同任务和场景量身定制最优的组合策略 [23] - 实验表明,当被组合的两个策略都具有中等准确率时,GPC能实现比单一基线策略更高的准确率,提升幅度最高达24% [24][26] - 当其中一个策略准确率显著较低时,GPC难以超越表现最好的基线策略的峰值性能 [26] - GPC性能的提升总是伴随着表现较好的基线策略获得更大权重时被最大化 [26] 实验验证与实际效果 - 在Robomimic、PushT等仿真测试平台上,GPC策略实现了最高7.55%的平均成功率提升 [28] - 在复杂的RoboTwin双臂协作任务上,GPC策略提升了7%的性能 [28] - 通过Logical AND组合,Diffusion Policy与Mamba Policy组合策略在Robomimic的Can任务上成功率提升至84%,较基线提升25.73% [30] - 真实世界采用PiPER机器人进行的实验显示,GPC在4个实际任务中对比单一基线成功率拥有5-10%的提升 [30]
长上下文窗口、Agent崛起,RAG已死?
机器之心· 2025-10-19 17:17
RAG技术演进与行业观点 - 行业出现“RAG已死”的论调,Chroma公司CEO Jeff Huber主张以“上下文工程”框架取代对RAG术语的狭义依赖 [1][2] - RAG自2022年以来成为解决LLM输入长度限制(如GPT-3.5的4K tokens)的行业标准解决方案,其核心逻辑类似于搜索引擎 [3][4] - 长上下文窗口的崛起和Agent能力的进化正在动摇RAG的核心地位,引发其是否过时的讨论 [5][6] RAG的进化:智能体检索 - LlamaIndex提出RAG正在演进为“智能体检索”,AI智能体成为更强大的RAG架构核心,超越了早期“朴素的区块检索”阶段 [7][8] - 技术演进分为四个阶段:从基础的Top-k检索,到引入轻量级agent的自动路由模式,再扩展到多个知识库的复合检索API,最终构建完全由agent驱动的双层智能系统 [9][10][11][13][15][17][18][19] - 高级检索服务通过分层、智能的能力,成为高级AI智能体不可或缺的“知识骨干”,简单的RAG已经过时 [21] RAG作为工程学科的深化 - 行业专家认为RAG正进化为构建可靠、高效AI应用的核心工程学科,其本质(为LLM提供外部知识)是永恒需求 [22][23][24] - 需要升级评估范式,传统搜索引擎基准(如BEIR)与RAG目标不符,新基准FreshStack更注重覆盖率、多样性和相关性等真实性能指标 [26][27][28][29][33] - 新一代检索模型具备推理能力(如Promptriever)和采用无损压缩技术(如延迟交互模型ColBERT),小模型(150M参数)在特定任务上可超越大模型(7B参数) [34][35][39] 对RAG架构的批判与替代方案 - 批评者指出RAG架构存在“原罪”:切分导致上下文割裂、向量搜索在专业领域失灵、系统复杂性和延迟问题突出 [37][38][41][48] - 智能体(Agent)和长上下文窗口(如Claude Sonnet 4达200K、Gemini 2.5达1M、Grok 4-fast达2M tokens)被视为更优替代方案,采用“调查”而非“检索”范式 [42][43][44][45][49] - 在新范式下,RAG被“降级”为Agent工具箱中的一个组件,与代码解释器、API调用等工具并列,场景需求决定架构选择 [47][50][51][52][54] 行业共识与未来展望 - 行业共识是初级的、朴素的RAG(Naive RAG)已无法满足复杂需求,但其核心思想——为LLM提供外部知识——是永恒的 [50][51] - 未来技术图景是多元化融合:Agent驱动的工程化RAG适用于海量数据初筛,而“长上下文窗口 + Agent调查”范式在深度分析场景具优势 [52][54] - 开发者需理解不同技术范式优劣,根据具体应用场景灵活组合,构建最高效可靠的解决方案 [52]
Meta用40万个GPU小时做了一个实验,只为弄清强化学习Scaling Law
机器之心· 2025-10-19 17:17
研究背景与核心问题 - 当前LLM领域的强化学习研究缺乏系统化的扩展理论,进展多依赖于针对特定任务的孤立研究或高昂的大规模实验,限制了学术界的广泛参与[2][3] - 研究旨在为强化学习扩展奠定科学基础,解决“如何扩展”以及“扩展什么”这两个基本问题,借鉴预训练领域已成熟的Scaling Law概念[3] 研究方法与框架 - 研究提出了一个预测性框架,使用类sigmoid饱和曲线将期望奖励与训练算力联系起来,关键参数包括渐近性能上限A、算力效率B和性能曲线中点C_mid[4][5] - 该框架使研究者能根据小规模实验结果推测更大算力下的表现,从而在不耗尽算力预算的前提下评估RL方法的可扩展性[7] - 实验基于超过40万GPU小时的系统化实证研究,在Nvidia GB200 GPU上进行,每次实验使用约1.6万GPU小时[8] 关键研究发现与原则 - 不同RL方法在算力扩展时会遇到不同的性能天花板,该上限可通过损失函数类型、batch size等设计选择进行调整[10] - 在小算力下表现出色的方法,放大到大规模算力时可能效果更差,研究框架可提前识别真正具有可扩展性的方法[10] - 许多被认为能提高峰值性能的技巧主要影响算力效率,而非最终性能上限[10] ScaleRL配方设计 - ScaleRL整合了现有成熟方法以实现可预测扩展,包括异步Pipeline-RL结构、生成长度中断机制、截断重要性采样RL损失等组件[11][37] - 采用PipelineRL-8结构,因其与PPO-off-policy在最终性能上限相近,但显著提升了算力效率,减少了GPU空闲时间[19] - 选择CISPO作为最佳损失类型,因其在训练过程中展现出更长时间的线性回报增长趋势,并在后期略优于GSPO[24] - 在logits层采用FP32精度修正能显著提高最终性能,从0.52提升至0.61[26] 扩展维度验证 - ScaleRL在模型规模上具备尺度不变性,17B×16的MoE大模型表现出远高于8B稠密模型的RL最终性能,且仅使用后者1/6的RL训练算力[41] - 增加生成长度会在训练初期放慢进展,但最终提升性能上限,验证了长上下文强化学习是提升性能天花板的手段[42][43] - 较大的批次能够稳定地提高性能上限A并避免训练停滞,在最大规模数学任务中将batch size提升至2048个prompt后稳定了训练[47][48] - 在固定总批量前提下,调整每个提示的生成次数对性能上限和效率影响较小[49]
OpenAI「解决」10道数学难题?哈萨比斯直呼「尴尬」,LeCun辛辣点评
机器之心· 2025-10-19 11:48
事件概述 - 事件核心为OpenAI研究员宣称GPT-5模型“发现”了10个Erdős数学难题的解决方法,但后续被证实仅是检索到了已存在的文献,引发了关于AI能力夸大宣传的讨论 [1][14][16] 事件经过 - 2025年10月12日,OpenAI研究员Sebastien Bubeck发推称GPT-5在文献搜索方面表现超凡,解决了官方数据库中标记为未解的Erdős问题339,并指出该问题实际在20年前(2003年)已被解决 [4][5] - 10月17日,OpenAI研究人员Mark Sellke更新称,通过数千次查询,使用GPT-5模型对Erdős问题网站进行调查,“发现”了10个问题的解决方案(问题编号:223、339、494、515、621、822、883、903、1043、1079),并在另外11个问题上取得部分进展 [6][8] - OpenAI高管(如首席产品官Kevin Weil、副总裁Sebastien Bubeck)转发相关帖文,并宣称“AI加速科学已正式开始”,导致公众和媒体普遍误认为GPT-5在数学推理上取得重大突破 [9][12][14] - 事件迅速反转,谷歌DeepMind CEO Demis Hassabis指出其表述“很尴尬”,并引导关注网站维护者数学家Thomas Bloom的澄清 [16][17] - Thomas Bloom澄清称,网站将问题标记为“未解决”仅代表其个人不知晓解答已发表,并非数学界未解决,GPT-5实际扮演了高效学术搜索引擎的角色 [17][18] - 随后,Sebastien Bubeck和Kevin Weil均删除帖文并道歉,承认表述造成误解 [18][19] 行业反响与讨论 - Meta首席AI科学家Yann LeCun等人指出,过去几个月对大型语言模型(LLM)是“灾难性的”,列举了包括苹果推理论文证实LLM无法解决分布偏移、GPT-5发布延迟且表现不及预期、图灵奖得主Rich Sutton同意对LLM的批评、以及Karpathy认为智能体技术远未成熟且AGI还需十年等事例 [25][26][27][28][29][30] - 数学家陶哲轩(Terence Tao)认为,AI在数学领域的近期潜力在于使用中等强度工具加速平凡但耗时的研究任务(如文献综述),而非直接解决最难题,并强调人类专家需指导、验证并整合AI输出 [33][34][35][36] - 有观点指出,AI实验室存在因融资压力而进行夸大宣传的激励问题,因为同行评审耗时数月,而发布新闻稿只需几秒 [38]
一个运行了80年的算法,我们现在才真正理解它?
机器之心· 2025-10-19 11:48
来自 Quanta Magazine 作者: Steve Nadis 机器之心编译 从你网购的包裹如何以最快速度送达,到航空公司如何规划数千架飞机的航线以节省燃料,背后都有一个近 80 岁「高龄」的数学方法在默默 工作。它被誉为优化领域的基石,高效又令人信赖。然而,一个奇怪的事实是:几十年来,没有人能从理论上完美解释它为何如此高效。现 在,这个谜题的最后一块拼图,终于被找到了。 1939 年,当时还是加州大学伯克利分校一年级研究生的 乔治·丹齐格(George Dantzig)在一次统计学课上迟到了。他从黑板上抄下了两个问题,以为是家庭作 业。他后来回忆说,他发现这次的作业「比平时难得多」,并为自己多花了好几天才完成而向教授道歉。 几周后,他的教授告诉他,他成功解决了统计学领域两个尚待解决的 著名 问题。 丹齐格 的这项成果为他的博士论文奠定了基础,并在几十年后成为了电影《心灵捕手》的灵感来源。 乔治 · 丹齐格( George Dantzig , 1914—2005 ),美国著名数学家, 1947 年提出了单纯形法,被称为线性规划之父。 丹齐格 在 1946 年,也就是二战刚结束后不久,获得了博士学位,并很 ...
ACMMM 2025 | 北大团队提出 InteractMove:3D场景中人与可移动物体交互动作生成新框架
机器之心· 2025-10-19 11:48
该论文的第一作者和通讯作者均来自北京大学王选计算机研究所,第一作者为博士生蔡鑫豪,通讯作者为博士生导师刘洋。团队近年来在 TPAMI、IJCV、 CVPR、ICML 等顶会上有多项代表性成果发表,多次荣获国内外多模态理解与生成竞赛冠军,和国内外知名高校、科研机构广泛开展合作。 本文主要介绍来自该团队的最新论文 InteractMove:Text-Controlled Human-Object Interaction Generation in 3D Scenes with Movable Objects。 该研究首次提出了含可移动物体的 3D 场景中,基于文本的人 - 物交互生成任务,并构建了大规模数据集与创新方法框架,在多个评测指标上均取得了领先效果。 现有的人 - 场景交互数据集存在交互类别不足的问题,并且通常只考虑与静态物体的交互。随着可移动物体的引入,任务变得更具挑战性:模型不仅需要准确识别 目标交互物体,还要学会与不同类别和尺寸的物体交互,并避免物体与场景之间的碰撞。 为应对这些挑战,该研究提出了一个全新的方法框架:首先利用三维视觉定位模型确定目标交互物体;然后提出手 - 物联合可达图学习,用于预测 ...
「注意力经济」下,AI 生活助手能否解锁生服「新」刚需?
机器之心· 2025-10-19 09:30
AI生活助手赛道发展现状 - 国内互联网大厂近期陆续在AI生活助手赛道上发力,面向更广阔的C端市场[6] - 腾讯于今年4月16日在微信上线AI助手「元宝」,用户可添加为好友并在聊天界面互动,搭载混元和DeepSeek双模引擎,支持一键解析公众号文章、图片和文档(100M以内)[7] - 阿里在电商业务线开发AI生活助手功能,淘天集团测试两款C端助手:灰度测试的「AI帮我挑」和8月全量上线的「AI万能搜」,整合知识解答与商品推荐[8] - 美团上线聚焦本地生活服务的AI助手小美,通过AI Agent主动理解用户需求并完成从推荐到下单的闭环服务[8] - 京东在9月发布三款面向个人用户的AI产品:定位下一代购物和生活服务超级入口的京犀、万能数字人生活助手他她它、侧重智能软硬一体的JoyInside[10][11] - 滴滴于9月26日公测AI出行助手「小滴Beta v0.8版本」,核心功能是将传统打车流程从被动派单转变为用户主动定制[12] 各公司AI助手功能特点 - 腾讯元宝核心功能是在微信生态中的聊天问答,暂不支持一键管理群聊等复杂用途,代表微信使用体验上的一次较大变动[7] - 阿里淘宝的商品曝光逻辑仍较为保守,与传统搜索差异不大,未来AI导购可能成为智慧购物入口,革新「人找货」体验[8] - 美团小美作为独立C端智能体应用存在,高度依赖美团本地生活业务,跨场景能力较弱,短期没有增量价值[9][10] - 京东他她它产品融合AI助手、AI社交圈、智能硬件互联等功能,偏向泛生活+情感陪伴+社区共创的复合型AI平台[10] - 京东JoyInside已陆续接入超过30家头部品牌的硬件产品,并与超10家领先机器人品牌合作[11] AI生活助手市场机会 - 截至2024年12月,全网月人均使用时长达171.7小时,而AI应用月人均使用时长仅为132.8分钟,两者相差约60倍,且AI产品3日留存率均不到40%[13] - 在信息过载和注意力经济盛行的背景下,人类的「注意力」已成为最宝贵资源,平台通过算法设计让用户形成深度绑定直至「成瘾」[13][14] - AI生活助手可作为主动的信息过滤和引导工具,通过个性化推荐和精准任务执行帮助用户缩短决策链路,解决决策延迟和焦虑问题[14]
Self-Forcing++:让自回归视频生成模型突破 4 分钟时长极限
机器之心· 2025-10-18 16:30
文章核心观点 - Self-Forcing++技术突破视频生成长度限制,首次实现4分钟15秒高质量长视频生成,无需长视频数据再训练[2][10] - 该技术通过“教师模型即世界模型”的核心思想,利用教师模型纠错能力,使学生模型在长时间尺度下学会自我修复和稳态生成[8][9][10] - 在50秒、75秒和100秒视频生成评测中全面超越基线模型,尤其在动态程度和视觉稳定性指标上表现突出[23][25] 技术原理与创新 - 采用反向噪声初始化技术,在长视频生成后将噪声重新注入已生成序列,保持时间连续性,避免时间割裂[13][14][15] - 提出扩展分布匹配蒸馏方法,将教师-学生分布对齐从5秒窗口扩展为滑动窗口蒸馏,实现长期一致性学习[16][18] - 在训练阶段同步采用滚动KV缓存,实现真正的训练-推理对齐,彻底消除曝光漂移和帧重复问题[19][20] - 引入强化学习的光流平滑奖励机制,惩罚光流突变,使视频运动过渡更自然,光流方差显著下降[22] 性能表现与实验结果 - 模型参数量为1.3B,在100秒视频生成中文本对齐得分26.04,时序质量90.87,动态程度54.12,视觉稳定性84.22[25][26] - 在50秒视频生成评测中,动态程度指标达到55.36,远超基线模型的31.96-39.15,视觉稳定性达到90.94,显著优于基线模型的40.12-60.41[25] - 随着训练算力增加,视频质量显著提升,训练预算达到25倍时可实现几乎无损的长视频生成[31] - 在0-100秒生成过程中能保持很好稳定性,基线模型大多会出现严重质量下降如过曝光和错误累积[25][30] 行业现状与挑战 - 当前主流视频生成模型如Sora、Wan、Hunyuan-Video等普遍受限于数秒短片段生成,存在训练-推理不匹配和误差累积等架构缺陷[6][7][17] - 极长场景下仍存在长时记忆缺失问题,可能丢失被遮挡物体状态,且自回归训练成本较高,效率有待提升[33]
那些让你笑cry的动物视频,其实都是AI演的
机器之心· 2025-10-18 16:30
AI生成视频技术发展 - AI生成动物监控视频的真实度显著提升,例如熊猫荡秋千摔跤和浣熊被万圣节小丑惊吓的视频,画面逼真到难以分辨真伪[2][6][9] - 技术难点在于提示词的精确设计,例如万圣节场景的提示词需包含细节描述如装饰、动物行为及互动效果[11] - 生成视频在社交平台获得高流量,例如万圣节主题的动物反应视频在YouTube播放量达110万次[12] AI生成内容的社会影响 - 虚假内容引发公众信任危机,例如Reddit用户利用AI生成虚构的肥胖猫Pound Cake故事,导致粉丝情感被欺骗[14][17][19] - 技术滥用造成信息真实性判断困难,人们开始质疑采访、电话等内容的真实性,担心AI伪造的恶意用途[24] AI技术的应用与挑战 - 生成内容覆盖多种动物和场景,例如美洲狮、小黑熊等万圣节主题视频,显示技术适应性强[12] - 现实应用中AI未有效提升效率,反而增加信息验证的困扰,与理想中的创意辅助形成反差[24]