机器之心
搜索文档
「龙虾」爆火,token成「硬通货」后,这场AI比赛变得更重要了
机器之心· 2026-03-21 13:04
AI 行业趋势与核心挑战 - AI应用需求爆发,但算力、芯片等基础设施尚未完全准备好,导致存储芯片价格上涨、算力租赁行业出现涨价潮[4] - 算力供应短期内持续紧缺,限制AI普及的关键可能并非模型不够强,而是算力使用效率不足,行业重点转向如何用更少的计算资源跑出更强智能[6] - 黄仁勋提出“Token是AI时代的新货币”,行业竞争核心转向谁能从每瓦特电力中榨取更多高价值的Token[1] - 能够同时理解算法、系统和算力效率的“高效能人才”变得日益抢手[6] 2026年腾讯广告算法大赛概况 - 大赛奖金池高达88.5万美元(约合610万元),旨在为全球算法人才搭建验证“高效利用Token”规则的实战沙盘[1][32] - 比赛围绕真实业务场景展开,使用来自每天服务数十亿用户的腾讯广告系统的脱敏数据,旨在解决真实的AI基础设施工程难题[9] - 大赛设有学术与工业双赛道,学术赛道冠军奖金为30万美元(约合200万元),工业赛道冠军奖金为15万美元(约合100万元)[12][32] - 比赛与KDD国际顶级学术会议官方联动,优胜者成果将被收录,颁奖典礼于2026年8月在KDD会议现场举行[10][29] - 比赛结束后,Top队伍选手将有机会加入腾讯,亲手将方案落地广告系统验证实际效果[33] 大赛核心赛题:推荐系统的技术革新 - 赛题名为“大规模推荐系统中序列建模与特征交互的统一”,旨在探索推荐系统能否像大模型一样,通过统一架构重做一遍[13][14][18] - 当前工业界推荐系统是“拼装式工程”,将序列建模和特征交互分开处理,导致结构割裂、GPU算力利用效率低下[14][17] - 赛题核心挑战在于将两套网络彻底合成一个统一模型,以捕捉更复杂的关系并提升GPU计算效率[17][18] - 赛题顺应大模型已验证的Transformer统一架构与Scaling Law路径,探索推荐系统能否通过更简单统一的架构实现越做越强[20] - 赛题难点包括处理复杂(静态信息与行为序列)且海量稀疏的工业级数据,并满足高精度与高性能推理的双重要求[20] 参赛支持与赛程安排 - 主办方提供基于Transformer的完整统一架构Baseline,包括Token化思路和核心网络,并会提供免费算力支持以降低参赛门槛[21] - 比赛数据直接来自腾讯广告真实工业日志,规模与复杂度接近生产环境,并做了严格的不可逆匿名化处理[22] - 比赛设置两项技术创新奖,每项奖金4.5万美元(约合31万元),以奖励在Scaling Law与统一架构方面的原创突破,即便排名不在前列也有机会获奖[32] - 大赛赛程从2026年3月15日持续至7月15日,全球注册时间为3月19日至4月23日[33]
ICLR 2026 | 大模型的无监督强化学习能走多远?清华团队给出了系统性答案
机器之心· 2026-03-21 11:27
强化学习技术范式演进 - 强化学习正在重塑大模型能力边界,OpenAI o3、DeepSeek-R1、Gemini 3等顶尖模型正使用大规模RLVR刷新推理任务天花板[3] - 纯监督式训练不可持续,人工标注成本指数级增长,在专业领域获取可靠标注越来越难,当模型能力逼近或超越人类专家时面临评分难题[3] - 无监督RLVR应运而生,旨在让模型在没有人工标注的情况下持续进化,这被视为降本增效和通往超级智能的必经之路[3] 无监督RLVR的内在机制与核心发现 - 研究发现,所有基于模型自身信号的内在奖励方法都遵循相似轨迹:训练初期性能快速攀升,但到达某个临界点后开始不可逆地滑落[4] - 这不是某个方法的缺陷,而是机制的宿命,其本质都在锐化模型已有的偏好,像一个回声室,让模型不断重复自己最初相信的东西[4] - 内在奖励方法的成败取决于模型“置信度-正确性”的对齐程度,即模型先验[14] - 如果模型初始倾向正确,锐化有效,性能提升;如果模型初始倾向错误,锐化有害,加速崩溃[14][18] - 在小规模测试时训练场景中,内在奖励方法能稳定提升性能,即使模型一开始全是错的,也能在自我纠偏中进化[4][16] 内在奖励方法的局限与安全区 - 内在奖励方法利用模型内在信号构造代理奖励,训练前期性能飙升,甚至一度超过有监督方法[7] - 但在早期训练性能飙升之后,继续训练会触发典型的奖励黑客行为:代理奖励持续上涨,真实性能却在崩溃[8] - 崩溃不可避免,只是时间问题,即使最稳定的配置也撑不过几个epoch,这可能不是工程问题,而是数学必然[14] - 崩溃有适用范围,当训练数据足够少时,内在奖励方法展现出稳定性,例如在Test-Time Training场景中[16] - 在极端实验中,使用32条模型全错的样本作为训练集,OOD测试集上的性能依然在稳定提升,说明内在奖励是在教模型“更相信自己”,而非“什么是对的”[16][17] 模型可训练性预判指标 - 研究者找到了一个“预言指标”,可以在大规模训练前预判模型的可训练性,无需跑完整条训练曲线[4] - 该指标是模型坍塌步数,用于测量一个模型在内在奖励训练下能撑多少步才完全崩溃[20] - 逻辑在于,如果崩溃越晚,说明模型的初始先验越好,其本身掌握更多正确知识,只是不够自信[20] - 例如,Qwen这种公认“适合RL”的模型系列,在内在奖励下撑得更久[20] - 该指标无需任何真实标注,预测准确率超过传统的pass@k方法[20][23] 外部奖励方法的潜力与方向 - 当内在奖励受限于模型自身的回声时,外部奖励方法开始展现不同图景[4] - 外部奖励方法利用生成与验证的不对称性来锚定奖励,正在突破内在奖励的天花板,让无监督强化学习真正走向可扩展[4] - 外部奖励方法归纳为两类:利用无标注数据从海量语料中挖掘奖励信号;利用生成-验证不对称性,让模型生成答案后用外部工具验证并提供环境反馈[25][27] - 初步测试的自验证方法展现出一条截然不同的曲线:持续改进,没有崩溃,因为奖励来自“答案能否通过客观验证”,而非“模型有多自信”[27] - 内在奖励追问“你相信自己吗”,外部奖励追问“这是真的吗”,通往可扩展的无监督强化学习,答案或许在后者[28] 技术路径的总结与展望 - 研究描绘了无监督强化学习的边界,其价值在于回答“在什么条件下,哪条路通”[29] - 一个系统能否通过审视自己而变得更好,取决于它最初的判断有多准确[29] - 内在奖励方法失败的原因恰恰是它们成功的原因,都是同一个机制:自我强化,区别在于被强化的是真理还是偏见[29] - 认清内在奖励的宿命,才真正看清外部奖励的星辰大海[29] - 内在与外部奖励不是对立,而是工具箱里的不同工具,认清边界是为了在边界内自由创造,在边界外寻找新的可能[30]
Cursor套壳Kimi被抓包记
机器之心· 2026-03-21 11:27
事件概述 - 明星AI编程创企Cursor发布新一代模型Composer 2,其在CursorBench基准上的性价比表现明显超过了Claude Opus 4.6 (high)以及GPT-5.4 (high) [1] - Composer 2发布后不到3小时,有网友发现其模型ID为“kimi-k2p5-rl-0317-s515-fast”,并推断Composer 2是经过强化学习的Kimi K2.5 [2] - 此事在AI社区引发高度关注,并产生大量讨论和梗图 [5][7] 核心争议与Cursor的回应 - 社区讨论焦点并非基于开源模型进行后训练这一常规操作,而是Cursor在介绍Composer 2时对来自中国的开源基础模型Kimi K2.5只字未提 [9] - 随着舆论在X与Hacker News等技术社区扩散,Cursor团队在压力下做出正面回应,承认Composer 2确实以Kimi K2.5为基础模型进行了针对性的强化学习与微调 [10] - Cursor联创Aman Sanger表示,最初未在博客中提及Kimi基础模型是一个疏忽,并会在下一款模型中解决此问题 [10] - Aman Sanger补充,基于困惑度的评估,Kimi K2.5是他们评估过的大量基础模型中最强的一个,并在此基础上进行了进一步的持续预训练和强化学习,计算规模扩大了4倍,最终得到Composer 2 [10] - Cursor开发者Lee Robinson表示,虽然Composer 2基于开源模型开发,但未来公司也会进行完整的预训练 [11] 社区反应与行业影响 - 尽管Cursor已公开道歉并补充说明,开发者社区对其先隐瞒后承认的做法仍存在不少批评声音,认为刻意淡化底座信息的行为会透支开源生态的互信根基 [12] - 月之暗面官方发推表明已与Cursor达成共识,并特别强调Cursor是通过FireworksAI托管的强化学习和推理平台访问的Kimi K2.5,这是授权商业合作的一部分 [12] - Cursor的竞争对手Windsurf抓住机会蹭热度,宣布未来一周将对用户免费开放Kimi K2.5 [13] - Hugging Face联创兼CEO Clement Delangue从事件中看到开源的价值,表示中国的开源模型如今已成为塑造全球AI技术栈的最大力量 [13] 引发的行业思考 - 事件引发行业对下游应用厂商在享受开源红利时,应如何妥善处理“商业包装”与“技术透明度”之间平衡的思考 [14]
ICLR 2026 | Shop-R1: 给AI补上「内心戏」,在RL博弈中复刻人类网购脑
机器之心· 2026-03-21 09:09
文章核心观点 - 亚马逊研究团队提出Shop-R1训练框架,旨在实现电商AI智能体从传统的“任务导向”向“模拟导向”的范式转移,即从单纯完成购物指令转变为复刻真实人类的复杂决策过程[2][5] - Shop-R1通过结合监督微调与创新的多层级奖励强化学习,显著提升了AI在动态、嘈杂的在线购物环境中预测用户下一步操作(包括点击、输入、终止)的准确性,其核心价值在于为电商平台提供一个低成本、高保真的“虚拟A/B测试”环境[5][9][28] 技术框架与训练方法 - **双阶段训练范式**:首先通过监督微调实现行为基准的“冷启动”,帮助模型内化上下文、推理与动作间的结构性依赖;随后在强化学习阶段,利用多层级奖励机制驱动深度迭代,提升在复杂环境下的逻辑推理与泛化表现[9][12] - **多层级奖励机制**:将每一步决策拆分为推理生成和动作预测两个子任务,并设计专门的奖励函数[13] - **二值格式奖励**:鼓励模型以结构化的JSON格式输出,确保可解析性[14] - **推理奖励**:采用self-certainty score(基于KL散度)衡量模型对其生成推理的置信程度[15] - **层级式动作奖励**:对粗粒度的动作类型和细粒度的子动作分别给予奖励,以稳定训练并抑制奖励黑客行为,例如“click”和“type_and_submit”动作在类型正确后可因预测正确的子组件(如按钮名称、输入文本)获得额外奖励,而简单的“terminate”动作则没有子动作奖励[16][17] - **难度感知奖励缩放因子**:对预测难度较高的长文本子动作(如从数千个候选元素中识别按钮名称)给予放大的奖励,防止模型为获取容易的奖励而不断选择简单动作[18] - **评估标准**:对离散动作类型使用完全匹配,对自由文本形式的子动作使用ROUGE-L相似度评估,超过阈值(如0.75)时给予软奖励[19] 实验结果 - **基准模型表现**:直接使用zero-shot提示的Qwen-2.5-3B-Instruct模型,其精确动作准确率仅为0.32%,表明长序列网页行为无法仅靠通用指令能力恢复[22][23] - **训练方法对比**: - 仅使用稀疏二值奖励的强化学习从零训练效果有限,精确动作准确率仅1.01%[22][23] - 一轮监督微调可显著提升性能,将Qwen-2.5-3B-Instruct的精确动作准确率提升至16.76%[22][23] - 在SFT基础上仅使用二值奖励进行强化学习提升有限(16.55%)[22][23] - **Shop-R1最终效果**:结合了层级奖励、self-certainty信号、格式奖励及难度感知奖励缩放的Shop-R1框架,将Qwen-2.5-3B-Instruct的精确动作准确率提升至27.72%,相对于仅使用SFT提升了65%,同时动作类型准确率提升至36.40%[22][23] - **模型规模扩展性**:该框架在不同参数规模的模型上(如1.5B和0.5B)均表现出显著性能提升[23] 未来发展方向 - **感官增强**:计划引入视觉语言模型,使AI能捕捉图片、买家秀等非文本信息中蕴含的隐含情绪,弥补当前高度依赖HTML代码的局限[25] - **个性化模拟**:构想通过调整强化学习的奖励权重,赋予AI不同的消费画像,例如“极致性价比党”、“精致参数控”、“颜值正义者”,以复刻真实世界中“千人千面”的消费心理[26][32] 行业应用与价值 - **虚拟A/B测试环境**:Shop-R1这类模拟导向智能体可作为低成本、高保真的“购物模拟器”,使电商平台能在实验室环境中投喂数万个“AI购物者”,测试新推荐算法或页面布局,观察其在面对价格波动、界面改版时的实时反馈,从而优化运营策略[28]
从「模型」到「部署」,如何理解 AI 技术进步背后的基础设施挑战?
机器之心· 2026-03-21 09:09
GPT4.5的失败如何反应AI行业的普遍挑战? - GPT-4.5失败源于数据不足和基础设施复杂性,导致难以扩展,且无法提供开放访问或API [6] - AI技术进步不仅依赖理论突破,还需要基础设施升级,特别是在云计算与大规模数据处理领域 [7] - 大模型训练和推理对算力需求急剧增加,行业面临全球晶圆和内存产能短缺,内存价格上涨与芯片短缺加剧了算力瓶颈 [7] - 手机厂商如小米因芯片短缺被迫减产,而NVIDIA等公司将产能优先分配给利润更高的数据中心产品,供需矛盾使算力瓶颈问题更严重 [8] - 在资源短缺背景下,相较于本地推理,云端数据中心部署更高效,体现在资源利用效率、灵活性与扩展性,以及数据存储和处理能力优势 [8] - 云端数据中心通过集中化处理提升资源利用效率并降低成本,能更好支撑AI大模型的训练与推理,规避本地推理的硬件瓶颈 [9] - 云端平台具备更高灵活性,企业可集中管理算力资源并根据需求调配,扩展性使企业能迅速增加资源,而本地推理受限于硬件配置和物理空间 [9] AI工具如何推动组织效率提升并塑造竞争壁垒? - AI工具本质是智能体编排系统,能让非技术人员通过自然语言调用模型能力,简化任务并提升工作效率 [12] - 竞争壁垒不仅来自技术能力,还包括企业如何通过工具生态、技能库和共享工作流提升整体竞争力 [12] - 小团队可以借助这些工具在高成本领域获得竞争优势 [12] AI竞争如何从「模型」走向「部署」? - AI竞争的核心已从模型本身转向实验室文化、政府合作、算力获取及相关政治社会因素 [1]
突发!腾讯AI Lab撤销,部分人员并入混元
机器之心· 2026-03-20 19:27
腾讯 AI Lab 组织架构调整 - 腾讯 TEG 技术工程事业群组织架构发生部分调整,AI Lab 被撤销,原主任蒋杰不再担任该职务,但其他管理职责不变 [1] - 原 AI Lab 部分人员调整至混元团队,向姚顺雨汇报,产学研合作中心保留,多模态部负责人向 TEG 总裁卢山汇报 [2] - 2024年6月,张正友卸任腾讯 AI Lab 主任,由集团副总裁蒋杰接任,张正友继续担任 Robotics X 实验室主任 [10] 腾讯 AI Lab 历史与成果回顾 - 腾讯 AI Lab 于2016年4月在深圳成立,核心愿景是「Make AI Everywhere」 [5] - 基础研究方向包括计算机视觉、语音技术、自然语言处理和机器学习,应用探索聚焦于游戏、数字人、内容和社交 AI 四类,技术已被微信、QQ、天天快报和QQ音乐等上百个腾讯产品使用 [6] - 实验室在决策智能领域一度国际领先,其策略协作型 AI「绝悟」在《王者荣耀》等复杂环境中展现出超越人类职业选手的决策与协作能力 [6] - 实验室积极探索 AI 在生命科学领域的应用,例如研发「腾讯觅影」辅助癌症早筛,并在蛋白质结构预测(如 tFold)和药物研发领域取得显著突破 [8] - 过去十年,实验室曾吸引多位顶级科学家,包括牵头筹建的姚星、第一负责人张潼、西雅图 AI 实验室负责人俞栋、兼任 AI Lab 和 Robotics X 主任的张正友等 [8] 关键人事变动 - 2025年底,腾讯西雅图 AI 实验室负责人俞栋离职 [9] - 2019年,张潼从腾讯 AI Lab 离职返港任教 [9] - 2023年12月,原 OpenAI 研究员、27岁的姚顺雨加入腾讯,任「CEO/总裁办公室」首席 AI 科学家,直接向总裁刘炽平汇报 [4] 行业动态与趋势 - 国内科技公司的 AI 竞争进入一个更加残酷也更加务实的新阶段,表现为腾讯 AI 力量向混元大模型「会师」,阿里千问大模型负责人林俊旸卸任,以及 DeepSeek 核心研发人才流动 [15] - 有消息称,参与了 DeepSeekMath、DeepSeek-V3、DeepSeek-R1 等重大项目的 DeepSeek 核心成员郭达雅已经离职 [12]
万字综述遥感AI智能体!六大应用场景全面爆发,地理空间智能从「眼睛」变「大脑」
机器之心· 2026-03-20 19:27
文章核心观点 - 遥感技术正经历一场由AI智能体驱动的深刻变革,从传统的被动感知工具演变为具备主动认知、规划、记忆和协作能力的“地理空间智能体” [3][4] - 一篇由多所顶尖高校学者联合发布的系统综述,首次为“遥感智能体”提供了严格定义,并系统梳理了其架构、应用、数据集与未来方向,为该领域搭建了统一的理论框架 [3][8][34] 遥感AI智能体的定义与核心架构 - 遥感AI智能体不仅需要理解用户的高层目标,还需能自主拆解任务、调用专业工具(如GIS软件、气象数据)甚至指挥卫星或无人机获取新数据,是一个“感知-规划-记忆-动作-环境交互”的闭环系统 [9][10] - 其核心能力依赖于四个模块的协同工作:规划策略、记忆机制、动作执行和多智能体协作 [12][13] 规划策略 - **开环规划**:适合静态任务,在任务开始前生成固定流程,效率高但缺乏应变能力 [15] - **闭环规划**:能够根据工具输出、环境变化和任务目标实时动态调整计划,例如在云层遮挡光学影像时自动改用雷达数据或重新调度卫星 [15] 记忆机制 - **内部记忆**:记录单次任务中的中间结果(如矢量图层、工具参数),以保证工作流程的连贯性 [18] - **外部记忆**:实现跨任务的经验复用,例如将成功处理洪水的流程存入“经验池”,供后续类似灾害响应时直接调用 [18] 动作执行 - **调用外部工具**:例如使用GDAL处理栅格数据,或使用SNAP分析雷达数据 [21] - **生成代码**:利用Python或R实现定制化分析,以突破预定义工具的限制 [21] - **具身动作**:直接控制物理设备,如改变无人机航线或调整卫星拍摄角度,实现“感知-决策-行动”的完整闭环 [21] 多智能体协作模式 - **集中式协作**:由一个中央控制器统一调度任务并汇总结果,适合需要严格一致性的流程(如生成标准地图产品) [24] - **分布式协作**:多个智能体通过共享内存和相互协商达成共识,适合信息碎片化的场景(如多源数据融合定位) [24] 六大核心应用场景 - **城市治理**:智能体实现从三维场景精细识别(如AirSpatialBot)、自然语言驱动GIS分析(如ChatGeoAI、GeoGPT)到模拟居民行为(如LLMob、AgentMove)和优化交通信号控制(如LLMLight)的闭环 [25] - **精准农业**:智能体深度融合遥感分析与农业决策,实现NDVI等指标自动化计算(GeoLLM-Squad)、处理复杂农艺查询(AgriGPT)、作物病害诊断(ChatLeafDisease)以及基于行为偏好的土地利用优化(Data-Driven ABM) [26] - **生态监测**:智能体赋能生态系统全链条分析,包括直接回归预测生物量(REO-VLM)、单木级结构提取(TREE-GPT)、气候政策检索摘要(CLEAR)以及自动化气候科研工作流(EarthLink、DA4DTE) [26] - **海洋监管**:智能体在海洋科学推理(如WaterGPT、OceanGPT支持数据处理与任务决策)和自主航行控制(如将视觉-LLM嵌入航海仿真与无人艇闭环控制)两大方向取得突破 [27] - **应急响应**:智能体在灾害监测与决策中发挥关键作用,例如支持自适应多步解释(RescueADI)、动态重规划无人机任务(UAV-CodeAgents)、数字孪生火线追踪(FIRE-VLM)以及提升火势模拟、疏散与问答的精准度(如Knowledge-Guided wildfire、ESCAPE等) [28] - **地质勘探**:智能体推动地质解释与勘探自动化,实现全图信息提取与多影像推理(PEACE、STA-CoT)、缓解岩性识别歧义(Geo-MMRAG)以及自动化端到端勘探流程(MineAgent、GeoAgent) [29] 数据、评测与关键挑战 - 智能体性能高度依赖数据,现有资源包括**感知数据集**(如iSAID)、**推理数据集**(如GeoChat)和**决策数据集**(如RescueADI) [32][35] - 当前面临的主要挑战包括:**可靠性**(模型幻觉可能导致误判)、**动态适应**(应对云层、传感器故障等实时变化)、**安全隐私**(高分辨率影像泄露敏感信息)以及**评测缺失**(缺乏对规划、协作能力的整体评估基准) [33][35] 未来研究方向 - 论文指出了五个关键未来方向:**自进化**(从过往任务中学习优化)、**因果推理**(理解事件发生原因)、**群体智能**(多智能体协同应对全球性问题)、**具身交互**(主动指挥卫星、无人机获取数据)以及**个性化服务**(为不同用户提供定制化洞察) [33][35]
手残党跪了,Pi 0.6机器人15分钟学会拧螺丝,能进厂边干边学了
机器之心· 2026-03-20 16:39
文章核心观点 - Physical Intelligence公司通过其创新的“RL token”方法,使机器人能够仅利用十几分钟到几小时的真实世界经验,快速掌握插网线、拧微型螺丝等对精度和灵巧度要求极高的复杂操作,这标志着机器人学习速度和精细操作能力的重大突破,加速了机器人在工业场景中的应用进程 [1][7][27] 技术背景与行业痛点 - 过去一年,机器人已能完成叠衣服、端盘子等粗略工作,但在需要高精度的任务上表现不佳,例如将螺丝刀精准对准微小螺丝,而这正是真实工厂环境中最关键且难以妥协的部分 [3] - 传统方法若要训练机器人掌握精细操作,需要耗费巨大计算量并重新训练整个庞大的“主脑”模型,过程缓慢且效率低下 [5] RLT技术原理与创新 - 公司提出了一种“偷懒”的解决方案:不重新训练整个主模型,而是为其增加一个专门负责精细动作的“外挂”——RL token [6] - 核心灵感是让视觉语言动作模型配合一个极其小巧、可实时更新的模型进行强化学习微调,VLA模型输出一个代表内部复杂思考过程“极简摘要”的RL token,作为小型Actor和Critic网络的输入 [10] - RLT技术首先改造VLA,通过一个Transformer结构压缩出RL token,该token浓缩了当前观察画面中强化学习所需的所有关键信息,使得极小的Actor和Critic网络也能基于大模型的丰富理解来改进动作 [12] - 获得RL token后,仅需利用机器人积攒的几小时甚至几分钟真实数据,即可在线训练小型Actor和Critic网络,这些网络设计轻量,每秒可更新数百次,实现即时行为调整 [10][14] 技术实现细节 - **预测“动作块”**:强化学习策略预测一连串的“动作块”,与VLA的动作结构保持一致,便于直接调整任务中具有时间跨度的重要连贯动作 [15] - **学会“修改”而非“推翻”**:Actor网络接收VLA预测的动作作为输入,学习如何“编辑修改”而非全盘替换,策略更新被限制在参考动作附近,确保探索的稳定性 [15] - **防止“抄作业”**:引入“参考动作 dropout”机制,防止小模型在训练初期仅模仿VLA的动作,迫使其保持独立生成动作的能力 [15] - **融入人类干预**:可选择性地让人类在机器人卡壳或犯错时直接介入,纠正动作会被折叠并反馈到训练过程中 [16] - 这些设计使在线强化学习成为一个可复用的“通用配方”,无需针对具体任务进行专门工程设计,即可挂载到预训练的VLA模型上应对各种任务 [16] 实验验证与性能表现 - 研究者在四项高精度挑战性任务上测试RLT:用电动螺丝刀拧入M3微型螺丝、系紧扎带、插入网线及插入电源线 [17] - 在这些任务中,通用基础模型能完成大部分“粗略”动作,但任务成败与速度取决于需要大量物理接触、对位置和角度精度要求极高的关键阶段 [17][20] - 实际测试表明,机器人**仅利用15分钟的真实世界数据**,就能优化每个动作里最难的部分 [22] - 在所有四项任务中,与基础模型相比,RLT在速度和成功率上均有显著提升,以“吞吐量”衡量,RLT使**每项任务中最精细步骤的速度提高到原来的3倍** [7][22] - 在“插网线”任务中,整个训练耗时2小时,但包含机器人动作的数据仅15分钟,RLT的执行速度**甚至超越了人类远程操作的速度**,最终策略有一半的测试速度比任何一次人类示范操作都要快 [24][25]
IEEE TVCG | 告别写代码!MoGraphGPT:基于模块化大模型与图形控制的2D交互场景创作
机器之心· 2026-03-20 16:39
研究背景与痛点 - 使用大语言模型直接生成2D交互场景或代码时,创作者面临四大挑战:代码质量堪忧,在处理多元素复杂交互逻辑时容易生成不完整或错误的代码[6];缺乏独立编辑性,线性对话结构导致修改困难,容易产生意外影响[7];图形控制缺失,仅靠文本难以精准描述空间信息[8];精确控制极其繁琐,微调参数需反复修改提示词,效率低下[9] 核心解决方案 - 研究团队提出名为MoGraphGPT的创新系统,结合了上下文感知模块化大模型与直观的图形化和精确化控制,允许用户通过自然语言和简单的画布涂鸦,零代码快速搭建逻辑复杂的2D交互场景[2] - 该系统采用两项突破性核心机制:第一是上下文感知的LLM模块化,采用自顶向下的分层管理结构,为场景中每个元素设置专属独立LLM会话,并设有一个中心统筹LLM模块专门处理元素间交互,实现了独立调整与协同工作的平衡[12][13];第二是无缝融合的图形控制与UI精准微调,用户可在画布上直接标点、画线、画曲线或圈出区域,并在提示词中引用这些图形元素进行控制,系统会自动将手绘图形转化为精确坐标参数[18] 性能验证与效果 - 在与业界顶尖AI编程助手Cursor Composer的对比实验中,MoGraphGPT在完成同样交互场景还原任务时,平均耗时比Cursor缩短了约73.8%[19] - MoGraphGPT极大降低了试错成本,用户所需输入的提示词数量和文本长度分别大幅减少了68.4%和88.9%,并且在易用性、可控性与总体表现等主观评分上显著提升[19] - 基于LLM-as-a-Judge及真实编译环境的测试显示,MoGraphGPT生成的代码在致命错误和严重错误数量上均远低于基线工具[19] 应用与创作潜力 - 在自由创作环节中,无论是无编程基础的用户还是经验丰富的开发者,都能在10到30分钟内使用MoGraphGPT完整构建出各具特色的作品,应用涵盖双人游戏、射击游戏、教学演示动画、学术论文动态插图以及网页交互Demo等多种类型[21] 研究意义与未来方向 - MoGraphGPT在大语言模型代码生成与可视化无代码编辑之间架起了桥梁,其核心的模块化LLM调度策略和图形化操控不仅解决了复杂场景下的代码耦合问题,也为未来多智能体协同生成复杂应用程序提供了一种全新的交互范式[24] - 未来团队将进一步探索支持更庞大场景的交互式创作,探索代码可见性分级,并验证其在更多专业级引擎中的管线对接潜力[25]
登顶全球权威榜单!浙大创业团队百卡打造开源实时世界模型,视频秒变可交互4D世界
机器之心· 2026-03-20 13:21
文章核心观点 - 全球科技界正围绕“世界模型”展开激烈竞争,其核心是让AI理解并重构物理世界,而中国初创公司影溯(InSpatio)通过发布开源世界模型InSpatio-World,凭借创新的3D架构和极高的效率,实现了范式突破,在该领域取得了领先地位,并展示了巨大的商业化潜力 [1][2][18] 行业背景与竞争格局 - 全球资本与顶尖研究机构正押注“世界模型”的未来,例如李飞飞的World Labs获得百亿美元估值,Yann LeCun创下10.3亿美元种子轮融资纪录,Google与NVIDIA也投入海量算力进行资源博弈 [1] - 行业在“如何表征世界”上存在根本分歧:2D路线(如NVIDIA的Cosmos、Google的Genie)依赖海量视频进行视觉统计学习,但易出现物理一致性坍塌;3D路线(如World Labs的Marble)坚持直接建模空间结构,但受限于高质量3D数据稀缺 [16][17] - 业界普遍认为,如果说大语言模型(LLM)定义了过去的AI浪潮,那么世界模型正在定义下一轮,它将重写自动驾驶、虚拟现实(VR/AR)、具身智能等多个行业的底层逻辑 [30] 公司技术与产品突破 - 影溯发布并开源了世界模型InSpatio-World,在权威榜单WorldScore-Dynamic中力压其他实时/交互级推理速度的世界模型,登顶榜首 [2][7][18] - 该模型彻底摒弃了纯2D视频路径,采用更具第一性原理的3D空间架构,仅用数百万元人民币的研发全周期训练成本,便在核心指标上反超了AI巨头的模型,实现了“效率奇迹” [2] - 模型推理效率极高,在单张专业级显卡(如RTX 4090)上就能实现24 FPS(或10 FPS)的流畅推理,仅需百卡级别的算力即可完成快速训练,极大降低了商业化门槛 [2][10] - 技术核心在于“状态锚定世界建模”范式,通过显式建模“世界状态”,实现了观测视角与物理实体的解耦,使时间演化成为3D状态的物理更新,依托“显式状态建模、时空自回归框架、联合分布匹配蒸馏”三大核心技术 [20][23] - 该模型实现了从“像素生成”到“实时仿真”的跨越,交付的不再是静态视频,而是一个响应式、可交互的“鲜活世界”,支持自由暂停、精准回溯和介入交互 [19][24] 团队背景与研发路径 - 影溯团队具有深厚的“国家队”背景和产学研协同优势,首席科学家鲍虎军教授在图形学、空间计算领域有数十年积累,创始人章国锋教授兼具学术研究与产业落地(如商汤科技)经验,联合创始人刘浩敏博士及其团队负责工程化实现 [27] - 团队构建了贯通三维感知、实时计算与物理仿真的全栈技术和工程能力闭环,形成了从实验室“从0到1”范式突破到产业端“从1到N”效率攻坚的完整技术闭环 [26][27][28] - 团队选择了一条独特的技术路径:将海量2D视频转化为可学习的3D动态表示,巧妙地绕过了3D数据稀缺的瓶颈,并实现了从静态3D重建(InSpatio-WorldFM)到动态4D演化(InSpatio-World)的跨越 [20] 应用前景与商业化进展 - InSpatio-World能够将一段普通单目视频“复活”成一个鲜活的4D世界,使平面的像素跃升为可反复进入、沉浸体验的立体记忆空间,定义了下一代可交互数字资产 [7][8][10] - 该模型是具身智能与自动驾驶非常理想、有效的虚拟训练场,可构建可控的虚拟世界用于生成大量长尾场景,进行反复试错和策略优化 [10][30] - 在虚拟现实(VR/AR)领域,有望缓解“空间内容供给瓶颈”,将文本、图像或视频直接转化为可探索的三维空间 [30] - 在具身智能领域,能让机器人具备“行动前的模拟”能力,进行内部推演和自主决策 [30] - 公司目前已收到全球数十家机器人、自动驾驶与内容巨头的深度商业化需求,正全力加速产业落地 [32]