世界模型
搜索文档
产业级 Agent 如何破局?百度吴健民:通用模型难“通吃”,垂直场景才是出路
AI前线· 2026-01-16 14:28
Agentic模型的发展现状与挑战 - 通用全能的Agentic模型现阶段不可能实现,业务场景、工具、环境差异过大,通用模型泛化性有限 [2] - 当前研发核心是让模型在各类垂直Agent场景中更好发挥作用,发展最快的场景是Coding Agent,包括通用编程及网页开发等特定领域 [4] - 具备在各类垂直Agent场景下达到工业级效果的通用模型尚未出现,原因在于场景设定、工具集合及运行环境差异极大 [5] - 针对具体应用场景定制模型更容易形成优势,特别是当场景能清晰定义Reward且评估能高效自动完成时,通过强化学习定制的Agentic模型可显著超过现有通用模型 [5] - Agentic模型训练的最大卡点不是模型,而是真实环境复刻,外部接口、数据库、登录依赖等真实链路的稳定访问技术门槛极高 [2] - 实现模型在特定场景持续迭代,必须依赖一套在该场景下运行顺畅、具备高效率和高吞吐能力的强化学习系统 [6] 强化学习的技术瓶颈与工业应用 - 开源强化学习框架如OpenRLHF、TRL、VeRL等覆盖了主要环节,但在工业级应用中仍不够成熟,涉及多轮工具调用的Agentic场景需深度定制 [7] - 工业级打磨方向主要在模型规模支持与Agent训练能力两方面,需能高效支撑参数量较大的SOTA模型,并处理多轮工具调用的复杂交互 [7] - 工业级Agentic模型研发对整体技术栈要求极高,包括沙盒环境、高性能高并发调度运行能力及稳定的高并发搜索API支持 [7] - 强化训练的本质是激发和稳定模型在特定场景中的既有能力,首要前提是基座模型本身在目标场景上具备优势,通常源于预训练阶段的数据分布 [8] - 强化学习过程中,生成尝试路径(Rollout)通常占据80%—90%的时间成本,能否以高吞吐方式高效完成Rollout是成败关键 [9] - 强化训练的样本规模已可扩展到百万级,系统性地提升了模型推理和复杂问题解决能力 [10] - 大规模多场景强化训练的前提是结果评估能准确自动完成且最好有稠密的评估奖励反馈,这在代码或数学等评估相对确定的场景中相对容易实现 [11] 多模态模型的技术进展与局限 - 视觉生成主流模型框架从Diffusion Model发展到Flow Matching,效果、稳定性碾压前代方案 [3] - 视觉理解模型仍以ViT Encoder嫁接语言模型的主流方案为主,模型能力迭代主要聚焦在垂直方向的数据合成 [3] - 当前未真正实现多模态理解和生成的统一建模,分开独立优化效果依旧优于融合建模 [3] - 多模态模型核心是在语言模型基础上引入视觉能力,主流方案是在语言模型训练到一定阶段后,引入视觉编码器并用图文对齐数据联合训练 [17] - 视觉信号信息密度较低,仅依赖视觉输入进行大规模训练难以达到语言模型效果,现有方案高度依赖图文对齐数据 [17] - 行业可用的图文对齐数据规模大致在3–5T token,量级上存在明显差距,限制了多模态模型的进一步scale [18] - 生成与理解的统一建模是重要方向,但现阶段融合后的效果还不如单独优化 [21][23] 模型架构与能力扩展的关键方向 - 稀疏MoE架构被广泛应用,其核心是解决Scaling Law问题,在增大模型总参数的同时,让训练和推理实际使用的参数规模保持次线性增长 [15] - 稀疏MoE的稀疏比已做到5%甚至更低,成为推动模型规模继续扩展的现实可行方案 [16] - 长上下文能力与Agent能力直接相关,上下文长度决定了模型能记忆和理解的信息规模 [13] - 业界探索通过Agent脚手架本身“放大记忆”的方案,借助工具使用来弥补上下文长度的限制 [13] - 长上下文能力的关键是模型能否准确理解高效处理,依赖高效的注意力机制设计和实现,可采用稀疏化策略或分块筛选方案 [14] - “世界模型”存在多种理解,一种是通过建模理解物理世界的运行规律,另一种是强调代码能力和工具调用能力 [26] 未来趋势与演进路径 - 2025年明显方向是Agentic Model,即模型具备稳定、准确的工具调用能力,代码场景已率先验证,明年该能力很可能扩展到更多应用场景 [28] - 面对复杂环境,可行方案是让模型在特定场景的Agent脚手架中学会熟练使用该场景所涉及的相对有限的工具集合 [29] - 通用人工智能的实现路径存在分歧,一种是将多种能力融合到单一模型中,另一种是强调模型学会使用工具,当前没有看到哪条路一定能走通 [25] - 在特定专业场景中不断提升模型和Agent能力,使其在局部任务上超过人类水平,在相当长一段时间内仍将是主流方向 [12]
雷军:小米车主都是眼里有光、心里有火、对生活充满热爱的一群人
新浪财经· 2026-01-16 09:41
公司业绩与市场表现 - 小米汽车累计交付量已达50万台 [1][2][8] - 根据汽车之家统计,小米SU7是2025年20万以上轿车销量第一 [2][8] - 小米YU7上市6个月,连续5个月获得中大型SUV销量第一 [2][8] 促销与用户权益政策 - 2026年1月16日至2月28日期间,下定YU7全系和第一代SU7现车可享受“7年低息”政策,首付4.99万元起,月供低至2593元起 [2][8] - 同期提供“3年0息”选项,首付7.49万元起,月供最低4961元,0息0手续费 [2][8] - 小米YU7新增“全系限时赠送双零重力座椅”权益 [2][8] - 车主邀请好友小订并锁单新一代SU7,可获8000积分,每人每年最多10次 [2][8] 智能驾驶研发进展 - 小米汽车智能驾驶团队规模超过1800人,并设立了北京、上海、武汉三大研发中心 [3][9] - 最近推送的小米HAD增强版引入“强化学习算法”和“世界模型”,受到车主好评 [3][9] - 公司决定在下次OTA软件升级中,下调辅助驾驶的安全里程要求,以响应用户降低1000km解锁门槛的呼吁 [3][9] 新一代SU7产品信息 - 新一代SU7预计将于4月正式上市,目前正在路测,展车进店在筹备中 [2][6][8][12] - **轮毂**:提供1款19英寸、3款20英寸和2款21英寸轮毂,梅花轮毂做了双层锻造设计升级,新增的锋刃轮毂可选车漆同色设计 [5][10] - **车漆颜色**:共有9个颜色,保留霞光紫、雅灰、璀璨洋红、珍珠白四款经典色,引入YU7和Ultra的曜石黑、流金粉,并有三款全新专属颜色(包括已公布的卡布里蓝) [5][10][11] - **内饰**:延续迷雾紫、暮光红两款经典内饰色,新增暗夜黑,后续将公布一款浅色调内饰和一款特殊拼色设计内饰,中控台布局改为横向左右对称,软包覆盖面积更大,环绕氛围灯升级为双层设计 [5][11] - **续航与平台**:大幅升级电子架构,全系长续航,Pro版CLTC续航可达902km,标准版和Pro版最高电压升级到752V,全系采用碳化硅高压平台,Max版搭载三元锂电池,最高电压提升至897V,充电效率更高 [5][11] - **电机**:V6s Plus超级电机的CLTC综合效率提升1.5%,最大功率上,标准版提升15kW、Max版提升13kW,未来部分V6s Plus电机将由小米自产自制,成为小米自产的第二款电机 [6][11] - **车重与性能**:新一代SU7车重有所增加,源于安全和驾驶方面的升级,公司表示增配好处远大于重量变化,续航和驾驶表现实现了全面进步 [6][11] - **辅助驾驶硬件**:新一代SU7全系标配激光雷达、全系4D毫米波雷达、全系提供700TOPS辅助驾驶算力 [6][12]
雷军直播中爆料新一代SU7:预计4月正式上市
新浪财经· 2026-01-16 00:20
公司市场表现与销售政策 - 小米SU7是2025年20万以上轿车销量第一 小米YU7上市6个月连续5个月获得中大型SUV销量第一 小米汽车已达成50万台交付 [1] - 2026年1月16日至2月28日期间 下定YU7全系和第一代SU7现车可享受“7年低息”政策 首付4.99万元起 月供低至2593元起 同期提供“3年0息”选项 首付7.49万元起 月供最低4961元 0息0手续费 [1] - YU7全系限时赠送双零重力座椅 车主邀请好友小订并锁单新一代SU7可获8000积分 每人每年最多10次 [1] 智能驾驶与软件更新 - 小米汽车智能驾驶团队超过1800人 设立北京 上海 武汉三大研发中心 近期推送的HAD增强版引入“强化学习算法”和“世界模型” [2] - 公司决定在下次OTA软件升级中下调辅助驾驶的安全里程要求 以回应用户降低1000公里辅助驾驶解锁门槛的呼吁 [2] 新一代SU7产品信息 - 新一代SU7提供1款19英寸 3款20英寸和2款21英寸轮毂 梅花轮毂采用双层锻造设计升级 新增的锋刃轮毂可选车漆同色设计 [3] - 新车提供9种车漆颜色 保留霞光紫 雅灰 璀璨洋红 珍珠白 引入曜石黑 流金粉 并有三款全新专属颜色 包括已公布的卡布里蓝 [3] - 内饰保留迷雾紫和暮光红 新增暗夜黑 后续将公布一款浅色调内饰和一款特殊拼色设计 中控台布局改为横向左右对称 保留物理按键 软包覆盖面积更大 氛围灯升级为双层设计 [3] - 新一代SU7大幅升级电子架构 全系长续航 Pro版CLTC续航达902公里 标准版和Pro版最高电压升级至752V 全系采用碳化硅高压平台 Max版搭载三元锂电池 最高电压提升至897V 充电效率更高 [3] - V6sPlus超级电机的CLTC综合效率提升1.5% 标准版最大功率提升15kW Max版提升13kW 未来部分V6sPlus电机将由小米自产自制 成为公司自产的第二款电机 [4] - 新一代SU7车重有所增加 源于安全和驾驶方面的升级 公司表示增配好处远超重量变化 续航和驾驶表现实现全面进步 [4] - 新一代SU7全系标配激光雷达 全系4D毫米波雷达 全系700TOPS辅助驾驶算力 以提升安全辅助功能性能 [4] - 新一代SU7预计4月正式上市 公司提醒最终信息以工信部公告 发布会和官网为准 [4]
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
具身智能之心· 2026-01-15 08:32
文章核心观点 - 1X公司为其人形机器人NEO推出了全新的“1X World Model”大脑,标志着机器人控制范式从依赖海量机器人数据训练的传统视觉语言动作模型,转向了基于互联网规模视频预训练的世界模型,使机器人能够通过“想象”任务过程来规划动作,显著提升了对新任务和环境的泛化能力 [4][6][13] 1X World Model的技术原理与架构 - 技术范式转变:1XWM是一种基于视频预训练的世界模型,与直接从图像-语言输入预测动作的VLA模型不同,它通过文本条件下的视频生成来推导机器人动作,从而能够利用互联网视频中的真实世界动力学规律,无需大规模机器人数据预训练即可泛化到新物体、新运动和新场景 [12][13] - 核心组件:系统包含一个140亿参数的文本条件扩散模型作为世界模型主干,以及一个逆动力学模型,前者负责高保真预测场景演化,后者负责从生成视频中提取精确的动作序列 [18][19] - 训练流程:采用多阶段训练策略,先在互联网规模视频数据上预训练,再用900小时人类第一视角视频进行中期训练,最后用70小时NEO机器人数据进行具身微调,以适配其视觉外观与运动学特性 [18][20] 1X World Model的能力与表现 - 任务泛化:搭载1XWM的NEO能够执行超出既有训练经验的任务,包括抓取分布内与分布外的物体、操作具备复杂可供性的新物体,以及完成需要全新动作模式的任务,如清洁和双手协调操作 [25][26][28][30] - 执行一致性:模型生成的视频与机器人实际执行过程在视觉表现上高度一致,表明其在空间结构理解、运动学约束建模及物理一致性方面具备较强能力 [25][26] - 成功率评估:在系统性实物实验中,1XWM在多种动作原语上保持了稳定的成功率,但倒液体、绘图等对精细操作要求高的任务仍具挑战性,每类任务重复执行30次 [32] - 质量与成功率关联:生成视频的质量与任务成功率存在相关性,例如生成错误视频时成功率几乎为0,通过并行生成多个视频并选择质量最佳者(可借助VLM评估器自动化),可提高任务成功率 [34] 关键训练要素与消融分析 - 字幕上采样:利用VLM为第一视角数据集生成更详细的描述性字幕用于训练,在所有评测数据集上均提升了视频生成质量,因为更细致的字幕与视频模型预训练时的文本条件更匹配,能更清晰引导动作生成 [18][36][41] - 第一视角人类数据:引入900小时人类第一视角视频进行中期训练,显著提升了模型在新任务和分布外场景下的生成质量,为操作任务提供了可迁移的通用先验,且与NEO的类人具身高度契合 [20][36][41] - 数据平衡:在已有大量NEO数据覆盖的分布内任务上,额外加入第一视角人类数据可能会稀释后训练数据分布,对效果提升有限甚至略有负面影响 [42] 市场热度与行业意义 - 技术演示引发高度关注:1XWM的发布推文浏览量已突破500万,显示市场对机器人智能范式进步的高度兴趣 [8] - 行业意义:该技术标志着机器人智能开始直接受益于视频预训练的规模化能力跃迁,为实现通用家庭机器人提供了新的技术路径,其成功离不开为高保真人类具身到机器人具身迁移而设计的整套硬件系统支持 [13]
当世界模型、VLA和强化学习三者结合起来,能取得什么惊艳效果?
具身智能之心· 2026-01-15 08:32
行业技术背景与挑战 - 视觉-语言-动作模型在通用机器人操作任务中展现出强劲潜力 但其对专家演示数据的依赖使其难以从失败中学习并实现自我修正 [2] - 强化学习通过与物理环境的自主交互可实现模型自我提升 能弥补VLA模型的缺陷 但直接应用于真实机器人时面临样本复杂度极高的问题 [2] WMPO方法的核心创新 - WMPO是一种基于世界模型的策略优化方法 构建了一套无需与真实环境交互的在线策略VLA强化学习框架 [3] - 与主流的潜态世界模型不同 WMPO聚焦于基于像素的预测任务 使“想象”轨迹与经大规模网络图像预训练的VLA特征保持对齐 [3] - 该方法支持策略执行在线策略GRPO优化 相比常用的离线策略方法性能更优 [3] WMPO方法的实验优势 - 在仿真环境与真实机器人场景的大量实验表明 WMPO能显著提升样本效率 [3] - 该方法能实现更优的整体性能 [3] - 该方法能涌现出自我修正等创新行为 [3] - 该方法具备稳健的泛化能力与终身学习能力 [3]
中美AI巨头都在描述哪种AGI叙事?
腾讯研究院· 2026-01-14 16:33
文章核心观点 - 2025年人工智能领域的技术发展标志着“暴力美学”时代的终结,行业从单纯依赖堆砌参数转向深化基础研究,以突破通用人工智能的瓶颈 [5] - 技术进步主要集中在流体推理、长期记忆、空间智能和元学习四大领域,旨在解决模型在即时推理、长期记忆和视觉处理等方面的能力偏科问题 [6] - 通过测试时计算、新型记忆架构、世界模型和元学习等方向的突破,行业在“补短板”方面取得了显著成功,为模型能力的整体提升和未来演进奠定了基础 [7] 流体推理的进化 - **测试时计算的范式革新**:智能被重新定义为不仅是参数的函数,也是时间的函数,以OpenAI o1和DeepSeek R1为代表的模型通过在推理阶段投入更多计算资源进行“慢思考”,实现了推理能力从0到8的质变 [11][12][13] - **强化学习工程优化**:强化学习在提升推理能力中扮演关键角色,其工程可拆分为探索策略、评分系统和参数更新算法三部分,2025年后两部分有明显发展 [15] - **评分系统革新**:基于可验证奖励的强化学习和稀疏奖励指标全面崛起,通过给予模型对错结论作为奖励信号,使其能自发探索推理过程,大幅提升了在数学、代码等领域的能力 [16][17] - **参数更新算法革新**:GPRO算法流行,它通过让模型生成一组答案并计算平均分来替代传统的评论家模型,节省了50%的显存,成为国内各家公司在2025年延展的基础框架 [19] - **强化学习存在天花板**:研究发现强化学习的性能增长符合S型曲线而非幂律,存在性能天花板,但其工程实践(如使用长思维链和大批量大小)已变得更加精确和可预测 [21][23] 记忆与学习 - **记忆能力是短板**:长期记忆存储是通往通用人工智能得分中仍为0的能力分支,缺乏记忆导致模型无法在现实中自我学习,且个性化体验难以实现 [25][26] - **Titans架构突破**:这是一个深度的神经长期记忆模块,能在推理时实时更新自身参数,根据输入信息的“惊奇度”决定存储内容,并引入遗忘机制,从根本上挑战了Transformer的无状态假设 [28][29][30][31] - **Nested Learning架构**:将模型参数按低、中、高频率分层更新,使整个模型参数非冻结,能够持续学习和保有长期记忆,其成本低于传统的监督微调和强化学习方法 [31][33] - **RAG的模型化演进**:检索增强生成系统从静态资料库演变为具备反思与进化能力的系统,例如ReMem引入了“行动-思考-记忆-优化”的全链路处理,能对记忆进行修剪、重组和清理,实现经验复用 [35][36][38] - **克服灾难性遗忘**:通过稀疏记忆微调等方法,模型在注入新知识时仅更新部分参数槽位,在TriviaQA任务中仅导致11%的旧知识遗忘,远优于全量微调的89% [39][40] - **策略蒸馏进步**:在策略蒸馏结合了强化学习的采样和监督微调的密集反馈,让学生模型在自己的“犯错分布”中学习,提供了一种低成本且避免遗忘的参数更新方式 [42] 空间智能与世界模型 - **视觉处理能力提升**:在Sora 2、Veo 3等视频生成模型爆发的推动下,视觉处理能力从2024年的0分提升至2025年的5分,模型开始展现出对物理规律的掌握 [45] - **自监督生成模型的缩放定律**:视觉自回归模型和扩散Transformer被证实遵循特定的缩放定律,例如DiT模型对批量大小和学习率高度敏感,但遵循特定定律后能力可大幅提升 [46][47] - **原生多模态的优势**:研究发现,尽管训练效率较低,但原生多模态架构在参数利用率上可能比晚期融合架构有更高的性能上限 [49] - **VAE的替代方案**:SVG模型通过直接用图像理解模型代替变分自编码器,统一了语义空间,据称训练效率提升6200%,并在多项指标上击败了扩散Transformer和SDXL [50] - **符号主义的世界构建**:以李飞飞团队Marble平台为代表,其基于3D高斯泼溅等技术,从多模态输入生成可探索的3D空间表示,追求更稳定和可控的生成效果 [53][55][56] - **预测即理解的路径**:Meta的V-JEPA 2通过预测被遮挡的视觉内容来学习物理规则的表征,在使用超100万小时视频训练后,模型展现出了反事实预测的能力 [57][58][59] 元学习 - **元学习的核心价值**:赋予模型“学习如何学习”的能力,使其能通过少量样本快速适应新问题,是实现低成本快速适应和应对未知世界的关键 [62][63] - **对上下文学习的重新审视**:有研究认为上下文学习可能只是激活了预训练知识而非真正学习,这与元学习理念不同,但2025年出现了利用改进的上下文框架进行元学习的新尝试 [64][65] - **测试时计算催生隐式元学习**:研究证明模型在推理时的长思维链探索本质上是寻找最优路径,通过优化探索策略(如最小化累积遗憾)可以引导模型学会如何分配算力进行有效思考 [66][69] - **显式元学习系统的探索**:例如DiscoRL系统,通过内外双层循环让AI自主发现学习算法,其发现的Disco57算法在雅达利基准上击败了人类设计的顶级算法,并展现出强大的泛化能力 [70][72] - **中训练路径**:介于预训练和强化学习之间,让智能体通过自主探索产生后果并反思,以建立因果模型,在复杂环境中的成功率平均提升9.6% [72][73] 其他关键技术进展 - **对抗数据与算力瓶颈**:行业通过混合专家模型、合成数据与强化学习结合来突破瓶颈,例如利用DeepSeek-R1生成的长思维链数据对小模型微调,效果优于人类专家编写的数据 [81][82] - **数据质量重于数量**:研究表明数据达到一定规模后存在冗余,筛选前10%最长、最复杂的推理路径样本进行训练,其效果可匹配甚至超越全量数据集 [83] - **合成数据与模型崩溃**:大规模使用合成数据可能导致模型崩溃,但通过自我验证机制过滤(如设定置信度阈值)或使用另一个模型作为裁判进行清洗,可以有效缓解此问题 [85][86] - **小模型能力的飞跃**:蒸馏技术的进步是关键,包括针对混合专家模型的特化蒸馏方案(学习所有专家的“暗知识”)以及思维融合蒸馏(提取多个教师模型的稳健推理逻辑) [88][90][92] - **注意力机制演进**:多头潜在注意力及其变体普及,用于降低显存占用;线性注意力通过混合架构(如Kimi Linear的3:1设计)在性能上首次全面超越全注意力,并在1M上下文解码时吞吐量达到全注意力的6.3倍 [94][96] - **连续空间建模**:大型概念模型和连续自回归语言模型等尝试打破离散词元的限制,通过预测连续概念向量来提升语义带宽和推理速度 [97][100] 2026年可能的技术方向 - **记忆工程化实践**:记忆技术预计将在2026年迎来大规模工程化落地,涉及架构层革新或现有RAG、监督微调技术的精修,以实现持续学习和个性化智能体 [103][104] - **标准架构变革**:模型架构可能向分区、分层、增加功能层(如记忆层)的混合架构演进,以更贴近人脑运作模式,补齐能力短板 [105][106] - **自进化AI的探索**:在记忆、合成数据和元学习等技术完善的基础上,能够让AI进行自我对弈、自我算法优化的自进化研究将在2026年产生更多可能性 [107][112]
全球首个“飞行街景”亮相——不再是想象抵达,而是所见即所得
科技日报· 2026-01-14 15:24
公司核心技术与产品 - 高德自研世界模型在国际权威评测基准WorldScore上综合得分位列第一 [1] - 公司推出“飞行街景”功能 依托自研世界模型和“物理AI”技术 实现沉浸式、可交互的线上实景导航与探店体验 [1] - “飞行街景”通过高拟真数字还原技术 可实现连续、动态且近乎真实的体验 用户可沉浸式俯瞰店铺内外部实景并提前体验沿途风景、停车条件等细节 [1] - 该功能旨在跨越线上信息与线下体验之间的鸿沟 让用户在出发前拥有“亲临其境”的感受 [1] - 对商家而言 “飞行街景”大幅降低了数字化展示门槛 提供高效、真实的新型展示方式 [1] - 传统制作一家店的数字实景需专业设备与人员 耗时数日 现在商家只需用手机拍摄一段短视频和几张照片 最快几个小时内就能自动生成实景店铺 [1] 公司市场与生态策略 - 公司同步推出“百万烟火好店支持计划” 将投入价值数亿元的算力资源 面向100万家商家免费开放“飞行街景” [2] - 该计划上线仅48小时 报名预约的商家数就已超过35万家 [2] - “飞行街景”功能已从餐饮延伸至文旅领域 故宫博物院等景点的“飞行街景”相继上线 [3] 产品功能与用户体验 - “飞行街景”为用户提供了一种沉浸式、交互式的线上探索新方式 实现“所见即所得” [2] - 用户可沉浸式俯瞰店铺全貌、在线体验靠窗座位 还能查看停车位情况 [2] - 该功能能带领用户直达深巷中的口碑好店 降低“踩雷”概率 [2] - 环境可视化促使商家更加注重卫生与环境细节 逐步构建更可信的消费场景 实现用户与商家的共赢 [2] - 用户足不出户即可“云游”实景景点 拓展了数字文旅的互动体验 [3] 行业技术与应用定位 - “飞行街景”是“物理AI”在生活服务领域的典型应用 [2] - “物理AI”指让自主系统具备在物理世界中完成感知、理解、推理并能执行或协调复杂动作的能力 简言之是让机器不仅能“看见”和“思考” 更能“动手”和“协作” [2] - 公司首次将世界模型用于普惠生活服务行业 在全球范围内开创了先河 [1]
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
36氪· 2026-01-14 10:17
1X公司技术发布 - 1X公司为其NEO机器人发布了全新的“1X World Model”大脑,旨在通过让机器人学会“想象”来解放背后的操作员[2] - 该技术使NEO能够通过观看海量网络视频和人类第一视角录像来理解物理世界运作规律,并利用类似Sora的视频生成技术,在接到指令时先在脑海中生成成功完成任务视频,再倒推执行动作[2] - 官方承认技术存在“脑子学会了,手没学会”的情况,即生成的想象视频完美,但实际动作可能失败[2] 市场关注与热度 - 该技术发布引发了极高关注,截至截稿时,其官方推文浏览量已突破500万次[3] 技术范式与核心创新 - 1X提出的世界模型(1XWM)标志着机器人智能范式的转变,它通过文本条件下的视频生成来推导动作,使机器人能直接受益于互联网规模视频预训练带来的能力跃迁,而无需依赖大规模、高成本的机器人数据预训练[8][9] - 该技术旨在解决当前主流视觉语言动作模型在物理动态过程预测和空间关系理解上的不足,这些模型通常需要数万小时的机器人数据才能学会简单任务[8] 技术架构与训练流程 - 1XWM采用两阶段对齐过程:首先训练一个能高保真预测场景演化的世界模型主干(文本条件扩散模型),然后训练一个逆动力学模型将像素空间与执行器控制连接,预测精确动作序列[10][11] - 世界模型主干基于一个140亿参数的生成式视频模型,并采用多阶段训练:先用900小时人类第一视角视频进行中期训练,再用70小时机器人数据进行微调[12] - 逆动力学模型在400小时未过滤的机器人数据上训练,包含随机探索和无关任务的运动轨迹[12] - 为提升模型对提示词的遵循能力,1X利用视觉语言模型为第一视角数据集生成更详细的描述性字幕用于训练[12] 性能与能力评估 - 搭载1XWM的NEO能执行多种超出既有经验的任务,包括抓取分布内与分布外物体、操作具备复杂可供性的新物体、以及完成需要全新动作模式的任务[16] - 实验显示,1XWM生成的视频与真实世界执行过程在视觉表现上高度一致,表明其在空间结构理解、运动学约束建模及物理一致性方面具备较强能力[16] - 系统性实物实验(每类任务重复30次)显示,1XWM在多种动作原语上保持稳定成功率,但对倒液体、绘图等精细操作任务仍具挑战性[17] - 研究团队发现生成视频质量与任务成功率存在关联,并尝试通过并行生成多个视频并执行质量最好的一个(可通过VLM评估器自动化选择)来提高成功率[19] 关键训练要素分析 - 字幕上采样在所有评测数据集上都能提升视频生成质量,因为更细致的字幕与预训练文本条件更匹配,能更清晰引导动作生成[24] - 引入第一视角人类数据显著提升了在新任务和分布外场景下的生成质量,为操作任务提供了可迁移的通用先验[24] - 在已有大量NEO数据覆盖的分布内任务上,额外加入第一视角数据可能稀释后训练数据分布,对效果提升有限甚至略有负面影响[24] 训练数据构成 - NEO的后训练数据集主要包含高质量的抓取和放置数据,占比达98.5%,这些数据经过筛选,仅包含桌面操作且手部可见的场景[15]
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
机器之心· 2026-01-14 09:39
1X公司技术突破:NEO机器人引入世界模型 - 公司推出基于视频预训练的世界模型1XWM,并将其集成至人形机器人NEO中,标志着其从依赖远程操控或死记硬背动作,转向具备通过“想象”来规划行动的能力[3][4] - 该技术使NEO能够通过观看海量网络视频和人类第一视角录像来理解物理世界运作规律,并在接到指令时,先在脑海中生成一段“成功完成任务”的视频,再倒推出具体动作[4] - 官方承认技术存在“脑子学会了,手没学会”的挑战,即生成视频完美但实际动作可能失败的情况[5] - 相关推文在截稿时浏览量已突破500万,显示市场关注度极高[6] 技术范式:从VLA到世界模型 - 当前许多机器人基础模型采用视觉-语言-动作范式,其视觉语言模型侧重于语义理解,缺乏对物理动态的预测,导致学习简单任务也需要数万小时昂贵的机器人数据[10] - 1XWM采用世界模型驱动策略,通过文本条件下的视频生成来推导机器人动作,其核心优势在于能够借助互联网规模视频学习真实世界动力学,无需大规模机器人数据预训练或遥操作演示,即可泛化到新物体、新运动和新任务场景[11] - 这被视为机器人智能范式的一次转变,使机器人能直接受益于视频预训练的规模化能力提升[11] 1X世界模型的技术架构与训练 - 1XWM主干是一个140亿参数的文本条件扩散模型,训练分为三阶段:先在互联网规模视频数据上预训练,再用900小时人类第一视角视频进行中期训练,最后用70小时NEO机器人数据进行具身微调[16][18] - 公司采用多阶段训练策略,并利用视觉语言模型为简要的第一视角任务描述生成更详细的描述性字幕,通过“字幕上采样”提升模型对提示词的遵循能力[16] - 模型包含世界模型主干和逆动力学模型两部分:世界模型负责高保真预测场景演化;逆动力学模型则负责从生成帧中预测出精确的动作序列,并施加运动学约束以确保动作可行性[17] - 逆动力学模型在400小时未过滤的机器人数据上训练,使其能准确追踪NEO在任意状态下的运动[16] 模型能力与实验评估 - 实验评估显示,搭载1XWM的NEO能够执行多种超出既有经验的任务,包括抓取分布内与分布外的物体、操作具备复杂可供性的新物体,以及完成需要全新动作模式的任务[24] - 在需要双手协调和人机交互的任务上,NEO也展现出能力,表明此类知识来源于视频预训练和第一人称视角的人类交互训练,并因其类人身体结构而得以直接迁移[28] - 系统性实物实验显示,1XWM在多种动作原语上保持稳定成功率,但对倒液体、绘图等精细操作任务仍具挑战性[30] - 研究团队通过并行生成多个视频并执行质量最好的一个来提升成功率,该选择过程可手动完成,也可使用视觉语言模型评估器自动化[32] 关键训练要素分析 - 消融分析证实,“字幕上采样”在所有评测数据集上都能提升视频生成质量,因为更细致的字幕与预训练文本条件更匹配,能更清晰引导动作生成[39] - 引入第一视角人类数据显著提升了在新任务和分布外场景下的生成质量,说明这类数据为操作任务提供了可迁移的通用先验[39] - 然而,在已有大量NEO数据覆盖的分布内任务上,额外加入第一视角数据可能会稀释后训练数据分布,对效果提升有限甚至略有负面影响[40] - 后训练数据集主要包含高质量的桌面抓取和放置数据,占比98.5%[21]
全球首个“飞行街景”亮相
环球网资讯· 2026-01-14 09:35
公司技术突破与产品创新 - 高德自研世界模型在国际权威评测基准WorldScore上综合得分位列第一 [1] - 公司推出“飞行街景”功能,依托自研世界模型,通过“物理AI”实现沉浸式、可交互的线上探店与实景导航体验 [1] - “飞行街景”利用高拟真数字还原技术,提供连续、动态且几乎真实的体验,用户可沉浸式俯瞰店铺内外部实景并提前体验沿途风景、停车条件及餐厅包厢环境等细节 [1] 产品价值与市场策略 - “飞行街景”旨在跨越线上信息与线下体验的鸿沟,让用户在出发前获得“亲临其境”的感受 [1] - 该功能为商家提供了高效、真实的新型数字化展示方式,大幅降低展示门槛 [1] - 公司推出“百万烟火好店支持计划”,将投入价值数亿元的算力资源,面向100万家商家免费开放“飞行街景” [2] - 该计划上线仅48小时,报名预约的商家数就已超过35万家 [2] 技术实现与行业影响 - “飞行街景”是“物理AI”在生活服务领域的典型应用 [2] - “物理AI”使自主系统具备在物理世界中感知、理解、推理并执行或协调复杂动作的能力 [2] - 传统制作一家店的数字实景需专业设备与人员,耗时数日,现在商家仅需用手机拍摄一段短视频和几张照片,最快几个小时内就能自动生成实景店铺 [1] 用户体验与场景拓展 - “飞行街景”为用户提供沉浸式、交互式的线上探索新方式,实现“所见即所得” [2] - 功能可帮助用户沉浸式俯瞰店铺全貌、在线体验靠窗座位、查看停车位情况,并直达深巷中的口碑好店,降低“踩雷”概率 [2] - 环境可视化促使商家更加注重卫生与环境细节,逐步构建更可信的消费场景 [2] - “飞行街景”已从餐饮延伸至文旅领域,故宫博物院等景点的“飞行街景”已上线,用户可足不出户“云游”实景 [3]