Workflow
世界模型
icon
搜索文档
春晚“假摔”以后,63万元机器人被秒抢
凤凰网财经· 2026-02-17 20:08
文章核心观点 - 2026年春晚成为中国机器人产业发展的一个关键临界点,标志着行业从技术单点展示转向产业集体阅兵,并引发了市场热情的集中爆发[1][2][3] - 机器人表演从追求稳定性转向服务剧情和艺术表达,技术的拟人化和情感温度成为打动消费者的关键,推动了从娱乐展示到潜在家庭应用场景的认知转变[2][4][5] - 尽管春晚带来了立竿见影的市场热度与资本关注,但行业仍处于早期阶段,面临“大脑”(通用智能)、成本、技术路径选择等多重挑战,大规模商业化落地仍需时日[16][17][18][20] 从独舞到群像:2026年春晚的产业集体亮相 - 2026年春晚是机器人行业的团体赛,松延动力、宇树科技、魔法原子、银河通用四家国产企业首次联袂登台,横跨四个节目,是春晚史上机器人阵容最庞大的一次亮相[3] - 表演内容多样:松延动力机器人表演后空翻,宇树科技G1表演“醉拳”摔倒与自主站起,魔法原子Z1与明星共舞,银河通用机器人展示收拾碎杯、夹烤肠等精细操作[3] - 技术展示重点转变:从2025年《秧BOT》的简单队形变换,升级为对动态平衡、精细动作、运动流畅性与拟人化交互等更深层能力的展示[3][4][9] 技术拟人化与情感共鸣点燃市场热情 - 宇树科技机器人的“故意摔倒”展示了在将倒未倒之间对动态平衡的极致掌控,动作行云流水“太像人”,技术开始服务于艺术表达和叙事[2][4] - 松延动力机器人“1:1复刻蔡明”,展示了在表情、精细动作方面更高的自由度与平顺度,引发了观众关于机器人用于养老看护、情感陪伴的家庭场景联想[7][9] - 冰冷的机械被赋予江湖豪气和情感温度,当机器人学会用拟人化的方式讲故事,技术逐渐有了温度,拉近了与消费者的距离[5] 春晚效应立竿见影:市场热度与销售爆发 - 马年春晚开播两小时内,京东平台机器人搜索量环比增长超300%,客服问询量增长460%,订单量增长150%,新增订单覆盖全国100多座城市[2] - 除夕晚10点京东上架春晚同款机器人后,魔法原子、宇树科技、松延动力等品牌机器人几分钟内被抢购一空[11] - 银河通用两台价值近63万元人民币(未补贴价69.99万元)的Galbot G1被瞬间抢购,该型号近300台被连夜加购,公司已紧急调配产能保障交付[12] - 魔法原子春晚同款机器熊猫售价2026元,已显示售罄[12] 行业现状与商业化挑战:掌声背后的冷思考 - 行业仍处早期阶段,“大脑”(通用人工智能)是制约产业商业化的核心因素,缺乏足够数据训练是主要瓶颈[18] - 现有产品性能尚未完全满足下游客户实际需求,导致有效订单与采购意愿不足[18] - 2025年全球人形机器人出货量为1万多台,分析师保守判断2026年出货量约为3万台,预计到2030年达到15万台左右,2035年可能突破100万台[18] - 应用场景正从娱乐展示向工业、商业服务拓展,例如高校教学、新零售、药品分拣、加油站能源加注等,但对通用性要求较低[19] - 深度服务业与家庭场景需要完成更复杂任务,对技术、成本和可靠性要求更高,大规模落地仍需时日[20] 主流技术路径及其面临的挑战 - 行业分化出三条主流技术路径:VLA(视觉语言动作)模型路线、世界模型路线、分层决策与软硬件协同路线[20] - VLA路线优势在于强大的语义理解能力,短板在于物理精度和安全约束保障难、推理延迟高、模型可解释性和系统验证难度大[20] - 世界模型路线需要高保真仿真和复杂动力学建模,依赖庞大算力与成本投入,且构建覆盖现实世界复杂性的多样化仿真环境是挑战[20] - 分层决策路线在复杂任务的系统集成和实时性上面临考验[20] - 续航功耗、实时响应能力与维护成本,成为检验所有技术路线的试金石[20] 资本动态与未来展望 - 春晚成为机器人企业的超级路演舞台,多家企业已完成股改或被传筹备上市,2026年预计将迎来一波上市潮[16] - 行业迈过“会跳舞就能卖爆”的野蛮生长阶段,最终必须形成可交易的产品才能产生经济价值[19] - 机器人正在走入真实世界,接受远比舞台更严苛的考验[20]
让我们投入10万亿美元发展改善现实世界的AI,而不只是优化广告
新浪财经· 2026-02-17 17:25
文章核心观点 - 当前对人工智能的巨额投资应更多导向改造现实世界(线下经济)的技术,而非仅用于生成娱乐和广告内容 [2][3][4] - 人工智能需要突破“屏幕”限制,获得对物理世界的认知、交互和行动能力,才能在未来全球经济中释放真正价值 [5][16] - 空间智能(大型地理空间模型)是让AI融入并改造现实世界的关键拼图,与物理AI、世界模型等共同构成一个蓬勃发展的生态系统 [8][9][17][20] AI投资规模与现状 - 自OpenAI成立以来,全球已投入约1万亿美元发展AI,且投资额仍在每日增长 [3][14] - 很大一部分投资流向芯片、服务器、数据中心和电力等基础设施 [3] - 分析师预计到2030年,AI总投资可能达到10万亿美元,而同期全球GDP预计超过150万亿美元 [3][14] - 建设AI基础设施正在消耗大量自然资源,包括石油、天然气和宝贵的淡水 [3][15] 线上与线下经济结构 - 线上商品与服务约占全球经济的20%,AI可优化此部分的广告、社交、游戏及多种白领工作 [4][15] - 全球经济另外80%存在于现实世界,涵盖能源、农业、制造业、建筑、交通与物流等行业 [4][15] - 这些线下经济活动涉及开采、提炼、种植、组装、合成、运输“实物”,支撑人类基本生活需求 [4][15] AI融入现实世界的挑战与机遇 - AI目前对数据中心外的物理世界(如工厂、农田、城市)缺乏认知和交互能力 [5][16] - 让AI在现实世界发挥作用,需要赋予其关于世界的知识、交互能力及能在物理世界行动的载体(“大脑”和“身体”) [5][16] - 仅靠大语言模型(LLM)不足以实现此愿景,需要物理AI模型、世界模型和空间模型的协同发展 [6][17] - 英伟达CEO黄仁勋称人形机器人为“下一个数万亿美元级产业” [6][17] - 物理AI领域的模拟与迁移学习突破,正让机器人获得操控现实物体的新技能 [6][17] - 世界模型让模拟训练更简单、真实,能创造无限多样的合成训练环境 [6][17] 空间智能与地理空间模型的作用 - 空间智能是让AI对现实世界进行推理、规划和行动前必须“认识”世界的关键 [8][19] - Niantic Spatial公司正在构建大型地理空间模型,这是一张为机器人和AI原生设计的“活的”世界地图 [8][19] - 该地图旨在帮助机器人导航与任务规划,例如规划城市安全路线、在崎岖地形运输物资、在工地或工厂内移动作业 [8][19] - 该地图也能帮助AI智能体解决复杂现实问题,如计算火灾风险或优化城市生活质量 [8][19] - 该公司目标是将此地理空间模型打造为未来AI的基石之一,与物理AI模型、世界模型及众多机器人公司共同构成生态系统 [9][20] 行业发展趋势与公司动向 - 未来两个月,Niantic Spatial将发布新版模型,能够以人类可交互的方式重建现实,并让机器实现毫米级精度的“看见”与导航 [11][21] - 未来版本还将加入更深层次理解、规划与解决问题所需的语义信息 [11][21] - 该领域正形成蓬勃发展的生态系统,参与者包括Physical Intelligence、Skild AI、Flexion Robotics(物理AI模型)、World Labs、General Intuition、英伟达(世界模型),以及波士顿动力、Agility Robotics、Apptronik等机器人公司 [9][20]
AI视频行业深度报告:技术跃迁驱动内容革命,把握产业变革新机遇
中邮证券· 2026-02-14 18:32
报告行业投资评级 - 传媒行业评级:强大于市(维持)[2] 报告核心观点 - 技术跃迁驱动内容革命,AI视频生成正从GAN走向DiT架构,是通往AGI的重要路径,其突破将对AIGC产业应用前景起到重要作用[3] - 短视频生成质量已接近专业水准,但长视频生成在物理合理性与时长上仍存瓶颈,业界关注的世界模型可能成为解决上述瓶颈、带来新技术变革的关键路径[3] - 全球AI视频生成市场正加速扩张,商业化在C端(订阅模式)与B端(API模式)双路并进,随着模型能力与工具链完善,2026年有望成为AI影视级项目商业化的关键元年[3] - AI视频是传媒行业的核心应用场景,广告、影视、游戏等领域均有望受益,并已涌现出具备自研算法、海量内容、AI营销及游戏资产生产能力的核心受益上市公司[4] 根据目录的总结 1. 视频生成的前世今生:从GAN走向DiT,通往AGI的重要路径 - **视频生成决定AIGC技术上限**:视频融合文本、图像、音频等多模态信息并引入时间维度,需处理空间、时间、因果与交互等高维结构,其复杂性要求模型具备对真实世界的综合理解与推演能力,是当前行业技术短板[7] - **技术路径演进形成共识**:AI视频生成技术自2010年代中后期起步,经历了GAN、Transformer、Diffusion Model等多个架构尝试。2024年OpenAI发布的Sora验证了DiT(Diffusion+Transformer)架构的可行性与效果,推动主流厂商全面向DiT路径演进,产业进入高速发展期[3][9] - **DiT架构成为主导路线**:DiT融合了扩散模型的生成稳定性与Transformer的长程依赖建模能力,遵循Scaling Law,使生成能力可随参数规模、数据体量与训练算力提升而持续增强。Sora发布后,字节、Google、腾讯等主流厂商模型均已向DiT架构收敛[25][29][30] 2. 技术进展:短视频生成已近专业水准,长视频或迎重要变革节点 - **美学质量接近专业水准**:当前主流模型已支持1080p及以上分辨率(部分达4K),帧率多为24-30fps。以Sora 2为例,其在高真实性、多风格表达、复杂人物主体及多镜头连续叙事方面表现成熟,短片段生成能力已基本满足影视与商业内容制作需求[34][36] - **多模态向“音画一体”演进**:AI视频音效生成分为一体化生成和后期分离生成两类路径。Google Veo 3是首个实现商业化落地的音视同步生成模型,在发布后两个月内累计生成视频超过7,000万条。在其示范效应下,主流厂商发布节奏密集,技术路径趋于收敛[41][46][47] - **物理能力与生成长时是主要瓶颈**:提升物理能力主要有“隐式物理学习”(迭代快但稳定性有限)和“显式物理约束”(物理正确性高但成本与自由度受限)两种路径[50][57]。目前主流视频模型的单次原生生成时长普遍在5-20秒,长视频生成受模型上下文记忆力有限及误差累积两大技术限制[61][62] - **世界模型或为长视频带来新变量**:世界模型旨在构建可长期维持状态并遵循物理规律的虚拟世界,正对应视频生成在长时一致性与物理可信度上的短板。2025年后,产业研究重心向“生成派”倾斜,如Google的Genie 3已能实时生成维持数分钟画面一致性的动态世界。世界模型在关键性能上迭代更快,可能成为视频生成的另一条主流演进路径[3][72][82][90] 3. 商业化进展:C+B端双路并进,影视级项目有望迎来商业元年 - **市场规模与增长**:全球AI视频生成市场正加速扩张,预计2026年市场规模将达2.96亿美元,同比增长35.16%[3] - **C端以订阅模式为主**:用户量是现阶段主要评判标准,Sora体量断档领先。行业正探索新商业模式,如OpenAI推出社交化视频创作平台Sora app,未来有望向广告、电商等路径拓展[3] - **B端以API模式为主**:核心在电商展示、广告等领域应用已基本成熟,“质量+效率+成本”是核心评价维度,可灵、海螺、Vidu等部分国产模型已实现行业领先。目前API模式主要应用于素材级生成[3] - **影视级项目商业化起步**:部分海外厂商已开始试水影视级AI解决方案并实现商业验证。例如,Utopai通过《Cortés》《Project Space》等项目累计实现收入约1.1亿美元。随着模型能力演进与工具链完善,2026年有望成为AI影视制作商业化的关键起点[3] 4. 传媒:AI视频核心应用场景,广告、影视、游戏均有望受益 - **广告:视频素材占比高,AI渗透潜力大**:2025年上半年全网移动广告中,视频类素材投放占比已超过65%,其中竖屏视频占比高达54.8%,契合现阶段视频生成模型能力边界。目前AI在广告内容生成中,视频创作渗透率(19%)明显低于内容草拟(70%)和文案创作(59%),具备后发增长潜力。AI视频工具有望使营销服务商转型为全链路合作伙伴[4] - **影视:AI漫剧与短剧率先实现商业闭环**:AI漫剧与视频生成契合度最高,已率先实现商业闭环。拟真人短剧方面,2025年1月抖音TOP5000短剧中仅4部为全AI生成,10月、11月分别增长至69部与217部,内容接受度快速提升。长剧与电影层面,CG特效等高价值环节有望成为首批替代场景,中小型影视团队或更可能率先受益[4] - **游戏:技术同源,应用持续深化**:视频生成与3D生成的底层技术路径一致。当前3D生成在游戏建模领域已初步实现静态资产的自动化生产,例如腾讯内部数十款游戏(如《元梦之星》)已接入混元3D能力。后续世界模型等新技术落地有望进一步带动动态资产生成与应用,视频生成与交互融合亦可能催生具备实时互动能力的新游戏品类[4] 5. 核心受益上市公司 - **具备自研算法与模型能力的技术型公司**:昆仑万维[4] - **拥有海量内容资产与版权资源的影视内容提供商**:中文在线、捷成股份、华策影视[4] - **积极布局AI营销、具备内容分发的整合型平台公司**:易点天下[4] - **推动AI生成能力嵌入游戏资产生产流程的大型游戏公司**:完美世界、巨人网络[4]
世界模型原生新一代范式!极佳视界斩获全球第一后,GigaBrain-0.5M*再进化
机器之心· 2026-02-14 12:54
模型性能与市场地位 - 公司推出的GigaBrain-0.1模型在RoboChallenge竞赛中以68.34分和51.67%的成功率(SR)获得全球第一[1][3] - 新一代模型GigaBrain-0.5M*在家庭叠衣、服务冲煮咖啡、工业折纸盒等多个真实机器人任务中,实现了数小时零失误、持续稳定运转[3] - 在相同任务设定下,GigaBrain-0.5M*相较于RECAP基线方法,任务成功率提升近30%[11] 核心技术范式 - GigaBrain-0.5M*是一款基于世界模型条件驱动的视觉-语言-动作大模型,以世界模型对未来状态与价值的预测结果作为条件输入,显著提升模型在长时程任务中的鲁棒性[4] - 模型创新引入人在回路持续学习机制,通过人工筛选与校正的模型推演轨迹进行迭代训练,基于真实环境交互反馈持续优化,形成“行动—反思—进化”的闭环式持续学习与自主迭代升级[4] - 公司提出了基于世界模型的强化学习范式,并采用迭代式四阶段闭环训练流程,包括世界模型预训练、策略网络微调、真实环境部署与数据采集、以及联合优化实现持续进化[8] 技术优势与实验结果 - 在高难度长时程任务中,如折纸盒、咖啡制备、衣物折叠等复杂场景,GigaBrain-0.5M*实现了接近100%的任务成功率,并可稳定复现成功执行轨迹[11] - 基于世界模型的价值预测方案在执行效率与预测精度上优于VLM方案,其“状态+价值”预测的推理时间为0.25秒,均方误差为0.0099,均方根误差为0.0989,肯德尔系数为0.8018[14][15] - 世界模型的价值预测能与任务物理进程高度对齐,例如在叠衣服任务中能准确反映操作阶段、干扰出现与移除等状态变化[14] 数据与训练基础 - GigaBrain-0.5M*的基座模型基于总计10,931小时的多样化机器人操作数据进行预训练[18] - 其中61%(6,653小时)的数据由自研具身世界模型GigaWorld高保真合成,覆盖纹理迁移、视角变换、人手到机械臂映射等丰富场景;剩余39%(4,278小时)源自真实机器人采集[18] - 海量合成数据有效突破了真实采集的长尾瓶颈,通过可控生成新样本增强了模型在分布外场景中的适应性,为具身智能走向开放世界奠定数据基石[18] 公司战略与团队 - 公司是一家具身智能和通用机器人公司,围绕“基模-本体-场景”三位一体,为工业、商业、家庭等场景提供软硬一体的机器人解决方案[21] - 核心团队来自全球知名院校及企业,在物理AI方向兼具业内领先的研究能力和大规模的产业落地经验[21] - 公司是国内第一家布局世界模型的科技公司,致力于通过其世界模型平台GigaWorld、通用具身大脑GigaBrain、原生本体Maker构建闭环生态,实现10-100倍以上的全链路效率提升,推动物理AGI大规模爆发[21]
对话原力灵机周而进:模型2.4B就够用,关键是“具身原生”;能闭环才是最高效方法
量子位· 2026-02-13 13:42
公司及产品发布 - 具身智能创企原力灵机推出了其首个具身原生大模型产品DM0,参数量仅为24亿(2.4B)[5] - 同时发布的还有开源具身原生框架Dexbotic 2.0,以及解锁具身应用量产的工作流DFOL,共同构成“具身软件三件套”[8] - 在RoboChallenge大规模真机评测中,DM0取得了单任务和多任务双料第一,综合得分72.25,成功率为62.00%[31][32] 技术路线与核心特点 - 公司追求“具身原生”路线,强调从数据采集、推理到控制都应源自物理世界反馈,而非数字世界的派生模态[21] - DM0模型从底层将感知、推理、控制整合为闭环,并通过空间推理思维链内生出具身智能[23] - 模型训练从零开始,融合了互联网、智能驾驶和具身多传感数据,旨在让模型从初始阶段就理解物理世界[27][28][40][42] - 模型采用多源、多任务、多机型训练,目前使用了8种不同本体的机器人数据,以学习通用操作逻辑而非特定机器参数[25][55][56] - 模型能够实时处理三视角的728x728画面,推理延迟仅60毫秒,并可通过强化学习在真机上试错进化[4] 数据策略 - 训练数据主要来自三个来源:互联网数据、智能辅助驾驶数据和具身智能数据,三者角色不同,混合比例根据实验动态调整[62][66][68] - 数据采集遵循“全身全时全域”原则:“全身”指包含底盘移动、躯干协调及所有传感器反馈;“全时”强调记录从意图产生到动作执行及修正的连续因果链;“全域”是未来在空间场景覆盖上的规划[82][83][85][88] - 数据采集策略是“熵在哪里,数据就投向哪里”,针对模型表现不佳的高不确定性任务进行针对性数据补充,实现以需定采的反馈闭环[72][75][76] - 在物理规则确定的低熵场景,通过算力生成仿真数据;在物理或语义模糊的高熵场景,则依赖真机采集真实交互数据[78][79][80] 模型能力与效果 - DM0的核心设计引入了空间推理思维链,这是一种三维物理世界的推演能力,能将视觉特征转化为精确的空间坐标和轨迹,以应对如“收拾桌面”等模糊指令[104][105][106][107] - 结合高分辨率输入,空间推理思维链能让模型处理毫米级精度的任务,识别并执行微小的位置差异[112][113] - 模型设计中借鉴了世界模型的范式,将其视为一种模型内的世界理解方式,用于在不执行动作的前提下推理动作后果,以支持决策和规划[158][159][162] 应用场景与商业化 - 公司选择物流场景作为首要落地切入点,因其场景明确、具备高度可复制性,且能带来规模化数据回流[125][147][150] - 在物流场景中,公司专注于物料分拣等任务,其复杂性体现在需要处理柔性/刚性混杂、随意摆放的物体,并实现精细操作[127] - 公司认为精细动作是真正的挑战,其前提是精细感知,因此模型设计非常看重高分辨率输入下的稳定性[131][135][136] - 公司的商业化路线图是:从物流场景开始,先做专项能力产品进入仓储环境,然后逐步推向ToB靠近ToC的场景(如门店导购),最终在技术、成本、安全性成熟后走向家庭场景[154][155][156] 团队背景 - 公司核心团队由前旷视成员组成,包括合伙人周而进(负责大模型)、范浩强、汪天才,以及担任CEO的前旷视联合创始人唐文斌[16][17][177] - 周而进是信息学竞赛金牌选手,拥有深厚的AI背景,早在2013年就以实习生身份在ICCV比赛中获得冠军[12][14] 行业观点与公司理念 - 公司认为当前行业主流方案是“VLM+Action Head”思路,即大模型负责识别推理,动作头负责执行[18][19] - 公司强调机器人必须尽早实现7×24小时真实环境运行,只有这样才能暴露工程问题、获得真实数据回流,形成数据飞轮[115][116][117][121] - 公司对具身智能的终极展望是机器人能够拥有广泛的社会身份,例如具备独立的支付和结算能力,成为社会化的接口[168][170][172]
视觉强≠能干活!清北普林斯顿等开源WorldArena,世界模型评测被颠覆
机器之心· 2026-02-13 13:08
文章核心观点 - 由全球顶尖学术机构联合推出的WorldArena评测体系,标志着具身智能领域评测范式的根本性转变,其核心观点在于揭示当前世界模型存在“视觉质量”与“任务执行功能”之间的巨大鸿沟,视觉生成的高质量并不等同于对物理世界的理解和可靠应用[1][4][45] - 文章通过系统性实验数据指出,许多世界模型生成的视频在视觉上已近乎完美,但在支撑真实的机器人具身任务时表现糟糕,视觉质量与任务执行能力的相关性仅为0.36,表明行业技术发展正从追求“视觉真实”转向追求“功能可靠”[4][32][42] WorldArena评测体系的核心创新 - **评测范式重构**:该体系并非对现有视觉评测的修补,而是一次根本性重构,旨在将评测焦点从“看起来真实”转向“用起来可靠”[5] - **六维视觉评测**:创新性地将视频质量评估拆解为六个维度,包括视觉质量、动作质量、内容一致性、物理遵循性、3D准确性和可控性,尤其将物理遵循性与3D空间理解提升到与画质同等重要的地位[5][14] - **三大具身任务评估**:在全球范围内首次将世界模型置于真实的具身任务流水线中进行压力测试,从**数据生成引擎**、**策略评估器**和**行动规划器**三个关键角色评估其功能性能力[5][27][34] - **EWMScore综合评分**:推出统一的EWMScore综合评分体系,将多维客观指标映射为一个可横向对比的分数,并且该分数与人类主观评估高度正相关,成为一个能反映真实人类感知的标尺[5][6][30] 当前世界模型的能力现状与挑战 - **视觉与功能的巨大差距**:系统性评估揭示,尽管许多模型能生成高度逼真的视频,但在复杂物理环境中的一致性、稳定性以及长时序多步交互任务中存在本质短板,尚不具备支撑真实具身应用的能力[32][33][40] - **作为数据生成引擎表现有限**:实验显示,用世界模型生成的合成轨迹训练下游策略模型,其性能提升整体显著落后于使用真实数据训练的模型,多数模型难以为下游学习提供稳定可靠的增益[35][36] - **作为策略评估器表现分化**:在策略评估任务中,以动作条件建模为核心的模型(如CtrlWorld)与真实物理仿真环境的相关性高达0.986,而其他模型(如Cosmos-Predict 2.5)相关性则较低,表明动作建模是准确刻画环境动态的关键[37] - **作为行动规划器能力不足**:在动作规划任务中,世界模型在支持闭环控制,尤其是长时序复杂任务时的性能,显著落后于成熟的策略模型(如Pi 0.5),表明其尚不足以支撑稳定可靠的自主控制行为[39][40] 评测结果的关键数据洞察 - **视觉与任务相关性低**:WorldArena数据显示,视觉质量与任务执行能力的总体相关性仅为0.36[4] - **EWMScore与任务相关性分析**:EWMScore与数据引擎任务的相关性为0.600,与动作规划任务的相关性仅为0.360,进一步证实“视觉真实不等于功能真实”[42] - **具体模型性能对比**:在数据引擎任务中,表现最好的WoW模型在Task 1和Task 2上分别达到45%和71%的性能,但仍远低于使用真实数据训练的基线模型(77%和66%)[36] - **人类评估与模型指标对齐**:人工评估证实,商业化大型视频模型(如Veo 3.1, Wan 2.6)在整体质量、指令遵循和物理符合性上表现优异,而EWMScore与人类主观评估高度正相关,验证了其有效性[41] 对行业发展的意义与方向 - **指引技术进化方向**:WorldArena的发布标志着具身智能评测正从“审美导向”走向“功能导向”,从论文对比实验走向真实场景的能力验证,这将引导世界模型研发不再比拼谁更“像电影”,而是谁更“懂物理、能干活、靠得住”[45] - **明确技术发展阶段**:文章结论指出,世界模型的“iPhone时刻”尚未到来,视觉生成能力已逼近天花板,但功能智能才刚刚破土,行业离真正可用的具身世界模型还有关键路程要走[7][8][41] - **建立开放社区标准**:WorldArena作为一个完全开源、可复现、持续迭代的社区平台,旨在为具身智能建立一套类似“驾照考试系统”的评测标准,其开放共建模式将评测权交给全球社区[9][10][12]
CVPR 2026 Workshop征稿|从感知到推理,ViSCALE 2.0 邀你重塑计算机视觉的 System 2
机器之心· 2026-02-13 12:19
研讨会核心信息 - 第二届计算机视觉推理扩展研讨会(ViSCALE 2026)将于2026年6月在美国举办,由来自清华大学、普林斯顿大学、加州大学圣克鲁兹分校、新加坡国立大学等全球顶尖机构的学者联合举办 [2] - 研讨会旨在汇聚全球顶尖学者,共同探索如何让视觉模型通过计算扩展突破现有模型的能力瓶颈 [2] - 研讨会将采用线上线下混合模式,于2026年6月3日或4日举行,会期为半天 [9] 研讨会核心观点与研究方向 - 研讨会认为计算机视觉正站在新范式的路口,其发展路径是从单纯的像素感知,到构建符合物理规律的世界模型;从平面的模式识别,到复杂的空间推理 [2] - 研讨会关注的重点是深度推理,旨在探索模型如何在测试时动态分配计算资源,实现从“看懂画面”到“模拟世界”的跃迁,而非上一代模型的“直觉反应” [5] - 核心研究方向包括:利用测试时计算扩展提升视频生成的物理一致性与长时序因果推理能力;突破2D限制,让模型在3D空间中具备类似人类的导航与操作直觉;发展视觉思维链,让视觉模型学会反思、自我修正与多步推理;探索测试时计算量与视觉推理性能之间的扩展规律 [6] 研讨会征稿详情 - 研讨会寻求能打破现有视觉模型天花板的原创性研究,鼓励新颖观点和创意思路,接受多种类型投稿 [7] - 征稿分为两个方向:Track 1为正式论文,属于存档类型,篇幅限制为8页(不含参考文献);Track 2为扩展摘要,属于非存档类型,篇幅限制不超过4页(不含参考文献) [9] - 投稿需使用CVPR 2026 Author Kit格式,截止日期为2026年3月10日,录用通知将于2026年3月18日发出 [9] - 具体征稿议题包括但不限于:测试时计算扩展的理论基础与高效算法、世界模型/视频生成/复杂决策中的推理扩展、具身智能与自动驾驶中的长时序空间推理、统一模型中的推理扩展问题、视觉思维链与模型可解释性、推理扩展带来的安全性/鲁棒性与幻觉问题 [9]
不卷通用大模型,网易AI的“错位”生存法则
搜狐财经· 2026-02-13 04:08
核心观点 - 网易在AI时代并未掉队,而是选择了一条避开底层通用大模型和算力竞争、聚焦于垂直领域AI应用与工业化落地的“实用主义”路线 [2][3][20] 行业竞争格局与网易的战略定位 - 2025年马年春节,阿里、腾讯、字节、百度四家公司在“红包大战”中投入超过45亿元,但网易并未参与 [2] - 行业存在“大模型=AI”的狭隘视角,但商业价值分配呈现三级分化:训练大模型的“造电机”公司、提供算力底座的“建电厂”公司、以及打磨AI应用的“造灯泡”公司 [3] - 网易的战略定位属于第三种,即聚焦于AI应用层,而非通用大模型底座或底层算力基础设施 [3][8] 研发投入与AI应用策略 - 网易过去五年研发费用占比长期维持在15%以上,2025年研发费用高达177亿元 [4] - 公司研发预算重点投向应用层,而非通用底座模型训练 [4] - 公司策略是不盲目追求通用大模型,而是致力于打造“最懂游戏的AI专家”,实现AI与业务的深度整合 [8] - 公司拥有超过1400亿元的现金储备,为其战略选择提供了财务支撑 [8] 游戏业务:AI工业化与效率革命 - 游戏产业存在成本、质量、效率的“不可能三角”,3A游戏开发周期常需3-5年,成本达数亿美元 [4] - 网易在游戏AI原生研发方面搭建了数千条AI新质生产管线,覆盖开发全流程 [6] - 在美术创作环节,AI覆盖90%生产场景,设计效率提升70%,动画产能综合提效30%,部分场景效率提升高达300% [6] - 在技术研发环节,AI代码生成工具提升开发效率50%,且AI逻辑质量可达专家级水平 [6] - AI对游戏产业的重塑分为三个阶段:辅助生产、改变交互、生成原生游戏,网易已处于第二阶段向第三阶段的过渡期 [8] 游戏业务:AI驱动的产品创新与用户生成内容 - 《逆水寒》手游推出“AI门客系统”,赋予NPC独立性格与决策机制,将游戏从“通关体验”变为“社交体验” [9] - 《燕云十六声》部署上万个智能NPC,利用自然语言处理等技术丰富游戏体验与内容供给 [9] - 《蛋仔派对》上线“AI模型生成”功能,降低创作门槛,已聚集5000万创作者,单张爆款地图月收入超过百亿元 [11] - 《逆水寒》手游“剧组模式”允许玩家一键生成视频内容,上线一个月诞生上百万个玩家作品 [11] 游戏业务:财务表现与未来展望 - 网易2025年全年总营收达1126亿元,营业利润为358亿元 [13] - 游戏及相关增值服务收入为921亿元,其中在线游戏净收入达896亿元,同比增长11% [13] - 开源证券预测,AI原生游戏在2027年的收入规模有望超过300亿元,为游戏市场带来10%的增量 [13] - AI原生游戏将颠覆开发流程、交互方式与商业模式,满足玩家个性化体验需求 [13] - 公司认为,在AI时代,对顶层玩法的判断力、用户需求洞察及游戏审美品位等“软实力”是关键的护城河 [13] 教育与音乐业务的AI应用 - 网易有道聚焦翻译和辅导,将有道词典、答疑笔等产品AI化,提升学习体验与运营效率,采取“做减法,做闭环”的打法 [6] - 网易云音乐上线AI音乐创作工具“网易天音”,提供创作辅助功能,一场“百万奖金AI音乐创作大赛”沉淀了5万首AI音乐作品 [6] - 网易有道推出桌面级Agent“LobsterAI”(有道龙虾),定位为全场景个人助理 [18] AI能力外溢与实体业务探索 - 网易通过伏羲实验室孵化的网易灵动,尝试将游戏中的3D建模、数字孪生、AI Agent等能力向物理世界迁移 [14] - 网易灵动在2025年推出全球首款面向全域场景的具身智能无人装载机“灵载”,与中铁二十局、水电五局等企业合作,在多个基建场景实现规模化应用,作业效率提升30%,运营成本下降20% [16] - 网易智企以Agent为核心构建多场景化Agent矩阵,已服务数千家知名企业,赋能数十万员工 [16] - 世界模型(如谷歌的Project Genie)的发展为游戏AI能力向物理世界迁移提供了新的可能性 [19] 商业模式与长期愿景 - 网易的创新业务具有强烈的实用主义色彩,先找到清晰的商业化场景,再深入发展,这一模式在移动互联网时代催生了网易云音乐、严选、有道等产品 [18] - 公司AI时代策略是避开底层算力竞争,聚焦中上层应用,再通过能力外溢寻找商业增量 [20] - 该策略为行业提供了另一种路径:在自身擅长领域先将AI“固化”为能力,再将能力外溢,在不确定的环境中确保生存与发展 [21]
星海图合伙人、CFO罗天奇:具身智能尚处于技术竞赛早期阶段
每日经济新闻· 2026-02-12 18:47
文章核心观点 - 具身智能行业正处于由规模定律驱动的早期技术竞赛阶段 行业竞争的本质是资金使用效率 即每一元钱能换回多少智能 而非短期的融资额或硬件成本 [1][2] - 行业正经历结构性转折 资本逻辑从“广撒网”转向“押头部” 企业需储备资金以应对未来算力与数据成本激增 胜负关键在于智能水平和由智能定义的反向硬件能力 [2][5] - 中国具身智能公司在全球竞争中拥有显著的数据供应链优势 其高质量数据采集成本可能仅为美国公司的十分之一 这构成了长期竞争的重要基础 [6] 行业现状与竞争格局 - 行业持续受资本与产业关注 但稳定落地、规模复制及成本控制仍是现实挑战 [1] - 行业处于“百团大战”式的早期阶段 类比互联网发展初期 部分友商正在疯狂烧钱 [2] - 行业正经历重要的结构性转折 从早期技术探索迈向资源密集型竞争阶段 [2] - 头部具身智能企业在算力和数据投入规模上 约为头部大语言模型创业公司的十分之一 但这一差距可能迅速缩小 [2] - 随着规模定律进一步发挥作用 行业将出现明显的格局收敛 [2] 公司融资与战略 - 星海图于2月11日完成10亿元人民币B轮融资 累计融资额近30亿元人民币 估值达百亿元 成为行业新晋“独角兽” [1] - 公司在融资节奏和支出上相对审慎 强调需保留足够资金以应对未来成本激增 [2] - 公司认为行业竞争的本质是资金使用效率 在中国具身智能公司里 谁花钱效率最高 谁就最值得获得资本投资 [2] 技术发展与商业化路径 - 具身智能的“ChatGPT时刻”不一定在一两年内很快到来 但这不妨碍商业化的率先开启 [3] - 从技术驱动角度看 当前能跑通的商业化场景需满足三个硬性边界:厘米级精度、接近人类80%的作业速度以及99%准确率 [4] - 符合上述边界的场景包括料箱搬运、物流分拣及末端配送的“最后一公里”操作 这些场景在当前产业中具有较大数量基础 [4] - 具身智能对容错率更友好 不需要达到99.99%的成功率即可落地 会“润物细无声”地进入千行百业 [4] - 应避免将资源过早投入由商务驱动的商业化 技术基础未稳时大规模市场扩张容易导致头重脚轻 [4] 商业模式与财务视角 - 面向企业端的生意在营收规模上极具潜力 向一个大客户销售数十至上百台机器人可实现数亿元人民币营收 [5] - 相比营收绝对数量 更应关注营收质量 如开机使用比例和毛利率等指标 [5] - 行业中长期的商业模式是卖“物理世界的Token” 当供应链成熟到年产10万台以上规模时 硬件成本将不再有实质性差别 [5] - 真正的长期壁垒在于两点:一是智能水平 二是由智能水平反向定义的硬件设计和生产制造能力 [5] - 硬件成本最终不会是行业比拼的关键 [5] 全球竞争与技术架构 - 中国具身智能公司拥有比硬件供应链更夸张的数据供应链优势 中国最高质量的数据采集成本可能只有美国公司的十分之一 这意味着花相同的钱可采集到10倍数量的数据 [6] - 在技术架构上 世界模型短期内更适合拥有算力与多模态积累优势的大厂推进 创业公司无需重复“造轮子” [6] - 具身智能公司真正独特、必须从零开始研发的部分是具身基础模型 即负责物理世界执行能力的视觉语言动作模型 [7] - 视觉语言模型与视觉语言动作模型是互补关系 前者负责理解与推理 后者负责行动与执行 公司需要将资源集中在物理世界智能的构建上 [7]
老黄苏妈投了同一家世界模型公司
36氪· 2026-02-12 17:52
公司融资与估值 - AI视频公司Runway完成E轮融资,融资金额为3.15亿美元(约合人民币21.7亿元),资金将用于预训练下一代世界模型并将其落地到产品中 [2] - 本轮融资由General Atlantic领投,英伟达和AMD也参与投资 [2] - 本轮融资后,Runway投后估值相比之前几乎翻了一倍,达到53亿美元(约合人民币365.8亿元) [4] - 公司目前只有140名员工,却支撑起53亿美元的估值 [1] 公司发展历程与转型 - Runway成立于2018年,由三位纽约大学艺术学院交互设计专业的毕业生创立 [4] - 公司创立之初获得200万美元种子轮融资,主要做视频剪辑工具,并在2020年底推出爆款“绿幕”功能 [6] - 2021年完成B轮融资3500万美元,并将资金投入文生图模型Stable Diffusion的研发,为入局生成式AI奠定基础 [6] - 2022年12月,在ChatGPT掀起AI浪潮后,Runway完成C轮融资5000万美元,并迅速转向生成式AI [6] - 2023年2月发布AI视频模型Gen-1,一个月后发布支持文生视频的Gen-2,后者是当时行业第一个大规模商业化的文生视频模型 [8] - 英伟达首次押注Runway是在其C+轮融资,当时公司投后估值超过15亿美元,成为独角兽 [8] - 2025年4月发布Gen-4模型,引入了物理规律理解,为进军世界模型埋下伏笔,并同步完成3.08亿美元的D轮融资,由General Atlantic领投,英伟达再次参投 [8] - 2025年12月,公司将模型升级至Gen-4.5以提高真实感,随后发布了首个世界模型GWM-1 [10] - GWM-1是基于Gen-4.5的自回归模型,可逐帧生成图像并实时运行,包含三个独立后训练的变体:GWM Worlds(生成可探索模拟环境)、GWM Avatar(生成可对话虚拟角色)、GWM Robotics(生成用于机器人训练的合成数据) [10] - 在Runway转向世界模型后,英伟达进行了第三次投资 [12] 行业趋势:世界模型 - 世界模型已成为落地物理AI的关键路径,从自动驾驶到机器人领域均有应用 [22] - 早在2024年,英伟达在42天内两次出手投资应用世界模型技术的自动驾驶公司Waabi和Wayve [13] - Waabi专注于无人卡车,打造了AI闭环模拟器Waabi World用于生成交通场景训练算法 [13] - Wayve在测试Robotaxi,其开发了GAIA系列模型,通过生成视频来训练AI司机 [13] - 英伟达在2025年1月CES期间亲自下场,发布了支持多模态输入的世界模型NVIDIA Cosmos,用于生成遵守物理定律的逼真视频以训练机器人算法 [15] - 特斯拉开发了世界模拟器,让开发者可以用提示词生成或修改视频,以输出数据训练FSD系统,其FSD副总裁透露,尽管有海量真实数据,但其中99%是简单场景,缺乏极端场景数据 [17] - 理想汽车已将云端生成式世界模型与车端VLA结合,实现训练闭环,以此迈向L4 [17] - 2026年初,“Robotaxi第一股”文远知行发布世界模型WeRide GENESIS,可用于无限生成、回放和调整各种边缘场景 [18] - Waymo基于谷歌Genie3打造了世界模型,不仅能生成各种驾驶场景视频,还能生成激光雷达点云 [19]