Workflow
世界模型
icon
搜索文档
穿越周期的早期投资:从赛道思维到认知红利|甲子引力
搜狐财经· 2025-12-16 18:45
文章核心观点 - 在AI、具身智能等赛道高度拥挤、共识形成极快的市场环境下,早期投资的决胜点已从“赌赛道”转向对“人、周期及非共识”的深刻理解,即挖掘“认知红利” [1][2] - 投资机构正通过全链条布局、深度研究输出、个人IP打造等不同方式构建独特的“认知模型”和项目雷达,以在红海中识别机会 [1] - 保持投资“手感”、建立正向反馈循环以及在行业低谷期坚持布局,是捕捉下一个成功项目的关键 [1] 投资机构概况与策略 - **红杉中国种子基金**:成立于2018年,管理规模超过100亿人民币,7年来支持了400多家早期公司,其中约70%为第一轮投资,致力于成为创业者“最早的”投资人 [3] - **元禾原点**:成立12年,为元禾控股旗下早期投资平台,已投资300多个项目,主打硬科技、早期及医疗健康标签,依托国资背景与市场化结合 [4] - **峰瑞资本**:成立10年,为综合型早期基金,覆盖医疗、科技和消费,旨在赛道热起来之前进入,以对抗板块轮动周期 [5][6] - **心资本**:专注于科技与数字化领域的早期风险投资机构,团队曾投资小鹏汽车、满帮、速腾聚创等项目的早期轮次 [7] 当前重点投资方向 - **具身智能与AI硬件**:被视为重要方向,包括机器人、AI驱动的消费电子等 [8] - **AI应用与基础设施**:包括AI模型、应用、GPU、推理芯片等 [8][12] - **前沿与交叉学科**:包括AI for Science、量子科技、生物制造、核聚变、氢能、6G等“十五五”未来科技方向 [9] - **非共识与留白**:机构均保留一部分资金用于布局确定性不高、处于极早期的新兴技术和方向 [10][12] 构建认知差异的关键要素 - **投人重于投赛道**:早期投资的核心是识别优秀的创业者,例如红杉投资宇树科技主要基于对创始人王兴兴坚韧品质的认可,尽管当时行业共识不足 [14] - **长期跟踪与体系化布局**:通过长期(如5-10年)持续关注和投入,在赛道爆发前形成前瞻性认知,例如元禾原点自2011年投资江苏北人后,体系化布局了机器人及自动驾驶赛道 [16] - **穿越周期与低谷期布局**:在行业低谷期坚持投资,以便在技术拐点或市场回暖时抓住机会,例如红杉在去年市场不热时投资了外骨骼公司极壳和智能眼镜公司Even Realities [14][19] - **个性化认知模型**:投资决策如同大模型,每个人的背景、经历和过往案例(参数)不同,导致对同一创始人的评估和兴奋点截然不同 [21] 项目来源与机构影响力构建 - **红杉的全链条与孵化机制**:通过从想法阶段到IPO的全阶段布局,积极进行人才追踪和创业孵化,构建持续迭代的行业认知 [13][24] - **峰瑞资本的内容影响力**:通过创始人李丰(丰叔)的活跃输出、团队深度研究分享以及线上线下活动(如播客、美国路演)提升品牌能见度,间接促进优质项目触达 [25][26] - **心资本的思考开源**:通过运营“AI大航海”公众号(年更新5-6篇深度文章)开源关于AI的思考,旨在吸引志同道合的创业者,形成学习、投资、输出的正向循环 [26][27][28] - **元禾原点的资源融合**:作为人民币基金,学习美元基金开放打法,依托地方产业资源和国家方针引导,同时坚持市场化竞争,在硬科技领域与头部美元基金出现更多交汇与合作 [30][31] 未来投资展望关键词 - **AI全面聚焦**:机构普遍表示将大部分资金投向AI相关领域,峰瑞资本计划将70%资金投到AI上,近乎All in AI [33] - **AI基础底座**:元禾原点强调将更加注重在AI基础底座发力 [34] - **AI应用细分**:红杉中国表示将继续聚焦AI应用的各个细分领域 [34] - **投有积累的人**:心资本强调投资那些在特定领域有“10万小时积累”的创始人 [32]
许华哲,抓紧时间慢慢等具身的未来......
具身智能之心· 2025-12-16 08:02
文章核心观点 - 行业观察到具身智能领域在2025年存在发展速率与落地现实不协调的现象 具体表现为技术演示与真实世界应用之间存在差距 [6][7][8] - 行业认为中美在具身智能的发展路径上出现分野 中国公司侧重量产与商业化 美国公司侧重探索AI技术上限 行业担忧过度关注确定性量产可能错过最根本的AI技术突破 [9][10][11] - 行业主张具身智能应类比大模型 不应局限于简单、重复的落地场景 而应挑战需要强操作和高泛化能力的困难任务 以训练出高质量的通用模型 [12] - 行业指出具身智能面临数据瓶颈 其发展路径将是预训练与基于真实交互的持续学习螺旋上升 而非一次性完成数据训练 [15] 两个世界的机器梦 - 自2022年、2023年同步起步后 中美具身智能发展路径在2025年出现明显分野 [9] - 中国公司投入更多精力在量产和商业化上 而美国公司如1X Technologies(展示Gen0精细操作)、Figure(展示长程任务能力)、Sanctuary AI(展示持续工作能力)等则致力于展示AI技术上限 [9] - 行业认为机器人本质不同于汽车 AI能力是核心驱动力 需要由AI技术领跑 而非单纯追求量产 [9] - 行业呼吁在具身智能领域应建立原始创新的信心 而非仅采用跟随策略 需要容忍高失败率的探索性研发 [10] 落地简单场景还是挑战困难场景 - 行业观察发现 高价值、高重复性的场景往往已被传统自动化设备解决(例如解决90%的问题) 剩余未自动化场景通常因单价低或重复度低而不具经济性 [12] - 基于此 行业认为具身智能的定位应更接近大模型 不应将资源耗费在简单任务上 而应致力于挑战需要“强操作”和“高泛化”能力的困难场景 [12] - 挑战困难场景有助于训练出高质量的通用模型 从而更广泛地解决问题 尽管向具体场景的早期落地有其价值 可为未来积累迁移经验 [12][13] “预训练”配合“先验学习” - 具身智能面临天然的数据瓶颈 包括仿真数据不足和真机数据缺乏 这一问题将持续存在 [15] - 因此 行业发展不能遵循“先穷尽数据预训练,再探索模型”的线性路径 而需采用“预训练”与“真实世界交互学习”螺旋上升的模式 [15] - 行业认为 足够好的世界模型无法仅从人类采集的数据中训练获得 必须让机器人自主与世界交互才能构建其独有的世界模型 [15] - 行业对未来探索使用统一强化学习目标函数贯穿预训练与后训练的模式表示兴趣 [15]
世界模型与自动驾驶:最新算法&实战项目(特斯拉、视频、OCC等)
自动驾驶之心· 2025-12-15 14:00
课程核心信息 - 课程名称为世界模型小班课,是继《端到端与VLA自动驾驶小班课》后推出的进阶课程,聚焦于通用世界模型、视频生成、OCC生成等世界模型算法 [2] - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端在工业界落地,助力学员理解端到端自动驾驶 [12] - 课程开课时间为1月1号,预计两个半月结课,采用离线视频教学,并提供VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日 [16] 讲师背景 - 讲师Jason拥有C9本科和QS50高校的博士学位,已发表CCF-A论文2篇及若干CCF-B论文 [4] - 现任国内TOP主机厂算法专家,从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持完成多项自动驾驶感知和端到端算法的产品量产交付 [4] 课程大纲与内容 - **第一章:世界模型介绍** 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、应用案例、不同流派(如纯仿真、仿真+Planning、生成传感器输入、生成感知结果)及其在业界解决的问题和应用环节,并介绍相关数据集与评测 [7] - **第二章:世界模型的背景知识** 讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,这些内容是当下世界模型求职面试频率最高的技术关键词 [7][8] - **第三章:通用世界模型探讨** 聚焦通用世界模型及近期热门工作,涵盖李飞飞团队的Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器 [8] - **第四章:基于视频生成的世界模型** 聚焦视频生成类世界模型算法,讲解Wayve的GAIA-1 & GAIA-2、上交CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive,并以商汤开源的OpenDWM进行实战 [9] - **第五章:基于OCC的世界模型** 聚焦OCC生成类世界模型算法,包含三大论文讲解和一个项目实战,此类方法可扩展为自车轨迹规划以实现端到端 [10] - **第六章:世界模型岗位专题** 基于前五章算法基础,分享工业界应用经验、行业痛点、期望解决的问题以及相关岗位面试准备与公司关注内容 [11] 关键技术覆盖 - 课程将复习Transformer基本概念并扩展到视觉Transformer,讲解为多模态大模型奠定基础的CLIP和LLaVA [13] - 详细介绍BEV感知基础知识及常见的占用网络,讲解扩散模型理论知识及其在多模轨迹输出中的应用 [13] - 梳理世界模型中常提的闭环仿真、NeRF和3DGS的核心概念,并讲解其他生成式模型如VAE、GAN以及Next Token Prediction [13] - 基于OCC的世界模型部分将涵盖清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交最新的II-World等具体工作 [14] 面向人群与学后收获 - **面向人群要求** 学员需自备GPU,推荐算力在4090及以上,具备一定的自动驾驶领域基础,熟悉自动驾驶基本模块,了解transformer大模型、扩散模型、BEV感知等基本概念,具备概率论、线性代数基础及Python和PyTorch语言基础 [15] - **预期学习成果** 学完课程能够达到1年左右世界模型自动驾驶算法工程师水平,掌握世界模型技术进展,对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解,可复现II-World、OpenDWM等主流算法框架,并能将所学应用到项目设计中,对实习、校招、社招均有助益 [15] 课程进度安排 - 课程章节按计划解锁:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁 [17]
中游智驾厂商正在快速抢占端到端人才......
自动驾驶之心· 2025-12-15 08:04
行业技术发展趋势 - 智能驾驶领域的技术焦虑正在产业链中游厂商间快速传播[1] - 业内认为,端到端等前沿技术的大规模量产起点将在明年[2] - 当前智驾前沿技术发展放缓,量产方案趋同,L2级智能驾驶正走下沉路线[2] - 随着明年L3法规的进一步推进,中游厂商面临迫切的技术升级压力[2] - 近期许多公司的算法负责人正积极寻求了解端到端、世界模型、VLA、3DGS等前沿技术[2] 市场与量产现状 - 中国二十万以上的乘用车年销量约为700万辆[2] - 头部新势力品牌在此价格区间的销量占比不及三分之一[2] - 已实现端到端技术量产的车型占比更低[2] - 端到端技术的成熟被视为开启更大规模量产的关键[2] - 地平线公司宣布将进军10万级市场,表明高阶智驾正迅速向更多国民车型下沉[2] 技术实施与人才需求 - 端到端自动驾驶不仅仅是一个算法,其落地需要完善的云端与车端基础设施、数据闭环、工程部署、闭环测试、模型优化及平台开发等全套能力[2] - 可以预见,市场对中阶智能驾驶相关岗位的需求将更加旺盛[2] - 端到端和VLA(视觉语言动作模型)领域的招聘需求预计将显著增长[3] 行业培训动态 - 为应对技术升级需求,市场出现了针对端到端和VLA技术的实战培训课程[3] - 相关课程由工业界与学术界的专家联合开展,聚焦量产落地[3] - 课程内容涵盖导航信息应用、强化学习优化、Diffusion和自回归模型量产经验、时空联合规划等核心模块[3] - 另有课程专门梳理BEV感知、大语言模型、扩散模型和强化学习在端到端领域的应用,并设计相关实战项目[6] - 针对VLA领域,有课程从VLM(视觉语言模型)解释器到模块化、一体化及推理增强VLA进行全面梳理,并包含从零搭建模型的大作业[11] - 课程讲师及团队背景雄厚,多来自国内顶级主机厂、Tier1供应商及顶尖高校,拥有丰富的算法研发、预研及量产交付经验[5][8][13][14]
东方理工金鑫:如何找到自动驾驶与机器人统一的「空间语言」丨GAIR 2025
雷峰网· 2025-12-14 14:27
文章核心观点 - 文章介绍了宁波东方理工大学金鑫教授团队在空间智能与世界模型领域的研究进展,其核心思路是采用“混合”路径构建世界模型,即结合明确的物理规则知识与数据驱动方法,并率先应用于工业制造等产业场景以实现技术验证与落地 [3][4][5] 空间智能(世界模型)的起源与概念 - 空间智能概念在SLAM技术时期已被讨论,2024年由斯坦福大学李飞飞教授拓展至与物理世界的交互、感知和理解 [8] - 世界模型技术近期取得显著进步,例如李飞飞团队发布的Marble 3D世界模型和谷歌DeepMind发布的Genie 3,后者在写实性、一致性及物理正确性上达到更高水平 [9] - 世界模型有望成为继数据增强、数据合成之后,为人工智能训练提供高效路径的新选择 [9] 空间智能的技术框架 - 团队将空间智能或世界模型划分为三个部分:空间感知(基础3D建模与物理定律嵌入)、空间交互(支持智能体与环境及多智能体间互动)、空间的理解泛化与生成(基于充分理解衍生生成能力) [10][12][13][14] - 整体工作细分为两个方向:空间构建(搭建仿真环境)与智能体训练(在环境中训练AI),两者可形成不断优化迭代的闭环 [15][18] 核心研究成果:自动驾驶场景生成 - **UniScene**:团队提出的专注于驾驶场景生成的工作,已被CVPR接收,后续有V2等版本 [20] - **生成动机**:由于合规、隐私及车队规模限制,真实数据难以覆盖足够多的“corner case”危险场景,需通过生成式方法合成逼真有价值的场景数据 [22] - **技术路径**:采用以Occupancy(占据栅格)为中心的生成方案,因其蕴含丰富语义与必要几何信息,是连接场景理解与建模的有效“桥梁” [27][32] - **生成流程**:以简单的鸟瞰图布局为输入,首先生成语义Occupancy,再以此为中心分别衍生生成激光雷达点云和多视角视频,是一个两阶段的解耦过程 [34] - **进展与产业合作**:UniScene V2版本在NuPlan数据集上扩展了数据量,新增深度图和语义分割模态,并能根据车辆传感器位置生成对应视角数据 [37][40];该版本在GitHub上线不到一周获得数百个star(后超过2000个) [41];正与理想汽车合作,测试生成器对带有镜头畸变数据的泛化能力,以低成本支持其自动驾驶算法迭代 [41] 核心研究成果:规划与机器人场景生成 - **OmniNWM**:团队引入闭环的“规划-生成”串联机制,将规划的轨迹作为条件输入,预测执行该轨迹后未来场景的变化,可称为“万能的驾驶导航世界模型” [42][44] - **模型能力**:需同时预测全景RGB视频、语义分割、深度图、3D结构及未来规划轨迹,重点在于状态、动作及闭环奖励三个维度的扩展 [45][50] - **技术迁移**:将相同方法论迁移至机器人领域,应用于具身智能场景进行数据合成,能以Occupancy为桥梁生成机器人视频,处理软体、绳体等物体的数据合成,并与主流仿真器兼容实现批量并行生成 [45] 核心研究成果:机器人数据与训练模型 - **InterVLA数据集**:为补充机器人第一人称视角数据缺失,团队构建了包含约3.9千个序列的新基准数据集,包含第一人称视角视频、第三人称视角视频及动作捕捉数据 [46][49][57] - **DreamVLA模型**:针对“抓放”等任务,提出将大语言模型中的“思维链”思想引入视觉-语言-动作模型,让模型在输出最终动作前,先输出“世界嵌入”或“世界知识”等中间产物,形成多模态推理链条 [63][71][73] - **模型效果**:相比于Open-VLA等方案,DreamVLA泛化性更好,并能实现更快、更高效的收敛 [75] - **方位基础模型**:通过模块化方案赋予机器人“方位感知”能力,使其能像人一样从合适方位抓取物体(如抓瓶身而非瓶盖) [76][80] - **解耦世界模型**:将“解耦学习”嵌入世界模型,提取对任务至关重要的环境关键因子,排除非任务相关干扰,从而提升训练效率与模型鲁棒性 [81][83] 研究背景与团队发展 - 研究重点自2024年初开始聚焦世界模型与空间智能,标志着从处理2D视觉信号转向理解3D、4D等高维信号,旨在让AI获得对物理空间的认知能力 [85] - 团队在2025年NeurIPS会议上有两篇合作论文受到广泛关注 [85] - 团队学生培养取得初步成效,2024年有一位博士获得国家奖学金,2025年增加至两位 [91] - 招生最看重学生的自驱力与对科研的热情,并通过实习期进行双向考核 [91][92] 产业应用与场景选择 - 基于宁波强大的制造业背景(拥有104家国家级制造业单项冠军企业,数量全国第一),团队优先选择工业场景构建“工厂世界模型”,与奥克斯空调、均胜电子、吉利汽车等当地龙头企业紧密合作 [93] - 与专注于探索底层原理的知名团队(如LeCun团队、李飞飞团队)不同,该团队采取“两条腿走路”策略,既探索前沿技术,又聚焦有特色的应用场景 [94] 世界模型的构建方法与挑战 - **构建数据**:分为静态数据(物体级静态资产)和动态数据(RGB视频、激光点云、动作捕捉数据),两者均为必需 [95][96] - **构建步骤**:采用自上而下的技术路径,先定义物理规则,再叠加动态数据,最后以静态数据打底,涉及数据采集、处理、合成与模型训练 [97] - **兴起原因**:AIGC技术使得通过生成方式快速创建物理正确、视觉真实的场景成为可能,在效率与成本上相比传统手工建模有量级提升 [97] - **最大挑战**:成本最高的部分是前期静态资产和动态场景数据的创建与采集;技术难度最大的在于将软体、弹性体、流体等第一性原理和物理规则有效嵌入模型中 [98] 技术路径讨论与行业观点 - **关于Sora等视频生成模型**:认为其是否为世界模型取决于应用场景,在游戏、娱乐等内容生成领域有价值,但在需要精细空间感知与动作策略的机器人或自动驾驶领域存在局限性 [99] - **载体差异**:当前趋势是采用数据驱动的端到端模式(如VLA模型),倾向于为不同形态的智能体(汽车、机械臂)构建统一的世界模型服务,避免重复造轮子 [99][100] - **技术路径选择**:团队倾向于“混合”路径,结合端到端黑盒方法的能力与显性、可解释的组件 [101] - **学术界价值**:面对企业界强大的大模型路径,不必焦虑于快速商业变现,技术持续发展总需要新的突破,许多奠基性技术最初源于高校 [102] - **物理规律掌握**:关键在于构建高度物理真实的世界模型本身,若能真实还原材质物理属性,仿真环境中训练出的智能体行为结果会与真实世界一致 [102][103] - **实现方法**:采用知识库与数据库结合的混合路径,对明确规则(如碰撞检测、摩擦力)进行知识嵌入,对复杂现象(如流体运动)则采用数据驱动方法 [104][105]
GAIR 2025 「数据&一脑多形」分论坛,激辩 AI 演进路径
雷峰网· 2025-12-14 14:27
文章核心观点 - 人工智能正从语言理解迈向物理世界交互 未来十年的关键是将通用智能从语言领域拓展到物理世界 其核心路径在于融合“数据价值重构”与“一脑多形”架构革命 [1][5] - 数据正从“资源”演变为定义模型认知边界与价值对齐的“认知基础”与“价值载体” 高质量、结构化、富有逻辑链的数据是驱动智能持续进化的核心纽带 [3][4] - “一脑多形”范式旨在构建一个统一的底层认知核心 使其能动态衍生出适应不同场景、模态与任务的多种形态 这是实现从“专用智能”到“统一智能”跃迁的关键 [5] 新数据范式:驱动模型演进的核心基础设施 - 人形机器人代表的具身智能成为对高质量数据有强烈需求的新赛道 行业正系统性思考数据规模、质量与模型能力的关系 [10] - 具身智能数据获取面临三大结构性挑战:成本效率低且成功率低、能力存在局限性(如灵巧手内操作)、以及跨本体泛化能力差 [11][13] - 行业探索以人为中心的数据路径 构建不与单一机器人本体强绑定的数据体系以提升数据复用价值 诺亦腾正在建设覆盖标准化与真实场景采集的具身智能数据工厂 [12] - 具身数据体量将爆发式增长 “具身数据服务”被视为机器人赛道下一个“Scale AI”级别的确定性机会 [15] - 当前数据采集主要分为真机端(如末端执行器动捕、遥操作)与仿真端(如轨迹合成、资产生成)两条路径 [16] - 通过平台化与引入AI Agent构建数据工具链 可实现真实世界数据集构建速度提升30倍 仿真数据生成提升3.5倍 [17] - 圆桌讨论共识:好的数据应以终为始 由最终模型性能与机器人训练受益程度决定 采集方式将多元化 包括遥操作、UMI、动捕、仿真等 [19] - 野外数据采集技术门槛高 需低摩擦、高精度、多模态的数采设备 并可能通过世界模型进行先验估计来丰富数据维度 [20] AI的“大脑”革命:一脑,何以多形? - “一脑多形”指同一套智能系统可适配人形、车形等不同形态 核心大脑不变 这是当前具身智能的热门技术路线之一 [21] - 通用飞行智能处于爆发前夜 行业存在气流扰动大、机载算力弱、传感器廉价、数据采集困难等挑战 [26] - 微分智飞展示了多任务小脑技术 其最小的端到端神经网络可运行在自重约50克、机载算力低于1 Tops的无人机上 并通过自动化系统降低数据采集成本 [28] - 团队实现了飞行机械手通过单电机线驱动机构进行多自由度形变 具备指尖捏取和掌心抓握能力 可应用于短途物品运送 [29] - 空间智能技术分为三个层级:基础空间感知、进阶空间交互、最终空间理解与生成 并形成“建模-训练-迭代优化”的研发飞轮 [33] - 在自动驾驶领域 提出以“占据栅格”为中心的生成方案UniScene 其V2版本新增深度与语义分割模态 并与理想汽车合作测试泛化能力 [34] - 在机器人领域 提出ORV框架并构建InterVLA数据集 同时研发DreamVLA模型 将大语言模型“思维链”思想引入 以提升决策可解释性与泛化能力 [37] - 人形机器人是面向人类环境的相对通用方案 互联网上大量人类日常生活数据包含可用运动与操作逻辑 [40] - 通过体素化点云表示环境与引入激光雷达自扫描 可显著提升复杂地形下运动策略从仿真到真实的迁移成功率 使控制从“盲动”转向“感知驱动” [40][42] - 圆桌讨论认为 具身智能行业仍处探索阶段 技术路线尚未收敛 本质是AI与机器人结合带来的智能性与泛化性飞跃 [46] - 对于世界模型 自动驾驶与机器人任务的要求和技术范式区别很大 世界模型与视觉-语言-动作模型可结合应用 [47] - 通用控制器的实现 在仿真中需权衡精度与平衡性 在真实世界则高度依赖硬件性能 [47] - 技术落地面临“既要星辰大海 也要赶紧赚钱”的困境 虽然落地尚远 但已能看到现实应用 不再仅是科幻展示 [48]
“世界模型”竞赛升级:Runway推出GWM-1,实时交互可持续数分钟之久
硬AI· 2025-12-13 20:45
文章核心观点 - AI视频生成独角兽Runway发布其首款通用世界模型GWM-1 标志着公司战略从影视特效供应商向物理世界AI架构师进化 战场从比拼画质升级到比拼对物理世界的理解 [2] - GWM-1的核心突破在于连贯性与交互性 它是一个能够理解物理规律、几何结构及环境动态的模拟系统 能通过逐帧预测模拟世界演变 支持长达数分钟的连贯实时交互 [2] - Runway的最终愿景是将不同领域和动作空间统一到一个单一的基础世界模型中 [6] - 面对谷歌、英伟达等巨头的竞争 Runway需证明其有能力成为物理世界的AI架构师 这是评估其估值能否迈向下一阶段的关键 [20] 拆解GWM-1:从“像素预测”到“通用模拟” - 世界模型旨在让AI内部构建对现实世界运行机制的模拟 使其具备无需遍历所有现实场景的推理、规划和行动能力 [5] - Runway认为 教模型直接预测像素是实现通用模拟的最佳路径 [5] - 目前的GWM-1是由三个针对不同领域进行后训练的自回归模型组成的系列 均建立在Runway最新的Gen-4.5基座模型之上 [5] GWM-Worlds:可交互的数字环境探索界面 - GWM-Worlds采用逐帧预测方式 用户可在任何时刻根据应用场景进行干预 模型会模拟接下来发生的事情 [8] - 模型提供探索数字环境的界面 用户可通过提示词或参考图像设定场景 模型将以24fps帧率和720p分辨率生成环境 [8] - 与传统视频生成不同 用户可实时改变镜头视角、环境条件或物体状态 模型能理解几何与光影 确保长序列运动中画面连贯性 [8] - 除了用于游戏设计预览和VR环境生成 其更深远意义在于为AI Agent提供训练场 教导它们如何在物理世界中导航和行动 [8] GWM-Robotics:解决具身智能的“数据饥渴” - GWM-Robotics展示了Runway进军工业与具身智能领域的野心 [10] - 该模型旨在通过生成高质量的合成数据 模拟极端天气、突发障碍等长尾场景 帮助机器人在虚拟空间进行策略评估 从而大幅降低训练成本并在投入真实世界前预判违规风险 [11] - Runway正通过SDK向部分企业开放GWM-Robotics 并与多家机器人公司接触 试图在SaaS订阅收入外开辟面向B端工业客户的新业务 [11] GWM-Avatars:统一视频与语音的交互终端 - GWM-Avatars是一个将视频生成与语音结合的统一模型 宣称其生成的数字人能进行长时间连续对话且无画质损耗 [14] - 若该技术效果属实且能规模化落地 或将对客户服务及在线教育行业产生颠覆性影响 [15] 基座进化与算力军备 - Runway同期发布了Gen-4.5模型更新 补齐了原生音频和多镜头编辑短板 新版本支持生成长达一分钟的视频 并能保持角色一致性、生成原生对话和背景音效 [18] - 为支撑从创意生成迈向世界模拟的庞大算力需求 Runway宣布与云服务商CoreWeave达成协议 未来将利用其云基础设施上的Nvidia GB300 NVL72机架进行模型训练与推理 [18]
专家指具身智能大规模落地仍处于早期阶段
中国新闻网· 2025-12-13 20:33
行业现状与核心观点 - 当前具身智能已取得认知智能与物理智能的双线突破,但大规模落地仍处于早期阶段 [1] - 行业未来方向仍在持续竞争与快速演化中,模型路线、数据范式及最佳机器人形态仍未定型 [1] 行业面临的三大核心焦点问题 - 模型路线之争:大模型范式在语言、图像、视频领域成功,但其是否适用于机器人控制仍未被证明,业界正在探索多种途径 [1] - 数据训练范式之争:数据是限制机器人能力跃升的核心瓶颈,混合数据、多模态数据、世界模型生成数据等方向均在探索中 [1] - 形态路线之争:人形机器人是否是“真需求”存在分歧,特斯拉、Figure AI等企业坚持全人形路线,而中国国内今年涌现多款强调“工程可落地性”的“轮-臂式复合机器人”,旨在短期内形成可规模化的商业应用 [1] 技术路径与未来展望 - 利用大模型提升机器人的泛化能力已成为业界共识,但如何有效应用仍存在多条技术路径,行业在持续探索中 [2] - 未来在VLA(视觉-语言-动作模型)基础上引入世界模型,借助其对物理世界的理解、预测与推演能力,有望成为进一步提升机器人大模型能力的重要发展路径 [2]
“世界模型”竞赛升级:Runway推出GWM-1,实时交互可持续数分钟之久
华尔街见闻· 2025-12-13 18:36
AI视频生成行业技术演进 - AI视频生成领域的竞争焦点正从单纯比拼画质,进化到比拼对物理世界的理解[1] - AI视频生成独角兽Runway于12月11日正式发布其首款通用世界模型GWM-1,进入由谷歌、英伟达等巨头领先的“世界模拟”战场[1] Runway通用世界模型GWM-1核心突破 - GWM-1被设计为能够理解物理规律、几何结构及环境动态的模拟系统,其核心突破在于“连贯性”与“交互性”[1] - 该模型基于对物理规律和环境动态的理解,能通过逐帧预测来模拟世界随时间演变的过程,并支持长达数分钟的连贯实时交互[1] - “世界模型”旨在让AI在内部构建对现实世界运行机制的模拟,使其能够在无需遍历现实所有场景的情况下,具备推理、规划和行动的能力[3] - 构建世界模型首先需要构建卓越的视频模型,教模型直接预测像素是实现通用模拟的最佳路径[3] - 目前的GWM-1是由三个针对不同领域进行后训练的自回归模型组成的系列,均建立在Runway最新的Gen-4.5基座模型之上[3] - 公司的最终愿景是将不同的领域和动作空间统一到一个单一的基础世界模型中[3] GWM-Worlds:可交互的数字环境 - GWM-Worlds是建立在Gen-4.5基座模型之上,采用逐帧预测方式的自回归模型[4] - 用户可在任何时刻根据应用场景进行干预,模型会模拟接下来发生的事情[4] - 该模型提供了一个用于探索数字环境的界面,用户可通过提示词或参考图像设定场景,模型将以24fps的帧率和720p的分辨率生成环境[4] - 用户可以实时改变镜头视角、环境条件或物体状态,模型能够理解几何与光影,确保生成的画面在长序列运动中保持连贯性[4] - 除了游戏设计预览和VR环境生成外,GWM-Worlds更深远的意义在于为AI Agent提供训练场,教导它们如何在物理世界中导航和行动[4] GWM-Robotics:进军工业与具身智能 - GWM-Robotics的推出展示了Runway进军工业与具身智能领域的野心[6] - 该模型旨在通过生成高质量的“合成数据”,模拟各种环境变数,以解决机器人研发中获取“长尾场景”真实数据成本极高的痛点[6] - 这能帮助机器人在虚拟空间中进行策略评估,大幅降低训练成本,并在投入真实世界前预判其违规风险[6] - 公司正通过SDK向部分企业开放GWM-Robotics,并与多家机器人公司保持积极接触,试图在SaaS订阅收入之外开辟面向B端工业客户的新业务[6] GWM-Avatars:人机交互终端 - GWM-Avatars瞄准人机交互,是一个将视频生成与语音结合的统一模型[8] - Runway宣称其生成的数字人能进行长时间连续对话且无画质损耗[8] - 若该技术效果属实且能规模化落地,或将对客户服务及在线教育行业产生颠覆性影响[8] 基座模型升级与算力支撑 - Runway同期发布了Gen-4.5模型更新,补齐了原生音频和多镜头编辑的短板[10] - 新版本支持生成长达一分钟的视频,并能保持角色一致性、生成原生对话和背景音效,继续从“C端玩具”迈向“B端生产力工具”[10] - 为支撑从创意生成迈向世界模拟的庞大算力需求,Runway宣布与云服务商CoreWeave达成协议[10] - 未来将利用CoreWeave云基础设施上的Nvidia GB300 NVL72机架进行模型训练与推理[10] 公司战略与行业竞争格局 - Runway的战略版图正从影视创意工具向机器人模拟器等领域极速扩张[11] - 在世界模型这一新赛道上,公司已不再拥有视频生成初期的先发优势[11] - 面对谷歌、英伟达等拥有深厚底层资源和科研积累的巨头,公司需要证明自己不仅是一家影视行业的“特效供应商”,而是有能力成为物理世界的“AI架构师”[11] - 这将是评估其估值能否迈向下一阶段的关键[11]
GAIR 2025 世界模型分论坛:从通用感知到视频、物理世界模型的百家争鸣
雷峰网· 2025-12-13 17:13
文章核心观点 世界模型作为具身智能发展的关键方向,目前研究尚处起步阶段且共识未成,但已在通用空间感知、三维感知视频生成、数字人重建、物理世界建模及三维生成技术等多个关键子领域取得显著进展,这些技术旨在为机器人或AI系统提供对物理世界的深刻理解、交互与预测能力,并正从研究走向应用 [2] 面向具身智能的通用空间感知技术 - 浙江大学研究员彭思达团队聚焦赋予机器人三项基础空间感知能力:相机定位、深度估计和物体运动估计,这些是机器人决策和规划的关键支撑 [5] - 团队提出使用人类行为数据训练机器人的思路,将人类视为特殊机器人,通过记录日常行为获取训练数据,此过程依赖上述三项感知技术 [6] - 在相机定位方面,团队于2021年提出LoFTR模型,使用Transformer进行图像稠密特征匹配,以解决传统方法在恶劣环境或大视角差异下匹配不佳的问题 [7] - 在深度估计方面,针对现有方法在物体边缘产生“飞点”的问题,团队提出Pixel-Perfect-Depth思路,移除VAE并在像素空间优化,同时整合语言特征以增强模型全局理解能力 [8] - 在物体运动估计(三维跟踪)方面,团队提出SpatialTracker方法,将二维图像反投影至三维空间进行3D tracking,以实现比传统二维跟踪更鲁棒的效果 [9] 迈向三维感知的视频世界模型 - 腾讯ARC Lab研究员胡文博指出,尽管Sora展现了不错的3D一致性,但视频细节的垂直性与平整性仍有提升空间,且视频本质是2D的,而世界是3D的,因此探索3D感知的视频世界模型至关重要 [12] - 团队从重建和生成两方面发力,重建工作包括从视频估计深度(DepthCrafter)、从视频估计点云进行4D重建(GeometryCrafter)以及从单目视频重建运动(Holi4D) [13] - 在生成方面,ViewCrafter借助重建的3D点云控制视频扩散模型,实现以点云为条件的图像生成与更新,这被视为早期世界模型的记忆机制 [14] - TrajectoryCrafter工作允许用户通过单目视频探索背后的4D世界,通过注入重建的3D信息,能生成指定相机位姿的动态视频、子弹时间特效和复现Dolly Zoom特效 [16] - VerseCrafter模型实现了场景交互,在单图重建几何的基础上,通过标注可移动物体,能生成固定相机、只动物体、相机物体同动等逼真的交互观测结果 [16] 数字人重建技术的进展与展望 - 西湖大学修宇亮教授团队推出的UP2You方案,将单个数字人建模时间从传统DreamBooth等方法所需的3至4小时大幅压缩至1.5分钟,其核心是将日常“脏数据”转化为对重建友好的多视角正交图片 [20] - UP2You方案的优势在于重建质量随输入图片数量增加而稳定提升,能规避脏数据弊端并放大数据量优势 [21] - ETCH工作旨在根据高精度穿衣人体模型得到解剖学正确的内部人体结构,通过向量定义衣服与皮肤间的厚度关系,解决了此前建模结果普遍偏胖的问题,该工作获ICCV 2025 Highlight Paper [21][22] - Human3R工作实现了人物及场景的实时动态呈现,在同时进行场景重建和人体状态预测、追踪的基础上,达到实时15 FPS且仅占用8GB显存,仅需一张商用GPU即可实现SOTA性能 [22] - 修宇亮教授展望指出,更强大的通用3D重建模型正使数字人重建任务迎刃而解,未来相关任务将逐渐转变为在视觉基础模型上进行微调 [23] 创新基础模型以强化物理世界建模 - 中山大学王广润博士指出,物理空间智能面临“感知-规划-执行”端到端实现的挑战,但高质量数据匮乏 [26] - 团队在推理计算上提出全局迭代生成方法,相比顺序生成,具备全局性、渐进精化、快速性及便于多模态统一的优势 [26] - 团队提出全新的原位Tweedie离散扩散模型,该模型可在one-hot单纯形上实现严格扩散过程,直接在扩散空间去噪,不依赖嵌入、掩码或马尔科夫性,且去噪过程中token语义能从混乱噪声逐步稳定为清晰表征 [26] - 针对现有VLA模型的瓶颈(泛化不足、动作控制粗糙、建模范式矛盾),团队构建了新的E0具身大模型 [27] - 王广润博士提出了物理建模与空间建模解耦的思路,并介绍其实验室构建了一个24小时运行的无人机化物理智能评测平台,用于无痛测评VLA模型 [28] 三维生成技术的价值与未来角色 - 香港中文大学(深圳)韩晓光教授梳理了三维生成技术的发展:从“类别限定”时代,到Dreamfusion开启的“开放世界”文本生成3D时代,再发展到当前大模型时代(如Adobe大型重建模型、混元3D),单图生成3D的效果和速度已大幅提升 [32] - 韩晓光教授指出三维生成的三大趋势:更精细(追求几何细节)、更结构化(模型可自动拆解部件)、更对齐(确保3D模型与输入2D图像精确对应) [32] - 针对Sora等视频生成模型对三维内容创作构成的“存在性”冲击,韩晓光教授分析视频生成存在细节可控性差、长程记忆缺失等难题,为3D技术留下了价值空间,并提出了四种可能的2D与3D结合路径 [33] - 在世界模型是否需要3D的问题上,韩晓光教授认为,无论是为VR/AR提供可交互的触觉反馈,还是为机器人提供仿真训练环境,或是实现虚拟到实体的智能制造,3D都是不可或缺的基石 [33] - 韩晓光教授强调,3D作为一种人类可直观理解、可解释的显式表示,是构建可信、安全AI系统的关键途径,有助于在模型效果与可解释性之间取得平衡,带来安全感 [34] 圆桌讨论:世界模型的未来展望 - 彭思达认为世界模型发展需同时关注算法提升与硬件迭代,并预测3D tracking技术将在2027年慢慢收敛,同时自监督学习会出现巨大突破 [37] - 胡文博致力于开发给个人使用的世界模型,让使用者能够体验未知、虚构或他人的世界 [37] - 王广润期待世界模型在交互层面的应用,看好从当前状态到未来更高级别(如从PI0到PI1)的发展过程 [37] - 韩晓光认为到2026年,做好3D的骨架和可移动部分对具身智能依然非常有用,并呼吁继续探索3D方向 [37] - 修宇亮指出需从多模态表征统一的角度解决数字人的情绪价值问题,但面临情绪价值难以量化、缺乏基准的挑战 [38] - 主持人赵昊呼吁该领域需要形成共识与合作,一个关于“世界模型”的技术联盟正在酝酿之中 [39]