Workflow
世界模型
icon
搜索文档
中国下一批千亿公司
投资界· 2025-12-17 11:08
文章核心观点 - 具身智能是当前贝塔最高的投资赛道,但其核心“大脑”部分的技术范式尚未收敛,仍处于探索突破阶段[3][4] - 中国在具身智能大脑的研发上存在独特的技术路径(如类脑计算),并有望实现领先,但国内在资金和数据投入上与国外差距正在拉大[8][14][24] - 解决数据稀缺和计算效率问题是具身大脑落地的关键,不同公司通过类脑解耦、世界模型预训练及自动化数据处理等不同方式应对挑战[12][14][16][17] - 具身大脑的成熟将实现本体无关和场景泛化,其技术范式有望在2年内初步收敛,并将催生比语言大模型更大的市场和更多的巨头公司[20][21][26][27] 行业现状与挑战 - 具身智能是过去几年最热、贝塔最高的投资方向,但“大脑”部分远未成熟,其“DeepSeek、ChatGPT时刻”尚未到来[3][4] - 国内与国外在具身大脑领域的差距不是在缩小,而是在变大,主要原因是国外企业获得更多资金用于数据Scaling,每周有上十万小时的数据持续回流[8] - 国内在大脑的投入远远不够,而技术范式已从去年年底、今年年初开始向视频预训练切换,特斯拉Optimus团队、Figure的Go-Big项目都在进行相关实践[8] - 具身智能的数据非常少,现有数据量仅对应3-5岁小孩的水平,远未达到成年人的能力预期[14][15] 公司技术路径与方案 千诀科技 - 公司孵化于清华类脑中心,致力于打造一个可让所有机器人使用的“缸中之脑”,该大脑不分形态,可持续学习、自我演化和分化分区[4] - 技术核心是类脑计算与解耦,模仿人脑分区独立优化与演化的机制,而非端到端模型,这种方式可将样本效率提高至少一万倍[5][16] - 已完成第三代模型的预训练,并在7大类、20多小类机器人形态上完成适配,与头部公司合作,预计明年将有10万台设备接入其大脑[4] - 已实现“四个跨”的自主智能泛化:跨场景、跨物体、跨任务、跨形态,机器人可在无人类指令下仅凭出厂设置和通识预训练工作[25] - 认为中长期解决方案是“类脑大模型+类脑芯片”,以解决端侧部署的功耗与性价比矛盾,中国在此技术路线上全球领先[24] 流形空间 - 公司聚焦于构建世界模型驱动的具身大脑,技术孵化自清华大学电子系的FIB实验室,团队是国内最早研究世界模型的工业界团队之一[6][7] - 已开发出对标李飞飞RT-M的、可单图生成可交互空间的基础世界模型,并应用于机器人大脑和无人机[6] - 技术范式区别于VLA,其通过空间智能的世界模型预训练再部署到机器人,认为VLA路线因通信带宽低、泛化性差,不适合作为大脑基座[6][7] - 拥有全栈自动化数据处理能力,内部有超过100个计算机视觉算子自动化处理视频标签,无需人工,旨在将数据变为公司资产[12][13] - 认为世界模型应是数据驱动的黑盒模型,以避免人为先验知识限制其能力上限,坚信机器智能最终将超越人类(ASI)[19] 关键技术范式探讨 - **世界模型的定位**:世界模型应是对世界的极致压缩,是机器人的Foundation Model,而不仅是环境模型[11] - **世界模型的类型**:主要分为两种范式,一种是构建人能看见的、输出视频的显空间世界模型;另一种是构建编码高维世界知识的隐空间世界模型,后者可能更具发展潜力[9][10] - **白盒与黑盒之争**:对于世界模型是否可解释存在分歧,一方认为基于因果推理的模型应是白盒;另一方则认为数据驱动的视觉模型必然是黑盒,其能力上限不应被人为理解所限制[18][19] - **实现路径**:要实现通用机器人,需要两个阶段:首先是世界模型预训练提供通识教育(0-60分能力),其次是结合具体场景的软硬一体后训练进行过拟合,兜底性能下界[21][22] 发展预期与落地展望 - 技术范式收敛时间预计在2年以内,前提是数据利用范式和管线得到提升[26] - 若追求处理更复杂的功能,具身大脑可能永远不会收敛到端到端范式,而是收敛到一个持续学习、动态变化的分区结构,类似于人脑[27] - 具身智能是比语言大模型更大的方向,未来将出现更多的创业公司和千亿级公司[27]
Alex Wang“没资格接替我”,Yann LeCun揭露Meta AI“内斗”真相,直言AGI是“彻头彻尾的胡扯”
36氪· 2025-12-17 10:45
"通往超级智能的那条路——无非是不断训练大语言模型、喂更多合成数据、雇上几千人做后训练、再在强化学习上搞点新花样——在我看来完全是胡 扯,这条路根本行不通。" 近日,在一档名为《The Information Bottleneck》的访谈栏目中,主持人 Ravid Shwartz-Ziv 和 Allen Roush 与图灵奖得主、前 Meta 首席 AI 科学家 Yann LeCun 展开了一场近两小时的高质量对话,在访谈中,LeCun 解释了为什么会在 65 岁这个别人已经退休的年纪他还在创业,此外,他也对当前硅谷主流 的人工智能发展路径给出了罕见而尖锐的评价。 结束在 Meta 长达 12 年的职业生涯后,LeCun 正将个人学术声誉与职业"遗产"押注在一套截然不同的 AI 愿景之上。他直言,业界对大语言模型规模化的 执念,正在把人工智能引向一条看似高速、实则封闭的死胡同。 在 LeCun 看来,真正制约 AI 进步的关键,并不是如何更快地逼近"人类级智能",而是如何跨越一个常被低估却极其困难的门槛——让机器具备"狗的智 能水平"。这一判断挑战了当前以语言能力和知识覆盖面为中心的评估体系。在他看来,现实世 ...
数字科技产业观察 | 双周要闻(2025.12.02—12.16)
每日经济新闻· 2025-12-16 18:45
01 部委动态 (1)工信部修订印发《产业技术基础公共服务平台管理办法》 为加快推进新型工业化,筑牢产业技术基础根基,工业和信息化部近日印发新修订的《产业技术基础公 共服务平台管理办法》,包括总则、申报、审核发布、运行、动态管理、附则等6章22项条款,自2025 年12月5日起施行。《管理办法》提出,服务平台申报单位应当明确申报的服务行业领域及服务范围。 服务重点行业和领域包括装备、石化化工、钢铁、有色、建材、轻工、纺织、食品、医药、新一代信息 技术、生物技术、新能源、新材料、新能源汽车、人工智能、元宇宙、脑机接口等;服务范围主要包括 计量检测、标准验证与检测、质量可靠性试验检测、认证认可、产业信息、知识产权、技术成果转化 等。(来源:工业和信息化部科技司) 12月2日,江苏省元宇宙标准化技术委员会在南京成立。江苏省元宇宙标准化技术委员会的成立,填补 了省内元宇宙领域标准化体系的空白,将重点承担元宇宙标准化路线规划、发展策略制定及前沿标准前 期研究等顶层设计工作,为产业高质量发展划定"标准线"、明确"施工图"。(来源:新华日报·交汇 点) (2)国家发展改革委 国家数据局 教育部 科技部 中共中央组织部关于加 ...
穿越周期的早期投资:从赛道思维到认知红利|甲子引力
搜狐财经· 2025-12-16 18:45
在下午的科技产业投资专场中,圆桌对话《穿越周期的早期投资:从"赛道思维"到"认知红利"》探讨了 在共识廉价、市场极度内卷的当下,投资人如何穿越周期,从"赛道思维"转向"认知红利"。 英诺天使基金合伙人、北京前沿国际人工智能研究院理事长王晟作为嘉宾主持人,对话红杉中国合伙人 张涵、元禾原点合伙人乐金鑫、峰瑞资本合伙人马睿、心资本合伙人吴炳见等多位嘉宾。 面对AI、具身智能等赛道的迅速拥挤,嘉宾们指出,单纯赌赛道的时代已经结束,真正的决胜点在于 对人、对周期以及对非共识的深刻理解。 在"红海"共识中寻找认知的非共识。 2025年12月3日,「甲子光年」在北京万达文华酒店圆满举办"轰然成势,万象归一"2025甲子引力年终 盛典。 红杉中国合伙人张涵 乐金鑫:我是来自元禾原点的乐金鑫,元禾大本营是在苏州,既不靠北也不靠南。元禾原点一直是元禾 旗下早期的投资平台,到今年也12年的时间了。 从红杉中国的全链条布局,到峰瑞资本的内容影响力构建,再到新兴机构的个人IP打造,投资人们正在 通过不同的方式建立自己的"认知模型"和项目雷达。 大家普遍认为,保持"手感"、建立正向反馈循环以及在行业低谷期的坚持,是"捕捉下一个珍珠"的 ...
许华哲,抓紧时间慢慢等具身的未来......
具身智能之心· 2025-12-16 08:02
文章核心观点 - 行业观察到具身智能领域在2025年存在发展速率与落地现实不协调的现象 具体表现为技术演示与真实世界应用之间存在差距 [6][7][8] - 行业认为中美在具身智能的发展路径上出现分野 中国公司侧重量产与商业化 美国公司侧重探索AI技术上限 行业担忧过度关注确定性量产可能错过最根本的AI技术突破 [9][10][11] - 行业主张具身智能应类比大模型 不应局限于简单、重复的落地场景 而应挑战需要强操作和高泛化能力的困难任务 以训练出高质量的通用模型 [12] - 行业指出具身智能面临数据瓶颈 其发展路径将是预训练与基于真实交互的持续学习螺旋上升 而非一次性完成数据训练 [15] 两个世界的机器梦 - 自2022年、2023年同步起步后 中美具身智能发展路径在2025年出现明显分野 [9] - 中国公司投入更多精力在量产和商业化上 而美国公司如1X Technologies(展示Gen0精细操作)、Figure(展示长程任务能力)、Sanctuary AI(展示持续工作能力)等则致力于展示AI技术上限 [9] - 行业认为机器人本质不同于汽车 AI能力是核心驱动力 需要由AI技术领跑 而非单纯追求量产 [9] - 行业呼吁在具身智能领域应建立原始创新的信心 而非仅采用跟随策略 需要容忍高失败率的探索性研发 [10] 落地简单场景还是挑战困难场景 - 行业观察发现 高价值、高重复性的场景往往已被传统自动化设备解决(例如解决90%的问题) 剩余未自动化场景通常因单价低或重复度低而不具经济性 [12] - 基于此 行业认为具身智能的定位应更接近大模型 不应将资源耗费在简单任务上 而应致力于挑战需要“强操作”和“高泛化”能力的困难场景 [12] - 挑战困难场景有助于训练出高质量的通用模型 从而更广泛地解决问题 尽管向具体场景的早期落地有其价值 可为未来积累迁移经验 [12][13] “预训练”配合“先验学习” - 具身智能面临天然的数据瓶颈 包括仿真数据不足和真机数据缺乏 这一问题将持续存在 [15] - 因此 行业发展不能遵循“先穷尽数据预训练,再探索模型”的线性路径 而需采用“预训练”与“真实世界交互学习”螺旋上升的模式 [15] - 行业认为 足够好的世界模型无法仅从人类采集的数据中训练获得 必须让机器人自主与世界交互才能构建其独有的世界模型 [15] - 行业对未来探索使用统一强化学习目标函数贯穿预训练与后训练的模式表示兴趣 [15]
世界模型与自动驾驶:最新算法&实战项目(特斯拉、视频、OCC等)
自动驾驶之心· 2025-12-15 14:00
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 世界模型,近一年自动驾驶学术界和工业界的热词。很多小伙伴咨询柱哥,有没有一门系统讲解世界模型和自动驾驶的精品课程,筹备了很久终于和大家见面! 我们联合 工业界大佬 共同开展,先前的《端到端与VLA自动驾驶小班课》备受大家好评,因此我们进一步推出这门世界模型小班课, 课程聚焦于通用世界模型、 视频生成、OCC生成等世界模型算法,涵盖特斯拉世界模型、李飞飞团队Marble等。欢迎大家加入学习~ 早鸟优惠!开课即止~ 讲师介绍 Jason:C9本科+QS50 PhD,已发表CCF-A论文2篇,CCF-B论文若干。现任国内TOP主机厂算法专家,目前从事端到端、大模型、世界模型等前沿算法的预研和量 产,并已主持和完成多项自动驾驶感知和端到端算法的产品量产交付,拥有丰富的端到端算法研发和实战经验。 课程大纲 这门课程讲如何展开 第一章:世界模型介绍 第一章主要针对自动驾驶世界模型概括性的内容讲解。 这一章老师会先复盘世界模型和端到端自动驾驶的联系,接着讲解世界模型的发展历史以及当下的应用案 例。然后介绍世界模型有哪些流派 ...
中游智驾厂商正在快速抢占端到端人才......
自动驾驶之心· 2025-12-15 08:04
行业技术发展趋势 - 智能驾驶领域的技术焦虑正在产业链中游厂商间快速传播[1] - 业内认为,端到端等前沿技术的大规模量产起点将在明年[2] - 当前智驾前沿技术发展放缓,量产方案趋同,L2级智能驾驶正走下沉路线[2] - 随着明年L3法规的进一步推进,中游厂商面临迫切的技术升级压力[2] - 近期许多公司的算法负责人正积极寻求了解端到端、世界模型、VLA、3DGS等前沿技术[2] 市场与量产现状 - 中国二十万以上的乘用车年销量约为700万辆[2] - 头部新势力品牌在此价格区间的销量占比不及三分之一[2] - 已实现端到端技术量产的车型占比更低[2] - 端到端技术的成熟被视为开启更大规模量产的关键[2] - 地平线公司宣布将进军10万级市场,表明高阶智驾正迅速向更多国民车型下沉[2] 技术实施与人才需求 - 端到端自动驾驶不仅仅是一个算法,其落地需要完善的云端与车端基础设施、数据闭环、工程部署、闭环测试、模型优化及平台开发等全套能力[2] - 可以预见,市场对中阶智能驾驶相关岗位的需求将更加旺盛[2] - 端到端和VLA(视觉语言动作模型)领域的招聘需求预计将显著增长[3] 行业培训动态 - 为应对技术升级需求,市场出现了针对端到端和VLA技术的实战培训课程[3] - 相关课程由工业界与学术界的专家联合开展,聚焦量产落地[3] - 课程内容涵盖导航信息应用、强化学习优化、Diffusion和自回归模型量产经验、时空联合规划等核心模块[3] - 另有课程专门梳理BEV感知、大语言模型、扩散模型和强化学习在端到端领域的应用,并设计相关实战项目[6] - 针对VLA领域,有课程从VLM(视觉语言模型)解释器到模块化、一体化及推理增强VLA进行全面梳理,并包含从零搭建模型的大作业[11] - 课程讲师及团队背景雄厚,多来自国内顶级主机厂、Tier1供应商及顶尖高校,拥有丰富的算法研发、预研及量产交付经验[5][8][13][14]
东方理工金鑫:如何找到自动驾驶与机器人统一的「空间语言」丨GAIR 2025
雷峰网· 2025-12-14 14:27
文章核心观点 - 文章介绍了宁波东方理工大学金鑫教授团队在空间智能与世界模型领域的研究进展,其核心思路是采用“混合”路径构建世界模型,即结合明确的物理规则知识与数据驱动方法,并率先应用于工业制造等产业场景以实现技术验证与落地 [3][4][5] 空间智能(世界模型)的起源与概念 - 空间智能概念在SLAM技术时期已被讨论,2024年由斯坦福大学李飞飞教授拓展至与物理世界的交互、感知和理解 [8] - 世界模型技术近期取得显著进步,例如李飞飞团队发布的Marble 3D世界模型和谷歌DeepMind发布的Genie 3,后者在写实性、一致性及物理正确性上达到更高水平 [9] - 世界模型有望成为继数据增强、数据合成之后,为人工智能训练提供高效路径的新选择 [9] 空间智能的技术框架 - 团队将空间智能或世界模型划分为三个部分:空间感知(基础3D建模与物理定律嵌入)、空间交互(支持智能体与环境及多智能体间互动)、空间的理解泛化与生成(基于充分理解衍生生成能力) [10][12][13][14] - 整体工作细分为两个方向:空间构建(搭建仿真环境)与智能体训练(在环境中训练AI),两者可形成不断优化迭代的闭环 [15][18] 核心研究成果:自动驾驶场景生成 - **UniScene**:团队提出的专注于驾驶场景生成的工作,已被CVPR接收,后续有V2等版本 [20] - **生成动机**:由于合规、隐私及车队规模限制,真实数据难以覆盖足够多的“corner case”危险场景,需通过生成式方法合成逼真有价值的场景数据 [22] - **技术路径**:采用以Occupancy(占据栅格)为中心的生成方案,因其蕴含丰富语义与必要几何信息,是连接场景理解与建模的有效“桥梁” [27][32] - **生成流程**:以简单的鸟瞰图布局为输入,首先生成语义Occupancy,再以此为中心分别衍生生成激光雷达点云和多视角视频,是一个两阶段的解耦过程 [34] - **进展与产业合作**:UniScene V2版本在NuPlan数据集上扩展了数据量,新增深度图和语义分割模态,并能根据车辆传感器位置生成对应视角数据 [37][40];该版本在GitHub上线不到一周获得数百个star(后超过2000个) [41];正与理想汽车合作,测试生成器对带有镜头畸变数据的泛化能力,以低成本支持其自动驾驶算法迭代 [41] 核心研究成果:规划与机器人场景生成 - **OmniNWM**:团队引入闭环的“规划-生成”串联机制,将规划的轨迹作为条件输入,预测执行该轨迹后未来场景的变化,可称为“万能的驾驶导航世界模型” [42][44] - **模型能力**:需同时预测全景RGB视频、语义分割、深度图、3D结构及未来规划轨迹,重点在于状态、动作及闭环奖励三个维度的扩展 [45][50] - **技术迁移**:将相同方法论迁移至机器人领域,应用于具身智能场景进行数据合成,能以Occupancy为桥梁生成机器人视频,处理软体、绳体等物体的数据合成,并与主流仿真器兼容实现批量并行生成 [45] 核心研究成果:机器人数据与训练模型 - **InterVLA数据集**:为补充机器人第一人称视角数据缺失,团队构建了包含约3.9千个序列的新基准数据集,包含第一人称视角视频、第三人称视角视频及动作捕捉数据 [46][49][57] - **DreamVLA模型**:针对“抓放”等任务,提出将大语言模型中的“思维链”思想引入视觉-语言-动作模型,让模型在输出最终动作前,先输出“世界嵌入”或“世界知识”等中间产物,形成多模态推理链条 [63][71][73] - **模型效果**:相比于Open-VLA等方案,DreamVLA泛化性更好,并能实现更快、更高效的收敛 [75] - **方位基础模型**:通过模块化方案赋予机器人“方位感知”能力,使其能像人一样从合适方位抓取物体(如抓瓶身而非瓶盖) [76][80] - **解耦世界模型**:将“解耦学习”嵌入世界模型,提取对任务至关重要的环境关键因子,排除非任务相关干扰,从而提升训练效率与模型鲁棒性 [81][83] 研究背景与团队发展 - 研究重点自2024年初开始聚焦世界模型与空间智能,标志着从处理2D视觉信号转向理解3D、4D等高维信号,旨在让AI获得对物理空间的认知能力 [85] - 团队在2025年NeurIPS会议上有两篇合作论文受到广泛关注 [85] - 团队学生培养取得初步成效,2024年有一位博士获得国家奖学金,2025年增加至两位 [91] - 招生最看重学生的自驱力与对科研的热情,并通过实习期进行双向考核 [91][92] 产业应用与场景选择 - 基于宁波强大的制造业背景(拥有104家国家级制造业单项冠军企业,数量全国第一),团队优先选择工业场景构建“工厂世界模型”,与奥克斯空调、均胜电子、吉利汽车等当地龙头企业紧密合作 [93] - 与专注于探索底层原理的知名团队(如LeCun团队、李飞飞团队)不同,该团队采取“两条腿走路”策略,既探索前沿技术,又聚焦有特色的应用场景 [94] 世界模型的构建方法与挑战 - **构建数据**:分为静态数据(物体级静态资产)和动态数据(RGB视频、激光点云、动作捕捉数据),两者均为必需 [95][96] - **构建步骤**:采用自上而下的技术路径,先定义物理规则,再叠加动态数据,最后以静态数据打底,涉及数据采集、处理、合成与模型训练 [97] - **兴起原因**:AIGC技术使得通过生成方式快速创建物理正确、视觉真实的场景成为可能,在效率与成本上相比传统手工建模有量级提升 [97] - **最大挑战**:成本最高的部分是前期静态资产和动态场景数据的创建与采集;技术难度最大的在于将软体、弹性体、流体等第一性原理和物理规则有效嵌入模型中 [98] 技术路径讨论与行业观点 - **关于Sora等视频生成模型**:认为其是否为世界模型取决于应用场景,在游戏、娱乐等内容生成领域有价值,但在需要精细空间感知与动作策略的机器人或自动驾驶领域存在局限性 [99] - **载体差异**:当前趋势是采用数据驱动的端到端模式(如VLA模型),倾向于为不同形态的智能体(汽车、机械臂)构建统一的世界模型服务,避免重复造轮子 [99][100] - **技术路径选择**:团队倾向于“混合”路径,结合端到端黑盒方法的能力与显性、可解释的组件 [101] - **学术界价值**:面对企业界强大的大模型路径,不必焦虑于快速商业变现,技术持续发展总需要新的突破,许多奠基性技术最初源于高校 [102] - **物理规律掌握**:关键在于构建高度物理真实的世界模型本身,若能真实还原材质物理属性,仿真环境中训练出的智能体行为结果会与真实世界一致 [102][103] - **实现方法**:采用知识库与数据库结合的混合路径,对明确规则(如碰撞检测、摩擦力)进行知识嵌入,对复杂现象(如流体运动)则采用数据驱动方法 [104][105]
GAIR 2025 「数据&一脑多形」分论坛,激辩 AI 演进路径
雷峰网· 2025-12-14 14:27
" 过去十年,AI的核心突破是从 「 专用 」 走向 「 通用 」 的语 言理解;未来十年的关键战役,或许就是将这种通用性,从语言世 界拓展到物理世界。 " 作者丨 吴彤 刘欣 齐铖湧 梁丙鉴 编辑丨 林觉民 马晓宁 在 12月13日举行的第八届GAIR全球人工智能与机器人大会"数据&一脑多形"分论坛上,两个看似独立却 紧密交织的技术前沿——数据的价值重构与一脑多形(One Brain, Many Forms)的架构革命,成为探索 下一代智能系统的核心焦点。 一方面,数据正从传统的"资源"角色,向更本质的"认知基础"与"价值载体"演进。 随着多模态大模型的爆发,高质量、结构化、富有逻辑链的数据已不再是模型的"养料"那么简单,它正演 化为定义模型认知边界与价值对齐的核心框架。 本次论坛深入探讨了如何在数据洪流中构建更具解释性、可信度与进化能力的知识体系,以及如何通过数 据流动重塑产业智能化的闭环。数据不再仅仅是起点,更是驱动智能持续进化、与人和社会和谐共生的核 心纽带。 另一方面,"一脑多形"的范式正在重新定义智能的构建方式。 它超越了单一模型解决特定任务的局限,指向一个更具适应性与扩展性的未来:一个统一的底层 ...
“世界模型”竞赛升级:Runway推出GWM-1,实时交互可持续数分钟之久
硬AI· 2025-12-13 20:45
文章核心观点 - AI视频生成独角兽Runway发布其首款通用世界模型GWM-1 标志着公司战略从影视特效供应商向物理世界AI架构师进化 战场从比拼画质升级到比拼对物理世界的理解 [2] - GWM-1的核心突破在于连贯性与交互性 它是一个能够理解物理规律、几何结构及环境动态的模拟系统 能通过逐帧预测模拟世界演变 支持长达数分钟的连贯实时交互 [2] - Runway的最终愿景是将不同领域和动作空间统一到一个单一的基础世界模型中 [6] - 面对谷歌、英伟达等巨头的竞争 Runway需证明其有能力成为物理世界的AI架构师 这是评估其估值能否迈向下一阶段的关键 [20] 拆解GWM-1:从“像素预测”到“通用模拟” - 世界模型旨在让AI内部构建对现实世界运行机制的模拟 使其具备无需遍历所有现实场景的推理、规划和行动能力 [5] - Runway认为 教模型直接预测像素是实现通用模拟的最佳路径 [5] - 目前的GWM-1是由三个针对不同领域进行后训练的自回归模型组成的系列 均建立在Runway最新的Gen-4.5基座模型之上 [5] GWM-Worlds:可交互的数字环境探索界面 - GWM-Worlds采用逐帧预测方式 用户可在任何时刻根据应用场景进行干预 模型会模拟接下来发生的事情 [8] - 模型提供探索数字环境的界面 用户可通过提示词或参考图像设定场景 模型将以24fps帧率和720p分辨率生成环境 [8] - 与传统视频生成不同 用户可实时改变镜头视角、环境条件或物体状态 模型能理解几何与光影 确保长序列运动中画面连贯性 [8] - 除了用于游戏设计预览和VR环境生成 其更深远意义在于为AI Agent提供训练场 教导它们如何在物理世界中导航和行动 [8] GWM-Robotics:解决具身智能的“数据饥渴” - GWM-Robotics展示了Runway进军工业与具身智能领域的野心 [10] - 该模型旨在通过生成高质量的合成数据 模拟极端天气、突发障碍等长尾场景 帮助机器人在虚拟空间进行策略评估 从而大幅降低训练成本并在投入真实世界前预判违规风险 [11] - Runway正通过SDK向部分企业开放GWM-Robotics 并与多家机器人公司接触 试图在SaaS订阅收入外开辟面向B端工业客户的新业务 [11] GWM-Avatars:统一视频与语音的交互终端 - GWM-Avatars是一个将视频生成与语音结合的统一模型 宣称其生成的数字人能进行长时间连续对话且无画质损耗 [14] - 若该技术效果属实且能规模化落地 或将对客户服务及在线教育行业产生颠覆性影响 [15] 基座进化与算力军备 - Runway同期发布了Gen-4.5模型更新 补齐了原生音频和多镜头编辑短板 新版本支持生成长达一分钟的视频 并能保持角色一致性、生成原生对话和背景音效 [18] - 为支撑从创意生成迈向世界模拟的庞大算力需求 Runway宣布与云服务商CoreWeave达成协议 未来将利用其云基础设施上的Nvidia GB300 NVL72机架进行模型训练与推理 [18]