Workflow
世界模型
icon
搜索文档
阿里新研究:统一了VLA和世界模型
36氪· 2025-10-29 18:32
模型框架与核心创新 - 提出WorldVLA,一个将视觉语言动作模型与世界模型相融合的统一自回归动作世界模型框架 [1][4] - 该框架旨在解决VLA模型缺乏对动作的深度理解以及世界模型无法直接生成动作的功能局限 [4] - 模型使用三套独立的分词器对图像、文本和动作进行编码,所有模态信息被离散化为token并以自回归方式训练 [6][8] 技术实现细节 - 图像分词器采用VQ-GAN模型,压缩比为16,码本大小为8192,256×256图像生成256个token,512×512图像生成1024个token [6] - 动作分词器将连续机器人动作的每个维度离散化为256个区间,动作由7个token表示 [6] - 文本分词器词表大小为65536,包含8192个图像token和256个动作token [8] - 提出针对动作生成的替代注意力掩码,使当前动作生成仅依赖文本和视觉输入,可实现并行生成多个动作 [10] 性能表现与优势 - 在基准测试中,WorldVLA模型即使未经预训练,其性能也优于离散化OpenVLA模型 [12] - 512×512分辨率模型平均成功率(Average SR)达81.8%,优于256×256分辨率模型的79.1% [13] - 更高分辨率带来性能提升,归因于主干模型预训练策略及更多视觉细节信息,对高精度抓取任务尤为重要 [13][14] 模型协同效应 - 引入世界模型数据可增强动作生成能力,世界模型通过预测未来状态促使模型学习底层物理规律 [11][15] - 世界模型赋予系统前瞻推演能力,通过预判候选动作后果来优化动作选择策略,提高任务成功率 [16] - 动作模型能增强视觉理解能力,从而进一步支持世界模型的视觉生成,WorldVLA在生成长视频序列时质量显著优于纯世界模型 [11][21][22] 行业观点与应用前景 - 行业观点认为VLA与世界模型的结合是通往具身智能的答案,一个负责抽象思考,一个负责物理感知 [24] - 该框架由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出,体现了产学研结合的技术发展路径 [1][24]
阿里新研究:统一了VLA和世界模型
量子位· 2025-10-29 17:30
技术框架与核心创新 - 提出WorldVLA,一个将视觉语言动作模型与世界模型相融合的统一自回归动作世界模型框架 [1][4] - 框架旨在解决VLA模型仅将动作作为输出而缺乏深度理解,以及世界模型无法直接生成动作的应用局限 [6] - 采用三套独立分词器对图像、文本和动作进行编码,图像分词器压缩比为16,码本大小为8192,256x256图像生成256个token,512x512图像生成1024个token [8] - 创新性地为动作生成设计了替代注意力掩码,使自回归框架能并行生成多个动作,避免早期错误传递 [11][12] 性能优势与实验结果 - 实验结果表明WorldVLA表现显著优于独立的动作模型与世界模型,体现了二者相互增强效应 [2] - 在未使用预训练的情况下,WorldVLA在基准测试中平均成功率优于离散化OpenVLA模型(256x256分辨率79.1% vs 76.5%,512x512分辨率81.8% vs 76.5%) [19][21] - 模型性能与图像分辨率呈正相关,512x512分辨率相比256x256分辨率带来显著提升(平均成功率从79.1%提升至81.8%) [21][22] - 引入世界模型数据训练后,动作模型在目标、物体、空间和长序列任务上的成功率从基线62.8%提升至78.1% [25] 协同效应与能力增强 - 世界模型通过预测未来图像学习环境物理规律,增强动作模型在精细操作任务中的能力 [14][25] - 动作模型通过增强视觉理解能力,反向支持世界模型的视觉生成质量,在生成50帧长视频时FVD指标从718.6改善至674.1 [17][31][32] - 动作世界模型在复杂场景生成中表现优于纯世界模型,能生成连贯且符合物理规律的后续状态 [32]
极佳视界与湖北人形机器人创新中心将共建具身智能数据工厂
新浪财经· 2025-10-28 23:33
合作公告 - 极佳视界与湖北人形机器人创新中心于10月28日在武汉东湖高新区宣布达成战略合作 [1] - 双方将共建“世界模型驱动的虚实结合具身智能数据工厂” [1] - 作为战略合作的重要组成部分,双方同步发布了视觉-语言-动作基础模型GigaBrain-0 [1] 技术发布 - 发布的GigaBrain-0是基于世界模型生成数据实现真机泛化的VLA基础模型 [1]
全球首个世界模型具身智能数据工厂落址武汉
中国新闻网· 2025-10-28 17:10
项目签约与定位 - 全球首个“世界模型驱动的虚实结合具身智能数据工厂”项目于10月28日在武汉东湖高新区签约 [1] - 该项目由湖北人形机器人创新中心与科技企业极佳视界共同建设 [1] - 该工厂旨在成为让人形机器人自主应对复杂现实的“超级课堂” [1] 技术核心与创新 - 工厂将借助世界模型技术,通过高真实度的世界模型生成大规模、多样性的合成数据 [3] - 世界模型被描述为一种能够模拟物理世界运行规律的先进技术,如同给机器人安装“想象力引擎”,使其不需要预先编程即可实时感知环境变化并预判未来 [3] - 这些数据将支撑“一脑多形”具身基础模型研发,赋能不同形态、不同任务的机器人本体 [3] 产业生态与发展现状 - 湖北人形机器人产业正加速发展,已有80余家人形机器人相关重点企业集聚 [1] - 产业生态覆盖整机制造、核心零部件及智能系统全链条 [1] - 湖北人形机器人创新中心已成为中国规模最大、场景最丰富的人形机器人专业训练平台,设有超市、餐厅、工厂等真实训练场景,上百台机器人每日进行数据采集与技能训练 [1] 项目功能与行业影响 - 工厂将为机器人企业建立一个共享“资料库”,提供充足的“学习资料”以促进机器人进化 [3] - 当前主流工业臂机器人普遍采用标准化编程,只能在特定环境做特定动作,而该项目旨在让机器人通过大量学习变得更聪明 [3] - 工厂的建设将助力湖北打造全球知名的人形机器人产业高地 [3]
高通推AI芯片与英伟达竞争;美团骑手社保补贴上线丨科技风向标
21世纪经济报道· 2025-10-28 11:49
巨头业务动态 - 美团发布LongCat-Video视频生成模型,参数13.6B,可稳定输出5分钟级别长视频 [2] - 京东启动"国民好车"交付中心全国招募计划,旨在整合4S店及服务门店构建销售交付网络 [3] - 美团骑手养老保险补贴正式全国上线,预计覆盖超过数百万人 [4] - 沃尔玛中国任命前阿里高管刘鹏为山姆会员店业态总裁 [5] - 滴滴在墨西哥上线500辆纯电动汽车,来自广汽埃安和江汽集团,并计划到2030年在墨西哥引入10万辆电动车 [5] 供应链与制造 - 领益智造近期获得行业头部客户百余台整机组装业务订单,其"领珑"机器人已获规模化订单 [7] - 震裕科技计划在2025-2030年间投资21.1亿元建设人形机器人精密模组及零部件项目 [10] - 中通冷链(中通子公司)因提供"虚假物流轨迹"等服务被抖音电商清退 [6] 能源与基建项目 - 亨通光电控股子公司中标总金额18.68亿元海上风电等海洋能源项目,包括辽宁丹东东港一期100万千瓦海上风电项目 [8] - 溯联股份拟投资2.01亿元在重庆建设智能算力液冷研发中心及电池热管理系统研发生产基地 [16][17] 半导体与芯片 - 高通推出新一代数据中心AI推理优化解决方案,包括AI200和AI250芯片,挑战英伟达 [11] - 澜起科技成功量产DDR5第四子代RCD芯片,数据传输速率最高达7200MT/s,较上一代提升超过12.5% [12] - 老鹰半导体完成B+轮融资,融资规模超7亿元,创下国内VCSEL领域创业公司单轮融资最高纪录 [15] - 汇通能源拟出资1.84亿元受让半导体光罩制造企业兴华芯7.43%股权 [18] 资本市场与融资 - 均胜电子在港上市拟发行约1.55亿股H股,最高发售价每股23.60港元,预计11月6日开始交易 [13] - 凌志软件筹划发行股份及支付现金购买凯美瑞德控股权并募集配套资金,公司股票自10月28日起停牌 [14] - 国仪量子完成1.31亿元战略融资,投资方为兴泰资本,资金将用于研发投入和市场布局 [19] 消费电子与汽车新品 - 华为鸿蒙智行旗舰享界S9将于11月上市,纯电版驱动电机最大功率227千瓦 [20] - 一加15发布,搭载高通第五代骁龙8至尊版平台,全球首发165Hz高分高刷屏,售价3999元至5399元,公司2025年销量同比增长36.7% [21] - 影石创新预计其影翎Antigravity全景无人机产品有望于2025年第四季度实现部分区域市场试售 [9]
世界模型==VQA?机器人不用想象画面,预测语义就够了
机器之心· 2025-10-28 08:41
文章核心观点 - 研究提出了一种新型的语义世界模型,该模型不再专注于预测未来的精确像素画面,而是通过回答关于未来结果的语义问题来支持决策规划 [1][8][9] - 该方法将世界建模问题重新定义为一个关于未来结果的视觉问答问题,利用视觉语言模型的强大能力,实现了更灵活、可扩展的机器人控制 [8][9][18] 模型原理与架构 - 语义世界模型以动作条件的视觉语言模型形式存在,输入包括当前观测图像、拟执行的动作序列以及一个关于未来的自然语言问题,输出为相应的文本回答 [11][20][24] - 模型基于开源的30亿参数视觉语言模型PaliGemma构建,包含Transformer自回归语言模型、SigLIP图像编码器和投影矩阵等核心组件 [24] - 通过引入新的投影矩阵将单个动作映射到语言模型的潜空间,使模型能够以动作为条件回答问题 [24][25] - 模型通过优化标准交叉熵损失进行端到端微调,在语言空间中捕捉环境动态,无需显式生成像素级表征 [26][27] 训练方法与数据 - SWM可在对通用序列数据质量要求极低的情况下训练,训练数据可从任何专家或非专家数据语料库中获取,格式为当前观测结果、行动、关于未来的问题及预期答案 [15] - 训练使用状态-动作-问题-答案数据集,混入次优数据比仅使用专家数据进行训练能提高准确率,结合使用专家和次优数据时在LangTable和OGBench上的准确率分别达到92.92%和96.86% [22][35][36] 实验性能与效果 - 在LangTable和OGBench仿真环境上的评估表明,SWM能够准确回答关于未来结果的问题,并能泛化到新场景中 [17] - 基于SWM的规划方法在LangTable上相比基础策略的平均性能从14.4%提升至81.6%;在OGBench上从45.33%提升至76%,在所有任务上均优于AVD和IDQL基线 [31] - 在处理多步长程任务时,SWM的平均策略改进幅度达52.0%,优于AVD基线 [33][34] - 模型展现出组合泛化能力,在引入新物体或修改颜色-形状组合的条件下,与基础策略相比平均性能提高20.0% [39][40] 模型优势与特性 - SWM继承了基础VLM的泛化能力,能够正确关注图像中与任务相关的位置,即使从未在涉及两个以上物体的问题上微调,也能正确关注三个物体 [41] - 该方法与零阶基于采样的方法以及一阶梯度规划方法都兼容,规划方法在计算上可行,相比常规动作选择方法能在测试时带来显著改进 [16][29][31]
郑智化就“连滚带爬”表述致歉;春秋航空招聘已婚已育空嫂;宗馥莉心腹祝丽丹离职;安徽成汽车产量第一省;长安汽车一4S店起火丨邦早报
创业邦· 2025-10-28 08:10
宏胜集团与娃哈哈人事变动 - 宏胜集团法定代表人祝丽丹已离职,其办公室已由人力资源部副部长寇静接手[3] - 祝丽丹与宗馥莉合作多年,曾因与宗馥莉不太和谐被调至娃哈哈集团乔司基地任副总经理,后因业绩不佳被宗庆后免职[3] - 9月以来祝丽丹曾被有关部门两次传唤,其职位此前变为待定状态[3] 汽车行业动态 - 安徽阜阳一家长安汽车4S店发生火灾,多辆车受损,起火原因目前尚无官方信息[6] - 保时捷回应多款燃油车停产传闻,称此为全球产品研发正常规划,但燃油版Macan并未停产[15] - 零跑汽车宣布纯电紧凑型车Lafa5将于11月7日开启预售,最高续航达605公里,高配车型配备激光雷达[18] - 国家统计局数据显示,2025年安徽汽车产量预计将超过广东,登顶全国第一,两省产量差距已扩大至超过30万辆[20] 科技与AI行业融资与产品发布 - AI初创公司Mercor按100亿美元估值完成3.5亿美元融资,由Felicis领投[15] - 鹏脑科技完成数千万元天使轮融资,资金将用于脑机接口技术研发与产品迭代[15] - JBD完成超10亿元人民币B2轮融资,刷新全球MicroLED微显示领域单笔融资纪录[15] - 蚂蚁集团投资AI科技硬件公司艾德未来智能,该公司专注于智能机器人研发和计算机软硬件制造[15] - 滴普科技香港IPO获得超7500倍超额认购,成为今年港股18C特专科技领域超购王[15] - 美团发布并开源LongCat-Video视频生成模型,实现分钟级长视频连贯生成[16] - MiniMax开源并上线MiniMax M2模型,主要应用于Agent和代码,API价格为每百万Token输入0.3美金[16] 互联网与电商平台动态 - 美团宣布骑手养老保险补贴将于11月全国上线,为行业首个面向全部骑手开放的社保补贴方案,美团承担骑手每月养老保险缴费的一半,以月收入8000元计算,美团每年为一名高频骑手承担9600元[12] - 抖音清退中通冷链,因其提供虚假物流轨迹等违规服务,平台将于10月29日对其进行清退处理[13] - 京东获批香港保险经纪牌照,正式进军香港金融市场,牌照有效期至2028年10月13日[13] - 宋旸已接替邵京平出任京东零售平台营销中心负责人,邵京平因个人原因被辞退[13] - 前天猫精灵总裁彭超创业,新公司云玚科技首款产品为运动可穿戴硬件设备+Agent智能体,项目于10月中旬启动[8] 企业高管任命与战略调整 - 零一万物宣布联合创始人沈鹏飞亮相,统筹公司国内ToB、ToG业务,赵斌强与宁宁晋升为副总裁[10] - 沃尔玛中国任命刘鹏为山姆会员店业态总裁,直接向沃尔玛中国总裁及首席执行官朱晓静汇报[13] - 特斯拉董事会主席呼吁股东投票支持CEO马斯克近1万亿美元的薪酬方案,警告若未获批准特斯拉可能失去马斯克并遭受重大价值损失[13] 消费市场与行业趋势 - 春秋航空宣布启动空嫂专项招聘,面向已婚已育女性开放客舱乘务员岗位,年龄放宽至40岁,学历要求为全日制本科及以上[13] - 西贝莜面村工作日就餐需排队半小时,其积极的补贴策略有效提升客流,有顾客实际消费205元在使用代金券后仅支付5元[13] - Sensor Tower数据显示2025年全球手游内购收入有望增长6%至854亿美元,2028年有望超过1050亿美元[20] - 全国年均产生废旧手机超4亿部,但回收价格偏低和个人信息安全顾虑成为回收的重要阻碍[20] 其他科技与产品新闻 - Keep宣布乒乓球世界冠军孙颖莎出任品牌代言人[14] - 消息称三星首款三折叠手机Galaxy TriFold首发仅限中国、韩国等市场,无缘美国[14] - 报道称苹果地图正计划引入广告,可能允许企业付费在搜索结果中获得置顶广告位[14] - 亚马逊宣布未来三年向荷兰投资逾14亿欧元,支持云科技与零售业务[14] - 法拉利推出首款NFT数字车型F76,致敬76年前勒芒首场胜利[16]
今年CVPR,自动驾驶还能冲什么方向?
自动驾驶之心· 2025-10-28 08:03
行业趋势与市场定位 - CVPR 2026投稿量已超2000篇,预计将超过ICLR投稿量[1] - 行业研究趋势显示,CVPR 2026主旋律可能是世界模型,紧跟2024多模态和2025视频生成的趋势[1] - 公司专注于自动驾驶、具身智能、机器人等交叉学科,深耕多年并拥有顶尖学术资源[3] 公司服务与产品核心 - 提供论文辅导服务,内容包括掌握技术脉络、复现模型、产出论文初稿及投稿指导,目标冲击高区或顶会[2] - 拥有300多名专职老师,来自全球QS排名前100,发表过多篇顶会/子刊/A会/B会论文,近3年辅导学员超400名,中稿率高达96%[5] - 服务流程包括个性化论文指导、导师实时互动、录播回看及课后答疑,提供从选题到中稿的一站式科研服务[13] 目标客户与学员成果 - 目标客户包括有科研需求、从事人工智能领域工作、考研申博留学等群体[14] - 学员案例显示,辅导周期2-4个月可达成SCI、CCF A/B、顶会等成果,例如某学员在3个月内完成CCF B类论文并投稿emnlp顶会[6] - 学员要求自带简历并有一定PyTorch基础,主要方向涵盖三维重建、SLAM、点云处理、计算机视觉等[10] 服务优势与附加价值 - 解决导师放养、知识零散、缺乏科研体系等问题,帮助建立科研思维并熟悉流程[7] - 优秀学员可获得清北/MIT等名校推荐信,或内推至阿里达摩院、华为诺亚方舟等企业研发岗[19] - 提供精准匹配系统,根据学员研究方向、目标期刊和基础水平筛选3-5位导师,并支持试听和退款承诺[18][19]
TeraSim World:用开源方式重建「特斯拉式」世界模型
自动驾驶之心· 2025-10-28 08:03
特斯拉世界模型技术特点 - 神经网络驱动的虚拟世界生成器,根据车辆状态和控制输入实时合成八个摄像头视角的高分辨率视频[2] - 在没有真实相机的情况下预测环境变化,重建连续且空间一致的驾驶画面,支持闭环验证和强化学习[2] - 学习通用的"感知—动作—世界变化"映射,可迁移到机器人等其他平台,成为通用物理智能的基础组件[2] TeraSim World开源框架核心能力 - 在开源条件下实现与特斯拉世界模型同级的生成与评测能力,无需真实地图或传感器背景即可自动生成整个城市环境与交通行为[5] - 基于NeuralNDE和NADE两项奠基性研究,既能再现自然交通行为,又能主动生成突发风险与环境干扰[6] - 模块化全自动数据合成流水线,专为生成端到端自动驾驶所需的真实且安全关键数据而设计[7] 真实地图与交通环境构建 - 用户输入位置或路线后,系统自动从公开地图数据获取当地道路结构和交通情况,识别道路类型并生成数字地图[11] - 从实时交通数据服务自动获取实际车流速度与拥堵状况,模拟符合当地节奏的早晚高峰和拥堵点[13] - 自动检索真实世界道路地图并转换为仿真可用格式,与智能体行为建模后端集成[10] 智能体仿真技术 - 通过学习大量真实驾驶数据生成自然的多车交互行为,如红绿灯前减速、狭窄道路错车、环岛礼让等[16] - 根据真实世界事故概率和强化学习机制自动引入安全关键情境,如前车急停、行人闯红灯等罕见但高风险事件[17] - 输出每个参与者的详细轨迹,描述其在道路上的移动和互动[17] 传感器仿真技术 - 依托NVIDIA开源世界模型Cosmos系列,生成真实感摄像头输入并可扩展到其他传感器类别[18][19] - 使用Google Street View API抓取六个方向街景图像,通过多模态语言模型自动生成语义描述[20] - 生成六个摄像头视角的高分辨率视频,最高分辨率达1280×704,帧率为24 fps,确保跨视角几何对齐和光照一致[25][26] 自动化压力测试框架 - 基于NADE研究成果复现动态风险,并扩展到静态风险和环境风险,如交通锥、施工区域、天气变化等[30] - 系统评估自动驾驶系统在多种复杂环境下的稳定性和安全边界[30] - 支持自动生成和验证不同类型的风险场景[30] 系统应用前景与愿景 - 为自动驾驶安全验证提供可扩展、成本更低的替代方案,减少实车采集和路测需求[31] - 采用开放技术路线,希望成为全球研究者与开发者共享的自动驾驶虚拟试验场[32] - 长期愿景是打造开放的端到端自动驾驶仿真与评测体系,让虚拟道路测试成为实车路测的可靠替代[32]
Efficiency Law, 世界模型引擎驱动的具身智能学习新范式
具身智能之心· 2025-10-28 08:02
文章核心观点 - 具身智能行业正面临从“数据驱动”到“引擎驱动”的根本性范式转变,其核心挑战在于高质量数据的生成效率,而非单纯的算法创新[1][2] - 跨维智能与香港中文大学(深圳)联合提出的“基于生成式仿真的世界模型”(GS-World)是解决数据瓶颈、实现Efficiency Law的关键技术,它通过构建物理精确的仿真环境,为具身智能提供了可自演化、可计算的学习引擎[11][16][18] - GS-World引擎驱动的学习范式有望使具身智能从依赖人工设计转向自主演化,是实现产品级鲁棒性和通用性的必然技术路径[28][29][34] Scaling Law与Efficiency Law - Scaling Law在大语言模型中有效,但其前提是存在海量文本数据,而具身智能领域尚未建立支撑该定律的数据范式,导致其指导作用失效[5] - Efficiency Law是专为具身智能提出的新定律,指出在有限时间内,决定模型性能上限的关键因素是高质量数据的生成速率(r_D),而非单纯增加数据量[5][6] - 当数据生成速率(r_D)过低时,模型会进入“数据稀缺区”,性能无法提升;提高r_D能快速“喂饱”大模型,从而突破性能瓶颈[6] 世界模型的物理精确性挑战 - 当前基于视频生成的世界模型(如Sora)主要追求“视觉逼真”,缺乏对真实物理规律(如摩擦、质量、受力)的理解,容易产生违反物理常识的反事实场景[8] - 具身智能要求世界模型必须具备物理精确性,能够根据动力学、运动学原理预测世界状态变化,并保持时序一致性,以支撑可执行的学习与决策[9] 基于生成式仿真的世界模型(GS-World) - GS-World是一种将生成模型与物理仿真引擎深度融合的新型世界模型,其生成过程显式或隐式地引入物理仿真,确保世界的动态演化遵循真实的力学方程[11] - 该模型不仅生成视觉外观,还同时生成三维资产、物体材质、物理参数与交互规则,从源头上保证运动、碰撞等现象的因果合理性[11][12] - GS-World将视频生成视为“自然副产物”,其本质是一个能够内蕴计算完整物理因果过程的引擎,解决了纯视觉模型的物理一致性问题[13] 引擎驱动的具身智能新范式 - GS-World推动形成了“引擎驱动”的具身智能学习范式,相比被动依赖外部数据的“数据驱动”范式,它能主动生成并仿真物理精确的三维世界,形成“生成—交互—反馈—优化”的闭环[17][24] - 该范式将“世界生成、物理仿真、任务构建、反馈优化”整合为统一引擎,使智能体的训练由被动数据驱动转向主动任务生成与环境演化,是实现Efficiency Law的核心机制[20] - 引擎驱动范式是实现产品级成功率和鲁棒抗干扰性的必然选项,因为它能让智能体在仿真中经历无限真实的交互,自主习得对复杂扰动的补偿策略[27][28][29] GS-World作为技能生成与演化场 - 在GS-World中,机器人技能是通过引擎在物理世界中自然“挖掘”出来的,而非人工设计,技能能抽象、组合与迁移,形成可扩展的智能基元[31][32] - GS-World是具身智能机器人的“演化场”,它使智能体的身体结构、控制策略与环境动力学在同一物理生成机制下共同演化,促使机器人实现身体与智能的协同生长[34] - 该平台让机器人从“人工设计产物”走向“自演化生命体”,是实现通用机器人的关键跃迁平台[34]