Workflow
世界模型
icon
搜索文档
极佳视界与湖北人形机器人创新中心将共建具身智能数据工厂
新浪财经· 2025-10-28 23:33
合作公告 - 极佳视界与湖北人形机器人创新中心于10月28日在武汉东湖高新区宣布达成战略合作 [1] - 双方将共建“世界模型驱动的虚实结合具身智能数据工厂” [1] - 作为战略合作的重要组成部分,双方同步发布了视觉-语言-动作基础模型GigaBrain-0 [1] 技术发布 - 发布的GigaBrain-0是基于世界模型生成数据实现真机泛化的VLA基础模型 [1]
全球首个世界模型具身智能数据工厂落址武汉
中国新闻网· 2025-10-28 17:10
中新网武汉10月28日电 (记者武一力)全球首个"世界模型驱动的虚实结合具身智能数据工厂"项目28日在 武汉东湖高新区签约。该工厂由湖北人形机器人创新中心与科技企业极佳视界共建,将成为让人形机器 人自主应对复杂现实的"超级课堂"。 湖北人形机器人创新中心相关负责人表示,工厂将借助世界模型技术,通过高真实度的世界模型,生成 大规模、多样性的合成数据,构建具身智能全面的数据体系。这些数据将支撑"一脑多形"具身基础模型 研发,赋能不同形态、不同任务的机器人本体,为机器人企业建立一个共享"资料库"。此外,工厂的建 设也将助力湖北打造全球知名的人形机器人产业高地。(完) (文章来源:中国新闻网) 10月28日,一台机器人在湖北人形机器人创新中心整理餐具。中新社记者武一力摄 极佳视界算法负责人叶云介绍,当前市面主流的工业臂机器人,普遍采用标准化编程系统,只能在特定 环境里做特定动作。想要让机器人要变得更聪明,需要大量学习、不断成长,这个工厂就能为机器人提 供充足的"学习资料"。 "世界模型作为一种能够模拟物理世界运行规律的先进技术,就像给机器人安装了'想象力引擎',不需 要预先编程。例如,一个瓶子意外掉落,机器人能实时感 ...
高通推AI芯片与英伟达竞争;美团骑手社保补贴上线丨科技风向标
21世纪经济报道· 2025-10-28 11:49
巨头业务动态 - 美团发布LongCat-Video视频生成模型,参数13.6B,可稳定输出5分钟级别长视频 [2] - 京东启动"国民好车"交付中心全国招募计划,旨在整合4S店及服务门店构建销售交付网络 [3] - 美团骑手养老保险补贴正式全国上线,预计覆盖超过数百万人 [4] - 沃尔玛中国任命前阿里高管刘鹏为山姆会员店业态总裁 [5] - 滴滴在墨西哥上线500辆纯电动汽车,来自广汽埃安和江汽集团,并计划到2030年在墨西哥引入10万辆电动车 [5] 供应链与制造 - 领益智造近期获得行业头部客户百余台整机组装业务订单,其"领珑"机器人已获规模化订单 [7] - 震裕科技计划在2025-2030年间投资21.1亿元建设人形机器人精密模组及零部件项目 [10] - 中通冷链(中通子公司)因提供"虚假物流轨迹"等服务被抖音电商清退 [6] 能源与基建项目 - 亨通光电控股子公司中标总金额18.68亿元海上风电等海洋能源项目,包括辽宁丹东东港一期100万千瓦海上风电项目 [8] - 溯联股份拟投资2.01亿元在重庆建设智能算力液冷研发中心及电池热管理系统研发生产基地 [16][17] 半导体与芯片 - 高通推出新一代数据中心AI推理优化解决方案,包括AI200和AI250芯片,挑战英伟达 [11] - 澜起科技成功量产DDR5第四子代RCD芯片,数据传输速率最高达7200MT/s,较上一代提升超过12.5% [12] - 老鹰半导体完成B+轮融资,融资规模超7亿元,创下国内VCSEL领域创业公司单轮融资最高纪录 [15] - 汇通能源拟出资1.84亿元受让半导体光罩制造企业兴华芯7.43%股权 [18] 资本市场与融资 - 均胜电子在港上市拟发行约1.55亿股H股,最高发售价每股23.60港元,预计11月6日开始交易 [13] - 凌志软件筹划发行股份及支付现金购买凯美瑞德控股权并募集配套资金,公司股票自10月28日起停牌 [14] - 国仪量子完成1.31亿元战略融资,投资方为兴泰资本,资金将用于研发投入和市场布局 [19] 消费电子与汽车新品 - 华为鸿蒙智行旗舰享界S9将于11月上市,纯电版驱动电机最大功率227千瓦 [20] - 一加15发布,搭载高通第五代骁龙8至尊版平台,全球首发165Hz高分高刷屏,售价3999元至5399元,公司2025年销量同比增长36.7% [21] - 影石创新预计其影翎Antigravity全景无人机产品有望于2025年第四季度实现部分区域市场试售 [9]
世界模型==VQA?机器人不用想象画面,预测语义就够了
机器之心· 2025-10-28 08:41
编辑:张倩 对于机器人来说,世界模型真的有必要想象出精确的未来画面吗?在一篇新论文中,来自华盛顿大学、索尼 AI 的研究者提出了这个疑问。 机器之心报道 众所周知,世界模型是一种让 AI「想象未来」的学习方法。它可以从大量数据中学习世界的运行规律,然后根据当前状态预测未来可能发生的事情。这种能力非 常关键,因为如果 AI 能对未来做出合理预测,就能提前规划出更聪明、更稳健的行动策略。 在实践中,世界模型的实现形式多种多样,从小规模的基于状态的动力学模型,到大型的基于动作条件的视频预测模型都有。但无论形式如何,大多数模型都会 尝试「还原未来的画面」。这种方法虽然常常能生成逼真的图像,但却不一定适合用来做决策。原因在于:图像看起来再真实,也可能漏掉一些真正关键的语义 细节 —— 比如两个物体是否真的发生了接触。 过去有一些方法尝试只建模「与任务相关」的信息,但这类方法往往需要额外的假设,比如必须知道奖励函数或任务中某些已知因素。这让它们在实际使用中变 得不太灵活。 如果像素信息并非规划所必需,那么做出行动决策所真正需要的是什么? 这篇论文提出: 能够预测关于未来结果的语义信息就足够了 。世界模型不应再专注于预测原 ...
郑智化就“连滚带爬”表述致歉;春秋航空招聘已婚已育空嫂;宗馥莉心腹祝丽丹离职;安徽成汽车产量第一省;长安汽车一4S店起火丨邦早报
创业邦· 2025-10-28 08:10
宏胜集团与娃哈哈人事变动 - 宏胜集团法定代表人祝丽丹已离职,其办公室已由人力资源部副部长寇静接手[3] - 祝丽丹与宗馥莉合作多年,曾因与宗馥莉不太和谐被调至娃哈哈集团乔司基地任副总经理,后因业绩不佳被宗庆后免职[3] - 9月以来祝丽丹曾被有关部门两次传唤,其职位此前变为待定状态[3] 汽车行业动态 - 安徽阜阳一家长安汽车4S店发生火灾,多辆车受损,起火原因目前尚无官方信息[6] - 保时捷回应多款燃油车停产传闻,称此为全球产品研发正常规划,但燃油版Macan并未停产[15] - 零跑汽车宣布纯电紧凑型车Lafa5将于11月7日开启预售,最高续航达605公里,高配车型配备激光雷达[18] - 国家统计局数据显示,2025年安徽汽车产量预计将超过广东,登顶全国第一,两省产量差距已扩大至超过30万辆[20] 科技与AI行业融资与产品发布 - AI初创公司Mercor按100亿美元估值完成3.5亿美元融资,由Felicis领投[15] - 鹏脑科技完成数千万元天使轮融资,资金将用于脑机接口技术研发与产品迭代[15] - JBD完成超10亿元人民币B2轮融资,刷新全球MicroLED微显示领域单笔融资纪录[15] - 蚂蚁集团投资AI科技硬件公司艾德未来智能,该公司专注于智能机器人研发和计算机软硬件制造[15] - 滴普科技香港IPO获得超7500倍超额认购,成为今年港股18C特专科技领域超购王[15] - 美团发布并开源LongCat-Video视频生成模型,实现分钟级长视频连贯生成[16] - MiniMax开源并上线MiniMax M2模型,主要应用于Agent和代码,API价格为每百万Token输入0.3美金[16] 互联网与电商平台动态 - 美团宣布骑手养老保险补贴将于11月全国上线,为行业首个面向全部骑手开放的社保补贴方案,美团承担骑手每月养老保险缴费的一半,以月收入8000元计算,美团每年为一名高频骑手承担9600元[12] - 抖音清退中通冷链,因其提供虚假物流轨迹等违规服务,平台将于10月29日对其进行清退处理[13] - 京东获批香港保险经纪牌照,正式进军香港金融市场,牌照有效期至2028年10月13日[13] - 宋旸已接替邵京平出任京东零售平台营销中心负责人,邵京平因个人原因被辞退[13] - 前天猫精灵总裁彭超创业,新公司云玚科技首款产品为运动可穿戴硬件设备+Agent智能体,项目于10月中旬启动[8] 企业高管任命与战略调整 - 零一万物宣布联合创始人沈鹏飞亮相,统筹公司国内ToB、ToG业务,赵斌强与宁宁晋升为副总裁[10] - 沃尔玛中国任命刘鹏为山姆会员店业态总裁,直接向沃尔玛中国总裁及首席执行官朱晓静汇报[13] - 特斯拉董事会主席呼吁股东投票支持CEO马斯克近1万亿美元的薪酬方案,警告若未获批准特斯拉可能失去马斯克并遭受重大价值损失[13] 消费市场与行业趋势 - 春秋航空宣布启动空嫂专项招聘,面向已婚已育女性开放客舱乘务员岗位,年龄放宽至40岁,学历要求为全日制本科及以上[13] - 西贝莜面村工作日就餐需排队半小时,其积极的补贴策略有效提升客流,有顾客实际消费205元在使用代金券后仅支付5元[13] - Sensor Tower数据显示2025年全球手游内购收入有望增长6%至854亿美元,2028年有望超过1050亿美元[20] - 全国年均产生废旧手机超4亿部,但回收价格偏低和个人信息安全顾虑成为回收的重要阻碍[20] 其他科技与产品新闻 - Keep宣布乒乓球世界冠军孙颖莎出任品牌代言人[14] - 消息称三星首款三折叠手机Galaxy TriFold首发仅限中国、韩国等市场,无缘美国[14] - 报道称苹果地图正计划引入广告,可能允许企业付费在搜索结果中获得置顶广告位[14] - 亚马逊宣布未来三年向荷兰投资逾14亿欧元,支持云科技与零售业务[14] - 法拉利推出首款NFT数字车型F76,致敬76年前勒芒首场胜利[16]
今年CVPR,自动驾驶还能冲什么方向?
自动驾驶之心· 2025-10-28 08:03
行业趋势与市场定位 - CVPR 2026投稿量已超2000篇,预计将超过ICLR投稿量[1] - 行业研究趋势显示,CVPR 2026主旋律可能是世界模型,紧跟2024多模态和2025视频生成的趋势[1] - 公司专注于自动驾驶、具身智能、机器人等交叉学科,深耕多年并拥有顶尖学术资源[3] 公司服务与产品核心 - 提供论文辅导服务,内容包括掌握技术脉络、复现模型、产出论文初稿及投稿指导,目标冲击高区或顶会[2] - 拥有300多名专职老师,来自全球QS排名前100,发表过多篇顶会/子刊/A会/B会论文,近3年辅导学员超400名,中稿率高达96%[5] - 服务流程包括个性化论文指导、导师实时互动、录播回看及课后答疑,提供从选题到中稿的一站式科研服务[13] 目标客户与学员成果 - 目标客户包括有科研需求、从事人工智能领域工作、考研申博留学等群体[14] - 学员案例显示,辅导周期2-4个月可达成SCI、CCF A/B、顶会等成果,例如某学员在3个月内完成CCF B类论文并投稿emnlp顶会[6] - 学员要求自带简历并有一定PyTorch基础,主要方向涵盖三维重建、SLAM、点云处理、计算机视觉等[10] 服务优势与附加价值 - 解决导师放养、知识零散、缺乏科研体系等问题,帮助建立科研思维并熟悉流程[7] - 优秀学员可获得清北/MIT等名校推荐信,或内推至阿里达摩院、华为诺亚方舟等企业研发岗[19] - 提供精准匹配系统,根据学员研究方向、目标期刊和基础水平筛选3-5位导师,并支持试听和退款承诺[18][19]
TeraSim World:用开源方式重建「特斯拉式」世界模型
自动驾驶之心· 2025-10-28 08:03
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 作者 | Jiawei Wang等 编辑 | 自动驾驶之心 最近,特斯拉在其技术演讲中首次系统展示了内部使用的世界模型(World Model)。特斯拉的世界模型是一个神经网络驱动的虚拟世界生成器,它能根据车辆的 状态和控制输入(转向、油门、刹车)实时合成八个摄像头视角的高分辨率视频。 这使系统能在没有真实相机的情况下预测环境变化,重建连续、空间一致的驾驶画面。它的主要作用是支持闭环验证:可以重放历史问题场景、注入新的对抗事 件、并在虚拟环境中实时控制车辆,用于测试和强化学习。由于模型学到的是通用的"感知—动作—世界变化"映射,它还能迁移到机器人等其他平台,成为通用物 理智能的基础组件。这意味着系统不再只是被动地看见世界,而是能够在内部模拟中理解世界的反应。 TeraSim-World:开放的全栈端到端自动驾驶仿真世界模型 与此同时,密歇根大学、SaferDrive AI、香港大学和清华大学的研究团队发布了一个开源框架: TeraSim World: Wor ...
Efficiency Law, 世界模型引擎驱动的具身智能学习新范式
具身智能之心· 2025-10-28 08:02
文章核心观点 - 具身智能行业正面临从“数据驱动”到“引擎驱动”的根本性范式转变,其核心挑战在于高质量数据的生成效率,而非单纯的算法创新[1][2] - 跨维智能与香港中文大学(深圳)联合提出的“基于生成式仿真的世界模型”(GS-World)是解决数据瓶颈、实现Efficiency Law的关键技术,它通过构建物理精确的仿真环境,为具身智能提供了可自演化、可计算的学习引擎[11][16][18] - GS-World引擎驱动的学习范式有望使具身智能从依赖人工设计转向自主演化,是实现产品级鲁棒性和通用性的必然技术路径[28][29][34] Scaling Law与Efficiency Law - Scaling Law在大语言模型中有效,但其前提是存在海量文本数据,而具身智能领域尚未建立支撑该定律的数据范式,导致其指导作用失效[5] - Efficiency Law是专为具身智能提出的新定律,指出在有限时间内,决定模型性能上限的关键因素是高质量数据的生成速率(r_D),而非单纯增加数据量[5][6] - 当数据生成速率(r_D)过低时,模型会进入“数据稀缺区”,性能无法提升;提高r_D能快速“喂饱”大模型,从而突破性能瓶颈[6] 世界模型的物理精确性挑战 - 当前基于视频生成的世界模型(如Sora)主要追求“视觉逼真”,缺乏对真实物理规律(如摩擦、质量、受力)的理解,容易产生违反物理常识的反事实场景[8] - 具身智能要求世界模型必须具备物理精确性,能够根据动力学、运动学原理预测世界状态变化,并保持时序一致性,以支撑可执行的学习与决策[9] 基于生成式仿真的世界模型(GS-World) - GS-World是一种将生成模型与物理仿真引擎深度融合的新型世界模型,其生成过程显式或隐式地引入物理仿真,确保世界的动态演化遵循真实的力学方程[11] - 该模型不仅生成视觉外观,还同时生成三维资产、物体材质、物理参数与交互规则,从源头上保证运动、碰撞等现象的因果合理性[11][12] - GS-World将视频生成视为“自然副产物”,其本质是一个能够内蕴计算完整物理因果过程的引擎,解决了纯视觉模型的物理一致性问题[13] 引擎驱动的具身智能新范式 - GS-World推动形成了“引擎驱动”的具身智能学习范式,相比被动依赖外部数据的“数据驱动”范式,它能主动生成并仿真物理精确的三维世界,形成“生成—交互—反馈—优化”的闭环[17][24] - 该范式将“世界生成、物理仿真、任务构建、反馈优化”整合为统一引擎,使智能体的训练由被动数据驱动转向主动任务生成与环境演化,是实现Efficiency Law的核心机制[20] - 引擎驱动范式是实现产品级成功率和鲁棒抗干扰性的必然选项,因为它能让智能体在仿真中经历无限真实的交互,自主习得对复杂扰动的补偿策略[27][28][29] GS-World作为技能生成与演化场 - 在GS-World中,机器人技能是通过引擎在物理世界中自然“挖掘”出来的,而非人工设计,技能能抽象、组合与迁移,形成可扩展的智能基元[31][32] - GS-World是具身智能机器人的“演化场”,它使智能体的身体结构、控制策略与环境动力学在同一物理生成机制下共同演化,促使机器人实现身体与智能的协同生长[34] - 该平台让机器人从“人工设计产物”走向“自演化生命体”,是实现通用机器人的关键跃迁平台[34]
发布并开源视频生成模型,美团在AI赛道潜行
北京商报· 2025-10-27 20:33
公司AI战略与模型发布 - 公司于2024年将集团战略从"Food+Platform"升级为"零售+科技",明确将AI、机器人、自动驾驶等作为未来核心方向 [7] - 公司在2024财年业绩发布会上正式明确AI战略,通过AI at Work、AI in Products、BuildingLLM三层架构推动技术落地 [8] - 公司LongCat团队在2024年9月至10月期间连续发布并开源三款大模型,包括大语言模型LongCat-Flash-Chat、高效推理模型LongCat-Flash-Thinking以及视频生成模型LongCat-Video [3] 大模型技术细节与性能 - 大语言模型LongCat-Flash-Chat采用混合专家模型架构,总参数5600亿,激活参数186亿至313亿,平均270亿 [3] - 视频生成模型LongCat-Video以统一模型在文生、图生视频基础任务上达到开源最先进水平,可稳定输出5分钟级别长视频且无质量损失 [2][3][4] - LongCat-Video模型参数为136亿,在文生视频、图生视频核心任务中综合性能达到开源最先进水平,在文本对齐度、运动连贯性等关键指标上展现显著优势 [5] 模型应用与内部推广 - 公司自研LongCat大模型结合外部模型为员工推出AI编程、智能会议、文档助手等工具,其API调用量占比从年初10%增长至68% [8] - 公司已上线多款AI应用,包括AI图像生成应用"妙刷"、餐饮推荐问答AI助手问小袋与米鲁、以及支持前端开发等功能的AI编程应用NoCode [8] - 视频生成模型被视为探索"世界模型"的第一步,未来将融入公司自动驾驶、具身智能等业务场景,连接"比特世界"和"原子世界" [7] 行业观点与外部反馈 - 有行业从业者认为公司开发视频生成模型不意外,因其自身有内容需求,且视频模型可为具身智能提供模拟数据 [5] - 有观点认为公司与大模型尤其是视频大模型没有必然联系,客户对视频生成的需求可能不大 [6] - 行业从业者指出评估模型能力可参考同行反馈,看其他公司在发布新模型时是否愿意与之对比 [5]
美团发布并开源视频生成模型:部分参数比肩谷歌最先进模型Veo3
观察者网· 2025-10-27 18:52
模型发布与技术定位 - 美团LongCat团队发布并开源视频生成模型LongCat-Video,该模型在文生视频和图生视频基础任务上达到开源SOTA水平[1] - 模型采用多任务联合训练机制,可在同一框架内处理零帧、单帧及多帧条件输入,区别于以往针对单一任务训练的模型[1] - 该模型的推出被视为公司迈向构建“世界模型”目标的关键一步,未来将与自动驾驶、具身智能等业务相结合[3] 核心技术突破与性能 - 模型原生支持生成长达5分钟、720p分辨率、30帧率的高清视频,重点解决了长时序生成中画面漂移、色彩偏移等难题[3][6] - 通过视频续写预训练、块稀疏注意力等机制,模型保持了较高的时间一致性与视觉稳定性,生成视频动作流畅、镜头移动自然[3][6][9] - 采用“二阶段粗到精生成+块稀疏注意力+模型蒸馏”三重优化,视频推理速度提升至10.1倍,实现了效率与质量的最优平衡[6] 评测表现与行业对比 - 在内部评测中,模型在文生视频任务的视觉质量得分几乎与谷歌Veo3持平,整体质量超越了PixVerse-V5和国内开源模型Wan2.2[8] - 在公开评测平台VBench 2.0上,LongCat-Video在“常识理解”一项中以70.94%的得分位居所有开源模型第一,总分达到62.11%[12] - 在文本对齐度上表现略差于Veo3,在图生视频任务的图像一致性和动作连贯性上仍有改进空间[9]