Workflow
世界模型
icon
搜索文档
AI与机器人盘前速递丨马斯克旗下xAI公司构建“世界模型”;新益昌正式发布机器人!
每日经济新闻· 2025-10-15 09:11
市场表现 - 科创人工智能ETF华夏收报1.432元,跌幅3.83%,成交额约2.41亿元,成交量1.67亿份,成分股30只中仅1只上涨 [1] - 机器人ETF收报1.009元,跌幅4.09%,成交额达18.25亿元,成交量超17.7亿份,成分股73只中仅1只上涨 [1] - 合合信息逆势上涨1.92%,海得控制逆势上涨4.78%,而双环传动、鸣志电器、绿的谐波、中控技术等板块核心权重股跌幅均超6% [1] 行业动态 - 马斯克旗下xAI公司正构建"世界模型",与Meta和谷歌等对手角逐下一代AI系统,并将游戏与机器人视为验证世界模型的首批应用方向 [2] - 新益昌发布具身智能机器人HOSON-Robot,将人形机器人业务列为公司战略发展核心,并持续在机器人"小脑"运动控制器、混合智能架构模型等领域推进研发 [2] - 亚马逊云科技推出Agentic AI应用Amazon Quick Suite,可连接企业内部知识库及超1000个应用,旨在帮助员工自动化任务和开展深度研究 [2] 机构观点 - 持续看好板块行情,特斯拉第三代新品发布及明年展望逐步清晰利好板块β表现 [3] - 国产链条预计下半年来自于资本运作、订单出货、场景落地等消息将不断催化,建议重视板块布局机会 [3]
复旦SeerDrive:一种轨迹规划和场景演化的双向建模端到端框架
自动驾驶之心· 2025-10-15 07:33
文章核心观点 - 端到端自动驾驶现有方案存在忽略场景动态演化和忽视车辆行为对环境影响两大问题 [1][5] - SeerDrive提出轨迹规划与场景演化的双向建模范式,通过预测未来BEV表示捕捉场景动态,并让规划结果反馈给场景预测优化,形成闭环迭代 [3][4] - 该方法在NAVSIM和nuScenes数据集上达到SOTA性能,PDMS分数达88.9,超越Hydra-NeXt等现有方法 [23][24] SeerDrive设计原理 - 整体pipeline包含特征编码、未来BEV世界建模、未来感知规划、迭代优化四大模块 [4] - 核心是通过"预测未来场景→指导规划→反馈优化场景"的闭环实现双向交互 [4] - 采用解耦策略让当前与未来场景分别指导规划,再通过运动感知层归一化融合结果 [15] 技术实现细节 - 特征编码将多模态传感器输入和车辆自身状态编码为结构化特征,生成当前场景BEV特征图 [7][8] - 未来BEV世界建模基于当前BEV和ego特征预测未来场景演化,生成未来BEV特征而非复杂图像 [10][11] - 未来感知规划采用解耦策略分别利用当前感知与未来场景预判,避免表示混淆 [14][15] - 引入闭环迭代优化强化轨迹规划与场景演化的双向依赖,实验验证迭代2次时性能与效率最优 [16][17][18] 实验验证结果 - NAVSIM测试集上PDMS分数达88.9,超越Hydra-NeXt(88.6)、WoTE(88.3)等方法 [23] - 采用V2-99骨干网络时PDMS进一步提升至90.7,超过GoalFlow的90.3且计算成本更低 [23] - nuScenes验证集平均L2位移误差为0.43m,平均碰撞率为0.06%,显著优于SparseDrive等方法 [24] - 消融实验表明去掉未来感知规划或迭代优化均导致PDMS下降,验证双向建模和迭代优化的关键作用 [26][27] 行业技术对比 - 与UniAD、VADv2等方法仅优化规划过程不同,SeerDrive建模场景演化与规划的双向依赖 [37] - 与世界模型DriveDreamer等生成高保真图像相比,SeerDrive采用BEV表示更轻量且适配规划需求 [44] - 与WoTE仅用世界模型从候选轨迹中选最优不同,SeerDrive将未来BEV作为规划的特征级输入实现深度交互 [44]
学术和量产的分歧,技术路线的持续较量!从技术掌舵人的角度一览智驾的十年路....
自动驾驶之心· 2025-10-15 07:33
自动驾驶技术十年发展回顾 - 自动驾驶行业自2015年蓬勃发展至今已走过十年历程 [3] - 十年间涌现出视觉Transformer、BEV感知、多传感器融合、端到端自动驾驶、大模型、VLA、世界模型等众多闪耀技术 [3] - 自动驾驶的量产方案在技术发展过程中互相碰撞和融合 [3] 圆桌对话核心议题 - 回顾过去10年自动驾驶技术迭代的几个里程碑事件 [13] - 复盘过去两年自动驾驶领域的发展 [13] - 探讨世界模型和VLA的技术路线之争 [4][13] - 分析端到端是否已成为智驾技术栈的基石 [13] - 探讨学术界和工业界对L3自动驾驶的思考 [4][13] - 分析学界研究方向在收敛而工程端在拼落地的现状 [13] - 为新入行的自动驾驶人提供职业发展建议 [4][13] 主讲嘉宾背景 - 崔轲迪担任百度BV风投副总裁 [5] - 孙昊现任博世中央研究院自动驾驶负责人,研究方向为自动驾驶感知和端到端智能系统,拥有新加坡国立大学博士和麻省理工新加坡研究中心博士后经历 [5] - 许凌云现任长安科技泊车业务负责人,拥有中国科学院博士和卡内基梅隆机器人研究所博士后经历,曾获DARPA SUBT无人车挑战赛2019年世界冠军 [5] - 郑文钊为加州大学伯克利分校人工智能实验室博士后研究员,在TPAMI、CVPR等顶级期刊会议发表论文50余篇,谷歌学术引用2700余次 [6] 活动信息 - 圆桌对话定于10月15日晚举行 [9] - 活动由自动驾驶之心运营负责人Gloria和知乎大V刘斯坦共同主持 [7][8] - 完整版深度内容已独家上线知识星球「自动驾驶之心」,涵盖所有技术细节、QA及未公开内容 [17]
马斯克挖角英伟达团队,机器人ETF鹏华(159278)冲刺连续4日净申购
新浪财经· 2025-10-14 11:57
行业核心催化与动态 - 机器人板块近期迎来密集催化,包括技术突破、出口高增及政策支持 [1] - 马斯克旗下xAI从英伟达挖来两名核心研究员Zeeshan Patel和Ethan He,加码机器人领域,并计划将世界模型技术应用于游戏和机器人 [1] - 世界模型是一种能理解物理环境动态特征的生成式AI模型,可利用文字、图像、视频及动作数据生成影片,并实现对现实世界的自主导航与模拟,致力于将AI能力拓展至实体产品 [1] - 海关总署数据显示,2025年前三季度,我国出口工业机器人增长54.9% [1] - 杭州政府研究《杭州市促进具身智能机器人产业发展条例(草案)》等事项,旨在形成产业发展的良好氛围 [2] - 机构观点认为,特斯拉Gen3将实现万台级量产出货,产业主升浪将至,T链核心最优先,同时关注宇树链和figure链 [2] 市场表现与产品 - 截至2025年10月14日11:30,国证机器人产业指数(980022)成分股涨跌互现,奥普光电领涨6.55%,富临精工上涨1.50%,江苏北人上涨1.03%,绿的谐波领跌 [2] - 机器人ETF鹏华(159278)最新报价为1.1元,该ETF紧密跟踪国证机器人产业指数 [2] - 国证机器人产业指数反映沪深北交易所机器人产业相关上市公司的证券价格变化情况 [2] 指数成分与权重 - 截至2025年9月30日,国证机器人产业指数(980022)前十大权重股包括双环传动、科沃斯、石头科技、绿的谐波、机器人、拓普集团、鸣志电器、埃斯顿、汇川技术、富临精工 [3] - 前十大权重股合计占比为42.28% [3]
马斯克背刺英伟达?你投资,我挖角!
搜狐财经· 2025-10-14 09:53
世界模型技术概述 - 世界模型被认为是实现通用人工智能的关键路径,其目标是让AI理解物理规律并进行常识性推理和预测 [3] xAI团队关键人事变动 - xAI引入两位来自英伟达Omniverse平台的核心专家,其专业背景与构建世界模型的理念高度契合 [3] - Zeeshan Patel专注于多模态模型与物理AI,研究方向是教会AI预测物理世界中的互动(如物体滚动、弹跳) [4] - Ethan He深耕视频自监督学习和多模态模型,致力于让AI通过观察视频自主学习世界运行规则,无需人工标注 [4] - 两位专家的加入为xAI的世界模型提供了关键技术支持,旨在提升AI模拟现实和构建沉浸式虚拟环境的能力 [5] 商业应用战略:游戏领域 - xAI计划将世界模型技术首先应用于游戏领域,开发能实时响应玩家行为并动态生成游戏世界的3D游戏 [6] - 该技术旨在使游戏内的互动符合物理逻辑,NPC行为将不再依赖于死板的脚本代码 [6] 商业应用战略:机器人及自动驾驶 - 长远来看,xAI的世界模型技术将应用于机器人和自动驾驶领域,以提升在复杂现实环境中的操作能力 [8] - 在自动驾驶方面,该技术可使AI系统更精准预测其他车辆和行人的动态,从而做出更安全智能的决策 [8] 公司生态协同与行业竞争 - xAI的技术将与特斯拉的自动驾驶、人形机器人以及Neuralink的脑机接口技术形成生态协同,构成集团军作战的独特优势 [9] - 全球科技巨头如谷歌DeepMind、Meta的FAIR和英伟达均在世界模型领域投入巨资,行业竞争激烈 [10] - 此次人事变动被视为xAI在行业竞赛中争夺领先地位的明确信号 [10]
早报|三大运营商eSIM手机业务上线;西贝回应新公司涉及预包装食品;库克在抖音完成直播带货首秀;天府大道车祸系酒驾事故
虎嗅APP· 2025-10-14 08:08
eSIM手机业务商用 - 中国移动、中国联通和中国电信正式启动eSIM手机业务商用试验,中国联通网上预约人数已达68,356人[2][3][4] 苹果新产品发布 - 苹果CEO库克在抖音直播宣布iPhone Air将于下周在中国正式发售,直播观看人数持续保持在10万以上[5] 中美航运政策 - 中方对美船舶收取特别港务费正式施行,豁免中国建造船舶及进入中国船厂修理的空载船舶[7][8] - 中美双方自10月14日起相互对对方船舶征收高额港口费,中方按每净吨400元起征,美方对中资船舶每净吨50美元起征[28] 微软操作系统支持 - 微软将于2025年10月14日停止对Windows10系统提供安全更新和技术支持,建议用户升级至Windows11或参加扩展安全更新计划[9][10] 人工智能芯片合作 - OpenAI与博通宣布战略合作,计划于2026年推出定制数据中心芯片,部署10吉瓦的AI加速器,博通盘前股价上涨12%[11] 无人机行业竞争 - 大疆多款产品降价促销,影石CEO公开致歉并为其客户提供100元无门槛代金券,引发行业竞争关注[14][15] 半导体行业动态 - 荷兰政府计划对闻泰科技旗下安世半导体采取限制措施,中方表示反对将经贸问题政治化[26][27] 人工智能技术发展 - 马斯克旗下xAI公司加速研发"世界模型",计划2025年底推出AI生成游戏,突破文本局限实现具身智能[29] 企业高层变动 - 万科企业董事长辛杰因个人原因辞职,选举黄力平为新任董事长[21] 企业业务澄清 - 西贝注册新公司澄清不涉及预制菜新业务,主营业务为餐饮服务及预包装食品销售[22] 社交媒体技术故障 - 小红书出现图片评论无法显示等技术故障,官方回应已恢复正常[23][24]
马斯克从英伟达挖人做AI游戏!第一步:研发世界模型
具身智能之心· 2025-10-14 08:02
xAI入局世界模型 - 马斯克的xAI公司已正式进入世界模型研发领域,加入与Google DeepMind、Meta、英伟达等巨头的竞争 [2][7][8] - 为增强实力,xAI于2024年夏季从英伟达挖来多名资深研究员,包括Zeeshan Patel和Ethan He [2][9][16] 核心人才引进 - Zeeshan Patel于2024年5月硕士毕业于UC伯克利,研究方向为深度学习、生成模型和物理人工智能,此前曾在英伟达研究院从事生成式世界模型研究 [10][11] - Ethan He本科毕业于西安交通大学,在CMU获得计算机视觉硕士学位,其Google Scholar被引数高达8495,在加入xAI前于英伟达从事MoE模型、多模态模型和世界模型研究 [12][13][15][16] - 两位研究员均参与了英伟达Omniverse平台的核心开发工作,该平台是全球最成熟的物理一致性仿真系统之一 [18][19][20] 世界模型的战略意义与技术路径 - 世界模型被视为实现AGI(通用人工智能)的核心底座,其目标是让AI系统真正理解和推理物理3D世界,而不仅限于文本处理 [23][24][26] - xAI计划将英伟达在图形与物理模拟领域的积累(如Omniverse技术)应用到自家的世界模型体系中 [21][22] - 世界模型的应用前景广泛,可驱动AI游戏、智能体、自动驾驶乃至具身智能机器人 [38][39] 游戏领域作为首要落地场景 - xAI入局世界模型后的首批落点可能是电子游戏,团队正尝试让AI自动生成自适应、逼真的3D场景,并能根据玩家行为实时变化 [30][31] - 马斯克设下目标,计划在2026年底前推出一款由世界模型驱动的AI生成游戏 [3][32] - 为达成目标,xAI正在组建全模态团队(Multimodal Team),并公开招聘“电子游戏导师”(Video Games Tutor),时薪45–100美元,旨在向模型讲解游戏机制与设计逻辑 [33][34][35][36] 马斯克AI帝国的协同效应 - xAI的使命是“让AI理解宇宙的本质”,世界模型是实现该目标的关键路径 [37] - xAI、特斯拉、Neuralink、X平台之间可能形成协同效应:xAI研发模型,特斯拉提供机器人和自动驾驶数据,Neuralink提供脑机接口,X平台则作为社交与实时反馈渠道 [40][41]
开放几个自动驾驶技术交流群(世界模型/端到端/VLA)
自动驾驶之心· 2025-10-14 07:33
技术交流社群 - 自动驾驶行业成立了专注于前沿技术方向的技术交流群 [1] - 技术交流群覆盖世界模型、端到端、VLA等当前行业重点研究方向 [1]
《大模型的第一性思考》李建忠对话GPT5与Transformer发明者Lukasz Kaiser实录
36氪· 2025-10-13 18:46
对话一:语言对于智能到底意味着什么? - 语言模型在智能构建中扮演核心角色,其成功源于对语言在智能中核心作用的认知,ChatGPT和Transformer的成功均得益于此[6][9] - 语言具备时间维度,总是在生成下一个词,而序列模型(如Transformer)可处理包括语言、蛋白质、音频在内的各种序列,时间序列是表达智能的重要组成部分[7] - 语言训练具有实践优势,互联网上海量的语言数据使得训练非常方便且成本远低于视频训练[9] - 语言模型确实会形成独立于语言的抽象概念,例如在解决数学问题时,尽管用不同语言生成答案,但解题方式和错误类型相同,表明模型在抽象空间进行思考[10] - 然而,未经过大量多模态数据训练的模型,其概念(如"痛苦"或"爱")可能与人类植根于物理世界的真实感受有所不同[11] 对话二:多模态与世界模型的挑战 - 现代大语言模型(如GPT-4)已是多模态模型,能接收和生成图像、音频,并已取得巨大进展,例如ChatGPT的语音模式可以对话、唱歌[12] - 当前多模态处理方式(如通过VQ-VAE将图像/音频编码为特殊代码)有效但不令人满意,未来需要更深入地将多模态融合到模型中,使编码更具可训练性并与语言有更多交互[13] - 语言对于为视觉对象赋予语义含义至关重要,否定语言价值的视觉派研究可能重蹈ChatGPT发布前的错误路线[14] - 现代大语言模型在某种程度上已是世界模型,在文本和数学方面表现卓越,但作为物理模型的表现不如语言模型,部分原因是视频训练数据不足、质量不佳及当前架构限制[14] - 通过改进架构、损失函数并增加更好更多的数据,结合像Sora、Genie和Veo这类从视频学习的模型,正在弥合"世界模型"与"语言模型"之间的差距[15] 对话三:AI编程:自然语言是终极目标,还是新的"巴别塔"? - Transformer架构的创造者在早期就已预见其在自动化编程方面的应用潜力[17] - 未来语言模型将能覆盖大量编程工作,但数学符号和编程语言作为沟通工具,在解释复杂概念时比纯自然语言更高效,因此专业程序员仍需掌握这些概念以实现与模型的快速、高效沟通[18] - 编程的重点在于沟通和抽象,而非特定语言,AI有望帮助更好地使用现有编程语言来改进系统,而非必然需要创造新的为AI设计的编程语言[19] - 新的编程语言需求将来自新的计算硬件架构,而非AI编程本身[20] 对话四:Agent的泛化困境:是方法问题,还是根本限制? - 所谓的"智能体模型"通常指在其推理过程中能调用外部工具(如代码解释器、网络搜索)的推理模型,这些模型使用强化学习训练且效果良好[21] - Agent泛化问题的主要挑战在于缺乏学习信号,当模型使用未经训练的工具时,没有像强化学习训练那样的反馈机制来检查答案正确性[22] - 要实现出色的多智能体系统,需要能够模拟整个环境进行训练,而这在当前难以实现,但即使没有大量训练,聪明的模型也能零样本完成许多任务[23] 对话五:算力与算法:Scaling Law是信仰还是路径依赖? - 预训练的Scaling Law已带来巨大进展,但存在经济上的实践极限,因为用户不愿为每个token支付过高费用,且大模型可被蒸馏成更小模型[25] - 预训练的Scaling Law在解决某些问题(如GSM-8K数学数据集)时速度不可行,而强化学习推理能用小模型解决相同问题,显示出更高的数据效率[26] - 推理模型的Scaling Law(通过强化学习让模型运行更长时间以提升性能)受限于Transformer的上下文长度设计以及强化学习在长序列推理中的信用分配问题[27] - 推理的Scaling Law与预训练的Scaling Law有不同限制,这呼唤新的研究和可能的架构或强化学习算法改进[28] 对话六:具身智能的挑战:是数据问题?还是比特和原子的根本性差异? - 具身智能可能更接近于当前的大语言模型,数据效率正在提高,例如推理模型能用极少样本学会困难任务[29] - 实现具身智能需要一个在大量视频上预训练好的多模态模型作为基础,再结合强化学习进行推理训练,但需要调整架构以适应现实世界行动的速度要求[30] - 第一个版本的具身智能模型可能基于现有成果调整,但未来会出现数据和计算更高效的新一代模型[31] 对话七:强化学习:是超级优化器,还是科学发现的引擎? - 由强化学习驱动的推理模型可被视为一种数据效率更高的新架构或范式,能够从有限数据(如1000道数学题)中学习[32][33] - 强化学习只依赖一个奖励信号,若优化得当,模型有望从研究论文中学习并提出连专业人员都觉得新颖的想法,推动科学发现[33] - 该范式仍处于早期阶段(社区广泛关注约一年),需要更多尝试、发现和改进以提升效率和应用范围[34] 对话八:AI的组织跃迁:如何实现大规模Agent协作? - 实现大规模Agent组织(如成千上万个Agent协作)的最大挑战在于开发下一代推理模型,需要类似Transformer之于RNN的架构创新[35] - 当前推理模型顺序生成token的方式缺乏并行性,未来需要为并行过程提供更多信号,并结合新的架构来融入并行处理[36] 对话九:AI记忆的瓶颈:模型离真正的"原生记忆"还有多远? - 通过将记忆作为工具(如访问互联网或记忆库)并结合强化学习训练,模型可以有效地解决记忆问题,当前方案已相当可行[37][38] - 未来可能出现更优雅的记忆机制,如将记忆转化为连续的向量或通过类似LoRA的适配器微调模型权重,但这仍是待研究的问题[40] 对话十:大模型如何摆脱瞬时学习,而像人类一样持续学习? - 利用上下文学习作为持续学习的记忆是当前已实现的进展,模型将对话信息放入上下文进行处理,但效率并非最高[39] - 通过记忆工具和像LoRA这样的适配器微调技术,实质性修改权重已变得更加可行,为持续学习提供了基础,但如何优化算法仍是研究重点[40] - 下一代推理架构有望实现更并行的处理,推动模型在科学发现等领域的应用,未来并不遥远[41]
Meta最新论文解读:别卷刷榜了,AI Agent的下一个战场是“中训练”
36氪· 2025-10-13 15:19
AI行业竞争焦点转变 - 2025年AI竞争焦点从跑分比拼转向Agent自主完成复杂长程任务的能力 [1] - 行业巨头如xAI和Anthropic发布新品时均强调同一能力 [1] - AI的下一战场被明确为通用Agent [2] Agent落地的现实瓶颈 - 除编程领域外,Agent落地应用寥寥无几 [2] - 核心瓶颈之一是反馈机制的困境 [2] - 现有反馈机制要么太弱要么太贵,阻碍预训练模型蜕变为强大Agent [2] 主流Agent训练方法的局限性 - 模仿学习(监督微调)依赖昂贵静态反馈,高质量专家数据难以大规模生产 [4] - 模仿学习导致模型泛化能力极差,无法适应训练数据外的情况 [4] - 强化学习依赖复杂动态反馈,在真实世界任务中奖励信号常缺失、稀疏或延迟 [5] - 强化学习应用高度依赖精心设计的奖励函数或人工调整的训练流程 [5] Meta提出的“中训练”范式 - Meta等机构在2025年10月论文中提出“早期经验”的“中训练”范式 [2][7] - 该范式利用Agent自己探索产生的状态变化作为宝贵的学习信号 [7] - 设计两种具体训练策略:隐式世界建模和自我反思 [7] 隐式世界建模策略 - 让Agent学会预测“如果我这么做,世界会变成什么样” [9] - 具体步骤包括自我尝试、记录数据、微调训练预测能力 [9] - 通过大量“作死”和观察后果,让Agent悟出世界运行规律 [10] 自我反思策略 - 让Agent学会解释“为什么专家的做法比我的其他想法更好” [11] - 具体步骤包括自我尝试、教练点评、微调训练预思考能力 [11] - 训练Agent学会先生成反思推理再输出正确动作 [11] “中训练”范式的有效性验证 - 在8个多样化环境中测试显示,平均成功率比传统模仿学习提升9.6% [15] - 在未见过的任务上表现提升9.4%,显示强大泛化能力 [15] - 作为强化学习初始化时,最终性能提升最多6.4% [15] - 提升在不同复杂度的环境中保持稳定 [17] “中训练”的理论基础与价值 - 谷歌DeepMind研究证明成功Agent内部必须拥有准确“世界模型” [18] - 传统模仿学习只学习从状态到行为的浅层映射 [20] - “早期经验”补上了建立世界因果理解的关键课程 [21] - 可能需“预训练+中训练+后训练”三段式训练范式通往通用Agent [23] 参数效率与新Scaling Law可能性 - “早期经验”展示通过自我递归训练释放参数潜力的可能性 [25][27] - 700M参数小模型经训练后可在某些任务上超越参数量大十几倍的大模型 [25] - 传统增加参数量的做法边际收益递减很快 [27] - 可能预示一个新的属于Test Time Compute的Scaling Law [28]