Workflow
世界模型
icon
搜索文档
华尔街见闻早餐FM-Radio | 2025年10月13日
华尔街见闻· 2025-10-13 07:17
市场表现与资产动态 - 美股大幅下跌,标普500指数收跌2.71%至6552.51点,纳斯达克指数收跌3.56%至22204.43点,均创半年最大跌幅 [6][9] - 避险资产受追捧,美国10年期国债收益率日内跳水超10个基点至约4.03%,COMEX 12月黄金期货全周累涨约2.3% [6][9] - 加密货币市场重挫,比特币曾跌超10%至10万美元附近,全网杠杆仓位蒸发191亿美元,超过162万交易员被强制平仓 [6][21] 中美贸易与产业政策 - 中国商务部回应美方关税措施,表示对稀土等物项实施出口管制而非禁止出口,并宣布针对美对华造船等行业301调查实施反制 [4][13][20] - 上海提出加快培育硅光、6G、第四代半导体、类脑智能等前沿产业,重点支持优化产品设计、拓展应用场景 [4][14] - 美国正式公布对中国船舶征收额外港口费细则,行业分析认为将扰乱全球航运市场秩序并反向传导至美国国内供应链与通胀水平 [20] 科技与人工智能发展 - 马斯克旗下xAI加入“世界模型”竞赛,计划率先将该技术用于AI游戏生成,长远可能用于机器人AI系统 [8][17] - 中央网信办与国家发改委发布指引,强调以统筹集约方式开展政务领域人工智能大模型部署,防止形成“模型孤岛” [18] - 英伟达投资8亿美元成为美国AI初创公司Reflection AI最大投资方,后者专注开源AI模型,估值达80亿美元 [27] 半导体与硬件行业 - 荷兰政府裁决导致闻泰科技子公司安世半导体的中资股权仅剩1股,中资暂时失去对剩余99股的股东权利,该公司2024年收入约占闻泰科技年营收六分之一 [7][17] - 市场监管总局因未依法申报经营者集中,依法对高通公司收购Autotalks公司开展立案调查 [4][14] - 人形机器人公司Figure发布Figure 03,目标四年内量产10万台,该机器人由生成式AI驱动,集成了OpenAI与英伟达技术 [22] 大宗商品与能源市场 - 国际油价大幅下挫,WTI 11月原油期货收跌4.24%至58.90美元/桶,瑞银预计全球石油市场将在2025年出现1.2百万桶/日的供应过剩 [9][24] - 伦敦白银市场出现历史性逼空,现货白银相对纽约期货出现史无前例的溢价,市场流动性几乎枯竭 [24] - 汇丰银行指出,金价每上涨1%,中国纯黄金生产商的盈利水平将相应增长约2% [22] 公司动态与资本市场 - 娃哈哈集团确认宗馥莉辞去公司法人代表、董事及董事长等相关职务,宗馥莉将独立经营新品牌“娃小宗”,但仍是娃哈哈第二大股东 [7][17] - 香港最大持牌加密货币交易所运营商HashKey Group已秘密递交在港IPO申请,上市估值可达5亿美元 [22] - 全球最大经纪商TP ICAP旗下加密货币现货交易平台9月月交易量首次突破10亿美元,计划明年上半年上线稳定币交易对 [26]
2025人工智能全景报告:AI的物理边界,算力、能源与地缘政治重塑全球智能竞赛
人工智能发展叙事转变 - 人工智能发展叙事正发生根本性转变,从算法突破和模型参数规模定义的竞赛,转向受制于物理世界的严苛限制,如能源供应、地缘政治和资本投入 [2] - AI的未来是一场关于基础设施、能源获取和全球权力平衡的宏大博弈 [2] 推理能力竞赛 - AI研究的核心战场已从语言生成转向更复杂的“推理”能力,OpenAI的o1模型引领了通过“思考过程”解决多步逻辑问题的竞赛 [3] - 推理能力成为衡量前沿模型智能水平的黄金标准,在代码、科学和数学等领域展现了强大的解决问题的能力 [3] 主要参与者格局 - 形成三大阵营:以OpenAI、Google和Anthropic为代表的闭源模型占据智能绝对前沿;以中国DeepSeek为首的新兴力量正快速追赶;中国主导的开源模型生态系统蓬勃发展 [4] - DeepSeek的R1模型在数学推理基准AIME上超越了当时的o1-preview版本,标志着中国AI力量首次在推理能力上与美国顶级实验室正面抗衡 [4] 能力-成本曲线与市场格局 - 领先AI实验室在激烈竞争如何以更低成本提供更强能力,谷歌和OpenAI旗舰模型的能力价格比正以每3到6个月翻一番的速度提升 [5] - 高昂的前期训练成本构筑了极高进入壁垒,巩固了少数巨头的领先地位;持续下降的推理价格正在催生AI应用的“寒武纪大爆发” [5] 推理能力评估的挑战 - 当前许多推理能力提升可能未超出基线模型的误差范围,基准测试存在被污染、数据集过小以及对解码参数高度敏感等问题 [6] - 在数学问题中加入无关干扰能让顶级模型的错误率翻倍,揭示当前AI可能在很大程度上仍是更高级的“模板匹配”而非真正逻辑推理 [6] 地缘政治影响 - 美国正全面转向“美国优先的AI”战略,通过出口管制、产业政策和巨额基础设施投资维护其在全球AI堆栈中的领导地位 [7] - 美国芯片出口管制政策的反复摇摆刺激了中国自主替代进程,中国主要云服务商已停止新的H20芯片订单转向采购国产芯片 [7] 中国AI开源生态崛起 - 中国AI社区走出独特“开源”道路,全球开发者社区中中国模型的累计下载量已经反超美国,到2025年9月全球区域模型采用率中中国模型占63%,美国仅为31% [8] - 基于Qwen模型二次开发的衍生模型数量已超过了曾经的“开源宠儿”Llama,中国通过开源在全球建立强大的开发者生态系统 [8][9] 中国开源战略优势 - 中国AI公司在技术实力、工具链支持和商业许可上全面发力,开源了高效的强化学习训练框架,并通过宽松许可证降低商业化应用门槛 [9] 物理世界瓶颈 - AI领导者们将目光投向“超级智能”目标,相关基础设施投资以“万亿”美元为单位规划,如OpenAI的“星际之门”项目和Meta的巨型数据中心 [10] - 电力供应成为限制AI发展的最关键瓶颈,到2030年美国电网停电频率可能增加100倍,到2028年仅美国就可能面临68GW的电力缺口 [10] 能源挑战与应对 - AI行业与能源行业深度融合,谷歌计划从未来的核聚变电站购买电力,但短期内数据中心建设需求可能导致部分地区延缓淘汰燃煤电厂 [11] - 数据中心选址不再仅考虑网络延迟,更要考虑电网接入能力、电价以及当地社区的接纳程度 [11] 世界模型技术前沿 - AI研究的前沿是“世界模型”,能够根据用户实时输入预测下一帧画面,创造可交互的虚拟环境,谷歌DeepMind的Genie 3和Odyssey项目已可生成可持续数分钟的互动世界 [11] - 世界模型技术为训练具身智能体提供了可无限扩展的模拟环境,有望以远超物理世界的效率获得解决现实问题的能力 [11]
马斯克没说谎,特斯拉的电动车真的“活了”
老徐抓AI趋势· 2025-10-11 21:11
FSD v14技术突破 - FSD v14系统实现重大升级,车辆表现出对人类意图的共情能力,能够理解点餐场景等行为上下文[4] - 系统通过意图识别而非简单规则导航,在Drive-Through测试中实现全自动点餐流程,驾驶员无需触碰方向盘[4] - 技术突破可能源于世界模型(World Model)的引入,使车辆具备预测人类行为并自适应配合的能力[4] - FSD与Optimus人形机器人共享底层AI模型,形成"车是有轮子的身体,机器人是有双手的身体"的协同发展格局[5] 公司战略布局 - 特斯拉战略重心从造车转向AI平台训练,造车目的在于收集真实世界数据喂养FSD算法[11] - 公司每年AI研发投入超过100亿美元,资金来源于造车利润,目标赢得AI战争而非销量战争[10] - 未来竞争护城河在于AI驾驶系统的学习速度和规模化能力,硬件优势将逐渐淡化[12] - 公司正从制造业向算法时代转型,未来对手将是OpenAI、Google等AI公司而非传统车企[12] 产品发展路径 - FSD版本将持续升级,v14.3版本将实现"觉醒"特征,具备主动决策能力成为智能体(Agent)[6][7] - Robotaxi在美国部分城市低调运行,扩张后将使公司估值逻辑从车企转变为移动AI平台[15] - Optimus第三代机器人量产时间推迟至2026年,注重产品成熟度而非展示性[15] - 三叉戟战略(FSD、Robotaxi、Optimus)将推动公司从制造公司进化为自我演化的生态系统[13][15][17] 市场表现分析 - 2025年第三季度交付49.7万辆车创历史新高,但市场担忧需求透支导致股价高开低走[8] - 新推出廉价版Model 3和Model Y(定价分别为36,000美元和39,900美元)减配座椅通风等功能,市场反应冷淡[8] - 降价策略具有防御性对冲目的,防止四季度销量断崖式下滑,同时保持毛利率以支撑AI研发[10] - 公司通过价格策略为FSD发展争取时间,体现终局思维下的战略取舍[10][11] 技术演进前景 - FSD v14.2正式版参数量比上一代提升10倍,标志算法进入世界模型阶段[13] - 公司预计三年左右可能出现超级人工智能(AGI),AI红利将持续释放[17] - 自动驾驶达到L4/L5级别后,车辆核心价值将从配置转向智商,人类驾驶将成为业余行为[12] - 技术发展将加速行业变革,但需要持续跟踪和深入研究才能把握投资机会[18][19]
高通组局,宇树王兴兴说了一堆大实话
是说芯语· 2025-10-11 07:38
具身智能与机器人发展路径 - 公司目标是实现通用AI与通用机器人的结合,使其能在工厂或家庭中完成各种任务 [9] - 机器人发展的ChatGPT时刻定义为:能在陌生环境中根据自然语言指令完成任务 [10] - 技术路线图分为四个阶段:固定动作演示(已实现)、实时生成任意动作(预计2024年底/2025年初实现)、陌生场景执行任务(预计2025年底实现)、高成功率精细操作(需数年,目标成功率99.9%) [11] 机器人硬件与芯片挑战 - 行业目前可能低估了芯片对机器人的重要性 [15] - 通信协议优化是减少线缆的关键,工业机器人60-70%的故障源于线缆问题 [16] - 机器人硬件面临空间限制,高算力芯片难以安装,同时存在电池容量和散热难题 [20] - 具身智能设备峰值功耗需控制在100W以内,平均功耗20-30W,手机芯片在机器人应用上具有想象空间 [21][22] 行业协作与开源策略 - 行业处于黎明前夜,因技术路线差异大导致整体进展缓慢 [23] - 在模型尚无法直接部署的阶段,倡导开放态度,公司已开源其世界模型,包括权重、数据集及训练代码 [23][25] - 在AI领域需保持谦卑和学习态度,避免被过往经验限制创新 [28] 端侧AI与Agent发展 - Agent形态正从云端向端云协同演进,端侧模型具备“永远在线”、响应快和隐私保护优势 [31][32] - 端侧模型将成为Agent系统的核心编排者,负责感知用户需求并与云端模型协同 [34] - 端侧模型需持续提升知识密度,目标每三个月提升一倍,与芯片、终端深度协同至关重要 [35][36][38] Agent的服务本质与生态整合 - Agent的核心竞争力在于其提供服务的能力,选择Agent如同选择操作系统,取决于其服务生态 [42][43] - AI基于对话的自然交互模式有望打破PC、手机等终端的生态孤岛,成为统一交互模态 [41] 行业标准与基础设施共建 - 当前AI应用碎片化严重,缺乏跨终端的统一AI OS或Agent Framework [44] - 未来可能形成以Cloud OS为核心、终端Agent协同的新时代操作系统架构 [45] - 行业需通过产业共建推动基础设施发展,例如通过联合实验室优化混合AI方案 [46][47]
Waymo自动驾驶最新探索:世界模型、长尾问题、最重要的东西
自动驾驶之心· 2025-10-11 07:32
Waymo自动驾驶技术框架 - 公司开发名为Waymo基础模型的大规模AI模型,该模型支持车辆感知环境、预测其他车辆行为、模拟场景并做出驾驶决策[5] - 模型功能类似于ChatGPT等大型语言模型,基于海量数据集训练学习模式并进行预测,能够整合多源传感器数据理解周围环境[5] - 车端部署较小模型,通过知识蒸馏技术从云端大型教师模型提炼而来,针对速度和效率优化,在每辆车上实时运行[5] - 感知和行为任务包括物体感知、行为预测和行动规划均可实时在车上执行[7] - 云端大模型可模拟真实驾驶环境,在部署前进行虚拟测试和验证决策[7] 世界模型技术特性 - 世界模型能够编码所有传感器数据(摄像头、雷达、激光雷达)并内置世界知识,解码所有驾驶相关任务[11] - 通过蒸馏缩小后放置在车端进行感知和控制,在云端进行虚拟仿真,实现强大泛化能力和快速适应不同平台[11] - 该模型基本解决自动驾驶日常问题,重点转向解决长尾问题[11] 长尾问题解决方案 天气挑战 - 雨后路况水坑及不常发生洪水需要算法判断水深和大量上下文信息,对精确度和召回率要求极高[12] - 采用视觉语言模型解法,但需要大量此类语料库支持[12] - 雪地驾驶对硬件要求高,传感器需加热和清洁功能应对堵塞,挑战包括行驶路线决策、车辙识别和摩擦力估计[14] 能见度与遮挡处理 - 极端低能见度情况下如夜间高速公路,需要多模态传感器协同检测[15] - 凤凰城沙尘暴环境中激光雷达可在尘暴中清晰看到行人[15] - 遮挡推理需解决视线不佳区域物体存在状态判断,挑战包括定义不明确、非确定性、缺乏真值基准等[18] - 解决方案包括估计不确定物体先验信息(通过驾驶数据统计和微弱传感器线索)以及准确估计自车速度先验[21] 复杂场景理解 - 施工场景需识别标志、推理驾驶几何形状,根据锥筒等物体调整路线[24] - 动态场景如交通警官手势需要实时响应动态信号[24] - 活跃事故现场涉及大量应急车辆和路况堵塞,需要整体场景理解而非单个物体识别[24] - 复杂场景需使用大语言模型理解场景内容并做出决策,公司表示仍在探索阶段[24] 自动驾驶核心要素 - 自动驾驶作为人工智能落地场景,核心要素为数据、算法、算力三大件[25] - 公司特别强调数据重要性,认为大量数据是基础,但数据筛选和整理更为关键[25] - 高效高质数据能确保模型专注于解决正确问题[25] - 数据挖矿中视频搜索能力对理解事件含义至关重要,如汽车碰撞、漂移等[30] 系统响应性能要求 - 快速实时决策被强调为安全性和流畅性关键,算法到执行链路用时越短越优[30] - 响应速度拆解为传感器输入响应、算法运算结论输出、底盘执行机构三个环节[30] - 当前快速响应决策主要受限于各家算法处理输出响应频率[31] - 摄像头帧率大于24Hz,算法输出帧率需达到10Hz或20Hz,底盘刹车ESP响应频率达上百Hz[36] 运营基础设施 - Depots运营停车场和改装工厂被公司视为L4运营最重要设施[33] - 车辆可自动进入停车场寻找充电空位,充完电拔枪后自动驶出运营[33] - 改装车间完成传感器安装后,车辆可自动驶出生产线,直接进入运输卡车或开始运营[33] 行业发展趋势 - 辅助驾驶与自动驾驶产业最终将交叉融合,因算法软件底层逻辑相同[4] - 中国辅助驾驶算法公司如Momenta、元戎、大疆与L4公司共同在欧洲和中东市场拓展[4] - 工程落地是行业较大壁垒,需要协同汽车开发与测试运营,优秀自动驾驶公司多挖角传统汽车工程师[34]
白宇利等3人离场,蔚来智驾架构大调整背后,一年出走6位高管
国际金融报· 2025-10-10 21:45
高管离职事件概述 - 蔚来智驾团队在2024年年底至10月9日期间,共有6名核心高管离职,覆盖技术基建、算法研发、战略规划等关键领域 [1][2] - 近期离职的三位高管包括人工智能平台负责人白宇利、世界模型负责人马宁宁、智驾产品负责人黄鑫,三人均为智能驾驶研发的核心骨干 [1][2] - 理想汽车在2025年上半年也有多位智驾核心高管离职,包括端到端模型负责人夏中谱、世界模型负责人贾鹏等 [6] - 小鹏汽车近期北美智驾负责人林一树离职,自动驾驶中心负责人李力耘卸任 [7] 蔚来组织架构与战略调整 - 公司将高管密集离职界定为“主动适应通用人工智能发展的组织架构调整”,核心是构建“预研、量产、平台复制、车型复制”的“4×100接力棒”模式 [3] - 架构调整旨在强化对通用人工智能最新技术的吸收,高效实现智能驾驶体验交付,最终目标是全力冲刺世界模型2.0版本的开发与交付 [3] - 近一年来公司进行多次架构调整,2024年6月撤销感知、规控等传统部门推进端到端路线,同年12月自动驾驶副总裁任少卿接管大模型部 [4] 技术研发进展与挑战 - 公司计划从2025年底至2026年一季度,在多个平台陆续推出世界模型2.0迭代版本,核心升级包括加入语言模块、构建Open-set智能引擎、增强长时序处理能力 [3] - 原定2024年9月交付的端到端方案延期至2025年一季度,且城区NOA覆盖率仅60%,落后于华为ADS 3.0(全国无图)与小鹏XNGP(90%城区覆盖) [4] - 2024年公司用于智能驾驶、电池技术、换电技术等核心领域的研发投入累计达到130.37亿元 [4] 市场与投资者反应 - 事件发酵后,蔚来港股股价为57.8港元/股,较前一日下跌5.09% [5] - 投资者互动平台上,“智驾团队稳定性”与“世界模型研发进度”两类提问占比超60%,较前一日激增3倍 [5] - 蔚来车主社群“蔚来APP”中,“智驾高管离职”相关讨论帖24小时内突破千条,有车主表达对功能迭代延迟的担忧 [6] 人才流失的连锁影响 - 公司智驾人才流失呈现“高管带团队”的特征,例如原部署架构与方案部负责人秦海龙离职时带走3名核心工程师 [6] - 人工智能平台负责人白宇利离任后,其主导的云端算力调度项目组已有2名骨干成员提交辞呈 [6] - 猎头公司数据显示,蔚来智驾岗位的简历投递量较去年同期下降40%,候选人普遍担忧组织架构频繁调整导致职业发展不稳定 [6] 行业竞争格局演变 - 新势力密集的人事变动标志着智驾竞争已从“功能比拼”进入“AI大模型对决”的深水区 [7] - 理想汽车重押“VLA(视觉—语言—动作)”模型,其端到端方案已于2024年10月向MAX版本用户全量推送 [6] - 小鹏汽车由世界基座模型负责人刘先明接替李力耘,主导推动小鹏智驾向AI战略转型,2025年6月已在CVPR大会展示自动驾驶基座模型进展 [7]
ETF日报:贵金属和有色金属等板块多因素利好共振,可关注黄金股票ETF、矿业ETF、有色60ETF
新浪基金· 2025-10-09 20:30
市场表现 - 节后首个交易日A股市场迎开门红,沪指高开高走突破3900点整数大关,刷新2015年8月以来新高,收盘涨1.32%,深成指涨1.47%,创业板指涨0.73%,沪深两市成交额2.65万亿元,较上一交易日放量4718亿元 [1] - 黄金股票ETF领涨市场,收涨9.47%,矿业ETF和有色60ETF分别收涨8.58%和8.44% [1] - 国产算力板块冲高回落,科创芯片ETF、芯片ETF、集成电路ETF和半导体设备ETF分别收涨2.98%、2.96%、2.78%和2.62% [8] 贵金属与黄金 - 黄金价格在国庆期间持续上涨,10月8日一度冲破4059美元/盎司,创下历史新高 [4] - 美元信用走弱是黄金的长期支撑逻辑,美联储在9月货币政策会议上宣布降息25个基点至4.00%-4.25%区间 [2] - 美联储官员在降息幅度上存在分歧,9月会议投票结果为11比1,唯一反对的理事主张降息0.5个百分点,关于未来降息,略多于一半的官员预计2025年将至少再降息两次 [2] 全球政经事件 - 美国联邦政府因预算问题自10月1日起停摆已持续一周,参议院7天内进行5次投票均未能通过拨款法案 [3] - 法国总理勒科尔尼在任27天后宣布辞职,成为法兰西第五共和国任期最短的总理,其辞职导火索为新政府成员名单引发巨大分歧,马克龙总统面临严重政治危机 [3] - 日本自民党选举高市早苗为新总裁,高市被视为“安倍经济学”继承人,主张扩张性财政政策,目标使日本经济规模在10年内翻倍 [3] 有色金属与铜 - 全球第二大铜精矿印尼Grasberg矿山因事故停产,2024年产量为81.65万吨,约占全球3.5%,预计2025年第四季度产量较原指引减少约20万吨,2026年减少约27万吨 [6] - 智利国家铜业公司El Teniente铜矿发生矿难并受地震影响,调查预计耗时数月 [6] - 国际能源署报告指出,即使在高产量情景下,到2035年铜供应缺口仍将达到20%,标普全球分析师预计精炼铜从2027年开始出现显著短缺,到2032年铜精矿短缺量可能达220万吨 [8] 人工智能与半导体 - OpenAI发布Sora2模型,在理解物理世界、生成一致性、可控性及音视频合成方面取得显著进步,被视为AI视频的“GPT-3.5时刻” [10][12][15] - OpenAI开启大规模算力采购,与甲骨文签署价值3000亿美元算力合同,与英伟达达成至多1000亿美元投资意向,与AMD达成6吉瓦算力协议并获认股权证,若完全行权可购入相当于AMD总股本约10%的股票 [17][18] - 美国众议院中国问题特别委员会报告指出,由于美日荷规定存在差异,ASML、东京电子等设备商仍向中国销售半导体设备,该委员会呼吁扩大对华芯片制造设备出口禁令 [9] 存储市场 - 韩国和美国DRAM厂商已暂停对企业客户报价,预计第四季度DRAM报价可能上涨30%以上,部分规格涨幅或突破50%,未来三季度内DDR4内存供应缺口预计达10-15% [20] - 视频生成模型的普及可能倍增推理端存储需求,加剧供需不平衡,产业人士表示四季度才是存储严重缺货的开始 [20] - AI芯片所需的HBM带来更高盈利,导致海外龙头厂商将先进产能转向HBM和DDR5,旧代产品产能退出过快,引发供需错配 [21] 行业配置与ETF - 通信ETF中光模块占比49.27%,服务器占比21.51%,光纤和铜连接合计占比近10%,整体海外算力相关成分合计占比接近79% [21][22] - 集成电路ETF的存储成分占比超16%,GPU含量超19%,更偏重芯片设计,半导体设备ETF的PETTM为91.14倍,位于上市以来76.08%分位 [22] - 半导体芯片类ETF行业分布各有侧重,数字芯片设计中GPU和存储是重要细分领域,半导体设备ETF在设备和材料领域集中度较高 [23]
自动驾驶之心双节活动即将截止(课程/星球/硬件优惠)
自动驾驶之心· 2025-10-09 07:33
社区核心定位 - 专注于最前沿的自动驾驶技术,打造技术社区 [5] - 社区覆盖近40多个学习路线,包括自动驾驶VLA、世界模型、闭环仿真、扩散模型、BEV感知等关键技术领域 [5] - 旨在保持技术活力,推动持续学习 [5] 技术交流与资源 - 提供与学术界和工业界顶尖专家面对面交流的机会 [5] - 讨论行业前沿议题,如VLA和WA的路线之争、未来自驾发展方向、世界模型本质及端到端技术探讨 [5] - 社区资源包括顶会作者亲临、直播互动以及Impromptu VLA、NavigScene、LangCoop、DriveBench、ZeroGS、Diffusion planner等具体项目交流 [5] 课程与培训体系 - 平台提供七门精品课程,内容涵盖世界模型、轨迹预测、大模型、相机标定、毫米波、点云3D检测、Transformer等核心主题 [5] - 课程体系面向初学者,注重核心能力的系统性培养 [5] - 提供平台课程八折优惠券及超级折扣卡,课程可享受七折优惠 [3]
突然发现,新势力在集中IPO......
自动驾驶之心· 2025-10-06 12:05
行业动态与资源整合 - 国庆期间观察到多家新势力公司启动IPO进程,国内外行业正进行新一轮资源整合[1] - 9月22日国家市场监管总局公示中国第一汽车股份有限公司收购深圳市卓驭科技有限公司股权案,同日英国自动驾驶初创公司Wayve与英伟达签署意向书计划在下一轮融资中投资5亿美元(约合人民币36亿元)[1] - 9月27日魔视智能科技(上海)股份有限公司向港交所提交上市申请书,9月30日博泰车联网科技(上海)股份有限公司在港交所上市敲钟,同日北京四维图新科技股份有限公司宣布完成对鉴智机器人母公司PhiGent Robotics Limited的战略投资,10月2日岚图汽车向港交所递交招股书[1] - 自动驾驶领域技术栈趋于收敛,量产方案趋同,行业出现VLA/WA路线之争[1] 社区资源与服务体系 - 自动驾驶之心知识星球社区已运营三年,集视频、图文、学习路线、问答、求职交流为一体,目前成员超过4000人,目标未来2年内达到近万人规模[3] - 社区联合学术界和工业界专家,梳理近40+技术路线,涵盖VLA benchmark、综述和学习入门路线[4] - 社区提供40+自动驾驶技术方向资源,包括国内外高校著名自动驾驶团队整理、算法进阶、规划控制等分类内容[10] - 社区内部提供全栈方向学习课程,包括自动驾驶数据工程系列、2D/3D目标跟踪系列、多传感器标定系列等9大视频教程体系[12] - 社区与近300家机构与自动驾驶公司建立联系,提供岗位内推机制,成员来自上海交大、北京大学、CMU、清华大学及蔚小理、地平线、华为等头部企业[19] 技术领域覆盖范围 - 社区技术资源覆盖自动驾驶感知学习路线、仿真学习路线、规划控制学习路线三大方向[19] - 具体技术板块包括端到端学习路线、3DGS算法原理、VLA学习路线、多模态大模型、占用网络、BEV感知、扩散模型、世界模型等40多个细分领域[19] - 专业分类包含3D目标感知最新综述、激光点云方法汇总、单目3D检测方法汇总、多模态3D检测方法汇总等28个技术模块[28] - 重点技术方向包括自动驾驶世界模型、视觉语言模型(VLM)、自动驾驶VLA、扩散模型、BEV感知、3D目标检测等核心领域[44][46][49][53][55] 行业交流与知识共享 - 社区不定期邀请行业大佬开展直播分享,目前已超过一百场专业技术直播,内容涵盖Impomptu VLA、LangCoop、Diffusion planner等前沿技术[89] - 星球内部会员独享七大福利视频教程,涵盖世界模型、自动驾驶大模型、Transformer、3D目标检测、毫米波感知等领域[87] - 社区提供国内外自动驾驶与机器人高校汇总、自动驾驶公司汇总、开源项目汇总、自动驾驶开源数据集等产业资源[29][31][35][37] - 日常讨论话题包括端到端自动驾驶入门、VLA学习路线、多传感器融合就业前景、3DGS与闭环仿真结合等实践性问题[20]
清华、北信科、复旦团队解读具身智能!大语言模型与世界模型如何让机器人懂物理、会思考?
机器人大讲堂· 2025-10-06 12:05
文章核心观点 - 具身智能是人工智能在物理世界中实现感知-认知-互动闭环的关键方向,其终极目标是实现人类级别的通用智能[4] - 大语言模型与世界模型的协同是推动具身智能发展的核心技术,前者负责语义理解和任务规划,后者负责物理规律预测和动作验证[9][14][19] - 大语言模型与世界模型的结合能形成语义指导物理、物理约束语义的闭环,实现1+1>2的效果,是具身智能走向实用的关键[14][19] - 具身智能技术已在服务、工业、救灾等领域实现应用,显著提升了机器人的自主性和适应性[20] - 未来具身智能需在自主进化、硬件优化、群体智能及安全性等方面取得突破[21] 具身智能定义与特点 - 具身智能核心在于物理世界互动,需通过传感器感知环境、认知系统处理经验、执行器做出动作,形成闭环[4] - 与离身智能不同,具身智能直接与物理世界互动,例如扫地机器人避障规划、救灾无人机自主避障等[2][4] - 终极目标是实现接近人类级别的通用智能,能在动态不确定的物理世界中自主适应,例如听懂指令并安全移动易碎品[4] 技术发展脉络:从单模态到多模态 - 早期具身智能为单模态模式,仅依赖视觉或语言等单一感官,存在明显短板,如纯视觉机器人在昏暗环境中易迷路[5][7] - 技术转向多模态融合,整合视觉、语言、触觉、听觉等信息,使机器人能更灵活处理复杂任务,例如服务机器人可协同感知物体位置、用户需求及物体重量[8] - 多模态能力推动感知、认知、互动三者从各自为政转向互相配合,关键驱动因素是大语言模型和世界模型的突破[8][9] 大语言模型的作用与演进 - 大语言模型核心作用是赋予语义智能,使机器人从执行固定指令升级为理解模糊复杂的人类语言并进行任务分解[10] - 例如Google SayCan案例,通过搭配真实世界动作库和价值函数验证动作可行性,但早期模型依赖固定动作库,适应性有限[10] - 多模态大语言模型(如PaLM-E、RT-2)直接处理图像、语言、触觉等多模态信息,输出动作序列,不再依赖固定动作库[12] 世界模型的功能与架构 - 世界模型相当于机器人大脑中的物理世界模拟器,负责预测动作后果,确保符合物理规律[14][18] - 主要功能包括构建内部表征(压缩传感器信息为结构化地图)和预测未来变化(预判动作风险,如推桌子是否碰倒杯子)[18] - 主流架构包括RSSM(擅长时序信息和短期预测)、JEPA(擅长语义特征提取)、Transformer-based模型(擅长长序列规划和复杂环境)[14] 大语言模型与世界模型的协同 - 两者具强互补性:大语言模型懂语义但不懂物理,世界模型懂物理但不懂语义,单独使用均无法实现高级具身智能[14][19] - 结合后形成闭环:大语言模型生成初步计划,世界模型验证物理可行性并反馈调整,最终输出符合需求与规律的动作序列[19] - 例如EvoAgent具身智能体,结合两者后能在不同环境中自主完成长期任务,无需人类干预[19] 应用场景与案例 - 服务机器人从预设路线升级为听懂指令、实时避障、根据语气调整服务,如酒店送物机器人[20] - 工业机械臂从专机专岗变为通过大语言模型理解指令、世界模型预判抓取力度,实现柔性任务切换[20] - 救灾无人机从人类遥控升级为通过世界模型模拟风险、大语言模型理解指令,自主规划安全路径[20] 未来挑战与方向 - 需突破自主进化能力,使机器人能在新环境中探索学习,减少对人类标注数据的依赖[21] - 硬件需优化算法-硬件协同,设计专用加速器或通过模型压缩支持边缘设备运行[21] - 需发展群体具身智能,解决多机器人协同中的信息共享、任务分配和容错问题[21] - 安全性与可解释性至关重要,需确保动作可追溯、符合人类伦理,如危险时优先保护人类[21]