Workflow
世界模型
icon
搜索文档
李飞飞最新长文:AI很火,但方向可能偏了
创业邦· 2025-11-23 19:15
当前AI大模型的局限性 - 当前大语言模型的核心能力是基于统计规律“预测下一个词”,而非真正理解世界[6] - 模型在处理简单物理世界问题时会出现错误,例如无法准确判断车辆与树木的距离,或出现“杯子松手后飞上天”等违背常识的情况[7] - 这种局限被比喻为“黑暗中的秀才”:虽然通过阅读万卷书掌握了丰富的语言统计规律,但从未行万里路,缺乏对现实世界的直接感知和互动[7] 空间智能的定义与重要性 - 空间智能被定义为“不通过语言,理解物理世界,和物理世界互动的能力”,其核心是感知、想象和行动[8] - 智能的本质是能在不确定的世界中持续预测、行动并达成目标,这不能仅靠大脑凭空产生,而需扎根于物理现实[8] - 大自然花费了5亿年进化视觉系统,而语言仅进化了几万年,表明感知世界远比描述世界更为基础和重要[13] 世界模型:AI的未来发展方向 - 未来AI的发展方向可能从“预测下一个词”转向“预测下一帧世界”,即遵循物理逻辑而非语法逻辑[14][15] - 世界模型能生成具有真实物理规律(如重力、光影、遮挡关系)的可探索空间,与当前仅生成像素序列的AI视频有本质区别[15] - 实现世界模型需解决的核心挑战包括寻找类似“预测下一个词”的优雅任务函数,以及从互联网二维视频中提取海量空间数据[17] 空间智能的应用前景与商业机会 - 空间智能的成熟将推动机器人真正进入家庭,使其能够理解“花瓶易碎需绕行”等物理常识,执行叠衣服、整理房间乃至照顾老人等复杂任务[20] - 在内容创作领域,具备空间智能的AI可实现真正“可控”的视频生成,满足商业广告、电影制作中对角色走位、光影角度等的精确控制需求[20] - 李飞飞团队与索尼虚拟制作公司的合作案例显示,使用Marble技术搭建场景可使生产效率提升40倍[21] - 面向消费者的“想象成真”应用前景广阔,例如通过上传毛坯房照片和风格描述,几秒内生成可自由探索和修改的虚拟样板间[21] - 空间智能技术还可用于心理治疗(如恐高症暴露疗法)以及为机器人公司提供特定领域的合成数据“教材”[22]
雷军 :辅助驾驶不是自动驾驶,驾驶时仍需时刻保持专注
搜狐财经· 2025-11-23 16:56
11月23日,雷军发文总结小米端到端辅助驾驶HAD增强版的升级点。纵向加减速更舒适,旁车加塞时 可提前预判减速,及时跟车提速,行车更舒适安全。横向变道更丝滑,在变道并线、借道绕行时表现更 自然流畅。路况理解能力提升,在多车道复杂大路口能提前看懂导航信息,优化走对路、选对道的能 力。 此外,雷军还强调,辅助驾驶不是自动驾驶,驾驶时仍需时刻保持专注。此前在11月21日2025广州车展 开幕日,小米汽车端到端辅助驾驶"Xiaomi HAD增强版"正式发布,其在1000万Clips版本基础上引入"强 化学习"与"世界模型",AEB防碰撞辅助升级,新增紧急转向辅助。 ...
雷军提醒:辅助驾驶不是自动驾驶,驾驶时仍需时刻保持专注
搜狐财经· 2025-11-23 14:25
小米端到端辅助驾驶HAD增强版升级总结 - 公司于2025广州车展开幕日正式发布“Xiaomi HAD 增强版” [7] - 该版本在1000万 Clips 版本基础上引入了“强化学习”与“世界模型” [7] - 核心升级点包括纵向加减速更舒适、横向变道更丝滑、路况理解更充分 [3] 具体功能与性能提升 - 纵向控制:旁车加塞时能提前预判减速,及时跟车提速,提升舒适与安全 [3] - 横向控制:变道并线、借道绕行时更丝滑且不犹豫 [3] - 导航与决策:在多车道复杂大路口能提前看懂导航信息,优化走对路、选对道能力 [3] - 安全功能升级:AEB防碰撞辅助升级,并新增紧急转向辅助 [7] 辅助驾驶安全功能列表 - 车道相关:车道保持辅助(预警与纠偏)、紧急车道保持 [9] - 监测预警:盲区监测预警、车门开启预警、变道辅助预警 [9] - 其他安全:超速告警、红绿灯提醒、自适应防眩目矩阵 [10] - 侧向安全能力 [11] 技术定位与用户提醒 - 公司明确强调辅助驾驶不是自动驾驶 [6] - 提醒用户驾驶时仍需时刻保持专注 [6][10]
小米加码“安全课”
华尔街见闻· 2025-11-22 20:38
文章核心观点 - 小米汽车在广州车展上战略转向,将“安全”作为核心沟通信息,并展示其技术、组织与战略的成熟化,以应对销量达到50万辆规模后所面临的品牌安全信任挑战 [1][2][8] 战略与品牌定位转变 - 公司营销风格转变,从强调“性感”细节和制造网络爆梗,转向重点强调“安全”这一基础课题 [1][2][8] - 公司试图向外界传达其已从一家依靠创始人魅力驱动的创业公司,转变为拥有完善科层制、专业技术团队和工业底蕴的成熟车企 [6][7] - 公司需要证明在没有创始人个人吆喝的情况下,依然能依靠成建制的工程师团队造出安全可靠的车,以赢得对安全极度敏感的家庭用户市场 [7][8] 技术发展与安全能力 - 公司重点展示了Xiaomi HAD增强版及安全辅助功能,其技术核心是从“模仿”到“认知”的范式转移,采用“世界模型”构建高保真虚拟仿真引擎进行海量场景训练 [2] - Xiaomi HAD增强版AEB功能全面升级:前向速度域从5-135km/h扩展至1-135km/h,新增后向速度域1-30km/h [3] - 低速防碰撞识别对象从传统的车与人,延伸至水马、防撞桶、立柱和墙壁,并推出MAI与AEB的底层联动以应对“误踩油门”争议 [3] - 公司强调辅助驾驶不是自动驾驶,驾驶仍需时刻保持专注 [3] 经营表现与市场挑战 - 公司汽车业务在2024年第三季度首次实现单季度经营性盈利,单季交付量突破10万台 [3] - 公司从2024年3月28日发布SU7至今,仅用600余天便完成了第50万台整车的下线,速度在世界汽车工业史上罕见 [3] - 在交付量达到50万台规模后,任何小概率的安全瑕疵乘以庞大的保有量,都可能演变为冲击品牌根基的“黑天鹅”事件 [4] - 资本市场在强劲季报发布后出现股价下跌和剧烈波动,反映出对公司在流量红利见顶、保有量扩大后能否承受安全事故反噬的深层焦虑 [3][5] - 公司旗下YU7车型在10月取得SUV销量第一,但该车型面向家庭用户,其对安全的敏感度极高 [7]
100亿都不够烧!机器人公司CEO们给出新判断:具身智能不能再照搬LLM
搜狐财经· 2025-11-22 10:41
智源研究院技术进展 - 发布原生多模态世界模型Emu3 5,训练数据从15年视频扩展至790年,参数规模从8B提升至34B,并引入自研DiDA技术使视频、图像生成速度提升至与Diffusion、DiT类模型相当 [5] - 构建跨异构本体具身智能体系,包括RoboBrain(具身大脑)、RoboOS(跨本体操作系统)与基于VLA的RoboBrain-0,已在多款不同形态机器人本体上部署,能完成导览、导购到复杂交互任务 [5] - 展示全身控制能力,宇树G1机器人在其控制框架BAAI Thor加持下完成拖动1 4吨汽车的实验 [5] 行业核心议题讨论:模型与架构 - 世界模型需从海量视频中学习,面向具身智能所需的“下一时空状态预测”,而非语言主导的“下一个Token预测”,且必须建立在大量属于机器人的数据之上 [5][7] - 具身智能未来可能需要一套“先行动、再视觉、最后语言”的具身原生结构,以行动与感知为核心,而非沿用当下“大模型的语言中心范式” [10] - 具身智能的最终“大模型”并非单体模型,而是VLA+世界模型+RL的闭环系统 [12] 行业核心议题讨论:数据来源与使用 - 机器人必须在真实场景中学习真实性、多样性和规模化,但仿真是当前更现实的突破口,许多底层控制能力如行走、跳跃等全身控制及灵巧手操作需在模拟器中完成,真实世界仅做微调 [15] - 视频数据被视为最容易大规模获取且最接近真实世界的关键数据形式,训练逻辑可类比人类从视频理解世界再到真实交互校正的过程 [15] - 真实与仿真数据会形成螺旋上升关系,先落地采集真实数据,回仿真扩大覆盖,再回真实验证,不同阶段根据任务需求使用不同类型数据 [15] 行业核心议题讨论:资源投入与硬件形态 - 若有100亿元资金推进具身智能,投入优先级集中在顶尖人才吸纳、算力与数据引擎等基础设施,以及打造属于具身智能的模型体系 [17][19][21] - 人形机器人并非具身智能的唯一最终形态,硬件瓶颈问题的核心是场景需求,模型不定义硬件,硬件也不定义模型,场景定义硬件 [22][23] - 具身智能体系应分层,上层大模型可跨本体复用,但贴近执行的小脑层模型需随硬件结构细调,同一模型部署到不同本体上未必最优 [23]
小米HAD增强版辅助驾驶发布:引入强化学习与世界模型,AES紧急转向功能上车
凤凰网· 2025-11-21 10:33
公司战略与投入 - 公司正式发布小米HAD增强版并披露智能驾驶领域最新研发进展与人才布局 [1] - 公司在AI领域的战略投入持续加码,2025年仅AI研发投入预算就将超过70亿元 [1] - 公司目前的辅助驾驶专家团队规模已达1800人,其中包含108名博士 [1] 核心技术架构 - 小米HAD增强版基于原有的1000万clips训练基础,核心变化在于引入强化学习算法与世界模型 [1] - 公司采用“端到端”技术路径提升驾驶表现,通过世界模型在数字空间生成极端天气、复杂路况等场景进行算法训练 [1] - 该世界模型技术已获得ICCV和NeurIPS等国际学术会议的认可 [1] 功能性能优化 - 新版本重点优化纵向与横向控制体验,通过大模型预测旁车加塞意图以减少过度减速和急刹车 [2] - 系统在复杂路口(如右侧左转车道)的路径规划上展现出更强的导航理解与绕行能力 [2] - 公司正式推出AES紧急转向辅助功能,可在AEB无法避免碰撞且环境安全时自动触发变道避险,支持速度区间为80km/h至135km/h [2] 安全功能升级 - 前向AEB生效范围扩展至1km/h至135km/h,新增对防撞桶、水马、柱子及墙壁等异形障碍物的识别能力 [2] - 后向AEB覆盖1km/h至30km/h的倒车场景,安全辅助功能灵敏度经过反复平衡以兼顾刹停准确性与减少误触发 [2] 系统部署与推送 - 本次发布的智驾更新将包含在小米HyperOS 1.11.0版本中 [2] - 由于审核进度差异,不同车型的推送时间可能会略有不同 [2]
Nano Banana Pro 要上天
36氪· 2025-11-21 09:55
产品发布与定位 - 谷歌近期密集发布多款AI产品,包括Gemini 3、Antigravity以及通过Vertex AI上线的Nano Banana Pro模型(模型名为gemini-3-pro-image-preview)[1] - 该模型被评估不仅具备图像生成能力,其生成质量稳定,并显示出初步的推理能力,超越了单纯的“画图工具”范畴[1][26] 多模态理解与生成能力 - 在生成包含现实人物(如Sam Altman、Elon Musk)与动漫角色的视频会议画面时,模型能高度还原真实人物特征,并保留二次元角色的原有质感,实现跨次元融合[2][5] - 模型展现出对场景语义的理解,例如在视频会议画面中为人物添加对应公司logo,并在模拟聊天框中生成与人物身份相关的话题讨论[5] - 模型能够遵循复杂指令细节,如正确执行动漫角色“转头”的动作要求,并理解视频会议画面的镜像效应[5] 多语言与文化内容处理 - 模型能根据提示词生成英文、中文、日文和俄文四种不同语言的菜单,在版式、标题和分类词还原上表现良好[7][8][10] - 对于提示词中明确指定的文字内容,模型基本能准确还原,但其自主生成的文字部分(如中文菜单的具体菜品名)可能出现字体虚化或难以辨认的情况[10] - 模型具备一定的中国文化特定知识,能生成看手相所需的生命线、感情线和智慧线,并能正确指出足底穴位“涌泉穴”的位置,尽管存在将智慧线和感情线画反的误差[13][14][16][18] 逻辑推理与问题解决能力 - 模型展现出解数学题的潜力,在代数题和复杂几何题的测试中,其提供的答案经GPT5验证被认为是正确的[20][22][24] - 模型被认为采用“推理+生成”的流程,其内部可能构建了粗糙的世界观,用于理解场景、人物关系及物理几何结构,而非简单的纹理映射[26] - 这种能力边界使其向“世界模型”方向演进,具备在生成图像前先进行逻辑推理的潜力,例如先解题再展示过程[27]
驭势科技 | 规划算法工程师招聘(可直推)
自动驾驶之心· 2025-11-21 08:04
自动驾驶行业技术趋势 - 视觉语言动作模型成为行业焦点,小鹏汽车已官宣VLA2.0版本,工业界正推进该技术的量产落地[14] - 技术路线存在争论,前几个月曾出现世界模型和VLA路线之争,显示出技术方向尚在快速演进中[14] - 端到端自动驾驶是另一重要发展方向,与VLA共同代表行业前沿技术路线[14] 自动驾驶关键技术研究 - 3D高斯泼溅技术受到关注,其与3D目标检测结合可用于生成动态仿真场景,DriveStudio是自动驾驶领域的相关资源库[13] - 香港中文大学(深圳)联合滴滴提出UniSplat方法,这是一种基于3D潜在支架的时空统一融合方法,旨在实现动态驾驶场景的高效重建[14] - 规划算法核心技术包括混合A*、Lattice、QP、MPC等路径规划方法,并需结合车辆运动学、动力学建模知识[7] 行业人才需求与流动 - 驭势科技在北京房山招聘规划算法工程师,职责是研发满足复杂场景要求的无人驾驶轨迹规划算法[3][4] - 自动驾驶领域存在显著的人才跨行业流动现象,例如有从业者从国有银行转行至自动驾驶大厂,后又加入创业公司和新势力企业[13] - 企业对算法工程师的任职要求包括丰富的Linux系统下C/C++编程经验,并优先考虑学历背景优秀或具有智能驾驶大厂背景的候选人[7] 专业社区与知识分享 - 自动驾驶之心知识星球是行业技术交流和求职内推的重要平台,提供技术进展和行业动态[10] - 该平台定期举办“自驾圆桌”和“星友面对面”活动,例如2025年11月19日第四期活动嘉宾为香港高校博士生,研究方向涵盖BEV感知、VLA和多模态RAG等前沿技术[13] - 社区内活跃讨论具体技术问题,例如博士开题方向选择,涉及3D目标检测与3DGS结合的可行性探讨[13]
自动驾驶三大技术路线:端到端、VLA、世界模型
自动驾驶之心· 2025-11-21 08:04
文章核心观点 - 行业当前致力于解决安全且经济的 corner case 问题 [1] - 技术路线存在三大核心争议:单车智能与智能网联、视觉与激光雷达传感器、模块化与端到端算法架构 [1] - AI决策领域呈现VLM、VLA、WA(去LLM)三种主流技术路径分化,代表企业分别为Waymo、特斯拉/吉利/小鹏、华为 [1] - 自动驾驶技术演进遵循从规则系统到数据驱动,再到认知建模的路径 [3] 技术演进与架构 分阶段模块化架构 - 传统架构划分为感知(定位)、预测、规划、控制五大独立模块 [5] - 感知模块负责处理图像与点云数据,完成目标检测与地图分割任务 [5] - 定位模块融合GPS、IMU及地图匹配技术以确定车辆精确位置 [5] - 预测模块在几何空间内运行,预测周围环境未来状态(如车辆轨迹) [5] - 规划模块结合导航与感知信息,在有限时间内生成安全舒适的可行驶轨迹 [5] - 控制模块精确执行油门、刹车及转向指令 [5] BEV与OCC感知技术 - BEV感知于2022年成为主流,OCC感知于2023年兴起 [3] - BEV核心价值在于统一多传感器数据的表征空间,解决信息融合根本问题 [14] - BEV优势包括天然适配动态/静态感知、快速替代传统检测方案、99%常规场景可收敛 [15] - BEV缺陷体现在非结构化场景与超复杂路口(150米+)存在瓶颈,暴露纯几何表征天花板 [15] - OCC占用网络提供时间维、空间维及不确定性数据,优于仅提供目标检测的BEV [6] - 为解决BEV高度信息缺失及LSS投影缺陷(离散稀疏、不连贯、无容错),行业引入3DGS技术 [16][17] - 3DGS通过"软投影"特性实现连续致密特征、平滑过渡及容错能力,提升BEV感知质量 [18][19] 端到端自动驾驶 定义与分类 - 端到端系统定义为从传感器原始输入到任务变量输出的完全可微过程 [20][22] - 狭义端到端指传感器数据直接输出规划/控制动作或行驶轨迹 [22] - 技术演进分为四个阶段:感知端到端、决策规划模型化、模块化端到端、One Model单一模型端到端 [31] - 模块化端到端(华为、小鹏、理想采用)实现感知与规划模块的梯度协同训练,接口基于特征向量 [31] - One Model端到端(特斯拉采用)采用单一深度学习模型直接映射原始信号至轨迹输出 [31] 优势与挑战 - 端到端本质是实现感知信息的无损传递,通过梯度反传实现全局优化 [22][25] - 传统分阶段架构问题在于各模块独立优化导致的阶段目标不一致、误差累积及计算负担 [27] - 端到端面临可解释性悖论(性能提升但安全性可解释性降低)、数据规模与质量要求高、长尾场景覆盖度不足三大挑战 [27][28] - 决策层技术路线包括模仿学习(快速获得基础能力但泛化性不足)与强化学习(学得鲁棒策略但依赖仿真环境) [29] VLM、VLA与WA技术路径 VLM(视觉语言模型) - VLM让AI负责环境理解与推理,最终决策权交由传统模块以确保过程可控,代表企业为Waymo [1][35] - 技术流程为环境信息输入→VLM→推理链/多任务→非直接控制输出,运行频率低(2-5 Hz) [36] - VLM能够解释复杂交通场景并提升系统可解释性,但存在"行动鸿沟",即语言输出与实际控制脱节 [36] - 输入数据包括视觉输入(多摄像头图像、BEV特征图)、Prompt指令、导航指令及用户指令 [36] VLA(视觉语言动作模型) - VLA试图让AI直接学习所有驾驶技巧,通过海量数据训练实现"端到端"决策,代表企业为特斯拉、吉利、小鹏 [1][39] - 技术流程为环境信息输入→多模态编码器→LLM/VLM→动作解码器→驾驶动作,形成感知推理行动闭环 [40] - 语言输入演进历经直接导航指令、环境查询、任务级指令至对话式推理四个阶段 [42] - 动作解码器可采用自回归令牌器、扩散模型头或分层控制器生成控制信号或轨迹点序列 [42] - 小鹏第二代VLA为商业应用代表,技术发展历经语言模型作为解释器、模块化VLA、统一端到端VLA、推理增强VLA四个阶段 [44][48] WA(世界动作模型)与路线之争 - 华为ADS 4采用WEWA架构(世界引擎+世界动作模型),强调无需语言组件,直接建立时空认知能力 [1][52][55] - WEWA架构核心逻辑为视觉直接映射动作,跳过语言转化环节,关键指标为端到端时延降低50%、重刹率降低30% [56] - VLA架构核心逻辑为视觉-语言-动作三级传导,以语言为中介,优势在于复杂场景决策准确率提升及支持自然语言交互 [56] - 语言模型价值在于跨场景知识迁移能力(如预训练模型规划误差降低27.12%)、多模态信息统一表征及决策可解释性 [57] - 技术路线核心差异在于是否依赖语言抽象,VLA依赖语言模型归类场景,而WEWA主张直接学习时空物理规律 [55][57]
36个月大逆转,他带着谷歌AI杀回来了,下一步世界模型
36氪· 2025-11-21 07:53
模型性能与市场竞争 - Gemini 3 Pro在发布后于多个模型排行榜上表现优于GPT-5及其他模型,尤其在模拟推理和长时间规划方面表现更佳[12] - 谷歌Gemini应用的月活用户已超过6.5亿,而ChatGPT的周活用户在7-8亿(换算月活可能超10亿)[12] - 每月有超过20亿人通过Google搜索中的AI Overviews功能使用Gemini,约1300万开发者在产品中集成Gemini[12] 产品整合与商业化 - Gemini 3从发布之日起即全面增强谷歌现有产品,包括其利润可观的搜索业务,AI Overviews功能推动搜索查询量提升了10%[7][8] - 谷歌视觉搜索功能因依赖Gemini的照片分析能力而出现70%的激增[8] - 谷歌优势在于其深厚的产品“家底”,包括搜索、地图、Gmail、云服务等广泛基础产品线,并已实现所有产品完全运行在Gemini技术栈上[8] 技术路线与未来规划 - 谷歌在上下文窗口方面做了大量实验,并将其提升到100万个token,该记录尚未被真正打破[7] - 公司一开始就将机器人和眼镜视为重要应用场景,因此决定走多模态路线,Gemini已在多模态理解上显现出明显优势[8] - 公司追求打造“各方面都最强”的通用模型,将其视为通向AGI的关键,并预测实现完全AGI还需五到十年时间[13][14] 公司战略与行业定位 - 谷歌在AI领域长期投入巨大资源,曾在2017年发现Transformer模型架构但选择公开,未将其商业化[9][10] - 公司认为其在与OpenAI、xAI等AI厂商的竞争中处于“进可攻,退可守”的有利位置,既有扎实营收,又承担着公司“AI动力舱”的重任[8][15][17] - 公司正考虑通过Gemini重启谷歌眼镜项目,因通用助手可能成为其“杀手级用例”[8]