World Model
搜索文档
杨立昆批评Meta的AI战略,称LLM不是通往人类水平智能的途径;夸克全面接入千问对话助手,将发布全新AI浏览器丨AIGC日报
创业邦· 2025-11-19 08:12
蚂蚁集团AI产品发布 - 蚂蚁集团正式发布全模态通用AI助手“灵光”,可在移动端实现自然语言30秒生成可编辑、可交互、可分享的小应用 [2] - “灵光”是业内首个全代码生成多模态内容的AI助手,首批上线“灵光对话”、“灵光闪应用”、“灵光开眼”三大功能,支持3D、音视频、图表、动画、地图等全模态信息输出 [2] - 该产品已同步登陆安卓与苹果应用商店 [2] 行业巨头AI动态 - 亚马逊创始人杰夫・贝索斯创办名为“Project Prometheus”的人工智能初创公司并担任联席CEO,该公司已获得62亿美元资金并拥有近100名员工,包括来自Meta、OpenAI和谷歌DeepMind的研究人员 [2] - 夸克APP全面接入阿里巴巴千问对话助手,用户可在夸克APP内使用千问的对话能力,夸克定位为AI浏览器并将与千问APP形成战略协同,其PC端也将推出与千问深度结合的全新AI浏览器 [2] - 苹果明星设计师Abidur Chowdhury已从苹果公司离职,加入一家人工智能初创公司,其离职在公司内部引起不小震动 [2] AI技术路径争议 - Meta前首席AI科学家杨立昆批评大型科技公司在大型语言模型上投入巨额资金是一个错误,认为真正的计算机智能不会来自语言模型 [2][3] - 杨立昆认为人工智能的突破将来自“世界模型”,而非依赖于从互联网吸收文本的LLM或视觉数据 [2][3]
李飞飞最新播客:从洞穴实验理解世界模型|Jinqiu Select
锦秋集· 2025-11-17 16:43
文章核心观点 - AI的本质是“智能”的延伸,而非“人工”,是人类理解世界能力的拓展[3][10] - 推动AI发展的核心三要素始终是数据、神经网络和GPU算力,这一组合构成了现代AI的基石[6][24][26] - 当前AI发展的关键瓶颈和未来机遇在于“世界模型”,其旨在解决机器在空间、视觉和行动上理解世界的难题,是连接语言智能与具身智能的桥梁[3][34][40] - 单纯依靠大数据和算力扩展的“苦涩教训”路径在机器人等具身智能领域可能行不通,因为面临数据难以获取、物理系统复杂性等独特挑战[4][47][48] - 公司World Labs发布的全球首个大规模世界模型Marble,展示了生成可导航、可交互三维世界的技术能力,并在影视制作、游戏开发、机器人模拟等领域展现出应用潜力[39][53][59][60] AI发展历程与驱动要素 - AI学科诞生于20世纪50年代,经历了从早期逻辑系统、专家系统到机器学习、神经网络的发展阶段[16][17] - 2006至2007年启动的ImageNet项目,通过整理1500万张网络图片和22000个概念分类,为AI提供了关键的大规模数据集[23] - 2012年成为深度学习与现代AI的开端,多伦多团队利用ImageNet数据、NVIDIA的两块GPU,成功训练出在物体识别上取得突破的神经网络[23][24] - 在2016年前后,科技公司曾因市场接受度问题而避免使用“AI”一词,这一情况在约2017年后发生根本性逆转[28][29][30] - ChatGPT的成功本质仍是数据、神经网络和GPU三要素共同作用的结果,而非技术路径的根本改变[25][26] 世界模型的概念与重要性 - 世界模型是一种基础能力,旨在让机器能够推理、互动并创造世界,其核心是从二维信息理解三维甚至四维世界的能力[3][34][41] - 与大型语言模型不同,世界模型关注的是空间智能,对于机器人、自动驾驶、科学发现(如从二维X射线衍射图推理三维DNA结构)等领域至关重要[40][44] - 公司World Labs于2022年开始布局世界模型研究,认为其与语言模型同等重要甚至互补,是AI未来的关键方向[3][39][53] - 世界模型的应用可显著提升效率,例如在影视虚拟制作领域,有案例显示其能将制作时间缩短40倍[59] 机器人与具身智能的挑战 - 在机器人领域应用“苦涩教训”(即简单模型+大数据)面临两大挑战:训练数据与输出动作难以完美对齐,以及机器人作为物理系统的复杂性[4][47][48] - 机器人训练数据稀缺,尤其缺乏体现真实三维动作的数据,网络视频虽有价值但存在对齐问题,需补充遥操作或合成数据[47][48] - 机器人更接近自动驾驶汽车,不仅需要“大脑”(算法模型),还需要“身体”(硬件)和具体的应用场景,其产品化涉及供应链、硬件成熟度等多方面因素[4][49] - 与在二维平面上运动的自动驾驶汽车相比,在三维世界中行动并操控物体的机器人面临更长的技术发展路径[49] World Labs与Marble产品进展 - World Labs由四位深耕技术研究的联合创始人资助,团队约30人,主要为研究员和研究工程师,致力于将前沿模型与产品结合[53][65] - 公司推出的产品Marble是全球首款允许通过文本或图像提示生成可导航、可交互三维世界的模型[53][54] - Marble采用点状可视化设计,旨在帮助用户理解模型运行并提升体验愉悦感,该特性受到用户积极反馈[55] - 目前Marble已应用于电影虚拟制作、游戏开发、机器人模拟训练及心理学研究等多个领域,展现出横向应用潜力[59][60] - World Labs的技术路线强调空间智能超越二维视频生成,专注于在深度空间中创造、推理和互动[63] 对AGI与未来技术发展的看法 - AGI(人工通用智能)更像一个营销词汇而非严谨科学概念,AI本身即是追求机器像人一样思考和行动的“北极星”目标[32][33] - 当前技术路径(扩展数据、算力、模型)虽能继续推进,但仍需重大创新以解决AI在抽象推理、情感智能、科学发现(如推导物理定律)等方面的不足[34][35][36] - 人类智能以极低功耗(约20瓦)完成复杂任务,这凸显了生物智能的高效性与当前AI技术的差距[52] 人才与行业生态观察 - AI领域竞争激烈,主要体现在模型、技术和高成本人才的争夺上[67][68] - 对于职业发展,建议关注自身热情、团队使命和所能产生的影响,而非过度纠结细节或盲目追逐热点[71][72] - 斯坦福以人为本AI研究所(HAI)的建立,旨在推动AI在科研、教育、政策等领域的负责任发展,并加强科技界与政策制定者(如华盛顿、布鲁塞尔)的沟通[73][74]
理想詹锟ICCV'25讲世界模型从数据闭环到训练闭环PPT
理想TOP2· 2025-10-28 23:18
技术发展路线 - 自动驾驶技术正从基于规则的系统、模仿学习向端到端+视觉语言模型以及无地图方案演进 [6] - 技术性能的提升依赖于仿真效率、数据规模以及人类工程师的经验 [6] - 视觉语言模型和世界模型是构建L4级训练闭环的关键组成部分 [15][16] 数据闭环的价值与规模 - 公司已积累15亿公里的驾驶数据,数据片段长度为15至45秒 [8] - 数据闭环基础设施包含超过200种触发条件,能够实现分钟级的数据反馈 [8] - 数据规模呈现显著增长,从2020年的数据点增长至2025年的规划 [8] 端到端视觉语言模型的数据缩放定律 - 模型性能随着训练片段数量的增加而提升,从100万片段到1000万片段均有对应性能指标 [10] - 在引入“超级对齐”技术后,模型干预间隔里程数显著提高,例如从无对齐时的约20公里提升至超级对齐后的超过200公里 [10] - 性能提升过程具有明显的时间线,从2023年02月27日到2025年01月05日期间持续迭代优化 [10] 数据闭环的局限性 - 数据闭环技术无法单独解决所有复杂驾驶场景,例如交警指挥、车道变化、前方烟花爆炸、羊群突然切入等边缘案例 [11][12] - 行业共识是自动驾驶的竞争已进入下半场,重点从数据闭环转向训练闭环,核心在于评估和真实世界效用 [13][14] 训练闭环的关键技术栈 - 关键技术包括区域级仿真、合成数据、强化学习、世界模型、多模态生成与场景重建等 [17][18] - 仿真技术从重建向生成演进,结合了3D高斯泼溅+神经辐射场、3D高斯泼溅+扩散模型等前沿方法 [19] - 公司在该领域有明确的技术发展路线图和时间表,例如2024年2月的Hierarchy UGP项目至2025年9月的RLGF项目 [20][21][24][26] 生成数据的应用 - 生成数据主要应用于场景编辑、场景迁移和场景生成三大方向 [27][29][30][31][33] - 生成数据能够覆盖多种关键变量,包括车辆、自车行为、交通状态、天气、道路类型和行为等 [34] 强化学习引擎的系统能力 - 强化学习引擎的核心能力取决于世界模型、3D资产、模拟智能体、奖励模型以及GPU算力与效率 [35][36] - 构建多样化的场景、交互行为并提供精确反馈是提升系统泛化能力的关键 [36] - 与基础仿真环境相比,推理过程对计算资源的需求更为密集 [36] 训练闭环的核心挑战 - 交互式智能体是构建训练闭环过程中面临的主要挑战 [38][40] - 模拟环境中是否包含智能智能体对仿真效果有决定性影响 [41] 总结与展望 - 自动驾驶技术的发展方向是从数据闭环演进至训练闭环 [44] - 最终目标是建立由目标驱动、具备自我探索能力的学习方法 [45]
自动驾驶论文速递!VLA、世界模型、强化学习、轨迹规划等......
自动驾驶之心· 2025-10-18 12:00
DriveVLA-W0:世界模型增强自动驾驶VLA - 提出DriveVLA-W0训练范式,通过世界建模预测未来图像提供密集自监督信号,解决VLA模型“监督不足”瓶颈,增强泛化能力与数据扩展性[2][6] - 在NAVSIM v1/v2基准上分别达到93.0 PDMS与86.1 EPDMS,推理延迟降至基线VLA的63.1%[2][6] - 设计轻量级MoE动作专家,将推理延迟降至基线VLA的63.1%[6] - 在70M帧大规模内部数据集上验证数据缩放律放大效应,VQ模型ADE降低28.8%,ViT模型碰撞率降低15.9%[6][9] - 在NAVSIM v1基准上PDMS达93.0%,单摄像头优于多传感器竞品[6][9] CoIRL-AD:协同竞争式模仿强化学习框架 - 提出竞争性双策略框架CoIRL-AD,将模仿学习与强化学习结合在潜在世界模型中[13][15] - 在nuScenes数据集上碰撞率降低18%,在Navsim基准上PDMS得分达88.2[13][15] - 利用潜在世界模型实现基于“想象”的模拟,将强化学习融入端到端自动驾驶框架,无需依赖外部模拟器[15] - 设计基于竞争的学习机制,实现IL与RL的联合训练与结构化互动,避免梯度冲突[15] PAGS:优先级自适应高斯泼溅动态场景重建 - 提出Priority-Adaptive Gaussian Splatting框架,通过语义引导剪枝与正则化实现高质量实时3D重建[23][27] - 在Waymo数据集上达到PSNR 34.63,SSIM 0.933,渲染速度353 FPS,训练时间仅1小时22分钟[23][27][30] - 基于静态语义分数和动态梯度贡献分数的混合重要性度量,简化非关键场景元素,保留安全关键目标细粒度细节[27] - 模型尺寸530 MB,显存占用6.1 GB,优于EmerNeRF、StreetGS等主流方法[27][30] Flow Planner:流匹配自动驾驶规划 - 基于流匹配和交互行为建模技术,在nuPlan Val14基准测试中达到90.43分,是首个无需先验知识突破90分的学习型方法[34][38][40] - 在interPlan基准测试中比Diffusion Planner提升8.92分[34][40] - 提出细粒度轨迹分词技术,将轨迹分解为含重叠区域片段,解决全轨迹建模复杂度高问题[35][40] - 构建交互增强的时空融合架构,通过自适应层归一化将异质特征投影到统一latent空间[40] CymbaDiff:草图驱动3D语义场景生成 - 提出CymbaDiff模型,结合圆柱Mamba结构与空间扩散机制,实现基于草图与卫星图像的3D语义城市场景生成[44][47] - 在Sketch-based SemanticKITTI上FID达40.74,比现有方法提升约16分[44][47] - 构建首个面向3D户外语义场景生成的大规模草图驱动基准数据集SketchSem3D[47] - 设计圆柱曼巴扩散模型,显式编码圆柱连续性与垂直层级,提升空间连贯性[47] DriveCritic:VLM自动驾驶评估框架 - 提出DriveCritic框架,利用视觉语言模型进行上下文感知的自动驾驶评估,在人类偏好对齐任务中达到76.0%准确率[55][57][58] - 揭示现有规则化指标缺乏上下文感知能力与人类对齐性的缺陷[57] - 构建DriveCritic数据集,从NAVSIM采样5730个轨迹对,标注pairwise人类偏好[57] - 采用监督微调加强化学习微调两阶段训练,使模型具备跨视觉符号上下文的轨迹判优能力[57][58]
首个代码世界模型引爆AI圈,能让智能体学会「真推理」,Meta开源
具身智能之心· 2025-09-26 08:04
文章核心观点 - Meta公司发布了一个名为Code World Model的新型代码生成大模型,其采用世界模型架构,旨在通过模拟代码执行过程来提升推理和规划能力,代表了与大语言模型不同的技术路径 [1][5][16] 模型架构与技术特点 - CWM是一个拥有320亿参数的稠密、仅解码器结构的大语言模型,支持长达131k tokens的上下文长度 [7][8] - 模型在Python解释器和智能体式Docker环境中使用了大量观测-动作轨迹进行中间训练,并进行了大规模多任务推理强化学习 [12] - 模型基于大量编码数据和定制的Python + Bash世界建模数据进行训练,使其能够模拟Python函数的执行以及Bash环境中的智能体交互 [22] 模型性能表现 - 在通用编程与数学任务上,CWM表现如下:SWE-bench Verified pass@1为65.8%,LiveCodeBench为68.6%,Math-500为96.6%,AIME 2024为76.0% [8][23] - 在Aider Polyglot基准测试中,采用整文件编辑格式时,CWM的准确率为35.1%,与Gemini 2.0 Pro exp-02-05的35.6%和Grok 3 Mini Beta的34.7%表现接近 [24] - 在Terminal-Bench上,CWM与Terminus 1智能体配合使用的准确率为26.3%,优于Gemini 2.5 Pro的25.3%和o4-mini的18.5% [28] - 在BigOBench复杂度任务中,CWM在时间复杂度预测与生成的全部指标上均超越基线模型,例如时间复杂度的Code Only pass@1达到76.1%,优于Qwen3-32B的70.0% [29][30] 研究意义与未来方向 - CWM提供了一个强大的测试平台,用于探索世界模型在改进代码生成推理与规划能力方面的潜力 [15][31] - 世界模型方法旨在弥合语言层面推理与可执行语义之间的鸿沟,使模型能够预测自身行为的后果,从而实现更有效的决策 [16][17][31] - 消融实验表明,世界建模数据、Python执行轨迹以及可执行的Docker环境能够直接提升下游任务表现 [31] - 该研究支持未来在零样本规划、具身的链式思维、以及稀疏且可验证奖励的强化学习等方向的研究 [31]
人形机器人考察要点_市场展望、组件与具身人工智能-Humanoid Robot tour takeaways_ market outlook, components and embodied AI
2025-09-18 21:09
**行业与公司** 行业涉及人形机器人及自动驾驶 公司包括机器人初创企业优必选UBTECH 大族机器人Leju 越疆科技Dobot 以及零部件供应商奥比中光Orbbec 兆威机电Zhaowei 速腾聚创RoboSense 固高科技Googol 机器人制造设备供应商联想控股LK Tech 及自动驾驶方案提供商Minieye [1][7] **核心观点与论据** *市场前景* 人形机器人市场未来十年将快速扩张 当前主要用于教育和研发 未来2-3年将广泛用于工厂场景 长期有望进入商业和家庭应用领域 当前全功能人形机器人BOM成本约5-6万美元 未来5年成本将快速下降 得益于产品设计改进和规模效应 [1] 自动驾驶领域 日益严格的法规将为AD零部件提供更多机会 例如L3要求可能带来长距离物体检测需求 利好激光雷达LiDAR 而前视摄像头模块FVCM和驾驶员监控系统DMS因强制自动紧急制动AEB安装规定面临巨大增长潜力 [1] *零部件机遇* 灵巧手供应商兆威机电于2024年底推出人形机器人灵巧手模型 凭借寿命 温控和负载性能优势 长期目标全球市场份额10-15% 假设2030年全球人形机器人出货量达300万台 公司灵巧手出货量预计60-90万台 灵巧手BOM成本占机器人总成本20-30% 按单台机器人20-30万元人民币计算 单台价值量4-6万元人民币 [12][13] 视觉系统方面 奥比中光认为深度相机(包括结构光相机和间接飞行时间iToF)是人形机器人主流选择 而速腾聚创预计LiDAR采用率将因成本下降和远距离传感需求上升而提高 [2][21][22] 运动控制系统供应商固高科技凭借多自由度控制专业知识 其控制器可很好应用于人形机器人执行器 [2][15] 材料方面 联想控股看到镁合金在人形机器人结构材料中采用率上升 因减重要求和生产工艺成熟 镁合金可使功能部件减重30-40% 每辆汽车镁合金用量从2020年1.5-3公斤增至2024年燃油车5公斤和新能源车10公斤 政策目标是2030年达到45公斤 [25][26] *算法与数据* 视觉-语言-行动模型VLA和世界模型World Model是具身AI的两条竞争技术路线 VLA采用单一端到端模型 而世界模型学习现实世界物理规律 所需边缘侧计算能力更少 在长流程任务中表现良好 当前高质量数据可用性是关键瓶颈 机器人初创企业可能结合使用模拟数据和真实数据 或与政府支持的数据收集中心合作 [3][24] *公司具体动态* 优必选Walker系列人形机器人现已部署于比亚迪 极氪 东风 一汽大众等汽车工厂用于物料搬运 目标2025年出货500台 2026年出货2000-3000台 当前BOM成本5-6万美元 预计未来2-3年成本快速下降 [23] 速腾聚创新款EMX激光雷达在精度(192通道对64通道) 探测距离(300米对200米)和自研SPAD-SOC芯片方面优于竞争对手禾赛ATX产品 截至2025年8月已为40多款车型获得EM4/EMX设计订单 很可能成为小米 理想 零跑和长安的第二供应商 预计2025年ADAS激光雷达出货60-70万台 2026年150万台 其中约50%来自比亚迪 20-25%来自吉利 约10%来自上汽 [10] 越疆科技是全球领先协作机器人COBOT品牌 2025年上半年六轴协作机器人销售同比增长47% 大幅超越行业增长 显示份额提升 2025年一季度推出首款人形机器人原型 三季度推出第二版 [8][9] 大族机器人目标2025年出货超过1000台 2026年预计5000-10000台 关节是人形机器人关键部件 占成本40%以上 包括电机 减速器和执行器 当前产品有28个关节 下一代目标31个关节 预计平均售价ASP将随规模效应下降 到2026-2028年降至15万元人民币(约2万美元) [18][19][20] *自动驾驶与安全法规* Minieye提供从L0到L2的iSafety解决方案(前视摄像头模块FVCM) L2+到L3的iPilot解决方案(域控制单元DCU)以及L4的iRobo解决方案 中国已规定从2026年起商用车强制安装AEB 很可能从2028年起乘用车也强制安装 2024年中国乘用车AEB渗透率约为60% [16][17] **其他重要内容** *投资评级与风险* 联想控股XBQXF目标价3.2港元 基于10倍2026年预期每股收益 下行风险包括低于预期的总可寻址市场TAM和竞争 [27][28] 速腾聚创XEDSF目标价46港元 基于DCF和EV/销售额估值平均 下行风险包括汽车市场价格竞争 LiDAR市场竞争加剧 ASP/毛利率下降以及美国收入关税风险 [29][32] *研究范围* 报告涵盖工业及汽车行业多个公司 包括买入 中性和表现不佳评级 [33][34][35][36] *免责声明* 美国银行证券与其覆盖的发行人有业务往来 可能存在利益冲突 投资者应将此报告仅作为投资决策的单一因素 [4][5]
又有很多自动驾驶工作中稿了ICCV 2025,我们发现了一些新趋势的变化...
自动驾驶之心· 2025-08-16 08:03
多模态大模型 & VLA - 多模态大模型和VLA是当前最热门的赛道,主流范式遵循『预训练-微调-强化学习』三阶段,但通用自动驾驶VLM基础模型仍缺失 [5] - 华科与小米联合推出ORION框架,通过视觉语言指令生成动作实现端到端自动驾驶 [5] - 中山大学与美团合作开发All-in-One大型多模态模型DriveMM,整合多任务处理能力 [6] - 重庆大学提出MCAM模型,通过多模态因果分析理解自车级驾驶视频 [8] 闭环仿真 & 世界模型 - 基于世界模型和3DGS的闭环仿真成为行业刚需,聚焦车道线、红绿灯等细粒度性能优化 [5] - 清华大学与旷视科技推出DiST-4D模型,实现4D驾驶场景的时空解耦生成 [34] - 美团与中山大学开发RoboTron-Sim,通过模拟极端案例提升实车驾驶性能 [17] - 清华大学与地平线合作Epona模型,采用自回归扩散方法构建世界模型 [47] OCC与3D重建 - 丰田利用大规模二值占用数据开发语义占用预测模型B2S-Occupancy [52] - 清华大学团队提出GS-Occ3D,基于高斯泼溅技术扩展纯视觉占用重建 [51] - Valeo AI推出GaussRender,通过高斯渲染学习3D占用 [60] - 慕尼黑工业大学开发SceneDINO,实现无监督语义场景补全 [56] 目标检测 - 新加坡国立大学提出Perspective-Invariant 3D检测方法PI3Det,提升视角不变性 [68] - 韩国庆熙大学开发SFUOD框架,解决无源未知物体检测问题 [71] - 南京理工大学推出OcRFDet,基于物体中心辐射场实现多视角3D检测 [75] 数据集与评估 - 加州大学欧文分校发布DriveBench工具包,评估VLM在自动驾驶中的可靠性 [76] - 卡内基梅隆大学推出ROADWork数据集,专注施工区域驾驶场景 [79] - 中国科大与华为联合开发VLADBench,细粒度评估大视觉语言模型 [87] 端到端与轨迹预测 - 香港科技大学与滴滴合作强化轨迹预测模型,引入奖励启发机制 [29] - 韩国DGIST实验室利用可控扩散模型解决长尾轨迹预测问题 [30] - 中科院自动化所与理想汽车推出World4Drive,通过意图感知潜变量模型实现端到端驾驶 [32] 其他技术方向 - 浙江大学与中兴通讯开发Dynamic-DINO,实时开放词汇检测 [93] - 新加坡国立大学团队提出LiMA框架,跨视角蒸馏提升LiDAR表征 [97] - 复旦大学与萨里大学合作DriveX,在自由轨迹上生成驾驶视图 [37]
DeepMind科学家揭秘Genie 3:自回归架构如何让AI建构整个世界 | Jinqiu Select
锦秋集· 2025-08-06 17:07
核心观点 - Google DeepMind发布的Genie 3是一种革命性的通用世界模型,能够从文本或图像生成高度互动的3D环境,支持实时交互和动态修改 [1] - 该技术有望开启万亿美元商业版图,成为VR领域的杀手级应用,其核心是生成式交互环境模型,融合游戏引擎、物理模拟器和视频生成模型的特性 [9] - Genie 3代表了从手工编码到AI生成的世界模型演进,通过海量数据自主学习环境动态规律,终极目标是仅用文本提示生成任意交互式世界 [10] 技术演进 - 初代Genie通过3万小时2D游戏录像训练,自主学会视差效应等物理规律,创新包括时空视频编码器、潜在大动作模型和自回归动态模型 [11] - Genie 2实现3D跨越,视觉保真度提升至360p,模拟现实光照效果,具备记忆能力和物体恒存性 [12] - Genie 3分辨率达720p,实现照片级逼真体验和数分钟持续交互,融合VEO视频生成模型优点,展现超长上下文窗口和卓越一致性 [13][14] 关键特性 - 输入方式从图像转为文本提示,提供更大灵活性,支持环境多样性、长时程交互和提示控制的世界事件 [15] - 通过随机神经网络实现世界一致性,自回归架构使模型参考历史生成画面,新区域保留随机性,区分能力来自大规模训练 [16] - 核心应用是为具身智能体训练提供平台,模拟现实场景如自动驾驶罕见事件,形成世界基础模型愿景 [17] 行业影响 - 创造全新互动娱乐形态,类似YouTube 2.0或体验机器,用户可共同创造永不终结的虚拟宇宙 [19] - 简化交互式动态图形制作流程,与传统游戏引擎形成互补而非替代关系 [22] - 有望解决仿真到现实鸿沟,通过逼真世界模拟让AI安全走向真实环境 [23] 技术局限 - 目前仅支持单智能体体验,多智能体系统仍在开发中 [20] - 可靠性问题存在,完全物理和逻辑准确性需时间迭代,无法生成未训练数据场景如古代战役 [20] - 计算速度限制模型复杂度,采用模块化方案如Gemini与Genie 3协同工作 [20]
深夜,OpenAI、谷歌等更新多款模型
第一财经· 2025-08-06 15:17
大模型厂商新品发布动态 - OpenAI开源两款MoE架构推理模型gpt-oss-120b(1170亿参数/51亿激活参数)和gpt-oss-20b(210亿参数/36亿激活参数),标志其开闭源策略转变[3][4] - Anthropic推出Claude Opus 4.1模型,采用渐进式更新策略,在SWE-bench Verify基准测试得分74.5%(较前代+2pct),终端编程/推理/多语言问答能力均有提升[6][7] - 谷歌发布实时交互世界模型Genie 3,支持720p分辨率下24fps动态画面生成(最长数分钟),物理模拟涵盖水/光/生态系统等自然现象[8][9] 技术性能突破 - gpt-oss-120b在编码/工具调用基准测试中接近闭源o4-mini水平,gpt-oss-20b性能对标o3-mini,均支持端侧部署(80GB GPU/16GB消费级设备)[5] - Claude Opus 4.1在Terminal-Bench/GPQA Diamond/MMMLU基准测试分别达43.3%/80.9%/89.5%,客户反馈代码修改精准度显著提升[7] - Genie 3视觉记忆追溯达1分钟,画面一致性时长较Genie 2的8秒提升至数分钟,可模拟复杂环境交互(如摩托艇撞击灯笼效果)[8][9] 战略方向变化 - OpenAI时隔六年重启开源,CEO称两款模型耗资数十亿美元研发,强调本地部署能力(笔记本/手机端运行)[3][5] - Anthropic转向高频次渐进更新模式,计划未来数周持续推出改进版本,聚焦AI智能体能力强化[6] - 谷歌将世界模型定位为AGI关键路径,Genie 3突破实时交互边界但存在动作空间/多智能体模拟等局限[8][11]
CAAI具身智能专委会主任蒋树强:世界模型是智能体进行决策的重要依据
机器人圈· 2025-08-04 19:38
具身智能技术发展 - 具身智能的核心要素包括身体、环境与智能,三者通过深层次交互实现智能功能[4] - 智能实现依赖身体结构(如身高、感官分布)与感知行为能力的协同作用[4] - 具身大模型需融合视觉、语言、行为数据及物理参数等多模态信息,训练复杂度显著高于传统模型[4] 具身大模型挑战 - 单一本体训练更务实,多形态机器联合训练面临泛化能力、传感器差异等工程难题[4] - 虚拟环境生成数据存在物理参数失真问题,真实与虚拟环境对齐技术尚未突破[5] 世界模型研究 - 世界模型需整合三维空间、动态变化、对象关系等要素,为智能体决策提供环境预测基础[5] - 当前研究聚焦导航等工程实现领域,理论方法仍待完善[5] 机器人行业动态 - 2024年机器人上市公司年报显示行业竞争加剧,头部企业领跑趋势明显[8] - 人形机器人领域面临量产爆发与价格战双重压力,AI技术融合成为关键机遇[8] - 国际前沿技术包括螳螂虾仿生机器人、3D打印软体机械手等创新方向[8]