Workflow
世界模型
icon
搜索文档
生成视频好看还不够,还要能自由探索!昆仑万维开源Matrix-Game,单图打造游戏世界
机器之心· 2025-05-13 10:37
世界模型技术进展 - 开源世界模型Oasis首次实现实时可交互虚拟环境,包含画面及物理规则理解[1] - 微软开源MineWorld提升视觉效果和动作生成一致性[2][3] - 创业公司开源"多元宇宙"支持多玩家在同一世界模型游戏[4] - 英伟达提出"物理图灵测试"作为具身智能新标准[4] Matrix-Game技术突破 - 昆仑万维开源17B参数世界基础模型Matrix-Game,实现完整可交互游戏世界生成[6][10] - 模型特点包括细粒度交互控制(键盘指令准确率超90%)、高保真视觉物理一致性、多场景泛化能力[17][20][25][26] - 建立GameWorld Score评估体系,在视觉质量(0.72)、时间一致性(0.97)、交互可控性(0.95)、物理规则(0.76)四大维度超越竞品[30][31][35] 技术实现路径 - 采用两阶段训练策略:无标签数据预训练+标注数据可控训练[41] - 构建Matrix-Game-MC数据集,包含2700小时中质量+870小时高质量无标签数据及1000小时有标签数据[41][42] - 模型架构基于图像到世界建模,通过DiT生成潜在表示并由3D VAE解码为视频序列[44][45] 应用场景与行业影响 - 应用领域涵盖游戏开发、具身智能训练、影视与元宇宙内容生产[7][51] - 可与公司其他AI产品(天工大模型、Mureka、SkyReels)联动构建完整创作生态[51][52] - 代表空间智能发展方向,推动国内在交互式视频生成领域的技术突破[50][51] 行业趋势 - 三维世界AI研究加速发展,计算平台可能从处理token转向处理原子级单位[4] - 空间智能被视为生成式AI下一个发展方向,将推动更高级的智能实现[48][49] - 行业呈现技术全面兴起态势,类似大模型爆发的局面可能重演[4]
21对话|卓驭陈晓智:用有限算力做极致性能,这是我们血液里的东西
21世纪经济报道· 2025-05-10 08:36
公司技术路线与产品策略 - 公司定位为软硬一体供应商,通过自研硬件和软件实现极致成本控制,如补盲雷达成本控制在千元以内[1][5] - 采用7V+32TOPS低算力配置实现城市记忆领航、高速领航驾驶功能,对比行业主流254TOPS方案显著降低成本[1][7] - 推出基于英伟达Thor平台的VLA大模型,单颗700TOPS域控成本低于双OrinX(500TOPS×2)方案[3][6] - 2024年推出"成行平台"提供7V/9V方案,通过BEV+双目视觉技术降低对高精地图与激光雷达依赖[2] 市场定位与客户拓展 - 聚焦8万-15万元中低端市场,已实现8万元车型标配高阶智驾功能[1][3] - 2024年合作客户包括一汽、大众、比亚迪等9大车企,20余款车型量产+30款待量产[2] - 计划拓展豪华品牌及海外客户,推进本土化车型合作[7] 核心技术突破 - 强化"视觉优先"策略,认为激光雷达主要起安全冗余作用,2024年将量产激目1.0系统[5] - 世界模型技术实现"千人千面"个性化驾驶,通过思维链推理生成N种未来场景进行决策[12][15] - 强化学习与模仿学习结合提升安全性,可使长尾场景处理能力提升一个数量级[13][17] - 2024年技术重点为强化学习与世界模型落地,预计年内实现L2级更自然的车位自主寻找功能[12][20] 行业趋势判断 - 中低端市场将成为2025年智驾主战场,公司在该领域具备先发优势[3] - 世界模型将成为2024-2025年行业技术升级方向,推动端到端驾驶体验革新[19] - L3落地需以L2功能完善为前提,当前重点为硬件预埋而非商用推广[9][10]
MCP:AI时代的“万能插座”,大厂竞逐的焦点
36氪· 2025-04-29 16:11
MCP协议技术发展 - MCP协议由Anthropic于2024年11月提出,旨在为大模型与客户端提供标准化接口,实现外部数据源和工具的高效安全调用[1] - MCP协议类比USB-C接口,实现"一次封装全球可用",使AI模型能像搭积木一样便捷调用外部工具,降低接入成本50%以上[2] - 百度发布全球首个电商交易MCP和搜索MCP,开发者可快速调用商品搜索、交易处理等功能[2] 科技巨头MCP生态布局 百度 - 2025年Create AI大会发布文心大模型4.5 Turbo和X1 Turbo,全面支持MCP[3] - 百度智能云千帆平台集成MCP Server,实现从书籍推荐到购买的全流程操作[3] - 百度地图于3月21日成为最早兼容MCP的地图应用[3] 阿里 - 阿里云百炼MCP平台提供50+预置服务,构建商业闭环[5] - 支付宝、高德地图等核心应用接入MCP,形成生态协同效应[5] 腾讯 - 腾讯云TI平台支持MCP插件托管,聚焦微信生态和支付工具[7] - 通过MCP在微信小程序集成AI聊天机器人、智能推荐等功能[7] 字节跳动 - Coze空间集成MCP协议,实现Excel处理、PPT生成等基础功能[9] - 通过MCP调取高德地图、飞常准等工具,自动化生成旅行攻略[9] AI网络与物理世界连接 - 谷歌通过Google Earth将实体世界转化为三维数字模型[12] - 英伟达与软银推进AI-RAN解决方案,构建日本AI基础设施[12] - 特斯拉"世界模型"构建高精度物理环境模拟系统[12] - SpaceX星链通过低轨卫星实现全球互联网覆盖[12] 自动驾驶领域应用 - MogoMind大模型实现物理世界实时数字孪生映射[13] - 多模态感知层实现400米无死角覆盖,误差控制在厘米级[13] - 边缘云协同架构将决策时延控制在100ms以内[13] MCP未来发展趋势 - 当前MCP生态存在割裂,未来可能实现跨厂商融合[16] - MCP将与量子计算、区块链等新技术结合拓展应用场景[16] - 百度、阿里等大厂推动MCP技术发展,重塑AI开发范式[16]
2025上海车展:当智驾不再让人兴奋,汽车智能化暗战升级
新浪财经· 2025-04-29 15:10
文章核心观点 - 2025年上海车展车企在技术、商业与社会效益中寻求平衡,汽车行业回归产品和用户核心本质,L3自动驾驶受关注,智驾技术升级,车企面临自研与合作挑战,需精准把握用户需求以穿越周期 [1][23] 车展变化 - 2025年上海车展少了拉踩引战和喧嚣,在技术、商业与社会效益中寻求平衡,反映车企对销量的渴求与焦虑,行业回归产品和用户核心本质 [1] L3自动驾驶进展 - 车展前一天华为联合11家车企谈L3,华为发布ADS 4.0乾坤智驾系统及高速L3商用解决方案,判断2025年L3具备商用能力 [2] - 小鹏、理想等车企将2025年实现L3级有条件自动驾驶落地作为目标,广汽今年四季度启动首款L3自动驾驶车型量产上市,奇瑞2026年实现量产L3级自动驾驶车辆,长安2026年实现全场景L3级有条件自动驾驶 [2][3] 自动驾驶分级及区别 - 汽车驾驶自动化技术分为L0 - L5的6个等级,L3级为有条件自动驾驶,特定条件下车辆自主完成驾驶任务,驾驶员为监督者 [3] - L2级辅助驾驶阶段驾驶员掌控主导权,系统特定场景协助,需时刻监控车辆;L3级车辆控制权逐渐让渡给系统,特定条件下独立完成任务,驾驶员必要时接管 [4][5][7] - L3级相比L2级在驾驶任务执行主体、驾驶员参与度和系统自主性上有本质区别,对技术架构提出感知融合、决策算法、冗余安全三大核心挑战 [9] 智驾技术升级 - 智驾研发技术从“端到端”升级至“世界模型 + 强化学习 + 云端蒸馏”方案,“端到端”技术有响应速度快等优点,但存在安全边界难界定等问题 [10] - 世界模型为人工智能系统提供内部环境模拟,能预测外部世界状态变化,在强化学习和自主决策系统中显示出强大潜力,多家车企和公司提出该概念 [12][14] - 汽车行业超90%企业进行AI大模型相关技术试点或应用,多个品牌接入DeepSeek,结合蒸馏训练可构建智能系统,提高思考和推理能力 [15] 责任认定变化 - 《深圳经济特区智能网联汽车管理条例》规定L3级开启状态下事故,驾驶员通常为第一责任人,因车辆质量缺陷造成可向生产者、销售者追偿;《北京市自动驾驶汽车条例》规定系统激活期间事故车企承担主要责任,驾驶员未及时接管承担部分责任 [16] 智能辅助驾驶系统 - 智能辅助驾驶系统是“人 - 车 - 路 - 云”协同体系一环,需多方配合,探索相关技术综合应用和路侧信息发送机制可提升安全性 [17] 车企自研情况 - 车企自研渐成趋势,用户对智能座舱和辅助驾驶提出更高要求,不同类型车企自研决策有不同侧重和优先级 [18][19] - 车企更适合自研核心竞争技术、差异化技术、高成本技术部件,蔚来提出智能汽车“新三大件” [20] - 车企需在自研与配套间找到平衡点,做好战略规划和优先级设定,采用分阶段研发和投资策略,与其他企业合作联盟 [22] 行业发展趋势 - 新势力车企需平衡流量与安全,传统车企补齐智能化短板,合资品牌证明电动化进化,品牌跃升需精准理解和兑现用户需求 [23]
王晓刚:物理世界模型用于驾驶辅助训练很重要
新浪财经· 2025-04-24 17:04
上海车展与行业趋势 - 上海车展于4月23日开幕 主题为"拥抱创新 共赢未来" 涵盖传统燃油车、新能源车、智能驾驶和供应链技术等领域 高阶智驾、AI大模型和多模态感知等前沿技术加速落地 [1] 供应链成本控制策略 - 保证产品品质和安全性是第一位 通过扩大智驾市场合作量产车辆分摊智能驾驶系统成本 [3] - 行业逐渐形成硬件配置共识 车厂注重传感器型号平台化 减少对特定车型的重复开发和适配工作 [3][4] 技术突破方向 - 生成式智驾是未来重要趋势 利用世界模型重建物理场景 通过仿真环境复现问题场景并生成大量危险场景数据 解决端到端模型的数据局限性和不确定性问题 [5][6] - 多模态大模型改变智能座舱交互形态 具备深度思考能力 支持多轮多人对话和观点综合 打破传统一对一交互模式 [6][10] 数据有效性分析 - 99%的用户真实数据对训练模型没有帮助 因为90%的驾驶数据是匀速直线行驶 缺乏信息增量 只有踩刹车、避让或拐弯等场景的信号才有效 [7] - 复杂场景中80%的驾驶行为可能停止 仅少数高水平驾驶者能顺利通过 这些是高质量数据 类似GPT等大模型也需筛选互联网数据 删除90%以上低质量数据 [7] 模拟数据应用 - 模拟仿真解决驾驶行为生成问题 通过强化学习改进模型 但困难场景仍需寻找 类似DeepSeek面临难问题稀缺的挑战 [8] - 模拟数据需保持硬件系统时空一致性 例如11个摄像头生成的视频轨迹必须一致 避免训练问题 并可兼容设备故障 [8] 智能座舱产品进展 - 多模态识别功能已在某主机厂实现 更多新功能在上海车展展示 正在寻找量产机会 [9] - New Member产品支持多对多、多轮多人对话 能识别对话者身份并参与讨论 总结观点 实现根本性交互变革 [10] - 主动交互可应对长途驾驶犯困问题 如播放音乐或说话 但更需与驾驶结合确保安全 避免长时间聊天 [10][11] 行业变革节点 - 自动驾驶时代到来将根本改变座舱状态 解放人员自由度 [12] - New Member类聊天机器人可与手机等设备打通 实现无处不在的交互 [12] 软硬件开发生态 - 软硬一体可降低成本 但通用性更好的软件生态是关键 如英伟达GPU的强软件生态 [13] - 芯片厂商如英伟达、高通、MTK和英特尔均强调生态建设 软硬结合是趋势 但最优解仅在成本有优势 不影响纯软件开发公司 [13]
上海车展
数说新能源· 2025-04-24 14:29
智能驾驶行业趋势 - 主要公司弱化"智能驾驶"宣传,比亚迪将"天神之眼"改称为驾驶辅助,强调安全性 [1] - 理想等企业在产品发布中突出紧急情况下的用户安全性能 [1] - 行业技术竞争焦点从车端算力转向云端构建的"世界模型",小鹏、理想、华为、地平线等均在展示该技术 [2] 车企出海战略 - 中国车企在SUV/MPV等热门车型上新品发布增多,国内市场同质化趋势加剧 [2] - 欧美、日本、中东、东南亚等地记者和博主增多,反映中国智能电动车在海外市场竞争力强劲 [2] - 比亚迪出海战略重点发力东南亚市场 [8] 供应链与电池技术 - 主机厂在电芯采购上兼顾性能与成本 [5] - CATL储能市场增速高于动力电池市场 [10] 行业社群与资源 - 提供锂电行业社群加入渠道,可获取行业动态、干货报告及人脉资源 [11]
商汤绝影打造智能驾驶新路标——生成式智驾R-UniAD,让安全更有确定性,超越人类驾驶极限
观察者网· 2025-04-24 09:18
文章核心观点 - 商汤绝影发布了生成式智能驾驶技术方案R-UniAD,通过引入强化学习与世界模型,构建VLAR技术架构,旨在解决端到端智能驾驶在数据、安全与性能方面的瓶颈,提升驾驶安全确定性并超越人类驾驶极限 [2][6][9][16] 技术架构与方案 - R-UniAD是“多阶段强化学习”端到端技术方案,包含模仿学习冷启动、与世界模型协同的强化学习训练、以及高效蒸馏至车端部署三个阶段 [9] - 公司构建了集“视觉-语言-行动-强化学习”于一体的VLAR技术架构,作为R-UniAD第二阶段的核心 [6][9] - 该架构依托云端超100万案例和1024种场景类型构建虚拟测试场景,使实采Corner Case数据需求降低2个量级 [9] - 通过强化学习训练的模型,相较于人类驾驶员的碰撞率降低1个量级 [9] 世界模型“绝影开悟2.0” - “绝影开悟”世界模型已升级至2.0版本,进化为近实时在线交互的4D世界模型,具备“4D空间自由交互”能力 [17] - 该模型具备三大核心能力:面向量产的数据生成、复杂场景自由复现、以及近实时交互 [19][20] - 在数据生成方面,可从100多个维度组合生成万千场景(如Cut-in场景),并能通过提示词一键生成极端风险场景(如车祸) [19] - 在场景复现方面,可任意修改调整场景要素,如替换车辆、改变道路布局与车速等 [19] - 其近实时交互能力比行业SOTA提升5倍,感知结果接近真实精标数据98% [20] 技术优势与效果 - 针对“施工占道刹停”等复杂场景,R-UniAD基于世界模型进行4D仿真复现,流程耗时从传统方案数天缩短至几个小时,场景一致性达到95%,相比单一3DGS技术提高1.5倍 [11] - 在仿真环境中,通过设置Reward计算维度(如加速度、是否碰撞等)进行数千次强化学习训练,使模型能找到最优驾驶策略,实现预判与丝滑绕行 [11][12] - 经过泛化训练后,模型对类似前方障碍物场景的交互能力显著提升 [13] - 该技术方案让端到端模型能够比人类“看更多”、“学更快”、“开更好” [16] 商业化与量产进展 - 商汤绝影辅助驾驶方案目前已合作4家车企,上车7款车型 [1][21] - 2025年3月底,公司与广汽联合打造的行业首批基于地平线征程6M的辅助驾驶方案已量产上市 [21] - 2025年,公司将继续推进基于地平线征程6的方案在奇瑞等车企量产落地,基于英伟达DRIVE AGX Thor平台的端到端量产方案计划于第四季度在东风汽车交付 [1][21] - 公司基于地平线征程6的量产方案获得了中汽研《CATARC标志认证实施规则–“征程之星”领航辅助驾驶认证》 [23] - 截至2024年12月,商汤绝影已与超过30家国内外车企合作,覆盖超130款车型,累计交付总量超360万辆 [25] 行业背景与挑战 - 当前许多辅助驾驶方案在新场景下处理能力不足,事故时有发生 [1] - 端到端模型依赖海量高质量数据训练,但极端场景有效信息提取率不足1%,高价值数据稀缺 [1][5] - 端到端范式本质是模仿学习,在新场景下决策不确定性高,安全边界模糊,且难以超越人类驾驶能力上限 [1][5] - 行业正从规则式、感知决策一体化的端到端模型,向生成式智驾演进 [3][5]
大模型驱动空间智能综述:具身智能体、智慧城市与地球科学的进展
空间智能与大模型 - 空间智能是人类和机器对空间环境的感知、理解和运用能力,大语言模型(LLMs)展现出显著的空间智能潜力[2] - 大模型通过内化吸收(预训练数据)和外部调用(查询专业数据库)两种方式获取空间知识[3] - 大模型存在"幻觉"现象和知识动态更新困难等空间记忆方面的挑战[3] 空间推理能力 - 抽象空间推理包括定性空间推理、几何推理和图论推理三个关键方向[5] - 大模型在处理多步骤传递性推理和复杂几何逻辑推演时准确率显著下降[5] - 当前大模型主要利用语言建模能力"模仿"空间任务,而非真正拥有深层空间认知机制[5] 微观尺度应用(具身智能) - 多模态大语言模型(MLLMs)推动机器人空间感知与理解能力提升[7] - 大模型用于生成环境三维表征并规划复杂操作序列[7] - 机器人空间交互面临多模态信息融合和动态环境适应等挑战[7] 中观尺度应用(城市空间智能) - 大模型结合卫星影像、街景图片和POI数据理解城市功能特征[8] - 用于城市知识图谱构建、交通流优化和规划决策支持[9] - 面临数据异构性、动态环境适应和决策可解释性等挑战[9] 宏观尺度应用(地球空间智能) - 大模型处理地球观测数据用于气候变化预测和自然资源管理[10] - 在气候科学领域提升天气预报精度和极端天气预警能力[10] - 地理学应用中结合GIS工具增强专业空间分析能力[10] 未来研究方向 - 需要建立跨领域、跨尺度的通用空间智能评估框架[13] - 城市空间智能需发展实时数据整合和因果推理能力[13] - 地球空间智能需加强多学科数据融合和物理约束整合[13]
智元机器人首席科学家罗剑岚:如果机器人实现“操控”,是比大语言模型更高级的智能
每日经济新闻· 2025-04-02 15:35
公司合作与技术发展 - 智元机器人与Physical Intelligence(Pi)达成合作伙伴关系,将在具身智能领域展开深度技术合作,重点关注动态环境下的长周期复杂任务 [1] - 罗剑岚加入智元机器人并全面领导具身智能研究中心,同时推进双方深度合作 [1] 机器人自主决策与智能等级 - 遥控与自主决策的核心差别在于机器人需具备感知、预测、行为生成的泛化能力,并建立Internal Model(世界模型)以预测未来和执行动作链 [1] - 机器人实现Manipulation(操控)的智能等级为7至8,远高于大语言模型(LLM)的3级 [1] 关键技术路径 - 强化学习和DeepSeek R1的推理能力是关键技术,但模仿学习不足,需结合世界模型预测环境变化 [1] - 核心挑战在于构建开放数据链的鲁棒策略,以及感知、预测、行为生成机制的泛化能力 [1] 数据收集与场景部署 - 人形机器人缺乏大规模应用场景数据,需通过部署产生数据循环(如1000台机器人在星巴克工作可快速积累数据) [1] - 机器人部署难度低于智能驾驶,可从封闭或半封闭空间开始,逐步生成数据 [1]
电动汽车百人会(2025)|博世吴永桥:中阶智驾将是标配,座舱才是车企主战场
中国经济网· 2025-03-31 10:40
中阶智驾技术发展趋势 - 中阶智驾未来将成为汽车标配,类似安全带和安全气囊 [1] - 比亚迪在2025年2月已发布标配中阶智驾的天神之眼系统,算力达80-150TOPS,并应用于8万-15万元车型 [3] - 预测三年内8万-15万元车辆将标配80-150TOPS的中阶智驾 [3] 主机厂研发策略转变 - 中阶智驾成为标配后,主机厂无需投入巨大人力物力进行全栈自研 [1] - 主机厂全栈自研需至少三年时间打通数据闭环和工具链,消耗大量基建、人力和时间 [3] - 主机厂投入1000-2000人团队可能仅支持10个车型,整体性价比不高 [3] 供应链角色与市场格局 - 中阶智驾应由以博世、元戎启行、华为和momenta为代表的Tier1供应商提供 [3] - Tier1供应商可以支持7-8个客户、几十款甚至50-100个车型 [3] - 未来的L3级、L4级自动驾驶及AI大模型等标配零部件可交给供应链处理 [4] 高阶智驾与主机厂竞争焦点 - 预测三年后高阶智驾将逐步普及,在15万元以上车型中标配全领域领航功能 [3] - 主机厂应关注高阶智驾供应链无法满足的领域,如用户体验和售后服务 [4] - 座舱被视为车企差异化竞争的主战场 [1] 行业投入与成本分析 - 中阶智驾的数据闭环和工具链每年需投入数亿甚至数十亿元 [3] - 博世去年在智驾领域投入接近20亿元 [3]