Workflow
VLA(视觉语言模型)
icon
搜索文档
中兴通讯崔丽:AI应用触及产业深水区,价值闭环走向完备
21世纪经济报道· 2025-12-30 18:25
AI行业发展趋势与核心观点 - AI大模型发展将从基础设施向上层应用演进,基座大模型数量将收敛至个位数,但围绕千行百业将衍生丰富的垂域模型与应用,这是引发技术变革的关键[2] - 物理AI成为重要关注窗口,正加速推进具身智能、自动驾驶等领域演进,有望深刻改变未来社会运行方式[2] - 2025年被称为“Agent元年”,AI技术正从以“内容生成”为核心的Copilot辅助模式,向以“自主行动”为核心的Agent模式迈进,企业智能化目标从“效率提升”转向“业务重构”[9] - AI应用正告别“技术炫技”的初级阶段,迈入“价值落地”的关键时期,核心逻辑是从“实验室里的高精尖”转变为“产业中的实用工具”,从“单一技术赋能”升级为“全链条生态协同”[16] 物理AI的技术路线与竞争 - 物理AI存在两条核心路线竞争:世界模型与视觉语言模型(VLA)[3] - Sora等模型标志着AI正从“预测者”向“模拟者”进化,是从“数据驱动”到“模型仿真驱动”再到“物理对齐”和“通用模拟”的范式转移[3] - 当前Sora被视为“视觉模拟器”而非真正的“物理世界模型”,因其缺乏因果推理、反事实推演和物理一致性,常出现违背物理逻辑的“物理幻觉”[3][4] - 世界模型技术路线分化为“生成派”(如Sora、Marble)和“表征派”(如JEPA),生成派适合做数据工厂或仿真训练,表征派适合做决策大脑和实时推理[4] - VLA模型核心理念是将机器人控制转化为序列建模问题,价值在于零样本泛化能力,但缺乏因果推理且依赖训练数据覆盖度;世界模型主张先构建环境内部模型进行虚拟试错,样本效率远超VLA[5] - 产业界正呈现VLA与世界模型融合的趋势,例如利用VLA进行高层策略规划,利用世界模型进行底层动作验证[5] 世界模型面临的挑战与发展预测 - 世界模型赋能“数实融合”需解决三大难题:理解因果性并掌握第一性原理、构建解决物理一致性问题的模拟器、应对数据枯竭与长尾困境[6] - 世界模型旨在通过海量视频数据预训练,在神经网络内部构建隐式“物理引擎”,以在数字空间低成本试错和推演[6] - 自动驾驶等数据驱动型AI的下一阶段竞争本质是高质量合成数据的竞争,成熟的世界模型能生成现实中难以捕捉的极端工况数据[6] - 世界模型落地时间表预测:2024-2025年实现视觉仿真;2026-2027年实现物理对齐;2028-2030年有望实现通用具身智能[6] 网络架构向AI原生演进 - 网络架构正从“云原生”向“AI原生”演变,大模型时代流量特征转向分布式“同步计算”,带来“大象流”、丢包零容忍、微秒级时延敏感等特点,需要网络做到“万无一失”[7] - AI原生网络核心是极致的性能无损和算网协同,具备内生智能、确定性保障和算网一体等关键特征[7] - 应用层面,云原生应用以K8S为底座,AI原生应用以“大模型+Agent”为底座,两者将趋于融合成为云智一体原生应用[7] 中兴通讯的技术布局与产品 - 中兴通讯技术演进从2G时代硬件集成,发展到5G时代的芯片+整机+大模型的组装式研发范式,在技术、专利、标准方面从跟随转向引领[8] - 公司自研珠峰、定海、凌云等芯片,服务器、存储、数据中心交换机和数据中心等产品收入增速明显[8] - 公司提供全栈全域的智算解决方案,支持软硬解耦、模型解耦和训推解耦,聚焦工程能力工具化[8] - 针对智能体应用,中兴通讯推出“Co-Sight智能体工厂”,带有“CT级可靠性”基因,结合深度思考和反思、DAG和COA规划协同,支持分钟级智能体构建[11] - Co-Sight通过冲突感知元验证(CAMV)机制确保决策可信,采用基于结构化事实的可信推理(TRSF)支持超长任务的“断点续做”[11] - Co-Sight构建了严格的运行环境:受控沙箱、全链路审计、隐私保护[12] - Co-Sight 2.0在通用AI助手基准测试GAIA中连续三个月保持第一,在代表前沿知识的HLE评测中也连续两个月位居榜首[12] - 中兴通讯与中国移动合作,联合验证了“点金行动”的31个高价值场景,结合图谱检索、强推理以及电信级多智能体协议,助力自智网络向L4+迈进[12] - 公司采用“1(通用底座)+N(领域增强)+X(场景微调)”策略,结合RAG技术,兼顾能力与成本[16] Agent规模化落地的挑战 - 智能体从实验室原型走向企业核心生产系统的“最后一公里”充满挑战,在电信、金融、能源等高可靠性行业,需解决随机性模型与确定性业务之间的矛盾、确保长程任务稳定性、构建可信安全边界[10] - 核心业务中,AI“幻觉”是不可接受的风险,企业无法容忍“黑盒”在没有人类审核下做出关键决策[10] - 由于上下文窗口限制,处理跨天、跨周的复杂任务链时,模型易出现记忆丢失或逻辑断裂,导致Agent开发复杂度呈指数级增长[10] - Agent使用工具(执行代码、调用API、操作数据库)会带来安全风险,如沙箱逃逸、资源耗尽和数据泄露[10] - 企业现有IT环境复杂,存在接口标准化缺失、数据孤岛等问题,同时需平衡推理维护成本与投资回报率[10] 有望率先实现AI价值闭环的行业特征与方向 - 能率先实现AI价值规模化复制的行业关键特征:信息密集、数据结构化程度高、具备强反馈机制、价值闭环极快、有一定容错度、具备一定范围泛化能力[13] - 智能化转型基础是网络化和数字化,数字化转型较好的行业更容易进行智能化转型[14] - 具体产业中,教育、医疗、软件开发、智能制造、城市治理等可能率先完成价值闭环[14] - 制造业凭借高度结构化数据环境和明确效率指标,成为AI价值变现的“排头兵”;城市治理依托海量多模态数据和迫切公共安全需求,正通过“城市智能体”模式实现从被动响应到主动预防的跨越[14] - AI进入产业“深水区”意味着从外围辅助系统进入核心生产系统,将面临“三多”(多模态数据、多厂家设备、多业务场景)、“三新”(新技术、新架构、新安全威胁)、“三跨”(跨领域知识融合、跨系统数据调用、跨组织流程协同)的复杂局面[14] 行业AI模型部署路径 - 驱动各行各业融入AI的模型路径并非“二选一”,而应采用“云边协同”的混合路径[15] - “通用基础大模型+行业精调”是构建企业“大脑”的最有效路径,能以低成本继承通用逻辑能力,解决知识密集型任务[15] - 从零构建行业专属小模型是构建企业“四肢”的可行方案,在非自然语言、极致边缘和极致隐私场景下不可或缺,解决了感知与执行层面的效率、适配和安全问题[15] - 面对工业领域的振动波谱、雷达信号、基因序列等“非自然语言”数据,通用模型的先验知识可能成为噪音,需从零构建专用模型[15] - 在极致时延和功耗场景(如矿山无人驾驶卡车),推理时延需控制在毫秒级,训练一个参数量在几百万到几亿的专用小模型是唯一可行方案[16] - 在对数据隐私和主权有极致要求的场景(如金融),为确保模型无潜在偏见或后门,会选择完全物理隔离环境下的从零训练[16]
读了 40 篇 VLA+RL之后​......
具身智能之心· 2025-11-28 08:04
文章核心观点 - 强化学习在视觉语言动作模型领域的应用趋势正从监督微调转向结合强化学习,其核心价值在于提升模型在真实环境中的适应性和任务完成效率[1] - 强化学习在单一任务上已表现出色,当前最大挑战在于实现多任务间的正向迁移,以提升预训练模型的基础性能,这关系到该技术路径的上限[3] - 行业研究重点集中在解决奖励稀疏性、大规模策略网络特性以及多任务学习等关键问题上,这些方向代表了潜在的技术突破点和投资机会[5] 强化学习在VLA中的应用分类与现状 - 强化学习优化方法呈现多样化,包括在线强化学习、离线强化学习、迭代式强化学习及推理时改进等,不同方法在效果上可相互转化[1] - 行业已出现代表性算法案例:What can RL brings to VLA generalization采用在线强化学习,CoRFT采用离线强化学习,pi-star-0.6采用迭代式强化学习,V-GPS采用推理时改进[1] - 强化学习在完成单一复杂任务方面效果显著,例如pi-star-0.6模型仅需约1千条轨迹即可完成叠衣服长程任务[3] 技术部署与基础设施 - 技术部署的核心考量是真实环境的可用性,重点解决安全性与数据采集效率问题,例如SafeVLA项目专注于安全性设计[2] - 模拟环境可能发挥重大价值,存在大规模强化学习预训练的可能性,世界模型与强化学习结合的预训练模式是未来方向[2] - 强化学习基础设施成为关键支撑,RLinf、RLinf-VLA、SimpleVLA-RL等项目在基础设施方面表现突出[2] 多任务学习与技术挑战 - 多任务学习是当前最大技术挑战,目标在于实现任务间正向迁移而非相互干扰,MoRE项目采用混合专家模型应对多任务相互影响问题[3] - 强化学习能否像大语言模型中的RLVR技术那样提升预训练模型基础性能,目前仍不确定,是领域内终极问题[3] - 行业关注多任务学习能否相互促进以及在预训练规模上强化学习能否提供帮助,这些问题的答案将决定技术发展路径[3] 奖励函数设计与技术演进 - 奖励函数或价值函数的必要性存在争议,一方面能降低优化方差,另一方面随着VLA模型性能提升,对密集奖励的需求可能降低[4] - 技术演进参考大语言模型中的GRPO方法已取消批判网络,预示奖励函数设计可能趋向简化[4] - 实际应用中出现两种路径:小奖励函数如SERL中的专用神经网络,大价值函数如VLAC中的视觉语言模型级神经网络[5] 研究方向与课题机会 - 当前主要研究方向包括:奖励稀疏性问题解决方案、大规模策略网络特性研究、多任务学习核心问题[5] - 具体课题机会体现在:DSRL针对扩散模型特性设计强化学习方案,SERL-HIL利用人类干预解决奖励稀疏问题,iRe-VLA专注于稳定性解决方案[5] - 行业已积累大量技术文献,涵盖RIPT-VLA、VLA-RL、pi_RL等30余个关键技术项目,为后续研究提供丰富基础[6]
楼天城:VLA帮不了L4
自动驾驶之心· 2025-11-16 00:04
文章核心观点 - L4级自动驾驶(Robotaxi)的技术发展已进入超越人类理解的阶段,其决策逻辑与L2级辅助驾驶有本质区别,L2模仿人类而L4必须超越人类[5][6] - 小马智行发布的第七代自动驾驶系统实现了100%车规级零部件,成本下降70%,并基于世界模型技术使安全性达到人类驾驶的10倍[8][9] - 公司认为实现L4级自动驾驶面向个人用户的时间将晚于2020年代,目前技术降维至量产车仍面临挑战,而具身智能领域正经历类似自动驾驶早期的真空期[22][24][26] 技术路线与模型应用 - 世界模型技术在机器学习领域有30年历史,小马智行已使用近6年,L4公司普遍采用强化学习模式进行技术演进[12] - 自Transformer出现后,公司开始整合从感知到执行的模块,并于2023年8月将感知、预测、规控三大模块打通为统一端到端模型,该模型在L4车辆中扮演冗余系统角色[15] - 视觉语言模型(VLA)被视为“全科大夫”,其跨领域通用性不适合L4对极端场景安全性的深度优化需求,在L4应用上帮助有限[17] 商业化与成本控制 - 小马智行Robotaxi车队已累计运行至少50万小时,覆盖市中心及高快速路场景,第七代系统的使命是实现降本与量产[29][30][33] - 降本两大里程碑为“去掉人”和“实现车规化量产硬件”,公司强调云代驾方案成本极高,相当于购买并折旧十辆普通车辆的总和,因此从未采用该逻辑[33][34] - 尽管成本下降70%,第七代Robotaxi定价将在合理范围内相对较高,公司认为AI应提供高质量服务而非追求最低价格[34] 行业发展趋势 - L2级辅助驾驶技术已逐渐“平权”,行业向L3进阶是合理趋势,但L3做法仍延续L2思路,无法渐进至L4,L4的安全及格线接近满分,L2目前远未达到该标准[19][21] - 自动驾驶被视为智能体(Agent)领域中最前沿的应用,Robotaxi是当前最好落地的场景,若无法在此领域突破则难以参与行业竞争[28] - 具身智能与机器人领域与自动驾驶存在技术通用性,但商业化需解决长尾问题,目前状态类似自动驾驶2018年阶段,需经历真空期才能衡量商业价值[23][24][26]