自我监督学习

搜索文档
VLA和World Model世界模型,哪种自动驾驶路线会胜出?
自动驾驶之心· 2025-09-05 07:33
自动驾驶技术路线对比 - 目前95%以上的世界模型用于生成视频以训练自动驾驶系统而非直接控制车辆 VLA技术已实现量产上车[3] - VLA本质属于模仿学习 依赖语言作为中间转换层 世界模型则采用类脑学习机制 跳过语言层直接输出动作 实现真正端到端控制[3] - 世界模型基于抽象层级理解与预测物理现实 具备因果推理和零样本学习能力 无需标注数据即可学习[4] 技术理论框架演进 - 世界模型理论可追溯至1994年 核心架构包含Vision Model、Memory RNN和Controller三大模块 采用VAE进行视觉特征提取[11] - 2019年演进为RSSM架构 结合确定性与随机性组件 在防止模型随意发挥的同时提升容错性[13][15] - 2023年提出JEPA架构 通过自我监督学习预测抽象状态而非像素细节 大幅降低计算需求 V-JEPA2于2025年6月发布[17] 模型训练与数据特性 - V-JEPA2预训练使用超100万小时无标注网络视频 仅用62小时机器人影片进行微调即可实现零样本任务执行[19] - 世界模型优势在于非逐像素计算降低运算资源需求 且训练完全无需标注数据 可直接利用网络资源[19] - 极端场景数据稀缺问题可通过虚拟仿真生成补充样本 结合域适应技术减少模拟到真实的性能差距[19] 技术瓶颈与挑战 - 传感器信息局限导致物理世界表达不完整 当前摄像头与激光雷达无法模拟人眼事件相机式的高效信息捕捉机制[20] - 表征崩溃现象使模型生成无意义向量 需通过正则化技术控制模型复杂度 但会限制因果关系学习能力[21] - 长期预测存在误差累积问题 多步预测可能导致严重偏离 需采用半监督与教师强制策略结合进行校正[21] - 世界模型缺乏可解释性 决策异常难以溯源 且易受对抗攻击影响 存在安全性隐患[22] 融合发展趋势 - VLA可通过强化学习微调吸收世界模型优点 典型案例如博世IRL-VLA采用逆向强化学习奖励世界模型[22] - 地平线SENNA VLA基于META小羊驼模型 阿里达摩院WorldVLA均体现VLA与世界模型相互增强的趋势[27][28] - 行业判断结合世界模型增强的VLA将成为主流技术路线 纯世界模型因可解释性等问题难以单独量产应用[30]
图灵奖得主杨立昆:中国人并不需要我们,他们自己就能想出非常好的点子
AI科技大本营· 2025-06-02 15:24
大语言模型的局限性 - 当前大语言模型仅擅长信息检索和已有解决方案的复述 无法进行真正的抽象思考、推理和规划 [3][5][6] - 模型通过统计规律生成答案 本质是模式匹配游戏 无法创造新事物或提出正确问题 [5][6][18] - 训练数据已达边际效益递减 天然文本数据接近耗尽 合成数据成本高且回报有限 [11][13][14] AI发展的新范式方向 - 未来AI系统需具备理解物理世界、持久记忆、推理和规划四大核心能力 [29][37][38] - JEPA架构通过非生成式方法学习世界抽象表征 可预测物理规律并实现真正规划 [44][47][49] - 视频数据训练比纯文本更高效 儿童通过10^14字节视觉数据即可掌握基础物理规律 [36][37] 开源与闭源竞争格局 - 开源生态创新速度显著快于闭源 全球协作可加速技术突破 [50][53] - DeepSeek案例证明中国团队具备独立创新能力 2015年ResNet论文成为全球被引最高单篇论文 [3][53] - 实际部署中开源模型成本更低且可控 Llama等开源引擎正被广泛采用 [51] 行业投资与商业化前景 - 当前AI投资主要用于推理基础设施扩建 而非短期技术突破 [19][20] - 消费级AI应用已获验证 Meta AI用户达6亿 但企业级部署仍面临可靠性挑战 [21][24] - 专家系统历史表明AI需避免过度炒作 新范式需3-5年才能成熟应用 [25][30]