Workflow
理想VLM
icon
搜索文档
25年8月8日理想VLA体验分享(包含体验过特斯拉北美FSD的群友)
理想TOP2· 2025-08-12 21:50
体验分三部分: 1.用MEGA在理想总部园区内主驾副驾无人,二三排对坐。 2.理想选好的路线,用i8在园区外公开道路体验1h。 3.自己随便选路线,用i8在园区外体验2h,开到机场与顺义周边的小村子。 今年6月体验过北美特斯拉FSD的群友评价(以下简称群友A):整体认为还是FSD更强一些,坐FSD与人聊天时几乎感觉不出是车在开,坐i8开VLA感 觉还是有几次是车在开。但不能完全排除是北美路况更好的原因。 在加州开FSD的感觉是无限接近自动驾驶,在顺义开VLA还达不到这个评价。 TOP2感受: 关于园区内主驾副驾无人的部分,单纯从体验而言,无疑是蛮OK的,不论是要求开快点开慢点,还是展现的特别强的可以基于语言找文字的能力。 但因为是理想自己园区,所以也无从感受泛化能力如何,只能有待全量推送后的体验。 局限于体验过的这个版本,在没有加塞型博弈场景+很少电动车混流的路况下,至少i8的 理想VLA在安心感/舒适度/效率上都较L系列 VLM有明显加 成。 在公开道路体验部分,理想倒也没有故意选容易的路,整体而言顺义周边非上下班的路况就是挺好的(群友A认为还是比加州路况更复杂),基本就不 涉及类似加塞型博弈场景。 TOP ...
不用给理想入选ICCV高评价, 牛的是理想的工作, 不是ICCV
理想TOP2· 2025-06-29 23:06
AI学术圈特点 - AI学术圈会议比期刊重要 因AI发展速度过快 期刊审稿周期无法满足需求 [5] - 顶会论文页数限制严格 优秀AI论文通常仅几页 与其他学科差异显著 [5] - 主要顶会投稿/录用数量暴增 例如AAAI 2014-2023录用数从398增至1721 投稿数从1406增至8777 录用率从28.31%降至19.60% [5][7] 顶会论文含金量现状 - 审稿人数量跟不上投稿增量 审稿质量下降 录用论文含金量参差不齐成为行业共识 [8] - 顶会录用者职业竞争加剧 优质岗位供给速度落后于录用者增长 类比其他学科学历贬值趋势 [8] - 中国机构贡献占比达1/3至1/2 商业公司参与度显著高于其他学科 高校资源处于劣势 [8] 理想汽车学术成果分析 - 自动驾驶团队5篇论文入选ICCV 基座模型团队另有3篇录用 公司强调学术成果重要性 [2][3] - 学术宣传本质是面向用户的辅助驾驶技术营销策略之一 [9] - VLA技术原始创新达到DeepSeek MoE级别 突破尺度介于MLA与Transformer之间 [11] 理想技术路径演进 - V10-11阶段确实跟随特斯拉技术路线 但V12后自主创新比例显著提升 [12] - VLM系统采用快慢双系统架构 快系统借鉴特斯拉 慢系统为完全自主创新 [12] - 技术开发逻辑类比增程车设计理念 通过差异化方案弥补算力/数据资源劣势 [12][13] 行业创新格局 - 中国公司中具备MoE级别原始创新能力的厂商数量远少于能批量产出顶会论文的公司 [1][11] - 商业公司实现顶会多篇论文收录门槛已大幅降低 但核心价值仍取决于实际技术突破 [8][10] - 理想VLA到VLM的技术演进路径已脱离跟随模式 形成自主创新体系 [12][13]
理想的VLA可以类比DeepSeek的MoE
理想TOP2· 2025-06-08 12:24
理想VLA与DeepSeek MoE技术类比 - VLA和MoE均为首次完整落地到新领域并取得良好结果 均包含大量创新 但两者在具体实现方式上存在显著差异 [2] - DeepSeek MoE通过细粒度专家划分将单个专家隐藏层维度缩小至1/4 专家数量增至4倍 使激活组合可能性从120种提升至44亿种量级 [2] - 采用共享专家隔离机制 设置占总专家数1/8的固定共享专家处理公共知识 显著减少不同专家间的知识冗余 [2] 理想VLA核心技术突破 - 需攻克6大关键技术点:MindVLA设计/训练流程 3D空间理解能力获取 驾驶知识语言模型构建 Diffusion融合 车端实时推理实现 [4] - 3D高斯技术通过RGB图像自监督训练 实现多尺度几何表达与丰富语义承载 为3D表征提供核心支持 [4] - 基座模型采用MoE架构和稀疏注意力机制 在扩容参数量的同时控制推理负担 训练数据配比优化减少文史类数据 增加3D及自动驾驶图文数据 [6][7] 模型训练与推理优化 - 引入未来帧预测和稠密深度预测任务 通过快慢思考双系统设计(快思考直接输出action token 慢思考采用固定简短CoT模板)提升实时性 [8] - 创新并行解码机制:语言逻辑采用因果注意力逐字输出 action token通过双向注意力一次性全输出 [8] - 使用小词表和投机推理技术 使CoT效率提升44亿倍量级 实现参数规模与推理性能平衡 [8] Diffusion技术应用 - 将action token解码为驾驶轨迹 同步生成自车轨迹与周边交通参与者轨迹 复杂环境博弈能力提升120% [9] - 采用多层Dit结构支持条件输入改变生成结果(如"开快点"指令响应) 类比图像多风格生成技术 [10] - 使用ODE采样器将Diffusion生成步骤压缩至2-3步 解决传统方法效率低下问题 [11] 强化学习突破 - 构建端到端可训架构 解决早期强化学习中信息传递低效问题 [12] - 通过多视角噪声训练生成模型 联合3D重建优化 创建真实度达标的训练环境 场景建设效率提升20倍 [12] 技术路线演进 - V10-11阶段确实跟随特斯拉技术路线 但V12后自主创新比例显著提升 仅在快系统部分保留特斯拉框架 [13][14] - 慢系统为完全自主创新 特斯拉未涉及该领域 整体技术路线类比"增程式"方案:在算力/数据资源不足条件下实现可用性 [14] - VLM到VLA的演进为公司独立提出的技术路径 非跟随策略 获王兴评价为"真正实现Think Different"的典型案例 [15]