Diffusion模型

搜索文档
关于理想VLA新的36个QA
理想TOP2· 2025-08-13 13:10
技术架构与研发方向 - 强化学习在VLA架构中起关键作用 公司已增加大量推理卡资源支持强化训练[1] - VLA采用串联设计整合视觉-语言-动作模块 相比并联的VLM架构具备自主思考能力[3] - Diffusion模型被应用于轨迹生成 借鉴机器人领域经验但非完全跟随特斯拉方案[4] - 3D空间理解+2D全局语义构成VLA感知核心 解决传统VLM缺乏空间感知的痛点[7][29] - 基座模型团队专门设计8×0.4 MoE架构 优化芯片部署效率[28] 产品功能与用户体验 - EID界面仿真视频级渲染需更高算力支持 当前受限于驾舱芯片性能[2] - 语音控车功能支持复杂连续指令 规则引擎方案难以实现组合任务[25][26] - 三点掉头功能需Diffusion模型支持多模态轨迹拟合 配合决策思考能力[6] - 高速场景研发重点在超视距问题 事故后果严重性高于城区场景[22][23] - 人机共驾通过语音交互实现底层能力 优于方向盘信号干预方案[36][37] 技术实现与工程挑战 - 单芯片部署通过int4量化压缩带宽 结合FP8计算精度优化[12][13] - 模型规模扩展遵循Scaling Law 7B参数可通过蒸馏和数据优化提升智力[9][10] - 3D数据标注需全部重刷 标注内容与端到端阶段存在本质差异[32] - 极端工况识别受限于摄像头分辨率 需视觉与激光雷达前融合提升置信度[33][34] - 仿真数据占比约10% 主要用于特殊场景补充而非过拟合测试[23] 行业对比与发展路径 - L2渐进式路线与Robotaxi直接L4方案差异显著 前者强调全场景覆盖能力[10][11] - 特斯拉FSD V13未采用Language模型 漫游能力依赖端到端而非寻路逻辑[26][27] - 大模型公司缺乏3D数据资产 业务需求决定三维场景理解能力发展[30][31] - 关键人物推动技术迭代 但行业大势依赖基础设施与工程师群体[38] 法规与商业化 - 拍照功能受法规限制暂未全量发布 需与监管部门协同推进[15] - 召唤功能面临严格法规约束 能力储备先于政策放开[16][17] - 商业化路径强调用户规模普及 高精地图方案难以满足百万级车辆需求[25]
对话阶跃星辰段楠:“我们可能正触及 Diffusion 能力上限”
AI科技大本营· 2025-05-20 09:02
视频生成技术现状与挑战 - 当前视频生成技术(如Diffusion模型)已能产出惊艳视觉片段,但可能触及能力天花板,真正具备深度理解能力的多模态基础模型尚在孕育中[1][5] - 阶跃星辰开源两个30B参数视频生成模型:Step-Video-T2V(文生视频)和Step-Video-TI2V(图生视频),在运动性和风格化生成方面表现突出[12][33] - 当前Diffusion视频模型Scaling Law表现不显著,30B参数模型泛化能力提升有限,15B参数可能在效率与性能间取得更好平衡[5][26] 下一代技术发展方向 - 未来1-2年内可能出现视觉领域的"GPT-3时刻",带来革命性突破[4][36] - 技术突破方向包括:自回归(AR)与Diffusion模型融合架构、从映射学习转向因果预测学习范式、增强少样本学习能力[5][21][45] - 视觉基础模型需具备深度理解能力而非仅像素生成,需借鉴NLP领域成功经验,通过生成方式获得更强理解能力[19][32] 行业实践关键因素 - 高质量自然数据是核心瓶颈,需大规模多样化真实数据而非合成数据,数据处理复杂度极高[14][16][32] - 系统支持与多团队协作至关重要,阶跃星辰项目成功得益于强大系统团队支持[17][18] - 模型需平衡上限探索与易用性,30B参数模型因体积过大影响实际应用,未来需大小模型并行发展[28][29] 多模态与AI应用前景 - 视频理解能力进步将推动具身智能、机器人等需要物理交互的AI应用发展[14][37] - 多模态模型将向物理世界感知发展,增强动作理解等能力,2025年可能出现图像与文字理解生成的重要突破[56][49] - AIGC趋势包括视频长度延长、编辑能力提升、基于参考的生成技术发展,未来将降低内容创作门槛[38][44] 技术里程碑与行业参考 - 近五年AI重大创新包括BERT、GPT-3、ChatGPT、Sora等,确立不同领域技术范式[15] - 视觉领域可能处于NLP中BERT之后、GPT-3之前的阶段,需经历类似发展过程[32] - DeepSeek系列模型因性能优异且实用性强,成为国内行业重要参考[15]