视觉 - 语言 - 行为模型

搜索文档
分层VLA模型与完全端到端VLA哪个方向好发论文?
自动驾驶之心· 2025-07-23 15:32
自动驾驶技术演进 - 传统模块化架构存在错误累积效应和信息损失问题,依赖人工规则难以应对复杂场景 [2] - 纯视觉端到端模型简化了架构但存在黑箱问题、因果混淆和泛化能力受限等瓶颈 [2] - VLA(视觉-语言-行为)模型通过引入语言中间表征,显著提升可解释性、常识推理和长尾场景处理能力 [2][3] VLA技术优势 - 语言桥梁作用:模型可输出自然语言解释决策依据(如"减速因行人可能横穿"),增强透明度 [2] - 知识注入:利用LLM预训练的世界知识理解施工区域等复杂场景 [3] - 交互革新:支持自然语言指令(如"找最近充电站"),实现人性化交互 [3] 科研辅导课程设计 - 课程周期:12周科研+2周论文指导+10周维护期,覆盖创新点挖掘至投稿全流程 [6][12] - 教学资源:提供nuScenes/Waymo等数据集及VAD/UniAD等开源代码基准 [16][17] - 论文产出:学员可完成初稿,优秀者获推荐信,结业证书为升学就业加分 [15] 目标学员与能力要求 - 面向群体:自动驾驶领域本硕博学生、留学申请者及AI从业者 [8] - 技术门槛:需掌握Python/PyTorch,建议配备4-8张4090显卡或云服务器 [13] - 学术规范:全勤要求+作业限时提交,剽窃行为将被严格禁止 [13][15] 教学支持体系 - 师资配置:名校教授+行业导师+班主任的"2+1"多师制跟踪辅导 [14][15] - 学习工具:腾讯会议直播与小鹅通回放结合,确保学习灵活性 [19] - 基础补强:提供先修课与1v1面试评估,适配不同基础学员 [13][20] 关键技术文献 - 核心论文:涵盖Senna/SimLingo等VLA模型在闭环驾驶、语言对齐方面的突破 [18] - 研究热点:包括扩散模型驱动方案(DiffusionDrive)与多模态指令生成(ORION) [17][18]
技术狂热过后,人形机器人下半场开拼:谁的订单先落地?
硬AI· 2025-07-22 16:22
市场动态转变 - 2025年第一季度中国人形机器人相关股票上涨37%,跑赢MSCI中国指数,主要受科技巨头入局、企业高目标设定、技术突破和政府政策支持推动[4][5][6] - 科技巨头如华为、英伟达、谷歌、Meta加大投入,特斯拉CEO马斯克设定2025年生产5,000-10,000台Optimus机器人,Figure AI宣布四年内交付10万台[4] - 3月至7月行业出现6%回调,因企业下调生产目标(如特斯拉从"5,000-10,000台"调整为"数千台")且技术突破需时间[7][8] 商业落地进展 - 2025年下半年行业焦点转向订单获取和实际应用验证,中国移动已与爱智机器人、宇树科技签订1.24亿元合同[12] - 主要企业2025年交付目标:爱智机器人6,500台、特斯拉数千台、优必选1,100-1,300台,实际达成情况将成为关键指标[13] - 人形机器人应用场景将从结构化环境扩展至商业服务、餐饮和接待,形成数据积累与能力提升的良性循环[15] 技术更新与产品规划 - 2025年下半年重要技术发布:特斯拉Optimus Gen 3(具人类灵活性)、Figure 03(经济型量产版本)、宇树科技低成本机型(约65,000元人民币)[18] - 硬件改进聚焦旋转执行器(摆线减速器/PEEK材料减重)、线性执行器(新制造技术提升螺杆效率)、VTLA模型创新[19][20] - 未来关键事件包括特斯拉Q2财报、世界人工智能大会、世界机器人大会及科技巨头活动可能披露的人形机器人更新[21] 产业链与竞争格局 - 摩根士丹利追踪45只中国人形机器人产业链股票,覆盖大脑(3只)、身体组件(31只)和集成商(11只)三类企业[21] - 企业生产目标与定价差异显著:EngineAl目标500-600台(18.8万元)、Løju目标1,000台(30万元)、Fourier目标1,000台(70-100万元)[16]