Workflow
语言
icon
搜索文档
让 VLMs 更适配机器人:小型VLMs也能展现出强大的视觉规划能力
具身智能之心· 2025-07-15 21:49
研究背景 - 大语言模型(LLMs)在机器人程序规划中展现出潜力,能生成符合人类直觉的分步动作序列,但缺乏机器人执行所需的精确感官或物理世界细节[3] - 视觉语言模型(VLMs)为生成更具感知接地性的计划提供可能,但现有方法存在仿真环境过度专门化或训练成本高的局限[3] - 小型VLMs若训练得当,可在教育、机器人技术等资源受限场景中展现出强大的视觉规划能力[3] 核心方法 - 提出SelfReVision框架,通过迭代自我批判和自我改进提升小型VLMs(3B-72B参数)的视觉语言程序规划能力[4] - 框架基于自蒸馏原则,无需外部监督或教师模型,通过三阶段循环(批判-修订-验证)优化计划[6][10] - 最终计划可直接用于推理或作为自监督数据微调模型,在灵活性与性能间实现权衡[9] 实验设置 - 评估数据集包括基于图像的PLACES数据集(100个真实场景)和修改后的MFE-ETP仿真数据集(100个虚拟场景)[14] - 新增Image Groundedness指标评估计划与视觉上下文的契合度,采用GPT-4o作为自动评估器,与人类标注一致性达0.52[12] - 基线对比包括初始计划、GPT-4o、PaliGemma领域特定模型和best-of-N算法[12] 主要结果 - SelfReVision在PLACES和SIMULATION数据集平均胜率分别达68%和72%,完整性和覆盖度提升常超80%[13] - 12B以上模型整体增益达74%,优化轮次增加使胜率从75-78%升至81%,多数改进出现在前2-3轮[16] - 相较best-of-N方法,SelfReVision在多数设置中提升60%,12B以上模型胜率比GPT-4o高25%[17] 实体代理任务应用 - 在仿真拾取放置任务中,Gemma 12B和27B模型分别提升26%和17%的成功率[21] - 真实世界场景中,SelfReVision计划使HAMSTER动作模型生成的成功轨迹达70%,高于基础模型的61%[21] - 通过新增必要步骤和移除错误步骤显著提升复杂任务的执行可靠性[21] 方法优势与局限 - 完整CRV流程性能最强,消融实验中Verify步骤被证明对过滤次优修订至关重要(PLACES数据集胜率差9 3%)[18][19] - 推理成本较高,平均每个样本需8个推理步骤,可能影响实时应用[22] - 当前仅整合视觉输入,未利用机器人本体感受等多模态信息,限制场景适应性[22]
摩根大通(JPM.N)首席执行官戴蒙:我们没有理由拥有大型语言模型。
快讯· 2025-07-15 20:54
摩根大通(JPM.N)首席执行官戴蒙:我们没有理由拥有大型语言模型。 ...
一财社论:持续释放民企活力,稳固经济向好态势
第一财经· 2025-07-15 20:51
经济表现 - 上半年GDP同比增长5.3%,CPI同比下降0.1%,6月份CPI同比上涨0.1%,核心CPI同比上涨0.4%,超出市场预期 [1] - 高科技、装备制造业在经济中占比提升,创新药、泡泡玛特、大语言模型和人工智能领域表现突出,展现民营经济生命力 [1] 政策与改革 - 北京取消文艺演出和外摆摊位审批,东莞实施商业性演出活动"应批尽批",简化审批流程 [2] - 改革围绕清除妨碍人财物自由流动的桎梏,如人的迁徙自由和公平竞争市场秩序 [2] - 建议通过全国统一大市场建设,根植法治化营商环境,避免过度干预经济内生力 [3] 消费与需求 - 上半年社零同比增长5.0%,居民人均可支配收入同比名义增长5.3%,但居民有效消费能力不足 [3] - 超长期特别国债应动态评判资金使用方向,舒缓有效需求不足,避免低效风险资产 [3] - 建议将部分超长期特别国债用于社保福利领域,提升居民消费信心和市场供需匹配能力 [4] 民营经济 - 民营经济展现顽强生命力,政策"松手"可释放其增长潜力 [2] - 简政放权、轻税薄赋是释放民营经济活力的关键 [4]
一文尽览!近一年自动驾驶VLA优秀工作汇总~
自动驾驶之心· 2025-07-15 20:30
自动驾驶VLA技术进展 - 端到端自动驾驶成为主流范式,视觉-语言-动作(VLA)方法在学术界和工业界快速落地[2] - 理想、文远知行、小米、小鹏等主机厂正在大力尝试VLA技术的量产应用[2] - 2025年学术界和工业界涌现大量优秀工作,重点关注VLA落地可行性、扩散模型轨迹可靠性等问题[2] NavigScene技术突破 - 小鹏汽车提出NavigScene,解决局部传感器数据与全局导航信息的关键差距[2] - 开发三种互补方法:导航引导推理、导航引导偏好优化、导航引导VLA模型[2] - 实验显示显著提升感知、预测、规划和问答任务性能,实现超视距推理能力[2][6] - 在NuInstruct基准测试中,Qwen2.5-7B模型表现最佳,多项指标提升明显[5] AutoVLA创新框架 - UCLA提出AutoVLA,统一推理和动作生成的自回归模型[7] - 采用SFT+GRPO两阶段训练,在NAVSIM取得92.12 PDMS指标[9] - 在nuPlan、nuScenes等多个基准测试中展现竞争优势[8] - 实现自适应推理能力,可根据场景复杂度调整思维模式[12] ReCogDrive三阶段训练 - 华科与小米合作提出三阶段训练框架[13] - 收集2.3M高质量QA数据,通过预训练+模仿学习+强化学习流程[14] - 在NAVSIM基准达到89.6 PDMS,创下新SOTA记录[16] - 比之前最佳方法提升5.6 PDMS[16] 数据集与基准建设 - 清华AIR与博世发布Impromptu VLA数据集,包含80K+精选视频片段[17] - 理想汽车推出DriveAction基准,包含16,185个QA对,覆盖2610个驾驶场景[31] - 实验显示视觉和语言输入缺失会导致动作预测准确率下降3.3%-8.0%[31] - 基准建设被认为是行业未来重点发展方向[50] 技术趋势与挑战 - 思维链、空间理解成为标配技术,但车端必要性存疑[50] - 时序处理研究不足,与实际车端需求存在差距[50] - 轨迹输出形式分文本自回归和扩散模型两大路线[50] - 行业缺乏大规模自动驾驶预训练基座模型[50] - NAVSIM指标已逼近人类专家水平,验证技术可行性[50]
TACTILE-VLA:激活VLA模型的物理知识以实现触觉泛化(清华大学最新)
具身智能之心· 2025-07-15 15:55
核心观点 - 视觉-语言-动作模型(VLA)在接触密集型场景中存在触觉感知缺失的短板,难以实现精准力控制与物理交互 [2] - Tactile-VLA框架通过深度融合视觉、语言、动作与触觉感知,激活VLA模型中隐含的物理知识,解决接触密集型任务中的力控制难题 [2] - 研究发现视觉-语言模型(VLM)的先验知识中已包含物理交互的语义理解,通过触觉传感器连接可激活该知识实现零样本泛化 [6] 核心创新与研究目标 关键发现 - VLM的先验知识包含物理交互语义理解,触觉传感器连接可激活该知识实现零样本泛化 [6] 主要创新点 - Tactile-VLA框架首次将触觉作为原生模态引入VLA模型,构建多模态深度融合架构 [7] - 混合位置-力控制器创新性地将力目标转化为位置调整指令,解决位置与力控制协同难题 [7] - Tactile-VLA-CoT变体引入思维链推理机制,基于触觉反馈分析失败原因并自主调整策略 [7] 主要解决问题 - 实现触觉感知的指令遵循、触觉相关常识运用和触觉参与的自适应推理三大能力 [9] 框架设计 整体架构 - 包含多模态编码器、Transformer backbone网络、触觉感知动作专家和混合位置-力控制器四大模块 [13] - 采用token级融合机制,通过非因果注意力实现视觉、语言和触觉token的自由交互 [14] 混合位置-力控制机制 - 以位置控制为主,力误差超阈值时引入力反馈调整,公式ΔF为目标力与实测力差值 [14] - 双通道分离设计:外部净力通过机械臂笛卡尔位置控制,内部抓取力通过夹爪宽度控制 [14] 思维链推理机制 - 按固定间隔评估任务进展,检测失败时启动"判定-分析-生成"三阶段推理流程 [14] - 使用含失败案例和语言注释的小型数据集微调模型,保留通用推理能力 [14] 实验验证 触觉感知的指令遵循 - USB任务中Tactile-VLA成功率35%,充电器任务达90%,显著高于基线模型(最高40%)[21] - 力控制精度:USB任务中"轻柔地"0.51N vs "用力地"2.57N,充电器任务保持区分度(4.68N vs 9.13N)[21] 触觉相关常识运用 - 域内物体抓取成功率90%-100%,域外物体80%-100%,显著高于基线(易碎物体基线接近0)[27] - 能根据物体属性自主调整力度:坚硬沉重物体用大力,易碎物体用轻力 [27] 触觉参与的自适应推理 - Tactile-VLA-CoT黑板任务成功率80%,基线模型和Tactile-VLA(无推理)分别为0和15% [33] - 首次尝试3.5N力失败后,通过推理将力增加到6.7N并成功完成任务 [33]
特斯拉Optimus V3,来了!!
Robot猎场备忘录· 2025-07-15 12:18
特斯拉Optimus机器人进展 - 6月19日特斯拉Optimus供应商遭遇"砍单",导致机器人板块下跌,T链概念股如浙江荣泰跌停,北特科技、绿的谐波等下滑超4% [1] - 6月20日确认Optimus软硬件将重新设计,量产计划搁置,机器人板块暴跌 [1] - 6月23日机器人板块普涨但T链概念股仍下跌 [1] - 原项目负责人米兰·科瓦奇离职因技术迭代不及预期,需推倒重建 [2] - 7月7日供应商收到Optimus新订单约100多台,表明硬件重新设计已部分敲定 [6] - 马斯克表示Optimus V3将集成Grok语音助手,利用AI大语言模型交互 [3] - 马斯克在7月10日xAI发布会上宣布Grok 4将于下半年接入Optimus [5] - 马斯克7月14日发文肯定Optimus进展,称V3版本"Amazing",年底将有精彩演示 [6] 人形机器人供应链动态 - T链概念股近期涨势不错并接连发布利好消息 [8] - 智元机器人收购上纬新材后市值从31.38亿元增长至78.13亿元,实现五连板 [9] - 市场关注"智元链"是否会与T链、H链组成新的人形机器人三大核心供应链 [11] - 智元机器人产业链上市企业包括: - 均普智能:合资成立公司负责代工、代销和二次开发,涉及大脑、小脑等核心技术 [13] - 富临精工:提供电关节模组,合资成立项目公司 [13] - 蓝思科技:交付人形机器人整机及核心组件 [13] - 恒工精密:智元资方之一,持股0.69%,也是胶体结构件核心供应商 [13] 行业趋势与活动 - 特斯拉二季度会议(7月24日)和股东大会(11月6日)可能披露实质性进展 [9] - 人形机器人创企商业化卡点需要梳理 [16] - 具身智能陪伴机器人赛道迎来爆发期,大厂高管纷纷涌入 [16] - 协作机器人公司入局人形机器人赛道被认为大有可为 [16] - 华为在具身智能赛道的布局值得关注 [16]
“美国已经基本退出,都是中国的”
观察者网· 2025-07-15 12:08
Meta AI战略调整 - Meta新成立的"超级智能实验室"考虑放弃开源AI模型Behemoth,转向开发闭源模型 [1] - 该实验室由28岁的新任AI主管亚历山大·王领导,团队约12人,办公区域与公司其他部门隔离 [6] - 战略调整或与Behemoth模型内部测试表现不佳有关,其发布已被推迟 [5] - 最终决策需经扎克伯格拍板,Meta也可能保留开源模型同时转向闭源 [5] 开源与闭源竞争格局 - 若Meta转向闭源,美国将基本退出前沿开源大型语言模型竞争 [1] - 当前开源领域主要竞争者为中国和欧洲,中国模型如DeepSeek和Kimi K2表现突出 [2][3] - Meta长期坚持开源AI模型,认为公开技术更有利于推动AI发展 [5] 中国AI模型进展 - 中国初创企业深度求索推出的DeepSeek模型性能与前沿模型抗衡,采用开源模式 [2] - 月之暗面发布的Kimi K2开源模型可能在开发者中普及,但冲击感不及DeepSeek [2] - 中国模型的开源策略显示美国监管难以阻止AI模型持续发展 [2] Meta人才与投资动向 - 扎克伯格开启"重金揽才"模式,开出上亿美元薪酬从OpenAI、谷歌等挖来顶尖研究员 [5] - Meta对亚历山大·王的AI初创公司Scale AI投资143亿美元,持有近半股份 [6] - 未被选入超级智能团队的员工可能在8月股票归属期临近时大规模离职 [7]
比Adam更有效,POET从谱不变原理出发,让LLM训练又稳又快
机器之心· 2025-07-15 08:59
大型语言模型训练新方法POET 核心观点 - 提出基于第一性原理的重参数化训练方法POET 通过正交等价变换实现高效稳定的大模型训练 严格保持权重矩阵奇异值分布并维持低超球能量 [3][6] - 该方法在LLaMA架构不同规模模型(60M至1.3B参数)上验证有效 显著降低验证困惑度(perplexity)并提升训练效率 [20][23] - 创新性引入两级近似方案解决计算扩展难题 参数效率最高可比AdamW提升mn/b(b-1)倍 [18][26][27] 技术原理 - 核心机制为将权重矩阵分解为随机固定矩阵与两个可学习正交矩阵的乘积 通过正交变换保持谱结构不变性 [11][17] - 采用归一化高斯初始化策略确保有界奇异值 实证显示其困惑度25.37优于标准初始化(26.22)和Xavier(25.79) [34][35] - 训练动态显示三阶段特征 包括锥壳搜索(余弦相似度0.6-0.65)、稳定学习及最终微调 [40][41] 性能优势 - 谱保持特性使350M参数模型训练中奇异值变化幅度比AdamW降低98% 谱多样性熵值持续高位 [13][15][17] - 在1.3B模型预训练中 POET-FS仅需AdamW 1/3训练步数(token量)即实现更低验证困惑度 [24] - 内存占用优化显著 块随机SPO变体参数复杂度仅为m+n 远低于AdamW的mn [26][27] 实现方法 - 开发Cayley-Neumann参数化近似 通过Neumann级数保持正交性 结合合并再初始化策略抑制误差 [19][29] - 提供完全随机SPO与块随机SPO两种变体 支持通过采样预算b灵活平衡效率与速度 [26][29][30] - 训练流程包含权重初始化、正交矩阵CNP参数化、内循环更新及合并再初始化五个标准化步骤 [28][32]
脑机接口 从“解码语言”到更多可能(国际科技前沿)
人民日报· 2025-07-15 05:57
脑机接口技术概述 - 脑机接口技术通过检测和调控大脑活动在大脑与外部设备之间建立直接信息通路创造新型人机交互方式[1] - 语言脑机接口通过解码大脑活动信号控制语音合成设备实现"意念对话"需解决信号解码、语音合成等技术难题[2] 技术突破与医疗应用 - 中国"北脑一号"半侵入式系统完成第三例人体植入采用128通道柔性高密度电极帮助渐冻症患者恢复语言交流能力[3] - 美国研究团队开发256通道微电极阵列系统实现每10毫秒捕获脑波信号近乎实时解码失语患者意图并保留语调变化[3] - 荷兰研究团队优化深度学习模型实现单个单词92%-100%分类准确率且保留合成语音语调音色特征[4] 人工智能算法进展 - 加州大学团队利用患者失语前录音训练AI算法合成接近原声的语音[4] - 中国团队开发多流神经网络模型实现中文声调音节分类最高76%准确率单字解码达91%准确率[4] 神经系统疾病治疗潜力 - 瑞士脑-脊髓接口技术让瘫痪患者实现行走并在植入后稳定运行超过一年[7] - 全球首款光谱覆盖可见光/红外线的视觉假体让失明实验动物恢复光感知能力未来或治疗视网膜病变[7] - 深部脑刺激已用于治疗帕金森病非侵入式电/磁刺激技术探索治疗抑郁症和阿尔茨海默病[7] 技术发展方向 - 未来需突破对复杂意图和语义的解码结合大语言模型实现"所想即所得"[5] - 需提高植入设备长期稳定性降低创伤提升信号解码准确性[8] - 需加强脑科学基础研究揭示大脑信息处理模式以优化脑机交互效率[8]
小鹏最新!NavigScene:全局导航实现超视距自动驾驶VLA(ACMMM'25)
自动驾驶之心· 2025-07-14 19:30
自动驾驶技术突破 - 小鹏汽车团队提出NavigScene解决方案,通过连接局部感知和全局导航信息弥补自动驾驶系统关键差距,实现超视距推理能力[2] - NavigScene包含两个子集:NavigScene-nuScenes和NavigScene-NAVSIM,通过自然语言指令模拟人类驾驶环境,整合Google Maps等导航工具的BVR(超视距)信息[9][14] - 系统采用三种创新方法:导航引导推理(NSFT)、导航引导偏好优化(NPO)和导航引导视觉-语言-动作模型(NVLA),显著提升感知、预测和规划任务性能[10][12] 技术实现细节 - 视觉生成模块利用Google Maps API合成导航视频,通过Direction API获取路线、Static Map API采集连续图像,Distance Matrix API计算行驶数据[16] - 文本生成采用三重相似度指标(交叉路口相似度Sinter、距离相似度Sdist、词汇相似度Sword)选择最优导航描述,权重分配体现方向准确性优先原则[18] - NVLA模型通过可学习MLP解决VLM高维输出(如LlamaAdapter的32,000维)与BEV特征(典型256维)的维度不匹配问题,实现特征融合[28][29] 性能验证数据 - 问答任务中,整合NavigScene的VLMs在BLEU-4、METEOR等指标全面提升,Qwen2.5-7B表现最佳(BLEU-4从51.65提升至55.13)[32][47] - 端到端驾驶测试显示,SparseDrive模型整合Qwen2.5-7B后检测mAP提升0.04,闭环规划中DAC指标达96%,优于基线系统84.2%[40][41] - 跨城市泛化实验证明,NPO技术使波士顿→新加坡场景的平均碰撞率从26.83%降至22.55%,显著增强陌生环境适应能力[55] 行业应用前景 - 技术方案已覆盖感知(3D检测、BEV)、预测(轨迹分析)、规划(闭环控制)全链条,形成30+技术栈的完整学习体系[65] - VLA/VLM算法工程师岗位需求激增,顶尖企业为博士人才提供90-120K薪资,反映技术商业化加速[64] - 行业社区规模达4000人,涵盖300+企业与科研机构,显示技术生态快速扩张[65]