语言

搜索文档
分析了102个VLA模型、26个数据集和12个仿真平台
自动驾驶之心· 2025-07-22 10:18
视觉-语言-动作(VLA)模型综述 - 核心观点:VLA模型通过整合视觉感知、语言理解和机器人控制,正在推动机器人技术的变革性发展[3][7] - 研究范围:全面梳理了102个VLA模型、26个基础数据集和12个仿真平台[3] - 发展趋势:从端到端框架向模块化架构演进,强调跨模态对齐和泛化能力[9][12] VLA模型架构 - 主流架构:基于Transformer的视觉和语言骨干网络,通过跨模态注意力机制融合[9] - 视觉编码器:CLIP、SigLIP和DINOv2等ViT变体成为主流选择[13] - 语言编码器:LLaMA、Vicuna系列和T5风格模型广泛应用[15] - 动作解码器:扩散策略因能建模复杂动作分布而受青睐[15][16] 数据集发展 - 数据集演进:从早期简单状态-动作映射发展到多模态、长时间跨度数据集[21] - 代表性数据集:Open X-Embodiment统一22个机器人实体和500多个任务数据[5] - 评估标准:建立任务复杂性和模态丰富度二维评估框架[22][24] 仿真平台 - 主要平台:AI2-THOR、Habitat和NVIDIA Isaac Sim等提供多模态支持[30][31] - 功能差异:从逼真室内导航到接触丰富的物理模拟各有侧重[31] - 发展趋势:强调GPU并行计算和大规模场景生成能力[33] 应用领域 - 主要方向:操作与任务泛化、自主移动、人机交互等六大领域[34] - 代表性模型:RT-2、Pi-0和CLIPort等在各自领域表现突出[37] - 技术路线:分为大型通用架构和模块化专用系统两大发展轨迹[38] 挑战与机遇 - 架构挑战:分词对齐、模态融合和跨实体泛化等关键技术瓶颈[39][40] - 数据限制:任务多样性不足、模态不平衡和注释成本高等问题[42] - 仿真差距:物理准确性、视觉真实性和语言接地API等亟待改进[44][45]
梳理了1400篇研究论文,整理了一份全面的上下文工程指南 | Jinqiu Select
锦秋集· 2025-07-21 22:03
文章核心观点 - 上下文工程已成为优化大语言模型性能的关键技术领域 通过系统化框架整合信息获取 处理和管理三大组件 可显著提升模型在复杂任务中的表现 [1][2] - 当前技术面临模型理解与生成能力不对等 长序列处理效率低下以及多模态整合不足等核心挑战 需要突破传统Transformer架构限制 [135][136] - 模块化RAG系统 内存增强型智能体和工具集成推理等实现范式正在推动AI从被动文本生成器向主动世界交互器进化 [68][91][109] Context Engineering技术体系 信息获取与生成 - Prompt Engineering通过Zero-Shot Few-Shot及Chain-of-Thought等高级推理框架激发模型潜力 其中Tree-of-Thoughts在24点游戏中将成功率提升至70%以上 [4][5] - Self-Refinement机制实现模型自我迭代 N-CRITICS采用集成学习思路 而Agent-R通过蒙特卡洛树搜索实时纠正推理路径 [9][10][11] - RAG架构突破模型知识边界 进阶方案如Self-RAG引入自适应检索 HippoRAG模仿人类记忆机制补充关联信息 [14][15] 信息处理 - 长上下文处理依赖架构革新 Mamba等状态空间模型将计算复杂度降至线性 LongNet的Dilated Attention理论支持十亿级token处理 [29][30] - 位置插值技术无需微调即可扩展上下文窗口 YaRN和LongRoPE实现数千到数百万token的跨越 配合FlashAttention-2带来近2倍速度提升 [31][32] - 多模态融合面临模态偏见挑战 先进方法采用交叉注意力机制或统一预训练 结构化数据处理中代码表示效果优于自然语言描述 [41][43] 信息管理 - 内存架构借鉴操作系统概念 MemGPT实现虚拟内存式换页 MemoryBank基于艾宾浩斯曲线动态调整记忆强度 [49][51] - 上下文压缩技术显著降低计算负担 ICAE实现数倍压缩率 ACRE双层KV缓存系统兼顾全局视野与局部细节 [58][60] - 应用场景覆盖法律合同分析 多季度财报推导等长程依赖任务 以及具备持续学习能力的对话式AI [63][66] 系统级实现 RAG系统演进 - 模块化RAG实现乐高式灵活组合 FlashRAG提供5核心模块16子组件 ComposeRAG支持原子化问题分解与自我反思优化 [72][73] - Agentic RAG赋予自主智能体能力 如调查员般执行动态检索 Self-RAG通过反思token形成闭环自优化系统 [74][75] - 图增强RAG转向结构化知识表示 GraphRAG采用社区发现算法分层索引 HippoRAG利用PageRank提升多跳问答性能 [76] 内存增强型智能体 - 记忆系统分类涵盖短期工作内存与长期持久化存储 后者通过外部存储解决上下文窗口限制 [82][83] - REMEMBERER框架实现经验记忆 LangGraph等工具集成RAG与向量数据库 Mem0结合图数据库提升检索效率 [84][85] - 评估框架LongMemEval揭示商业AI助手在长时间交互后准确率显著下降 反映记忆持久性不足的行业痛点 [87] 工具集成推理 - Function Calling技术路径分化 微调方法稳定性高但资源密集 提示工程方案如Reverse Chain更轻量灵活 [95][96] - 训练数据生成策略成熟 APIGen分层验证流程支持数千API覆盖 Hammer框架通过函数掩码增加训练难度 [97] - 多智能体协作框架展现集体智慧 DyLAN实现精密任务拆解 MetaGPT增强专业化分工 MAD优化并行处理能力 [109] 评估与挑战 - 组件级评估需针对性设计 如"大海捞针"测试长上下文处理 结构化数据集成需关注序列与结构信息冲突场景 [124][125] - 系统级评估暴露协同问题 Agentic RAG需测试任务分解准确性 工具集成系统需覆盖完整交互轨迹 [126][127] - 新兴基准如GTA显示GPT-4完成率远低于人类 反映真实场景性能差距 为创业者指明改进方向 [128][129]
机器人「GPT时刻」来了?丰田研究院悄悄做了一场最严谨的VLA验证
具身智能之心· 2025-07-21 16:42
>> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 提到机械臂,第一反应的关键词是「抓取」,高级些的机械臂也就做做冰淇淋和咖啡之类的小任务。 但若要机械臂 自 主完成繁 重且复杂的任务 ,如布置餐桌、组装自行车,难度便呈指数级上升。这类任务对感知、理解与动作控制的协同提出了极高要求。 近年来,随着 视觉 - 语言 - 动作(VLA) 模型的迅速发展,机器人已逐步具备整合多模态信息(如图像、指令、场景语义)并执行复杂任务的能力,朝着更智 能、更通用的方向迈进。 但是目前 VLA 的研究尚未达到里程碑式的成果,具身智能的「GPT」似乎离我们还很遥远。 作者丨 机器之心 编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 前英伟达学者 Jiafei Duan 表示: 直到我看到了这两段视频: 机械臂在现实世界中已经能够实现双臂写作,完成如此复杂的组合任务,并且还能够在操作过程中纠错。这相比过去的 VLA 研究成果有了非常明显的提高。 深入探索了一下这份研究,作者在 VLA 的思路基础上更进一步, ...
VLN-PE:一个具备物理真实性的VLN平台,同时支持人形、四足和轮式机器人(ICCV'25)
具身智能之心· 2025-07-21 16:42
视觉-语言导航平台VLN-PE的核心创新 - 推出首个支持人形、四足和轮式机器人的物理真实VLN平台VLN-PE,基于GRUTopia构建,可无缝集成MP3D之外的新场景[3][10] - 平台采用基于RL的控制器API,支持Unitree H1人形机器人、Aliengo四足机器人和Jetbot轮式机器人的物理仿真[13] - 引入90个MP3D场景并手动修复地面间隙,新增10个GRScenes合成家庭场景和3D高斯溅射扫描场景以增强环境多样性[14] 跨具身导航的关键发现 - 现有VLN-CE模型迁移到物理环境时成功率下降34%,暴露伪运动训练与物理部署的差距[15] - 模型性能因机器人类型差异显著,人形机器人表现最佳而四足机器人最差(相机高度0.5米时几乎失效)[36][37] - 联合训练三种机器人数据的模型实现最佳性能,验证跨具身训练的"一劳永逸"潜力[37][39] 多模态与光照条件影响 - 仅依赖RGB的NaVid模型在低光照下成功率下降12.47%,而RGB+深度模型的CMA和RDP表现更稳定[38] - 相机光源(CL)条件下模型性能普遍低于圆盘光(DL),反光问题导致导航误差增加[38] - 深度信息融合使CMA模型在DL300光照条件下保持85%的基础性能,显著优于纯RGB模型[38] 模型性能对比 - 70亿参数的NaVid模型零样本迁移表现最佳,但存在70%任务片段中过度旋转的问题[29][30] - 扩散模型RDP在3DGS-Lab-VLN数据集上达到30.63%成功率,较NaVid的5.81%提升5倍[31] - 基于地图的VLMaps方法在未见验证集取得20%成功率,证明非端到端方案的可行性[27][24] 数据收集与训练策略 - 使用物理控制器收集的训练数据使模型跌倒率降低8.36%,卡住率减少2.01%[33][34] - 在VLN-PE域内数据微调的Seq2Seq模型性能超越Habitat增强训练的模型,显示仿真过拟合风险[29] - 3DGS场景微调的600万参数小型模型超越NaVid,验证多样化训练分布的价值[30]
“AI教父”辛顿最新访谈:没有什么是AI不能复制的,人类正失去最后的独特性
36氪· 2025-07-21 16:19
7月21日消息,被誉为"AI教父"的图灵奖得主杰弗里·辛顿与AI初创公司Cohere联合创始人尼克·弗罗斯特近日进行了一场炉边对话。作为 辛顿在多伦多Google Brain实验室的首位员工,弗罗斯特如今已成为AI创业领域的领军人物。 在这场对话中,两位顶尖专家围绕AI领域的前沿议题展开深入探讨,包括:大语言模型是否真正理解人类语言?数字智能能否真正超越 生物智能?哪些领域将成为AI最具潜力的应用场景?科技巨头对监管的真实态度又是如何?此外,他们还重点讨论了AI技术带来的双重 危险,并就如何建立有效的安全防护体系进行了交流。 以下是辛顿与弗罗斯特的核心观点: 4.当前模型无法像人类一样根据经验持续学习,只能通过两个阶段(预训练+强化学习)静态获得知识。更新知识仍需重训底层模型 5.弗罗斯特与辛顿都认为,"语言即操作系统"的时代即将到来。只通过自然语言,用户就能调动办公系统执行复杂任务。 6.辛顿强调AI带来的双重风险:短期内可能用于操纵选举、制造武器;长期则可能因超越人类智慧而"接管世界"。 7.辛顿认为,大模型通过压缩连接数量、寻找知识间深层联系展现出真正的"创造力",甚至超越大多数人类。 8.辛顿认为5年 ...
别再乱试了!Redis 之父力荐:写代码、查 bug,这 2 个大模型封神!
程序员的那些事· 2025-07-21 14:50
就在 5 月 30 日凌晨, Redis 之父 antirez 写了一篇文章,他认为「人类程序员仍比 LLM 更胜一筹」 。 7 月 20 日,他又写了一篇文章,分享了对 LLM 编程的最近看法。 一年半前,我写过一篇题为《2024 年初的 LLM 与编程》的博客。当时,我就发现 LLM 已经很有用了,但在 这一年半里,它们的进步彻底改变了整个局面。然而,要充分利用它们的能力,与 LLM 交互的人类必须具备 某些特质并遵循特定的做法。下面我们就来探讨这些内容。 多数情况下拒绝"氛围编程" 以下是原文翻译: 2025 年夏天,与 LLM 并肩编程(最新进展) 像 Gemini 2.5 PRO 这类前沿的大语言模型(LLM),不仅对众多领域有着广泛的理解,还能在几秒内掌握数 千行代码,它们能够拓展并增强程序员的能力。只要你能清晰地描述问题,并且愿意在与 LLM 协作过程中进 行必要的反复沟通,就能取得惊人的成果,例如: 1、在代码触及任何用户之前消除你引入的 bug:我在 Redis 的 Vector Sets 实现中就有这样的经历。最终我 肯定能消除所有 bug,但很多 bug 通过 Gemini/Claude ...
还不知道研究方向?别人已经在卷VLA了......
自动驾驶之心· 2025-07-21 13:18
最近有同学陆续来问我们,传统的感知、规划这块还能继续发论文吗?感觉工作都已经被做的七七 八八了,审稿人会打高分吗? 说到传统的感知、规划等任务,工业界都还在继续优化方案!但学术界基本都慢慢转向大模型与 VLA了,一个还有很多工作可以做的子领域...... 如果您真的需要选择论文研究方向,我们建议向大模型、VLA靠拢。而我们也为大家准备好了VLA 相关研究课题,如果您还没有切实的自驾研究方向,欢迎加入学习。 ⼀、VLA科研论文辅导课题来啦⭐ 关键词 :VLA自动驾驶;端到端自动驾驶;大语言模型;视觉表征学习 ⼆、课程目的⭐ 三、招生人数⭐ 6人/期(⾄多8人) 四、招生对象⭐ 五、课程收获⭐ 经典论⽂、前沿论⽂和代码实现——创新点、baseline、数据集——选题⽅法、实验⽅法、写作⽅ 法、投稿建议 端到端(End-to-End)自动驾驶旨在构建一个统一的智能模型,直接将传感器原始输入(如摄像头图 像)映射到车辆的驾驶控制指令(如转向、油门、刹车),从而替代传统的多模块、级联式架构 (感知、预测、规划、控制)。这一演进过程大致可分为以下几个阶段,而VLA模型的出现正是为 了解决前序阶段的瓶颈,标志着一个新范式的 ...
机器人的「GPT时刻」来了?丰田研究院悄悄做了一场最严谨的VLA验证实验
机器之心· 2025-07-21 12:04
机器之心报道 编辑:冷猫 提到机械臂,第一反应的关键词是「抓取」,高级些的机械臂也就做做冰淇淋和咖啡之类的小任务。 但若要机械臂 自 主完成繁 重且复杂的任务 ,如布置餐桌、组装自行车,难度便呈指数级上升。这类任务对感知、理解与动作控制的协同提出了极高要求。 近年来,随着 视觉 - 语言 - 动作(VLA) 模型的迅速发展,机器人已逐步具备整合多模态信息(如图像、指令、场景语义)并执行复杂任务的能力,朝着更智 能、更通用的方向迈进。 但是目前 VLA 的研究尚未达到里程碑式的成果,具身智能的「GPT」似乎离我们还很遥远。 直到我看到了这两段视频: 机械臂在现实世界中已经能够实现双臂写作,完成如此复杂的组合任务,并且还能够在操作过程中纠错。这相比过去的 VLA 研究成果有了非常明显的提高。 深入探索了一下这份研究,作者在 VLA 的思路基础上更进一步,在扩散模型策略的基础上,完全构建了一个针对机器人的 大型行为模型(Large Behavior Model,LBM) ,经过训练和微调,便能够实现机械臂自主执行复杂操作中如此令人惊艳的结果。 来自谷歌的研究者 Ted Xiao 说: 「如果你从事机器人技术和人工智 ...
潮玩公司TOYCITY表示下阶段拼的是更智能和拟人化
中国经营报· 2025-07-20 20:58
行业概况 - 东莞市石排镇聚集超过4000家玩具生产企业和近1500家上下游配套企业,是全国最大玩具出口基地,生产全国超80%潮玩产品和全球近30%动漫衍生品 [1] - 石排镇玩具产业年产值接近120亿元,已从代工厂转型为拥有自主品牌的创新孵化基地,TOYCITY为代表企业 [2] - AI情感陪伴成为大模型应用热门赛道,海外有CharacterAI、Replika等产品,国内有字节跳动猫箱、MiniMax星野等竞品 [3] 公司技术与产品 - TOYCITY发布全球首款情绪感知型AI玩偶"小耙AI",基于原创IP"耙老师"开发,集成豆包大模型和生成式统一画像算法 [1] - 产品主打"科技温暖化"理念,具备情绪识别(语音交互+眼神反馈)、智能助手、数据安全加密三大功能 [6][7] - 公司投入大量AI研发资源,拥有30-40人工程师团队,技术合作伙伴包括乐鑫和火山引擎 [5] 市场竞争与定位 - 区别于CharacterAI等纯聊天机器人,TOYCITY结合供应链和IP优势,聚焦实体玩偶形态的情感陪伴场景 [5][6] - 目标用户覆盖儿童与成人群体,针对30+职场女性情感倾诉、双职工家庭儿童陪伴等需求 [1] - 公司定位为"中国原创潮流IP孵化商",关联企业火星计划具备15年AI及大数据研发经验 [5] 技术发展方向 - 下一阶段技术突破聚焦更精准的情感识别(如语音语调分析)和更自然的拟人化交互(如肢体反馈) [6] - 公司认为当前AI情感陪伴处于爆发期,核心挑战在于提升智能度与拟人化程度 [6]
面试了很多端到端候选人,还是有很多人搞不清楚。。。
自动驾驶之心· 2025-07-20 16:36
端到端自动驾驶技术概述 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向 是当前薪资最高的算法岗位之一 3-5年经验可冲击百万年薪 [2] - 核心优势在于直接从传感器输入到车辆规划/控制信息的直接建模 避免了传统模块化方法的误差累积 BEV感知技术实现了模块间的统一视角 [2] - UniAD模型统一了感知和规划任务 标志着端到端时代的来临 但并非最终解决方案 后续涌现出多种技术流派 [2][4] 主要技术流派 - **二段式端到端**:以PLUTO为代表 专注于用模型实现自车规划 [4] - **一段式端到端**: - 基于感知的方法:以UniAD为代表持续发展 [4] - 基于世界模型的方法:以OccWorld为代表开创新流派 [4] - 基于扩散模型的方法:以DiffusionDrive为代表实现多模轨迹预测 [4] - **VLA方向**:大模型时代下的端到端新方向 结合视觉语言模型技术 [4][22] 行业应用与人才需求 - VLA/VLM大模型算法专家岗位薪资达40-70K*15薪 博士应届生可达90-120K*16薪 [9] - 技术岗位覆盖感知算法、模型量化部署等多方向 实习岗位日薪220-400元 [9] - 主机厂已开展端到端算法预研和量产交付 形成完整技术落地闭环 [25] 技术发展挑战 - 需同时掌握多模态大模型、BEV感知、强化学习、扩散模型等跨领域知识 [14] - 论文数量繁多且知识碎片化 缺乏系统性学习框架和实战指导 [14] - 高质量文档稀缺 提高了技术入门门槛 [14] 课程体系设计 - **知识框架**:覆盖BEV感知、扩散模型理论、强化学习与RLHF等核心技术栈 [6][23] - **案例研究**: - 二段式端到端解析PLUTO、CarPlanner等经典算法 [21] - 一段式端到端深入UniAD、OccLLaMA等前沿工作 [22] - **实战环节**: - 扩散模型轨迹预测实战Diffusion Planner [22] - VLA方向实战小米ORION开源框架 [22] - 大作业RLHF微调实现技术迁移应用 [24] 技术发展趋势 - 世界模型应用扩展至场景生成、闭环仿真等多场景 成为近年研究热点 [22] - 扩散模型与VLM结合推动多模轨迹预测技术落地 [22] - VLA被视为端到端自动驾驶的"皇冠" 工业界招聘需求旺盛 [22]