Workflow
具身智能之心
icon
搜索文档
今晚分享!首篇智能体自进化综述:如何迈向超级人工智能之路?
具身智能之心· 2025-10-11 12:00
自进化智能体领域现状 - 人工智能领域正经历范式变革,从提升静态模型规模转向构建能实时学习和适应的动态智能体,自进化智能体是引领变革的全新范式[1] - 尽管学术界与工业界对自进化智能体的兴趣与日俱增,但整个领域仍缺乏系统性的梳理与顶层设计[1][6] - 多数研究将演化作为智能体整体框架的子集,未能深入回答该领域三个根本问题:智能体的哪些部分应该演化、演化何时发生以及演化如何实现[1][6] 行业核心研究问题 - 行业关注智能体自进化在哪些部分发生[5][6] - 行业关注智能体自进化在何时发生[5][6] - 行业关注智能体自进化如何实现[5][6] 行业研究资源 - 普林斯顿/清华/上交等机构联合发布了首篇智能体自进化综述论文《A Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence》[5][11] - 论文链接为https://arxiv.org/pdf/2507.21046,汇总仓库为https://github.com/CharlesQ9/Self-Evolving-Agents[5] - 清华大学计算机系&智能产业研究院博士生高焕昂将进行专题分享,深入探讨该领域[2][6]
Being-VL的视觉BPE路线:把「看」和「说」真正统一起来
具身智能之心· 2025-10-11 08:02
文章核心观点 - 提出一种名为Being-VL的新方法,旨在解决多模态模型中视觉表征过早对齐文本空间导致细节丢失和幻觉的问题 [1] - 该方法的核心是将图像先进行离散化并“分词”,再与文本在同一词表和序列中由同一Transformer统一建模,从源头缩短跨模态链路并保留视觉结构先验 [1] - 通过视觉版BPE(Byte Pair Encoding)技术,在合并token时不仅考虑共现频次,还显式度量空间一致性,以优先合并既常见又在不同图像中相对位置稳定的token对 [2][7] - 采用三阶段渐进解冻训练策略,从基础对齐逐步过渡到全量微调,能在不扰动语言能力的前提下稳步提升跨模态理解 [9][12][15] 技术实现路径 - 实现分为三步:首先用VQ(如VQ-GAN)把图像量化为离散VQ tokens;随后训练一个视觉版BPE,得到更具语义与结构的BPE tokens;最后把视觉tokens与文本tokens串成同一序列,进入同一个自回归LLM统一建模 [2] - 视觉BPE tokenizer采用Priority-Guided Encoding,基于score P(a,b)=F(a,b)+α・S(a,b)进行词表构建,其中F为邻接频次,S衡量在不同图像中的相对位置一致性 [7] - 三阶段训练策略具体为:Stage-1只训练新扩展的视觉token embeddings;Stage-2解冻LLM前约25%的层;Stage-3全量解冻,在更复杂的推理/指令数据上收尾 [15] 实验效果与分析 - 相较于传统“先拉到文本空间”的做法,统一的离散表示更少丢失原生视觉信息,在细节敏感的问答与抗幻觉上更可靠 [12] - 移除BPE后,性能与稳健性会整体下降,说明增益主要来自于把“常见且空间关系稳定”的视觉模式合成更有语义的tokens [12] - 在训练资源受限情形下,与VQ等规模的码本在表达能力与训练效率之间取得更佳平衡,处于“甜点区”;词表增大至≥16K时会出现大量低利用率token [19] - 嵌入权重可视化显示,引入visual BPE后,文本与视觉token的权重分布趋于均衡与同构,降低了模态间的分布漂移与共现偏差 [16] 项目发展历程 - Being-VL-0 (ICLR 2025) 给出了视觉离散化+BPE的可行性与动机,并初步探索了两阶段训练策略 [23] - Being-VL-0.5 (ICCV 2025 highlight) 将这一路线进一步优化为统一建模框架,包含Priority-Guided Encoding、三阶段渐进解冻及配套的课程数据策略 [23]
为「具身智能」打造专属眼睛:思岚科技Aurora S全集成AI空间感知系统破晓而来!
具身智能之心· 2025-10-11 08:02
产品发布与定位 - 思岚科技正式发布新一代全集成AI空间感知系统Aurora S [1] - Aurora S是一个集成了AI算法和配套算力的空间智能感知系统,旨在为具身智能机器人提供开箱即用的强大空间感知能力 [1] - 该系统标志着机器人感知技术从功能机时代迈向智能机时代,通过全集成、AI驱动、多模态融合的设计解决行业痛点 [29] 技术革新与核心优势 - Aurora S最大的革新在于高度集成化,将自研的深度学习AI-VSLAM算法、双目深度估计和语义识别能力所需的算力硬件集成于仅238克的紧凑机身内 [3] - 系统提供从稀疏点云到带有真实色彩纹理的稠密3D地图的跨越,结合实时语义标注,使机器人能理解环境的具体物体 [7][8] - 新一代AI-VSLAM基于自研深度学习模型,在传统方案易失效的苛刻场景下表现卓越,例如能在新加坡体育馆75,000平方米的室外环境稳定建图 [11][15] - 系统具备实时闭环修正与图优化引擎,可自动修正建图累积误差,确保长期运行的可靠性 [17] - 采用120°超广角双目视觉提供高质量深度点云,并具备像素级语义理解能力,可实时识别超过18类室外场景和80类室内物体 [19][20][22] 对开发者的价值 - 极大降低开发门槛,无需额外配置算力或从头开发复杂视觉算法 [4] - 加速产品上市时间,提供开箱即用的高精度3D感知、建图与语义理解能力,让开发者聚焦于上层应用创新 [4] - 简化机器人系统设计,一体化设计极大简化了结构设计与电源管理 [4] - 配备完善工具链,包括Aurora Remote UI可视化工具和支持C++、ROS1/ROS2、Python的SDK,简化调试与集成流程 [26] 应用场景 - 赋能具身智能,为人形机器人、四足机器人提供核心视觉感知 [24] - 应用于数字孪生,高效进行3D场景重建和采集VLN/VLA训练数据 [24] - 服务于低速无人驾驶领域,如园区物流和安防巡检机器人 [24] - 赋能户外机器人,如割草机、智慧农业机器人,应对复杂非结构化环境 [24] - 提升工业自动化水平,增强AGV/AMR在动态车间环境下的智能 [24] 生态系统与扩展能力 - 可快速接入各类3DGS框架,实现前沿3D重建能力 [28] - 生成的地图和数据可一键导出用于3DGS等框架的输入数据集,支持SOTA模型评估和研究 [28] - 生成的模型文件可轻松导入Nvidia Omniverse等框架,用于VLA/VLN真值数据生成或sim-to-real训练 [28]
具身机器人赋予了强化学习许多新的应用场景!
具身智能之心· 2025-10-11 08:02
强化学习在具身智能领域的应用 - 强化学习是具身智能机器人(包括人形和四足机器人)实现步态控制等复杂任务的核心技术,赋予产品适应救援、测量、危险环境的能力 [3] - 机械臂的视觉语言动作模型与强化学习结合方案在学术领域越来越受欢迎,使机器人执行任务更高效、丝滑与顺畅 [4][9] - 行业领先公司如宇树、智元的人形机器人已通过强化学习完成爬楼梯、爬山、跑步、跳舞、翻跟头等高难度动作的学习 [3] 强化学习论文辅导课程核心内容 - 课程周期为14周在线集中辅导加8周论文维护答疑,采用6人小班制,每周1次直播授课并配有专属助教答疑 [8][10][18] - 课程提供四足机器人、人形机器人、机械臂、视觉语言动作模型与强化学习四个大方向,每个方向提供6个以上可创新的研究想法 [10][19][30] - 课程基于最新的IsaacLab仿真环境,提供可复现的基线代码,涵盖仿真到真实的完整流程 [18][19][23] 课程产出与学习目标 - 目标产出是帮助学员完成一篇符合机器人顶会或顶刊(如RAL/ICRA/IROS/CoRL)投稿要求的论文初稿 [8][10][29] - 学员将掌握从科研选题、数据与基线、方法与工程到评测标准、写作与投稿的全流程,即使没有成熟想法也能在提供的基线上迭代出论文初稿 [17][19][23] - 课程结束后有8周维护期,提供补实验、改图、润色与审稿回复支持,确保论文达到投稿质量 [10][25][34] 课程师资与特色 - 授课老师Jack来自美国顶尖高校,是具身智能与机器人领域的博士后研究员,拥有深厚的理论沉淀与实战经验,并在顶级会议期刊发表过多篇论文 [27] - 课程特色包括三轨并跑(四足、人形、机械臂三选一)、工程到科研一体化、以及每周明确的里程碑与量化指标 [18][19][36] - 课程强调科研闭环,提供方法论证、实验结果、写作方式等模块的全程陪跑,与普通训练营形成差异化 [18][36]
具身智能之心1v1论文辅导来啦~
具身智能之心· 2025-10-10 11:14
核心业务与服务 - 公司提供一站式论文辅导服务,专注于具身智能等前沿研究领域,包括多模态大模型、视觉语言动作、机器人抓取导航等方向 [1] - 服务覆盖从选题创新点挖掘、实验设计、代码调试到论文写作和投稿策略的全流程闭环辅导 [2] - 辅导服务涵盖CCF-A到CCF-C各类会议以及SCI一区到四区期刊,支持EI、中文核心、毕业论文和申博等多种需求 [1] 目标市场与专业领域 - 目标客户为研究具身智能前沿领域的学生和学者,具体研究方向包括3D高斯泼溅的实时渲染与动态场景建模、具身智能体的跨任务迁移与零样本适应等 [1] - 公司专注于顶级学术会议和期刊的产出,涉及领域包括ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR等 [1] 竞争优势与团队构成 - 导师团队来自CMU、Stanford、MIT等国内外名校的PhD及大厂研究员,拥有顶级会议审稿经验 [1] - 公司提供工业界与学术界双视角辅导,不仅关注论文发表,更注重技术落地价值,如机器人抓取鲁棒性和导航实时性优化 [3] - 公司为前10名咨询者提供免费专属导师匹配和深度Meeting服务,进行一对一研究方向分析和选投建议 [4]
Figure AI正式发布新款人形机器人,都带来了哪些令人眼前一亮的设计?
具身智能之心· 2025-10-10 11:14
以下文章来源于机器觉醒时代 ,作者机械偃甲 机器觉醒时代 . 聚焦具身智能机器人赛道,专注追踪和洞察下一个时代风口 —— 硅基智能!从技术突破到产品落地, 从行业动态到未来图景,这里有你想了解的所有前沿干货。 点击下方 卡片 ,关注" 具身智能之心 "公众号 编辑丨机器觉醒时代 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 2022年5月,连续创业者 Brett Adcock 在硅谷创立人形机器人公司Figure。 2025年9月16日,Figure宣布完成C轮融资,本轮融资规模超10亿美元,企业投后估值同步攀升至 390 亿美元,此轮融资将主要用于加速通用人形机器人在现实场景中的大规模落地应用。 从成立到完成 C轮融资仅用三年时间,完成C轮融资后,企业估值达到390亿美元,使其成为当前全 球估值最高的人形机器人独角兽公司。 2025年10月9日,Figure发布第三代人形机器人Figure 03。该机器人身高约1.68米,体重60kg,最长 续航时间为5小时,有效负载20kg,移动速度达1.2米/ ...
Qwen要做机器人了:林俊旸官宣成立具身智能团队
具身智能之心· 2025-10-10 08:02
阿里通义千问的具身智能战略动向 - 公司在Qwen内部组建了一个小型机器人、具身智能团队,标志着其模型正式向物理世界迈进 [2] - 此举旨在检验模型在真实场景中的理解、规划与执行能力,并反向促进模型在感知融合、因果推理等方面的进化 [10] - 公司此前已通过阿里云领投自变量机器人近10亿元A+轮融资,这是阿里云首次领投具身智能企业 [7] Qwen系列模型的技术优势与优化 - Qwen系列模型在空间理解、路径规划、长上下文记忆方面具备优势,已成为众多具身智能公司使用的基座模型 [8] - 新发布的Qwen3-VL针对细粒度视觉理解、视频时序理解、3D感知与规划等能力进行了专门优化,以更好地支持具身智能落地 [8] - 在走访的30多家具身智能公司中,绝大多数都在使用Qwen-VL进行后训练 [8] 行业背景与市场前景 - 英伟达首席执行官黄仁勋表示,人工智能与机器人是核心技术机遇,有望为公司带来数十万亿美元的长期增长潜力 [10] - 软银集团宣布将以54亿美元现金收购ABB的机器人业务,旨在将人工超级智能与机器人深度融合 [12][13] - 花旗集团预计,到2050年,全球机器人市场规模将达到7万亿美元,吸引大量资本涌入 [14] - 风险投资持续涌入人形机器人赛道,生成式AI与机器人技术的融合被认为将根本改变人机交互方式 [10] 阿里云的行业布局与战略意图 - 阿里云基于在AI大模型和智驾方面的积累,表示已为深度支持具身智能行业做好准备 [10] - 成立具身智能团队有助于加强公司自身对行业的理解,并与众多具身智能公司展开合作 [10] - 公司的入局为全球科技巨头纷纷加码的机器人赛道增添了新的变量 [10]
不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考
具身智能之心· 2025-10-10 08:02
强化学习提升大模型推理能力的机制 - 强化学习能提升大语言模型的复杂推理能力,但其内在机制此前不明朗 [2][5] - 研究首次揭示大模型通过类人方式学会推理,即将高层策略规划与底层程序执行相分离 [3][12] - 核心机制是模型先固化基础执行能力,再自主发展出策略规划能力 [13] 两阶段学习动力学 - 第一阶段为底层技能巩固,模型专注于掌握低级技能,如算术计算和格式规范,表现为执行token的熵值急剧下降 [14][23][24] - 第二阶段为高层规划探索,学习重心转向高级策略规划,表现为规划token的语义多样性提升,并与推理能力提升及解决方案链条延长直接相关 [14][17][28] - 对于强模型或易学习数据,第一阶段可能短暂甚至不存在 [27] 对特定现象的解释 - “顿悟时刻”是模型发现、掌握并强化某种高层策略(如自我反思)时的行为特征信号,并非偶然灵光 [33][34] - “长度缩放”现象源于更好的规划,模型探索到更丰富精细的策略后自然生成更长、更有结构的推理链条,导致输出越长越准 [35][37][38] - 整体token级熵值下降是因大量执行token变得高度可预测,而规划token的语义熵上升才真实反映策略探索进展 [39][40] 新算法HICRA的性能优势 - 针对现有RL方法对所有token无差别优化导致学习信号稀释的问题,提出了分层感知信用分配机制HICRA,其核心是聚焦稀疏但高价值的规划token的学习权重 [41][42][44] - 在多项数学推理基准测试中,HICRA持续超越GRPO基线方法,例如在Qwen3-4B-Instruct模型上,AIME24任务得分从GRPO的68.5提升至HICRA的73.1,提升5.4个百分点 [45][46] - 在多模态推理基准测试中,HICRA也表现优异,如在MiMO-VL模型上,Math Vista任务得分从GRPO的73.7提升至HICRA的80.7,提升7.0个百分点 [47] 关键指标与错误分析 - 语义熵是衡量策略探索的有效指标,能避免token级熵值和Pass@K指标的缺陷,清晰显示策略多样性并与性能提升正相关 [56][58][59] - 强化学习的主要优势在于修正高层策略失误(如逻辑缺陷、计划错误),而非细微的计算错误 [50][51] - 大多数高熵token并非规划token,仅依靠熵值识别具有精确语义功能的token存在局限性 [64][65]
DemoGrasp:一次演示是怎么实现灵巧手通用抓取的?
具身智能之心· 2025-10-10 08:02
技术方法与核心创新 - 提出DemoGrasp方法 一种简单高效的通用灵巧抓取学习方法 仅需从抓取特定物体的单条成功演示轨迹出发 通过编辑轨迹中的机器人动作来适配新物体与新姿态 [2] - 将轨迹编辑过程构建为单步马尔可夫决策过程 在仿真环境中通过强化学习对适用于数百个物体的通用策略进行并行优化 奖励函数设计简洁 仅包含二元成功项与碰撞惩罚项 [2] - 该方法展现出优异的迁移能力 仅在175个物体上完成训练 却在6个未见过的物体数据集上 针对不同灵巧手硬件构型实现了84.6%的平均成功率 [2] 性能表现与实验结果 - 在仿真实验中 使用Shadow手操作DexGraspNet数据集物体时 DemoGrasp的成功率达到95% 性能超越现有最优方法 [2] - 借助基于视觉的模仿学习 该策略成功抓取了110个未见过的真实物体 包括小型和薄型物体 并能适配空间位置 背景与光照的变化 [3] - 策略支持RGB与深度两种输入类型 并且可扩展至杂乱场景下的语言引导抓取任务 [3] 应用前景与行业意义 - DemoGrasp提出了一套简单 高效 可扩展的强化学习框架 对任意一款灵巧手 只要采集一条抓取演示 就能学会对所有物品的通用抓取策略 [6] - 方法在六款灵巧手本体 六个物体数据集上得到了广泛验证 且通过sim2real在真机上对110种物品实现高成功率抓取 [6] - 灵巧手的设计与难题是打通"手-眼-脑"感知闭环的关键技术 [10]
DexCanvas:具身数据的规模、真实、力觉真的突破不了三缺一吗?
具身智能之心· 2025-10-10 08:02
文章核心观点 - 灵巧抓取是机器人具身智能领域面临的主要技术瓶颈,其核心挑战在于缺乏大规模、高质量、包含力觉信息的多模态操作数据 [1][2][11][12][13] - 灵巧智能科技有限公司发布的DexCanvas数据集通过“真实+合成数据”双轮驱动模式,提供了包含完整力/接触标注的大规模人手操作数据,旨在解决行业数据瓶颈 [15][16][21] - DexCanvas数据集在采集效率、数据质量和成本间取得了平衡,其基于真实人类演示并通过物理仿真恢复力控的方法,显著提升了数据的规模与泛化能力,为物理智能的发展提供了基础设施级解决方案 [20][21][27][30] 现有灵巧抓取与数据采集方案 - 灵巧抓取的学习方法主要分为模仿学习和强化学习两类,模仿学习通过观察演示学习,强化学习则通过设定奖惩机制学习,但后者需要大量训练数据和精心设计的机制以确保稳定性 [4] - 数据采集主要依赖遥操作技术,包括基于视觉的方案、动捕方式以及VR/AR等,其中动捕系统对光照变化和遮挡具有较强鲁棒性,而视觉方案常受环境因素影响 [5] - 现有灵巧手硬件主要分为两指夹爪和多指拟人化手,两指夹具简单可靠但自由度低,而具备20+自由度的拟人化手更适应为人类设计的环境 [2] 灵巧操作数据面临的定律与瓶颈 - 行业数据存在“规模、真实性、力觉信息只能三选二”的定律,大规模开源数据集往往缺乏关键的力控信息 [6][7] - 真实场景下的灵巧操作数据采集成本极高,开源数据集通常仅数万条且不含触觉信息,而仿真数据虽可达百万甚至亿万级别,但sim2real泛化成功率有时低于70% [9][10] - 技术瓶颈在于难以在复杂操作中实时感知微小力度变化,且传统方法因高维度和复杂接触动力学而泛化能力不足,核心问题是大规模高质量多模态数据的缺失 [11][12][14] DexCanvas数据集的突破与优势 - DexCanvas弥补了开源数据集力/触觉信息的缺失,每条轨迹都包含完整的多指力/接触标注,并为20+自由度系统优化 [16][17] - 数据集提供了从动捕到MANO拟合、物理重演至五指灵巧手执行的全套处理代码,并在HuggingFace上提供了预处理后的可直接训练版本 [18][19] - 数据集综合指标优于常规方案,在效率、成本和质量上取得平衡,采集效率与仿真同为五星,成本为三星,质量为四星 [20] - 数据集包含超1000小时真人多模态演示数据与10万小时物理仿真合成数据,涵盖亚毫米级轨迹和物理一致的接触力信息,包含4种同步模态 [21] DexCanvas的数据生成方法与特性 - 数据生成分为三步:使用20个动捕相机以亚毫米精度采集真人演示;通过物理仿真环境下的强化学习智能体复现动作以恢复力控;通过改变物体参数将1000小时演示扩充为10万小时增强数据 [25][27][28] - 该方法基于真实人类演示,仿真用于“显影”隐藏的物理信息,而非从零生成动作,避免了仿真漏洞,且仿真的是人手而非特定机器人手,使其具备极佳的跨平台泛化能力 [27][30] - 独创的物理信息完备的操作轨迹复刻流程,自动生成了缺失的力觉和接触信息,力控数据在规模扩充后得以保持 [22][29]