Workflow
具身智能之心
icon
搜索文档
3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞
具身智能之心· 2025-11-17 08:47
编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 现在,只需要一个简单的、用深度光线表示训练的 Transformer 就行了。 这项研究证明了,如今大多数 3D 视觉研究都存在过度设计的问题。 本周五,AI 社区最热门的话题是一篇新论文,有关 3D 建模的。 经过一年多的探索,来自字节跳动的团队推出了 Depth Anything 3(DA3),将单目深度估计扩展到了任何视角场景,让计算机实现了媲美人类的空间感知。 论文:https://arxiv.org/abs/2511.10647 项目页面:https://depth-anything-3.github.io 为了追求最小建模,DA3 的工作获得了 两个关键见解 : 就是这样的方法, 在姿态估计方面比当前业界最先进的方法 (SOTA) 提升了 44%,在几何估计方面提升了 25%。 原来 3D 视觉竟然这么简单? 纽约大学计算机科学助理教授、知名 AI 学者谢赛宁表示,论文有点像电影: ...
性能超越GPT和Google,北京人形机器人创新中心开源全球最强具身VLM
具身智能之心· 2025-11-17 08:47
作者丨 咖啡不加糖 编辑丨 焉知机器人 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 2025 年 11 月 14 日,北京具身智能机器人创新中心正式发布 Pelican-VL 1.0 具身视觉语言模型( VLM ),不仅宣称性能超越 GPT-5 同类模型 和 Google Gemini 系列,更以 " 全球最大规模开源具身多模态大模型 " 的身份,展示了中国在具身智能领域的技术硬实力。 具身智能,简单来说就是让机器人像人类一样感知世界、做出决策并执行动作的技术,而视觉语言模型( VLM )相当于机器人的 " 眼睛 " 和 " 大脑中 枢 " ,负责把看到的图像信息转化为可理解的语言指令,再规划出具体的行动步骤。 图 Pelican-VL 1.0 (中文是塘鹅或者鹈鹕的意思)在抱脸虫和魔搭都可下载 Pelican-VL 1.0 称为 " 视觉语言大脑 " ,它 的开源有力推动了 具身 智能技术的进步 。 一、北京人形机器人创新中心和 Pelican-VL ...
4个旷视天才具身创业获投近10亿,阿里独家很瞩目
具身智能之心· 2025-11-17 08:47
融资情况 - 具身智能公司Dexmal原力灵机完成共计近10亿元融资 [2][6] - 最新一轮为A+轮融资,金额达数亿元,阿里巴巴作为独家投资方参与 [3][4][5] - 9月初完成A轮融资,由蔚来资本领投,洪泰基金、联想创投等跟投,老股东超额追投 [5] - 公司成立于2025年3月,成立仅20天便完成2亿元天使轮融资 [8] - 不到一年时间完成三轮融资,筹集资金将主要用于机器人软硬件技术研发与场景落地 [7][9] 公司背景与团队 - 公司专注于具身智能软硬件技术研发与落地,核心团队几乎全部出身于旷视科技,拥有顶尖AI学术背景和十多年规模化落地经验 [12][13][14] - 联合创始人兼CEO唐文斌为旷视科技联合创始人,姚班首届Yao Award金牌得主,曾带领团队在LFW评测中以0.02%优势击败Facebook夺冠 [36][37][39][43] - 联合创始人范浩强为IOI金牌得主、清华姚班高材生,曾为旷视第一个算法研究员,谷歌学术被引数超过1万 [46][47][54] - 创始团队成员周而进为NOI、IOI金牌选手,原旷视12号员工,带队研发人脸识别技术并落地于小米、OPPO等手机解锁场景 [60][61][70][71] - 创始团队成员汪天才为原旷视高级研究员,累计发表顶会顶刊论文30余篇,谷歌学术引用量超6000,曾带领团队夺得多项全球顶赛冠军 [74][75][77] 技术研发与产品 - 公司已发表十余篇AI与具身智能方向顶会论文,推出Real-time VLA与MemoryVLA两个低延迟、长时程机器人操作任务框架 [16][17] - 开源基于PyTorch的VLA工具箱Dexbotic,提供一站式科研工作台,解决模型架构、数据格式不统一等问题 [19][20][22] - 同步开源硬件产品DOS-W1,为模块化、可扩展的数据采集双臂机器人,降低研究门槛并提高数据采集效率 [23][25][27][28] - 联合Hugging Face发布全球首个具身智能大规模真机评测平台RoboChallenge,建立行业评价标准 [30][32] 行业认可与成就 - 公司在ICRA 2025全球机器人视触融合挑战赛中夺得“纯触觉操控”和“触觉传感器设计”两个赛道金牌 [33] - 在CVPR 2025协作智能Workshop的RoboTwin赛事第一轮仿真平台赛中获并列第一成绩 [34] - 团队技术实力通过多项国际顶级赛事奖项得到验证,为产品提供质量背书 [35]
微软&港科对比多种迁移技术!VLA 到底如何有效地继承 VLM 中丰富的视觉-语义先验?
具身智能之心· 2025-11-16 00:03
文章核心观点 - 微软研究院与香港科技大学等团队提出的GrinningFace基准,旨在解决视觉语言动作模型如何有效继承大型视觉语言模型中丰富视觉-语义先验的核心问题 [1] - 该基准通过表情符号桌面操作任务,构建了能分离动作技能与语义识别能力的纯净测试环境,以精准诊断知识迁移效果 [2][4] - 系统实验揭示了VLM先验对VLA泛化能力的关键作用,并指出共训练、潜态动作预测等技术是实现高效知识迁移的关键方向 [7][13][19] GrinningFace基准的设计与目的 - 基准创新性地选择在VLM预训练数据中普遍存在、但机器人数据集中几乎未出现的表情符号作为核心代理,以分离“机器人动作技能”与“VLM先验知识”的贡献 [2] - 任务要求机器人手臂根据语言指令将立方体放置到对应的表情符号卡片上,指令格式为“拿起立方体并放置在 [表情描述] 上” [4] - 基准包含100个训练集表情符号和100个验证集表情符号,确保评估模型的泛化能力 [8] 评估体系与关键指标 - 采用双维度评估体系,将成功率拆分为执行成功率和识别成功率进行单独量化 [5] - 执行成功率反映机器人成功抓取立方体并放置到任意表情卡的概率,用于衡量动作技能掌握程度 [8] - 识别成功率反映机器人选择正确目标表情卡的概率,直接体现VLM先验知识的迁移效果 [8] - 设计了三类测试场景,全面覆盖分布内与分布外泛化评估 [8] 不同微调策略的性能对比 - 全参数微调适配特定任务效果好,但易发生灾难性遗忘,丢失VLM先验知识 [5] - 仅微调动作头能最大程度保留VLM先验,但动作技能学习不足,分布内场景适配差 [5] - LoRA微调能平衡先验保留与动作学习,但知识迁移提升有限,仍有优化空间 [5] 高效知识迁移的关键技术方向 - 共训练技术在VLA训练中加入视觉语言任务,在真实机器人实验中识别成功率达86.7%(26/30) [7][11] - 潜态动作预测将潜态动作作为高阶训练目标,避免模型被低阶信号干扰,识别成功率达80%(24/30) [11][13] - VLM冻结加LoRA预训练能大幅提升识别成功率超过90%,但复杂动作技能适配速度慢 [13] 实验验证与核心发现 - 真实机器人实验与仿真环境结果高度一致,验证了结论的可靠性 [11] - 注意力图谱分析揭示了“VLM先验→预训练对齐→微调优化”的递进式迁移路径 [15] - VLM先验的保留程度直接决定VLA的泛化能力,灾难性遗忘是当前技术的主要瓶颈 [19] 未来研究方向 - 优化参数高效微调技术,提升LoRA等方法的知识迁移效率 [19] - 设计更贴合真实场景的复杂任务,验证迁移技术的规模化应用能力 [19] - 探索多模态先验融合,结合触觉、语音等信息增强VLA的环境适应能力 [19]
李飞飞和LeCun的世界模型之争
具身智能之心· 2025-11-16 00:03
编辑丨 量子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! AGI之路,终于交汇到了世界模型的战场。 李飞飞,发布了旗下首款商用世界模型 Marble ; 几乎同一时间,Lecun离职Meta, 准备创立自己的世界模型公司 ; 在此之前,谷歌旗下的世界模型 Genie 3 ,也曾掀起业界轰动。 AI界三股大佬力量,虽然同样进军世界模型,却意味着三种截然不同的技术路线赌注—— 世界模型之争 李飞飞刚刚为空间智能举大旗的万字长文发布,她旗下的创业公司World Labs,就紧锣密鼓推出了首款商用世界模型 Marble 。 业界普遍认为Marble有商业化潜力,是因为 它生成的是持久的、可下载的3D环境。 团队表示,这种方式能显著减少场景变形和细节不一致的问题,而且还能把生成的世界导出成高斯斑点、Mesh网格,甚至直接导出视频。 更进一步,Marble还内置一个原生的AI世界编辑器Chisel,用户只需一句提示,就能按自己的想法自由改造世界。 然而,Hacke ...
我们的自驾、具身和大模型社区7500人了!
具身智能之心· 2025-11-16 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨 具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 之心的全平台星球7500人了!2年多的时间,取得了还算不错的成绩。很多同学可能还不知道我们的 媒体矩阵,目前我们团队孵化了自动驾驶之心、具身智能之心、大模型之心Tech、3D视觉之心四个 IP,每个IP都有对应的付费社区与私域。 我们期望未来2年内做到近万人的规模。给大家打造一个交流+技术分享的聚集地,是许多初学者和 进阶的同学经常逛的地方。 | 0 国内高校著名自动驾驶团队整理 链接: https://t.zsxq.com/hlVJZ | 5 算法进阶 | (17) 规划控制 | 链接: https://t.zsxg.com/USyyN | | --- | --- | --- | --- | | | (1) BackBone汇总 | 链接: https://t.zsxq.com/melQb | (33) 自动驾驶仿真 | | 1 自动驾驶领域 ...
超大参数量具身VLM开源:DPPO训练范式,模型性价比天花板!
具身智能之心· 2025-11-16 00:03
模型发布与核心优势 - 北京人形机器人创新中心于2025年11月13日开源了具身智能视觉语言模型Pelican-VL 1.0,该模型覆盖7B和72B两种参数规模,被称为目前最大规模的开源具身多模态大脑模型[1] - 模型在由1000+ A800 GPU组成的集群上训练,单次检查点训练耗费超过50,000 A800 GPU-小时,并从原始数据中蒸馏出包含数亿token的高质量元数据作为训练基石[3] - 在基线基础上性能提升20.3%,超过同级别开源模型10.6%,根据测试其平均性能超越GPT-5和Google Gemini等闭源系列模型,成为目前最强具身性能的开源多模态大模型[3] 创新训练范式DPPO - 模型采用名为DPPO(刻意练习策略优化)的创新训练范式,该范式模仿人类元认知学习方式,通过强化学习探索弱点、生成失败样本,再进行有针对性的监督微调,让模型不断自我纠错和迭代进步[6][8] - DPPO框架包含两个主要阶段:强化学习阶段通过多样化奖励机制和难度过滤自动发现模型薄弱点并快速提升能力;监督微调阶段针对弱点数据进行知识扩展与模式对齐,通过蒸馏和数据构建巩固模型能力[8] - 凭借DPPO训练范式,Pelican-VL实现了性能大幅提升20.3%,在视觉-语言和具身任务上的能力得到持续提高[8][9] 核心能力表现 - 在多模态理解与推理能力方面,模型能同时处理视觉和文本输入,基于场景进行物理推理、空间关系理解和功能预测,例如在封闭厨房或商超场景中能分辨果蔬摆放、柜台位置并据此规划取物和放置动作[9] - 在空间-时间认知方面,模型训练包含数万小时的视频和动态场景问答,使其具备连续时序理解能力,能捕捉物体移动、操作步骤的时间先后关系,从而对复杂连贯的任务序列做出合理推断[13] - 在具身交互能力方面,模型在物体抓取、导航、协作等机器人任务中不仅能理解任务目标,还能输出细化的动作步骤和评估每步可行性,覆盖抓取、导航、人机交互等不同应用场景[13] 基准测试性能 - 在≤100B参数模型对比中,Pelican-VL 72B版本在12个基准测试上的平均得分达到63.8,显著高于其他同级别开源模型,如在PhyX基准上得分为86.4,在Where2Place基准上得分为64.0[18] - 在>100B参数模型对比中,Pelican-VL 72B版本与包括GPT-5、Gemini2.5-Flash、GPT-40等闭源大模型相比,平均得分达到63.8,超过部分闭源模型,在PhyX基准上以86.4分表现最佳[21] - 模型在九个维度的具身智能分类体系评测中,各项指标均匀、均衡且在关键维度上表现突出,显示出全面的能力分布[14][15] 产业影响与竞争优势 - 该开源模型提供了一套“视觉理解→长期规划→物理操作”串联的可复用训练范式,降低了在机器人中使用VLM的门槛,其他实验室或企业可以在此基础上做定制化训练,加速产业落地探索[22] - 与国外闭源模型相比,Pelican-VL在国内开源模型基础上进行预训练,利用少量数据和训练资源即达到相当甚至更好的性能,整体数据利用率达到其他模型的10倍至50倍[27] - 相比于国内同类模型,Pelican-VL平均提升了10%以上的性能,成为国内性能最好的具身智能模型,其开源策略有望促进打破技术闭环与数据孤岛,推动产业链协同的规模化发展[27][28]
北大等团队用“分层小脑+仿真分身”让G1零样本上岗
具身智能之心· 2025-11-15 00:03
编辑丨 量子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 近日,来自北京大学与BeingBeyond的研究团队提出 DemoHLM 框架,为人形机器人移动操作(loco-manipulation)领域提供一种新思 路——仅需1次仿真环境中的人类演示,即可自动生成海量训练数据,实现真实人形机器人在多任务场景下的泛化操作,有效解决了传统方 法依赖硬编码、真实数据成本高、跨场景泛化差的核心痛点。 DemoHLM的核心创新在于"分层控制+单演示数据生成"双引擎,既保证了全身运动的稳定性,又实现了极低数据成本下的泛化学习。 分层控制架构:兼顾灵活性与稳定性 DemoHLM采用"低层全身控制器+高层操作策略"的分层设计,解耦"运动控制"与"任务决策": 此外,团队为机器人设计了 2DoF主动颈部+RGBD相机 (Intel RealSense D435),通过比例控制器实现"视觉追踪稳定",模仿人类操作 时的视线调节能力,避免物体遮挡导致的感知失效。 核心挑战:人 ...
SemanticVLA:面向高效机器人操作的语义对齐剪枝与增强方法
具身智能之心· 2025-11-15 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Wei Li等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 一、研究背景 视觉-语言-动作模型在机器人操作领域取得显著进展,通过预训练视觉语言模型实现从语言到动作的端到端映射,推动智能机器人的实际应用。但现有模型在动 态、杂乱环境中部署时仍受两大瓶颈制约: 这些问题导致模型计算效率低下、任务接地能力弱,限制了在实际机器人操作场景中的落地。 二、核心创新点 1. 提出语义引导双视觉剪枝器,通过指令感知的token过滤和几何感知的聚合,针对性解决视觉冗余问题,同时保留语义对齐。 三、主要工作 3.1 整体框架设计 输入包含实时视觉观测、机器人本体感受状态(如关节角度、末端执行器姿态)和自然语言指令,目标是预测未来K个动作序列。框架通过两条并行路径处理视 觉输入: 两条路径的输出通过语义互补分层融合器生成任务相关表示,与指令、本体感受状态及可学习的动作占位符拼接后,输入双向解码器并行生成所 ...
雷军下铺的兄弟,创业具身智能机器人
具身智能之心· 2025-11-15 00:03
编辑丨 量子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 离开小米两年后,雷军下铺的兄弟、小米原副总裁 崔宝秋 ,创业家务机器人。 崔宝秋显然不满足于此。他想要的,或许是一个能将所有"点"串联起来,一个真正能思考、能移动、能与人交互的"AIoT终极形态"。家庭服务 机器人,正是这个答案。 那个曾在小米内部推动技术变革的"教父",如今选择亲自下场,试图将他心中"CBA" (云计算-大数据-人工智能) 与"AIoT"的蓝图,浓缩到一 个能够走进千家万户的智能躯体之中。 然而,投身机器人,并不是他离开小米后的第一站。 这位曾在小米内部挂帅技术委员会的"教父"级人物,正式将他的人生下半场押注在了具身智能这一最火热的赛道。 这不仅是一个资深技术高管的再出发,也标志着他的技术蓝图,从"连接万物"进化到了"改造物理世界"。 这一次,他不再是为"AI大脑"搭建平台,而是要亲手为AI造出一个能走进千家万户的"身体"。 小米"技术教父"投身机器人洪流 告别了小米的庞大体系 ...