Workflow
具身智能之心
icon
搜索文档
具身智能公司无界动力完成3亿元首轮融资,红杉中国、线性资本领投,高瓴创投、地平线等跟投
具身智能之心· 2025-11-11 08:02
公司融资与背景 - 公司完成首轮3亿元天使融资,由红杉中国、线性资本领投,多家机构跟投,天使+轮融资接近完成,累计融资额超5亿元[2] - 公司创立于2025年,聚焦构建机器人"通用大脑"与"操作智能",致力于提供软硬一体的具身智能解决方案[2] 核心团队 - 创始人兼CEO张玉峰拥有Sony、ARM等顶尖科技企业研发管理经验,曾担任地平线副总裁,带领团队实现智能驾驶软件算法产品的规模化交付与市场份额第一[5] - 联合创始人兼CTO许闻达为卡内基梅隆大学机器人学博士,有自动驾驶技术研发与成功创业经历,主导实现全球首个自动驾驶网约车商业化运营[6] - 团队汇聚多模态大模型、强化学习等领域顶尖科学家,并配备千万套量级软硬件系统量产交付经验的工程团队[6] 技术战略与创新 - 公司通过"通用基础模型研发"与"通用专家模型落地"双线驱动,构建闭环进化系统,借助真实数据持续迭代模型[7][8] - 采用源自智能驾驶的影子模式机制,基础模型与专家模型并行运行,精准采集错误案例以推动高效迭代[8] - 重点开展"真机、真人、真环境"的系统化实践,通过真机运行获取精确物理交互数据,结合真人示范提高模型泛化能力[7] 产品与工程化 - 公司将持续进化的具身模型与计算平台、执行机构及实时操作系统深度耦合,构建稳定可靠的一体化机器人平台[9] - 团队借助智能驾驶领域车规级工程化经验,确保机器人在多样化真实场景中保持高可靠性[9] - 首代机器人平台在工业制造与商业服务方向取得突破,将于本月进厂,开始与国际合作伙伴推进场景落地[9] 行业认知与发展路径 - 行业普遍认为实现完全通用泛化仍需十年以上,通过垂类领域"行业级通用"再拓展泛化能力是更可行的发展路径[6] - 具身智能产业面临从实验室演示向真实场景价值产出的关键转折,现有通用模型泛化能力与执行成功率未达商业化合格线[6] 投资者与合作伙伴评价 - 红杉中国认可团队具备底层技术创新能力及工程化落地与商业生态构建经验,有望在场景侧落地领先应用[10] - 线性资本认为团队能将顶尖技术锚定真实场景,把通用梦想转化为确切生产力[10] - 地平线创始人指出团队兼具技术深度与系统级落地经验,其创新理念与地平线软硬协同驱动智能时代的理念高度契合[10]
AAAI 2026结果公布,刷出88887高分!2.3万投稿录用率仅17.6%
具身智能之心· 2025-11-11 08:02
AAAI 2026会议投稿与录用概况 - 会议总投稿量创历史新高,达到23,680篇,较AAAI 2025的12,957篇有大幅增长[3][41] - 录用论文数量为4,167篇,录用率为17.6%,低于AAAI 2025的23.4%录用率[4][45] - 投稿量激增导致竞争异常激烈,录用率为近三年来最低[43][45] 具身智能与多模态模型技术进展 - ReconVLA模型获得88887高分评级,通过引入“视觉token”引导重建“凝视区域”的辅助任务,隐式增强视觉-语言-动作模型的落地能力[24][25] - VLA-Adapter作为轻量级基座模型,参数量仅0.5B,训练显存需求为24.7GB,是基线模型的0.4倍,吞吐量达到219.2Hz,是基线模型的3倍,并在主流基准上达到SOTA性能[26][32] - EmoAgent作为首个多模态推理模型情感对抗框架,揭示“安全-推理悖论”,通过夸张情感提示劫持推理路径以暴露安全错位[22] - PhysPatch是针对自动驾驶的可物理实现对抗贴片框架,通过联合优化贴片参数与语义位置,在多种MLLM上具有高迁移性[22] 模型效率与优化技术 - DegVoC模型借鉴压缩感知思想,将vocoder建模成反退化问题,以3.89M参数量和45.62GMACs/5s的显著更低开销达到SOTA性能[28][29] - SepPrune框架为深度语音分离模型引入“可微分掩码策略”,通过梯度学习自动剔除冗余通道,剪枝后模型收敛速度比从零训练快36倍,仅需1个epoch微调即可恢复预训练模型85%的性能[30][31] - MPAS方法基于图消息传递,打破顺序通信限制,将多智能体系统通信时长从84.6秒降至14.2秒,并增强抗后门鲁棒性[18] 人工智能安全与对齐 - SECURE方法提出微调安全约束,通过惩罚正交更新将模型保持在“狭窄安全盆地”内,减少7.6%有害行为并提升3.4%性能[19] - GeoShield是首个面向VLM地理隐私防护的对抗框架,通过特征解耦、暴露识别和尺度自适应增强,有效阻止模型推测地理位置[20] - CogniTrust框架受人类记忆方式启发,将可验证监督与三元记忆模型相结合,从空间和语义角度验证、校准和综合监督信号[12][13] 基础模型应用与迁移 - FGNet框架将Segment Anything 2在海量自然图像中学到的先验知识高效迁移至EM神经元分割领域,在SAM2权重冻结时性能已媲美SOTA,微调后显著超越所有方案[34][35]
仅需300美元!先进VLA模型与低成本硬件相结合
具身智能之心· 2025-11-11 08:02
文章核心观点 - 研究团队开发出低成本视觉-语言-动作系统,通过约311.98美元的6自由度机械臂与自适应视野集成器,在真实场景中实现超越现有方法的性能,推动机器人基础模型普及 [1] 关键创新 - 采用双动作头设计,联合训练离散自回归动作头和连续L1回归动作头,离散动作擅长高层语义推理,连续动作保障精细操作精度 [6] - 损失函数通过加权求和平衡交叉熵损失与L1损失,优化离散与连续动作 [6] - 自适应重规划机制通过计算两种动作预测的平均绝对差估计不确定性,差异超阈值时触发重规划,动态调整动作执行长度 [3] - 自适应视野集成器在空间任务中成功率96.8%,比次优集成器高出1.6%,避免传统集成器过度平滑动作流问题 [12][13] 低成本6DOF机械臂设计 - 核心参数包括成本约311.98美元,6个自由度,有效负载0.2kg,工作半径382mm,最大速度0.7m/s,重复定位精度≤10mm [5] - 硬件选型采用MG996R、DS3225等市售舵机,关节配置为roll-pitch-pitch-roll-pitch-roll,手腕3个舵机构成类球关节实现全姿态覆盖 [10] - 控制方案使用Arduino Uno搭配PCA9685 12位PWM驱动板,通过I2C通信实现精准控制,降低软件依赖,支持跨操作系统使用 [10] 自动化数据集与数据收集流程 - 数据集规模包含1200个任务演示样本,每个样本配对自然语言指令、RGB图像序列和末端执行器姿态数据 [10] - 任务覆盖拾取放置、环境操作(如开关抽屉)、堆叠等,通过参数化轨迹基元和通用语言模板快速生成多样化训练样本 [10] 实验结果与核心表现 - 在LIBERO仿真基准的空间、物体、目标、长时四大任务套件中,平均成功率达91.4%,仅落后最优基线3.9% [9][11] - 空间任务套件成功率96.8%,超越所有基线 [9][11] - 推理效率达54.2–108.4Hz,延迟仅0.0738秒,接近OpenVLA-OFT性能,额外开销仅来自自适应视野模块 [11][12] - 真实世界测试中,分布内任务平均成功率比现有方法高出49% [14] - 分布外任务在未见过的任务、环境及静态/动态干扰下,平均性能提升34.9%,动态干扰下性能仅下降10%,静态干扰下下降20% [16][17] 行业价值与影响 - 通过"低成本硬件+高效模型+开源数据集"组合打破VLA技术准入门槛,使家庭用户和小型研究团队能够接触机器人基础模型 [18] - 真实场景中的强泛化性和可靠性为家庭服务、教育科研等领域普及奠定基础 [18]
VLA+RL正在不断拉升着具身操作的上限!
具身智能之心· 2025-11-11 08:02
文章核心观点 - VLA与RL结合的技术路线正成为提升具身操作性能的关键方向,能有效弥补预训练模型与真实任务之间的差距 [1] - RL训练通过直接优化任务完成度这一终极目标,使模型具备处理意外情况的更强鲁棒性,并学习到更平滑的轨迹及与物理世界精细对齐的能力 [1] - 开源项目RLinf通过标准化接口支持主流VLA模型及CPU/GPU模拟器,并率先实现了对π0和π0.5模型系列的强化学习微调 [2][4] 技术性能评估 - 在LIBERO任务组评估中,π0模型在空间、物体、目标和长任务上的成功率分别为96.8%、98.8%、95.8%和85.2%,平均成功率达94.2% [5] - π0.5模型表现更优,在上述四项任务上的成功率分别为98.8%、98.2%、98.0%和92.4%,平均成功率达96.9% [5] - 采用Few-shot数据集SFT结合RL方法后,Flow-SDE π0.5模型在物体任务上达到100%成功率,整体平均成功率提升20.8个百分点至97.9% [5] - Flow-Noise π0.5模型在物体任务上同样达到100%成功率,整体平均成功率提升21.2个百分点至98.3% [5] 社区资源与生态 - 具身智能之心知识星球已汇聚近2000名成员,涵盖国内外知名高校实验室及机器人头部公司 [14] - 社区汇总了40多个开源项目、60多个具身智能相关数据集及行业主流仿真平台 [15] - 技术学习路线覆盖感知、交互、强化学习、VLA、VLN、多模态大模型等20多个专业方向 [15][16] - 社区提供产业研报、零部件品牌、开源数据、仿真平台等全方位资源汇总 [23][28][30][38] 技术发展前沿 - 社区内容涵盖数据采集、灵巧手、VLA模型、多传感器融合、分层感知操作等14个技术模块 [8] - 具体技术方向包括RoboDexVLM分层架构、BridgeVLA真机性能提升32%、具身4D世界模型EnerVerse等创新成果 [8] - 强化学习与VLA结合领域汇总了基于LLM的强化学习、可解释强化学习等主流方案 [40][58] - 多模态大模型方向涵盖理解与生成两大类应用,包括Image/Video/Audio/3D等多种模态组合 [51][53]
VLA方向,想再带几个同学冲一下具身的A会......
具身智能之心· 2025-11-10 18:00
文章核心观点 - 公众号"具身智能之心"正在招募视觉语言动作模型方向的研究人员进行论文辅导 重点关注VLA模型及其相关技术领域的深化研究[2] - 论文辅导名额有限 仅招募3名研究人员 以确保辅导质量[2] 行业研究方向 - 主要研究领域包括VLA模型基础研究 轻量化技术应用 VLA与触觉感知结合 VLA与世界模型整合 VLA与强化学习融合等前沿方向[2] - 研究团队已带领多名研究人员完成论文投稿 目前正陆续投递至相关学术会议[2]
聊聊在线强化学习是怎么微调π0和π0.5的?为什么性能最高能提升50%以上?
具身智能之心· 2025-11-10 11:30
文章核心观点 - 行业提出πRL开源框架 旨在解决基于流的视觉-语言-动作模型应用强化学习时面临的挑战 [5][6] - 该框架通过两种创新算法实现高效强化学习微调 在基准测试中性能提升显著 [7] - 该框架验证了在线强化学习在基于流的VLA模型中的有效性 展示了可扩展的多任务强化学习能力 [7] 技术方法与创新 - FlowNoise算法将去噪过程建模为离散时间MDP 通过可学习噪声网络实现精确对数似然计算 [7] - Flow-SDE算法将去噪过程与智能体-环境交互结合 构建采用ODE至SDE转换的双层MDP以实现高效探索 [7] - 框架在并行仿真中训练基于流的VLA模型 支持异构仿真环境下的可扩展训练 [7] 性能表现与评估 - 在LIBERO基准测试中 πRL将少样本SFT模型π0的性能从57.6%提升至97.6% [7] - 在LIBERO基准测试中 πRL将少样本SFT模型π0.5的性能从77.1%提升至98.3% [7] - 在ManiSkill的4352个抓放任务中 通过320个并行环境训练πRL 展示了多任务强化学习能力 [7]
机器人训练,北京男大有了技能玩法
具身智能之心· 2025-11-10 08:02
文章核心观点 - 介绍了一种名为COLA的全新强化学习方法,该方法使人形机器人仅依赖本体感知即可实现与人类协作搬运物体,无需外部传感器[11][18][26] - 该方法通过统一策略实现机器人在协作中领导者与跟随者角色的自主切换,提升了协作的流畅性和稳定性[19][20] - 该技术降低了硬件成本和系统复杂度,并在仿真、真实世界及人类用户实验中验证了其有效性[30][32][41] 技术方法与创新 - COLA方法的核心创新在于摒弃了摄像头、激光雷达等外部传感器,仅利用机器人自身的关节角度、力度反馈等本体感知数据进行交互决策[18][24][28] - 该方法采用统一策略,使机器人能根据人类施力情况和物体状态,自主、无缝地在领导者和跟随者角色间切换,无需人工干预[19][20] - 训练过程在高度动态的闭环仿真环境中进行,模拟了人类突然转向、物体重量变化等多种突发状况,以增强模型的鲁棒性[21][22] - 通过残差教师微调与仿真训练结合知识蒸馏的技术路径,先训练强大的教师模型,再将其能力迁移至轻量级的学生策略,适用于实体机器人[34] 实验验证与性能 - 在仿真实验中,以领导者思路设计的COLA-L比跟随者COLA-F表现更突出,能更好地分担人类负载并保持物体稳定[33][36] - 真实世界测试显示,COLA在面对箱子、担架等不同物体以及直线、转弯等运动模式时,均能实现稳健的协作搬运[37][38] - 由23名人类参与者进行的评估结果显示,COLA方法在高度跟踪和平滑性两项指标上均获得最高分,分别为3.96分[41][42] 研发团队背景 - 该研究由北京通用人工智能研究院、北京理工大学、香港大学等国内机构的研究人员共同完成[43] - 核心团队成员包括Yushi Du、Yixuan Li和Baoxiong Jia(通讯作者),其他通讯作者为Wei Liang、Yanchao Yang和Siyuan Huang[44][47][50] - 团队成员在计算机视觉、强化学习、人形机器人控制、具身智能等领域有深厚积累,并有相关顶会论文发表[46][49][56][59]
银河通用全新模型统一机器人导航任务,7B参数模型支持实时部署
具身智能之心· 2025-11-10 08:02
文章核心观点 - 提出NavFoM模型,旨在构建一个跨任务和跨本体的具身导航基座大模型,实现导航能力从“专用”到“通用”的技术跃进 [1][3][29] - 该模型统一了不同机器人的导航范式,通过“视频流+自然语言指令”预测动作轨迹,支持多任务、全场景和跨本体的应用 [3][29] - 模型在多个公开基准测试中实现了SOTA或可比拟SOTA的效果,且无需针对特定任务或机器人进行微调 [16][29] 统一导航范式 - 将不同机器人的导航任务统一为“机器人采集的流式视频 + 自然语言导航指令 -> 动作轨迹”的范式 [3] - 使用文本指令描述导航目标,用视频流表达导航历史,模型预测未来运动轨迹 [3] - 支持多任务(视觉语言导航、目标搜索、目标跟随、自驾)、全场景(室内、室外)和跨本体(四足、轮式、人形、无人机、汽车) [3] 模型架构与技术特点 - 采用TVI Tokens,通过端到端学习得到时间和角度两个系数,以兼容不同本体的相机设置(单目、环视等) [5][8] - 支持基于图像的问答和基于视频的问答混合训练,使模型保留对开放世界的理解能力,避免过拟合到导航任务 [9] - 采用双分支结构:导航任务时通过规划头输出由路径点组成的轨迹;问答任务时通过语言模型头进行下一个词预测 [9] 实时部署优化 - 提出预算感知的令牌采样策略,在有限算力约束下自适应采样关键帧,以支持7B参数模型的实时部署 [6][10] - 该策略基于遗忘曲线,越靠近当前帧采样概率越大,能根据视频帧数和令牌上限自适应调整分布 [10][11] - 实现了稳定的运行效率,具备处理长程导航任务和在真实机器人上高效运行的潜力 [11] 训练数据规模 - 训练数据量达800万条,涵盖视觉语言导航、目标导航、目标跟踪、自动驾驶、网络导航数据,涉及轮式机器人、四足机器狗、无人机和汽车 [12] - 额外使用了400万条开放世界的问答数据 [12] - 训练数据量是以往工作的约两倍,并通过图像缓存技术减少训练硬件需求 [15] 算法性能表现 - 在多个公开基准测试(涵盖不同任务和不同本体)上实现了SOTA或可比拟SOTA的效果 [16][29] - 无需对特定任务或机器人进行微调,仅通过修改指令和相机布局即可适配 [16] - 能够用同一套模型实现机器狗、轮式机器人、无人机的跟随任务 [19] 扩展应用验证 - TrackVLA++:在复杂环境中实现30分钟以上的稳定长程跟随 [23] - UrbanVLA:支持第三方地图引导的机器人自主城市出行 [25] - MM-Nav:实现360度纯视觉精确避障 [27]
具身的大小脑路线都在这里了......
具身智能之心· 2025-11-10 08:02
文章核心观点 - 具身智能是通往通用人工智能AGI的关键方向 强调智能体与物理环境的交互与适应能力[1] - 具身智能的核心模块由大脑负责思考感知和小脑负责执行构成[1] - 技术演进经历了从低层感知到高层任务理解与泛化的持续发展 当前进入VLA模型与强化学习、世界模型等融合的第四阶段[6][7][9] - 产业界正加速布局 国内外科技巨头通过投资与合作推动技术落地 双方进入关键竞赛阶段[3][5] 国内外相关领域产业分析 - 近2年多家具身明星团队从实验室走向商业和工业界 例如星海图、银河通用、逐际动力等[3] - 国内华为于2024年底启动"全球具身智能产业创新中心" 与乐聚机器人、大族机器人等合作建设关键技术[5] - 京东自2025年5月以来连续投资智元机器人、千寻智能、逐际动力等公司 强化物流与家庭服务场景能力[5] - 腾讯、蚂蚁集团、小米等科技巨头通过战略投资与合作加快构建产业生态[5] - 国外Tesla/Figure AI推进工业与物流机器人应用 美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人[5] - 国内企业以产业链投资与综合平台驱动落地 国外巨头侧重基础模型、模拟环境与类人机器人原型研发[5] 具身智能的技术演进 - 第一阶段技术聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态 但缺乏任务上下文和动作序列建模[6] - 第二阶段进入行为克隆阶段 机器人借助专家演示数据学习端到端映射 但存在泛化能力弱和误差累积问题[6] - 第三阶段自2023年兴起Diffusion Policy方法 通过扩散模型生成整个动作轨迹 提升策略稳定性与泛化能力[6] - 2024年进入Vision-Language-Action模型阶段 融合视觉感知、语言理解与动作生成 支持零样本或小样本快速泛化[6][7] - 第四阶段自2025年开始探索VLA模型与强化学习、世界模型、触觉感知等模块融合 以弥补现有局限[9] - VLA+强化学习提升长时任务中的试错与自我改进能力 VLA+世界模型引入环境动态预测 VLA+触觉信息推动精细安全操作[11][12]
迭代模型与累积数据才是正解!灵巧智能软硬全系列平台亮相25年世界互联网大会
具身智能之心· 2025-11-10 08:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 2025年世界互联网大会乌镇峰会于11.7号正式开幕,吸引了全球近130多个国家和地区的1600多名嘉宾参 会,其中具身智能与机器人模块是本次峰会非常吸晴的内容,也为行业输出了很有价值的insight。 灵巧智能作为具身灵巧操作领域的行业龙头,峰会期间主办了"具身智能灵巧操作生态对接会"。创始人兼 CEO周晨为行业带来了一场关于灵巧操作数据、量产、场景落地等多个方向内容的分享,并强调"数据是制 约具身智能规模化落地的最大瓶颈之一"。 DexRobot正在做哪些事情? 周总率先介绍了灵巧智能研发团队:"DexRobot是一家以灵巧操作为核心科技的具身机器人企业,由院士团 队和众多硬核机器人科学家合作组建"。我们期望推动人形机器人和工业机器人产业的发展,提高机器人末 端执行器技术水平,实现通用智能多模态触视感知的灵巧操作系统的研发、生产和销售。"灵巧智能也在不 断努力成为全球领先的灵巧操作机器人和灵巧操作方案的提供商"。 不到两年,灵巧智能推出了3款灵巧手 | 14:35 - 14:55 | 《Al+机器人的柔性进化与产业落地》 | | --- | --- | ...