Workflow
vla
icon
搜索文档
具身智能前瞻系列深度一:从线虫转向复盘至行动导航,旗帜鲜明看好物理AI
国金证券· 2025-07-22 16:17
报告行业投资评级 未提及 报告的核心观点 报告认为具身智能发展处于早期,当前缺乏模拟学习能力,物理AI是构建模拟学习的核心;世界模型约等于空间智能加物理AI;建议重视3D数据资产和物理仿真引擎双主线,看好中国物理AI稀缺资产索辰科技 [4][37]。 根据相关目录分别进行总结 从生物智能五阶段映射具身智能,模拟、规划能力是当前缺失环节 - 阶段一(关联性学习):生物智能起源于早期两侧对称生物学会“行动导航”,如线虫学会“转向”,“行动导航”是扫地机器人落地前提;早期两侧对称生物具备两侧对称结构、效价神经元、大脑和“情感”雏形;“关联性学习”是对未来初步“预测”的前提 [10][11][13]。 - 阶段二(强化学习):早期脊椎动物学会“试错”,构成“强化学习”基础;“基于预期奖励的时序差分强化学习”有助于缩短试错时间、建立更长预测时间窗口;该机制形成涉及时间感知和空间感知 [15][17][18]。 - 阶段三(模拟学习):早期哺乳动物学会“规划”,即“模拟学习”;构建基于模型的强化学习困难,因真实世界动作连续、信息嘈杂不完整、奖励复杂;大鼠在“不确定性”情况下触发模拟 [22][24][29]。 - 阶段四(模仿学习):灵长类动物学会“模仿学习”,映射到具身智能,“模仿学习”分为“主动教学”与“逆向强化学习”两种策略 [32]。 - 阶段五(语义处理):人类掌握“语言”,形成大规模协作;具身智能产业中,模拟学习应用相对初级,未来拥有3D空间智能的机器人具备“仿真”能力后将进化为硅基生命 [35][36]。 复盘智能驾驶模型算法演绎历史,世界模型≈空间智能+物理AI - 智能驾驶VS具身智能:智能驾驶是具身智能现阶段落地可行性及商业闭环被验证的场景,众多人形机器人核心创始团队有智能驾驶从业经验;智能驾驶“反物理交互”,人形机器人需高频“物理交互” [37][41]。 - 从特斯拉FSD说起:特斯拉FSD智能驾驶算法经历“模块化”规则驱动算法、感知模块引入BEV+OCC架构实现“端到端”、追求“一段式端到端”三个阶段;VLM、VLA等慢思考模型逐渐发展成熟 [44][46][53]。 - 谈及世界模型、物理AI:世界模型约等于空间智能加物理AI,英伟达Cosmos侧重视频世界模型;空间智能核心是让模型理解3D空间信息,获取3D空间数据有真实数据采集与仿真合成数据两条路线;物理AI解决机器人与物理世界交互及“缺数据”难题 [66][71][77]。 重视3D数据资产+物理仿真引擎双主线,看好中国物理AI稀缺资产索辰科技 - 群核科技:推出空间智能平台Spatial Verse,为空间智能算法提供产业级工具;2024年前三季度营收5.53亿元,经调整亏损率收窄至17%;毛利率持续提升,业务以订阅收入为主 [80][84][86]。 - 索辰科技:发布索辰开物平台,将发布“机器人虚拟训练平台”;2024年营收3.79亿元,2020 - 2024年营收CAGR达23.7%;业务分工程仿真软件与仿真产品开发两部分,研发投入强度较高 [92][95][100]。
银河通用王鹤最新演讲:要善于运用合成数据,加速推动人形机器人新质生产力的大规模应用
贝壳财经· 2025-07-22 10:22
2025年,对人形机器人和具身智能赛道的创业者而言,都是特殊的一年。在产业端,不断迭代新的产品;在一级市场,这些初创公司成为投资者青睐的标的 公司。 7月10日,在2025年新京报贝壳财经年会建设开源之都:智AI未来,生态共澎湃主论坛上,北京大学助理教授、银河通用机器人创始人及首席技术官、智源 学者王鹤博士出席并发表题为《合成数据赋能的具身大模型开启工商业场景规模化落地》的主旨演讲。 人形机器人并不是一个新鲜的事物,从早稻田大学发布的全球第一个能自主行动的人形机器人WABOT-1再到波士顿动力早期的Atlas机器人,机器人一直存 在,却并不智能。2022年大模型在全球范围内掀起的热潮,让无数研究者看到了新的方向,最早将人工智能和机器人研究相结合,重新定义机器人的能力边 界,王鹤正是其中之一。 王鹤认为,一些通用大模型对于机器人而言并不具备可操作性,因此多模态模型的下一步发展方向就是将机器人的动作作为输出模态,这就是当下具身智能 与大模型融合的一个新趋势,即VLA(Vision-Language-Action)大模型,通俗理解就是能够让机器人自主理解指令并依靠手眼脑身协调来执行任务。 从2021年斯坦福大学博士 ...
分析了102个VLA模型、26个数据集和12个仿真平台
自动驾驶之心· 2025-07-22 10:18
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 出发点与工作背景 视觉 - 语言 - 动作(VLA)模型是机器人技术的变革性突破,其核心是将视觉感知、自然语言理解与具身 控制整合到单一学习框架中。本综述聚焦机器人操作与指令驱动自主性,全面梳理了 102 个 VLA 模型、26 个基础数据集和 12 个仿真平台,它们共同推动了 VLA 模型的发展与评估。模型被归为不同架构范式,体 现了视觉、语言和控制在机器人系统中整合的多样策略。对于基础数据集,基于任务复杂性、模态多样性 和规模建立新评估标准,还通过二维框架按语义丰富度和多模态对齐进行组织,揭示了数据领域的未探索 区域。仿真环境的评估围绕大规模数据生成效率、虚实迁移能力及任务多样性展开。综合学术与工业界成 果,明确了当前挑战,并指出可扩展预训练协议、模块化架构设计和稳健多模态对齐策略等发展方向。本 综述兼具技术参考价值与概念路线图意义,涵盖从数 ...
融资超14亿元,中国版Figure AI,晋升独角兽!
Robot猎场备忘录· 2025-07-22 01:22
温馨提示 : 点击下方图片,查看运营团队6月最新原创报告(共235页) 说明: 欢迎约稿、刊例合作、行业交流 , 行业交流记得先加入 知识星球"机器人头条" ,后添加( 微信号:lietou100w )微信; 若有侵权、改稿请联系编辑运营(微 信:li_sir_2020); 正文: 令小编没有想到的是,7月下半场融资潮仍旧持续;7月21日,又有3家头部具身智能人形机器人创企宣布完成新一轮融资: 值的注意的是,今天官宣融资的三家企业皆由京东集团领投;相较于美团,京东入局具身智能较晚,今年5月份领投[智元机器人]B+轮融资,才迎来投 资本波具身智能浪潮中的投资首秀,同时公司 已于今 年2月开始内部组建具身智能团队,并开始对外招聘(包括机器人运动控制工程师、具身算法 (机器人方向)等);在两家企业进行外卖大战之际,京东又连续领投三家具身智能机器人创企,这是要 将竞争延续到了具身智能赛道。 2025年以来,谷歌、OpenAI等国外科技大厂率先从大模型赋能、投资形式转变为躬身入局本体制造,国内大厂随后跟进,如蚂蚁集团、京东集团 等,同时国内各大厂也加快了投资步伐,诸多科技大厂迎来投资首秀,蚂蚁集团于2月、5月先后领投[ ...
可以留意一下10位业内人士如何看VLA
理想TOP2· 2025-07-21 22:36
通用类大模型、具身智能、自动驾驶相关方向。 大模型之心Tech . 以下文章来源于大模型之心Tech ,作者自动驾驶之心 锚点2:觉得没有专用的VLM基座,都是用开源模型魔改的。(实际上理想VLA的基座就是自己 做的预训练,VLM的基座用的Qwen) 锚点3:觉得抛弃之前验证成熟的方法不是一个好举措。 正文内容是自动驾驶之心团队面向10位自动驾驶从业者的4个提问的回复,四个问题分别是: 1.当下前沿技术的发展路线是否已经成熟并适合量产?有哪些难点需要攻克? 2.如何看待新兴的技术方向:VLA/VLM、扩散模型、闭环仿真、强化学习、端到端自动驾驶、 世界模型等等 3.未来自动驾驶技术还有哪些值得探索的新方向? 4.深耕自动驾驶 or 投身具身智能,怎么选? 关于VLA大体有三派 1.不看好派 锚点1:觉得E2E都没发挥出真正的优势,实测效果不如PPT,VLA就更是PPT了。 2.看好派 锚点1:认为VLM/VLA本质是用大模型的发话能力帮助车像人一样理解场景,过去那种出现一 种场景,对应一种策略的思路开发是没有止境的。 锚点2:肯定是下一代重点落地发力方向,reasoning能力可以解释模型黑盒,是很大安全保 ...
VC/PE周报:香飘飘出资做LP;具身智能公司再掀融资风暴
每日经济新闻· 2025-07-21 21:58
香飘飘进军LP圈 - 香飘飘作为有限合伙人以自有资金认缴出资1亿元参与认购长沙泉仲创业投资合伙企业基金份额 该基金目标总规模10亿元 主要投资成长及成熟期企业 兼顾早期消费类企业 [2] - 长沙泉仲是嘉御资本旗下管理基金 嘉御资本管理资产超170亿元 专注新消费、跨境电商、企业服务和前沿科技领域 投资案例包括沪上阿姨、锅圈食汇等 [2] 中科创星新基金动态 - 中科创星先导创业投资基金完成首轮募集26.17亿元 注册于上海浦东 存续期8年 计划年底完成募集关闭 [3] - 该基金70%资金投向早期硬科技项目 30%投向成长期项目 重点布局人工智能相关的物质、能量、信息、生命、空间产业领域 [3] 国家中小企业发展基金进展 - 工信部将推进设立国家中小企业发展基金二期 带动社会资本投早、投小、投长期、投硬科技 [4] - 国家中小企业发展基金母基金注册资本357.5亿元 通过子基金等方式使总规模达1000亿元以上 已设立46只子基金 规模超1200亿 投资项目超1800家 [4] 天津创投政策调整 - 天津出台24条支持创业投资措施 将市、区两级财政出资比例上限由50%提高至80% 允许财政出资部分退出时让利 [5] - 调整政府投资基金考核指标 不过度关注返投倍数和基金收益 探索建立国资创投基金全生命周期考核机制 [5] 具身智能领域融资动态 - 智元机器人获正大机器人战略投资 将开展生命科技、新零售、康养服务等领域业务探索 此前获腾讯、京东等投资 [7] - 千寻智能完成近6亿元PreA+轮融资 京东领投 发布自研VLA模型Spirit v1和机器人Moz1 [8] - 逐际动力获京东战略领投 将深化零售、物流等领域合作 其全尺寸人形机器人已完成量产准备 [9]
70K?端到端VLA现在这么吃香!?
自动驾驶之心· 2025-07-21 19:18
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 端到端自动驾驶到底是啥? 端到端自动驾驶作为目前智驾量产的核心算法,自从去年E2E+VLM的双系统架构取得成功以来,已经成为当下国内主流新能源主机厂抢占的高地,上半年随着 VLA的概念开始掀起新一轮的量产方案迭代。自动驾驶之心了解到,3-5年的相关VLM/VLA的岗位薪资竟高达百万年薪,月薪更是高达70K! 最近很多小伙伴也联系我们,说想转到自动驾驶大模型、端到端的相关岗位。目前来看端到端已经衍生出很多技术流派,我们和业内的算法专家交流得到反馈, 很少有人能讲清楚端到端到底是啥?什么是一段式/什么是二段式?一段式又分为哪些子领域,下面这个视频为大家一一解答~ 随着学术界和工业界的目光投向端到端这个技术领域,我们发现了很多问题。UniAD是端到端的最终解吗?显然不是!一系列算法如雨后春笋般冒出: 为此我们筹备了《 端到端与VLA自动驾驶小班课 》!技术专家带你深入端到端与VLA算法开发~ 以PLUTO为代表的二段式端到端思考如何用模型实现自车规划; 以UniAD为代表的基于感知的一段式端到端不断发展进步; 以O ...
刘强东连投3家具身智能!京东美团「战火」烧到外卖之外
量子位· 2025-07-21 14:46
具身智能领域投资动态 - 京东近期领投3家具身智能公司:千寻智能、众擎机器人、逐际动力[2][7][9][21] - 美团7月上旬也投资2家具身智能公司:它石智航和星海图[3] - 京东投资偏好集中在"硬件+大脑"结合且具备量产能力的公司[26][27] 千寻智能融资与技术进展 - 完成近6亿Pre-A+轮融资,京东领投,多家机构跟投[7][8] - 创始人团队来自珞石机器人和清华大学,技术背景深厚[11] - 自研VLA模型Spirit v1可完成桌面整理等任务[13] - 发布人形机器人Moz1:26个自由度,负载自重比1:1[15] 众擎机器人融资与产品规划 - 完成近10亿元融资(Pre-A++轮和A1轮),京东领投A1轮[16][18] - 计划将生产交付团队规模提升5倍,加大具身智能研发投入[20] - 开源人形机器人PM01定价8.8万元起,已进入量产阶段[20] 逐际动力战略布局 - 获京东战略领投,将深化零售/物流/服务领域协同[21] - 发布LimX VGM模型实现零真机样本数据训练[23] - 全尺寸人形机器人下半年公开销售[24] 行业发展趋势 - 具身智能竞争重点转向场景落地能力[32][33] - 京东内部成立具身智能部门JoyInside,已与十余家机器人品牌合作[31] - 被投企业在京东平台开设旗舰店,形成销售闭环[34][36]
还不知道研究方向?别人已经在卷VLA了......
自动驾驶之心· 2025-07-21 13:18
最近有同学陆续来问我们,传统的感知、规划这块还能继续发论文吗?感觉工作都已经被做的七七 八八了,审稿人会打高分吗? 说到传统的感知、规划等任务,工业界都还在继续优化方案!但学术界基本都慢慢转向大模型与 VLA了,一个还有很多工作可以做的子领域...... 如果您真的需要选择论文研究方向,我们建议向大模型、VLA靠拢。而我们也为大家准备好了VLA 相关研究课题,如果您还没有切实的自驾研究方向,欢迎加入学习。 ⼀、VLA科研论文辅导课题来啦⭐ 关键词 :VLA自动驾驶;端到端自动驾驶;大语言模型;视觉表征学习 ⼆、课程目的⭐ 三、招生人数⭐ 6人/期(⾄多8人) 四、招生对象⭐ 五、课程收获⭐ 经典论⽂、前沿论⽂和代码实现——创新点、baseline、数据集——选题⽅法、实验⽅法、写作⽅ 法、投稿建议 端到端(End-to-End)自动驾驶旨在构建一个统一的智能模型,直接将传感器原始输入(如摄像头图 像)映射到车辆的驾驶控制指令(如转向、油门、刹车),从而替代传统的多模块、级联式架构 (感知、预测、规划、控制)。这一演进过程大致可分为以下几个阶段,而VLA模型的出现正是为 了解决前序阶段的瓶颈,标志着一个新范式的 ...
面试了很多端到端候选人,还是有很多人搞不清楚。。。
自动驾驶之心· 2025-07-20 16:36
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 端到端自动驾驶到底是啥? 端到端自动驾驶(End-to-End Autonomous Driving)作为目前智驾量产的核心算法,可以分为一段式端到端、二段式端到端两个大的技术方向。也是当前薪资最高 的算法岗位之一, 一些端到端、VLM/VLA的岗位, 3-5年就能冲击百万年薪!而自从UniAD 获得CVPR Best Paper以来,端到端已经衍生出很多技术流派,最近也 面试了很多候选人,发现很少有人能讲清楚端到端到底是啥?什么事一段式/什么是二段式?一段式又分为哪些子领域,下面这个视频为大家一一解答~ 而端到端的核心优势在于,与传统模块化方法不同,端到端系统实现了从传感器输入到车辆规划/控制信息的直接建模,避免了模块化方法间的误差累积。BEV感 知打通了模块化方法间的壁垒,在统一的上帝视角下实现了技术的一次跃迁。UniAD统一了各个感知和规划任务,所有的模块第一次在一个模型中运行起来,至 此端到端时代来临~ 而随着学术界和工业界的目光投向端到端这个技术领域,我们发现了很多问题。UniAD是端到端的最终解吗 ...