Workflow
具身人工智能
icon
搜索文档
硬蛋创新(00400):以边缘AI算力“Nvidia Jetson”为基石,赋能人形机器人赛道
智通财经网· 2025-07-28 19:55
Nvidia与硬蛋创新的合作 - Nvidia与硬蛋创新下属核心平台科通技术联合举办《物理AI和NVIDIA机器人技术在线研讨会》,特邀Nvidia资深解决方案架构师和科通技术现场应用工程师做专业分享 [1] - 研讨会深度解析人形机器人在"训练、仿真优化、部署"全链路中涉及的软硬件一体化解决方案,并推介即将于8月份上市销售的Jetson Thor平台 [1] - Nvidia构建"DGX+Jetson+Omniverse"三大计算平台,重新定义具身机器人公司从训练到仿真优化、再到端侧部署时所需要的全套协同解决方案 [1] - Jetson是人形机器人的算力引擎和基石,置于边缘侧(即人形机器人体内) [1] - Nvidia Jetson是适用于机器人和嵌入式边缘AI应用的先进平台,其硬件通过专为机器人、计算机视觉和自主系统设计的高性能节能模块为边缘AI提供动力支持 [1] 人形机器人行业前景 - 人形机器人是具身人工智能向物理人工智能突破的核心硬件节点 [2] - 2025年被视为具身智能机器人量产元年 [2] - 据IDC预测,到2028年全球用户在机器人领域的支出将接近3,700亿美元,复合增长率为13.2%,中国市场占比近半 [2] - 以智元机器人(Agibot)、宇树科技(Unitree)、傅利叶智能(Fourier)等为代表的中国明星企业推动着该领域的跨越式发展 [2] 硬蛋创新的业务布局 - 硬蛋创新是AI算力供应链核心供应商及应用技术方案服务商,覆盖"AI基础设施+AI智能终端"领域 [2] - 代理覆盖Nvidia、Xilinx、Intel、AMD、Microsoft等国际知名原厂以及众多国内知名芯片原厂 [2] - Nvidia Jetson已成为硬蛋创新核心代理线,并持续展现强劲增长势头 [2] - 硬蛋创新以Jetson系列产品为基石,向边缘AI领域(特别是人形机器人赛道)输出机器人产业应用技术解决方案 [2] 硬蛋创新的未来展望 - 硬蛋创新的经营业绩将受益于Nvidia Jetson产品家族在边缘AI领域的"产品+技术+生态"领导力 [3] - 有利于公司继续巩固自身在AI算力供应链中的核心地位 [3] - 支撑国内具身智能机器人赛道玩家参与全球科技竞赛 [3]
VLN-PE:一个具备物理真实性的VLN平台,同时支持人形、四足和轮式机器人(ICCV'25)
具身智能之心· 2025-07-21 16:42
视觉-语言导航平台VLN-PE的核心创新 - 推出首个支持人形、四足和轮式机器人的物理真实VLN平台VLN-PE,基于GRUTopia构建,可无缝集成MP3D之外的新场景[3][10] - 平台采用基于RL的控制器API,支持Unitree H1人形机器人、Aliengo四足机器人和Jetbot轮式机器人的物理仿真[13] - 引入90个MP3D场景并手动修复地面间隙,新增10个GRScenes合成家庭场景和3D高斯溅射扫描场景以增强环境多样性[14] 跨具身导航的关键发现 - 现有VLN-CE模型迁移到物理环境时成功率下降34%,暴露伪运动训练与物理部署的差距[15] - 模型性能因机器人类型差异显著,人形机器人表现最佳而四足机器人最差(相机高度0.5米时几乎失效)[36][37] - 联合训练三种机器人数据的模型实现最佳性能,验证跨具身训练的"一劳永逸"潜力[37][39] 多模态与光照条件影响 - 仅依赖RGB的NaVid模型在低光照下成功率下降12.47%,而RGB+深度模型的CMA和RDP表现更稳定[38] - 相机光源(CL)条件下模型性能普遍低于圆盘光(DL),反光问题导致导航误差增加[38] - 深度信息融合使CMA模型在DL300光照条件下保持85%的基础性能,显著优于纯RGB模型[38] 模型性能对比 - 70亿参数的NaVid模型零样本迁移表现最佳,但存在70%任务片段中过度旋转的问题[29][30] - 扩散模型RDP在3DGS-Lab-VLN数据集上达到30.63%成功率,较NaVid的5.81%提升5倍[31] - 基于地图的VLMaps方法在未见验证集取得20%成功率,证明非端到端方案的可行性[27][24] 数据收集与训练策略 - 使用物理控制器收集的训练数据使模型跌倒率降低8.36%,卡住率减少2.01%[33][34] - 在VLN-PE域内数据微调的Seq2Seq模型性能超越Habitat增强训练的模型,显示仿真过拟合风险[29] - 3DGS场景微调的600万参数小型模型超越NaVid,验证多样化训练分布的价值[30]
港大强化学习驱动连续环境具身导航方法:VLN-R1
具身智能之心· 2025-07-04 17:48
研究背景 - 视觉语言导航(VLN)是具身人工智能的核心挑战,要求智能体理解自然语言指令并在三维环境中导航,需要实时决策能力以适应变化的环境 [5] - 现有方法通常依赖离散拓扑图进行路径规划,限制了智能体在未见或连续环境中的泛化能力,且需要额外传感器信息如深度图和导航图 [5] - 部分方法使用大型语言模型(LLM)但仍受限于预定义导航图,无法实现真正的具身导航 [6] VLN-R1框架创新 - 提出VLN-R1框架利用大型视觉语言模型(LVLM)处理第一视角视频流,实现连续环境中的视觉语言导航,相比基于离散导航图的方法更接近真实世界场景 [5] - 构建VLN-Ego数据集基于Habitat模拟器生成,包含第一视角视频流及对应未来动作预测,为LVLM训练提供丰富视觉和语言信息 [5] - 采用两阶段训练方法:先通过监督微调(SFT)使模型动作序列预测与专家演示对齐,再利用强化微调(RFT)进一步优化模型 [5] 数据集构建 - 数据来源于Habitat模拟器中的Matterport3D场景(90个场景分训练/验证/测试集) [6] - 每条样本包含三部分:自然语言导航指令、历史帧(Long-Short Memory采样)+当前帧、未来6步动作序列 [6] - 采用长短期记忆采样策略平衡近期细节与长期上下文,短期部分高密度采样,长期部分低密度采样 [6] 训练方法 - 监督微调将导航任务形式化为序列预测问题,使用交叉熵损失对预测动作编号与描述进行监督训练 [8] - 强化学习微调引入GRPO策略优化通过相对奖励对生成结果排序,提升高质量策略 [9] - 设计TDR机制在奖励函数中优先强化前期正确决策,提升整体导航成功率 [9] 实验结果 - R2R任务中VLN-R1在无深度图、地图等条件下实现SR=30.2(7B模型),显著超过传统模型 [11] - RxR任务中仅使用10K样本RFT即优于完全监督模型,体现强跨域适应能力 [12] - 2B模型经RFT后可达7B模型的SFT性能,说明RFT能有效提升小模型性能 [12] 消融实验 - 预测未来6个动作的设置能取得最佳性能,仅预测单个动作会导致性能显著下降 [14] - 长短期记忆采样策略在帧选择方面表现最佳,能有效平衡当前观察与历史上下文 [16] - RFT阶段8次生成能使模型达到收敛,TDR机制在奖励函数中表现最为有效 [16] 未来方向 - 需验证VLN-R1在现实世界中的泛化能力 [16] - 可探索在更复杂现实环境中评估及扩展动作空间实现更精细导航控制 [16] - 可研究将该方法应用于其他具身AI任务如具身问答(EQA)等 [16]
“未来文旅2.0”拥抱AI点亮经济“夜动力” 撬动“八小时外”消费新活力
央视网· 2025-06-29 11:21
杭州奇妙夜活动 - 2025年杭州奇妙夜活动聚焦科技与文旅融合创新 重点打造"未来文旅2 0"体验场景 这是该活动举办的第6年 [1] - 活动设置裸眼3D区 无需佩戴设备即可体验钱江潮涌的立体视觉效果 [4][6] - 推出"时空对话舱"功能 游客可与苏东坡数字人互动 并通过AI大模型获取西湖景点深度游玩建议 [9] - 现场展示格斗机器人等2025年杭州最新科技产品 增强市民互动体验 [10][12] - 光影艺术汇运用数字技术将游客身影转化为水墨动画 打造沉浸式江南意境体验 [14] 科技旅游发展 - 杭州市文旅部门发布"杭州科技旅游十景名单" 涵盖科技企业街区 创意小镇等新型夜游地标 [18] - 钱江新城通过建筑灯光秀和IMAX巨幕展示 成为城市夜间旅游核心区域 [4][16] - 科技元素融入传统景点 如西湖夜游可同步体验科技夜市 形成"历史+未来"的复合旅游模式 [18] 机器人足球赛事 - 国内首场机器人足球3V3 AI赛总决赛6月28日在北京亦庄举行 采用14米×9米专用小型场地 比赛时长20分钟 [20][22] - 赛事完全由AI自主决策 无人工手柄操控 保留基础足球规则但对机器人碰撞包容度更高 [24] - 4支参赛队伍使用同款机器人 比拼重点在于各团队开发的AI算法优劣 体现具身智能技术水平 [25][27] - 机器人具备跌倒自主爬起功能 支持"一键重启"快速恢复比赛 单块电池可完成全场赛事 [28][30] - 赛事推动AI开发从模拟环境转向实体机器人测试 加速具身智能应用生态构建 [33]
机器人视觉语言导航进入R1时代!港大联合上海AI Lab提出全新具身智能框架
量子位· 2025-06-25 08:33
技术突破 - VLN-R1实现了将自然语言指令直接转化为第一人称视角下的连续导航动作,无需依赖离散地图,能在复杂环境中灵活感知、决策与行动,实现类人级别的具身智能导航[1] - 该技术打破了"视觉输入→文本描述→离散决策"的传统链条,直接让LVLM以第一人称视频流为"眼睛",输出连续导航动作(前进、左转、右转、停止)[5] - 在VLN-CE基准测试中,仅用20亿参数模型就超越了70亿参数模型的SFT结果,在长距离导航中仅用1万RxR样本进行RFT就超过了使用完整RxR数据训练的模型[2] 技术创新 - 采用两阶段训练框架:先通过监督微调学习正确动作序列的文本表达,再通过强化微调引入奖励机制优化决策[7] - 提出分组对比优化(GRPO)方法,通过比较多个动作方案的相对优劣来学习最优路径,不需要提前设定固定奖励规则[7] - 引入时间衰减奖励(TDR)机制,对近期动作赋予更高权重,让模型优先确保眼前动作的精准执行[8][9] 数据集与训练 - 构建了全新的VLN-Ego数据集,包含63万R2R和120万RxR训练样本,完全基于第一人称视角,摒弃全局地图等"作弊"信息[12] - 提出长短时记忆采样策略,平衡近期信息与长期记忆,确保Agent在复杂环境中既不迷失方向又能对突发情况做出反应[14] 性能表现 - 2B模型通过RFT优化后性能直逼7B模型,为资源受限场景(如家用机器人)的落地提供了可能[15] - 展现出极强的数据效率,在跨域迁移任务中仅用少量样本就超越了完整数据集训练的效果[2] 应用前景 - 该框架正在促进AI从"数字智能"向"具身认知"跨越,可应用于工厂物流机器人和家庭服务助手等领域[16] - 研究证明LVLM完全有能力成为"感知-决策-行动"闭环的控制中枢,为具身智能发展提供了新思路[16]
博原资本携手银河通用成立“博银合创”,加速具身人工智能赋能工业自动化
投中网· 2025-06-18 10:21
合作成立新公司 - 博原资本与银河通用共同成立合资公司"博银合创",专注于复杂装配、智能质检等核心制造场景,研发灵巧型机器人,推进具身人工智能在工业端的规模化落地 [1] - 三方签署战略合作备忘录,未来将通过博银合创在具身智能机器人领域开展联合研发和商业化探索,逐步推动其融资拓展与全球布局 [1] - 该合作是具身人工智能技术从技术验证走向产业落地的重要里程碑 [1] 行业前景与技术趋势 - 据IFR预测,2025年全球工业机器人市场将突破800亿美元,具身智能驱动的协作型机器人有望占据超过一半份额 [5] - 具身人工智能融合感知、认知与动作能力,使机器人能够在动态复杂环境中实现自主决策和精准执行,正在成为推动制造业柔性化、智能化的关键技术引擎 [5] - 智能制造正从"流程驱动"迈向"认知驱动"的关键转折点 [12] 博银合创定位与规划 - 公司专注于高复杂度制造工序,聚焦复杂零部件处理、精密装配、柔性质检等传统自动化难以覆盖的关键环节,研发灵巧机械手、单臂机器人等柔性、高精度解决方案 [9] - 将引入银河通用自研的仿真训练与合成数据技术管线,构建标准化、模块化、可复制的训练与部署体系 [9] - 旨在构建从早期孵化、独立融资到商业化拓展的完整成长路径,打造具备全球视野和商业穿透力的智能制造企业 [9] 技术能力与商业化路径 - 银河通用自研全球领先的端到端具身大模型体系,具备感知到执行的完整链路能力 [12] - 积累了丰富的产品工程与真实场景落地经验,能将先进算法转化为可部署、可规模复制的实际解决方案 [12] - 博原启世将协助构建从技术孵化到产品落地的全流程支持体系,推动公司前沿技术从实验室走向产业实践 [14] 产业合作与全球布局 - 已与联合汽车电子有限公司(UAES)签署战略合作备忘录,共同设立具身智能机器人联合实验室"RoboFab" [19] - 博世集团开放式创新平台OpenBosch将成为博原启世全球协作体系的关键一环,深度参与其"合作孵化"模式 [20] - 未来将推动具身机器人在欧美、东南亚等重点制造市场的本地化部署,探索"全球设计、本地制造"的智能制造新范式 [22]
博原资本设立全资控股平台「博原启世」:已携手银河通用成立「博银合创」
IPO早知道· 2025-06-18 09:26
博原资本与银河通用成立合资公司 - 博原资本与银河通用共同成立合资公司"博银合创",专注于复杂装配、智能质检等核心制造场景,研发灵巧型机器人 [2] - 新公司将推进具身人工智能在工业端的规模化落地,并逐步推动融资拓展与全球布局 [2] - 博世中国、博原资本与银河通用签署战略合作备忘录,未来将在具身智能机器人领域开展联合研发和商业化探索 [2] 具身人工智能行业前景 - 国际机器人联合会预测2025年全球工业机器人市场将突破800亿美元,具身智能驱动的协作型机器人有望占据超过一半份额 [4] - 具身人工智能融合感知、认知与动作能力,正在成为推动制造业柔性化、智能化的关键技术引擎 [4] - 行业正处于从"流程驱动"迈向"认知驱动"的关键转折点,具身人工智能技术从技术验证走向产业落地 [11] 博银合创业务定位 - 专注于高复杂度制造工序,聚焦复杂零部件处理、精密装配、柔性质检等传统自动化难以覆盖的关键环节 [8] - 研发灵巧机械手、单臂机器人等柔性、高精度解决方案 [8] - 引入银河通用自研的仿真训练与合成数据技术管线,构建标准化、模块化、可复制的训练与部署体系 [8] 博原启世平台战略 - 博原资本设立全资控股平台"博原启世",专注于具身人工智能领域的战略孵化与生态重构 [12] - 以"合作孵化"为核心路径,联合人工智能技术企业共同设立创业型公司 [12] - 博世集团开放式创新平台OpenBosch将成为博原启世全球协作体系的关键一环 [21] 联合实验室与产业合作 - 博银合创与联合汽车电子有限公司(UAES)设立具身智能机器人联合实验室"RoboFab" [19] - 实验室将聚焦具身人工智能在典型制造环节的试点应用,打通从算法模型到生产系统的全流程闭环 [19] - 未来将推动具身机器人在欧美、东南亚等重点制造市场的本地化部署,探索"全球设计、本地制造"新范式 [23]
17视触觉传感器+70%表面触觉覆盖!北大×北通院《自然·机器智能》发表F-TAC Hand,提供全新灵巧手思路!
机器人大讲堂· 2025-06-15 12:41
核心观点 - 灵巧机械手的高精度控制是机器智能和具身人工智能领域的标志性挑战 触觉感知在机器人精准抓取与操作中具有不可替代的作用 [1] - F-TAC Hand通过仿生学原理在硬件架构和控制算法两个维度实现重大突破 开辟了触觉具身智能研究新路径 [2][3] - F-TAC Hand在动态现实条件下展现出强大的适应性抓取能力 600次多物体抓取实验验证其显著优于传统非触觉方案 [5] - 该研究成果发表在《自然·机器智能》期刊 为开发超越纯计算范式的具身人工智能系统指明了方向 [6][9] 硬件创新 - F-TAC Hand集成17个空间分辨率达0.1毫米的高分辨率触觉传感器 覆盖手部70%表面区域 实现接近生物触觉的感知能力 [3][12] - 模块化视触觉传感器以每平方厘米10,000像素的密度部署 最小传感器尺寸仅20mm*20mm 灵敏度达0.48 kPa⁻¹ [12][14] - 采用绳驱方式通过五根精密排布的驱动腱绳模拟人类肌腱分布 实现15个自由度 单指10N握力输出和完整拇指对掌功能 [22] 算法突破 - 开发了能够高效处理高维触觉数据的类人手型生成算法 构建完整的闭环触觉控制系统 [3] - 采用基于物理的图像形成模型生成训练数据 通过编码器-解码器神经网络实现接触几何重建 [24] - 提出面向仿人多样化抓取的算法 通过改进的MALA算法进行高效搜索 在23个不同形状和尺寸对象测试集上验证有效性 [25][27] 性能验证 - 完成Kapandji测试中拇指与其余手指间全部10个特定接触点 精准执行33种典型人类抓握类型 [33][35] - 在多物体转运任务中能在约100毫秒内快速反应和切换抓取策略 600次真实世界抓取任务验证其适应性 [36][42] - 当部分手指受损时通过重新生成健康手指的抓取策略 仍能实现对物体的稳定抓取 [34][38] 应用前景 - 在假肢研发 遥操作系统 协作机器人以及人机交互等领域展现出广阔应用前景 [39] - 突破传统机器手在高运动自由度 高覆盖率触觉感知和高分辨率之间难以兼顾的技术瓶颈 [39] - 为探索复杂触觉具身智能开辟新道路 为具身智能系统发展提供现实可行的研究蓝图 [45]
10%训练数据超越100%表现,机器人学习领域迎来重要突破
机器之心· 2025-06-11 11:54
研究团队与背景 - 第一作者陈昌和是美国密歇根大学研究生,研究方向为基础模型、机器人学习与具身人工智能,专注于机器人操控、物理交互与控制优化[1] - 第二作者徐晓豪是密歇根大学机器人学院博士生,研究涵盖3D感知、视觉语言模型驱动的多模态异常检测及鲁棒三维重建[2] - 共同第一作者Quantao Yang是瑞典皇家理工学院博士后,研究聚焦于利用视觉语言模型与大型语言模型提升自主系统在动态环境中的感知与导航能力[3] ViSA-Flow框架创新 - 提出革命性的机器人技能学习方法ViSA-Flow,能够从大规模人类视频中提取语义动作流,显著提升数据稀缺情况下的学习效率[4] - 在CALVIN基准测试中表现卓越,仅使用10%训练数据就超越使用100%数据的现有最佳方法[4] - 引入语义动作流作为中间表示,捕捉操作器-物体交互的本质时空特征,不受表面视觉差异影响[10] - 包含三个关键组件:语义实体定位、手-物体交互跟踪、流条件特征编码[11][12][13] 技术实现与评估 - 采用两阶段学习框架:预训练阶段学习ViSA-Flow动态先验,微调阶段进行策略适应[16] - 在CALVIN基准测试中,ViSA-Flow仅使用10%数据(1,768个)就超越所有基线方法,包括使用100%数据的方法[18][19] - 在5个连续任务完成方面达到31.4%成功率,是使用10%数据的次佳方法GR-MG(16.2%)的近两倍,甚至超过使用100%数据训练的SuSIE(26.0%)[19] - 平均序列长度达到2.96,证明其在处理长时程操作任务方面的有效性[20] 技术优势与局限性 - 技术优势包括数据效率高、跨域泛化能力强、长时程稳定性好、语义一致性佳[40] - 当前局限性包括缺乏显式3D几何和接触动力学建模、依赖预训练VLM组件、在精细物理交互任务中可能存在限制[40] - 未来发展方向包括增强物理建模、减少对预训练组件的依赖、与强化学习算法结合、扩展到网络规模视频语料库进行预训练[40] 研究意义与展望 - 为机器人学习领域带来重要突破,证明从大规模人类视频中提取语义表示进行机器人技能学习的可行性[36] - 成功桥接人类演示视频观察与机器人执行之间的差距,为构建更智能、高效的机器人学习系统开辟新方向[37] - 有望在工业自动化、家庭服务机器人、医疗辅助等多个领域发挥重要作用,推动机器人技术向更加智能化和普适化方向发展[38]
“AI教母”李飞飞揭秘“世界模型”:要让AI像人类一样理解三维空间
36氪· 2025-06-06 20:31
公司概况 - World Labs由李飞飞创办,专注于研究前所未有的深度技术,目标是构建能够理解和推理三维物理世界的AI系统[4] - 公司寻找的投资者需具备计算机科学、人工智能、市场和产品等多方面专业知识,并能与创始人展开深度知识对话[4] - 李飞飞认为当前是集结行业资源(计算能力、数据、人才)实现"世界模型"理想的最佳时机[9] 技术方向 - World Labs致力于解决"空间智能"挑战,这是AI理解三维物理世界和虚拟数字宇宙的核心能力[2] - "世界模型"指能全面理解三维世界结构、形态和组成的AI系统,超越语言局限[4][6] - 技术突破点在于让AI具备类人的空间感知能力,这是实现"具身智能"的关键[11] 行业应用 - 创造力领域:将改变设计、电影、建筑和工业产品设计等视觉化和空间化的工作方式[12] - 机器人领域:赋能各类"具身智能机器"在三维环境中与人类协作[12] - 虚拟宇宙:结合生成模型和重建模型,创造"无限宇宙"的新体验[12][13] 技术比较 - 大语言模型存在局限性,无法完美捕捉三维世界的复杂性[6][7] - 3D计算机视觉相比2D具有显著优势,能解决机器人空间操作等实际问题[14] - 空间感知系统在进化史上早于语言系统出现,是更基础的智能组成部分[11] 发展前景 - "世界模型"将重新定义机器人、创意产业和计算本身[2] - 技术成熟后将推动人类突破二维思维框架,进入三维智能新时代[13] - 应用场景涵盖生产力、制造业、工程、社交、旅行等多个领域[12][13]