Robotics

搜索文档
Advanced Materials发表!北京大学重磅推出水下仿生喷射软体机器人!
机器人大讲堂· 2025-06-25 19:45
自然界中的水生生物因其生活环境和捕食方式的差异,演化出了多种多样的游动策略。在这些策略中, 头足 类动物,例如鱿鱼和鹦鹉螺,通过从其腔体中快速喷射水流来实现快速游动,从而具有游动速度快、能量效率 高等优势, 同时具备静音、结构简单、适应环境广等特点。 但人工模仿这种高效推进方式存在挑战:目前尚缺乏一种能像生物肌肉一样在水下同时实现高驱动应变、高驱 动力和高驱动速度的人工肌肉,因而无法有效驱动封闭性柔性腔室快速喷射水体,完成高效喷水推进。 ▍突破水下驱动瓶颈,研发新型仿生喷射机器人 近期的研究发现,将液晶弹性体 (LCE)纤维通过绳结结构编织成肌肉后,其在水下甚至深海环境中的驱动性 能可获得显著提升,并表现出优异的力学响应和环境适应性。然而,这种人工肌肉在水下的 驱动速率 仍显不 足,单靠其自身的牵拉作用难以实现对腔室的快速挤压,因此尚难满足高频、高流量喷射推进的严苛要求。 针对这一问题,来自北京大学的刘珂研究员团队进行了深入研究,并提出了一种实现水下仿生喷射的可缩放机 器人设计方案。 该机器人的推进力源于一种创新设计策略,集成了导电绳结人工肌肉、仿折纸软壳和机载控 制模块。基于液晶弹性体的导电绳结人工肌肉在水 ...
人形机器人厂商学着精打细算「过日子」了
36氪· 2025-06-25 19:42
行业战略转向 - 人形机器人厂商从高调宣传转向务实落地,不再强调"千家万户时代",而是聚焦具身智能生产力的实现 [1][2] - 行业集体放弃"全栈自研"和"通用"叙事,转向垂直场景突破,技术发展需与商业化路径匹配 [3][4] - 厂商普遍认为人形机器人进入家庭需5-10年,当前工厂场景落地仍存在技术障碍 [5] 商业化路径探索 - 专用机器人商业化更清晰,历史案例(如万能充)证明过度追求通用性可能导致技术淘汰 [5] - 两种落地策略:产品做加法(如扫地机加机械臂)和场景做减法(深耕展演/酒店等单一场景),数字华夏仿人机器人已获数亿元订单 [8][11] - 四足机器人成为过渡方案,技术更成熟、价格达千元消费级,宇树科技凭借四足产品实现持续盈利 [13][15][17] 技术合作生态 - 软硬件协同困境催生行业合作,华为与乐聚机器人合作案例显示:搭载盘古大模型的夸父机器人2024年交付量将达千台 [22] - 近期典型合作包括:开普勒联合兆丰机电攻关丝杠技术,优必选等企业联合开发康养机器人,越疆科技借助腾讯云提升多模态能力 [23] - 华为通过提供算力/模型支持成为具身智能"卖铲人",生态合作加速产品迭代速度 [23] 市场竞争逻辑 - 行业处于供给驱动阶段,需通过产品创新(如仿生面部/主动交互)创造用户需求 [10] - 价格制约人形机器人普及,数十万元定价阻碍数据飞轮效应,而四足产品更易形成市场规模 [15] - 先发优势至关重要,"第一胜过最好"成为行业共识,快速迭代比技术完美更重要 [24] 行业发展阶段 - 当前连完整产业都未形成,存在伪需求与半成品,傅盛认为需先验证刚性需求场景 [16] - 参考AI六小龙转型经验,垂直领域突破比AGI理想更实际,企业需"先活下来再谈理想" [11][25] - 技术理想需与商业规律平衡,务实战略调整包括:形态降维(四足)、场景聚焦、开放协同 [25][26]
RoboSense 2025机器感知挑战赛正式启动!自动驾驶&具身方向~
自动驾驶之心· 2025-06-25 17:54
赛事背景与目标 - 赛事旨在系统性评估机器人在真实场景下的感知与理解能力,推动多模态感知模型的稳健性研究[2] - 面对动态人群、恶劣天气、传感器故障等复杂环境,传统感知算法性能大幅下降[2] - 由新加坡国立大学、南洋理工大学等全球顶尖研究机构联合主办,并获IROS 2025官方认证[5] 赛事时间安排 - 注册开放时间为2025年6月[4] - 第一阶段截止日期为2025年8月15日,第二阶段截止日期为9月15日[4] - 颁奖典礼将于2025年10月19日在IROS 2025杭州主会场举行[4] 五大核心赛道技术要点 语言驱动的自动驾驶 - 任务要求构建端到端多模态驾驶模型,输入视觉序列与自然语言指令,输出规划轨迹[11] - Baseline模型Qwen2-5-VL需4块NVIDIA A100 GPU,迭代周期约12小时,感知准确率75-5%[16] - 挑战包括多模态融合建模、语言泛化能力及弱感知条件下的鲁棒性评估[17] 社交导航 - 目标实现基于RGB-D输入的移动机器人导航,需符合人类社交规范如避让老人、保持安全距离[18] - Baseline模型Falcon需4块RTX 3090 GPU,成功率55-84%,社交合规指标PSC达89-47[21] - 关键难点包括动态行为建模、非显式社交规则编码及多主体不确定性处理[19] 传感器布局优化 - 首次系统评估LiDAR不同安装位置对3D感知模型性能的影响[23] - Baseline模型BEVFusion-L单卡RTX 4090需16小时训练,mAP达48-8%[28] - 研究方向包括结构对齐模块、Point-to-Ray Alignment Loss等抗视角漂移方法[27] 跨模态无人机导航 - 任务需建立语言描述与俯视图间的语义映射,Baseline模型GeoText-1652检索R@1仅13-6[34] - 核心挑战为空-地视角转换带来的纹理缩放、建筑遮挡等语义对齐问题[33] 跨平台三维目标检测 - 要求3D检测模型在车辆、无人机等不同平台保持性能,Baseline模型ST3D车辆AP@0-5为33-7%[42] - 需解决Domain Gap显著、平台感知对抗机制缺失等跨平台适配问题[41] 赛事资源与奖项 - 提供多源多模态真实场景数据及统一评测平台[13] - 总奖金池超10,000美元,设置一等奖5,000美元及创新奖等专项奖励[42] - 所有完成有效提交队伍均可获得官方参赛证明[42]
今年秋招靠什么卷赢那些top实验室啊?
具身智能之心· 2025-06-25 16:24
行业技术发展 - 自动驾驶和具身智能成为AI技术突破的主线 占据近一半技术路线和融资金额 [1] - L2~L4自动驾驶功能实现量产 人形机器人完成跳舞等复杂动作 四足机械狗适应多地形运动 [1] - 行业对技术和人才需求明确 技术自媒体在自驾、具身智能、3D视觉、机器人领域积累大量内容 [1] 求职社区功能 - AutoRobo知识星球覆盖机器人、自动驾驶、具身智能方向 提供求职匹配服务 成员近1000名 [1][2] - 成员包括地平线、理想汽车、华为等企业社招人员 以及2024-2025届秋招学生 [2] - 社区内容包含面试题库、面经、行业研报、谈薪技巧、内推资源和简历优化服务 [2][6][17] 岗位资源 - 实时更新算法、开发、产品等岗位信息 涵盖校招、社招、实习机会 [3] - 寒武纪持续招聘2026届实习生 涉及C++开发、PyTorch框架研发、软件测试等岗位 [4] 专业知识体系 - 自动驾驶领域汇总毫米波视觉融合、BEV感知、多传感器标定等12类技术百问题库 [7] - 具身智能方向包含Occupancy感知、视觉语言导航、Diffusion Policy等专项面试题库 [8][12] - 提供机器人、自驾、AI类专业书籍 以及行业研报分析技术路线、发展前景和产业链 [13][14][18] 面试经验 - 收录滴滴、英伟达、小米汽车等20家企业算法岗面经 涵盖代码题、项目细节等全流程 [15][19] - 总结面试基础技能树、转行经验、面试官建议等宏观指导 [16][20]
ECARX Secures Non-Automotive Customer for its Lidar Solution, Expanding into the High-Growth Robotics Market
Globenewswire· 2025-06-25 15:00
文章核心观点 - 亿咖通科技与全球领先的机器人割草机开发商达成合作,将其激光雷达解决方案集成到产品中,计划2026年全球量产,这是公司战略多元化的重要里程碑,有助于开拓机器人和人工智能应用市场 [1] 合作背景 - 机器人市场是亿咖通科技传感器技术专长的自然延伸,全球科技巨头加大投资推动人工智能与机器人深度融合,加速从概念到实际应用的转变,行业具有巨大市场潜力 [2] 公司技术优势 - 公司专有的固态3D短程激光雷达工作在905nm波长,无机械部件,可靠性和性能优越,采用定制大阵列寻址VCSEL光源,探测范围达60米,配备高分辨率SPAD传感器,可实现精确环境映射,对机器人导航、物体操作和人机协作的先进避障系统至关重要 [3] 公司发展策略 - 公司将其在汽车领域与18家汽车制造商、28个全球品牌的成功合作模式拓展到机器人应用领域,展示了其在智能系统开发方面的综合能力和高效扩展能力,验证了技术的多功能性,开拓了汽车客户以外的新市场 [4] 公司高层表态 - 公司董事长兼首席执行官沈子瑜表示,此次合作验证了公司前沿技术的应用,将解锁机器人领域的新增长机会,未来计划通过与更多行业伙伴合作,扩大在机器人和人工智能领域的影响力,利用激光雷达解决方案和创新能力为智能机器人发展做出贡献 [5] 公司基本情况 - 亿咖通科技是全球汽车技术提供商,能为下一代智能汽车提供从系统级芯片到中央计算平台和软件的交钥匙解决方案,自2017年成立、2022年在纳斯达克上市以来,在中、英、美、瑞典和德国的12个主要地点拥有约1800名员工,与大众集团、一汽集团等知名汽车制造商合作,产品已应用于全球超870万辆汽车 [6][7]
西部证券:运动控制为制约人形机器人商业化落地关键环节 建议关注固高科技(301510.SZ)等
智通财经网· 2025-06-25 14:47
人形机器人运动控制技术 - 人形机器人的运动控制是实现动态步态、精细操作和环境适应的核心技术,涉及硬件设备、软件工具和开发套件的综合应用 [1] - 运动控制包括对机器人关节的精确控制以及整体运动轨迹的规划,为机器人在实际应用中的广泛发展奠定基础 [2] - 基于模型的控制和数据驱动控制方法相辅相成,混合控制方式通过数学模型提供基础框架,数据驱动方法增强适应性和鲁棒性 [3] 人形机器人应用场景与挑战 - 人形机器人具备高度仿人外形、强大感知能力及智能决策能力,可应用于工业自动化、医疗康复、服务零售、危险救援、家庭服务、教育科研等领域 [1] - 随着资本和人才涌入、机器人控制及AI技术迭代,产业快速发展,但大规模商业化仍面临技术、经济和社会等多方面挑战 [1] 运动控制相关受益环节及标的 - 运控系统:固高科技(301510 SZ)、雷赛智能(002979 SZ) [1] - 软件及仿真工具:NVIDIA Isaac Sim、PyBullet、Gazebo [1] - 动作捕捉设备:Xsens、Vicon、凌云光(688400 SH)、诺亦腾 [1] 头部企业运控能力与产业链分工 - 特斯拉Optimus、宇树G1、波士顿动力Atlas等产品因硬件方案差异擅长不同领域,但均展现优秀运控能力 [4] - 运动控制软件算法通常由主机厂自研,硬件本体(控制器、执行器、传感器等)开发可能自研或采购第三方供应商 [4] - 机器人训练相关硬件(动捕设备、遥操设备、仿真工具)多由第三方供应商或开源平台提供 [4]
人形机器人首次打通视觉感知与运动断层,UC伯克利华人博士让宇树G1现场演示
量子位· 2025-06-25 13:00
核心观点 - LeVERB框架首次打通视觉语义理解与物理运动之间的断层,实现人形机器人通过感知新环境和理解语言指令直接完成全身动作 [3][15] - 该框架基于模拟数据训练实现零样本部署,在宇树G1机器人测试中简单视觉导航任务零样本成功率达80%,整体任务成功率58.5%,比传统方案强7.8倍 [1][10][36] - 采用分层双系统设计,高层专注任务理解(10Hz),底层专注动作执行(50Hz),通过潜在动作词汇实现高效协同 [17][18][23][24] 技术架构 系统设计 - 高层LeVERB-VL:102.6M参数的视觉语言主干,将指令和视觉转换为潜在动词,包含VLA先验模块、运动学编码器等组件 [23] - 底层LeVERB-A:1.1M参数的全身动作专家,通过强化学习将潜在指令解码为动力学级动作,采用Transformer架构输出关节位置指令 [23][24] - 潜在动作词汇作为接口实现两层协同,训练时通过轨迹重建、分布对齐等优化模型 [15][16][18] 性能优势 - 解决传统VLA模型只能处理准静态任务的问题,支持高频控制(50Hz)与低频规划(10Hz)结合 [12][14] - 消除人工预设动作库依赖,直接根据环境语义生成动作,如"坐下"动作通过相机感知+语言指令完成 [3][4] 基准测试 LeVERB-Bench - 首个面向人形机器人全身控制的仿真到真实基准,包含10类154个视觉语言任务和460个仅语言任务 [6][7][30] - 采用IsaacSim光线追踪渲染,程序化生成17.1小时运动轨迹和2.7小时仅语言数据,覆盖500条不同轨迹 [26][27][31] - 在20个随机环境中评估,场景纹理和物体属性完全随机化以检验泛化能力 [33] 测试结果 - 视觉导航任务:简单场景成功率80%,中级场景75%,困难场景50% [36][37] - 仅语言任务(坐/站/移动)成功率高达97% [37] - 消融实验显示判别器和运动学编码器对性能有关键影响,移除后性能显著下降 [38] 应用验证 - 成功部署于宇树G1机器人,完成"走向椅子坐下"等真实场景任务 [34] - 验证仿真到真实的迁移能力,最高实现7.8倍性能提升 [10][36] 团队背景 - 半数成员为UC伯克利、卡内基梅隆大学的华人学者 [39] - 负责人薛浩儒曾领导价值数百万美元的AI Racing Tech自动驾驶赛车项目,最高时速160英里 [43][44] - 另一位负责人廖启源在波士顿动力公司实习,研究方向为机器驱动与学习控制结合 [47][48][49]
技术干货:VLA(视觉-语言-动作)模型详细解读(含主流玩家梳理)
Robot猎场备忘录· 2025-06-25 12:21
具身智能与VLA模型技术发展 - VLA模型(视觉-语言-动作模型)是整合视觉、语言和动作的多模态模型,代表具身智能领域的最新进展,推动机器人进入「动得准」阶段 [1] - 2022年Google与CMU的"SayCan"、"Instruct2Act"项目首次实现Transformer模型同步处理视觉指令与动作生成,2023年DeepMind的RT-2模型实现端到端动作生成 [1] VLA模型技术架构 - 核心组件包括视觉编码器(提取图像特征)、文本编码器(处理指令)、动作解码器(输出10-30秒动作路径),形成端到端大模型2.0架构 [2] - 相比传统VLM模型新增动作解码能力,具备更高拟人化与可解释性,支持类人推理与全局理解 [2] - 四大核心特性:架构继承(仅替换输出模块)、动作token化(语言形式表示动作)、端到端学习(感知-推理-控制一体化)、预训练VLM强泛化能力 [4] 行业应用与商业化进展 - 2025年起多家公司发布VLA模型,该技术显著缩短指令理解与执行距离,提升机器人对复杂环境的适应能力 [3] - 双系统架构成为主流技术路径,将VLA拆分为VLM(大脑)与动作执行模型(小脑)以解决长链条端到端问题 [5][6] 技术瓶颈与挑战 - 数据短缺:需同步视觉/语言/动作的高质量多模态数据,采集成本高且可扩展性差,依赖专家数据集导致复杂任务(如多步骤协作)表现受限 [7] - 规划能力缺陷:VLM与动作模型间缺乏时序依赖处理,语义跟随性差导致长流程任务易出现步骤遗漏或逻辑混乱 [7] 行业生态与研究方向 - 主流玩家覆盖五类企业,技术方案分为5大类,重点关注双架构VLA模型的优势比较与落地场景 [5] - 研究方向包括跨任务迁移能力提升、动作token化优化、端到端学习效率改进等 [4][5]
「银河通用」创始人王鹤:人形机器人行业里真正愿意做实事的人少,愿意卖硬件、卖平台的人多!
Robot猎场备忘录· 2025-06-25 12:21
行业格局与阵营划分 - 国内人形机器人创企分为两大阵营:"硬件派"以宇树科技为代表,主打运动能力,"软件派"以智元机器人、银河通用为代表,强调AI能力 [1] - 银河通用完成由宁德时代领投的11亿元融资,累计融资超24亿元,晋升独角兽阵营,形成"南智元、北银河"的软件派两强格局 [1] - 行业存在高估值创企如它石智航、星海图等争夺软件派领导地位 [1] 公司战略与商业化路径 - 银河通用采用创企发展路线,专注单一产品,聚焦药店、工厂和零售三大场景,区别于多数企业选择的教育科研、表演场景 [2] - 智元机器人采取"高举高打"模式,多产品线并行,覆盖多商业化场景 [2] - 银河通用创始人王鹤批评行业"炫技"现象,指出娱乐化场景昙花一现,强调产品需解决实际工作需求 [3][5] - 公司已在药店和零售场景跑通商业化,北京7家门店实现无人值守运营,单店管理超5,000种药品,2025年预计营收达亿元 [13] - 工厂场景处于POC阶段,已交付国际车企如奔驰、极氪的标杆性项目 [17] 技术发展与行业乱象 - 当前人形机器人运动能力展示(如跳舞、马拉松)依赖预编程和遥控操作,缺乏视觉传感器和实时反馈,与生产力时代需求脱节 [6] - 行业存在重"运动"轻"大脑"的乱象,企业通过炫技视频获取流量和订单,但实际工作能力如双手抓取、泛化能力不足 [9][11] - 杨立昆等专家指出人形机器人缺乏智能"大脑",无法应对现实世界复杂性 [7] - 波士顿动力创始人认为当前人形机器人更多是"炫耀"而非生产力工具 [11] 资本与市场动态 - 2025年行业两极分化:软件派企业如千寻智能、它石智航获大额融资,但技术壁垒尚未形成;硬件派代表宇树科技地位稳固但面临"祛魅" [15] - 朱啸虎指出商业化路径不清晰,当前需求主要来自研究机构和展示用途,非持续价值创造 [12] - 部分企业选择从ToG/ToB表演场景切入实现现金流,再逐步向ToC场景扩展 [12] 未来趋势与挑战 - 人形机器人需实现四个"可达":移动、操作、语义、价值和智慧,才能成为真正劳动力 [7] - 行业核心瓶颈在于机器人"大脑"突破,需发展手眼脑协调和端到端具身大模型技术 [6][16] - AI大模型赋能成为机器人发展必然趋势,但技术突破和场景探索仍是关键挑战 [18][16]
王兴兴为宇树融来的C轮能否打高盛的脸?
36氪· 2025-06-25 11:09
行业现状与资本动态 - 具身智能行业呈现资本割裂态势,部分机构批量退出机器人企业,头部独角兽如宇树科技却持续获得腾讯、阿里等巨头投资 [1] - 宇树科技完成C轮融资,领投方包括中国移动、吉利汽车、腾讯等,总融资额超10亿元,估值达100亿元 [1][2] - 2023年公司机器狗全球销量2.37万台,市场份额69.75%,远超波士顿动力等竞争对手 [14] 公司技术与产品布局 - 核心专利161项中61%为外观设计和实用新型,硬件设计与运动控制是技术强项,2025年新公布专利均聚焦舞蹈表演功能 [11][12] - 推出UnifoLM大模型但未披露技术细节,高盛调研指出其产品尚不具备完全自主运行能力,技术路线仍以编程算法为主 [6][9] - 产品线覆盖四足机器狗(6型号)和人形机器人(H1/G1系列),消费级Go2售价9000元,行业级G1定价9.9万元起 [14][16] 商业化表现与市场反馈 - ToB市场中标111笔,客户包括中国移动、同济大学等,单笔合同最高达825万元(采购10台H1-2) [14][15][16] - 消费级产品京东好评率96%,主要用户为科技爱好者,租赁市场日租金从峰值1万元回落至99-2000元区间 [18][20] - 行业级产品应用于电力巡检、科研教学,但消费端存在"大号遥控玩具"质疑,市场期待更多实用功能 [3][4][20] 竞争格局与发展趋势 - 竞争对手智元机器人推出通用具身基座大模型,实现自然对话与自主行动,技术路线更侧重AI赋能 [13] - 预编程机器人市场价格战加剧,部分产品降至4.99万元,行业面临从表演型向功能型转型压力 [20] - 摩根士丹利预测2028年中国机器人市场规模达1080亿美元,AI技术被视为突破通用场景应用的关键 [21]