多模态感知
搜索文档
不跳舞的人形机器人,正尝试真正“干活”
36氪· 2026-02-05 09:20
行业技术路径分化 - 人形机器人行业当前存在三种主要技术路径,分别押注长期通用性、当下可用性以及工程交付确定性 [2][3] - 第一种路径以自变量机器人为代表,押注端到端具身大模型,目标是实现通用劳动力,但该路径依赖大规模真实世界交互数据,工程调试复杂,商业兑现周期长 [1][2] - 第二种路径以速腾聚创为代表,采用VTLA-3D等多模态感知方案,融合激光雷达3D点云、视觉及触觉信息,以提高信息密度,其模型达到展示能力所需有效训练数据量仅约200小时,训练收敛更快 [2] - 第三种路径更偏工程与交付导向,不追求早期解决通用智能,而是通过规则拆解与模块化组合,在工业、巡检等半结构化场景中实现稳定落地与交付,这是当前出货确定性较高的路径 [3][4] 公司动态与进展 - 宇树科技、魔法原子、银河通用、松延动力等具身智能企业宣布即将在春晚亮相,维持高曝光度 [1] - 自变量机器人开年官宣完成10亿元融资,并发布了基于自研VLA端到端模型的机器人全程自主配送外卖的实拍视频 [1] - 速腾聚创展示了机器人在无人工干预下,连续完成近20个步骤的配送场景任务,时长100分钟,重点验证了长时间运行的稳定性与动作一致性 [2] 产业挑战与前景 - 人形机器人从演示走向大规模部署,需同时解决安全共存、持续运行、灵巧操作及成本控制等现实门槛 [4] - 在系统性突破之前,各类技术路线是分段推进,短期内人形机器人更可能以能力边界清晰、场景明确的方式进入生产与服务,而非一步成为通用劳动力 [4] - 行业对“质变”预期趋于理性,有观点认为具备真正泛化能力的人形机器人突破仍需时间,但未来五年内相关核心能力有望出现阶段性突破 [5]
光电股份:公司2025年7月发布多模态感知头
证券日报网· 2026-01-09 21:45
公司产品发布 - 公司计划于2025年7月发布一款多模态感知头 [1] - 该产品融合了可见光、红外热成像、气体检测等多类传感器 [1] - 产品具备环境稳像、目标定位与异常行为识别等能力 [1] 产品应用领域 - 产品可广泛应用于人形机器人、机器狗、无人车及无人机等平台 [1] - 产品旨在满足复杂环境下的自主巡检与智能作业需求 [1]
宇树科技“朋友圈”,多了腾讯
新华网财经· 2026-01-08 12:27
腾讯与宇树科技的战略合作 - 腾讯Robotics X实验室与宇树科技达成战略合作,共同推动宇树机器人在文旅景区、商场、企业展厅等多场景的落地应用 [2] - 腾讯将通过Tairos(钛螺丝)具身智能大模型,支持宇树机器人提供人机交互友好的导游导览和导购服务,旨在打造行业应用标杆 [2] - 合作中,腾讯Robotics X实验室以SDK和云服务形式提供规划大模型和多模态感知模型,由宇树科技及其生态企业集成到主流型号机器人上并支持落地交付 [2] - 腾讯此前参与了宇树科技的C轮融资,该轮融资由中国移动旗下基金、腾讯、锦秋、阿里、蚂蚁、吉利资本共同领投,绝大部分老股东跟投 [2] 合作落地试点情况 - 双方协同打造的机器人导览方案已在敦煌莫高窟数字展示中心游客服务大厅和上海国瓴律师事务所全球总部展厅试点运营 [3] - 2026年元旦,部署了Tairos具身大模型的宇树G1型号AI导览机器人“小莫”在敦煌莫高窟上岗,为游客提供导览指引和文化讲解互动 [3] - 在上海国瓴律师事务所展厅,同型号机器人承担讲解员角色,讲解律所历史与成就,并支持客户自由问答,咨询律所及律师信息 [3] 宇树科技与其他上市公司的合作 - 科大讯飞表示,其讯飞机器人超脑平台已与包括宇树、智元、银河通用、松延动力等在内的500余家智能机器人厂商形成广泛合作 [4] - 2025年12月31日,京东与宇树科技正式推出首家线下门店,现场产品包括机器狗Go2、人形机器人G1等,京东借此加速将机器人生态延伸至线下场景 [4] - 2025年12月8日,瑞芯微公告其旗舰产品RK3588在机器人市场占有率较高,已与宇树科技等众多知名客户合作了人形机器人、四足机器人等多种形态的机器人产品 [4]
全球灵巧手盘点以及新趋势猜想!
具身智能之心· 2025-12-23 08:03
文章核心观点 文章基于对全球灵巧手产品的盘点,分析了当前的技术现状并预测了未来发展的五大趋势,核心观点认为灵巧手技术正朝着微型化、感知融合、场景垂直化、低成本化及全身协同的方向演进 [2] 全球灵巧手产品盘点 - 文章将灵巧手分为两大类:人形原生手(7款)和独立手(14款) [2] - 盘点的产品包括但不限于:Phoenix Hand 3.2、Figure-03、Neo Gamma、Tesla Optimus Hand、ALLEX、Sharpawave、Clone Hand、Dexterous Hand、RH56E2、Agile Hand、DexHand V2.3、Kyber Labs、Wuji Hand、XHAND1、Surge Hand、ORCA Hand、Ability Hand、Aero Hand Open、Artus Lite等 [12][13][15][18][19] 未来技术发展趋势 趋势一:驱动与结构微型化 - 技术发展的核心趋势是微型化,特别是全直驱与高自由度的微型化突破 [2] - 当前电机体积制约了人形机器人手臂的空间适配,而Wuji Hand的刷屏显示出微型直驱电机集成化的重要性 [3] 趋势二:感知技术多模态融合 - 感知技术正从单一触觉向多模态智能融合升级 [4] - 多模态感知的学习效率被认为超过视觉-语言大模型,多模态数据对于优化灵巧手感知至关重要 [5] 趋势三:场景化垂直细分 - 灵巧手将从通用走向针对特定场景的深度定制 [6] - 例如,有公司计划打造专注于厨房场景的通用机器人,从洗碗功能起步,这代表了吃掉垂直细分市场的策略,应用方向包括家庭服务、工业装配和医疗康复等 [7] 趋势四:低成本与规模化普及 - 未来趋势是通过开源和量产硬件普及来实现低成本规模化 [8] - 硬件可靠性仍是巨大挑战,在相关讨论中,硬件瓶颈与算法瓶颈的讨论更为深入 [9] 趋势五:全身运动协同深化 - 人形原生手将从单独的手部控制升级为与全身运动深度协同 [10] - 这种协同类似于人通过俯身来拾取物品,能减少手部负载压力并提升复杂场景下的操作稳定性 [11]
雷军祝贺小米汽车陈龙获奖:入选35岁以下科技创新35人
搜狐财经· 2025-11-30 13:35
公司技术研发实力 - 公司汽车主任科学家陈龙博士凭借在辅助驾驶领域引入视觉-语言-行为模型的突破性工作,入选2025年度亚太区“35岁以下科技创新35人”榜单 [1] - 陈龙博士主导研发的XLA大模型在VLA基础上融合多模态感知、自然语言理解与行为决策,使辅助驾驶系统具备沟通能力与常识推理 [3] - 该系统能主动解释行为,例如在减速时说明“正在减速,因预测右侧行人可能横穿马路” [3] 公司研发投入与进展 - 截至2025年中,公司汽车已组建超1800人的研发团队,投入测试车辆逾400台 [3] - 公司汽车首期研发投入达57.9亿元 [3] - XLA模型已在公司YU7车型上加速落地,该车型搭载基于1000万 Clips数据训练的端到端辅助驾驶系统 [3] 公司战略与人才吸引 - 陈龙博士被公司“人车家全生态”战略及AI与物理世界融合的布局吸引,于2025年加入公司 [3] - 公司依托AI实验室的Xiaomi MiMo基座大模型持续优化算法 [3]
具身智能之心交流群成立来!VLA/RL/导航/数采等多个方向
具身智能之心· 2025-10-30 18:00
文章核心观点 - 技术交流群成立旨在汇聚行业力量共同承担具身智能领域未来领导者的角色 [1] 技术交流群信息 - 交流群覆盖近20个具身智能子研究方向 [1] - 目标群体涉及人形机器人、四足机器人、机械臂等本体研发人员 [1] - 研究方向包括视觉语言导航、大模型、视觉语言交互、强化学习、移动操作、多模态感知、仿真及数据采集等 [1] - 邀请相关领域从业者加入群聊进行技术和行业交流 [1]
对酒店没大用,卖一台亏一台半,云迹科技的机器人生意现实很骨感
搜狐财经· 2025-10-27 17:46
公司上市与近期财务表现 - 公司于10月16日正式在香港交易所主板挂牌上市 [2] - 2025年前五个月实现营业收入0.88亿元,净亏损1.18亿元,呈现“卖一台亏一台半”的状态 [4] - 公司毛利率为39.50% [16] - 销售成本为0.53亿元,占收入比例为60.50% [14] - 研发开支为2498万元,占营业收入28.20% [14] - 销售及营销开支为3091万元,占收入35% [14] - 行政开支为4437万元,占收入50.20% [14] - 截至2025年5月末,公司账面上的现金及现金等价物为7513.5万元 [17] 业务构成与市场分布 - 2025年前五个月,机器人及功能套件收入占比74.40%,AI数字化系统收入占比25.60% [9] - 按场景划分,酒店场景收入占比高达93.20%,商业楼宇占1.40%,技术占0.90% [9] - 按客户性质划分,直销收入占77.60%,分销商销售收入占22.40% [9] - 公司产品及服务已落地全球超过34000家酒店、医院、楼宇等场景,客户包括华住、锦江、洲际等大型酒店集团 [16] 行业竞争格局与市场挑战 - 2024年,中国酒店场景机器人服务市场前五大参与者合计市场份额仅为27.4%,市场高度分散 [16] - 公司市场份额为13.9% [16] - 行业经过近十年发展,前五名集中度仍不足30%,表明技术集成门槛不高且难以形成头部红利效应 [17] - 酒店机器人赛道竞争激烈,价格战愈演愈烈 [17] - 多数酒店(中国约有10万家连锁酒店及约20万家单体酒店/民宿)的现有软硬件条件与机器人运行要求不匹配,需要进行额外投入改造,如路网坡度、Wi-Fi覆盖、智能终端系统升级等,导致酒店投入谨慎 [16] 公司技术能力与运营压力 - 公司专利多集中于硬件结构设计,在AI决策系统、多模态感知等底层算法方面缺乏差异化竞争力,多依赖腾讯、阿里等大厂能力 [17] - 公司在软件层面尚未构建出自身独立的技术生态,硬件制造也多依靠OEM厂商 [17] - 公司上市募集资金近六亿元,但以每年亏损约两亿元的状况,加之激烈的市场竞争,募集资金预计仅能维持两三年运营 [17] - 公司为缓解对赌协议压力而仓促上市,发展前景面临挑战 [18]
相约杭州!具身智能之心首次赞助IROS并现场颁奖
具身智能之心· 2025-10-21 09:30
赛事概述 - 行业面临机器人感知系统在真实复杂环境中稳定性、鲁棒性与泛化能力的挑战[1] - RoboSense Challenge 2025旨在系统性评估机器人在真实场景下的感知与理解能力,推动多模态感知模型的稳健性研究[1] - 赛事由新加坡国立大学、南洋理工大学、香港科技大学、密歇根大学机器人研究院等多家研究机构联合主办,并作为IROS 2025官方认证竞赛项目[4][5] 赛道二:社交智能导航 - 赛道核心目标是打造具备“社交智能”的自主导航机器人,使其能安全、高效、符合社会规范地在动态室内环境中穿行[8][9] - 任务要求机器人基于RGB-D视觉与里程计,在无地图、无特权信息的前提下完成导航,且不影响人类行为[10] - 挑战难点包括动态行为建模、社交规则编码、不确定性处理以及多维度的评测体系[12] - 评测维度除成功率与路径效率外,还包括路径社会性指标PSC与碰撞统计H-Coll[12] 技术方向与活动 - 推荐的技术方向包括使用Transformer-based社交轨迹预测模块、引入行为分类器进行风险判断、以及多主体地图编码与图神经网络[15] - 赛事重要日期包括第一阶段截止日期2025年8月15日,第二阶段截止日期2025年9月15日,获奖决定将于2025年10月19日在IROS 2025公布[3] - 赛事赞助方将在IROS 2025现场为优胜者颁奖,并于10月21日上午进行现场直播[13] - 联合举办方将为参会者提供与学术、创业、投资领域专家交流的after party活动,报名截止时间为10月20日24:00[16][18][19]
具身智能之心交流群成立来!VLA/RL/导航/数采等多个方向
具身智能之心· 2025-10-20 18:00
文章核心观点 - 行业正在组建一个专注于具身智能领域的技术交流社群,旨在汇聚该领域的未来领导者 [1] 技术交流社群 - 社群覆盖近20个具身智能子技术方向 [1] - 社群面向的行业参与者涉及人形机器人、四足机器人、机械臂等本体研发 [1] - 社群关注的技术方向包括视觉语言导航、大模型、视觉语言行为、强化学习、移动操作、多模态感知、仿真及数据采集等 [1] 社群参与方式 - 行业参与者可通过添加指定微信账号并备注“加群+昵称+研究方向”的方式加入该技术交流群 [1]
丛乐/王梦迪团队推出AI协作科学家,实时指导和纠正实验操作,让小白秒变实验高手
生物世界· 2025-10-20 17:00
文章核心观点 - 由斯坦福大学和普林斯顿大学华人团队开发了名为LabOS的AI-XR Co-Scientist平台,该平台融合人工智能与扩展现实技术,旨在通过智能感知与虚实交互重新定义科学研究的边界,使AI能够“看见”并与人类科学家协作[2][3][6] - LabOS是首个将计算推理与真实实验相结合的AI协作科学家,通过多模态感知、自进化AI智能体以及XR支持的人机协作实现目标,能将真实实验室转变为人类和机器发现共同演进的智能协作空间[6][7] - 该平台展示了从癌症免疫疗法靶点发现到干细胞工程等各类应用中的潜力,标志着实验室进入人机协作的新纪元,未来有望成为每个实验室的“标准配置”[7][29] LabOS平台架构与核心功能 - LabOS核心由四类AI智能体组成:规划智能体负责将科学目标分解为可执行模块、开发智能体生成代码并执行复杂分析、批评智能体评估结果并优化流程、工具创建智能体从文献与数据中自主扩展工具库[9] - 该架构使LabOS能自主完成从假设生成、实验设计到数据分析的完整科研流程,并通过持续学习不断进化[12] - 在生物医学推理基准测试中,LabOS在Humanity's Last Exam: Biomedicine中达到32%的准确率,在LAB-Bench: DBQA中达到61%的准确率,领先现有模型达8%,且性能随使用时间提升[12] 视觉语言模型的技术突破 - 研究团队构建了LabSuperVision基准,包含200多个真实实验视频,由专家标注步骤、错误与参数[14] - 测试发现顶尖AI模型在协议对齐与错误识别任务中得分仅2-3分,研究团队以此训练了LabOS-VLM,通过监督微调与强化学习使模型能精准解析实验视频[14] - LabOS-VLM-235B版本在错误检测中准确率超90%,能实时识别操作错误并生成步骤指导,成为实验室视觉推理的可靠“眼睛”[14] XR眼镜实现的人机协作交互 - LabOS的湿实验模块通过扩展现实眼镜实现与人类科学家的无缝交互,研究人员佩戴轻量级AR眼镜实时传输第一视角视频至AI服务器[17] - AI每5-10秒分析视频片段,返回结构化指令包括步骤指导、错误提示和手势交互,支持语音与手势控制避免污染[17] - 系统通过多视角相机与高斯泼溅算法构建实验室的3D/4D数字孪生,支持场景回放与模拟训练,提升操作精度并将专家经验数字化[18] 实际应用场景验证 - 在癌症免疫治疗靶点发现中,LabOS分析了CRISPR激活筛选数据,通过多步推理将CEACAM6从低优先级基因提升为NK细胞抗肿瘤的关键靶点,湿实验证实其激活显著增强了肿瘤对NK杀伤的抵抗[21] - 在细胞融合机制研究中,AI智能体提出ITSN1为细胞融合调控因子,研究团队通过CRISPR干扰实验验证了其功能,展示了从假设生成到湿实验验证的闭环能力[23] - 在干细胞工程指导中,LabOS通过XR眼镜实时指导iPSC的基因编辑与慢病毒转导操作,记录专家流程并辅助新手规避常见错误,实现“AI导师”功能[25]