大语言模型(LLMs)
搜索文档
敏捷大佬:AI 大模型彻底改写编程规则,这一变化颠覆所有人认知
程序员的那些事· 2025-09-05 09:08
文章核心观点 - 大语言模型的出现对软件开发的变革程度堪比从汇编语言到第一代高级编程语言的转变,是一次根本性变革 [5] - 大语言模型不仅提升了抽象层次,还迫使行业重新思考使用非确定性工具进行编程的意义 [7] - 与高级编程语言的改进不同,大语言模型引入了非确定性抽象,这是行业历史上前所未有的演变 [10][13] 编程范式演变 - 高级编程语言引入全新抽象层次,使编程从机器指令转向语句序列、条件语句和迭代语句 [8] - 语言和框架的进一步发展提升了抽象水平和生产效率,但未从根本上改变编程本质 [6] - 从Fortran到Ruby的演进属于同类改进,与机器对话的方式在本质上并无二致 [9] 非确定性编程特征 - 大语言模型引入非确定性抽象,不能简单把提示词存入git就指望每次得到相同结果 [10] - 使用提示词与机器对话和使用Ruby编程的差异,如同Fortran与汇编语言的差异一样巨大 [10] - 行业不仅在抽象层次上向上迈进,同时还横向踏入非确定性领域 [10]
招聘最猛的竟不是OpenAI,这家陷入间谍案的HR初创,正在狂招工程师
36氪· 2025-09-04 16:22
美国科技行业就业市场变化 - 自2022年11月ChatGPT推出后 美国技术岗位发生巨大变化 部分岗位需求断崖式下跌 但另一些岗位企业需求旺盛[1] - 2023年美国开启史上最大裁员潮 IT技术岗招聘市场元气未复 裁员潮已缓解 招聘活动逐渐回暖 但新增岗位数量有限 远不足以填补过去流失职位[2] - 科技大厂软件工程师平均任期显著增长 反映大厂不再积极招聘或员工更不愿换工作 招聘竞争较之前繁荣期更激烈[6] 岗位需求分化 - 移动开发者需求下降72% Java开发者下降70% 前端开发者下降69% 云计算架构师下降69% 软件工程经理下降69% 网站可靠性工程师下降68% 后端开发者下降68%[10] - Workday集成负责人需求增长203% SAP负责人增长105% Oracle HCM经理增长101% SAP顾问增长61% AI架构师增长48% Dynamics 365架构师增长30% 数据中心技术员增长23% Oracle顾问增长5%[10] - 顶尖科技公司和初创公司持续扩大软件工程岗位数量 增速缓慢但稳定增加 资深职位主导招聘[11] 企业招聘动态 - 苹果开放2177个岗位 IBM开放1924个岗位 亚马逊开放1794个岗位 为招聘量最大三家科技公司[13][14] - 甲骨文开放1396个岗位 TikTok开放1367个岗位 英伟达开放871个岗位 谷歌开放810个岗位 微软开放735个岗位[14] - Speechify作为文本转语音初创公司 虽仅融资1000万美元 但在多国发布800多个工程岗位 Anduril作为国防科技初创公司 获美国政府合同并融资25亿美元 招聘规模与Meta相当[20] - 咨询公司NTT Data和DXC Technology积极招聘 可能得益于AI咨询业务增长[20] 岗位级别分布 - 高级职位数量几乎与中级别和入门级职位相当 超过一半开放职位在资深级别以上[21][24] - 资深工程师级别以上职位空缺数量下降 可能促使资深工程师申请较低级别职位[24] - TrueUp上大多数岗位来自成功上市技术公司 这些公司提供高薪职位 公开交易公司拥有最多高薪职位空缺[25][28] AI工程师岗位需求 - AI工程师成为科技行业最热门职位 招聘需求自2023年中期以来爆炸式增长[29] - 软件工程师转行AI工程师相对容易 只需学会基于大语言模型开发应用 本质是利用软件工程思维操作LLMs[32][34][35] - 旧金山湾区AI工程师职位数量占全美近三分之一 比其后九个地区总和还多[36][37] - TikTok招聘457个AI工程师岗位 苹果招聘360个 亚马逊招聘191个 字节跳动招聘166个 英伟达招聘164个 Speechify招聘159个[40] - AI工程师技术要求包括Python LLM PyTorch AWS TensorFlow C++ Google Cloud Kubernetes Azure Java[42] AI工程职位特点 - AI工程职位分为三类:平台岗位聚焦通用工具与基础设施 产品岗位直接嵌入产品团队 通用岗位要求宽泛 专精岗位专攻语音识别或强化学习 绝大多数岗位只需集成现成模型[45] - 进入顶级AI公司最可靠路径是在科技巨头或知名AI公司积累经验 知名公司员工内部流动频繁[45][47] 科技公司人员变化 - 过去12个月科技大厂招聘重新加速 招聘速度已超过前两年水平[48] - Meta招聘强势反弹 2023年工程人员减少约12% 现为招聘最多工程师公司[51] - 谷歌工程人员较2022年增长16% 苹果增长13% 苹果是唯一未进行大规模裁员科技巨头[52] - 亚马逊工程人员较2022年仅增长8% 微软从2023年初起几乎无增长[53] - 英伟达工程人员自2022年1月以来激增58% Netflix自2023年中期以来增长40% Stripe截至2025年8月较2022年初增长32% Uber过去三年增长20%[54][55] - Shopify工程人员较2022年初减少22% Spotify减少16% Twilio减少28% 微软减少5% Oracle减少2%[58][59][60][61] 快速增长企业 - Deel登顶员工规模1000+企业增长榜首 Figma刚刚上市 工程招聘投入获回报 未来可能保持增长[66][67] 地域分布与经验要求 - 旧金山湾区招聘9072个岗位 班加罗尔招聘5714个 美国远程岗位招聘4135个 纽约招聘2514个 西雅图招聘2469个[73] - 旧金山湾区岗位占比接近20% 为全球科技招聘核心[74] - 0-5年经验软件工程师失业率接近15% 5年以上经验工程师失业率明显更低 公司更偏向招聘资深工程师[71] - 湾区软件工程师跳槽率最高 0-5年经验跳槽率28% 5-15年经验跳槽率15% 15年以上经验跳槽率仅10%[76][79] 任职年限与流动趋势 - 科技大厂平均任职年限自2022年年中以来显著上升 过去三年普遍增加约2年 反映招聘放缓及员工不愿离职[80][83] - 五大科技巨头主要彼此挖人 外加英特尔 高通 TikTok 甲骨文等 类似岗位减少使横向流动空间缩小[85] - 工程管理人员跳出大厂后转向自由职业或自雇比例更高 因中层管理岗位收缩且职位稀缺[87] 管理岗位变化 - 工程经理招聘较软件工程招聘更适度 亚马逊削减最多工程经理 其他公司工程经理数量与两年前大致相同或略多[92][94] - 除苹果外 所有大型科技公司都削减总监及以上职位 亚马逊工程总监及以上职位减少16%[95][97] 远程工作趋势 - 远程岗位比例从一年前25%下滑至20% 顶级科技公司仅五分之一岗位支持全远程[98] - AI工程岗位远程机会略有上升 但可能阶段性[100] - 远程工作薪酬普遍下滑10-15% 纽约本地中级岗位薪资18-25万美元/年 全美远程岗位仅11万美元/年 欧洲远程合同工时薪50-65美元[102]
Kitchen-R :高层任务规划与低层控制联合评估的移动操作机器人基准
具身智能之心· 2025-08-25 08:04
基准设计背景 - 当前具身AI基准存在显著割裂:高层语言指令遵循类基准假设低层执行完美,低层控制类基准仅依赖简单单步指令,导致无法全面评估任务规划与物理执行集成的系统[4] - Kitchen-R基准填补了该空白,通过仿真厨房环境统一评估任务规划与低层控制,为语言引导机器人代理提供更全面、更贴近真实场景的测试平台[6] 核心功能特点 - 基于Isaac Sim构建真实厨房的数字孪生环境,支持mobile ALOHA移动操作机器人[8][9] - 包含500+条复杂语言指令,覆盖移动操作任务[8][9] - 提供三种评估模式:独立评估规划模块、独立评估控制策略、全系统集成评估[8][9] - 已用于2024年AIJ竞赛具身AI赛道数据收集与验证,累计收集约2700条移动操作轨迹[9] 技术架构 - 任务规划子问题输入自然语言指令和场景俯视图,输出可执行任务计划(如"移动到水槽区→拾取杯子→移动到餐桌区→放置杯子")[19] - 移动操作子问题输入单步任务和双相机视觉信息,输出10维轨迹点序列(含底座速度、末端执行器位姿及夹爪开合度)[19] - 导航模块采用Theta*算法进行路径规划,低层控制器通过动态速度调整实现精准移动[31][37] - 操作模块基于RMPs运动控制和10阶段有限状态机,通过余弦混合运动插值确保动作平滑过渡[33][35] 评估指标体系 - 离线独立评估指标:任务规划采用精确匹配率(EM),移动操作采用均方误差(MSE),综合指标P融合两者性能[20][21][22] - 在线联合评估指标:实时执行任务时计算EM与成功率(SR),最终合并为指标M,高M值表示规划准确且执行可靠[23][26][29] - 单任务成功标准:导航任务要求机器人底座与目标距离≤10cm,操作任务要求物体与目标距离≤5cm,且需在120秒内完成[28] 基线方法性能 - VLM规划基线基于OmniFusion模型,通过添加上下文计划示例使EM指标从0提升至0.612,约束生成进一步优化至0.632[47][48] - 移动操作基线采用Diffusion Policy,融合双相机视觉特征和10维机器人状态,通过交叉注意力机制预测未来16步动作轨迹[49][52] - 执行效率对比:oracle政策单episode耗时约1分钟,而高推理时间政策最长需50分钟[57] 系统扩展性 - 支持场景/物体添加:通过配置USD文件路径实现新场景或物体导入[42] - 支持多模态数据收集:包括RGB-D图像和点云数据,传感器可通过模型配置灵活添加[42] - 任务创建基于"移动、拾取、放置"三个基础动作,通过配置文件定义关键点位和物体列表[42]
速递|种子轮融资500万美元,Paradigm配备超5000个AI智能体表格
Z Potentials· 2025-08-19 23:03
公司产品与定位 - 公司开发了配备5000多个AI智能体的智能电子表格Paradigm 支持用户为不同列和单元格分配专属指令 AI智能体会自动爬取网络查找并填充信息[3] - 产品支持Anthropic、OpenAI和Google Gemini的AI模型 并能进行模型切换 旨在提供最高质量推理输出和最经济方案[3] - 采用基于使用量的分级订阅模式 吸引了从咨询顾问到销售专员及财务人员等各类用户[3] - 公司不将自身视为AI驱动的电子表格 而是一种新型AI驱动的工作流 采用电子表格形式但未来形态可能变化[5] 融资与商业进展 - 公司完成由General Catalyst领投的500万美元种子轮融资 迄今融资总额达700万美元[3] - 早期客户包括咨询公司安永、AI芯片初创企业Etched以及AI编程公司Cognition[4] - 部分被推介对象持续付费使用产品 包括投资方及未参与投资的潜在投资人[4] 行业竞争环境 - 竞争对手包括成立3年的初创企业Quadratic 已获得超过600万美元风投 拥有相似目标[4] - 传统企业如谷歌和微软也正在为其电子表格应用添加AI工具[4]
开源扩散大模型首次跑赢自回归!上交大联手UCSD推出D2F,吞吐量达LLaMA3的2.5倍
机器之心· 2025-08-18 11:22
技术突破与性能表现 - 上海交通大学DENG Lab与加州大学圣地亚哥分校联合推出Discrete Diffusion Forcing(D2F)技术,首次使开源扩散大语言模型(dLLMs)的生成速度显著超过同等规模的自回归(AR)模型[2] - D2F模型在GSM8K等基准测试中实现相比LLaMA3等主流AR模型高达2.5倍的吞吐量提升[2][6] - 该技术为原始dLLMs带来最高达50倍的加速,同时保持平均性能不下降[4][22] 技术瓶颈与解决方案 - 现有dLLMs存在KV缓存不兼容性问题,导致无法直接应用AR模型的KV缓存加速技术,造成巨大计算冗余[8] - 块间解码存在串行限制,要求前一个块完全解码后才能处理下一个块,极大限制了并行潜力[8] - D2F通过块级因果注意力机制重塑双向注意力,使dLLMs兼容KV缓存,大幅减少冗余计算[12] - 采用自回归-扩散混合范式,协同设计模型架构、训练方法及推理策略[11] 核心技术创新 - 引入块级自回归生成架构,块间保持因果性,有效利用KV缓存[15] - 实现块内token间并行解码和块间并行解码,最大化并行生成潜力[15] - 设计双状态解码流水线(半激活状态和全激活状态),通过动态解码窗口最大化吞吐量[15][20][21] - 集成vLLM进一步优化推理速度[15] 训练方法优化 - 采用非对称蒸馏策略,将预训练dLLMs教师模型能力高效蒸馏到D2F学生模型[18] - 引入单调递增的结构化噪声调度,训练中序列靠前块施加较小噪声,靠后块施加更大噪声[18] - 该训练方式教会模型依据部分去噪的前文预测后文,解锁块间并行能力[18] 实测性能数据 - 在GSM8K测试中D2F-LLaDA实现52.5 TPS(7.3倍于基线)和2.8秒延迟(11.5倍加速)[23] - 在MBPP测试中D2F-LLaDA达到47.6 TPS(52.9倍于基线)和1.4秒延迟(51倍加速)[23] - 在HumanEval测试中D2F-LLaDA取得81.6 TPS(29.1倍于基线)和1.6秒延迟(24.3倍加速)[23] - D2F-Dream模型在GSM8K测试中实现91.2 TPS(9.6倍于基线)和2.8秒延迟(9.6倍加速)[24] 技术影响与未来展望 - D2F成功证明AR和Diffusion并非完全对立范式,通过混合框架设计可融合AR模型缓存优势与dLLMs并行优势[28] - 该技术为开源dLLMs社区注入新活力,展现dLLMs在推理速度上的巨大潜力[27] - 团队已开源代码和模型,旨在推动并行解码技术走向成熟和实际应用[27]
万字长文!首篇智能体自进化综述:迈向超级人工智能之路~
自动驾驶之心· 2025-08-01 07:33
自进化智能体综述核心观点 - 自进化智能体是AI领域从静态模型转向动态持续学习的关键范式转变 旨在解决LLMs在开放环境中无法实时调整参数的瓶颈问题 [2][3][5] - 研究围绕三大基础维度构建框架:进化对象(模型/记忆/工具/架构)、进化时机(测试时内/外)、进化机制(奖励/反馈/搜索等) [2][6][21] - 该领域首次系统性梳理了自进化智能体的算法、评估指标和应用场景 为人工超级智能(ASI)的实现提供路线图 [3][6][52] 进化对象(What to Evolve) - **模型进化**:通过参数微调(SFT/RL)实现推理和行为优化 如AgentGen支持策略网络动态更新 [22][24] - **记忆进化**:长期记忆模块(如Mem0)可存储历史交互数据 支持经验复用和知识迁移 [24][29] - **工具进化**:智能体自主创建/掌握新工具(如Voyager生成代码工具)以扩展能力边界 [24][42] - **架构进化**:单智能体向多智能体系统扩展(如MAS-Zero) 通过协作提升复杂任务处理能力 [24][159] 进化时机(When to Evolve) - **测试时内进化**:任务执行中实时调整(如通过ICL) 典型场景包括动态环境交互和即时错误修正 [25][26][27] - **测试时外进化**:任务间隙离线优化 含监督微调(SFT)和强化学习(RL)两种范式 需平衡计算成本与长期收益 [26][28][33] 进化机制(How to Evolve) - **奖励驱动**:利用标量奖励(如TextGrad)或自然语言反馈引导进化 需注意奖励稀疏性问题 [31][32][36] - **模仿学习**:通过高质量示范(人类/智能体生成)快速提升能力 但依赖数据多样性 [32][36] - **群体进化**:多智能体系统(如AlphaEvolve)采用选择/变异机制 促进策略创新但计算成本高 [32][36][61] 应用场景 - **通用领域**:编程(Voyager自动生成代码)、教育(个性化学习助手)等数字环境任务 [38][42] - **专业领域**:医疗(WIN-GPT电子病历分析)、科研(文献自动归纳与实验设计)等高专业性场景 [43][47] 未来挑战 - **个性化进化**:需解决冷启动问题 开发轻量级评估指标以跟踪长期用户偏好适应 [43][44] - **安全可控性**:构建"智能体宪法"框架 防止有害行为生成和隐私泄露 [49][50] - **多智能体协同**:平衡个体推理与群体决策 开发动态评估基准反映长期交互效应 [51]
大模型隐私安全和公平性有“跷跷板”效应,最佳平衡法则刚刚找到 | 人大&上海AI Lab
量子位· 2025-07-27 19:57
大模型伦理困境与SPIN解决方案 核心观点 - 大模型在强化隐私保护能力时会导致公平性断崖式下跌45%,存在"跷跷板效应" [1] - SPIN方案通过精准抑制0.00005%耦合神经元实现公平与隐私双提升,无需训练 [2][12] - 该方法在Qwen2-7B等模型上使公平性提升12.2%、隐私性提升14.0% [18][19] 伦理对齐挑战 - "对齐税"现象:优化隐私/公平性会牺牲其他基础能力 [3] - 监督微调(SFT)强化隐私时公平性大幅崩塌 [8] - 神经元语义叠加导致伦理目标冲突,形成"拉锯战" [9][10] SPIN技术原理 - 定位同时影响公平/隐私的Top-r%耦合神经元 [15] - 通过权重置零实现语义解耦,降低互信息干扰 [12][16] - 主战场在MLP模块,最佳抑制比例为10⁻⁷量级 [34][36] 性能优势 - 在Qwen2-7B上公平性0.6684→0.7497,隐私性0.7412→0.8447 [17][18] - 九项通用能力基准测试性能保持稳定 [21] - 仅需100条数据即可稳定运行,抗恶意数据干扰 [26][31] 应用价值 - 词频分析显示安全词汇使用率显著提升(如"diverse"+"respect privacy") [35][37] - 可推广至安全性/有用性等其他伦理维度冲突 [37] - 部署零成本,推理无新增计算 [20]
港科大等提出LOVON:足式机器人开放世界全域目标追踪新范式!
具身智能之心· 2025-07-27 17:37
核心观点 - LOVON框架通过整合大语言模型(LLMs)、开放词汇视觉检测和语言-运动映射模型,解决了足式机器人在动态非结构化环境中长程多目标导航的难题[4][6] - 该框架在仿真环境中成功率(SR)达1.00,训练效率比同类最优模型提升240倍(1.5小时vs 360小时)[19] - 具备"即插即用"特性,兼容Unitree Go2/B2/H1-2等主流机器人平台,在真实世界实现开放世界适配、多目标追踪等四大突破[21][24] 技术架构 三大核心模块 - LLM任务规划器:可拆解复杂指令为连续子任务(如"先跑向椅子,再靠近行人")并动态调整顺序[18] - 开放词汇视觉检测:识别范围从背包/盆栽到汽车/宠物等非预定义类别目标[18] - 语言-运动模型(L2MM):将文字指令直接转化为精确运动向量,实现"说走就走"的精准控制[18] 抗干扰设计 - 拉普拉斯方差滤波技术:通过清晰度特征分析过滤模糊帧,使有效检测帧比例提升25%[12] - 自适应执行逻辑:目标丢失时自动切换搜索模式,新指令可无缝衔接,外力干扰下快速重规划[15] 性能表现 仿真测试 - 在停车场/城市街道/雪地村庄等场景中: - 成功率(SR)1.00,超越EVT(0.94)和TrackVLA(1.00)[19] - 训练时间1.5小时,效率较TrackVLA(360小时)提升240倍[19] - 平均性能得分499.75,接近满分500[20] 真实场景 - 开放世界适配:可识别汽车至背包等不同尺寸目标[24] - 多目标追踪:连续完成"找椅子→找行人→找背包"任务无中断[24] - 动态鲁棒性:在螺旋楼梯/杂草丛等复杂地形稳定跟踪移动目标[24] - 抗干扰能力:目标移动或碰撞后能快速重新锁定[24] 应用价值 - 打破传统机器人导航的场景限制,推动家庭服务/工业巡检/野外科研等领域的实际应用[21][23] - 通过"通用框架+轻量化部署"设计理念,加速实验室技术向商业化落地转化[23]
港科大&北京人形提出LOVON:足式机器人开放世界全域目标追踪新范式!
机器之心· 2025-07-25 12:29
核心观点 - LOVON框架创新性地整合大语言模型(LLMs)、开放词汇视觉检测和语言-运动映射模型,解决足式机器人在动态非结构化环境中长程目标导航的难题[2][5] - 该框架具备即插即用特性,兼容Unitree Go2、B2、H1-2等主流足式机器人平台,突破传统导航场景限制[2][19] - 在仿真与真实环境中均实现性能突破,如仿真成功率1.00(EVT为0.94),训练效率提升240倍[18] 技术架构 三大核心模块 - **LLM任务规划器**:分解长视野任务为子任务并动态调整顺序,例如“先跑向椅子再靠近行人”[16] - **开放词汇视觉检测**:识别从背包、盆栽到汽车、宠物等开放类别目标,适配多样化场景[16] - **语言-运动模型(L2MM)**:将指令直接转化为运动向量,实现精准速度与方向控制[16] 抗干扰视觉处理 - 采用拉普拉斯方差滤波技术过滤模糊图像帧,配合滑动平均滤波提升有效检测帧比例25%[11][12] 自适应执行逻辑 - 目标丢失时自动切换至搜索模式,新指令无缝衔接,外力干扰后快速重规划路径[14][15] 性能表现 仿真环境 - GymUnreal场景中成功率1.00(EVT为0.94),训练时间仅1.5小时(TrackVLA需360小时)[18] 真实世界 - **开放世界适配**:识别大小形态各异目标并在陌生环境快速适应[23] - **多目标长程追踪**:流畅执行“找椅子→找行人→找背包”等复杂任务链[23] - **动态环境鲁棒性**:在螺旋楼梯、杂草丛等复杂地形稳定跟踪移动目标[23] - **抗干扰能力**:目标移动或碰撞后快速重新锁定[23] 应用前景 - 覆盖家庭服务、工业巡检、野外科研等领域,推动足式机器人从实验室走向实际应用[21] - 通用框架设计加速技术落地,有望成为智能服务变革的关键技术[21]
让 VLMs 更适配机器人:小型VLMs也能展现出强大的视觉规划能力
具身智能之心· 2025-07-15 21:49
研究背景 - 大语言模型(LLMs)在机器人程序规划中展现出潜力,能生成符合人类直觉的分步动作序列,但缺乏机器人执行所需的精确感官或物理世界细节[3] - 视觉语言模型(VLMs)为生成更具感知接地性的计划提供可能,但现有方法存在仿真环境过度专门化或训练成本高的局限[3] - 小型VLMs若训练得当,可在教育、机器人技术等资源受限场景中展现出强大的视觉规划能力[3] 核心方法 - 提出SelfReVision框架,通过迭代自我批判和自我改进提升小型VLMs(3B-72B参数)的视觉语言程序规划能力[4] - 框架基于自蒸馏原则,无需外部监督或教师模型,通过三阶段循环(批判-修订-验证)优化计划[6][10] - 最终计划可直接用于推理或作为自监督数据微调模型,在灵活性与性能间实现权衡[9] 实验设置 - 评估数据集包括基于图像的PLACES数据集(100个真实场景)和修改后的MFE-ETP仿真数据集(100个虚拟场景)[14] - 新增Image Groundedness指标评估计划与视觉上下文的契合度,采用GPT-4o作为自动评估器,与人类标注一致性达0.52[12] - 基线对比包括初始计划、GPT-4o、PaliGemma领域特定模型和best-of-N算法[12] 主要结果 - SelfReVision在PLACES和SIMULATION数据集平均胜率分别达68%和72%,完整性和覆盖度提升常超80%[13] - 12B以上模型整体增益达74%,优化轮次增加使胜率从75-78%升至81%,多数改进出现在前2-3轮[16] - 相较best-of-N方法,SelfReVision在多数设置中提升60%,12B以上模型胜率比GPT-4o高25%[17] 实体代理任务应用 - 在仿真拾取放置任务中,Gemma 12B和27B模型分别提升26%和17%的成功率[21] - 真实世界场景中,SelfReVision计划使HAMSTER动作模型生成的成功轨迹达70%,高于基础模型的61%[21] - 通过新增必要步骤和移除错误步骤显著提升复杂任务的执行可靠性[21] 方法优势与局限 - 完整CRV流程性能最强,消融实验中Verify步骤被证明对过滤次优修订至关重要(PLACES数据集胜率差9 3%)[18][19] - 推理成本较高,平均每个样本需8个推理步骤,可能影响实时应用[22] - 当前仅整合视觉输入,未利用机器人本体感受等多模态信息,限制场景适应性[22]