GPT
搜索文档
具身智能的「GPT时刻」?高德连发两个全面SOTA的ABot具身基座模型
机器之心· 2026-02-12 18:08
文章核心观点 - 阿里巴巴旗下高德发布的ABot系列具身基座模型,标志着具身智能行业正经历从“碎片化定制”到“底座化复用”的范式跃迁,类似于GPT对NLP领域的重塑[3][4] - ABot系列通过提供统一的动作表示和空间建模底座,解决了机器人行业长期存在的数据割裂、模型无法复用、泛化能力差等结构性瓶颈,为机器人进入开放物理世界提供了可能[4][7] - 高德凭借其在地图与位置服务领域超过20年积累的大规模真实3D场景数据、空间语义资产以及亿级用户工程落地经验,构建了难以复制的数据与工程护城河,从而率先跑通具身智能底座[11][35][36] 行业背景与瓶颈 - 当前机器人行业处境类似2019年之前的NLP领域,不同形态、不同场景的机器人使用各自独立的动作表示体系,数据互不兼容,模型无法复用,能力无法迁移[1][2] - 具身智能长期缺失“统一底座”,核心瓶颈在于:1) 数据层面:机器人操作轨迹、导航路径等数据采集成本高、格式各异、天然碎片化,且不同本体(如机械臂、机器狗)数据无法通用[7];2) 动作表示不统一:不同机器人采用不同的控制频率、坐标体系和动作表达方式,导致动作空间不兼容,模型难以迁移[7];3) 空间理解能力不足:缺乏稳定的三维语义建模能力,模型在复杂或长程任务中鲁棒性差[8];4) 导航能力高度碎片化:主流方法针对不同导航任务使用专用模型,难以形成统一能力框架[8] ABot-M0:统一具身操作底座 - ABot-M0是负责机器人“手”(操作)的基座模型,旨在让不同形态的机器人基于统一底座完成精细操作[4] - 核心解法是“动作语言统一”,通过统一坐标系、控制频率和增量式动作建模,将异构机器人的动作转换为统一表示[12][14] - 构建了时长超过9500小时、包含600多万条轨迹、涉及20多种具身形态的混合训练集,且完全基于公开数据,保证了路径的通用性[14] - 算法层面提出了AML(动作流形学习),在受物理规律约束的低维流形上学习,使生成的动作序列更高效、稳定[15] - 引入3D感知模块以增强对空间语义的理解,支持复杂环境下的精准操作决策[17] - 在Libero、Libero-Plus、RoboCasa等基准测试中达到SOTA,在Libero-Plus上的任务成功率达到80.5%,比此前最强方案提升近30%[20] ABot-N0:统一具身导航底座 - ABot-N0是负责机器人“腿”(导航)的基座模型,旨在让机器人在真实开放环境中执行长程复杂任务[4][22] - 采用“全任务一统”策略,在单一VLA架构内统一了五大核心导航任务:点位导航、目标物导航、指令跟随、POI导航、行人跟随[24][26] - 技术实现采用层次化的“大脑-动作”设计:认知大脑基于预训练LLM进行深度语义理解与任务拆解;动作专家利用流匹配技术生成精确、柔顺的轨迹[27][29] - 数据侧构建了约8000个高保真3D场景和近1700万条专家示例的导航数据引擎,依托高德多年积累的时空数据资产[30] - 在CityWalker、SocNav等七大权威基准测试中全面刷新纪录,其中SocNav成功率提升40.5%,HM3D-OVON物体导航成功率提升8.8%[32] - 通过Agentic Navigation System框架实现从指令理解到决策纠错的闭环,是全球首创的代理式导航系统,推动模型从实验室走向现实[33] 高德的竞争优势 - **数据资产护城河**:超过20年的地图与位置服务积累,拥有大规模真实世界的3D场景理解能力、空间语义资产,这些是具身导航最稀缺且难以短期复制的训练资源[11][35][36] - **工程化落地能力**:长期服务亿级用户的地图业务,要求系统稳定运行,此工程经验被迁移至具身系统,使可部署、可持续运行成为设计目标[35][37] - **数据治理与抽象能力**:能够将地图数据资产脱敏转化为训练基础,并对600万条开源操作轨迹进行统一清洗与标准化,体现了深入的任务抽象与异构数据统一能力[36] 行业影响与未来展望 - **降低开发门槛与成本**:统一数据格式和预训练权重,可能使中小团队过去需要6个月、数百万元成本的数据采集与训练,缩短到数周、数十万元的微调成本[38] - **改变开发范式**:开发将从“重写整套感知-规划-控制系统”转向“基于底座模型做场景化微调”,一个小团队可能在几周内完成过去需要数十人、数月交付的项目[38] - **开启能力API化可能**:未来机器人能力可能变成可组合的API,开发者可直接调用模型完成“整理书架”、“仓库盘点”等物理世界任务[38] - 尽管硬件成本、安全验证等问题仍存,但统一底座的出现标志着行业迈出了从定制工程走向通用底座的关键一步[38][39]
GPT在模仿人类?Nature发现:大脑才是最早的Transformer
36氪· 2025-12-11 18:48
研究核心发现 - 一项发表在《自然·通讯》上的颠覆性研究表明,大语言模型(如GPT-2、Llama-2)的内部层级处理结构与人类大脑处理语言时的神经活动在时间上存在完美对应关系,暗示大脑处理语言的核心机制是预测而非基于规则的解析 [1][3][27] 实验设计与方法 - 研究团队让9名植入高密度皮层脑电图(ECoG)电极的受试者聆听30分钟的故事,以毫秒级精度记录其大脑关键语言区域的高伽马脑电信号 [4][6] - 同时,将相同故事文本输入GPT-2 XL和Llama-2模型,提取模型从第一层到最后一层(共48层)在处理每个词时的内部语义表示 [7] - 通过降维和线性模型,用每一层的语义表示来预测大脑在对应毫秒的脑电活动峰值,以此检验模型层级与大脑处理阶段的时间对应关系 [8][10] 关键实验结果 - 大脑语言通路中,从初级听觉皮层(mSTG)到高级语义区(如TP、aSTG、IFG),GPT模型的层级结构呈现出清晰的“时间-深度”对应:浅层处理(暖色)的预测峰值出现更早,深层处理(冷色)的峰值出现更晚 [14][16] - 在高级语义区,这种对应关系尤为强烈,如前颞上回(aSTG)相关性r=0.93,额下回(IFG)r=0.85(p < .001),而初级听觉皮层(mSTG)则几乎没有层级结构(r≈0) [16][19] - 相比之下,基于音位、词素、句法、语义的传统符号语言学模型虽然能部分预测脑电活动,但无法呈现出这种清晰、连续、按时间顺序推进的层级结构 [22][23] 对语言理解机制的启示 - 研究表明,大脑理解语言并非逐步解析语法规则,而是进行一层又一层的连续语义推断和概率预测,这一过程与大语言模型(Transformer架构)的多层、非线性、依赖上下文的处理方式高度相似 [19][24][28] - 语言的定义可能从静态的规则体系转向动态的预测机制,理解语句是在每一毫秒中计算“下一刻可能发生什么” [28][30] - 这项发现意味着,大语言模型(如GPT)的成功可能并非源于对人类规则的学习,而是其底层计算路径意外地与人类大脑高效处理信息的进化路径趋同 [27][30][32]
近一个月规模增超136%,航空航天ETF(159227)成交额、规模暂居同标的第一,长城军工涨超7%
21世纪经济报道· 2025-07-31 13:04
市场表现 - A股三大指数走势震荡 光模块 GPT AI算力等相关概念走强 钢铁 有色金属 煤炭等行业领跌 [1] - 国防军工行业盘中一度翻红 相关ETF产品交投活跃 截至午间收盘 航空航天ETF(159227)成交额超6600万元 居同标的产品第一 [1] - 持仓股航天晨光涨停 长城军工涨超7% 北方导航 华秦科技 上海瀚讯 中无人机等跟涨 [1] 资金流向 - 航空航天ETF(159227)近期不断获资金流入 截至7月30日 7月合计"吸金"超4亿元 最新规模达7.6亿元暂居同标的首位 创成立以来新高 [1] - 近一个月以来(6月30日—7月30日)规模增长超136% [1] 指数与行业 - 航空航天ETF(159227)跟踪国证航天指数 申万一级军工行业占比高达98.2% 为全市场"军工纯度"最高的指数 [1] - 指数聚焦军工细分空天力量 成分股覆盖战斗机 运输机 直升机 航空发动机 导弹 卫星 雷达等全产业链龙头 [1] 机构观点 - 商业航天投资机会值得重视 我国低轨卫星要实现快速发展 卫星批量发射 商业火箭运力保障是重要的基础条件 [2] - 商业火箭的订单或成为我国商业航天发展的重要前置条件和跟踪指标 以往火箭设计及制造为国家队主体 目前呈现民营公司百花齐放 补充运力的格局 [2]
Windsurf之外,OpenAI投资真正在拼的那块图是什么?
Founder Park· 2025-07-15 21:43
OpenAI投资策略分析 - OpenAI近期收购Windsurf失败但早已布局编程领域 投资了Cursor和Magic-dev等公司 不只是补位而是提前落子[3] - OpenAI Startup Fund成立以来已投资17家AI原生项目 其中30%成长为独角兽 投资策略是与真正知道GPT能解决什么场景问题的人共建行业接口[4] - 投资组合涵盖多个行业 包括法律、教育、医疗、机器人等 每家公司都是未来城市原型结构中的关键管道或端口[5] 投资组合表现分析 - 表现优异的公司特点:切入垂直且痛点明确的场景 如Harvey服务于顶级律所 Ambience Healthcare专注医疗语音转录 Speak聚焦成人英语口语练习[8][11] - 表现不佳的公司特点:技术过于前沿但市场未准备好 如已关闭的Ghost Autonomy 或处于"有用但不必须"的模糊地带 如Mem和Descript[12][13] - 决定AI产品成功的关键因素:是否站在真实付费场景 是否将AI深入任务链条 是否让AI在体验中隐形却不可或缺[14] 产品发展路径对比 - Cursor采用工程思维 作为IDE中的AI编程助手 深入开发者工作流 提供高频低摩擦的协作[15] - Magic-dev采用研究思维 试图重构整个开发流程 让AI从需求生成完整系统代码 但落地难度大[15] - 两种路径代表不同哲学:脚踏实地解决现实问题 vs 探索尚未成型的可能世界 好的产品应在两者间平衡[16] 创业建议 - 寻找真实有刺的痛点 哪怕不"性感" 如法律文件审阅、医疗纪要等 越扎入日常越可能成功[17] - 采取渐进式演进而非一步到位的颠覆 如Cursor持续打磨模型感知力 走在"刚刚好"的能力前线[18] - 创始团队最好是场景中人 如Harvey CEO是前律师 Ambience联创是医疗科学家 能准确把握真实痛感[19] - 下一代成功的AI产品将扎根"最真的问题场" 在烟火气的日常中释放模型潜能[21][22]
大侠后宫:“国产AI和国外AI区别在哪??” 哈哈哈哈哈哈哈哈哈哈笑吐了!!
猿大侠· 2025-06-11 09:24
经过分析,该公众号内容主要为碎片化社交网络互动,未涉及可提炼的行业或公司研究信息。所有文档ID内容均属个人情绪表达、文化梗或生活片段,无实质性商业数据、行业动态或企业分析要素。建议提供财经类文本以进行专业解读。