Workflow
语言
icon
搜索文档
ICCV 2025满分论文:一个模型实现空间理解与主动探索大统一
具身智能之心· 2025-07-16 17:12
具身智能导航技术突破 - 清华大学联合团队提出统一空间理解与主动探索的新型模型MTU3D,实现动态环境中的高效空间感知与自主导航,被ICCV 2025接收并获满分评价[3] - 模型突破传统静态观察局限,通过探索-理解闭环协同机制,使智能体在移动中逐步构建环境认知,成功率最高提升20%[3][29] - 技术核心将强化学习的探索能力与3D视觉语言模型的语义理解融合,形成端到端协同训练框架[13][14] 模型架构与数据策略 - 采用双模块设计:在线空间记忆构建模块实时处理RGB-D流数据,空间推理模块通过Cross-Attention实现指令匹配[16][17][22] - 创新性使用物体查询(Object Queries)和边界查询(Frontier Queries)结构化表征空间,支持动态记忆更新[19][20][21] - 虚实结合数据策略整合ScanNet和HM3D的90万条导航轨迹,覆盖视觉指引/探索行为/目标定位等多元任务[25][26] 性能表现与行业影响 - 在GOAT-Bench多模态长期导航测试中,MTU3D成功率达52.2%,较基线提升20%以上,展现卓越任务规划能力[29][30] - SG3D-Nav多步骤任务中关键指标s-SR提升至23.8,显著优于强化学习方法[31] - 真机实验验证技术落地性,A-EQA任务中GPT-4V成功率从41.8%提升至44.2%,推动具身问答发展[32][37] 技术演进方向 - 研究团队来自北京通用人工智能研究院,负责人李庆博士专注多模态智能体与具身智能领域[2] - 行业正经历从虚拟空间向物理世界的范式迁移,MTU3D为AI实体化提供关键空间认知解决方案[3][40] - 方法论突破体现为:语义地图实时构建、探索-理解联合优化、低成本虚实数据融合三大创新点[18]
最新报告 | TrendForce 人形机器人产业研究--3Q25季度报告出刊
TrendForce集邦· 2025-07-16 17:05
人形机器人产业 - 2025年三季度人形机器人产业在技术、资本和应用场景三大维度持续拓展,商业化进程加速推进 [1] - 头部企业在运动控制、环境感知等核心技术上迭代显著,多场景试点应用落地范围扩大 [1] 主要厂商动态 - 厂商重点转向寻找人形机器人的应用价值,如高难度工作、易部署版本、适应工厂与家务环境等 [2] - 特斯拉、波士顿动力、Agility Robotics、Hexagon、Figure AI、傅利叶智能、乐聚机器人等海内外整机厂持续升级软硬件研发 [2][8][9] 关键零部件剖析 - 人形机器人BOM成本中心智层占23%、感测层占15%、运动层占55%、动力层占7% [3] - 低中高阶MCU、可脱机运行的嵌入式LLM及机器视觉存在多种技术路线 [3] - 嵌入式LLM支持边缘AI运行,牺牲精准度换取部署弹性 [3] - MCU层级分工清晰且易于扩充维护,整机用量约30颗 [14] 季度趋势展望 - 行业呈现软件先行、硬件跟上的趋势,LLM决定任务方向后设计硬件 [4] - 2025下半年厂商重点将转向LLM与模拟训练平台的发布 [4] 重点产品规格与零组件 - 机器视觉技术中多模态感测融合与视觉AI为大厂主流方案 [14] - 关键零组件包括镜头及相机模块、六维力矩传感器、系统单芯片等 [15] 行业数据与厂商分类 - 欧美厂商与中国厂商在零组件供应链中均有布局 [13] - 全球首个《人形机器人智能化分级》标准推出,加速行业商业化 [23]
一文了解 AI Agent:创业者必看,要把AI当回事
混沌学园· 2025-07-16 17:04
AI Agent 的核心重构 - 智能系统的进化本质是对"认知-行动"闭环的迭代 [1] - 大语言模型(LLM)突破在于破解人类语言符号编码逻辑,赋予机器近似人类的语义推理能力 [2] - 当前LLM如同未开化的原始大脑:拥有海量知识但缺乏主动调用能力,能解析逻辑但无法规划连续行动 [3] 记忆系统 - 将静态"知识存储"转化为动态"认知流程"是智能体的第一重突破 [4] - 短期记忆类似工作内存,负责实时处理任务上下文(如多轮对话记忆) [10][11] - 长期记忆作为"认知基因",通过向量数据库储存用户偏好和业务规则(如电商场景的购物偏好记忆) [12] - 双重记忆机制使智能体具备学习能力,能总结经验优化未来决策(如客户投诉处理方案优化) [14][15] 工具调用能力 - 工具调用是智能体突破认知边界的关键 [17] - 相比RAG技术仅提供数据访问,智能体可将外部信息转化为可处理的符号流(如金融数据API调用) [18][19][20] - 工具多样性决定认知边界广度(数学计算器/图片识别插件等场景应用) [26][27] - 在企业办公场景可整合数据分析工具和文档编辑工具完成复杂任务 [24] 规划模块 - 规划模块破解复杂任务的"认知熵增"(如餐厅预订任务的思辨链拆解) [28] - 在项目管理中可拆解子任务、监控进度并动态调整规划 [30][31][32] - 具备自我反思优化能力,通过复盘提升复杂任务处理效率 [34][35] 商业应用前景 - 正在重塑企业软件底层逻辑,重新定义人机协作边界 [36][37] - 完成从"能思考"(LLM)到"知边界"(RAG)再到"会行动"的完整闭环 [38] - 未来可能在医疗(病历分析)、教育(个性化学习)等领域带来变革 [45] - 混沌AI创新院开发了可落地的AI Agent解决方案,已在3000+实战案例中应用 [51][52]
7 周一款新产品,OpenAI 到底有多卷?离职员工长文复盘内部真实情况
Founder Park· 2025-07-16 15:07
公司文化 - OpenAI采用高度分散的集群式工作模式,由多个小团队并行推进项目,缺乏统一路线图,研究方向多为自下而上推动[2] - 研究人员被视作"迷你CEO",拥有极高自主权,项目推进依赖个人兴趣驱动的"技术激将法"[2][12] - 公司扩张速度极快,员工规模从1000人增至3000人仅用1年,导致资历满1年者即进入公司前30%元老行列[9] - 内部沟通几乎全部通过Slack完成,邮件使用量极少(约10封/任职期),形成独特的即时通讯协作文化[9] 研发机制 - 采用"行动优先"原则,允许相似项目并行开发(如曾同时存在3-4个Codex原型),后期再集中优势资源[12][27] - 研究推进呈现"渐进式探索"特征,季度计划常不存在,优秀想法可来自任何层级员工[11] - 决策链条极短,从Codex项目首行代码到产品上线仅用7周,包含容器运行时、Git操作处理等复杂功能开发[2][34] - 技术架构呈现Meta系风格,核心基础设施团队多来自Meta/Instagram,自建TAO类系统和边缘认证方案[24][25] 产品特性 - 消费级产品思维主导,Codex等开发者工具仍优先考虑个人用户体验而非团队协作[2][29] - ChatGPT的对话体系深度嵌入技术架构,新功能开发需适配现有会话消息结构[27] - 采用"限时掉落"商品分发模式,首次开放导致Shopify商店因抢购崩溃,引发内部技术破解热潮[19] - 模型训练形成连续谱工作流,从小规模实验逐步扩展至分布式系统级调试[29] 行业竞争 - 公司视AGI为终极目标,同时面临Meta、Google和Anthropic的三方技术竞赛[15][40] - 资源投入向GPU计算严重倾斜,小众功能的GPU成本即超过Segment全部基础设施支出[19] - Twitter舆情直接影响内部决策,产品团队高度关注社交媒体声量[20] - 当前形成OpenAI(消费产品)、Anthropic(企业服务)、Google(基础设施)的三足鼎立格局[40] 技术架构 - 采用Python主导的单体代码库(monorepo),包含FastAPI+Pydantic技术栈,但缺乏统一代码规范[22] - 全部服务部署于Azure,主要依赖AKS、CosmosDB和BlobStore三核心服务[24] - 工程实践呈现"重行动轻规划"特点,存在至少6套重复的队列管理/代理循环实现方案[27] - 持续集成流程面临挑战,主分支测试在GPU环境需30分钟,反映快速扩张带来的技术债[28] 人才管理 - 高管团队保持高度可见性,包括Sam Altman(sama)等多位领导者在Slack直接参与技术讨论[21] - 招聘呈现Meta人才流入趋势,基础架构团队多来自Meta/Instagram系[24][25] - 组织处于"相变期",大量引入外部高级管理者以补充管理基因[42] - 核心团队组建灵活,Codex发布时8名工程师+4名研究员+2设计师的精英组合实现高强度冲刺(日均工作16小时)[36]
小哥硬核手搓AI桌宠!接入GPT-4o,听得懂人话还能互动,方案可复现
量子位· 2025-07-16 15:02
AI宠物技术实现 - 核心硬件采用3D打印底座和圆锥形头顶,悬挂一条触手结构,触手源自SpiRobs机器人,能抓取尺寸相差超两个数量级、重量达自身体重260倍的物体[8][10] - 视觉系统通过立体摄像头追踪触手末端,使用YOLO模型进行3D三角测量校准[12][31] - 触手控制采用2D映射简化操作,通过电脑触控板拖动光标即可调整触手动作[22][23] 控制系统架构 - 低级控制层结合开环预设动作(如点头)和闭环RL策略(如手指跟踪),立体视觉约束RL观察空间[25][26] - 高级控制层采用GPT-4o实时API处理语音与视觉事件,无需微调即可下达底层指令[26][27] - 为增强生命感,在待机状态加入轻微摇摆行为,并通过Prompt工程解决LLM调用问题[28][29] 强化学习与仿真优化 - 在MuJoCo中重建软体触手模型,设置目标跟踪环境,使用PPO策略梯度结合MLP和帧堆叠训练[33] - 添加动力学随机化(质量、阻尼、摩擦)以贴近真实环境,通过控制惩罚和指数移动平均解决抖动问题[36][37] - 最终实现仿真到真实环境的迁移,验证控制策略有效性[38] 开发者背景与灵感来源 - 开发者Matthieu Le Cauchois为ML工程师,研究方向包括强化学习、NLP,曾创立AI公司Typeless并被Doctolib收购[39][41][42] - 项目灵感源自皮克斯台灯机器人,强调通过动作和时机传递情绪意图,动物形态设计增强宠物陪伴感[48][49][53] - 工程文件开源,包含3D打印CAD数据和控制脚本,支持低成本复现[20][54]
TACTILE-VLA:激活VLA模型的物理知识以实现触觉泛化(清华大学最新)
自动驾驶之心· 2025-07-16 12:05
核心观点 - 视觉-语言-动作模型(VLA)在接触密集型任务中存在触觉感知缺失的短板,难以实现精细力控制 [2] - Tactile-VLA通过深度融合视觉、语言、动作与触觉感知,激活VLA模型中隐含的物理知识,解决接触密集型任务的力控制与泛化问题 [2][6] - 研究发现视觉-语言模型(VLM)的先验知识中已包含对物理交互的语义理解,通过少量演示即可激活该知识实现零样本泛化 [6] 核心创新与研究目标 关键发现 - VLM的先验知识包含物理交互语义理解,通过触觉传感器连接可激活该知识实现零样本泛化 [6] 主要创新点 - Tactile-VLA框架:首次将触觉感知作为原生模态引入VLA模型,构建多模态深度融合架构 [6] - 混合位置-力控制器:将力目标转化为位置调整指令,解决位置与力控制的协同难题 [6][11] - Tactile-VLA-CoT变体:引入思维链推理机制,基于触觉反馈自主调整策略提升稳健性 [6][15] 主要解决的问题 - 触觉感知的指令遵循:理解"轻柔地""用力地"等力相关语言修饰词 [6] - 触觉相关常识运用:基于物体属性自主调整交互力 [6] - 触觉参与的自适应推理:通过触觉反馈诊断失败并制定纠正策略 [6] Tactile-VLA框架 整体架构 - 多模态深度融合架构包含视觉、语言、触觉和本体感觉输入的统一token表示 [9][11] - 通过非因果注意力机制实现视觉、语言和触觉token的自由交互 [9] 混合位置-力控制机制 - 控制逻辑:以位置控制为主,力误差超过阈值时引入力反馈调整 [11][12] - 双通道分离:外部净力与内部抓取力分离实现精细化调节 [13] 思维链推理机制 - 触发机制:固定间隔评估任务进展,检测失败时启动推理 [18] - 推理流程:判定任务成功与否、分析失败原因、生成纠正指令 [18] 数据收集方法 - 硬件平台:基于通用操作接口(UMI)配备双高分辨率触觉传感器 [19] - 同步机制:100Hz触觉信号与20Hz视觉数据时间对齐 [19] - 标注方式:人类操作员结合触觉反馈提供演示并记录语言指令 [19] 实验验证与结果分析 触觉感知的指令遵循实验 - 任务A(USB插拔):Tactile-VLA成功率达35%,充电器任务中达90% [22][23] - 力控制精度:USB任务中"轻柔地"施加0.51N力,"用力地"施加2.57N力 [23] 触觉相关常识的运用实验 - 域内物体抓取成功率:90%-100%,域外物体达80%-100% [30] - 力调节策略:根据物体属性自主调整力度,如对易碎物体用轻力 [30] 触觉参与的自适应推理实验 - 黑板擦拭任务:Tactile-VLA-CoT成功率达80%,基线模型为0 [28][32] - 推理过程:首次尝试失败后自主增加剪切力并成功完成任务 [32]
看遍奥斯卡后,VLM达到电影摄影理解新SOTA|上海AI Lab开源
量子位· 2025-07-16 09:49
视觉语言模型(VLMs)在电影理解领域的突破 - 当前最强大的VLMs在理解电影方面存在局限性,平均准确率低于60%,尤其在细粒度视觉线索和复杂空间推理方面表现不佳 [1][3][6] - 上海人工智能实验室联合多所高校推出ShotBench基准、ShotVL模型及ShotQA数据集,填补了电影摄影语言理解的评测与训练空白 [1][3] - ShotBench包含3,572个高质量问答对,覆盖8个关键电影摄影维度,数据来自200多部奥斯卡提名电影 [1][8][14] ShotBench基准的特点 - 基准包含超过3.5k个专家标注的图像和视频片段问答对 [1] - 涵盖八个核心电影摄影维度:景别、取景构图、摄像机角度、镜头焦距、照明类型、照明条件、构图和摄像机运动 [1][11][16] - 采用严格的数据标注流程,结合专业标注员和专家监督确保数据质量 [8][9][10] ShotQA数据集与ShotVL模型 - ShotQA包含约7万个电影问答对,是首个大规模综合摄影语言理解数据集 [1][15] - ShotVL采用两阶段训练流程:大规模监督微调(SFT)和群体相对策略优化(GRPO) [15][19][20] - ShotVL-3B模型在ShotBench上平均准确率达65.1%,超越GPT-4o(59.3%)和Qwen2.5-VL-72B-Instruct(59.1%) [3][24][25] 模型性能比较 - 在24个主流VLM评测中,表现最好的现有模型平均准确率不足60% [3][6] - ShotVL-3B相比基础模型Qwen2.5-VL-3B-Instruct平均提升19.0% [3][24] - 开源模型与专有模型之间的总体性能差异微乎其微 [21] 技术实现细节 - 数据来源于奥斯卡最佳摄影奖提名电影,包含3,049张图片和464个视频片段 [8][14] - 标注流程包括数据策展、标注员培训、QA标注和严格验证 [9][10][14] - 两阶段训练中,GRPO策略显著提升了模型性能,尤其在摄像机运动维度 [26][27][28] 行业影响与开源贡献 - 该研究为AI驱动的电影理解和生成领域提供了专业模型基座 [29] - 团队开源了模型、数据和代码,促进该领域快速发展 [4][30] - 3B参数模型超越GPT-4o,为行业提供了高性能低成本的解决方案 [24][29]
持续释放民企活力,稳固经济向好态势
第一财经· 2025-07-16 09:10
中国经济表现 - 上半年GDP同比增长5.3%,CPI同比下降0.1%,6月CPI同比上涨0.1%,核心CPI同比上涨0.4%,超出市场预期 [1] - 高科技和装备制造业占比提升,创新药、泡泡玛特、大语言模型和人工智能等领域表现突出,展现民营经济生命力 [1] 政策与民营经济 - 北京和东莞等地简化审批流程,如文艺演出和外摆摊位无需消防审批,酒吧驻唱实施"应批尽批",释放经济自由空间 [2] - 改革开放经验表明,清除人财物流动桎梏(如迁徙自由、公平竞争)是经济繁荣的关键 [2] 经济刺激与需求 - 社融和M2高企推动GDP增长,但居民有效消费不足(社零增长5.0%,人均可支配收入名义增长5.3%),可能导致低效资产风险 [3] - 超长期特别国债需动态调整,优先用于缓解有效需求不足,如社保福利领域,以提升居民消费信心 [3][4] 民营经济活力 - 当前经济稳中向好,需通过简政放权、轻税薄赋进一步释放民营经济活力,避免过度干预 [4] - 泡泡玛特在韩国市场受热捧,但因门店秩序问题中止线下销售,反映其国际影响力 [6]
让 VLMs 更适配机器人:小型VLMs也能展现出强大的视觉规划能力
具身智能之心· 2025-07-15 21:49
研究背景 - 大语言模型(LLMs)在机器人程序规划中展现出潜力,能生成符合人类直觉的分步动作序列,但缺乏机器人执行所需的精确感官或物理世界细节[3] - 视觉语言模型(VLMs)为生成更具感知接地性的计划提供可能,但现有方法存在仿真环境过度专门化或训练成本高的局限[3] - 小型VLMs若训练得当,可在教育、机器人技术等资源受限场景中展现出强大的视觉规划能力[3] 核心方法 - 提出SelfReVision框架,通过迭代自我批判和自我改进提升小型VLMs(3B-72B参数)的视觉语言程序规划能力[4] - 框架基于自蒸馏原则,无需外部监督或教师模型,通过三阶段循环(批判-修订-验证)优化计划[6][10] - 最终计划可直接用于推理或作为自监督数据微调模型,在灵活性与性能间实现权衡[9] 实验设置 - 评估数据集包括基于图像的PLACES数据集(100个真实场景)和修改后的MFE-ETP仿真数据集(100个虚拟场景)[14] - 新增Image Groundedness指标评估计划与视觉上下文的契合度,采用GPT-4o作为自动评估器,与人类标注一致性达0.52[12] - 基线对比包括初始计划、GPT-4o、PaliGemma领域特定模型和best-of-N算法[12] 主要结果 - SelfReVision在PLACES和SIMULATION数据集平均胜率分别达68%和72%,完整性和覆盖度提升常超80%[13] - 12B以上模型整体增益达74%,优化轮次增加使胜率从75-78%升至81%,多数改进出现在前2-3轮[16] - 相较best-of-N方法,SelfReVision在多数设置中提升60%,12B以上模型胜率比GPT-4o高25%[17] 实体代理任务应用 - 在仿真拾取放置任务中,Gemma 12B和27B模型分别提升26%和17%的成功率[21] - 真实世界场景中,SelfReVision计划使HAMSTER动作模型生成的成功轨迹达70%,高于基础模型的61%[21] - 通过新增必要步骤和移除错误步骤显著提升复杂任务的执行可靠性[21] 方法优势与局限 - 完整CRV流程性能最强,消融实验中Verify步骤被证明对过滤次优修订至关重要(PLACES数据集胜率差9 3%)[18][19] - 推理成本较高,平均每个样本需8个推理步骤,可能影响实时应用[22] - 当前仅整合视觉输入,未利用机器人本体感受等多模态信息,限制场景适应性[22]
摩根大通(JPM.N)首席执行官戴蒙:我们没有理由拥有大型语言模型。
快讯· 2025-07-15 20:54
摩根大通(JPM.N)首席执行官戴蒙:我们没有理由拥有大型语言模型。 ...