机器之心
搜索文档
仅用三五条样本击败英伟达,国内首个超少样本具身模型登场,还斩获顶会冠军
机器之心· 2025-10-16 12:51
文章核心观点 - 国内通用具身智能公司中科第五纪发布新一代具身操作基础模型FAM-1,这是国内首个少样本通用具身操作基础模型 [2][5] - 该模型基于BridgeVLA核心架构,首次实现了大规模视觉语言模型与三维机器人操作控制之间的高效知识迁移与空间建模融合 [5] - 模型在少样本学习方面实现重大突破,仅需3-5条机器人数据/任务即可完成精准具身操作学习,成功率高达97%并全面超越SOTA [5][14] - 公司在国际公开评测基准和真机部署测试中均取得领先性能,展示了其在少样本实体部署和产业化应用方面的优势 [11][15] 技术架构与创新 - FAM-1模型由知识驱动的预训练和三维少样本微调两大核心模块组成 [9] - 知识驱动的预训练通过构建面向操作场景的知识库并对预训练的VLM进行二次预训练,挖掘模型隐含的操作知识,解决操作目标和场景理解不准确的问题 [9] - 三维少样本微调将VLM和VLA的输出和输入升维到三维热力图,充分利用三维空间结构信息,显著降低模型对样本数量的依赖 [9] - 与传统的VLA架构相比,BridgeVLA实现了技术创新,在仅有少量标注数据的真实开放场景下稳定实现跨光照、跨场景、跨任务的泛化性 [8] 性能表现与实验结果 - 在国际基准RLBench上,FAM-1取得88.2%的操作成功率,超过RVT-2、Act3D、3D Diffuser Actor等SOTA模型6%以上 [11] - 在特定任务上表现突出,例如"Insert Peg"任务成功率达88.0%,"Open Drawer"和"Sort Shape"任务成功率均达100% [11][13] - 真机部署测试中,在仅使用3-5条样本每个基础任务的情况下,FAM-1达到97%成功率,远超其他对比模型 [14][15] - 在具体任务对比中,FAM-1在多项任务上取得10/10的成功率,平均成功率高达96.9%,显著领先于RVT-2的90% [16] 行业影响与未来展望 - 该技术的突破有望推动具身智能从"单点技术突破"走向"体系化落地",为机器人真正走进工业生产、日常生活提供技术支撑 [19] - 公司未来将深耕三大方向:提升通用基础模型的泛化性、可靠性和适应性;推动基础模型在工业场景下的更多应用;面向导航场景推出通用基础模型 [20] - 公司的另一项成果EC-Flow被ICCV 2025接收,展示了从无标注人类操作视频中自监督学习操控策略的新路径,进一步降低应用门槛 [19]
「性价比王者」Claude Haiku 4.5来了,速度更快,成本仅为Sonnet 4的1/3
机器之心· 2025-10-16 12:51
产品发布与核心定位 - Anthropic发布轻量级模型Claude Haiku 4.5,主打“更便宜、更快速”[1][2] - 该模型编码性能可与5个月前发布的Claude Sonnet 4相媲美,但成本仅为后者三分之一,推理速度提升一倍多[2] - 模型核心面向实时、低延迟任务场景,如聊天助手、客服、协同编程等,旨在提升响应速度[6] 性能与成本优势 - 每百万输入token成本为1美元,每百万输出token成本为5美元[2] - 在OSWorld测试中得分50.7%,超越Claude Sonnet 4的42.2%;在AIME 2025数学推理测试中借助Python工具得分96.3%,高于Sonnet 4的70.5%[4] - 早期客户Augment Code反馈其编码质量达到Sonnet 4.5的90%,且具备惊人速度和成本效益[7] 模型对比与协同应用 - Claude Sonnet 4.5仍是公司性能最佳模型,但Haiku 4.5以更高成本效益提供“近乎前沿性能”[12] - 两者协同可构建多智能体系统:Sonnet 4.5负责复杂预测与战略分析,Haiku 4.5并行处理子任务(如监控数据流、文献综述等),将数周研究压缩至数小时[12][13] - 在金融服务领域,多智能体架构可同时监控数千数据流,提升风险管理效率[13] 安全性与市场进展 - Claude Haiku 4.5通过安全评估,表现出较低偏差行为发生率,被称为“迄今为止最安全的模型”[14][15] - 公司近期动作频繁,两个月内连续发布Opus 4.1、Sonnet 4.5及Haiku 4.5三款模型[16][17][18] - 公司年化营收目标激进:今年年底有望达90亿美元,明年基准目标超200亿美元,最佳情况可达260亿美元[18] 产品部署与可访问性 - Claude Haiku 4.5已在全球上线,作为Haiku 3.5与Sonnet 4的直接替代品[15] - 用户可通过官方平台、API接口及亚马逊Bedrock、Google Cloud Vertex AI等云服务渠道访问[15]
谷歌开源全栈平台Coral NPU,能让大模型在手表上全天候运行
机器之心· 2025-10-16 12:51
产品定位与核心目标 - 谷歌推出Coral NPU,定位为全栈开源AI平台,旨在解决边缘AI面临的性能、碎片化和隐私三大核心挑战[4] - 该产品专为低功耗边缘设备和可穿戴设备设计,目标是在智能手表等设备上实现本地持续运行的AI,将智能嵌入用户个人环境[4] - 核心目标是支持下一代超低功耗、始终在线的边缘AI应用,尤其侧重于环境感知系统,在可穿戴设备、手机和物联网设备上实现全天候AI体验同时最大限度减少电池消耗[30] 技术架构与性能指标 - Coral NPU采用神经处理单元架构,为高能效、针对机器学习优化的片上系统提供构建模块,其基础设计在仅消耗几毫瓦功率的情况下可提供512 GOPS级别的性能[8][9] - 架构基于一套符合RISC-V指令集架构的IP模块,包含标量核心、向量执行单元和矩阵执行单元三个组件,其中矩阵执行单元仍在开发中将于今年晚些时候发布[9][22] - 该架构是简单可用C语言编程的目标平台,可与IREE和TFLM等现代编译器无缝集成,支持TensorFlow、JAX和PyTorch等机器学习框架[21] 生态系统构建与合作 - 谷歌宣布与Synaptics建立合作关系,Synaptics成为其第一个战略芯片合作伙伴,其新Astra SL2610系列AI原生物联网处理器采用了Torq NPU子系统,是业界首个Coral NPU架构的量产实现[35] - 谷歌正与Gemma团队紧密合作,针对小型Transformer模型优化Coral NPU,以确保该加速器架构能够支持下一代边缘生成式AI[33] - 公司旨在通过提供通用、开源、安全的平台催生充满活力的生态系统,为个人AI未来构建基础层[37] 应用场景与潜在用例 - 潜在应用场景包括情境感知如检测用户活动、距离或环境以启用免打扰模式,音频处理如语音检测、实时翻译,图像处理如人物检测、手势识别,以及通过传感器驱动的用户交互[34] - 该架构能高效加速当今设备端视觉和音频应用中领先的基于编码器的架构,并支持将大语言模型引入可穿戴设备[27][33] - 通过硬件强制安全性建立用户信任,架构设计支持CHERI等新兴技术提供细粒度内存级安全和可扩展软件分区,将敏感AI模型和个人数据隔离在硬件强制沙箱中[32]
从掩码生成到「再掩码」训练:RemeDi让扩散语言模型学会自我纠正与反思
机器之心· 2025-10-16 10:20
文章核心观点 - 西湖大学MAPLE实验室开发了具备“再掩码”能力的扩散语言模型RemeDi 9B,该模型能在文本生成过程中识别并修正错误,从而提升生成质量 [2] - RemeDi模型通过双流协同结构为每个token输出置信度分数,实现对不确定内容的动态再掩码,超越了现有扩散语言模型的性能 [2][5][8] - 模型具备可变长生成能力,通过分块自回归生成打破了现有模型仅支持定长生成的限制 [2][9] 技术原理与创新 - 采用TPS(Token Prediction Stream)和UPS(Unmasking Policy Stream)双流结构,TPS负责预测token分布,UPS输出每个位置的置信度分数 [8][10] - 置信度分数用于决定token是否需要被再掩码,得分低的位置会被重新掩码以便后续依据更丰富上下文重写 [8][10] - 通过分块自回归生成实现可变长生成,每次生成L=32的序列块,采用分块因果注意力掩码机制 [9] 训练方法 - 采用两阶段训练策略:Remask SFT(监督微调)和Remask RL(强化学习) [12][13][17] - Remask SFT阶段同时训练模型从掩码token恢复文本和识别需要再掩码的不正确token的能力 [13] - Remask RL阶段基于Plackett-Luce模型构造解掩码策略,优化整个生成轨迹以提升生成正确答案的概率 [17][18][19] 性能表现 - 在GSM8K数学推理任务上,Remask SFT将性能从80.3提升至83.6,Remask RL进一步提升 [11][22] - 在MATH-500任务上,从基线34.7提升至Remask SFT的42.7 [11] - 在代码生成任务HumanEval上,从41.5提升至50.0 [11] - 在通用基准Hellaswag和ARC-C上,RemeDi(+Remask RL)分别达到72.2和87.7,超过其他扩散模型 [24] - 在IFEval和AlpacaEval基准上,RemeDi(+Remask RL)达到85.4和24.8,显著优于LLaDA 1.5的73.5和13.9 [24]
苹果发完M5芯片,最开心的是M1钉子户
机器之心· 2025-10-16 10:20
文章核心观点 - 苹果发布新一代自研芯片M5,在AI计算、图形性能与能效上全面升级,并率先搭载于新款14英寸MacBook Pro、iPad Pro和Apple Vision Pro [1] - 尽管M5相比M4有显著提升,但性能仍无法与M4 Pro或M4 Max相媲美,建议对性能有更高要求的用户等待未来的M5 Pro/Max或M6版本 [32][36][38] AI性能提升 - M5基于第三代3纳米制程(N3P),采用全新10核GPU架构,每个GPU核心都配备专属神经加速器,使GPU的AI计算能力提升至M4的4倍以上,M1的6倍以上 [4][5] - 本地运行扩散模型或大型语言模型时,M5的响应速度与效率将显著提高,AI绘图应用Draw Things或本地LLM平台webAI能实现更快的生成速度 [6][7] - 全新16核神经引擎在AI推理方面进一步提速,并与CPU、GPU内的神经加速器协同工作,在Apple Vision Pro上可更快完成如将2D照片转换为空间场景等任务 [20][21] 图形与显示性能 - 与M4相比,M5新GPU带来最高30%的图形性能提升(是M1的2.5倍),并配备第三代光线追踪引擎,在启用光追的场景下图形性能最高提升45% [12][13] - 第二代动态缓存架构让游戏画面更流畅,3D应用渲染更逼真,在《赛博朋克2077》等游戏中带来更逼真的视觉效果和更快的渲染速度 [14][17] - 在Apple Vision Pro上,M5提升micro-OLED显示性能,像素渲染量提升约10%,刷新率可达120Hz,带来更细腻顺滑的视觉体验 [15] CPU与统一内存 - M5的CPU由4个性能核与6个能效核组成,总计10核,整体多线程性能比M4提升最高15% [19] - M5的统一内存带宽提升至153GB/s,比M4高约30%,为M1的2倍多,更高的内存带宽支持在设备本地运行更大的AI模型,并提升多线程应用性能 [28][29] - 在32GB高容量配置下,用户可同时运行Photoshop、Final Cut Pro等大型创意套件而不受干扰 [30] 产品定位与市场建议 - 苹果在宣传中将M5的性能与M1对比,M1、M1 Pro用户可能是M5的目标群体 [39][43] - 对于性能有更高要求的用户,建议等待性能提升更大的M5 Pro/Max版本或明年下半年可能采用2纳米制程的M6版本MacBook Pro [36][38]
年轻人用AI生成流浪汉吓坏父母,吸引810万人围观,这次玩笑开大了
机器之心· 2025-10-16 10:20
AI生成内容在社交媒体娱乐中的应用 - 当前互联网流行使用AI生成流浪汉图像对家人进行整蛊 记录其恐慌反应 [3][4] - TikTok博主通过AI生成陌生人入侵家庭场景的系列图片 例如使用牙刷 躺在床上的图片 引发父亲强烈反应并连续拨打7通未接电话 [4][5][6] - 该整蛊视频获得超过810万播放量和近87万点赞量 显示出极高的用户参与度 [10] AI整蛊内容的制作方法与传播 - 整蛊视频制作门槛低 使用谷歌Gemini等工具 通过上传家庭内部照片并输入添加无家可归者的指令即可快速生成逼真图像 [11] - 制作流程包括在不同房间重复生成图像 例如让AI生成人物坐在沙发或翻冰箱 并在父母不在家时发送图片制造恐慌 最后将反应上传至社交媒体 [11] - 该模式成为流量密码 引发众多博主模仿 内容形式从静态图像升级到AI视频造假 例如生成流浪汉使用毛巾擦脸 躺在床上休息的视频 尽管存在AI生成瑕疵如人物切换 但仍能对不熟悉AI的年长父母造成恐慌 [12] AI整蛊内容的社会影响与风险 - AI图像和视频生成技术逼真度高 难以辨别真假 容易引发年长父母的强烈焦虑和恐慌 可能导致过激反应或不必要冲突 [18] - 此类恶作剧可能造成严重后果 例如家长因恐慌选择报警或让保安上门 浪费警力资源 甚至可能引发特警队出动 [22][23] - 娱乐和创意表达需注意分寸 不应建立在伤害他人或引发不必要困扰的基础上 [25]
刚刚,谷歌Veo 3.1迎来重大更新,硬刚Sora 2
机器之心· 2025-10-16 08:51
模型发布与核心升级 - 谷歌发布最新AI视频生成模型Veo 3.1,是其前代Veo 3的升级版本 [2][5] - 新模型提升了提示词遵循度,并在以图生视频时提供更高的视听质量 [3] - 由其驱动的AI电影创作工具Flow同步更新,可实现更精细的视频片段编辑和颗粒化控制 [3] 增强的叙事与音频控制 - Veo 3.1增强了对对话、环境音效及其他音频效果的支持 [5] - 在Flow的多个核心功能中,如连帧成片、素材生成视频和延展,均已支持原生音频生成 [6] - 原生音频的引入让用户能更好地掌控视频的情绪、节奏与叙事基调,以往需后期制作的能力现可在生成阶段完成 [10] - 在企业场景中,该集成式创作方式有助于减少独立音频制作流程,适用于培训内容、营销视频等制作 [10] 更丰富的输入与编辑能力 - 模型可接受文本提示、图像以及视频片段作为输入 [12] - 支持参考图像(最多三张)以引导输出画面的外观与风格,支持首帧与末帧插值以生成平滑过渡场景,支持场景延展让动作持续发展 [12] - 引入新功能如插入(向场景添加物体)和移除(删除元素或角色) [13] 技术规格与输出能力 - Veo 3.1支持输出720p或1080p分辨率的视频,帧率为24帧/秒 [18] - 使用文本提示或上传图像生成视频时,时长可选4秒、6秒或8秒 [22] - 使用Extend功能,视频最长可扩展至148秒(超过两分半) [22] - 新功能带来对主体与环境的更精确控制,有助于保持品牌外观特征与风格一致性,简化零售、广告等行业的创意生产流程 [19] 多平台部署与定价 - Veo 3.1可通过谷歌旗下AI服务访问,包括Flow、Gemini API和Vertex AI [15][20] - 模型目前处于预览阶段,仅在Gemini API的付费层级中可用 [16] - 收费结构与Veo 3一致,标准模型为每秒视频0.40美元,快速模型为每秒视频0.15美元 [21] - 采用视频成功生成后才计费的方式,为企业团队提供可预测的预算模式 [16]
不再靠「猜坐标」!颜水成团队等联合发布PaDT多模态大模型:实现真正的多模态表征输出
机器之心· 2025-10-16 08:51
近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)在图文理解、视觉问答等任务上取得了令人瞩目的进展。然而,当面对需要精细空间感 知的任务 —— 比如目标检测、实例分割或指代表达理解时,现有模型却常常「力不从心」。其根本原因在于: 当前主流 MLLMs 仍依赖将视觉目标「翻译」成文 本坐标(如 [x1, y1, x2, y2] )的方式进行输出。 这种方式不仅存在格式混乱、解析困难,还容易因数字被拆分成多个独立文本 token(如 489 -> 4, 8, 9),导致语义丢失、图文脱节,从而出现重复生成甚至「幻 觉」现象。 针对这一核心瓶颈, 新加坡工程院院士、AAAI/ACM/IEEE/IAPR Fellow 颜水成带队,携同华南理工大学、新加坡科技研究局(A*STAR)I2R 研究所、腾讯 WeChat Vision 等机构的研究团队,提出了一种全新的统一范式 —— Patch-as-Decodable Token(PaDT)。 PaDT 的核心思想很简单但颠覆性: 1. 把图像划分成多个视觉小块(patch),并让模型可以直接生成这些小块对应的 视觉 ...
首个多轮LLM Router问世, Router-R1可让大模型学会「思考–路由–聚合」
机器之心· 2025-10-15 18:44
近日,来自伊利诺伊大学香槟分校(UIUC)的研究团队在 NeurIPS 2025 上发布了新作:《Router-R1:Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning》,本文提出了 首个多轮 LLM Router 框架 Router-R1 ,让 LLM 不止会 "回答",还会 "思考、调度与协调其他模型" 来达到可控的性能与 成本平衡。 Haozhen Zhang 现为南洋理工大学(NTU)博士一年级学生,本工作完成于其在 伊利诺伊大学厄巴纳-香槟分校 (UIUC)实习期间。Tao Feng 为 UIUC 博士二年 级学生,Jiaxuan You 为 UIUC 计算机系助理教授。团队长期聚焦 LLM Router 方向,已产出 GraphRouter、FusionFactory 及本文 Router-R1 等多项代表性研究 成果。 "如果一个问题只需小模型就能回答,为什么还要让更贵的大模型去思考?" 在大语言模型(LLM)种类爆炸的时代,这个看似简单的问题,正成为 AI 系统设计的关键瓶颈。面对性能、延迟与 ...
具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集
机器之心· 2025-10-15 18:44
行业背景与平台定位 - 全球首个大规模、多任务、在真实物理环境中由真实机器人执行操作任务的基准测试平台[1] - 旨在解决机器人行业缺乏统一、开放、可复现基准测试方法的挑战,为视觉-语言-动作模型(VLAs)的实际应用提供可靠评估标准[4] - 平台由Dexmal原力灵机联合Hugging Face共同发起,通过云端服务突破硬件资源限制,实现“没有机器人,一样做实验”[1][14] 平台核心架构与机器人选型 - 集成多款主流机器人(UR5、Franka Panda、Aloha、ARX-5)实现远程评测,确保系统具备7×24小时持续运行能力[7][9] - 传感方案同步输出多视角RGB与对齐深度信息,未来计划集成力控或触觉传感器[9] - 采用无容器化服务架构与标准化API接口,用户无需提交Docker镜像即可直接调用,所有观测数据提供毫秒级时间戳[19] 基准测试方法与评估体系 - 创新性提出“视觉输入匹配”方法,通过调整物体位置使实时场景与参考图像完全吻合,确保每次测试初始状态一致[16] - 采用端到端任务成功率与过程评分相结合的评估机制,测试集所有任务均提供约1000条演示数据[11] - 突破传统二值化评估局限,采用进度评分系统,对复杂任务认可分步进展,对简单任务优化完成效率[23] 首套测试集Table30与模型表现 - Table30包含30个精心设计的日常情境任务,相比之下行业内真机评测任务数量一般仅为3-5个[18] - 测试结果显示最新发布的Pi0.5模型取得61.84分和42.67%成功率,显著优于其他模型但仍无法在所有任务上取得高成功率[22] - 任务设计涵盖四个关键维度:VLA解决方案难点、机器人类型、任务场景环境和目标物体属性,系统评估算法在多维度场景下的泛化能力[23] 社区建设与未来规划 - 向全球研究者免费提供评测服务,并公开所有任务演示数据及测试中间结果,确保研究的可复现性与透明度[27] - 未来计划引入移动机器人、灵巧操作装置等更多硬件平台,拓展跨场景任务测试能力[29] - 评测维度将从视觉-动作协调延伸至多模态感知、人机协作等方向,并计划推出动态环境适应、长期规划等更具挑战性的基准测试[29]