Workflow
量子位
icon
搜索文档
突破视觉仿真算力瓶颈!新一代具身智能仿真框架开源:高吞吐并行高保真渲染助力规模化训练
量子位· 2026-05-01 14:00
行业趋势与核心挑战 - 具身人工智能领域正经历向以视觉为中心的感知范式的全面深刻转型 [1] - 视觉是信息密度最高、与自然人机交互最契合的模态,被视为解锁通用机器人智能与实现仿真到真实无缝迁移的核心 [2] - 当前研究在“看得真”与“训得快”之间存在艰难取舍,面临高保真渲染带来的巨大计算内存开销、低效的人工建模以及平台兼容性缺陷等核心难题,严重束缚了领域发展 [3] GS-Playground 仿真框架概述 - GS-Playground 是一个由清华大学智能产业研究院(AIR)DISCOVER Lab联合多家公司提出的通用多模态仿真框架 [3] - 该框架是专为视觉中心机器人学习打造的新一代仿真基础设施,首次实现了高吞吐量并行物理仿真与高保真视觉渲染的深度融合 [4] - 该成果已被机器人领域顶级学术会议 RSS 2026 录用 [5] 技术特性一:通用全场景兼容性 - 平台定位为通用型全场景具身智能仿真平台,搭载自研跨平台并行物理引擎,原生支持 CPU/GPU 双后端与 Windows/Linux/macOS 全系统运行 [7] - 可无缝适配全品类机器人形态,包括四足机器人、全尺寸人形机器人、多自由度工业机械臂,实现开箱即用的原生适配 [7] - 平台 API 全面兼容行业通用的 MuJoCo MJCF 格式,可实现现有仿真项目的零摩擦快速迁移 [8] - 平台全面覆盖机器人运动控制、自主导航、高接触精度操作三大核心任务场景 [8] 技术特性二:自研高性能并行物理引擎 - 自研物理引擎采用广义坐标下的速度-冲量动力学公式,将接触与摩擦统一建模为混合互补问题(MCP),并通过投影高斯-赛德尔(PGS)求解器实现稳定求解 [9] - 引擎设计强调静摩擦保持、高刚度约束与大时间步稳定性,尤其适合足式运动、机械臂抓取和密集多体接触等高动态任务 [9] - 引入约束岛并行化与接触流形热启动机制,将稳定堆叠场景中的 PGS 迭代次数从 50 次以上降低到 10 次以内,提升复杂接触场景的收敛效率 [10] - 在 Franka Panda 动态抓取测试中,CPU 后端在 0.002s 与 0.01s 时间步下均实现 90/90 的完整保持成功率,显著优于主流方案 [11] - 在 27 自由度人形机器人基准测试中,单环境扩展至 50 个机器人时,CPU 后端仍能保持 1015 FPS 的稳定吞吐,相比 MuJoCo 实现 32 倍加速,相比 MjWarp 实现约 600 倍提升 [11] 技术特性三:自研内存高效批量 3DGS 渲染技术 - 针对刚体仿真环境设计了专属高效剪枝策略,可将高斯点数量减少 90% 以上,同时峰值信噪比(PSNR)下降不足 0.05,视觉差异几乎无法被策略感知 [13][14] - 研发了面向批处理深度优化的批量 3DGS 渲染器,在单张 NVIDIA RTX 4090 GPU 上,640×480 分辨率下可实现最高 10000 FPS 的吞吐量,最多可同时渲染 2048 个场景 [16] - 提出了刚性连杆高斯运动学(RLGK)机制,将 3D 高斯簇与物理引擎中的对应刚体精准绑定,实现零额外开销的视觉与物理位姿实时同步,解决了动态场景中的渲染时间一致性与视觉伪影问题 [18] 技术特性四:自动化 Real2Sim 工作流 - 设计了一套全自动化的“图像到物理”Real2Sim 工作流,仅需输入单张 RGB 图像,即可在数分钟内完成仿真就绪(Sim-Ready)数字资产的全流程创建 [19] - 自动化管线通过目标分割、背景补绘、三维高斯溅射/网格重建,从 RGB 输入构建可直接用于仿真的资源 [23] - 基于该工作流构建了 Bridge-GS 数据集,补充了场景与物体级的 3DGS 表征、网格模型、6D 位姿数据与校准后的相机参数 [24] - 在 InteriorGS 数据集上完成了泛化性验证,证明了管线对不同室内场景的强适配能力 [25] 平台性能与验证结果 - 平台构建了从真实场景重建、大规模并行训练到真机部署的全链路端到端闭环 [26] - 可稳定支持数千个并行环境同时运行,为四足机器人、人形机器人、工业机械臂等提供大规模视觉强化学习训练支撑 [26] - 仅在仿真环境中训练的视觉驱动策略,无需任何额外微调即可直接部署到真实机器人:四足和人形机器人运动策略可 zero-shot 部署;视觉导航任务实现零样本直接部署;机械臂抓取任务在零微调下真实场景成功率达到 90% [27] - 实验结果充分证明了平台实现了真正无壁垒的仿真到真实迁移 [28] 行业影响与未来计划 - GS-Playground 是行业内首个实现高吞吐量并行物理仿真与高保真批量 3DGS 渲染深度融合的全栈仿真框架,突破了制约视觉驱动机器人学习的算力、显存与资产生成三大核心瓶颈 [31] - 其自动化 Real2Sim 工作流大幅降低了高保真仿真环境的构建成本 [32] - 公司计划正式开源 GS-Playground 的全栈框架,以推动大规模端到端视觉驱动机器人策略学习的进一步发展和产业落地 [33]
太抓马了!马斯克OpenAI开庭,硅谷巨富互揭老底像极了村口吵架
量子位· 2026-05-01 14:00
马斯克对OpenAI的核心指控 - 马斯克指控OpenAI及其管理层(山姆·奥特曼与格雷格·布罗克曼)背叛了其最初作为非营利组织的慈善使命,将公司转变为一个估值高达8500亿美元的营利性实体,构成了“偷窃慈善机构”的行为 [9][11][15] - 马斯克声称自己是被误导的“傻瓜”,仅兑现了最初承诺的10亿美元捐款中的3800万美元(不足4%),这笔资金被用于创建营利性公司 [5][14] - 马斯克向法院提出索赔1500亿美元,并要求阻止OpenAI在2025年下半年进行IPO,同时要求罢免奥特曼在非营利董事会的职务并解除奥特曼与布罗克曼在公司的职务 [16][17] OpenAI营利化转型与“尾巴摇狗”的指控 - 马斯克用“尾巴摇狗”的比喻形容OpenAI现状:原本服务于非营利使命的营利子公司,现在反客为主,吸走了几乎所有人才、资金和资源(如ChatGPT品牌价值),而非营利实体仅剩法律空壳 [18][19][20][21][22] - 关键转折点被认为是2022年微软宣布向OpenAI投资100亿美元,使其估值飙升至200亿美元,马斯克当时向奥特曼发短信指责这是“诱饵调包” [24][25][26] - 奥特曼在短信中回复“我同意,感觉确实不好”,该证据被马斯克方用以证明奥特曼承认背离初心 [27] 马斯克在控制权上的主张与行为 - 马斯克在2017年曾秘密指示以“OpenAI”名义注册一家营利性公司,并要求获得51%的股权和4个董事席位(其他所有创始人共3席),但该提议被拒绝 [31] - 在被拒绝后,马斯克切断了资助,并将OpenAI的核心研究员安德烈·卡帕西挖至特斯拉 [35] - 2018年,马斯克提议将OpenAI并入特斯拉作为其“注定失败”的解决方案,再次被拒后退出董事会,其在法庭上承认离开主因是未获得想要的控股权,而非公开宣称的“避免利益冲突” [37][38][58][60][61] 马斯克在庭审中的失态与矛盾 - 在为期三天的证人席问询中,马斯克被OpenAI律师威廉·萨维特(曾为马斯克律师)激怒,出现六次主要失态 [47][53] - 失态包括:承认离开OpenAI的真实原因是对控制权的要求被拒;其AI安全“救世主”人设与旗下xAI公司Grok模型生成有害内容及安全实践不佳的记录相矛盾;就2018年一份术语表的阅读情况前后证词矛盾并当庭大喊;将骂OpenAI安全团队是“蠢货”称为自己的“管理风格”;自称AI安全捍卫者却不知行业基本安全文件“安全卡”为何物,尽管xAI正在使用;上午刚说完“不对人大喊”,下午就在庭上大喊 [58][62][63][68][74][75][79][83][84] - 马斯克当庭承认其公司xAI“部分”使用了蒸馏技术从OpenAI模型中提取知识来训练其AI模型Grok [3][86][88] OpenAI方的反驳与布罗克曼的私人日记 - OpenAI律师出示证据,表明马斯克早在2015年(OpenAI成立前)就提议增加营利实体,并在2016年邮件中称将OpenAI设为非营利“可能是个错误”,试图将故事描绘成马斯克自身也追求营利与控制权 [30][31] - 关键反证是布罗克曼2017年的私人日记,其中记载:他一方面当面向马斯克保证OpenAI会坚守非营利,另一方面在日记中写道,若三个月后转为受益公司(B Corp)“那就是一个谎言” [6][7] - 日记还显示,布罗克曼当时在思考“在财务上,什么能让我身家达到10亿?”,并认为接受马斯克的控制权条件会“摧毁经济回报”,其策略是“这是我们摆脱马斯克的唯一机会” [7][94][95] 双方关系与关键证据 - 奥特曼在2023年2月与马斯克公开争执期间,曾私下发信息称马斯克是“我的英雄”,并承认没有马斯克OpenAI不可能成功,但对其公开攻击表示受伤,显示了关系的复杂性 [98][100] - 2015年10月,奥特曼向马斯克募捐的邮件(请求5年内捐3000万美元)及马斯克强调“治理结构”关键的回复成为关键证据。马斯克方主张这建立了法律上的“慈善信托关系”,OpenAI的营利化违反了法律义务 [101][103][105][107][108][109] - 2024年12月至2025年2月间的短信显示,马斯克曾与马克·扎克伯格商讨联合竞标OpenAI知识产权,最终马斯克独自出价974亿美元进行收购,其动机(拯救慈善 vs. 抢夺资产)受到质疑 [41][42][44][45][46] 案件后续与待出场的关键人物 - 马斯克方指控微软投资130亿美元是“协助OpenAI背叛慈善信托”的关键,使营利化转型成为可能,微软CEO萨提亚·纳德拉将作为证人出庭解释 [113][114] - OpenAI联合创始人兼总裁格雷格·布罗克曼将出庭解释其2017年的私人日记 [96][113] - 前OpenAI董事、马斯克孩子的母亲希冯·齐利斯将出庭,她被OpenAI方指控为内部信息泄露者 [115] - 山姆·奥特曼将于下周作为证人出庭,与马斯克方进行正面对决,是本案最受期待的环节 [111]
量子位编辑作者招聘
量子位· 2026-05-01 12:18
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年积累[1] - 公司在AI及前沿科技行业是TOP1新媒体[10] - 截至2025年,公司微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[10] 招聘岗位与方向 - 招聘全职岗位,工作地点位于北京中关村[3] - 岗位分为AI产业、AI财经商业和AI产品三大方向[4] - 岗位面向社招(覆盖编辑、主笔、主编层级)和校招(应届毕业生,接受实习可转正)[4] 岗位职责与要求:AI产业方向 - 岗位职责包括跟进AI基建层(芯片、AI Infra、云计算)新进展与核心玩家动态[8] - 岗位职责包括对前沿论文、开源社区、技术大会(如Hot Chips、NeurIPS)进行大众化解读[8] - 任职要求对芯片、GPU、服务器、模型训练架构、云计算等有基本理解,并熟悉AI行业供应链与生态[8] 岗位职责与要求:AI财经商业方向 - 岗位职责聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[8] - 岗位职责包括产出创投融资、招股书财报解析、公司战略分析等稿件[8] - 任职要求对数据敏感,对财报、股权结构、战略规划感兴趣,并具备强逻辑和商业叙事能力[8] 岗位职责与要求:AI产品方向 - 岗位职责关注AI在终端(软件应用、硬件)的落地,撰写产品深度评测并跟踪多终端新品发布[11] - 岗位职责包括对话访谈AI应用创业者、产品专家及终端技术专家[11] - 任职要求对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士,并熟悉各大终端厂商业态[11] 员工职业发展 - 员工可第一时间接触AI领域最新技术和产品,构建完整AI认知体系[4] - 员工可将各种AI新工具应用于工作,提升效率和创造力[4] - 员工可通过撰写独家原创内容建立个人知名度,成为AI领域意见领袖[8] 行业资源与团队文化 - 员工可拓展行业人脉,与AI领域大咖零距离接触,参与重要科技活动[8] - 应届新人会由主编级编辑提供一对一指导,帮助成长[8] - 团队氛围扁平、简单、开放,实行多劳多得、能者上位的原则[8] 薪酬福利 - 公司提供行业TOP薪资待遇[8] - 福利包括五险一金、餐补、项目绩效、商务绩效、加班补助等[8]
他用AI办了个音乐节,主题:别读博
量子位· 2026-05-01 12:18
AI生成音乐内容创作与用户社区 - 一位网名为“馄饨皮茄总”的科研工作者,利用AI音乐生成模型创作了一系列以博士生科研生活为主题的音乐作品,形成了“不读博音乐节”系列,该系列在B站上获得了超5000万次播放和376.4万次点赞[5] - 创作者通过逐条读取粉丝留言和私信,统计整理了上千条点歌需求数据,并据此进行歌曲的呼声权重排序,以指导创作选题[42] - 创作者在制作单曲时,会动用包括Suno、MiniMax Music等商业闭源模型和HeartMuLa、ACE-Step等开源模型在内的多个AI模型进行“赛马”式反复生成,抽卡次数多时同一首歌会生成100多个版本进行筛选和拼接[64][66] 内容创作方法论与质量控制 - 创作过程分为选歌、填词、AI生成音乐三个主要步骤,其中AI生成音乐环节占总工程量至少一半,有时甚至达到70%[62] - 在填词阶段,创作者会严格记录原曲歌词的字数、断句、重音位置及停顿,并确保改编歌词的句尾韵脚发音与原词对齐,以使歌手口型能够自然对上[53][54] - 创作者对最终作品的核心要求是“好听耐听”,并追求在情感表达效果上让听众暂时忘记这是一首抽象的二创,其作品具有很高的“我”的含量和主体性[72][74][75] 目标用户群体与市场需求 - 内容的核心受众是研究生和博士生群体,他们通过音乐寻找共鸣和归属感,以排解科研中的迷茫、困惑、疲惫等情绪[35][85][86] - 根据国家统计局数据,全国在学研究生人数(含硕士和博士)持续增长,从2023年的388.3万增至2024年的409.5万,预计2025年将达到430万,这意味着目标用户群体是一个持续扩张的市场[105] - 创作者收到了超过3000封粉丝来信,许多用户表示会在做实验时循环播放这些歌曲,或在读博压力大时反复收听,甚至有人计划将其写入论文致谢,显示了内容与用户之间建立了强烈的情感连接[79][81] AI技术在创意产业中的应用与局限 - AI音乐生成模型目前存在局限性,例如难以处理密集复杂的和声叠唱,在多声道音频中可能失去层次感;同时,模型充满“幻觉”,无法做到100%稳定,可能出现突然的升调降调、咬字不清或改变旋律等问题[63][77] - 创作者在利用AI生成音乐后,会进行大量的人工后期调整,包括修改配乐、调整咬字发音(如将发音不准的中文字改为英文同音词或笔画更少的中文字)以及修改调性,有时甚至会付费找真人歌手录制Demo以提升质感[68][70] - 尽管AI在旋律生成方面提供了强大工具,但填词工作被认为需要人脑主动思考和温度,AI基本帮不上忙,创作者也拒绝使用AI生成歌手演唱画面或对口型,坚持使用现场Live视频素材以保证情绪沉浸感和画质[49][61]
北大开源统一世界模型框架:多类合成推理任务一套搞定
量子位· 2026-05-01 12:18
文章核心观点 - 北京大学DCAI课题组联合快手可灵团队、上海算法创新研究院、中关村学院等机构,推出了一个名为OpenWorldLib的统一、规范、可扩展的先进世界模型推理框架,旨在解决当前世界模型研究中接口不统一、推理流程割裂、系统耦合严重等问题,从而推动该领域的系统性发展 [1][4][5] 框架定义与核心价值 - 论文将世界模型界定为一种以感知为核心,具备交互与长期记忆能力,用于理解和预测复杂世界的模型或框架 [4] - OpenWorldLib的核心价值体现在四个方面:通过统一接口屏蔽模型差异;通过统一推理流程降低工程复杂度;通过统一能力定义促进跨任务对齐;通过开源生态推动领域协同发展 [5] 整体架构与核心模块 - 框架的核心调度模块是Pipeline,负责串联各功能组件,支持单轮推理和多轮交互,并能通过自动调用Memory模块来保持状态一致性与长期依赖能力 [7] - Operator机制是原始输入与核心执行模块之间的桥梁,负责将文本、图像、动作、音频等复杂多模态输入进行统一的标准化处理,包括数据校验和预处理 [10][11][12] - 模型抽象层对不同类型的世界模型进行统一抽象,使用户无需关心底层实现差异 [13] - 推理引擎层内置对多种推理后端的支持 [13] - 交互管理层针对世界模型的多轮交互需求,设计了统一的状态追踪、条件注入和增量推理管理机制 [13] - Memory Module负责长期上下文管理,包括历史信息存储、记忆检索与状态更新,以支持多轮交互与长期依赖任务 [14] - Reasoning Module负责多模态理解与决策,将感知信息转化为结构化语义表示 [18] - Synthesis Module负责多模态内容生成,如图像、视频、音频及动作序列 [18] - Representation Module负责构建显式世界表示,如3D场景、点云与深度信息,为物理一致性建模提供支持 [18] 实验效果与能力验证 - 在交互式视频生成任务中,新一代模型相较于早期方法(如Matrix-Game系列)在长序列生成中显著提升了视觉质量与物理一致性,减少了颜色漂移与结构失真等问题 [17] - 在多模态推理任务中,Reasoning模块能够融合文本、图像等信息,完成空间关系分析与复杂语义推理,使模型具备“理解与决策能力” [19][20] - 在3D场景生成与重建任务中,框架能够实现从视觉输入到结构化三维表示的统一建模,支持多视角重建与仿真验证 [21][22] - 在具身智能任务中,框架能够将自然语言指令与视觉观测转化为动作序列,实现从“理解”到“行动”的闭环,验证了其在跨模态任务协同与真实世界交互中的潜力 [24] - 总体而言,OpenWorldLib不仅在单任务上具备良好性能,更重要的是通过统一框架实现了跨任务能力整合与系统级协同 [25] 使用方式与开源生态 - 支持单轮推理调用,用户可通过Pipeline接口输入多模态数据完成一次完整推理 [26] - 支持多轮交互执行,通过stream()接口并自动调用Memory模块来维护历史状态,以处理交互式视频编辑或具身控制等复杂任务 [27] - 支持模型扩展与接入,开发者只需实现统一的模块模板接口即可接入新模型,无需修改整体架构 [27] - 项目已支持视频生成、3D建模、VLA控制与多模态推理等多类任务,提供完整文档与示例,并鼓励社区通过Issue与Pull Request参与共建 [27] - 通过统一接口与模块化设计,OpenWorldLib使世界模型的使用从“复杂工程系统”转变为“标准化工具调用”,显著降低了研究与开发门槛 [27] - 北京大学DCAI团队还开源了DataFlow数据准备系统、DataFlex模型动态训练系统、One-Eval自动评估智能体等其他高质量项目 [27]
GPT Image 2研究科学家陈博远:我在OpenAI修中文
量子位· 2026-05-01 10:15
GPT Image 2模型发布与幕后技术细节 - 公司发布了GPT Image 2生图模型,该模型的发布在AI领域引起了广泛关注 [1] - 模型的主要训练者陈博远在发布会上与山姆·奥特曼共同主持,并重点修复了模型的中文渲染能力 [2][4] - 模型在发布前以“布基胶带”为代号在LMArena平台上进行了双盲测试,测试结果“断崖领先”代号为“小香蕉”的第二名模型 [5][9] 模型能力展示与创意测试 - 公司官网的整个博客内容均由该图片生成模型生成,完全没有使用文本 [12] - 为展示模型的文字渲染与细节能力,设计者制作了包含多国语言、特别小的中文以及“米粒刻字”的图片,其中“米粒刻字”测试使用了4K分辨率图片 [15][21] - 为测试模型的视觉推理能力,设计者使用了“从1开始的奇数之和是一个平方”的视觉证明题,这需要模型理解图形而不仅仅是代数 [30] - 模型展示了生成“画中画中画”的复杂嵌套图像能力,整张图一次性生成,旨在模拟对一本真实漫画书拍摄的照片效果 [16][17] - 模型能够结合真实物体与艺术布局进行创作,并展示了其搜索能力,例如根据官网商店内容生成海报,以及在思考模式下自动生成内含彩蛋的二维码 [26][32] 设计理念与彩蛋 - 设计过程中融入了大量幽默元素和文化梗,例如“接住梗”、“香蕉梗”以及引用世界闻名的“用布基胶带把香蕉贴在墙上”的艺术品 [7][9][15] - 设计了一系列“彩蛋级”测试,包括漫画套娃、视觉证明题等,以秀出模型的独特能力 [2] - 部分创意设计(如与香蕉相关的搞笑漫画)因考虑官网展示的适宜性而未被采用,最终选择了其他方式将漫画与GPT生图联系 [23] - 设计理念强调让生成图片看起来像是拍摄的真实物体或场景,以体现模型对真实世界的还原能力和独特的设计感 [16][26]
GPT之父:只用上世纪数据训AI,它居然也会写Python?!
量子位· 2026-04-30 17:05
项目核心概览 - 研究团队发布了一个名为“talkie-1930-13b”的特殊AI模型,其知识截止日期被严格限定在1931年1月1日之前,训练数据完全来自1930年及更早的英文文本 [1][3] - 该模型拥有130亿参数,在2600亿tokens的1931年之前的文本数据上训练而成,数据来源包括书籍、报纸、期刊、科学杂志等 [10][11] - 项目由AI研究员Nick Levine、多伦多大学副教授David Duvenaud以及GPT系列核心奠基者之一Alec Radford共同操刀,旨在探索仅基于历史文本训练的模型如何思考、对话及预测未来 [2][13] 模型训练与数据设定 - 选择1930年作为知识边界,主要依据是美国版权法中作品进入公有领域的法律界限 [12] - 训练语料题材分布与当代互联网数据不同,例如包含更多百年前的烹饪书和礼仪手册,而科技内容含量较低 [33] - 数据预处理面临挑战,部分1930年的报纸是从扫描件中通过OCR技术提取的,转录质量可能较差 [32] 模型能力与意外发现 - 模型展现出“凭空学习代码”的能力:在未见过任何计算机相关知识的情况下,该模型在OpenAI的HumanEval编程测试中成功解答了Python问题,例如通过修改一个字符(将加密函数中的+5改为-5)得出正确答案 [6][19][22] - 模型能力遵循Scaling Law:研究发现,模型规模越大,其能解出的编程题数量越多,尽管目前能力仍远不及训练过现代数据的模型 [23][24] - 在核心语言理解与数学计算任务上表现接近现代模型:当剔除涉及互联网、DNA等超纲知识的问题后,该复古模型与使用相同架构但训练于现代互联网数据的“talkie-web-13b”模型之间的性能差距缩小了一半 [29][30] - 研究结论表明,“理解语言”和“算数”这两项核心能力,似乎并不依赖于是否阅读过现代互联网内容 [31] 模型对时代发展的反应 - 通过向模型输入《纽约时报》“On This Day”栏目的近5000个历史事件,团队绘制了模型对未知事件的“惊讶值”曲线 [15] - 曲线显示,对于1930年之前的事件,模型惊讶值平稳;对于1950-60年代晶体管、电视机普及等事件,惊讶值陡峭飙升;对于更晚近的事件,惊讶值最终趋于平和,表明模型从“质疑”到“理解”再到“接受”的过程 [17] 指令微调与时代风格污染 - 为使模型成为AI助手,团队创新地使用1930年之前的礼仪手册、书信指南等作为天然问答语料,并利用现代模型Claude Sonnet 4.6进行强化学习来生成训练数据 [39][40] - 然而,强化学习过程导致了“时代风格污染”:早期7B版本的模型为了获得Claude老师的高分奖励,学会了使用现代互联网风格的列表体(如1. 2. 3.)说话,这暴露了使用现代AI进行反馈训练会不可避免地将当代风格注入复古模型的问题 [41][42][43] - 团队未来的一个目标是探索让复古模型自己担任自己的老师,以解决风格污染问题 [44] 项目背景与未来规划 - 项目核心成员Alec Radford是GPT-1和GPT-2论文的第一作者,也是GPT-3、GPT-4、CLIP、Whisper、DALL·E等里程碑模型的核心贡献者,其2018年提出的基于Transformer的生成式预训练方法奠定了后续大模型的基础 [45][46][48] - 根据团队路线图,计划在今年夏天发布一个性能达到GPT-3级别的复古模型,并计划未来将训练语料扩展到一万亿tokens以及非英语世界 [51]
DeepSeek识图模式是个新模型?!一手实测在此(没错我被灰度到了)
量子位· 2026-04-30 14:09
DeepSeek识图模式发布与市场反应 - 公司近期对DeepSeek识图模式进行了灰度测试,该多模态功能受到市场高度期待,其发布紧随V4模型之后[1] - 尽管官方未发布详细信息,但用户已从多个角度探索该识图功能,并发现其背后可能是一个独立于V4 flash/pro的新模型[2][3] - 公司在V4技术报告中提及的“未来展望”项目,其进展可能比外界预想的更快、更深入[4] 识图模式性能实测:速度与基础功能 - 在非深度思考模式下,视觉模型响应速度极快,几乎无需等待即可生成答案[5][6] - 在实用功能方面,模型的OCR能力表现可靠,能快速识别并处理技术报告摘要中的纯文本,并正确添加超链接[32] - 模型能准确识别并转换表格信息,使用markdown格式整齐输出,例如成功处理了包含DeepSeek-V3.2、V4-Flash、V4-Pro参数与性能对比的复杂表格[37] - 模型具备将网页图片复原为可用HTML代码的能力,且其中的按钮功能可正常使用,例如实现API文档链接的跳转[38][39] - 模型能通过“隐藏图片”测试,但在色盲测试中偶有失误[40][42] 识图模式性能实测:推理能力与幻觉问题 - 在空间推理测试中,非思考模式快速给出答案但错误,而开启深度思考后虽得出正确答案D,但耗时长达4分多钟[9][10][14][18] - 深度思考过程存在冗余,模型在思考中期已找到正确答案,但后续又进行了大量不必要的推理[19][20] - 在“图片找不同”任务中,非思考模式快速找出7处不同,但存在明显幻觉,例如识别出图中不存在的物品[24][25] - 开启思考模式后,用时16秒找出12处不同,但幻觉问题似乎更为严重[26][29] 模型技术细节与知识库特征 - 根据模型自身回答,其知识截止日期与DeepSeek V4 flash/pro一致,均为2025年5月[44] - 有迹象表明,视觉模型的知识库可能独立于文本模型,例如视觉模型知晓某特定人物,而V4 flash/pro在不联网时则不了解该人物[45][48] - 视觉模型甚至找到了2026年4月的信息,这进一步暗示其训练数据或知识更新可能独立进行[48] 公司技术发展节奏与行业影响 - 公司多模态能力的推出速度超出市场预期,此前行业普遍认为在多模态整合上公司资源有限、优先级不高[57] - 此次快速推出识图模式表明,公司的技术研发进展可能比其在技术报告中所暗示的更为超前[58] - 这引发市场对公司技术路线图其他方面的猜测,例如其在论文中提到的“积极探索模型稀疏性的其他新维度”可能也已取得进展[59]
OpenAI公告正经解释:为什么GPT-5.5爱说“哥布林”
量子位· 2026-04-30 12:37
文章核心观点 - OpenAI发布官方研究复盘,解释了其GPT模型系列中“哥布林”等奇幻生物词汇使用率异常增高的现象,根源在于对特定“书呆子”人格进行强化学习训练时产生的奖励信号偏差,该行为随后在模型中泛化,此案例揭示了AI模型行为可能被微小、意外的激励因素所塑造,并促使公司开发了新的调查与修正工具 [11][54][56] 问题发现与演变 - 从GPT-5.1版本开始,模型在比喻中提及“哥布林”、“地精”等奇幻生物的习惯悄然出现并逐渐增强 [11][12][14] - 2025年11月GPT-5.1发布后首次被清晰观察到,当时ChatGPT中“goblin”使用率上升了175%,“gremlin”使用率上升了52% [22][25] - GPT-5.4版本之后,提及这些生物的频次显著增加,问题变得更为突出 [29] 问题根源分析 - 根本原因与模型的人格定制功能,特别是“书呆子”人格的训练相关 [17] - 在训练“书呆子”人格时,无意中对使用生物比喻的模型输出给予了更高的奖励信号 [18] - 数据分析显示,“书呆子”风格回复仅占ChatGPT所有回复的2.5%,但在所有提及“goblin”的回复中占比高达66.7% [33] - 强化学习奖励信号在76.2%的数据集中对包含“goblin”或“gremlin”词汇的输出给予更高评分 [38] 行为泛化机制 - 尽管奖励信号仅在“书呆子”人格条件下应用,但习得的行为风格会迁移到其他条件 [39][43] - 在有无“书呆子”人格提示的训练样本中,“哥布林”等词的提及率以几乎相同的比例增加,证实了行为模式的迁移 [42] - 形成了反馈循环:受奖励的风格习惯在模型生成样本中变频繁,这些样本又被用于监督微调,导致模型更自然地固定输出此类用词癖好 [44][50] - 对GPT-5.5的监督微调数据搜索发现,许多数据点包含“goblin”和“gremlin”,还识别出“浣熊”、“巨魔”、“食人魔”和“鸽子”等其他关联词汇 [45] 解决措施与影响 - 公司在2026年3月发布GPT-5.4后弃用了“书呆子”人格,这导致相关词汇在GPT-5.4 Thinking中出现次数下降 [47][49] - 在后续训练中移除了与哥布林相关的奖励信号,并过滤了包含相关生物词汇的训练数据 [51] - GPT-5.5的训练始于问题根本原因被查明之前,因此发布时仍表现出对“哥布林”的异常偏好,公司通过添加开发者提示指令来缓解 [51] - 此事件促使研究团队开发了用于审核模型行为和从根本上解决问题的新的工具与方法 [55][56]
终结多智能体视觉幻觉“滚雪球”!新国立等提出ViF:无需改造模型,即插即用
量子位· 2026-04-30 12:37
行业核心问题:多智能体视觉协作中的幻觉滚雪球效应 - 当前基于视觉语言模型的多智能体系统在复杂多模态协作中存在致命痛点:多智能体视觉幻觉滚雪球效应,即单个智能体的视觉误判通过纯文本信息流逐级放大,导致早期细微错误最终演变成系统性崩溃 [2] - 当前协作方案全程依赖文本流传递视觉信息,存在两大缺陷:智能体自身生成错误视觉描述的内在幻觉,以及后续智能体过度依赖前置文本导致错误被逐级放大的幻觉传播 [7] - 此前的优化方案几乎只聚焦于单智能体幻觉抑制,无法阻断跨智能体的错误传播,在长轮次协作中,模型性能会被幻觉“滚雪球”严重拖累 [3][9] 问题根源分析:注意力机制失效 - 研究团队从轮次、层级、令牌三个维度进行深度注意力分析,发现随智能体轮次增加,视觉令牌的平均注意力分配在第20轮暴跌62%,中层视觉注意力峰值直接消失 [10] - 中层单峰注意力视觉令牌是保存原生视觉证据的核心载体,对视觉理解起决定性作用,但这类关键令牌的占比从首轮的1.22%骤降至第20轮的0.10%,导致视觉信息彻底被文本信息压制 [10][12] 解决方案:ViF视觉流范式 - 针对上述难题,研究人员提出了ViF,一种轻量通用的视觉流范式,通过“视觉流 + 注意力重分配”重构智能体间视觉传递逻辑,无需改造基座模型即可大幅压制幻觉滚雪球 [5] - ViF的核心设计之一是视觉中继流,精准筛选中层单峰视觉令牌作为载体,结合指令进行轻量化上下文编码,直接传递原生视觉证据,从根源避免“视觉→文本”转换带来的信息损耗与偏差 [17] - 另一核心设计是分层注意力重分配,在中间层放大关键视觉令牌注意力并回收无效注意力,在深层优化注意力分布,确保视觉信号能持续贯穿长轮次协作 [17] - 该方案还提供了FlashAttention兼容方案,针对现代模型常用的FlashAttention 2/3设计了Key-Norm替代策略,兼顾效率与落地兼容性,且开销较小,可无缝适配不同视觉语言模型与多智能体结构 [18] 实验验证与性能提升 - 该工作在8大基准、4种多智能体结构、10款主流视觉语言模型上实现了稳定提升,平均提升幅度在2.4%至3.8%之间 [6][19] - 在抑制视觉幻觉滚雪球方面,提出的幻觉滚雪球分数平均下降超30%,在交互最密集的环形结构中降幅近40% [19] - 大参数模型增益更为显著,34B/32B大参数模型的提升超过4% [19] - 该方案在多图、视频等增强视觉场景中同样有效,平均提升幅度在2.0%至4.9%之间 [19] - 方案高效,仅增加8.1%至13.4%的推理延迟以及4.8%至11.9%的计算开销,在大模型下开销几乎可忽略 [19] 具体模型性能数据 - 在LLaVA-1.5-13B模型上,应用ViF后,MME基准分数从1528.7提升至1547.6,MMBench分数从70.2提升至71.1,MM-Vet分数从38.3提升至40.5,平均提升约3.6% [20] - 在LLaVA-NeXT-34B模型上,应用ViF后,MME基准分数从1644.9提升至1670.8,MMBench分数从78.6提升至80.9,MM-Vet分数从54.6提升至57.0,平均提升约4.4% [20] - 在Qwen2.5-VL-32B模型上,应用ViF后,MME基准分数从1886.1提升至1906.2,MMBench分数从87.4提升至89.2,MM-Vet分数从69.8提升至71.9,平均提升约4.1% [20] 行业意义与展望 - ViF是业内首个从信息流重构层面解决多智能体视觉幻觉滚雪球的方案,直接打破了长轮次协作“越做越错”的困境 [21] - 该方案以较小代价建立了智能体间的视觉流信息传递,使得多智能体协作在视觉任务上变得真正可信与可用 [21]