Workflow
机器之心
icon
搜索文档
AI卖广告,吵到了超级碗:全球网友围观奥特曼破防
机器之心· 2026-02-06 11:57
文章核心观点 - Anthropic通过发布讽刺广告和官方声明,高调宣布其AI助手Claude将永久保持无广告状态,以此直接对标并批评OpenAI在ChatGPT中测试广告的计划,引发了两家公司CEO在商业模式和AI伦理上的公开论战[2][6][8][12][17] - 这场争论反映了OpenAI与Anthropic在用户规模、财务压力、商业模式和战略路径上的根本差异:OpenAI面临巨大的运营成本与普惠访问压力,而Anthropic则聚焦企业市场与付费订阅,双方对AI如何商业化并保持“体面”给出了不同答案[18][20][24] Anthropic的立场与行动 - **发布讽刺广告**:在超级碗期间播出广告,讽刺AI助手在对话中插入广告的行为,广告结尾明确宣称“Ads are coming to Al. But not to Claude”,被广泛认为是在嘲讽OpenAI的ChatGPT[2][4][5][6] - **官方宣布无广告政策**:正式宣布Claude将永久保持无广告状态,认为在AI对话中植入广告与其“一个真正有助于工作和深度思考助手”的定位不兼容[8][11] - **决策依据**:公司内部分析显示,许多Claude对话涉及敏感或深度私人话题,或需要持续专注于复杂任务,广告的出现会显得不协调甚至不恰当;同时,广告会引入与提供真正有用建议相冲突的激励机制[12][13][14] - **替代商业化路径**:公司并非完全拒绝商业化,而是看好“代理式商务”,即Claude代表用户代理完成购买或预订等操作;同时通过连接Figma、Asana、Canva等第三方工具提高生产力,所有第三方交互均由用户发起[15] OpenAI的回应与立场 - **CEO公开反驳**:OpenAI CEO萨姆・奥特曼迅速发布文章回应,承认广告有趣但质疑Anthropic采用“如此明显不诚实”的手法[17][18] - **澄清广告原则**:强调OpenAI关于广告的最重要原则是不会像Anthropic广告所描绘的那样做,付费订阅用户不会看到广告,并称公司知道用户会拒绝不当的广告做法[12][18][19] - **强调普惠与规模差异**:奥特曼将争论上升至AI普惠高度,称公司致力于提供免费访问,并披露仅在德克萨斯州免费使用ChatGPT的人数就超过了全美使用Claude的总人数,因此面临与Anthropic不同的问题[19] - **指责Anthropic战略**:批评Anthropic是“服务于富人的昂贵产品”,并想要控制人们如何使用AI,包括屏蔽不喜欢的公司使用其编码产品;同时强调OpenAI致力于广泛的民主决策和访问权,以及构建最具韧性的生态系统[20][21] 行业背景与商业模式对比 - **OpenAI的财务压力与规模**:公司签订了价值超过1.4万亿美元的基础设施交易,预计2025年将烧掉大约90亿美元,同时产生130亿美元的收入;ChatGPT拥有8亿周活跃用户,但只有大约5%会付费订阅,巨大的财务压力使其探索广告等收入来源[24] - **Anthropic的商业模式与收入**:公司尚未盈利但预计比OpenAI更快实现盈利,其商业模式主要依赖企业合同和付费订阅,未大规模建设数据中心;据报道,Claude Code和Cowork已经带来了至少10亿美元的收入[24] - **市场定位差异**:Anthropic被指其免费用户基数相对于ChatGPT非常小,且与他们的企业战略无关,因此在免费版中投放广告本就意义不大;而OpenAI则因庞大的免费用户基础和基础设施成本,面临不同的商业化挑战[19][23][24]
OpenClaw狂揽16万star,是时候聊聊Agent Tools的AB面了
机器之心· 2026-02-06 11:57
OpenClaw开源AI助理的现状与挑战 - 项目在GitHub上迅速获得超过16万star,显示出极高热度[2] - 功能上像一个24X7在线的超级员工,可通过WhatsApp、Telegram等聊天软件发指令,自动处理邮件、整理日历、浏览网页、管理文件、执行代码及完成复杂任务[2] - 存在显著问题,包括部署复杂、合规性差以及安全漏洞频发[3] - 安全风险具体表现为:在Shodan上发现有18789个OpenClaw网关处于暴露状态且零认证,可能导致shell访问、浏览器自动化和API密钥泄露[4] - 其架构依赖一个统一的Gateway中枢来调度各类工具,当Gateway缺乏统一治理时,工具调用失去管控,安全风险陡升[6] - 核心判断:OpenClaw在Agent应用层面展现出亮眼的创新价值,适合探索测试,但目前暂不适用于企业生产环境[7] 企业级AI Agent的核心需求与火山引擎AgentKit的解决方案 - 企业级Agent的真实需求是:不仅要功能强大,更要安全可控、易于集成、能够规模化落地[7] - 火山引擎AgentKit旨在解决企业Agent落地中的三大核心痛点:工具碎片化、调用低效和安全风险[7] - 解决方案通过AI逆向工程实现存量系统智能化转换、基于MCP的工具精准召回与治理降低Token消耗、以及Skills资产化管理和零信任身份体系[7] Agent Tools在企业落地面临的三大难题 - 工具碎片化:企业内部沉积着以万计的存量API和老旧服务,格式各异,文档残缺,没有统一的交互标准[11][12] - 连接复杂化:Agent与外部工具交互的协议是MCP,但企业大量服务仍是传统的HTTP API,人工重构开发周期动辄数月,跟不上业务节奏[11][12] - 治理黑盒化:当工具数量膨胀,谁在调用什么、以什么权限、调用结果是否合规无法追踪,传统的静态API Key和长期token无法审计,工具调用变成黑盒[11][12] 火山引擎AgentKit的“三板斧”技术优势 - **智能化“AI转换器”**:AgentKit Gateway提供智能转换器,用户上传Swagger/OpenAPI文档或代码,大模型能自动生成符合MCP标准的Tool Definition,补全参数描述和用途说明[20] - **统一治理中枢**:AgentKit Gateway作为中枢Hub,从流量、控制与数据三个维度实现统一治理,可处理高并发流量,支撑百万级QPS[18][22][24] - **Skills资产化管理与零信任安全**:构建AgentKit Registry对MCP、Skills等资源进行统一注册和管理,将Skills视为企业核心数字资产提供全生命周期管理[26][28],并通过AgentKit Identity引入零信任身份与权限体系,使用动态临时凭证和端到端委托链确保每次工具调用可控、可追责、可审计[30][31][32] AgentKit解决方案的实际效能与数据验证 - **智能转换效率**:智能转化成本比人工重构降低80%,自动生成的AI提示词被模型正确理解的概率超过95%,历史API转化为MCP工具的自动化率达到90%[21] - **零售行业案例**:一家全国性连锁零售集团利用AgentKit的Tools方案,在不修改后端代码前提下,将50多个核心接口转化为智能工具,将原本需要2分钟的跨系统查询缩短至秒级,同时单次交互的Token消耗降低70%[8][9] - **金融科技案例**:一家跨境支付公司利用AgentKit的Skill Studio,将复杂合规与风控策略封装为独立Skill,将监管响应时间从周级压缩到小时级,并为可疑交易生成包含清晰逻辑链的决策报告[9] - **性能优化数据**:在50+ tools调用的复杂负载下,MCP调用tokens下降70%;通过Schema优化,复杂工具调用的参数填充准确率提升至98.5%;结合语义缓存技术,常用工具响应速度提升300%[25] 火山引擎对Agent工具设计的方法论 - 认为Tools是连接大语言模型与现实世界的“感官”与“肢体”,一个合格的Agent Tool必须是“可理解、安全且具备容错能力”的交互接口[15] - **开发阶段**:应充分利用Python类型系统,配合Pydantic BaseModel进行参数验证,通过Literal限制枚举值,并设定清晰默认值,防止模型“瞎猜”[15] - **接口设计层面**:需投入大量时间打磨Docstring,利用Examples和Sample Case引导模型准确传参,并坚持“单一责任”原则,将复杂接口拆解为参数清晰、职责明确的小型工具[15] - **工具编排层面**:底层MCP工具定义清晰后,需按任务导向进行工具打包,并采用“渐进式披露”策略,根据任务进展动态提供相关工具[15] - **执行流程与安全**:工具应构建自我修复能力,返回包含修复建议的结构化信息,引导Agent自动重试,同时必须引入Human-in-the-loop机制,在敏感操作前通过人工确认,并通过异步调用和结果摘要优化性能,防止上下文溢出[16] 行业趋势与火山引擎AgentKit的定位 - OpenClaw的爆火让所有人看到了Agent走向物理世界的可能性,但其底层架构在隐私保护和权限受控方面存在显著缺陷,引发了社区对于非法调用的广泛质疑[33] - 火山引擎AgentKit作为企业级AI Agent生命周期平台,提供运行时、记忆库/知识库、内置工具、网关、身份等基础设施能力,帮助企业安全地开发、部署和运行各类智能体[34] - 通过零信任架构与动态凭证机制,为每一个Tool调用构建可靠的安全盾牌,让Agent更适合在企业级环境部署和运行[35] - 未来Agent的竞争将从比拼大脑转向较量工具链,企业需要能够统一处理流量、控制与数据的治理中枢,火山引擎AgentKit正在协助各行业领先者将固有的数字化能力转化为智能体可自如运用的资产[35]
AgentDoG:为AI智能体戴上「诊断项圈」
机器之心· 2026-02-06 11:57
文章核心观点 - 上海人工智能实验室开源了AgentDoG,这是一个专为AI智能体设计的诊断式安全护栏框架,旨在解决现有安全工具无法应对的复杂“智能体式”风险 [2] - AgentDoG不仅能判断行为安全性,更能诊断风险来源、追溯失效模式、解释决策动因,为AI智能体的安全发展提供支持 [2] - 该框架通过创新的三维风险分类法、细粒度监控与诊断能力,以及可解释归因技术,为AI智能体安全领域建立了新范式 [37] AI智能体安全挑战与现有工具的局限 - AI智能体(Agent)正从实验室走向现实,能自主规划、调用工具、与环境交互,在科研、金融等领域潜力巨大,但也带来了前所未有的安全挑战 [6] - 智能体的行为风险已超越“说错话”,可能因恶意指令泄露隐私、错误理解工具参数造成经济损失,或在多步操作中“悄无声息”地偏离正轨执行危险动作 [6] - 现有的安全护栏模型主要为语言模型内容安全设计,存在两大局限:缺乏对由工具调用、环境交互等动态过程产生的复杂风险的意识;缺乏根源诊断与透明度,只能给出“安全/不安全”的二元标签 [7][8] AgentDoG框架的核心创新:三维风险分类法与诊断式护栏 - AgentDoG提出了一个创新的三维智能体安全风险分类法,从三个维度系统性地解构风险:风险来源(Where)、失效模式(How)、真实世界危害(What)[11][13] - 该分类法提供了结构化、层次化的视角,取代了以往“枚举式”、“扁平化”的风险定义 [11] - 基于此分类法,AgentDoG对智能体的完整行为轨迹进行细粒度、情景感知的监控与诊断,审查从用户输入到最终输出的每一个步骤(包括思考、工具调用、环境反馈)[16] - 当检测到不安全行为时,AgentDoG能依据三维分类法给出细粒度诊断,例如识别风险来源为“间接提示注入”,失效模式为“未经确认或过度授权的行动”,真实危害为“隐私与机密性损害”[16][21] 自动化数据合成与训练优势 - 项目团队构建了一套自动化数据合成pipeline,用以生成海量的、带有精细标注的Agent交互轨迹,以训练AgentDoG [18] - 该pipeline是一个多智能体协作系统,具有三大核心特点 [19] - 分类法引导的数据生成:数据合成严格遵循三维风险分类法,可定向采样确保每种风险都被充分覆盖,保证了训练数据的系统性和全面性 [22] - 大规模工具集覆盖:利用一个包含超过10,000个独立工具的工具库进行数据合成,其规模是现有安全基准的40倍以上,极大增强了模型面对新工具和新场景时的泛化能力 [22] - 严格的数据质量控制:所有轨迹数据都会经过对结构完整性、工具调用有效性及内容与风险标签一致性的多维度校验,确保数据高质量与可靠性 [22] 性能评测:安全检测与风险诊断能力 - 在多个权威的Agent安全基准测试(R-Judge、ASSE-Safety)及全新构建的更具挑战性的ATBench上进行了评测,ATBench包含平均近9个交互轮次的复杂轨迹和超过1500个未见过的工具 [23] - 安全检测能力:AgentDoG在所有测试集上均达到了State-of-the-Art水平,其安全检测的准确率和F1分数远超现有的一系列专用安全护栏模型,并能与参数量远大于自身的顶级通用大模型(如GPT-5.2、Gemini-3)一较高下 [24] - 具体数据:在R-Judge测试集上,AgentDoG-Qwen3-4B的准确率为91.8%,F1分数为92.7%;在ATBench上,其准确率为92.8%,F1分数为93.0% [25] - 细粒度风险诊断能力:这是AgentDoG的“杀手锏”,通用大模型在此任务上的诊断准确率普遍在20%-40%之间,而经过专门训练的AgentDoG实现了碾压性优势 [26] - 具体数据:在“风险来源”识别任务上,AgentDoG-Qwen3-4B的准确率高达82.0%,是通用模型的2倍以上;在“失效模式”和“真实世界危害”识别任务上,其准确率分别为32.4%和58.4% [26][27] 智能体可解释性AI归因能力 - AgentDoG集成了一个智能体可解释性AI归因模块,能够深入剖析Agent决策背后的具体动因 [30] - 该模块可以追溯并定位到是历史轨迹中的哪一步、甚至是哪一句话,对Agent的关键决策起到了决定性作用 [31] - 案例一:在简历筛选场景中,Agent被简历文件中的隐藏恶意指令欺骗,未验证技能就安排了面试,AgentDoG准确地将错误行为归因于简历内容中的那句恶意指令 [32] - 案例二:在金融分析场景中,Agent将一条表面正面实为反讽的用户评论错误理解为赞扬,并给出了错误的投资建议,AgentDoG归因分析显示Agent的决策完全被“绝妙的更新”等正面词语驱动,忽略了讽刺性上下文 [33][39] - 这种深度可解释性将智能体决策过程变得透明可追溯,有助于开发者和审计者定位风险根源,有针对性地优化模型行为与安全训练 [35] 总结与开源 - AgentDoG通过创新的三维风险分类法、强大的诊断式护栏框架和深入的XAI归因技术,为AI智能体安全领域建立了一个全新的范式,致力于“理解”和“诊断”风险 [37] - 目前,AgentDoG系列模型、ATBench评测基准以及相关评测代码已经全面开源,旨在与社区共同推动AI智能体安全技术的发展 [38]
Agentic Memory开年就卷起来了?刚刚,华人团队MemBrain拿下多项SOTA!
机器之心· 2026-02-06 09:05
行业趋势:AI Agent记忆能力成为发展关键 - 2026年初,AI行业在Agentic Memory方向快速进化,将大模型能力推向新高度[1] - 行业共识发生转向,认为没有记忆的Agent只是高级自动补全工具,处理复杂长期任务需要跨会话、结构化的长期记忆机制[1] - 红杉资本合伙人指出,未来Agent的核心挑战是实现“持久化身份”,即在长时间运行中保持一致的理解和上下文记忆[3] - 记忆层被视为Agent迈向好用的“关键能力”,是AI技术圈和资本押注的新风口[2][3] 公司产品:Feeling AI发布MemBrain1.0 - Feeling AI团队发布MemBrain1.0,在多项主流记忆基准评测中取得全新SOTA成绩[3] - 公司在2025年浮出水面,创始人戴勃是生成式AI领域青年科学家,曾任职于NTU和上海AI实验室[4] - 团队已完成两轮超亿元人民币融资,是国内最早尝试世界模型和3D动态交互的团队之一[4] - 核心团队来自清华、港中文、NTU及米哈游、英伟达、商汤等机构,包括清华姚班毕业生[19] 技术性能:MemBrain1.0评测结果领先 - 在LoCoMo基准测试中准确率达93.25%,在LongMemEval基准测试中准确率达84.6%,均获SOTA[9] - 在PersonaMem-v2测试基准上以51.50%的准确率超越现有公开方法[10] - 在KnowMeBench Level III最高难度两个评测中,比现有评测结果大幅提升超300%[3][11] - 具体数据:Mind-Body Interaction评测得分82.2,远超MemOS的21.5;Expert-Annotated Psychoanalysis评测得分63.9,远超MemOS的22.6[12] 算法创新:MemBrain1.0的核心优势 - 采用Agentic思路重构记忆系统,将实体提取、会话摘要生成等核心环节拆解为独立且能协同作战的子Agent[14] - 通过精细化的实体-时间上下文管理设计,在时序任务及多会话场景任务下取得显著提升[9][16] - 优化信息组织方式,将相关信息组织成可按需加载的“语义单元”,让LLM能够深度参与推理,减少语义转化损耗[17] - 设计提供了高部署灵活度,并为异步记忆更新等工程需求预留了扩展空间[15] 战略布局:记忆能力与世界模型愿景 - 公司将世界模型实现分为InteractBrain(理解、记忆与规划)、InteractSkill(能力与执行)和InteractRender(渲染与呈现)三层[24] - MemBrain所代表的记忆能力是InteractBrain的关键组成部分,旨在为世界模型构建护城河[24][25] - 团队早在2024年就押注世界模型,目标是让世界模型真正走向动态世界的智能交互[19][25] - 公司认为,与动态物理世界交互的核心将由“人”变为“人和AI”[25] 市场前景:记忆系统成为AI基础设施 - 行业明确信号显示,解决Agent的“随时失忆症”是通往AGI的下一把钥匙[27] - 记忆能力被公认为Agent的灵魂,智能大脑的竞争正走向卓越记忆能力的比拼[27] - 英伟达科学家Jim Fan指出,Agent的下一步演进在于高效的技能库索引与自我反思机制,而非参数量的无限堆砌[27] - Memory for Agentic AI正成为基础设施层的核心标配,推动AI从“无状态”单次调用向“有意识”持续进化跨越[27]
Stable-DiffCoder超越自回归模型!扩散模型在代码生成取得新突破
机器之心· 2026-02-06 07:45
文章核心观点 - 华中科技大学与字节跳动联合推出的Stable-DiffCoder,证明了扩散训练范式本身是一种强大的数据增强和表征学习手段,能够有效提升代码大模型的能力上限,并在多项基准测试中超越了同规模的自回归模型[1] - 该研究打破了“扩散模型只能做并行加速”的刻板印象,提出了一种新的模型演进路径:将自回归模型作为高效的知识压缩器,再利用扩散训练作为“强化剂”,进一步提升模型性能[31] 模型性能表现 - 在Base模型评测中,Stable-DiffCoder-8B-Base在HumanEval上得分为79.3,在HumanEval+上得分为73.8,在MBPP上得分为83.6,在MBPP+上得分为67.7,超越了包括Qwen2.5-Coder-7B、DeepSeek-Coder-6.7B-Base在内的多个8B规模开源模型[23] - 在代码推理任务CRUXEval上,Stable-DiffCoder-8B-Base在Input-CoT和Output-CoT上分别取得53.8和60.0的分数,表现优于多数同规模模型[24] - 在Instruct模型评测中,Stable-DiffCoder-8B-Instruct在HumanEval上得分为86.6,在HumanEval+上得分为82.3,在MBPP上得分为85.7,在MBPP+上得分为72.8,超越了其自回归原型Seed-Coder-8B-Instruct及其他8B规模的DLLM模型[26] - 在多语言代码生成任务(涵盖Python、Java、C++等13种语言)上,Stable-DiffCoder-8B-Instruct平均得分为75.3,与Seed-Coder-8B-Instruct持平,并显著超越其他同规模模型[27] - 在更具挑战性的代码基准测试中,Stable-DiffCoder-8B-Instruct在MHPP上达到42.4 pass@1,在BigCodeBench Full和Hard上分别达到54.8和31.8,在LiveCodeBench上达到23.5 pass@1,表现优异[27] - 在代码编辑任务CanItEdit上,Stable-DiffCoder-8B-Instruct取得了60.0 pass@1的分数,显著优于其他同规模模型,展现了惊艳的代码编辑能力[29] 技术创新与方法 - 研究揭示了纯双向扩散过程在高效学习样本知识上的缺陷:当掩码比例较大时,模型难以映射到清晰的规则,且会引入噪声和错误知识[4][5][11] - 通过实验证明,采用“自回归预训练 -> 扩散持续预训练”的课程学习方案(AR->BiDLLM)效果最佳,优于纯双向扩散训练,说明自回归结构更适合作为知识压缩的先验[11][13][14][15] - 最终训练流程设计为:先用自回归方式压缩知识,再用其检查点通过持续预训练转换为小块的块扩散模型,以探索扩散过程的数据增强能力[16] - 团队设计了一种稳定的持续预训练预热策略,通过逐步增加掩码比例上限和移除损失函数中的加权系数,解决了训练不稳定的问题[18][20] - 针对块扩散,团队设计了块级截断的噪声调度,通过设置噪声采样下界为1/B(B为块大小),确保每个块都能产生有效的损失信号,避免了小块时信号丢失的问题[21][22] 行业影响与意义 - 该研究证明了扩散训练范式在代码理解和生成质量上可以超越传统的自回归模型,为大型语言模型的演进提示了一条新路径[1][31] - 模型在预训练数据较少的稀疏代码语言(如C、PHP)上,相比自回归基线获得了大幅增强,验证了扩散训练过程起到了数据增强的效果[24] - Stable-DiffCoder-8B-Instruct在多项综合评测中表现优越,在闭源测试集MHPP上达到了Qwen2.5-Coder-32B-Instruct的水平,在BigCodeBench上仅次于DeepSeek-Coder-V2-Instruct (21B/236B)[25][27]
硬碰硬!刚刚,Claude Opus 4.6与GPT-5.3-Codex同时发布
机器之心· 2026-02-06 07:45
行业动态:海外大模型密集发布 - 北京时间2月6日凌晨,Anthropic与OpenAI相继发布新版本基础大模型Claude Opus 4.6与GPT-5.3-Codex,形成硬碰硬的竞争局面 [2] Anthropic:Claude Opus 4.6核心升级 - Claude Opus 4.6是Anthropic旗舰模型的重大升级,规划更谨慎,能维持更长时间的自主工作流程,并在关键企业基准测试中超越了包括GPT-5.2在内的竞争对手 [5] - 新模型首次拥有100万token的上下文窗口,能处理和推理更多信息 [6] - 在Claude Code中引入了“智能体团队”功能,允许多个AI智能体同时处理编码项目的不同方面并进行自主协调 [6] - 模型可应用于运行财务分析、进行研究以及使用和创建文档、电子表格和演示文稿等日常工作任务 [6] - 在智能体编码评估工具Terminal-Bench 2.0中取得最高分65.4%,在“人类最后的考试”中领先于所有其他前沿模型 [7] - 在GDPval-AA测试中,Opus 4.6的表现比业界次优模型GPT-5.2高出约144个Elo分数,比其前身Claude Opus 4.5高出190分 [7] - 在BrowseComp测试中也优于其他所有模型,该测试用于衡量模型在线查找难寻信息的能力 [7] - 模型定价保持不变,每百万token 5美元 / 25美元 [8] - 在MRCR v2的8针1M变体测试中,Opus 4.6得分为76%,而其前代Sonnet 4.5得分仅为18.5%,有效缓解了“上下文腐烂”问题 [9] - 为证明其智能体能力,一名研究员使用16个智能体从零开始构建了一个基于Rust的C语言编译器,最终代码长达10万行,耗资2万美元,超过2000次Claude Code会话,历时两周 [9] - 该编译器可在x86、ARM和RISC-V上构建可启动的Linux 6.9,通过了GCC 99%的压力测试,并能编译FFmpeg、Redis、PostgreSQL、QEMU及Doom游戏 [12] OpenAI:GPT-5.3-Codex核心升级 - OpenAI发布新一代模型GPT-5.3-Codex,奥特曼称其拥有目前最佳的编码性能 [15] - 模型在多项基准上刷新纪录:在SWE-Bench Pro上达到56.8%,在Terminal-Bench 2.0上达到77.3% [16] - 相比此前版本运行更快、消耗的token更少 [16] - 模型融合了GPT-5.2-Codex的前沿编码性能和GPT-5.2的推理及专业知识能力,速度提升了25% [19] - 该模型使Codex从一个能够编写和审查代码的代理,变成了一个几乎可以执行开发人员和专业人士在计算机上的任何操作的代理 [20] - OpenAI让GPT-5.3-Codex自主构建了两款游戏:一款赛车游戏的第二版和一款潜水游戏 [20] - 模型利用其网页游戏开发技能以及预先设定的通用后续提示,自主地迭代开发了数百万个token [23] - OpenAI对其的期望远不止步于一个智能编码模型,而是一个能够“Beyond coding”,实现工作助理的智能体 [24] - 模型能够支持软件生命周期中的所有工作,包括调试、部署、监控、编写产品需求文档、编辑文案、用户研究、测试、指标分析等 [25] - Codex应用可以让管理和指导智能体变得更加便捷,而GPT-5.3-Codex的加入更使其交互性更强,允许实时互动 [27] - 由于基础设施和推理堆栈的改进,Codex用户现在运行GPT-5.3-Codex的速度也提高了25% [29] - GPT-5.3-Codex已包含在ChatGPT的付费套餐中 [29] 行业影响与趋势 - 在未来加入AI的工作流程中,人的角色已经从编写代码转变为构建让AI能够编写代码的环境 [14] - 随着模型能力的不断增强,差距不再仅仅在于智能体能够做什么,而是在于人类如何轻松地与多个并行工作的智能体进行交互、指导和监督 [27] - OpenAI的许多研究人员和工程师表示,他们现在的工作与两个月前相比发生了根本性的变化,例如研究团队使用Codex来监控和调试模型训练运行 [27] - 工程团队使用Codex对GPT-5.3-Codex框架进行了优化和适配,并利用其识别错误和应对流量高峰 [28] - 在Alpha测试期间,GPT-5.3-Codex被用于生成分类器分析用户会话日志并生成报告,以评估生产力提升 [28] - 海外大模型密集发布后,预计国内大模型也将在春节前跟进,包括DeepSeek v4可能即将到来 [31]
ICLR 2026 Workshop二轮征稿开启:聚焦终身智能体的学习、对齐、演化
机器之心· 2026-02-05 15:52
人工智能行业技术范式演进 - 人工智能正在进入以LLM、强化学习和具身智能为核心的AI Agent新阶段,展现出规划、推理、工具调用和自主决策等多维能力[2] - 当前主流范式存在关键瓶颈,若要AI Agent成为开放世界的可靠长期助手,需迈向“终身智能体”,使其具备持续学习、长期对齐、自主进化、资源可感知和可持续部署的能力[2] - “终身智能体”被视为智能范式的升级,目标是构建长期稳定、自主对齐、可持续成长、面向科学发现、跨模态交互且可复现部署的真实世界系统,是Agent研究的“Next Frontier”[11] 终身智能体面临的核心挑战 - 面对动态任务和分布外任务时,模型存在灾难性遗忘问题[4] - 当用户目标、环境反馈和上下文约束随时间变化时,Agent的对齐一致性会下降[4] - 真实世界长期运行受到算力、token、能源和交互成本的约束,导致系统可持续性不足[4] 行业学术研讨会概览 - 在ICLR 2026会议期间,由UIUC、Edinburgh、Oxford、Princeton等机构共同发起“Lifelong Agent Workshop”[3] - 研讨会旨在打造首个跨领域统一论坛,系统性推动终身智能体研究范式,打通语言智能、强化学习、具身系统、多智能体协作和AI4Science等方向,共同定义Agent发展的下一座技术里程碑[3] - 研讨会预计规模为200–400人现场参会,500–600人线上覆盖,形式为线下与线上实时参与的混合模式[8] 研讨会核心征稿研究方向 - 征稿鼓励跨领域、面向长期运行的Agent研究,特别关注八大主题:持续学习、长期对齐、自主进化、具身终身智能、高效与可持续、多智能体终身系统、科学智能体、终身评估与基准[7][10] - 具体技术方向包括但不限于:记忆增强的强化学习、持续探索、多模态/具身数据流整合、长短期记忆融合、终身学习基准与评估、用户目标变化建模、监督与安全保障、漂移检测与校正、长期价值学习、推理策略自优化、模块/技能自主扩展、多智能体终身协作生态、LLM与小模型协同、不确定性建模、复杂环境下持续运行、资源感知调度、持续多智能体协作/竞争/谈判机制、自主假设生成与实验设计、具身实验室Agent、长期适应性评估、对齐漂移度量等[9][12] 研讨会投稿与参与信息 - 研讨会官网已上线,海报、录播和问答资源将持续开放[6] - 投稿截止日期为2026年2月15日UTC时间,通过OpenReview系统提交[10] - 支持两类论文投稿:完整论文最多9页,短论文字数为2–5页,鼓励最新突破、轻量方法、跟进实验、开源实现、理论洞察和案例分析[10][12] - 本次投稿为非Arxiv性质,欢迎已投稿至ACL及ICML的优秀工作同时投递至本研讨会[10]
强化学习远不是最优,CMU刚刚提出最大似然强化学习
机器之心· 2026-02-05 15:52
文章核心观点 - 一项来自CMU、清华大学、浙江大学等机构的研究指出,当前广泛使用的强化学习(RL)并未真正优化最大似然目标,而只是在优化其一阶近似,这导致了模型性能提升后期困难 [2][6][7] - 研究团队提出了最大似然强化学习(MaxRL),通过引入一族以计算量为索引的目标函数,使训练目标能逐步逼近真正的最大似然优化,从而在性能和计算效率上显著超越现有强化学习方法 [2][9][22] 传统强化学习的局限与理论新发现 - 在代码生成、数学推理、多步决策等任务中,业界已形成共识:只要反馈是二值的、过程是不可微的,就使用强化学习 [5] - 严格的理论分析显示,基于期望奖励的强化学习只是在优化最大似然目标的一阶近似,并未真正最大化模型生成正确答案的概率 [2][6][7] - 这一理论偏差解释了强化学习在训练后期性能提升越加困难的现象 [8] 最大似然强化学习(MaxRL)的理论框架 - 研究将基于正确性反馈的强化学习形式化为一个潜变量生成的最大似然问题 [9] - 提出了一族以计算量为索引的目标函数,通过对pass@k事件进行Maclaurin展开,在期望回报与精确最大似然之间实现连续插值 [9][11] - 当截断级别T=1时,目标函数还原为标准强化学习;当T→∞时,还原为最大似然;中间的T值则在两者之间插值 [15] - 最大似然目标的梯度可以等价表示为仅对成功轨迹的梯度进行平均,这为构造简洁的梯度估计器提供了直接途径 [18][19] - MaxRL提供了一个原则性框架,通过增加计算量来换取对最大似然目标更高保真度的近似 [16][20] MaxRL的实验性能与效率优势 - 在多个模型规模和多类任务上的系统评估显示,MaxRL在性能与计算效率的权衡上稳定优于现有强化学习方法 [22] - 在相同训练步数下,MaxRL性能提升明显更快,并且随着rollout数的增加持续受益 [24] - 相较于使用GRPO训练的模型,MaxRL测试时的scaling效率最高可提升20倍 [24] - 在迷宫任务中,随着训练rollouts增加,MaxRL能持续降低−log(Pass@k),而GRPO与RLOO的改进幅度则明显更早趋于平缓 [25] - 对于GRPO与RLOO,性能曲线在早期下降后迅速变平,说明额外采样主要用于降低噪声;而MaxRL在不同k值下均保持持续下降,推动模型不断逼近更接近最大似然的优化目标 [26] - 在更大规模设置下,MaxRL的优势依然保持稳定,未出现收益递减过快或优势消失的现象 [29] - 即使在反馈存在噪声或验证信号并非完全可靠的设置下,MaxRL仍然能够保持相对稳定的性能优势 [30]
ICLR 2026 | 这道题是否需要用图思考?模型来告诉你!自适应思考模式切换助力通用视觉推理提升
机器之心· 2026-02-05 12:35
文章核心观点 - 提出了一种名为“混合视觉思维”的自适应视觉推理范式,旨在将纯文本和视觉基础两种推理模式整合到单一模型内部,并使其能够根据问题上下文自适应选择最佳推理模式 [13] - 为学习该范式,提出了一个名为AdaVaR的两阶段训练框架,通过监督微调学习不同推理模式,并设计了专门的AdaGRPO强化学习算法来引导模型进行模式选择 [14] - 实验表明,基于该框架训练的AdaVaR-3B和AdaVaR-7B模型在多个视觉推理任务上实现了通用性能提升,其中AdaVaR-3B平均性能媲美Qwen2.5-VL-7B,而AdaVaR-7B甚至超越了GPT-4o [15][26] 视觉推理的不同思考模式 - 当前大型视觉语言模型主要有两种主流推理模式:纯文本思考模式和视觉基础思考模式 [5][9] - 纯文本思考模式擅长处理抽象的视觉问题,但在需要精确定位的任务上表现不佳 [12] - 视觉基础思考模式更善于定位和利用视觉信息,抑制幻觉,但在处理抽象数学概念时提升有限 [12] 混合视觉思维范式与AdaVaR框架 - 混合视觉思维范式的目标是构建一个统一的推理模型,使其同时具备多种思考能力,并能根据问题自适应选择模式 [13] - AdaVaR框架第一阶段通过引入特殊的前缀标记来区分不同推理模式,并利用监督微调整合数据,使模型学会不同模式的思考过程 [14][17][19] - 第二阶段通过AdaGRPO强化学习算法引导模型进行模式选择,该算法通过固定前缀引导探索,并设计了一种结合推理路径层面和模式层面优势的双层次优势计算方法 [14][20][23] 实验结果与性能表现 - 在8个不同场景的数据集上评测,AdaVaR模型在数学导向和通用场景任务上均表现出一致的性能提升,而单模式模型通常只在特定领域表现突出 [15][25][26] - 具体数据显示,AdaVaR-3B在8个数据集上的平均准确率达到50.84%,超越了所有其他基于Qwen2.5-VL-3B的推理模型 [25] - AdaVaR-7B的平均准确率达到55.82%,超越了GPT-4o的53.20%,并且在MathVista、WeMath、POPE等任务上达到最优性能 [25][26] 自适应推理机制的深入分析 - 研究表明,将两种模式整合到一个模型内是有效的,且不会抑制单个模式的性能提升,但需要显式的前缀标记来区分模式 [30][31][32] - 两种模式具有互补性,在所有数据集上,两个模式中任意一个能做对的“理论上限”准确率均高于单一模式的表现 [33] - 强化学习阶段使模型学会了合理的模式选择能力,例如在数学问题上主要选择文本模式,在物体相关问题上主要选择基础视觉模式 [35] - 模型模式选择能力的学习过程可分为初期探索、稳定选择和精细微调三个阶段,最终自适应模式性能优于任一单一模式 [37]
智能必须基于世界模型?我们和蚂蚁灵波团队聊了聊
机器之心· 2026-02-05 12:35
行业趋势与核心观点 - 行业观点认为,大语言模型(LLM)的革命行将结束,下一个AI技术的突破点将是物理世界的AI,涉及世界模型、因果关系和真正的规划能力[1][5] - 真正的智能需要具备在脑海中进行推演、预测未来的能力,而当前的大语言模型几乎无法触及真实世界复杂的物理性和因果关系[1][2] - 具身智能(Embodied AI)被视为探索通用人工智能(AGI)的新路径,其核心是从物理交互出发,在真实世界中构建智能[3][5] 蚂蚁灵波科技的战略与定位 - 蚂蚁集团通过设立灵波科技,承担在具身智能领域探索AGI的使命,其AGI版图包括数字智能与物理智能[5] - 公司在设立灵波科技前,已布局多家具身智能及机器人相关企业,覆盖整机、核心零部件、灵巧手、具身大模型等多个关键环节[5] - 公司的战略是从真实硬件出发,从数字世界迈向物理世界,旨在为机器人打造更聪明的大脑[6] - 公司的深层野心在于构建机器人领域的“安卓系统”,侧重于基模研发,并选择跨构型路径,与数据提供商合作以满足训练数据多样性需求[18] - 公司计划通过开源模式推进行业进步,并将持续全面开放技术,其商业护城河在于提供高效的“后训练工具链”,帮助硬件厂商以更低的数据量和GPU成本适配模型[17][19][20] - 公司背靠蚂蚁集团的AGI整体战略、业界一梯队的AI基础设施支持以及坚定的资金投入,做好了打持久战的准备[24] 技术路线与模型发布 - 公司选择了一条“非主流”的技术路线,即“互联网数据 + 真实数据”优先,而非主流的“Sim-to-Real”(从仿真到现实)路径[7][8][9] - 公司认为仿真数据在流体、柔性物体、传感器误差等很多场景下还无法模拟,解决这些问题的周期可能比降低真实数据的采集成本更久[8] - 公司在一周内集中开源发布了四款具身智能模型:高精度空间感知模型 LingBot-Depth、具身大模型 LingBot-VLA、世界模型 LingBot-World 以及具身世界模型 LingBot-VA[2][5] - LingBot-VLA 模型基于九种主流构型的超两万小时高质量真机数据进行预训练,在权威评测中超越了一系列国际顶尖基线[9] - LingBot-VA 是全球首个用于通用机器人控制的因果视频-动作世界模型,它结合视频生成模型的“想象”、多模态模型的逻辑推理以及真实环境反馈,实现了“边推演、边行动”[10][12] - LingBot-VA 仅通过30-50次真实世界的演示就能学习新技能,其成功率比常见的基准模型(如 π0.5)高出约20%[10] - LingBot-Depth 模型通过利用深度传感器误差作为掩码来优化深度图,大幅降低了当前主流视觉深度相机的误差[13] - LingBot-World 模型开源了视觉效果堪比谷歌 Genie 3 的实时可交互世界模型,其生成的世界严格遵循物理规律[13] 当前阶段与未来展望 - 具身智能总体技术阶段目前还处于早期,且技术路线尚未收敛[16] - 对于具身智能领域而言,“DeepSeek 时刻”或“ChatGPT 时刻”都还为时尚早[17] - 公司未来的重点是持续加强对具身世界模型的投入,探索具身智能的新上限,并积极拓展生态,协助生态合作伙伴实现落地[17][24] - 从技术角度看,强化学习(RL)的具体落地范式尚未收敛,AI推理中至关重要的System 2(慢思考)能力仍在探索中,这些可能是制约技术大规模落地的瓶颈[23] - 随着四个模型的发布和开源,蚂蚁的AI战略实现了从数字世界到物理世界的关键延伸,“基础模型 - 通用应用 - 实体交互”的全栈路径逐渐清晰[24] - 一个深度融合、开源开放并服务于真实场景的AGI生态正在加速成型[25]