机器之心
搜索文档
AAAI 2026|相聚新加坡,探讨AI时代最核心难题
机器之心· 2026-01-18 14:48
活动1:AI治理与人类主体性研讨会 - 会议核心旨在探讨在AI重构人类能动性的时代,如何通过技术社区与治理社区的融合,推动尊重人类主体性并维护人类在工作、学习、所有权及选择权方面权益的AI系统发展[2] - 会议主题为“在AI重构人类主体性的时代,如何捍卫我们的自主决断权”,聚焦于“工作、学习、拥有与选择的权利”[2] - 会议重量级嘉宾包括佐治亚理工学院的Ashok Goel、新加坡国立大学计算机学院的Jungpil Hahn、华盛顿大学及Meta FAIR的Luke Zettlemoyer以及IBM研究院的Djallel Bouneffouf[4] - 会议将于2026年1月23日(星期五)08:30至13:30在新加坡国立大学COM3多功能厅举行,现场提供午餐及茶点[7][8] - 注册截止日期为2026年1月22日,主办方为AI Singapore,该活动是新加坡AI研究周的一部分,与AAAI2026同期举行[7][9] 活动2:Agentic AI与智能体系统前沿研讨会 - 会议核心旨在探讨基于大语言模型的智能体前沿进展,分享构建部署经验,并连接机器人学、具身智能及多智能体系统的视角,以推动Agentic AI向更可靠、安全和高性能方向发展[11][14] - 会议主题为“探索Agentic AI、自主智能体与多智能体系统的前沿融合”,关注现代Agentic AI系统(如LLM驱动智能体、使用工具的Copilot及自主工作流)从演示走向实际部署所需的规划、工具使用及交互能力[11][13] - 会议特邀演讲嘉宾包括麻省理工学院的Leslie Kaelbling、伊利诺伊大学香槟分校的Bo Li、华盛顿大学及Ai2的Pang Wei Koh以及瑞典于默奥大学的Frank Dignum[17] - 会议将于2026年1月21日(星期三)13:00至18:00在新加坡国立大学COM3多功能厅举行,现场提供茶点[19][22] - 会议由新加坡国立大学人工智能研究所、DSO国家实验室与亚马逊云科技联合举办,该活动是新加坡AI研究周的一部分,与AAAI2026同期举行[11][21]
咖啡机变聪明后,我连咖啡都喝不上了
机器之心· 2026-01-18 14:48
文章核心观点 - 以大型语言模型为核心的生成式AI语音助手在智能家居控制场景中,其固有的随机性与不确定性导致了基础指令执行可靠性的显著下降,引发了用户不满[1][18][27] - 尽管新技术在理解复杂指令和上下文方面能力更强,代表了从“单指令执行器”到“代理式AI”的能力范式切换,但其在需要高度确定性的控制任务上表现不佳,揭示了当前技术部署的边界问题[29][31][32][44] 行业现状与用户反馈 - 亚马逊Alexa升级至生成式AI版本后,在执行如“煮咖啡”、“开灯”等基础、预设的智能家居指令时频繁失败,且每次拒绝的理由都不同[3][4][5][6][7] - 用户社区中抱怨声广泛,基础控制功能如开灯、播放歌曲、设定计时器等成为“重灾区”,部分用户甚至因此换回本地红外控制的传统设备[8][9][11][12] - 2025年即将过去,AI在复杂任务上表现卓越,却在清晨一句简单的“煮杯咖啡”指令上失败,与现实预期形成鲜明反差[8][14] 技术原理与挑战 - 传统语音助手本质是模板匹配器,通过识别关键词和填充参数来执行指令,虽然笨拙但结果高度确定[15][19][20] - 生成式AI助手基于LLM,其核心价值在于理解与生成的灵活性,但这也引入了大量随机性,导致对同一指令的解释空间被放大,输出不一致[18] - 在要求即时、可重复、零容错的设备控制场景下,概率性模型本身存在缺陷,微小的输出偏差就可能导致API调用失败,进而使整个操作失败[18][22][23][24] - 理论上通过大量工程投入、约束设计和失败兜底可以提升可靠性,但在资源有限和商业诱惑下,行业选择了先将技术推向市场再逐步修正的策略[25][26] 新技术的优势与潜力 - 生成式AI助手在理解复杂、模糊或多任务指令方面能力显著增强,例如能同时理解并执行“调暗灯光”和“调高温度”的复合命令[34][35] - 具备一定的上下文理解和探究能力,例如当被质问为何不关音乐时,会尝试查询原因[36] - 在信息归纳与通知方面表现更智能,例如摄像头检测到运动后,能提供“门口出现不熟悉面孔”等更具描述性的通知,而非笼统的“检测到运动”[38][39][40] - 代表“代理式AI”方向,具备服务链式调用能力,能理解复杂任务关系并动态生成执行逻辑,这是旧有基于固定规则的系统无法实现的范式切换[30][31][32] 行业发展的共识与方向 - 用户讨论中形成的温和共识是:问题关键不在于是否引入AI,而在于界定其应用的“边界”,不应试图用AI替代一切已被验证的确定性执行机制[42] - 更合理的方向可能不是“去按钮化”,而是让AI辅助人类理解系统,而非完全取代传统的可靠控制接口[42] - 当前的混乱可能并非生成式AI的失败,而是将其放置在了并不适合其特性的核心控制位置[44] - 如何让LLM学会区分何时需要精确执行、何时可以随机发挥,仍是行业尚未解决的根本问题[1][27]
谷歌工程师抛出5个残酷问题:未来两年,软件工程还剩下什么?
机器之心· 2026-01-18 12:05
软件工程行业拐点 - 软件行业正站在一个微妙的拐点上,AI已从自动补全代码演进为能够自主执行开发任务的智能体[1] - 这一变化将初级和高级开发者同时推入不同但同样棘手的困境[2] - 软件工程正在从写代码的职业,转变为驾驭复杂系统与AI的职业,未来是多种路径并存[6] 初级开发者之问 - 随着AI自动化入门级任务,初级开发者招聘可能出现崩塌,也可能因软件渗透所有行业而重新反弹[8] - 一项覆盖6200万名劳动者的哈佛研究发现,企业采用生成式AI后,在六个季度内,初级开发者就业人数下降约9%–10%,而高级开发者就业几乎没有变化[8] - 过去三年,大型科技公司招聘的应届毕业生数量减少了50%[8] - 配备AI辅助的高级工程师,其产出已相当于过去一个小团队的工作量,许多公司选择不再招聘初级开发者[8] - 美国劳工统计局预计,2024年到2034年间,软件相关岗位将增长约15%,AI可能成为放大器,将开发工作扩展到过去几乎不雇程序员的领域[9] - 若完全切断初级人才培养管道,会造成5到10年后的领导力真空,行业老兵称之为“缓慢衰退”[9] 技能之问 - 当AI编写大部分代码后,编程基本功要么退化,要么因人类转向监督与把关而变得比以往更重要[14] - 84%的开发者日常工作中经常使用AI辅助,入门级开发者可能跳过基础训练,从未亲手实现过复杂算法或独立排查内存泄漏[14] - 技能结构正在迁移:从实现算法,转向知道如何向AI提出正确问题并验证其输出[14] - 另一种情景是,当AI处理掉80%的常规工作后,人类将专注于最困难的20%,如架构设计、复杂集成和创造性设计,深度知识价值更加凸显[15] - 在2025年,开发者社区讨论分裂,行业开始期待工程师同时具备AI带来的速度以及支撑质量的基础智慧[16] 角色之问 - 开发者角色可能收缩为有限的审计岗位(主要负责监督AI生成的代码),也可能扩展为关键性的编排者角色,负责设计和治理由AI驱动的系统[19] - 在一种设想中,开发者创造性职责被削弱,主要负责审计和看护AI的输出,编程逐渐像一种合规性工作[19] - 另一种未来是开发者进化为高层次的编排者,融合技术、战略与伦理责任,成为指挥由多个AI智能体和软件服务组成合奏的“作曲家”[20] - 最终走向取决于组织如何整合AI:视为劳动力替代品会缩减团队规模,视为团队放大器则可能让工程师承担更宏大的项目[20] 专才还是通才之问 - 过于狭窄的专才面临其细分领域被自动化或淘汰的风险,更受青睐的是T型工程师,既具备广泛适应能力,又在一两个方向上有深度专长[25] - 招聘市场追逐最新细分领域,几年前是云基础设施专家,如今是AI/ML工程师,只深耕昨日技术的人会在该领域失去吸引力时陷入停滞[26] - 接近45%的工程岗位期望候选人具备多领域能力,例如既会编程又懂云基础设施,或以前端为主但对机器学习有一定了解[27] - AI工具能放大通才的能力,让一个人同时处理多个组件变得更加容易,后端工程师可借助AI生成可用UI,前端工程师也能让AI生成服务器端样板代码[26] 教育之问 - 计算机科学学位是否仍是进入软件行业的黄金标准,还是会被更快的学习路径(训练营、在线平台、企业培训)所取代,成为关键问题[31] - 一种未来是大学课程内容落后于飞速变化的行业需求,学生和雇主感觉学术界与产业脱节[32] - 企业每年花费数十亿美元培训新员工,以弥补毕业生技能差距[32] - 更具颠覆性的情景是传统教育体系被新系统替代,如编程训练营、在线认证和自学作品集[33] - 到2024年,接近45%的公司计划在至少一部分岗位上取消学士学位门槛[33] - 编程训练营周期更短(例如12周高强度训练),重点放在实用技能上,招聘硬通货转向实时作品集、微证书和可验证技能[33]
红杉合伙人:2026,AGI已经来了
机器之心· 2026-01-18 12:05
文章核心观点 - 红杉资本合伙人认为,通用人工智能(AGI)已经到来,其功能性定义是“能把事情搞清楚的能力”,而长周期智能体(如Claude Code)是这一能力的首批例证 [1][8][14] - 长周期智能体的能力正以指数级速度增长,大约每7个月翻一番,预计到2028年能完成人类专家一天的工作,到2034年能完成一年的工作 [4][24] - 人工智能应用正从“说话者”向“行动者”演进,2026年将是长周期智能体的元年,它们将像同事一样全天候工作,彻底改变工作模式 [10][27] AGI的功能性定义与现状 - AGI被定义为“能把事情搞清楚的能力”,其核心要素包括:基础知识(预训练)、基于知识的推理能力(推理时计算)以及迭代寻找答案的能力(长周期智能体)[14][16] - 2022年ChatGPT的出现标志着知识/预训练要素的突破,2024年底o1的发布带来了推理/推理时计算能力,而过去几周Claude Code等编程智能体则跨越了长周期智能体的能力门槛 [16] - 长周期智能体已能像人一样连续自主工作数小时,发现并修正自身错误,无需具体指令即可自行判断,这标志着AGI在功能上已经实现 [16] 长周期智能体的能力例证 - 一个具体案例是,智能体在31分钟内为一位创始人找到了合适的开发者关系负责人候选人,过程包括在LinkedIn、YouTube、Twitter上交叉验证信息,并最终起草精准的挖角邮件 [3][4][20] - 该智能体自主完成了形成假设、验证、碰壁、转向直至找到答案的全过程,展示了在模糊情境中导航以达成目标的“把事情搞清楚”的能力 [4][20] - 智能体目前仍会失败,例如产生幻觉或丢失上下文,但趋势明确且这些失败正变得越来越可修复 [20] 技术路径与发展曲线 - 实现长周期智能体主要依赖两种可扩展的技术路径:强化学习(由研究实验室推动)和智能体框架(由应用层产品设计)[22][23][24] - 市场已出现一些以其智能体框架闻名的产品,例如Manus、Claude Code、Factory的Droids等 [24] - 根据METR的追踪,长周期智能体完成长周期任务的能力正以指数级进步,大约每7个月翻一番 [24] - 按此指数曲线推算,到2028年智能体可可靠完成人类专家一天的任务,2034年完成一年的任务,2037年完成一个世纪的任务 [24] 行业影响与应用前景 - AI应用正从2023-2024年的“说话者”(对话式应用)向2026-2027年的“行动者”演进,后者将像同事一样被全天候使用,用户将从个人贡献者转变为智能体团队的管理者 [27] - 长周期智能体将解锁基于“工作成果”出售的新商业模式,促使企业重新思考如何将工作产品化、可靠交付以及根据价值和成果定价 [28] - 多个行业已出现具体应用案例:医疗(OpenEvidence扮演专科医生)、法律(Harvey扮演律师助理)、网络安全(XBOW扮演渗透测试员)、运维(Traversal扮演SRE)、销售(Day AI扮演业务开发等)、招聘(Juicebox扮演招聘官)、数学(Harmonic扮演数学家)、芯片设计(Ricursive扮演芯片设计师)、AI研究(GPT-5.2和Claude扮演研究员)[31] - 长周期智能体将能处理海量、长期的任务,例如分析20万项临床试验、挖掘所有客户支持工单信号或重构整部美国税法,使原本雄心勃勃的路线图变得可行 [29][30]
VerseCrafter:给视频世界模型装上4D方向盘,精准运镜控物
机器之心· 2026-01-18 12:05
VerseCrafter模型的技术突破 - 复旦大学、腾讯PCG ARC Lab等机构的研究者提出了VerseCrafter,这是一个通过显式4D几何控制实现的动态逼真视频世界模型 [2] - 该模型能像“导演”一样精准控制相机运镜,同时指挥场景中多个物体的3D运动轨迹,为视频生成引入了物理世界维度 [2] - 其核心理念在于用一个统一的4D几何世界状态驱动视频生成,利用静态背景点云和每个物体的3D高斯轨迹,实现对相机和物体运动的解耦与协同控制 [5] 现有技术困境与解决方案 - 现有视频模型面临核心困境:视频在2D平面播放,但真实世界是4D的;现有方法难以在统一框架下同时实现精准的相机控制和多物体运动控制 [2] - VerseCrafter创新性地提出了一种基于3D高斯的表示方法,提供了一种软性、灵活且类别无关的表示方式,能以概率分布形式描述物体在3D空间中的占据情况 [9][11] - 模型采用冻结的Wan2.1-T2V-14B作为视频先验主干网络,并设计了一个轻量级的GeoAdapter,以极小的代价引入精确的4D控制 [12][13] 数据集构建 - 为训练4D世界模型,研究团队构建了VerseControl4D数据集,以解决缺乏大量带有精确4D标注的真实世界视频数据的问题 [15] - 该数据集使用静态背景点云表示环境几何,使用每物体3D高斯轨迹编码物体运动 [16] - 数据集构建结合了Qwen2.5-VL-72B、Grounded-SAM2、MegaSaM等先进工具进行自动化标注,包含35,000个训练视频片段,涵盖了丰富的动态和静态场景 [24] 模型性能与实验结果 - 实验表明,VerseCrafter在各项指标上均超越了现有的SOTA方法,如Perception-as-Control、Yume、Uni3C等 [21] - 在动态场景联合控制对比中,VerseCrafter能够精确地让物体沿着预设的3D高斯轨迹移动,同时完美执行相机运镜,且背景保持几何一致 [22][26] - 在静态场景运镜对比中,VerseCrafter的表现优于专门的ViewCrafter和Voyager等模型,在大幅度运镜下依然保持了建筑结构的笔直和纹理的清晰 [27][28] - 得益于统一的4D世界坐标系,VerseCrafter还支持多玩家视角生成,对于同一个动态事件,可以从完全不同的两个视角分别生成高度一致的视频 [29][30] 行业意义与应用前景 - VerseCrafter的出现标志着视频生成向可控4D世界模拟迈出了重要一步 [31] - 通过将显式的3D几何先验与强大的2D视频生成模型相结合,它不仅解决了复杂场景下的控制难题,也为游戏制作、电影预演和具身智能模拟提供了新的可能性 [31]
聊天框之外,AI 交互正在被哪些「新界面」重写?
机器之心· 2026-01-18 09:30
文章核心观点 - 当前以聊天对话框为主的AI交互形态是应用早期的权宜之计,存在固有局限,无法适配所有工作场景[1] - 业界正在特定场景中探索超越聊天框的新交互范式,以更贴近用户需求的方式承接复杂任务[1] 01. 聊天框只是 AI 应用早期的权宜之计? - 当前多数AI产品界面停留在聊天框,原因包括:技术原理上纯文本对话对模型最自然易于理解[4];产品参考上ChatGPT作为首个主要接口产生了巨大的锚定效应[5];运维上聊天框对AI出错的容错性高,可通过持续对话纠正而不中断流程[6];设计上聊天框是阻力最小的方案,可复用现有对话API和范式[7] - 有观点认为聊天交互时期将非常短暂,更成熟的交互范式将很快出现,类比早期Apple I电脑的原始形态[7] - 聊天窗口的局限不断被指出和改进,但无法解决的问题持续存在:对话界面导致不必要的交互轮次和时间消耗,部分产品通过专业场景功能(如深度研究)来缓解[7];聊天框存在用户学习成本高和上下文管理难的局限,衍生的Prompt工程不能完全改善表达障碍,会把近一半的潜在用户拒之门外[7];聊天框无法适配不同工作场景的普适性问题,例如产品经理需要的精确信息与AI散文式回答存在冲突,部分可通过表单勾选的任务在聊天窗口中仍需逐字回复[7] 02 . 聊天框之外,业内玩家如何探索特定场景下新的交互机会? - 单一的聊天对话界面在用户体验上的痛点,促使业界近几年探索不同形式的交互设计[9] - 探索方向包括在具有代表性的工作场景下,通过输入和输出模态、交互载体、交互流程等方面提供更符合用户偏好的AI产品[9]
AI 视频生成时代,留给人类的只有演技?
机器之心· 2026-01-17 14:21
行业技术突破 - AI视频生成技术已实现实时、高精度的角色替换,仅需一张参考照片即可在视频中“扮演”目标人物,效果逼真且与背景无割裂感[3][4] - 核心技术突破之一是快手推出的Kling 2.6 Motion Control Pro,能够精准控制长达30秒的肢体动作和面部表情,实现“角色替换”[8][9] - 技术进步显著,唇形同步、眨眼及微表情模拟更加自然,足以达到以假乱真的程度,不同模型在物理效果模拟(如Sora 2)和运动真实性(如Kling)方面各有专长[16] 应用场景与影响 - 技术应用已从专业影视制作下沉至个人用户,以前需要专业团队、摄影棚和灯光道具的镜头,现在仅需一部手机和一个AI工具即可完成[9] - 该技术正催生“虚拟网红”和AI直播等新业态,个人用户可在家中低成本实现“一人分饰多角”,制作出唇部同步完美、微表情和肢体语言高度一致的视频内容[5][11][12][13] - 技术对好莱坞等传统内容制作行业产生直接而重大的影响,可实现角色的无限替换且成本几乎可以忽略不计,引发行业变革讨论[6][8] 市场与产品现状 - 市场上已出现一系列可实现实时AI换脸或基于静态图片生成视频的工具,包括Kling 2.6、Deep-Live-Cam、DeepFaceLive、Swapface、SwapStream、VidMage和Video Face Swap AI等[15] - 相关工具价格日益亲民,每月费用在10美元到40美元之间,降低了使用门槛[16] - 基于此类技术生成的视频在社交媒体上传播广泛,单个视频动辄获得超百万播放量,显示出巨大的市场关注度和用户兴趣[7] 未来趋势 - 随着AI视频生成技术的持续进步,许多前所未有的创意和想法将得以实现,内容创作的门槛和形式将被重塑[18] - 在视频内容领域,建模质量的重要性可能下降,内容的流行度将更取决于创意和“整活”能力[17]
大模型听懂语音却反而变笨?港中深与微软联合解决语音大模型降智问题
机器之心· 2026-01-17 11:24
行业核心问题:语音大模型的模态推理鸿沟 - 当前语音大模型面临“模态推理鸿沟”核心难题,即模型被赋予听觉后,逻辑推理能力会显著衰退[2] - 行业巨头如OpenAI、Google、Meta均面临此挑战,并将其定义为“Intelligence Gap”或“Multimodal Tax”[3] - 具体表现为:GPT-4o在纯文本任务准确率达92%,但在端到端语音模式下得分跌至66%,出现26%的巨大跌幅[3] 现有解决方案的缺陷 - 主流语音大模型采用“语音编码器+适配器+LLM”三段式架构,但引入语音模态后推理能力出现断崖式下跌[10] - 现有修补方法存在缺陷:输入端强行对齐无法解决深层的“表征漂移”问题[11] - 输出端通过监督微调或知识蒸馏的方法属于离线策略,存在“目标不可达”和“Exposure Bias”问题,导致模型容错性差[12][19] 创新解决方案:TARS框架 - 香港中文大学(深圳)与微软团队联合提出TARS,这是一个基于强化学习(具体采用GRPO)的全新对齐框架[7][13] - 核心创新在于不依赖死记硬背的监督微调,而是通过对齐“思维轨迹”来恢复推理表现[7] - 框架包含三大关键创新:表征对齐、行为对齐、以及非对称奖励与模态归一化[13] 技术细节:TARS的三大创新 - **创新一:表征对齐**:计算语音与文本输入下每一层隐藏状态的余弦相似度作为奖励,引导语音分支的思维路径紧跟文本轨迹[15][16] - **创新二:行为对齐**:利用外部Embedding模型判断语音推理与文本参考的语义一致性,允许措辞差异,解决了“目标不可达”问题[17][21] - **创新三:非对称奖励与模态归一化**:语音分支额外获得对齐奖励以追赶文本;采用模态特定归一化,保证语音分支在困难任务下也能获得持续优化梯度[22][23] 实验结果与性能表现 - 在MMSU和OBQA两个高难度语音推理榜单上验证,基于Qwen2.5-Omni和Phi-4-MM架构进行实验[25] - **核心战绩**:TARS在7B模型上达到了100.45%的模态恢复率,意味着语音推理能力不仅完全恢复,甚至略微超过了文本基座水平[26][33] - **性能对比**:TARS在Phi-4-MM上的平均准确率达到79.80%,稳居7B规模模型第一,显著优于SFT、DPO、SALAD、AlignChat等基线方法[26][27][33] - **附加效益**:使用TARS训练后,模型的文本准确率也同步提升(Qwen提升2.39%,Phi提升5.43%),证明语音模态学习能增强文本推理能力[28] 行业影响与未来展望 - TARS标志着语音大模型研究的范式转变,证明了On-policy RL在解决模态对齐问题上优于传统的Off-policy方法[30] - 提出的“表征+行为”对齐策略,为打造拥有与纯文本模型同等智商的全能型Omni模型提供了可行路径[31] - 该研究成功消除了模态推理鸿沟,为实现高智商语音交互奠定了基础[31]
开源8300小时标注数据,新一代实时通用游戏AI Pixel2Play发布
机器之心· 2026-01-17 11:24
行业背景与问题 - 人工智能在代码和图片生成领域日益成熟,游戏领域成为AI研究的重要方向,早期研究已在Atari、星际争霸、Dota等游戏上训练出超越人类玩家的专用模型[2] - 然而,这些专用模型缺乏跨游戏的泛化能力,只能在单一游戏环境中运行[2] - 另一方面,ChatGPT和Gemini等通用模型在众多任务上表现出色,但在游戏环境中表现不佳,即便是简单的射击游戏也难以应对[2] 解决方案:Pixel2Play (P2P) 模型 - 来自Player2的研究员提出了Pixel2Play (P2P) 模型,旨在解决上述问题[2] - P2P模型以游戏画面和文本指令作为输入,直接输出对应的键盘与鼠标操作信号[2] - 该模型在消费级显卡RTX 5090上可实现超过20Hz的端到端推理速度,能够像人类一样与游戏进行实时交互[2] - P2P作为一个通用游戏基座模型,在超过40款游戏、总计8300+小时的游戏数据上进行了训练[2] - 该模型能够以零样本 (zero-shot) 的方式直接玩Roblox和Steam平台上的多款游戏[2] 开源与数据 - Open-P2P团队在无使用许可限制的情况下,开源了全部的训练与推理代码,并公开了所有的训练数据集[3] - 训练游戏AI模型需要高质量的游戏画面、文本指令以及对应的操作数据,这类“画面-操作”数据在互联网上很少见[5] - Open-P2P项目开源的大规模高质量人工标注操作数据,弥补了该领域的空缺[5] - 训练数据同时包括游戏图像画面与对应的文本指令,并提供了精确的键盘鼠标操作标注[8] 模型设计 - 为保证快速的推理速度,P2P选择了轻量级模型框架并从零开始训练[10] - 模型主体由一个解码器Transformer构成,并额外接入一个轻量化的action-decoder来生成最终的操作信号[10] - 该结构使得模型在推理时只需对主体模型进行一次前向计算,即可生成action-decoder所需的表征信号,从而使整体推理速度提升5倍[10] - 为实现跨游戏通用性,P2P采用自回归的离散token序列作为操作输出空间,每个操作由8个token表示:4个对应键盘按键,2个对应鼠标在水平与垂直方向上的离散位移,最后两个对应鼠标按键[10] - 在输入方面,除了当前帧图像与文本指令token外,P2P还会输入真实操作token,使模型能根据历史操作做决策,更贴近人类玩家的操作习惯[10] - 为保证模型的因果关系,训练时使用了特殊的掩码机制,以确保模型在预测时仅能看见历史真实操作[10] 模型规模与性能 - P2P共训练了四个不同规模的模型,参数量分别为150M、300M、600M和1.2B[12] - 在实测中,150M模型可以达到80Hz的端到端推理速度,而最大的1.2B模型也能达到40Hz,完全满足与游戏环境实时交互的需求[12] 模型评估结果 - 模型评估主要采用人工评估,评估环境选取自四款游戏:Steam平台上的Quake、DOOM,以及Roblox平台上的Hypershot、Be a Shark[13][14] - 在模型行为评估中,1.2B模型生成的游戏录像与较小模型进行人工比对,结果显示1.2B模型分别以80%、83%与75%的偏好度优于150M、300M和600M模型[13] - 在指令遵循评估中,对于“按下红色按钮”的文本指令,未接受指令的模型通过率只有20%,而接收指令后模型的通过率可大幅提高到80%,显示出优秀的文本指令理解和执行能力[15] 因果混淆分析与规模效应 - 因果混淆是行为克隆中的常见难题,在高频交互环境中尤其突出[17] - 研究发现,扩大模型的规模与增加训练模型的数据量能够有效提升模型对因果关系的理解能力,使其不再依赖虚假关联,从而学到更好的操作策略[17] - 随着训练数据增多与模型参数量增加,P2P模型在因果推断评估中的表现呈上升趋势[19] 团队与作者 - 本文第一作者岳煜光现任初创公司Player2研究员,负责游戏模型的开发和研究[21] - 在加入Player2之前,他曾先后在Amazon和Twitter担任研究人员,致力于语言模型与推荐系统的相关研究[21]
贴广告的ChatGPT,一夜之间让全球网友破了防
机器之心· 2026-01-17 11:24
OpenAI推出广告与低价订阅计划 - 公司宣布将在ChatGPT中引入广告,测试将在未来几周内率先在美国启动[1] - 广告将出现在免费版和新的低价订阅计划ChatGPT Go用户的AI生成回复底部,并标注“Sponsor”[5][8] - 广告不会打断对话流,且不会影响AI生成的答案内容[8][11] - 在涉及健康、心理健康、政治等敏感话题的对话中,不会显示广告[13] ChatGPT Go订阅计划详情 - ChatGPT Go是公司的低价订阅计划,已在全球上线,每月费用为8美元[5] - 该计划提供比免费版多10倍的消息额度、文件上传和图像生成功能、更大的内存、更长的上下文窗口,以及可以无限使用GPT 5.2 instant模型[5] - Go版用户无法使用GPT‑5.2 Thinking模型[7] - 更高层级的付费用户(Plus、Pro、Business和Enterprise版本)将不会看到广告[7] 广告运作模式与数据隐私 - 广告将根据用户的对话上下文进行匹配,例如询问食谱时可能出现相关食材或配送服务的广告[12] - 公司承诺广告商无法影响ChatGPT生成的答案内容[11] - 用户的具体对话内容不会被直接发送给广告商,只会用于匹配广告相关性[11] 公司面临的财务压力与战略转变 - 尽管公司估值即将达到7500亿美元,但其在算力和数据中心上的投入巨大,在2025年有高达1.4万亿美元的基础设施建设承诺[15] - 公司去年的预计收入为200亿美元,远不足以覆盖其巨额投入[15] - 为了维持运营并继续扩展AI大模型能力,引入广告被视为必要的商业化手段[16] - 这一决定标志着公司创始人兼CEO山姆・奥特曼立场的转变,他此前曾公开表达对广告的“精神上的厌恶”,并认为广告会干扰用户获取信息[17][19] 与马斯克的法律纠纷进展 - 加州北部地区法院解封的文件显示,OpenAI联合创始人Greg Brockman在2017年的私人日记中讨论了摆脱埃隆・马斯克控制并转向营利结构的想法[24] - 文件内容显示,Brockman曾写道“这是我们摆脱Elon的唯一机会……从财务角度,什么才能让我达到10亿美元?”并讨论了避免马斯克的控制“破坏经济利益”[24] - 马斯克在社交媒体上评论称“他们偷了一个慈善组织”[27] - 奥特曼回应称马斯克断章取义,并指出当时是马斯克自己大力推动公司改变结构,并提出了苛刻条件[29] - 加州联邦法官已裁定拒绝OpenAI的撤诉请求,该案件将于2026年4月27日进入陪审团审判[34]