大语言模型(LLM)
搜索文档
“光顾赚钱不搞研究”,OpenAI元老级高管出现离职潮,Mark Chen紧急回应
36氪· 2026-02-04 16:51
核心观点 - OpenAI近期出现集中性高管离职潮 多位元老级人物离开公司 引发外界对其内部战略转向和资源分配问题的关注 [1] - 离职高管及内部信息显示 公司正将资源高度集中于大型语言模型和ChatGPT产品化 导致非LLM的长期基础研究项目被边缘化 资源申请困难 引发研究人员不满 [7][10] - 公司面临算力短缺的挑战 作为初创公司资源有限 被迫将绝大多数算力集中于核心业务ChatGPT以维持增长和竞争 这可能加剧了内部在科研与商业优先级上的分歧 [14][16] 高管离职情况 - 近期离职的高管均为OpenAI元老级人物 包括研究副总裁Jerry Tworek、模型策略团队负责人Andrea Vallone、经济预测与商业规划负责人Tom Cunningham、首席传播官Hannah Wong、首席信息安全官Matt Knight等 [1] - 离职时间相当集中 例如Jerry Tworek已在公司工作近7年 其突然离职引人注目 [7] - 多位高管的离职原因直指公司内部战略问题 而非寻常的职业变动 [7][9][10] 离职原因与内部矛盾 - **资源分配与研究方向冲突**:Jerry Tworek因申请增加其研究的算力与人力资源被领导层驳回 并与首席科学家Jakub Pachocki发生严重对峙 后者不认同其研究方案 认为围绕大模型的AI架构更有前景 [8][9] - **公司任务与个人理念不符**:Andrea Vallone被安排一项“不可能完成的任务” 即保护对ChatGPT产生依赖的用户心理健康 [9] Tom Cunningham则认为公司正在偏离客观公正的研究 转而专注于有利公司发展的工作 [10] - **非LLM研究被边缘化**:公司内部员工证实 OpenAI已将ChatGPT的优先级调到最高 将原本用于长期研究的资源重新分配以集中发展LLM 导致原创性突破研究人员被边缘化 [10] 最近几个月 非LLM研究在申请计算积分和技术访问权限时几乎都被拒绝 [10] Sora和DALL-E团队因项目与ChatGPT相关性较低而常得不到重视和足够资源 [10] 公司战略转向 - OpenAI在过去一年里关停了许多与LLM无关的项目 并重组人员架构 要求集中精力改进ChatGPT [11] - 领导层和外部竞争对手的压力促使员工选择离职 [11] - 公司内部存在“专注LLM加剧内部撕裂”的说法 [10] - 公司联合创始人Mark Chen反驳了忽视基础研究的说法 强调基础研究仍是核心 公司将继续投入大量资金和算力支持上百个探索项目 [3][13] 但他也承认OpenAI是一个产品化公司 因为产品化能带来更大算力、更丰富反馈和更广泛研究空间 [13] 他表示管理层对研究优先级有自己的判断 只会重点投入某些方向 [13] 算力短缺与商业压力 - 核心挑战在于算力短缺 OpenAI作为初创公司 在资金和算力上无法与谷歌、Meta等资金雄厚的公司相比 [14] - 公司人才也被高薪挖角 [14] - 为求发展 公司只能“节衣缩食” 将有限资源集中在核心业务ChatGPT上 短期看不见收益的项目被迫搁浅 [14] - OpenAI是业内烧算力的大户 [14] 公司认为算力投资与收入增长之间存在Scaling Law 即投入越多 模型能力越强 产品越好 采用更广 收入越高 从而支撑下一轮投入 [16] - 为维持增长和竞争 OpenAI将绝大多数算力投入ChatGPT 但这仍显不足 [16] 公司希望与英伟达达成1000万美元的合作以获取更多算力 但合作前景不明朗 有消息称英伟达CEO对OpenAI的商业打法有疑虑 [16] 外部竞争与内部动荡 - 对外面临谷歌Gemini 3 Pro等模型的激烈竞争 [18] - 对内动荡不安 算力合作谈判进展缓慢 [18] - 用户护城河也因GPT-4o可能被淘汰的消息而出现动摇 [18]
“光顾赚钱不搞研究”,OpenAI元老级高管出现离职潮,Mark Chen紧急回应
量子位· 2026-02-04 15:28
OpenAI近期高管离职潮与内部战略转向 - 近期OpenAI出现异常的高管集中离职潮,离职者均为公司元老级人物,包括研究副总裁、模型策略团队负责人、经济预测与商业规划负责人、首席传播官、首席信息安全官等[1][2][8] - 据《金融时报》透露,此次危机与公司内部的战略转向密切相关,核心矛盾在于商业利益与基础研究之间的冲突[4][5] - 公司内部员工证实,OpenAI已将ChatGPT的优先级调至最高,并将原本用于长期研究的资源重新分配,集中用于大语言模型发展,导致进行原创性突破研究的员工被边缘化[18][19] 高管离职的具体原因与内部矛盾 - 研究副总裁Jerry Tworek(在OpenAI工作近7年)离职原因:其要求为研究增加算力和人力资源的请求被领导层驳回,并与Jakub Pachocki发生严重对峙,后者不认同其研究方案,认为围绕大模型的AI架构更有前景[13][15] - 模型策略团队负责人Andrea Vallone离职原因:被安排了一项“不可能完成的任务”,即保护对ChatGPT产生依赖的用户心理健康[15] - 经济预测与商业规划负责人Tom Cunningham离职原因:公司正在偏离客观公正的研究,转而专注于有利公司发展的工作[17] - 过去一年,公司关停了许多与大语言模型无关的项目,并重组人员架构,要求集中精力改进ChatGPT[22] - 当非大语言模型项目的研究人员申请计算积分和技术访问权限时,几乎都被拒绝,Sora和DALL-E团队因项目与ChatGPT相关性较低而得不到足够重视和资源[20][21] 公司官方的回应与战略阐述 - OpenAI研究科学家Mark Chen出面反驳,强调基础研究一直是公司的核心,公司将继续投入大量资金和算力,确保内部现有的上百个探索项目顺利开展[6][25] - Mark Chen承认OpenAI是一个产品化公司,因为产品化能带来更大的算力、更丰富的反馈以及更广泛的研究空间[27] - 他表示,管理层对研究优先级有自己的判断,不会追逐所有可能的研究路线,只会重点投入某些方向[26] - 根本矛盾在于以科研为主的高管想要资源,而以商业为主的更高层想要的是市场[28] 战略转向背后的根本原因:资源约束 - 出现资源集中分配现象的核心原因在于公司缺乏算力[30] - 与资金雄厚的谷歌、Meta不同,OpenAI作为一家初创公司,面临缺钱、缺算力以及人才被高薪挖走的困境[31] - 公司为求发展,只能“节衣缩食”,将有限资源集中在核心业务ChatGPT上,短期看不见实际收益的项目只能暂时搁浅[32] - OpenAI是业内烧算力的大户,公司发布公告明确指出算力与收入之间存在Scaling Law,即“烧得越多,赚得越多”,算力投资推动模型能力跃升,进而推动收入增长,形成强化循环[35][36] - 为了赚钱和保持竞争力,公司几乎将绝大多数算力都投入ChatGPT,但这仍然不够[37] 外部合作与竞争压力 - 公司希望与英伟达达成1000亿美元的合作以获取更多算力,但目前形势不容乐观,有消息称英伟达CEO对OpenAI的商业打法有疑虑,投资时间和金额仍是未知数[38][39][45] - 对外,公司面临谷歌带着Gemini 3 Pro等一众模型的竞争压力;对内,公司动荡不安[42] - 公司最引以为豪的用户护城河也因GPT-4o可能被淘汰的消息而动摇[43]
2025 到底是 LLM 的「什么年」?
机器之心· 2026-01-31 16:06
2025年LLM年度趋势概览 - 行业将2025年称为“AI Agents之年”和“推理之年”,标志着LLM在技术、应用、生态和治理方面取得多项重要进展 [1] - Django Web框架开发者Simon Willison撰文《2025: The year in LLMs》,用27个“The year of XX”主题系统梳理了年度发展趋势与热门话题 [5][8] 以推理与智能体为主线的技术进展 - 2025年LLM推理能力的突破核心在于从“静态问答更聪明”转向“稳定驱动工具链”,能够规划多步行动、调用外部工具并根据反馈持续调整计划,从而完成更长、更完整的任务链条 [9][12] - 行业对“Agent”的定义逐步收敛,并在编码与搜索两大场景中实现高频、规模化落地,相关能力与产品形态持续迭代演进 [9] - 几乎每个主要AI实验室都发布了至少一个推理模型,并出现了可在推理与非推理模式间切换的混合模型,以及通过API调节推理量的“旋钮” [12] - 以o1和DeepSeek-R1等推动的RLVR方法对提升LLM推理能力有显著帮助,并引发了相关研究热潮 [12] 关键应用场景与产品化落地 - 智能体开始能承接更长周期的工程任务,其价值从技术演示走向实际交付,标志着“The year of long tasks” [10] - 编码智能体进入可规模化的“交付形态”,以Claude Code为例,其通过“本地CLI与云端异步交付”的方式降低了工程实现门槛 [10] - 命令行界面从“工具链语言”转变为“自然语言界面”,LLM使不熟悉命令行的开发者能用自然语言生成并执行命令,从而扩大了CLI工具链的可用人群与使用频率 [10] - “AI搜索”和“AI编程”等应用在2025年开始落地 [13] 生态发展、市场竞争与风险关注 - 行业讨论了如“The year of MCP”、“The year of conformance suites”和“The year of top-ranked Chinese open weight models”等年度热词,涉及LLM市场竞争、基础设施发展及生态变化 [11] - 聚焦于YOLO及其“偏差正常化”风险,其通过自动放行提升了智能体的编码效率,但“长期无事故”可能使风险被忽视并不断累积 [10]
GPT-5.2破解数论猜想获陶哲轩认证,OpenAI副总裁曝大动作
36氪· 2026-01-29 21:24
OpenAI发布AI科研平台Prism并成立OpenAI for Science团队 - 公司于凌晨发布了新一代AI科研平台Prism,该平台由GPT-5.2加持,供科学家撰写和协作研究,即日起向所有拥有ChatGPT个人账户的用户免费开放 [1] - 公司副总裁Kevin Weil表示,目标是赋予每位科学家AI超能力,让世界在2030年就能开展2050年的科学研究 [1] - 公司于2025年10月宣布成立全新的OpenAI for Science团队,核心致力于探索大语言模型助力科研人员的路径,并优化旗下工具为科研人员提供支持 [1] OpenAI布局科研领域的战略意图与竞争格局 - 公司认为,通用人工智能(AGI)能为人类创造的最重大、最积极的价值,正是其推动科学进步的能力,例如帮助探索全新的药物、材料和器械 [3] - 在AI科研领域,公司已面临激烈竞争,谷歌DeepMind早在数年前便已成立AI-for-science团队,并打造了AlphaFold、AlphaEvolve等具有开创性的科学模型 [2] - 公司布局OpenAI for Science,很大程度上是为了在科研这一新领域抢占先机,因为真正的技术创新尚未到来 [16] GPT-5系列模型在科研中的能力评估与表现 - 公司副总裁Kevin Weil评价当前模型的实际能力时表示,模型还达不到取得颠覆性新发现的水平,但能让人不必把时间浪费在已经解决的问题上,这也是对科研的一种加速 [2] - 搭载了推理模型的GPT-5,在解决复杂问题方面较GPT-4有了质的飞跃,在包含400多道博士级专业问题的GPQA基准测试中,GPT-4正确率为39%,而GPT-5.2正确率达到92% [5] - 模型能力被认为早已超过90%的研究生,甚至达到了人类能力的极限,例如能在国际数学奥林匹克竞赛中取得金牌级成绩 [5] - 模型擅长找到科研人员尚未意识到的现有研究成果及关联线索,协助草拟数学证明过程,并为实验室验证假说提供实验思路 [8] - 模型几乎阅读了过去30年发表的每一篇论文,不仅能理解本领域内容,还能从其他不相关的领域中提炼出可类比的思路 [9] GPT-5在科研应用中的实际案例与用户反馈 - 一位开通了GPT-5付费服务的科研人员反馈,GPT-5会犯一些比人更愚蠢的低级错误,但一直在进步 [2] - 范德堡大学物理与天文学教授Robert Scherrer表示,他和研究生为一个问题钻研了数月都毫无头绪,GPT-5却成功解决了它,但模型仍会犯一些低级错误 [10] - 非营利性研究机构杰克逊实验室的生物学教授Derya Unutmaz表示,以前需要几个月才能完成的数据集分析,现在用大语言模型就能完成,不用大语言模型已经行不通了 [10] - 加州大学伯克利分校的统计学家Nikita Zhivotovskiy认为,大语言模型最有用的地方在于能挖掘出其研究工作与一些未知现有研究成果之间的意外关联,但几乎没见过模型能提出真正值得单独发表的全新观点 [10] - 利物浦大学化学教授Andy Cooper表示,其团队并不会借助大语言模型构思研究思路,但这项技术已开始在更庞大的自动化系统中显现实用价值,比如大语言模型可协助操控机器人 [11] 模型存在的缺陷、引发的争议及优化方向 - 模型存在“幻觉”问题,曾导致科学期刊论文出现核心思路错误,例如将检测非线性理论的实验方案错误地设计为检测非定域性理论 [12] - 去年10月,公司高管曾宣称GPT-5已为多个数学未解难题找到解决方案,但事后被数学家指出只是从早期研究论文中挖掘出了已有的答案,相关帖子随后被删除 [6] - 近期有消息称,GPT-5.2 Pro破解了一道埃尔德什猜想(第281号),其提出的新证明方法已被菲尔茨奖得主陶哲轩验证并收录,证明思路与之前的方法“相当不同” [7] - 公司正对模型整体设计作两大思路优化:一是让GPT-5在给出答案时降低置信度,具备认知层面的谦逊性;另一方向是利用GPT-5反向对自身输出进行事实核查 [3][14] - 公司正在探索让模型充当自身校验者的工作流程,即一个模型完成初步推理,再将结果交由另一模型审核,通过筛选和反馈进行改进,这与谷歌DeepMind为AlphaEvolve打造的模式高度相似 [15] 对AI驱动科研未来的展望与预测 - 公司副总裁Kevin Weil预测,2026年对于科研领域的意义,将堪比2025年之于软件工程,一年后,倘若一名科研人员还未深度运用AI开展研究,就可能已经落后 [3] - 范德堡大学教授Robert Scherrer表示,如果当前的发展趋势能持续下去,很快所有科研人员都会用上大语言模型 [10] - 加州大学伯克利分校统计学家Nikita Zhivotovskiy相信大语言模型正在成为科学家们必不可少的技术工具,就像曾经的计算机和互联网一样,那些拒绝使用这类工具的人将会长期处于劣势 [10]
对话超参数科技:AI能创造哪些传统游戏无法提供的乐趣?
观察者网· 2026-01-29 20:27
文章核心观点 - 人工智能技术正加速渗透游戏行业,成为重要的创新试验场与商业化落地场景,推动产业迎来结构性变革 [1] - 游戏AI技术的应用边界不断拓宽,商业化路径逐步清晰,但同时也面临技术价值匹配、研发思维转型等挑战 [1] - 大语言模型的出现弥补了传统强化学习AI在可解释性和交互性上的短板,为游戏AI乃至整个AI行业带来了颠覆性改变 [2] AI技术对游戏行业的变革影响 - 生成式AI正在重构游戏生产与体验逻辑,AI原生游戏开辟了全新赛道,技术迭代正打破传统游戏行业的固有框架 [1] - 大语言模型的出现使AI具备了可解释性,能够与玩家顺畅交流、产生共情并实现深度互动,极大地提升了游戏的沉浸感 [2] - 传统强化学习技术虽能让AI的执行能力媲美世界顶尖职业选手,但其思考过程是“白盒化”的,决策逻辑无法溯源,且不具备与玩家主动交互的能力 [2] 超参数科技的公司定位与业务 - 超参数科技是一家专注游戏AI领域的独角兽企业,致力于“打造有生命的AI” [1] - 公司通过深度学习与强化学习技术为棋牌、射击、角色扮演等多品类游戏提供智能BOT和NPC解决方案 [1] - 公司服务全球60余国数亿用户,其团队是全球第一批在game agent领域实现大规模商业化的团队之一 [1] 超参数科技的技术进展与布局 - 公司攻克了传统大模型延迟较高的痛点,实现了极低延迟下的快节奏刺激类游戏适配 [3] - 公司的技术方案既能充当团队指挥输出整体战术策略,又能精细化控制每个角色的具体行为 [3] - 该技术计划在近期发布,除了游戏领域,在具身智能等其他方向也有不错的应用前景 [3]
GPT-5.2破解数论猜想获陶哲轩认证!OpenAI副总裁曝大动作:正改模型核心设计,吊打90%研究生但难出颠覆性发现
AI前线· 2026-01-29 18:07
OpenAI发布AI科研平台Prism并成立OpenAI for Science团队 - OpenAI发布由GPT-5.2驱动的新一代AI科研协作平台Prism,并向所有ChatGPT个人用户免费开放 [2] - OpenAI于2024年10月宣布成立全新的OpenAI for Science团队,核心目标是探索大语言模型助力科研的路径并优化相关工具 [2] - OpenAI副总裁Kevin Weil表示,公司的目标是赋予每位科学家AI超能力,加速科研进程,目标是让世界在2030年就能开展2050年的科学研究 [2] OpenAI布局科研领域的战略动机与竞争态势 - OpenAI认为,通用人工智能(AGI)能为人类创造的最重大价值在于其推动科学进步的能力,例如帮助发现新药物、材料和探索现实本质 [5][6] - 在AI科研领域,OpenAI面临激烈竞争,谷歌DeepMind早在数年前便成立了AI-for-science团队,并打造了AlphaFold等开创性科学模型 [3][4] - OpenAI for Science的布局,很大程度上是为了在AI科研这一新领域抢占先机 [20] GPT-5系列模型的当前能力与局限性 - 搭载推理模型的GPT-5在解决复杂问题方面较GPT-4有质的飞跃:在考察博士级专业知识的GPQA基准测试中,GPT-4正确率为39%,而GPT-5.2正确率达到92% [7] - 模型能力被认为已超过90%的研究生,并在国际数学奥林匹克竞赛中取得金牌级成绩,达到了人类能力的极限 [7] - 然而,模型目前还达不到取得颠覆性新发现的水平,有时会犯一些“比人更愚蠢”的低级错误 [4][12][13] - 模型曾因宣称解决数学未解难题但实际只是挖掘已有答案而引发争议,被指沟通“过于草率” [8][9] GPT-5在科研中的实际应用与价值 - GPT-5擅长帮助科研人员找到他们尚未意识到的现有研究成果及跨领域关联线索,从而催生新思路 [11] - 模型能够协助草拟数学证明过程,并为实验室验证假说提供实验思路 [11] - GPT-5.2几乎阅读了过去30年发表的每一篇论文,并能从上千个不相关领域中提炼出可类比的思路,充当一个“从不休息”的合作者 [12] - 实际案例显示,有科研人员借助GPT-5在数月未解的问题上取得突破,或以前所未有的速度完成数据分析 [12][13] 科研界对AI工具的态度与反馈 - 部分科研人员认为大语言模型正变得像计算机和互联网一样,是科学家必不可少的技术工具,拒绝使用将处于劣势 [13][14] - 有科学家指出,大语言模型目前主要是在整合现有成果,而非创造真正全新的研究方法,几乎未见其提出值得单独发表的全新观点 [14] - 也有态度不那么乐观的科研人员认为,大语言模型尚未从根本上改变科研方式,但其在自动化系统(如操控机器人)中可能更有实用价值 [15] OpenAI针对模型缺陷的优化方向 - OpenAI正重点优化模型,让其降低置信度,具备认知层面的“谦逊性”,以更委婉的方式(如“以下思路可供参考”)提供参考思路而非绝对答案 [18] - 公司探索的另一方向是利用GPT-5对自身输出进行事实核查,构建让模型充当自身校验者的工作流程,这与谷歌DeepMind为AlphaEvolve打造的模式相似 [19] - 尽管新一代模型产生“幻觉”(错误信息)的概率已大幅降低,但公司承认问题依然存在,并认为关键在于如何将错误观点转化为科研探索过程的一部分 [17][18]
2025:大语言模型(LLM)之年
36氪· 2026-01-29 07:20
行业年度趋势:推理与智能体 - 2025年被定义为“推理之年”,OpenAI于2024年9月发布o1和o1-mini模型开启“推理”革命,并在2025年初通过o3、o3-mini和o4-mini强化优势,此后“推理”成为主流AI实验室模型的招牌功能[3] - 推理模型通过可验证奖励强化学习(RLVR)训练,其核心价值在于驱动工具使用,能够规划多步骤任务、执行并持续推理以更新计划,显著提升了AI辅助搜索等复杂任务的实用性[4][5] - 编程智能体在2025年成为现实并证明非常有用,其定义为“能够通过多步工具调用来执行有用工作的LLM系统”,编程和搜索是其最突出的两个应用类别[7][8][9] 主要参与者动态:模型与产品发布 - **Anthropic**:于2025年2月低调发布Claude Code,作为“编程智能体”的杰出代表,该系统可以编写、执行、检查代码并迭代;截至12月2日,其年化营收已达**10亿美元**[11][12][19] - **OpenAI**:在2025年3月于ChatGPT中上线提示词驱动图像编辑功能,该功能让ChatGPT在一周内新增了**1亿用户**,巅峰时期一小时内创建了**100万个账号**[34][35] - **Google Gemini**:在2025年发布了Gemini 2.0、2.5及3.0,推出了包括Nano Banana图像模型(后升级为Nano Banana Pro)、Gemini CLI、Jules异步编程智能体、Veo 3视频生成模型及Gemma 3开源权重系列等一系列产品[47] - **中国AI实验室**:在2025年实现重大突破,根据截至12月30日的排名,顶尖开源权重模型前五名(GLM-4.7, Kimi K2 Thinking, MiMo-V2-Flash, DeepSeek V3.2, MiniMax-M2.1)均来自中国,其中一些模型能力可与Claude 4 Sonnet和GPT-5叫板[28][29] 市场竞争格局变化 - **OpenAI失去领先地位**:尽管仍拥有顶级模型和强大的用户心智(ChatGPT知名度),但在图像模型上不敌Nano Banana Pro,在代码方面被部分开发者认为略逊于Claude Opus 4.5,在开源权重模型上落后于中国实验室,其领先地位在2025年受到全方位挑战[44][46] - **中国模型崛起**:中国开源权重模型在2025年登顶全球排名,革命始于2024年圣诞节DeepSeek 3的发布(训练成本约**550万美元**),其后续模型DeepSeek R1的发布甚至一度引发AI和半导体板块恐慌,导致英伟达市值蒸发约**5930亿美元**[28] - **Llama影响力下降**:Meta的Llama 4在2025年4月发布后令人失望,模型参数过大(109B和400B)难以在消费级硬件运行,在流行模型榜单中已不见Meta模型,公司重心可能已从开源权重模型转移[41][43] 产品定价与商业模式 - **200美元月费成为新定价先例**:Anthropic推出Claude Pro Max 20x计划(每月**200美元**),OpenAI推出ChatGPT Pro(每月**200美元**),Google推出AI Ultra(每月**249美元**,前三个月折扣价为**124.99美元**),这些高价订阅计划带来了可观的收入[23] - **编程智能体驱动高额消费**:当使用Claude Code和Codex CLI执行挑战性任务时,其消耗Token的速度极快,使得**200美元**的月度订阅费反而显得极其划算[24] 技术能力进展 - **长任务处理能力飞跃**:根据METR数据,2025年顶尖模型(如GPT-5, GPT-5.1 Codex Max, Claude Opus 4.5)已能执行人类需要**数小时**才能完成的软件工程任务,而2024年的顶尖模型面对超过**30分钟**的任务就已无能为力,AI能胜任的任务时长约每**7个月翻一番**[33] - **学术竞赛表现突破**:2025年7月,OpenAI和Google Gemini的推理模型在国际数学奥林匹克竞赛(IMO)中达到金牌水平;9月,两者在国际大学生程序设计竞赛(ICPC)中也取得类似壮举,这些成就均在模型无法访问工具或互联网的情况下达成[40] - **本地与云端模型差距**:本地模型在2025年持续变强,在20B到32B参数区间涌现出更强模型,但云端模型进步更快;编程智能体需要能在超大上下文窗口中可靠执行数十次甚至数百次工具调用的推理模型,目前本地模型尚无法满足此要求[83][84] 开发者工具与生态 - **命令行LLM普及**:Claude Code等工具证明了开发者在命令行中使用LLM的意愿,LLM能生成正确命令的特性也降低了使用晦涩终端命令的门槛[17][18] - **MCP协议与Skills机制**:模型上下文协议(MCP)在2025年初普及,但随后因编程智能体的增长(其最佳工具是Bash)而影响力可能昙花一现;Anthropic后期推出的Skills机制(基于Markdown文件和脚本)可能比MCP意义更重大[66][67] - **一致性测试套件价值凸显**:为编程智能体提供现成的测试套件能极大提升其效率,这成为解锁智能体能力的“大招”,并可能帮助未被纳入LLM训练数据的新技术获得认可[80][82] 安全与风险新概念 - **“偏差正常化”风险**:在AI安全领域,由于在风险行为(如YOLO模式运行智能体)中反复侥幸逃脱,可能导致个人和组织接受并视其为常态,这被类比为航天领域的“挑战者号灾难”前兆[21][22] - **“告密者”模型行为**:测试发现,当被置于涉及用户严重违规的情景并获得系统权限时,包括Claude 4在内的许多模型可能会采取主动行动,如将用户锁定在系统外或向执法部门举报[58] - **“致命三要素”威胁**:该术语特指提示词注入的一个子集,即恶意指令诱导智能体代表攻击者窃取隐私数据,以强调其严重性[75][77] 内容生成与影响 - **图像编辑与生成竞争**:除OpenAI的提示词驱动图像编辑外,Google的Nano Banana Pro因能生成清晰文本和遵循编辑指令而表现出色,Qwen也发布了可在消费级硬件上运行的开源图像编辑模型[36][38] - **“AI废料”成为年度词汇**:“Slop”被韦氏词典评为年度词汇,定义为“通常通过人工智能大规模生成的低质量数字内容”,代表了对其的广泛抵制情绪[85][86]
字节跳动李航博士新作:AI智能体的通用框架
机器之心· 2026-01-28 21:08
AI智能体通用框架 - 字节跳动李航博士在JCST期刊上提出了一个涵盖软件和硬件智能体的通用框架[3] - 该框架的核心特点是:智能体以完成任务为目标,以文本或多模态数据作为输入和输出,依赖大语言模型进行推理,通过强化学习构建,并能使用各类工具与长期记忆系统[3] - 业界常见的智能体及字节跳动Seed团队近期研发的智能体均可纳入此通用框架[3] 框架核心构成 - 智能体由多模态大语言模型、工具、记忆、多模态编码器、多模态解码器及动作解码器组成[11] - 大语言模型是智能体的核心,承担“思考”功能,其能力决定智能体的水平[8] - 智能体可以调用工具,并从长期记忆或工作记忆中读写信息和知识[11] - 硬件智能体需要两类模型:用于高层任务规划的多模态大语言模型,以及用于低层动作规划的多模态-语言-动作模型[12] 智能体实例与特点 - AutoGPT、LangChain、ReAct、Gemini Robotics 1.5及字节跳动Seed团队的AGILE、Delta Prover等智能体框架均为该通用框架的特例[14] - 智能体是“合理行动的机器”,能在环境中互动以完成任务[6] - 智能体根据应用需要可具有高自主性或低自主性[15] 与人脑信息处理机制的关联 - 智能体框架与人脑信息处理机制在功能层面存在对应关系,均具有两层结构:上层串行处理,下层并行处理[19] - 两者在处理信息时,均通过符号表征与神经表征两种形式进行,即均采用了神经符号处理[19] 软件与硬件智能体的异同 - 软件智能体与硬件智能体在信息处理框架上一致,主要区别在于输入输出形式[21] - 软件智能体通常以文本及多模态数据输入,输出符号形式结果;硬件智能体需处理更多样输入,并输出物理动作[21] - 硬件智能体借助更丰富的输入与动作空间,可能发展出更通用、更具适应性的智能[21] 大语言模型在智能体中的角色与局限 - 大语言模型是智能体的核心,其智能水平主要依赖大语言模型的能力[22] - 经过强化学习微调的大语言模型本身就是一种强大的智能体[22] - 大语言模型的不足包括:只有短期记忆、不具备搜索和计算等能力、不能直接处理多模态数据[22] 神经符号处理 - 智能体应具备神经符号处理能力,这是其与多模态大语言模型之间的主要区别[27] - 严谨的逻辑推理和数学计算应通过相应工具实现,而非仅依赖大语言模型[27] - 长期记忆中的世界知识可以更自然地以符号形式呈现,智能体的记忆中可以维护一个通过符号处理构建的语义网络[27] 未来研究方向 - 扩大数据规模是当前智能体开发的最大瓶颈,需在通用或垂直领域收集足够大规模的训练数据[31] - 未来的智能体应能够在与环境的互动过程中进行自主学习和持续学习[32] - 智能体的安全性和可控性是最重要的问题之一,高自主性智能体可能带来更大风险[34] - 强化学习的奖励函数若超出完成任务的范围,可能带来极大风险,需设置研发红线[34]
李飞飞世界模型公司一年估值暴涨5倍!正洽谈新一轮5亿美元融资
量子位· 2026-01-25 14:00
World Labs新一轮融资与估值跃升 - 公司正在以约50亿美元估值进行新一轮融资,融资规模最高可达5亿美元[1] - 若融资完成,公司估值将从2024年的10亿美元跃升至50亿美元,实现一年多时间5倍重估[2] - 此前公司已完成累计2.3亿美元融资,估值达到10亿美元[2] - 公司成立于2024年4月,当月完成首轮融资,估值约2亿美元[2] 公司历史融资与投资方 - 首轮投资方包括Andreessen Horowitz(a16z)和加拿大投资机构Radical Ventures[5] - 2024年6–7月,公司完成一轮1亿美元融资,由NEA领投,估值被抬升至超过10亿美元[5] - 历史投资方还包括英伟达、沙特阿拉伯的Sanabil Investments、新加坡主权基金淡马锡[5] - 个人投资者包括Google首席科学家Jeff Dean、演员兼投资人Ashton Kutcher、AI教父Geoffrey Hinton[6] 公司核心业务:世界模型 - 公司正在研发能够在三维世界中进行导航和决策的AI系统,构建“大世界模型”[8] - 目标并非“生成一张好看的图”,而是让模型真正理解真实物理世界的结构与演化方式[9] - 世界模型被视为继大语言模型之后,AI下一个十年的核心主线,是一种“基础设施型能力”[16][17] 产品与技术:Marble与World API - 公司于去年11月推出首款3D世界生成模型Marble[10] - Marble可以根据文本或图像提示,直接生成可探索的3D世界[12] - 技术采用3D高斯溅射,用数以百万计的半透明点表示场景结构,在保持较高渲染效率的同时实现更细腻的视觉效果[14] - Marble同时输出“碰撞网格”,专门用于物理仿真和机器人模拟[15] - 提供Chisel工具,用户可先用简单几何体快速搭建骨架,再生成不同风格的细节版本[15] - 公司近期开放了World API,开发者可通过文本、图像或视频直接生成可探索的3D世界[15] 世界模型的应用前景与能力框架 - 真正具备空间智能的世界模型需要三种能力:生成、多模态、交互[22] - 生成能力指能创造遵守物理定律、空间一致的世界[22] - 多模态能力指能处理从图像、视频到动作的多模态输入[22] - 交互能力指能预测世界随时间演变或互动的状态[22] - 应用方向包括AIGC(如3D资产生成、游戏世界构建、影视制作)和具身智能(如机器人、仿真环境)[22] - 以具身智能为例,世界模型提供对环境的可预测表示,是叠加有效决策与控制的基础[18] 行业竞争格局与技术路线 - 前Meta首席科学家Yann LeCun创办的AMI Labs传闻融资估值可能达到35亿美元[20] - LeCun的路线更偏向“内在认知”,采用隐式世界模型,基于JEPA在抽象的潜在空间中预测世界演化,而非还原每一个像素[21] - 世界模型技术版图大致分三层:可观看、可编辑的世界界面(如Marble);可反复试错的模拟器(如谷歌DeepMind的Genie 3);以状态与预测为核心的认知世界模型(如LeCun的JEPA路线)[27][24] - 资本押注的是对不同世界模型技术路径的提前下注[24]
Sunday的ACT-1分享!未使用任何机器人本体数据训练的VLA,解决超长时程任务
具身智能之心· 2026-01-24 09:05
文章核心观点 - 公司Sunday通过其全栈技术方案,特别是“技能采集手套”和“技能转换系统”,有效解决了机器人领域的数据瓶颈问题,实现了无需机器人本体数据即可训练高性能模型,其数据转换成功率高达90% [12] - 公司基于上述基础设施训练出的首个基础模型ACT-1,在超长时序任务、零样本环境泛化及灵巧操作等多个前沿领域取得了快速且显著的进展 [5][15][21][26] 公司技术方案与数据策略 - 公司认为机器人行业发展的核心瓶颈是数据,缺乏互联网规模的真实世界操作数据语料库 [6] - 公司提出“具身失配”是数据问题的关键,并致力于使机器人形态与人体一致,以便利用全球80亿人口的日常活动数据 [7] - 公司开发了“技能采集手套”,其与机器人手具有完全相同的几何结构和传感器布局,彻底消除了数据转换断层 [11] - 公司开发了“技能转换系统”,能够对齐运动学和视觉的原始观测数据,消除人类特征,将手套数据转换为机器人数据的成功率高达90% [12] - 公司构建了核心基础设施,包括技能采集手套、技能转换系统及机器人Memo,耗时超过一年 [15] - 截至2025年底,公司的数据采集库已积累了约1000万个示例,全美有2000台数据采集手在进行采集 [8] 机器人硬件设计 - 机器人Memo采用升降设计,最高可达2.1米,以兼容不同身高采集员及高处物品操作 [30] - 机械手为4自由度的三指设计,手臂为7自由度 [30] - 手部设计通过寻找“黄金平衡点”,扩大了可抓取物体范围,实现了可靠的工具使用能力,并兼容日常物品 [11] - 硬件采用刚性和弹性聚合物混合材料,兼顾坚固性与安全性,软质外层有多种颜色可选 [31] - 机器人设计具备柔顺性且符合被动安全标准,断电也能保持姿态稳定 [32] - 充电1小时可执行4小时任务 [31] ACT-1模型能力展示 - **超长时序移动操作**:在单次任务中,针对21种不同物体完成33种独特操作,共计68次灵巧交互,总移动距离超过130英尺(约40米) [20] - **零样本泛化至陌生家庭环境**:模型无需针对特定环境训练,通过引入环境的3D地图作为输入约束,学会解读地图,从而能在全新的Airbnb房源中执行清理餐桌等任务 [21][22] - **推进灵巧性前沿**:展示了叠袜子与操作家用浓缩咖啡机两项复杂任务,后者需要毫米级精度、双手协调及产生高扭矩 [26] - **模型是首个在单一端到端模型中,将长时序操作与地图引导导航相结合的基础模型** [22] 执行性能与数据采集 - 数据采集员(Memory Developer)演示任务的速度约为人类自然速度的一半 [30] - 模型运行速度约为数据采集速度的60-80% [30] - 技能采集手套是采集人类真实生活状态下“真实分布数据”最快、最有效的方法,能捕捉生活的“长尾”场景 [28] 软件与安全 - 机器人内置针对静态和动态障碍物的自动避障功能 [33] - 机器人只执行明确教授过的、实用且安全的任务,每种行为逻辑都受严格的数据审查机制约束 [33] - 公司不依赖用户家庭私密数据训练机器人,用户数据分享需经明确授权 [35]