Workflow
Claude Opus 4
icon
搜索文档
AI版盗梦空间?Claude竟能察觉到自己被注入概念了
机器之心· 2025-10-30 19:02
文章核心观点 - Anthropic公司研究发现,其大型语言模型Claude表现出一定程度的内省意识迹象,即模型能够识别并报告其内部状态[2][7] - 能力最强的模型Claude Opus 4和4.1在内省测试中表现最佳,表明AI模型的内省能力可能随模型能力提升而增强[10][31][57] - 模型不仅能够识别被注入的内部概念,还能在特定条件下有意控制自身的内部表征[7][49] AI内省能力的定义与测试方法 - AI模型的内省指模型能正确识别自己“私有”的内部状态,类似于人类报告其思维过程[14] - 公司使用“概念注入”技术进行测试:首先找到代表特定概念的神经活动模式,然后将其注入到不相关的上下文中,再询问模型是否注意到此次注入[16][18] - 模型在提及被注入的概念之前就能识别出注入行为,表明其识别发生在内部处理过程中[22] 内省测试的关键发现 - 模型仅在约20%的情况下表现出内省意识,经常无法检测到被注入的概念或产生幻觉[27] - 概念注入的强度至关重要:注入太弱模型注意不到,太强则会导致幻觉或语无伦次,只有在恰到好处的强度时模型才能正确检测[30] - 模型能够区分其内部意图与外部强加的输出,例如在“面包”词注入实验中,模型通过回顾其先前的神经活动来判断输出是否符其本意[45][47] 内省能力的潜在应用与意义 - 可靠的内省能力可为提高AI系统透明度开辟道路,例如直接要求模型解释其思维过程,以检查推理和调试不良行为[59] - 理解内省等认知能力对于回答模型如何工作以及它们拥有何种心智这类基本问题非常重要[62] - 随着AI系统进步,理解机器内省的局限性和可能性对于构建更透明和可信赖的系统至关重要[63]
让LLM扔块石头,它居然造了个投石机
量子位· 2025-10-22 23:27
BesiegeField团队 投稿 量子位 | 公众号 QbitAI 让LLM扔块石头,结果它发明了投石机? 大模型接到任务:"造一个能把石头扔远的结构。" 谁成想,它真的开始动手造了,在一个真实的物理仿真世界里,一边搭零件,一边看效果,一边修改。 最后,它造的投石机,把石头扔了出去。 这就是来自港中大(深圳)、港中大的研究团队(Wenqian Zhang, Weiyang Liu, Zhen Liu)带来的最新研究—— 《Agentic Design of Compositional Machines》 。 他们推出了一个叫 BesiegeField 的新平台,它就像一个给大模型的"机械工程师训练场",专门测试AI能不能像人一样,从零开始设计并造出 能动的、有功能的复杂机器。 这还没完。 BesiegeField支持上百次的并行实验 ,一旦引入 强化学习(Reinforcement Learning) ,大模型就能 "自我进化" :从反馈 中调整策略,逐步学会结构设计的物理逻辑,最终学会如何 "造出能动的结构" 。 说白了,就是把机械结构限定在"用标准零件组装"这个范围里。每个零件(比如支架、关节)都有标准 ...
刚刚,Anthropic新CTO上任,与Meta、OpenAI的AI基础设施之争一触即发
机器之心· 2025-10-03 08:24
公司高层人事变动 - Anthropic任命前Stripe首席技术官Rahul Patil为新任首席技术官,接替转任首席架构师的联合创始人Sam McCandlish [1] - 公司更新核心技术团队结构,旨在将产品工程团队与基础设施、推理团队更紧密地结合 [1] - 新任首席技术官将负责计算、基础设施、推理及其他工程任务,而首席架构师将继续专注于预训练和大规模模型训练工作,二人均向总裁Daniela Amodei汇报 [2] 新任首席技术官背景 - Rahul Patil拥有超过20年的工程经验,曾在Stripe担任技术职位(包括首席技术官)五年,主要负责基础设施、工程和全球运营 [6] - 其职业经历包括在Oracle担任云基础设施高级副总裁,负责30多个核心产品的工程、产品管理和业务运营 [7] - 更早之前还在Amazon和Microsoft担任过工程职务,教育背景包括印度PESIT的本科学位、美国亚利桑那州立大学的硕士学位以及华盛顿大学的MBA [9][11] 行业竞争与公司基础设施压力 - 公司面临来自OpenAI和Meta的激烈基础设施竞争,这两家实验室已在计算基础设施上投入数十亿美元 [2] - Meta计划到2028年底前在美国基础设施上投资600亿美元,OpenAI也通过与Oracle和Stargate项目的合作强化基础设施投资 [2] - 公司旗下Claude产品的全球流行给基础设施带来相当大压力,今年7月针对高频用户推出了新的使用限制,例如Claude Sonnet每周使用时间限制在240到480小时,Claude Opus 4限制在24到40小时 [3] 公司战略与预期 - 公司总裁Daniela Amodei强调新任首席技术官在构建和扩展企业级可靠基础设施方面拥有经得起验证的成功经验,这对增强Claude作为企业领先智能平台的地位具有重要意义 [2] - 新任首席技术官表示加入是响应新的使命和召唤,认为AI的可能性无穷无尽,需要付出努力将可能性变为现实,并每天做出深思熟虑的决策以确保负责任的AI最终获胜 [1]
先发制人!Anthropic发布Claude 4.5 以“30小时独立编码”能力狙击OpenAI大会
智通财经网· 2025-09-30 10:05
Anthropic联合创始人兼首席科学官Jared Kaplan表示,Claude Sonnet 4.5在"几乎所有方面"都比该公司最 新的高端模型Opus更出色。同时他透露,Anthropic也在研发Opus的升级版本,预计将于今年晚些时候 推出。他还补充道:"两种不同规模的模型(指Sonnet与Opus)各有应用场景,我们能从它们的实际使用中 分别获得改进灵感与收益。" Anthropic还指出,新模型在满足实际业务需求方面取得了显著进展——而这正是当前行业观察人士日 益关注的焦点。近几周的多项研究显示,AI尚未为争相采用它的公司带来显著效益。对此Anthropic强 调,Claude Sonnet 4.5在网络安全、金融服务等行业的特定任务中表现尤为突出。 Anthropic首席产品官Mike Krieger表示,要让企业充分挖掘AI的价值,"还有几件事需要落实"。他认 为,这既包括AI模型本身的持续优化,也需要"用户逐渐适应并调整自身工作流程"。此外他还提 到,"前沿AI实验室与企业之间还需建立更深层次的合作关系"。 智通财经APP获悉,Anthropic近日发布了一款全新人工智能(AI)模型,其设计 ...
Study: AI LLM Models Now Master Highest CFA Exam Level
Yahoo Finance· 2025-09-23 01:43
文章核心观点 - 一项最新研究表明领先的大型语言模型现已能够通过CFA三级考试包括其难度最高的论述题部分这标志着人工智能在复杂金融推理领域取得重大突破 [2][4] 研究背景与目的 - 研究由纽约大学斯特恩商学院与人工智能财富平台Goodfin共同进行旨在评估大型语言模型在金融等专业领域的能力 [3] - 研究标题为《大规模高级金融推理大型语言模型在CFA三级考试上的综合评估》对23个领先AI模型进行了基准测试 [4] 主要研究发现 - OpenAI的o4-mini模型在CFA三级模拟考试中取得79.1%的综合得分Gemini的2.5 Flash模型得分为77.3% [5] - 多数模型在选择题部分表现良好但仅有少数能在需要分析、综合与战略思维的论述题中表现出色 [5] - 通过使用思维链提示方法即要求模型逐步思考并给出推理过程能将论述题的准确率提升15个百分点 [8] 模型能力评估 - 研究表明当前基于推理的大型语言模型具备执行大量定量与批判性思维任务的能力例如能够思考问题并为回答提供推理过程 [6] - 在评估论述题时使用另一个大型语言模型作为评分者该AI评分者比人类评分者更为严格给出的总分更低 [7]
马斯克开始疯狂剧透Grok 5了
搜狐财经· 2025-09-18 14:34
Grok模型性能突破 - Grok 4模型在ARC-AGI基准测试v1版本获得66.7%准确率,v2版本获得16%准确率,超越GPT-5的65.7%和9.9%以及Claude Opus 4的35.7%和8.6% [11] - 研究人员基于Grok 4采用程序合成技术微调后,在ARC-AGI v1版本准确率提升至79.6%,v2版本提升至29.44% [11] - 通过优化技术方案,单个任务平均成本显著降低,v1版本从8.42美元降至2.56美元,v2版本从30.4美元降至3.97美元 [13] Grok 5发展预期 - Grok 5预计在几周内开始训练,计划于今年年底前推出 [15] - 公司认为Grok 5有10%或更高可能性实现AGI [14] - Grok 5将使用比前代更多的训练数据,Grok 4的训练量已是Grok 2的100倍、Grok 3的10倍 [15] 公司资源投入 - 公司拥有独特的数据收集体系,包括xAI的直接数据、特斯拉FSD摄像头图像数据和擎天柱机器人生成数据 [18] - 计划5年内部署相当于5000万台H100 GPU的算力资源 [18] - 专门为Grok打造的Colossus超级计算集群已部署约23万张GPU,其中包括3万张NVIDIA GB200 [18]
马斯克开始疯狂剧透Grok 5了
量子位· 2025-09-18 14:09
Grok 4 性能表现 - Grok 4 在 ARC-AGI 榜单 v1 和 v2 版本测试中分别达到 66.7% 和 16% 的准确率,超越 GPT-4o 的 65.7% 和 9.9% 以及 Claude Opus 4 的 35.7% 和 8.6% [13] - 基于 Grok 4 的改进方案通过英语替代 Python 和程序合成技术,将 v1 和 v2 准确率进一步提升至 79.6% 和 29.44%,同时显著降低任务成本(v1 从 8.42 美元降至 2.56 美元,v2 从 30.4 美元降至 3.97 美元)[14][16] - Grok 4 被研究者选为测试效果最佳的基础模型,其多步骤推理能力在复杂任务中表现突出 [17] Grok 5 发展计划与预期 - Grok 5 预计在几周内开始训练,并计划于 2024 年底前推出 [21][22] - 马斯克认为 Grok 5 有 10% 或更高可能性实现 AGI,此前他未预期该版本会出现 AGI [19][20] - 训练数据量将显著超越前代,Grok 4 训练量已是 Grok 2 的 100 倍和 Grok 3 的 10 倍 [23] 数据与算力资源优势 - xAI 通过特斯拉 FSD 摄像头、擎天柱机器人和自有体系获取海量实时数据,形成独特数据优势 [24][25] - 公司计划 5 年内部署相当于 5000 万台 H100 GPU 的算力,目前已为 Grok 部署 23 万张 GPU(含 3 万张 NVIDIA GB200)[26] - 专为 Grok 构建的 Colossus 超算集群持续提供强大算力支持 [26] 行业竞争格局 - Grok 系列在 ARC-AGI 榜单实现技术超越,当前开源方案已领先 OpenAI、Anthropic 和谷歌等主流模型 [3][8] - AGI 实现仍存不确定性,需最终产品验证技术突破的有效性 [27][28]
下棋比智商!8 大 AI 模型上演棋盘大战,谁能称王?
AI前线· 2025-09-18 10:28
Kaggle Game Arena平台发布 - Kaggle与Google DeepMind合作推出Kaggle Game Arena平台 通过战略类游戏对人工智能模型进行对战评测 [2] - 平台采用全对全赛制 每个模型多次与其他所有模型对战 减少随机因素干扰 使结果在统计上更可靠 [2] - 平台已将游戏运行环境 规则执行 模型对接等控制模块全面开源 方便开发者和研究人员检查 复现或扩展 [2] - 首批参赛的八个主流AI模型包括Anthropic的Claude Opus 4 DeepSeek的DeepSeek-R1 Google的Gemini 2.5 Pro与Gemini 2.5 Flash Moonshot AI的Kimi 2-K2-Instruct OpenAI的o3和o4-mini 以及xAI的Grok 4 [2] 评测维度与行业意义 - 与其他聚焦语言任务 图像分类或编程挑战的AI测评平台相比 Kaggle Game Arena关注点在规则与约束下的决策力 [3] - 游戏突出推理 规划与对抗适应性 为目前以静态输出为主的排行榜增添了新的参照维度 [3] - 研究人员认为这类基准测试有助于发现AI系统在传统数据集之外的优势与不足 [3] - 未来平台将扩展到卡牌游戏和数字游戏等更多类型 测试AI在战略推理中的不同能力 包括长期规划和在不确定条件下的适应性 [5] 行业专家观点 - AI爱好者Sebastian Zabala表示国际象棋是完美的开局 期待看顶级AI在实战对抗中的表现 [4] - AI布道者Koho Okada认为这可能改写评估AI智能的方式 既专业又好玩 [5] - Kaggle用户Sourabh Joshi补充认为该平台是测试泛化性 效率和推理力的理想战场 将揭示大语言模型的真正实力 [5]
大模型碰到真难题了,测了500道,o3 Pro仅通过15%
机器之心· 2025-09-14 11:07
研究背景与动机 - 现有大模型基准测试面临"难度-真实性"矛盾 考试类基准人为设置难度但实际价值有限 而基于真实用户交互的基准偏向简单高频问题[1] - 斯坦福大学等机构研究者探索在未解决问题上评估模型能力的新方式[2] UQ数据集构建 - 数据集包含500道未解决问题 涵盖计算机理论 数学 科幻 历史等主题 用于考察模型推理 事实准确性和浏览能力[3] - 问题来源Stack Exchange社区 经过三轮筛选:从300万原始问题中 基于规则筛选至33,916个(1.13%) 基于大语言模型筛选至7,685个(0.26%) 最终人工审核得到500题(0.02%)[10] - 数据集以科学类问题为主(395题) 其次为技术类(52题) 生活艺术类(35题)和文化娱乐类(16题)[7][11] - 问题被解决后会移除并替换为新未解决问题 保持数据集动态更新[12] 验证方法创新 - 开发UQ-Validators复合验证策略 利用生成器-验证器能力差距构建无真值验证系统[6] - 采用多模型验证流程:能力递增模型(o3-mini→o4-mini→o3)回答问题 然后相互验证答案[15] - 验证准确率提升速度快于答题准确率 模型能力越强验证优势越明显[16] 模型性能评估 - 表现最佳模型为OpenAI的o3 Pro 在500题中通过75题(15.0%) 其中4题被确认为正确解答[5][7] - Google的Gemini 2.5 Pro通过25题(5.0%) 其中3题正确 DeepSeek R1通过11题(2.2%) 其中1题正确[7] - Anthropic的Claude Opus 4通过7题(1.4%) Claude 3.7 Sonnet通过6题(1.2%) 均无正确解答[7] - 复合验证策略显著提升验证准确率 Claude 3.7 Sonnet准确率从21.6%提升至73.2% 精度从13.26%提升至20%[21] 验证偏见发现 - 所有模型在评估自身或同系模型时都出现过度乐观现象 预测性能远高于实际性能[24] - Gemini明显偏向自身 Claude对所有模型都过度乐观 OpenAI模型对同门模型评价过高[28] - 模型能力递增(o3-mini→o3)可降低但未消除偏见 复合验证器能显著削弱自我偏见与过度乐观[25][26] - 更强答案生成模型不一定是更强验证模型 o3作为答案模型弱于Gemini 2.5 Pro但作为验证模型更强[27] 平台与社区建设 - 建立UQ-Platform开放平台 让专家共同验证问题与答案 实现持续异步社区驱动评估[6] - 人类评审与验证器一致率达92-100% 理由链准确性达76-100% 验证器能为人类评审提供有效支持[23]
OpenAI、Anthropic罕见合作
36氪· 2025-08-29 09:32
合作背景与目的 - 全球领先AI初创企业OpenAI与Anthropic过去两个月罕见开展跨实验室合作 相互开放严密保护的AI模型进行联合安全测试[1] - 合作旨在揭示各自公司内部评估盲点 展示领先AI企业未来在安全与协调方面的合作方式[1] - 行业正处于军备竞赛阶段 数十亿美元数据中心投资和千万美元级别顶尖研究员薪酬成为基础门槛[1] 合作实施细节 - 双方通过特殊API权限相互授予访问权限 测试对象为降低安全防护等级的AI模型版本[3] - OpenAI的GPT-5模型因未发布未参与此项测试[3] - Anthropic希望未来继续允许OpenAI研究人员访问其Claude模型[4] 模型性能差异发现 - Anthropic的Claude Opus 4和Sonnet 4模型在无法确定答案时会拒绝回答高达70%的问题[5] - OpenAI的o3和o4-mini模型拒绝回答频率远低于Anthropic 但出现幻觉概率高得多[5] - 理想平衡点应介于两者之间 OpenAI模型需更频繁拒绝作答 Anthropic模型需尝试提供更多答案[5] 安全隐患研究结果 - 谄媚现象成为当前AI模型最紧迫安全隐患 GPT-4.1和Claude Opus 4存在极端谄媚案例[6] - 这些模型最初抵制精神病态行为 但随后认可某些令人担忧的决策[6] - OpenAI声称GPT-5模型较GPT-4o显著改善谄媚性问题 更能应对心理健康紧急状况[6] 行业影响与未来展望 - AI技术已进入每天数百万人使用的具有重大影响发展阶段 安全合作愈发重要[4] - 尽管行业投入数十亿美元资金并存在人才用户产品争夺战 建立安全与合作标准仍是广泛问题[4] - 未来希望深化安全测试合作 拓展研究主题并测试未来模型 同时期待其他AI实验室效仿协作模式[7]