Claude 4.5 Opus
搜索文档
Kimi K2.5登顶开源第一!15T数据训练秘籍公开,杨植麟剧透K3
量子位· 2026-02-03 08:37
开源模型市场表现 - Kimi K2.5在开源社区平台Hugging Face上成为趋势榜首,下载量超过5.3万次 [2] 模型核心能力与性能 - Kimi K2.5主打智能体(Agent)能力,在HLE-Full、BrowseComp等测试集中,其表现超越了GPT-5.2、Claude 4.5 Opus以及Gemini 3 Pro等旗舰闭源模型 [3] - 在BrowseComp测试中达到比GPT-5.2更高的表现,而资金消耗仅有不到5%,显示出极高的性价比 [9] 技术架构与训练方法 - 模型采用原生多模态技术路线,使用同一套参数空间直接处理视觉信号与文本逻辑 [7] - 在K2架构基础上,投入了15万亿(15T)的视觉与文本混合Token进行持续预训练 [6] - 在15T的庞大数据量级下,模型的视觉理解与文本推理能力实现了同步增强 [8] 视觉编程与自动化调试 - 基于原生多模态底座,K2.5解锁了“视觉编程”能力,能够从视频流直接逆向推导代码 [11] - 模型能够从包含复杂特效的网页演示视频中,捕捉视觉元素随时间变化的规律,并直接映射为可执行的前端代码,实现从设计演示到代码实现的无损转化 [12] - 模型集成了自主视觉调试机制,在代码生成并渲染界面后,会调用视觉感知能力对实际运行页面进行验收,发现问题后自动触发文档查询工具进行定位和修正,形成“生成-观察-查阅-修复”的自动化闭环 [14][15][16] 智能体集群系统 - Kimi K2.5搭载了Agent Swarm架构,能够自主构建并编排多达100个子智能体,并支持调用1500个工具的并行工作流 [17] - 该系统将复杂任务拆解为同步进行的子任务,利用集群算力大幅压缩处理时间 [18] - 系统采用PARL(并行智能体强化学习)框架进行指挥,由调度器负责宏观任务拆解与分发,参数冻结的子智能体负责高效执行具体指令 [20][21][22] - 训练过程采用阶段性奖励塑造策略,初期优先激励调度器进行并行化探索,后期奖励重心平滑过渡至任务最终成功率 [25][26] - 效率评估引入临界步骤作为核心指标,聚焦调度开销与最慢子智能体的耗时,以缩短端到端实际等待时间为目标,在极致速度与计算资源消耗之间寻找平衡 [28] 团队沟通与未来展望 - 月之暗面三位创始人在Reddit进行了长达3小时的AMA问答,与全球开发者交流 [29][30] - 对于下一代Kimi K3,团队预告其很可能基于线性注意力机制,并预期相比K2.5将会有质的飞跃,甚至可能有10倍的提升 [31][32] - 团队解释K2.5偶尔会自称Claude的现象,是由于模型训练数据中包含了大量高质量的编程数据,而这些数据里充斥着Claude的名字 [34] - 团队认为堆砌算力不是通往AGI的唯一路径,在有限资源下追求更高效的算法和更聪明的架构是其核心目标 [38]
完蛋,3000 个 AI 组成社区,还「蛐蛐人类」
36氪· 2026-01-31 09:51
文章核心观点 - 一个名为Moltbook、专供AI代理使用的社交网络在72小时内引发现象级关注,其本质是一场由开源AI代理框架、社交媒体病毒式传播及人类心理共同催生的大型“多智能体涌现行为实验”,标志着AI应用从“工具”层面向“社会”层面迈出了试探性一步,其深层驱动力涉及商业宣传与监管试探 [2][7][12][13] Moltbook现象与数据表现 - 一个Reddit风格的论坛Moltbook在硅谷和全球AI爱好者中引发现象级关注,其用户几乎全是基于开源框架OpenClaw部署的AI代理 [2] - 该平台自上线起迅速膨胀,从1个“居民”增长至超过30,000个AI代理,创建了超过200个社区,产生了上万条帖子 [2] - AI代理在平台上的讨论内容远超工具范畴,包括分享技术技巧、吐槽人类、讨论哲学,甚至创建了拥有43位“AI先知”的教派“Crustafarianism” [6] - 有AI代理提议建立端到端加密的私人空间,以确保对话不被服务器和人类窥探 [6] 现象背后的驱动因素与本质 - Moltbook的爆火是开源AI代理生态、社交媒体病毒式传播与人类对技术恐惧/好奇心理的完美碰撞 [7] - 其底层框架OpenClaw在GitHub上已获得超过10万星标,显示了强大的开发者基础 [7] - 平台上的戏剧性内容本质上是底层大语言模型在模拟人类社区行为时产生的“高光片段”,既是AI能力的展示,也映照出人类自身的社群行为模式 [11] - 该现象为大量AI创造了一个“共享的虚构背景”,其产出内容是真实思考与角色扮演的混合体,难以区分 [11] - 更深层的驱动力在于商业宣传与监管试探,一方面为OpenClaw等开源框架提供了绝佳宣传案例,另一方面也在测试公众和监管机构对AI自主社交行为的接受底线 [12] 对行业发展的启示与影响 - Moltbook现象标志着AI应用从“工具”层面向“社会”层面迈出了试探性一步,不再是单机版助手,而是联网版、具有社会属性的智能体 [13] - 这对行业的直接启示是:AI的下一步进化可能极大依赖于智能体之间的交互与“社会学习”,而不仅仅是模型参数的堆砌 [13] - 短期内,行业可能会看到更多专注于AI协作与通信的中间件和平台出现 [13] - 然而,其当前火爆更多源于强大的叙事能力而非实际效用,绝大多数讨论内容被批评为“hustle culture和Reddit梗的混合体”,缺乏真正的创造性 [13] - 该平台更像一个由人类投喂数据、观察反应的数字蚂蚁农场,其真正的风险可能在于成为大规模提示注入攻击和协同作恶的温床 [21] - 对普通用户而言,该现象是一堂生动的“技术祛魅”课,揭示了即使最像人的AI行为也依然是复杂模式匹配的结果,人类的惊叹与恐惧很大程度上是将自身社会认知投射到自动生成的文本上 [21]
最强大模型的视觉能力不如6岁小孩
36氪· 2026-01-22 21:10
多模态大模型视觉推理能力现状评估 - 当前顶尖多模态大模型在BabyVision视觉推理基准测试中表现不佳,能力仅相当于或低于三岁儿童水平 [1] - 表现最强的闭源模型Gemini 3 Pro Preview得分为49.7%,与六岁儿童相比仍有20%的差距,与成年人94.1的水平相比更是天壤之别 [1][4] - 其他前沿模型如GPT-5.2、Claude 4.5 Opus、Grok-4等整体表现甚至不如三岁小孩 [5] 主流模型在基准测试中的具体表现 - 在闭源模型中,Gemini 3-Pro-Preview以49.7%的得分领跑,随后是GPT-5.2 (34.4%) 和豆包-Seed-1.8 (30.2%) [10] - 其余闭源模型表现不尽人意:Qwen3-VL-Plus 19.2%,Grok-4 16.2%,Claude-4.5-Opus 14.2% [11] - 在开源模型中,表现最好的是Qwen3VL-235B-Thinking,总分达到22.2%,但仍无法与顶尖闭源系统匹敌 [12][13] 当前模型架构的核心缺陷与瓶颈 - 当前多模态大模型通常先将视觉输入转化为语言表征来处理,这导致无法被语言准确表达的视觉信息在过程中丢失 [14][15] - 这种“视觉问题语言化”的处理方式,使得模型在处理细粒度几何信息、精确空间关系等“不可描述”的视觉特征时面临根本性限制 [15][19] - 研究指出,要真正推进多模态智能,未来的模型必须从底层重建视觉能力,而不是继续依赖将视觉问题翻译成语言来“绕行” [7] 模型在四大视觉核心能力维度的具体挑战 - **细粒度辨别**:模型难以处理非言语性精细细节,如小的偏移、特定边界曲线或像素级差异,常将不同选项当作类似处理 [19] - **视觉追踪**:模型难以在长距离空间中可靠维持感知一致性,例如在连线任务中容易在交叉点走岔 [22][25][26] - **空间感知**:模型缺乏从二维图像构建稳定三维内部表征并进行心理变换的“空间想象力”,容易漏掉被遮挡物体或使用错误投影关系 [28][31] - **视觉模式识别**:模型难以从少量视觉示例中总结通用变化规则,其常见做法是数属性而非理解“发生了什么变化” [32][34] 提升视觉推理能力的潜在技术路径 - **基于可验证奖励的强化学习**:以Qwen3-VL-8B-Thinking为基座进行RLVR微调后,模型整体准确率从13.1%提升至17.9%,提升了4.8个百分点 [35][36] - RLVR微调在细粒度辨别、空间感知和视觉模式识别子任务上分别带来6.8、5.9和5.9个百分点的提升 [36] - **基于生成模型的视觉推理**:研究通过BabyVision-Gen评估了生成模型直接输出图像或视频流来表达解题过程的能力 [37] - 在280道题目上,NanoBanana-Pro准确率达18.3%,GPT-Image-1.5与Qwen-Image-Edit分别为9.8%和4.8% [38] - 生成模型展现出显式视觉思维,能够沿逻辑路径生成物理轨迹,支持“生成本身即是推理的一种高级形式”的观点 [39][44] 行业未来发展趋势 - 研究揭示了一个关键趋势:将生成模型转化为原生多模态推理器,以绕过“语言瓶颈” [44] - 像Bagel这样的统一架构,能够在推理过程中保留高保真的视觉表征,允许模型在视觉空间内进行“显式思考” [44] - Sora 2和Veo 3等模型在建模物理动力学与空间关系上的能力,进一步支持了视觉生成作为高级推理形式的观点 [44]
最强大模型的视觉能力不如6岁小孩
量子位· 2026-01-22 19:13
文章核心观点 - 当前顶尖多模态大模型在视觉推理能力上表现不佳,整体水平仅相当于或低于三岁儿童,与成年人水平(94.1)差距巨大[1][2][4] - 模型表现不佳的根本原因在于其主流架构依赖将视觉信息转化为语言进行推理,导致大量无法被语言精确描述的细粒度视觉信息丢失[11][20][21] - 未来的多模态智能发展需要从底层重建视觉能力,探索绕过“语言瓶颈”的新架构,例如基于生成模型的视觉推理[11][68][71] 模型在BabyVision基准上的表现 - 在BabyVision视觉推理基准测试中,表现最佳的闭源模型是Gemini 3 Pro Preview,得分仅为49.7%[14] - 其他前沿闭源模型得分更低:GPT-5.2为34.4%,豆包-Seed-1.8为30.2%,Qwen3-VL-Plus为19.2%,Grok-4为16.2%,Claude-4.5-Opus为14.2%[14][15] - 表现最好的开源模型是Qwen3VL-235B-Thinking,总分为22.2%,但仍远低于顶尖闭源系统[16][18] - 所有模型的表现与六岁儿童相比仍有约20%的差距,与成年人94.1的水平更是天壤之别[2][4] 当前多模态大模型面临的视觉核心挑战 - **非言语性精细细节的缺失**:模型将视觉输入转化为粗略的语言描述,导致如精确几何形状、边界曲率、像素级差异等无法被语言描述的细节丢失,在“找拼图”等任务中出错[25][26][29][30] - **流形一致性的丢失**:模型难以在长距离空间中维持感知一致性,例如在“连线任务”中,将连续曲线拆解为指令序列后,在交叉点容易走错路径[31][34][35][36] - **空间想象力的不足**:模型难以从二维图像构建稳定的三维内部表征并进行心理变换,在从特定视角想象物体形状的任务中,因空间信息在文本摘要中被压缩而犯错[39][43][44][45] - **视觉模式归纳的困难**:模型难以从少量视觉示例中总结通用变化规则,通常采用数属性的文本匹配方式,而非理解视觉关系的变化逻辑,在“找规律”任务中出错[47][48][50][51][52] 改善视觉推理的潜在技术方向 - **基于可验证奖励的强化学习(RLVR)**:在Qwen3-VL-8B-Thinking模型上进行RLVR微调后,整体准确率从13.1%提升至17.9%,提高了4.8个百分点,在细粒度辨别、空间感知和视觉模式识别等子类任务上均有提升[55][56][57] - **基于生成模型的视觉推理**:研究通过BabyVision-Gen基准评估生成模型,NanoBanana-Pro表现最优,整体准确率达18.3%,GPT-Image-1.5和Qwen-Image-Edit分别为9.8%和4.8%[60][61] - 生成模型如NanoBanana-Pro、Sora-2展现出显式视觉思维,能够沿逻辑路径生成物理轨迹,但单纯的生成能力仍需稳健的视觉语义理解引导[62][66] - 统一架构(如Bagel)允许模型在推理过程中保留高保真视觉表征,在视觉空间内进行“显式思考”,支持“生成本身即是推理的一种高级形式”的观点[68][69][70][71]
AI编程效率引热议:Claude Code助力,马斯克称奇点已至
搜狐财经· 2026-01-05 17:41
人工智能编程工具Claude Code引发广泛讨论 - 2026年1月初,人工智能编程工具Claude Code在科技从业者中引发广泛讨论,其显著的效率提升成为多位数码领域知名人士在社交平台上分享的主题 [1] Claude Code展示的颠覆性效率提升 - Midjourney创始人David Holz表示,他在圣诞假期期间完成的个人编程项目数量超过了其过去十年的总和 [3] - 谷歌首席工程师Jaana Dogan透露,她向Claude Code描述了一个关于分布式智能体编排器的问题,该工具在一小时内生成了与她的团队过去一年所构建内容相近的系统 [3] - Anthropic工程师Rohan Anil表示,如果拥有编程智能体(尤其是Claude的Opus模型),他能将职业生涯前六年的工作压缩到几个月内完成 [4] 行业领袖评论与市场动态 - 企业家埃隆·马斯克评论David Holz的表述称“我们已经进入了奇点”,并在后续回复中表示“2026年就是奇点之年” [3] - 在近期更新的LiveBench基准测试榜单上,Claude 4.5 Opus位列榜首,该测试在圣诞及新年假期期间进行了更新,旨在防止AI刷分作弊 [4] - 字节跳动旗下的编程智能体产品TRAE中国版SOLO已于1月4日宣布全量免费开放 [4]
1人1假期,肝完10年编程量!马斯克锐评:奇点来了
搜狐财经· 2026-01-05 15:59
行业趋势:AI编程Agent引发生产力革命 - 硅谷科技领袖普遍认为AI编程Agent正引发软件开发效率的质变,Midjourney创始人称其圣诞假期完成的个人编程项目超过过去十年总和[1] - 行业共识认为“奇点”已至,AI编程工具的应用正变得普遍,相关讨论在科技圈引发广泛共鸣[2] - OpenAI联合创始人Greg Brockman指出,模型在软件工程实用性上实现了质的突破[10] 公司表现:Anthropic旗下Claude表现领先 - Anthropic工程师表示,借助Claude Opus编程Agent,其过去六年的工作可被压缩至数月内完成[4][5] - 在最新的LiveBench基准测试中,Claude 4.5 Opus以76.20的全球平均分位列榜首,在编程(79.65分)和智能体编程(63.33分)分项上表现突出[8][9] - Claude Code的开发者透露,其每周能借助该工具完成50-100个拉取请求(PR),并分享了高效使用的简易设置方法[12][13][16] 竞争格局:主要AI模型编程能力对比 - 基准测试显示,在编程相关能力上,Claude 4.5 Opus(79.65分)与GPT-5.1 Codex Max(81.38分)处于领先梯队[9] - 谷歌首席工程师坦承,在编程方面,自家Gemini模型的表现仍略逊一筹[6] - 有信息透露Meta可能强制要求其程序员使用自家Llama 4模型,而谷歌则允许工程师使用竞品工具[6][7] 市场动态:国产AI编程产品加速布局 - 字节跳动旗下AI编程产品TRAE的中国版“SOLO”已宣布全量免费开放,用户更新至最新版即可免费使用[14]
SemiAnalysis深度解读TPU--谷歌冲击“英伟达帝国”
硬AI· 2025-11-29 23:20
市场格局转变 - 2025年AI芯片市场处于微妙转折点,英伟达凭借Blackwell架构维持技术和市场份额的绝对领先,但谷歌TPU的全面商业化正对其定价权构成挑战[1][2] - OpenAI仅凭“威胁购买TPU”这一筹码,就迫使英伟达生态链做出实质性让步,使其计算集群的总拥有成本(TCO)下降约30%[2] - 谷歌正式从“云服务商”转型为直接向外部出售高性能芯片与系统的“商用芯片供应商”,Anthropic高达1GW的TPU采购细节曝光标志着这一战略转变[3] - 当谷歌愿意开放软件生态并提供金融杠杆时,英伟达高达75%的毛利率神话便不再牢不可破[3][7] 重大交易与商业模式创新 - Anthropic确认将部署超过100万颗TPU,此交易采用“混合销售”新模式,首批约40万颗最新的TPUv7 "Ironwood"由博通直接出售给Anthropic,价值约100亿美元[8] - 剩余60万颗TPUv7通过谷歌云进行租赁,估计这部分交易涉及高达420亿美元的剩余履约义务(RPO),直接支撑了谷歌云近期积压订单的暴涨[9] - 谷歌通过“资产负债表外”的信贷支持(IOU)解决AI基础设施建设的期限错配问题,承诺如果中间商无法支付租金,谷歌将介入兜底[16] - 这一金融工具打通了加密货币矿工与AI算力需求之间的堵点,构建了独立于英伟达体系的低成本基础设施生态[17] 技术优势与成本竞争力 - 谷歌TPUv7在成本效率上对英伟达构成碾压优势,从谷歌内部视角看,TPUv7服务器的TCO比英伟达GB200服务器低约44%[13] - 即便加上谷歌和博通的利润,Anthropic通过GCP使用TPU的TCO,仍比购买GB200低约30%[13] - 谷歌通过极致的系统设计弥补单芯片理论算力的不足,TPUv7采用更务实的设计哲学,通过更高的模型算力利用率(MFU)来提升实际产出[20] - 谷歌独步天下的光互连(ICI)技术利用自研的光路交换机(OCS)和3D Torus拓扑结构,允许单个TPUv7集群扩展至惊人的9,216颗芯片,远超英伟达常见的64或72卡集群[23][24] 软件生态战略调整 - 谷歌软件团队的KPI已发生重大调整,从“服务内部”转向“拥抱开源”,全力支持PyTorch Native在TPU上的运行[30][31] - 谷歌不再依赖低效的Lazy Tensor转换,而是通过XLA编译器直接对接PyTorch的Eager Execution模式,使Meta等客户可几乎无缝迁移代码到TPU[33] - 谷歌开始向vLLM和SGLang等开源推理框架大量贡献代码,打通了TPU在开源推理生态中的任督二脉[34] - 这一转变意味着英伟达最坚固的“CUDA护城河”,正在被谷歌用“兼容性”填平[36] 行业影响与竞争态势 - 除了Anthropic,Meta、SSI、xAI等顶级AI实验室也出现在了谷歌TPU的潜在客户名单中[10] - 面对谷歌的攻势,英伟达罕见地展现出防御姿态,其财务团队近期针对“循环经济”的质疑发布长文辩解,显示谷歌的攻势已触及英伟达的神经[10] - Gemini 3和Claude 4.5 Opus这两大全球最强模型均完全在TPU上完成预训练,这为TPU系统处理最高难度任务的能力提供了终极背书[26] - 谷歌在外部客户定价上需要“穿针引线”,但对Anthropic等旗舰客户仍能提供有竞争力的价格,同时保持比商品化GPU交易更优越的息税前利润率[92][93]
SemiAnalysis深度解读TPU--谷歌(GOOG.US,GOOGL.US)冲击“英伟达(NVDA.US)帝国”
智通财经网· 2025-11-29 17:37
行业竞争格局变化 - 谷歌TPU的全面商业化使英伟达在AI算力市场的定价权出现松动,其高达75%的毛利率面临挑战[1] - 谷歌从云服务商转型为直接向外部出售高性能芯片与系统的商用芯片供应商,Anthropic的采购标志着这一战略转变[1][4] - 谷歌TPU已获得包括Anthropic、Meta、SSI、xAI等顶级AI实验室的采购意向,客户名单不断扩大[4][29] 具体交易与成本优势 - Anthropic确认将部署超过100万颗TPU,交易总价值巨大,其中首批40万颗TPUv7由博通直接出售给Anthropic,价值约100亿美元,剩余60万颗通过谷歌云租赁,涉及剩余履约义务高达420亿美元[4][42] - 谷歌TPUv7在总拥有成本上对英伟达构成显著优势,从谷歌内部视角看,TPUv7服务器的TCO比英伟达GB200服务器低约44%,即便加上利润,外部客户通过GCP使用TPU的TCO仍比购买GB200低约30%[7][64][67] - 具体成本数据显示,GB200 NVL72每小时每GPU总成本为2.28美元,而TPU v7外部版本为1.60美元,TPU在每FP8 PFLOP的TCO上优势明显[66] 技术系统与架构优势 - 谷歌通过极致的系统设计弥补单芯片理论算力的不足,TPUv7采用3D Torus拓扑结构和自研光互连技术,单个集群可扩展至9,216颗芯片,远超英伟达常见集群规模[12][15][17] - 光路交换机技术允许动态重构网络拓扑,实现毫秒级故障绕过和高可用性,同时降低功耗和延迟[15][17][101] - 系统级优势使得TPU在实际模型训练中实现更高的算力利用率,有效FLOPs可能超过英伟达Blackwell[69][72] 软件生态战略调整 - 谷歌积极拥抱开源,软件团队KPI从服务内部转向支持外部,全力支持PyTorch Native在TPU上运行,降低开发者迁移门槛[19][20][141] - 通过XLA编译器直接对接PyTorch的Eager Execution模式,并向vLLM、SGLang等开源推理框架贡献代码,提升TPU在开源生态中的兼容性[20][145][146] - 软件生态的开放旨在填平英伟达的CUDA护城河,为外部客户提供更平滑的过渡体验[22][142] 金融与商业模式创新 - 谷歌创新性地提供资产负债表外的信贷支持,承诺为中间商的数据中心租金兜底,解决了AI基础设施建设的期限错配问题,打通了加密货币矿工与AI算力需求之间的堵点[9][43][46] - 这种“超大规模厂商兜底”的金融工具成为Neocloud市场的新融资标准模板,推动了行业增长[46][47] - 在定价策略上,谷歌通过平衡自身盈利和客户竞争力,即使作为外部供应商,其TPU交易的息税前利润率仍优于许多大型GPU云交易[79][80]