GPT 4.5
搜索文档
吴恩达:图灵测试不够用了,我会设计一个AGI专用版
量子位· 2026-01-10 11:07
吴恩达提出“图灵-AGI测试”的背景与动机 - 2025年被行业视为人工智能工业时代的开端,其标志是模型性能创新、AI应用变得不可或缺、顶尖企业人才争夺激烈以及基础设施建设推动经济增长 [4][5] - 学术界与工业界频繁提及AGI概念,硅谷公司甚至为其设定季度目标,但AGI的定义缺乏统一标准,现有基准测试常误导大众高估当前AI水平 [6][7] - 为弥补AGI衡量标准的空白并校准社会期望,吴恩达计划在2026年推出新的“图灵-AGI测试” [1][8][29] “图灵-AGI测试”的核心设计与理念 - 测试旨在衡量AI的工作能力,其核心是让AI像人类一样智能,并完成大部分知识型工作 [13][14] - 测试对象(AI系统或专业人士)将在一台可访问互联网并配备浏览器、Zoom等软件的计算机上,完成裁判设计的“多日体验任务”,例如作为客服经过培训后执行接听电话工作并提供持续反馈 [15][17] - 只要AI能像人类一样熟练完成工作任务,即被视为通过测试,该测试聚焦于AGI的经济性和实际产出,更接近可用于工作和生产场景的普世定义 [18][19] 新测试相较于现有基准测试的优势 - 现有基准测试(如GPQA、AIME、SWE-bench)使用预先确定的固定测试集,导致AI团队针对测试集优化模型,造成榜单排名靠前但实际能力不足的现象,例如去年的Llama 4刷榜丑闻 [20][21][22] - 固定测试集只能衡量AI在狭窄领域的能力,而图灵-AGI测试允许裁判自由设计任意体验任务,不事先限定范围,更能判断系统在通用任务上的表现 [28] - 新测试比基准测试更能考验AI的通用能力,并为AI团队设定“完成人类工作”的具体目标,而非模糊的“实现人类级智能” [20][31] 行业现状与主要AI模型性能对比 - 根据提供的基准测试数据,主要大模型在多项能力上存在竞争,例如在图像推理(MMMU)任务中,Llama 4 Scout得分为69.4,Gemini 2.0 Flash-Lite为68.0,Gemma 3 27B为64.9,Mistral 3.1 24B为62.8 [23] - 在编码能力(LiveCodeBench)上,Llama 4 Scout得分为32.8,Gemini 2.0 Flash-Lite为28.9,Gemma 3 27B为29.7 [23] - 在推理与知识(GPQA Diamond)任务上,Llama 4 Scout得分为57.2,Gemini 2.0 Flash-Lite为51.5,Gemma 3 27B为42.4,Mistral 3.1 24B为46.0 [23] - 更大规模的模型如Llama 4 Behemoth在GPQA Diamond任务上得分达73.7,Gemini 2.0 Pro为64.7,GPT 4.5为71.4,Claude Sonnet 3.7为68.0 [24] - 在推理成本方面,每百万tokens(3:1混合)的推理成本,Llama 4 Maverick在$0.19-$0.49之间,Gemini 2.0 Flash为$0.17,DeepSeek v3.1为$0.48,GPT-4o为$4.38 [25] 推行新测试对行业的潜在影响 - 举办图灵-AGI测试即便可能以所有AI系统均未通过告终,也有助于平息对AGI的过度炒作,为AI领域创造更稳健的环境 [30] - 行业将能重新聚焦于非AGI级别的实际进步,例如开发有实用价值的应用,而非沉迷于实现AGI的营销噱头 [30] - 该测试为真正的AGI突破提供了可信的判定依据,若有公司通过测试,其成果将具备真实价值 [32]
Sebastian Raschka万字年终复盘:2025,属于「推理模型」的一年
机器之心· 2026-01-02 17:30
文章核心观点 - 2025年大语言模型领域的发展重点从单纯的参数规模扩展转向了推理能力的强化,以DeepSeek R1为代表的开放权重模型及其采用的RLVR和GRPO算法成为年度技术风向标,同时行业在架构、评估和工具使用等方面也取得了显著进展[1][3][4] 推理模型与算法进展 - 2025年是“推理之年”,DeepSeek R1的发布证明了通过强化学习(特别是RLVR和GRPO算法)可以开发出具有类似推理行为的模型,这改变了行业对模型改进方式的认知[5][6] - DeepSeek R1作为开放权重模型,其性能媲美当时最好的专有模型,并且其成本远低于预期,训练DeepSeek V3模型的成本估计约为557.6万美元,而在其基础上训练R1模型的额外成本仅需29.4万美元[9][10][12] - RLVR中的“可验证奖励”允许使用确定性方法为数学和代码等领域分配正确性标签,从而能够在大规模数据上对LLM进行高效的后训练[13][15][16] - 继DeepSeek R1之后,几乎所有主要的开放权重或专有LLM开发商都发布了其模型的推理(“思考”)变体,标志着RLVR和GRPO成为年度主导技术[19] 大语言模型开发重点演变 - 近年来LLM开发的重点呈现累积性演进:2022年是RLHF+PPO,2023年是LoRA等参数高效微调,2024年是中期训练,而2025年的焦点是RLVR+GRPO[20][21][22] - 预计未来发展方向包括:将RLVR扩展到数学和代码以外的领域、更多地关注推理时扩展(让模型在生成答案时花费更多资源以提升准确性)、以及持续学习(在不重新训练的情况下更新模型知识)[25][27][28][31] 大语言模型架构趋势 - 最先进的模型仍基于解码器风格的Transformer,但开放权重LLM普遍收敛于使用混合专家层以及分组查询注意力、滑动窗口注意力或多头潜在注意力等高效注意力机制[42][43] - 同时,行业也出现了更激进的效率调整架构,如Qwen3-Next和Kimi Linear中的Gated DeltaNets,以及NVIDIA Nemotron 3中的Mamba-2层,旨在实现随序列长度的线性扩展[43] - 预测未来几年基于Transformer的架构仍将主导高性能建模,但出于成本和效率考虑,Gated DeltaNet和Mamba层等高效工程调整将越来越普遍,文本扩散模型等替代方案仍处于实验阶段[53] 推理扩展与工具使用 - 2025年的进步不仅来自训练数据和架构的扩展,更得益于更好的训练流程(中期和后训练)以及推理扩展,后者让LLM能按需投入更多资源解决复杂任务[54] - 工具使用是减少LLM幻觉的重大改进方向,例如让LLM调用搜索引擎或计算器API来获取准确信息,OpenAI的gpt-oss模型就是早期专注于工具使用的开放权重模型之一[54][55] - 基准测试数据显示,使用工具能显著提升模型在多项任务上的表现,例如gpt-oss-120b模型在AIME 2024基准上,使用工具后准确率从56.3%提升至75.4%[56] 行业评估困境与数据优势 - 2025年的年度词汇是“极限刷榜”,指过度优化公开基准测试分数,导致分数无法真实反映模型的实际能力和实用性,基准测试作为LLM性能指标的可信度下降[60][61][63] - 随着通用能力提升趋于平稳,高质量的私有数据将成为LLM在特定行业确立优势的关键,但许多公司因数据是其核心差异化资产而拒绝出售给外部LLM提供商[84][85] - LLM开发正变得越来越商品化,预计未来拥有预算的大型机构将更倾向于开发利用其私有数据的内部LLM,而非完全依赖外部通用模型[88][89] AI辅助工作与影响 - LLM被视为赋予专业人士“超能力”的工具,能大幅提高个人效率,例如自动化编写命令行参数等平凡编码任务,或帮助发现代码错误和改进想法[65][66][68] - 然而,完全由LLM生成的代码库无法取代专家精心设计和构建的系统,深入的专业知识对于有效利用LLM指导和改进工作成果至关重要[71] - 在技术写作和研究领域,LLM是强大的辅助工具,可以帮助检查错误、提高清晰度,但无法替代人类作者的深度判断和专业知识,核心工作仍取决于人类[72][76] - 需警惕过度依赖LLM可能导致工作空虚感和职业倦怠,理想的方式是将AI视为加速学习和扩展工作能力的合作伙伴,而非完全外包思考的替代品[77][80][81]
DeepSeek终于丢了开源第一王座,但继任者依然来自中国
猿大侠· 2025-07-19 11:43
模型排名与性能 - Kimi K2在全球开源模型中排名第一,总榜第五,紧追顶尖闭源模型Grok 4 [1] - 开源模型DeepSeek R1位列总榜第八,与Kimi K2成为唯二进入TOP 10的开源模型且均来自中国 [2] - Kimi K2在多项能力中表现突出:连续多轮对话并列第一、编程能力第二、应对复杂提示词能力第二 [3] 社区热度与行业认可 - Kimi K2发布一周内GitHub标星达5.6K,Hugging Face下载量近10万 [5] - Perplexity CEO公开支持Kimi K2,透露计划基于该模型进行后训练 [5] - 用户访问量激增导致API响应延迟,反映模型热度极高 [6] 架构设计与技术优化 - Kimi K2继承DeepSeek V3架构,但通过四项关键参数调整优化性能:增加专家数量、注意力头减半、仅保留第一层Dense、专家无分组 [12] - 调整后总参数增至1.5倍,但推理耗时理论值更低,成本与V3架构相当 [13] - 团队选择V3架构因其已验证高效且符合有限资源条件,避免"为不同而不同" [10][11] 开源模型行业趋势 - 开源模型性能差距缩小,TOP 10模型总分均超1400分,开源与闭源近乎同一起跑线 [20][21] - 行业专家预测开源将更普遍击败闭源,并在AI本地化定制中发挥关键作用 [24] - 开源模型打破"性能弱"刻板印象,国产开源模型表现尤为亮眼 [18][22]
梁文锋等来及时雨
是说芯语· 2025-07-19 09:26
行业竞争格局 - 国内大模型行业进入密集更新期,Kimi、阶跃星辰、智谱AI、科大讯飞等玩家将在7月底集中发布新一代基础大模型 [3] - DeepSeek自4月起月活用户持续下滑,5月MAU为1.69亿(环比-5.1%),官网访问量下降29%,使用率从7.5%峰值回落至3% [3][4][18] - 第三方平台托管的DeepSeek模型使用量逆势增长20倍,形成与官方流量下滑的反差 [13] 技术发展动态 - Kimi K2成为国内首个万亿参数MoE架构开源模型,在代码/数学推理任务反超DeepSeek,支持128K上下文窗口 [10][15] - MiniMax-M1以53.47万美元低成本完成训练(512块H800三周),对比DeepSeek V3训练成本557万美元(2048块H800) [11] - 行业普遍提升上下文窗口能力(MiniMax达100万token),而DeepSeek保持64K最小窗口的保守策略 [15] 商业模式对比 - 科技大厂通过低价API争夺市场:百度李彦宏公开批评DeepSeek"慢且贵",阿里/字节/百度等推出更低价模型 [10] - Kimi K2定价与DeepSeek标准时段对齐(输入4元/百万tokens,输出16元/百万tokens) [11] - DeepSeek坚持开源路线但面临商业化压力,需平衡开发者生态与产品使用率 [17] 供应链挑战 - 英伟达H20芯片禁售导致DeepSeek R2模型延迟发布,算力储备出现紧缺 [5][7] - 7月15日英伟达获准重新销售H20芯片,将缓解DeepSeek算力瓶颈 [7] - H20芯片因DeepSeek的低成本训练方法在中国需求激增,引发4月美国出口管制 [5] 产品能力短板 - DeepSeek暂不支持多模态功能(语音/图片/视频生成),成为主流AI助手中唯一缺失该能力的产品 [19] - 调用工具能力不足:字节测试发现其工具调用表现不理想,最终改用自研模型 [19] - 小版本更新策略(如DeepSeek-R1-0528仍基于2024年V3 Base模型)导致竞争力下降 [8][10] 国际对标差异 - OpenAI通过高频更新保持领先(GPT 4.1系列发布后份额达10%),而DeepSeek R1仅持平o1水平 [17][18] - DeepSeek缺乏OpenAI的代际优势,使用率从7%峰值降至3%(跌幅超50%) [18] - 行业普遍学习OpenAI的快速迭代策略,如奥特曼每周更新产品的运营方法 [17]
DeepSeek终于丢了开源第一王座,但继任者依然来自中国
量子位· 2025-07-18 16:36
模型排名与性能 - Kimi K2在全球开源模型中排名第一,总榜第五,紧追Grok 4等顶尖闭源模型 [1] - Kimi K2得分为1420,与Grok 4(1437)和GPT 4.5(1437)差距较小 [2][23] - 唯二进入总榜TOP 10的开源模型均来自中国(Kimi K2和DeepSeek R1) [2][28] 技术能力表现 - 连续多轮对话能力并列第一,与Grok 4和o3持平 [3] - 编程能力排名第二,与GPT 4.5和Grok 4相当 [3] - 应对复杂提示词能力排名第二,与o3和4o同梯队 [3] 社区热度与影响力 - GitHub标星达5.6K,Hugging Face下载量近10万 [5] - Perplexity CEO公开站台,计划基于K2进行后训练 [5] - 用户访问量过大导致API响应变慢 [6] 架构设计与优化 - 继承DeepSeek V3架构,但进行了参数调整 [9][12] - 增加专家数量,MoE总参数增加但激活参数量不变 [13] - 注意力头数减半以平衡成本,效果影响微小 [13] - 仅保留第一层Dense,其余使用MoE,推理效率无影响 [13] - 专家无分组设计,通过自由路由提升灵活性 [13] - 总参数增至1.5倍,但推理耗时更小且成本可控 [15] 行业趋势与观点 - 开源模型性能已接近闭源,TOP 10分数均超1400 [21][23] - 开源与闭源差距缩小,Kimi K2接近Grok 4和GPT 4.5 [22] - 行业人士认为开源击败闭源将更普遍 [25][27] - 开源模型在AI能力全球扩散中扮演关键角色 [27]
梁文锋等来及时雨
36氪· 2025-07-16 18:19
行业竞争格局 - Kimi发布K2新模型引发试用高潮,Perplexity CEO表示将引入K2提供服务[3] - 阶跃星辰、智谱AI、科大讯飞等公司计划在7月底发布新一代基础大模型[3] - DeepSeek月活跃用户规模从1.69亿环比下滑5.1%,下载排名跌至30名开外[4] - DeepSeek官网访问量下降29%,用户使用率从7.5%峰值回落至3%[4][17] 技术发展动态 - DeepSeek加速推出R2模型但受H20芯片禁售影响延迟发布[5] - 英伟达H20芯片因DeepSeek需求激增被美国禁售,7月15日宣布重新申请销售许可[6][8] - Kimi K2成为国内首个总参数量达1万亿的MoE架构开源模型,在多项基准测试中超越DeepSeek[14] - MiniMax-M1仅用512块H800三周时间完成训练,成本53.47万美元,远低于DeepSeek V3的557万美元[15] 商业模式比较 - DeepSeek因缺乏大版本更新被质疑性价比,科技大厂推出更低价的API模型[13] - Kimi K2定价与DeepSeek对齐,输入/输出tokens价格分别为4元/16元每百万[15] - DeepSeek在第三方平台模型使用量增长20倍,但官方应用流量持续下滑[17] - 上下文窗口限制(64K)影响DeepSeek竞争力,Kimi K2支持128K,MiniMax-M1达100万[22][23] 产品能力短板 - DeepSeek暂不支持多模态功能,落后于行业主流AI助手[28] - 调用工具能力不足导致字节放弃采用DeepSeek-R1[28] - OpenAI通过高频更新保持热度,GPT-4.1系列使用率快速升至10%,而DeepSeek R1使用率下降超50%[26] 战略方向差异 - DeepSeek坚持开源路线但面临商业化挑战,需平衡开发者活跃度与产品使用率[24][25] - 竞争对手在新模型中均强化Agent构建能力,DeepSeek需补足工具调用短板[29] - 行业转向Agent生态发展,多模态能力重要性日益凸显[28][29]
Think a Recession Is Coming? This AI Stock Can Still Thrive.
The Motley Fool· 2025-05-06 17:15
One of the core assumptions that underpins the artificial intelligence (AI) boom is that each new generation of AI model will require ever-increasing computational horsepower to train and run. DeepSeek, the Chinese AI company that managed to put out an AI model that performed well using a fraction of the computational resources of top-tier AI models, raised some serious questions about the future of the AI industry. There are some other signs, as well, that more computing power may not be the answer. OpenAI ...
速递|百度推理模型X1上线,开源Ernie 4.5,正面迎战DeepSeek
Z Potentials· 2025-03-16 11:54
文章核心观点 百度发布新AI模型并升级旗舰基础模型,在AI领域有诸多举措,同时面临竞争,其财报显示营收和利润有不同表现,还完成收购计划投资AI和云基础设施 [1][2][6] 产品动态 - 百度发布能阐明推理过程的新AI模型,与DeepSeek等竞争 [1] - 百度将旗舰基础模型升级至Ernie 4.5,向聊天机器人用户免费开放所有层级服务,比原计划提前几周 [2] - 文心大模型4.5已同步上线,约为GPT4.5价格的1%,输入价格为0.004元/千tokens,输出0.016元/千tokens;文心大模型X1定价为输入0.002元/千tokens,输出0.008元/千tokens,即将在千帆平台上线 [2] - 百度推出的Ernie X1模型与DeepSeek R1工作原理相似 [3] - 百度推理模型在日常对话、复杂计算和逻辑推理等领域表现出色 [4] - 百度宣布自6月30日起将Ernie AI模型开源,还将R1模型整合进搜索引擎 [6] 行业竞争 - 百度是行业中首个推出基于OpenAI的ChatGPT模型聊天机器人的企业,但需与字节跳动、Moonshot AI等产品竞争 [5] - 阿里巴巴的Qwen以及DeepSeek等开源模型在全球开发者社区获得更高认可 [5] 财报情况 - 生成式AI繁荣使百度第四季度云收入增长26%,但经济疲软下广告销售疲软 [6] - 2024年总营收达1331亿元,同比减少1%;归属百度净利润为237.6亿,同比增长17%,不按美国通用会计准则,归属于百度的净利润为270亿元,同比下降6%,每股美国存托股摊薄收益为76.85元,同比下降5% [6] 收购投资 - 百度上月完成21亿美元收购YY直播平台Joyy的交易,释放约16亿美元计划投资于人工智能和云基础设施 [6]