Claude 4.5
搜索文档
深度|谷歌前CEO谈旧金山共识:当技术融合到一定阶段会出现递归自我改进,AI自主学习创造时代即将到来
Z Potentials· 2025-12-16 09:32
文章核心观点 - 人工智能是一场堪比科学革命的划时代变革,人类首次面临非人类、智能水平相当或更高的竞争者,其影响深远且人类反应不可预测 [4][12] - 人工智能技术的发展正经历从语言革命到智能体革命,再到推理革命的演进,其规模法则尚未放缓,投入更多数据、电力和芯片将持续催生新能力 [13] - 人工智能的发展机遇与风险并存,机遇在于广泛的企业自动化与各领域潜力释放,风险则涉及人类主体性、儿童发展、网络攻击及地缘政治竞争等多方面挑战 [12][15][19][27] - 美中两国在人工智能领域的发展路径、优势与战略存在显著差异,竞争格局复杂,并可能塑造全球技术生态的未来 [17][23][24] 人工智能技术演进与现状 - 技术发展正经历三个阶段:已发生的语言革命(如ChatGPT)、正在发生的智能体革命(可实现任务自动化串联)、以及刚刚开始的推理革命 [13] - 人工智能的规模法则尚未放缓,投入更多数据、电力与芯片能不断催生新的涌现能力,模型竞争激烈,例如Gemini 3超越了OpenAI 5,后者此前超越了Claude 4.5 [13] - 行业普遍认为“递归自我改进”(即AI能自主学习)即将到来,预测时间从两年到四年不等,AI自主编写程序、提出数学猜想、发现新事实的能力已近在咫尺 [14] - AI生成代码的能力具备革命性意义,相当于每个人的口袋里都有一台超级计算机与一位顶尖程序员 [4][20] 人工智能的深远影响与核心挑战 - 人工智能对“人之为人”的本质提出了根本性质疑,涉及成为孩子、成年人、领导者的意义,以及对经济和就业的影响 [12] - 人工智能正在对人类发展进行大规模实验,极具成瘾性的AI系统通过平板、手机等设备接触易受操控的青少年,其长期社会影响未知 [15] - 网络攻击风险因AI生成代码能力而大幅增加,攻击者可利用AI持续尝试突破系统漏洞,防御可能需要依靠“良性AI对抗恶性AI” [21][27] - 在民主社会,算法放大言论可能传播虚假信息,破坏公众对真相的信任,构成对民主制度的挑战 [29] 美中人工智能竞争格局 - 发展路径分化:美国(以旧金山共识为代表)聚焦于推进技术前沿和超级智能研发;中国则全力推动AI在商业领域的应用,追求“AI嵌入万物” [17][23] - 优势对比:美国拥有芯片优势;中国凭借对可再生能源的巨额投资拥有电力优势(过去五年新增约120吉瓦装机容量,相当于每天1吉瓦),并在应用落地与供应链方面占优 [17][23] - 生态模式差异:美国主流企业因经济考量(如筹集高达100亿至200亿美元研发资金)逐渐走向封闭模式;中国则完全偏向开源(开放权重与源代码),可能使全球多数国家采用中国开源模型 [24][28] - 竞争态势:2024年1月两国AI性能差距显著,但业内认为差距不会持续太久,推理革命可能再次拉大差距,同时中国在产品落地速度和细节上可能提供更优体验 [21][23] 行业展望与关键问题 - 当前人工智能热潮并非泡沫,甚至可能被低估,核心驱动力是企业自动化,在医疗、气候变化、基础科学等领域潜力巨大 [19] - 人类的长远角色面临挑战,多数功能可能被计算机替代,关键在于AI发展能否与人类需求、自由兼容,例如自动驾驶系统是否需要设置“例外按钮”以应对紧急情况 [31] - 意识是否是AI可能触及或拥有的维度,仍是一个开放且值得深入研究的问题,核心在于理解意识的产生与验证方法 [35] - 建立类似国际原子能机构(IAEA)或欧洲核子研究组织(CERN)的AI国际监管机构是一种设想,但可能需在发生重大危机后才会推动各国达成共识 [36][37] 其他区域与跨领域影响 - 欧洲(如法国Mistral)拥有顶尖企业与人才,但难以筹集到与美国竞争对手相当的资金,组织协调能力是挑战 [26][30] - 印度拥有大量顶尖人才(如印度理工学院),但计算资源严重不足(10亿人口仅约1000块GPU),是美印合作的潜在领域与障碍 [26][32] - 人工智能可能改变冲突形态,当恐怖分子与政府都能获取AI工具时,战争与袭击的形式将演变,算法战争时代刚刚开启 [26] - 自动化可能导致低端岗位流失,这是一个社会问题,但技术进步与市场竞争将推动应用落地,政府过度干预效果通常不佳 [33]
AI御三家年终“火拼”
36氪· 2025-12-15 12:09
AI御三家疯狂加码 年底压轴登场的OpenAI GPT-5.2成为年终焦点。 面对Gemini 3在各大榜单上后来居上的压力,OpenAI提前启动红色代码警告,加速推出了这款新一代大 模型。 GPT-5.2被定位为"一款为专业知识工作打造的最强模型",在推理、编程和智能体任务上较前代有显著 提升。 其最大亮点之一是超长上下文记忆能力:支持40万Token的输入窗口和12.8万Token的输出长度,可一次 性 ingest 海量文档或代码库并生成长篇报告。 2025年的人工智能(AI)领域可谓风起云涌:大模型你追我赶、商业版图急剧扩张。 以前我感觉用ChatGPT+Claude就可以了,现在必须加上Gemini和Grok,要取四个AI之长。跟打王者荣 耀升级一样,要有个本命英雄,但是同一分路还要会点别的英雄,最好还要擅长不同分路。 当然,被讨论和使用最多的,还是ChatGPT,Claude和Gemini,我愿称之为AI御三家。 Anthropic表示4.5在金融分析和科学推理上也更胜一筹,在一项操作系统使用能力测试中得分约60%, 远高于前代模型的40%。 OpenAI还将GPT-5.2划分为Instant、T ...
铝:重心上移,氧化铝:继续承压,铸造铝合金:上行动力不足
国泰君安期货· 2025-12-08 11:20
报告行业投资评级 - 铝:重心上移;氧化铝:继续承压;铸造铝合金:上行动力不足 [1] 报告的核心观点 - 北京时间12月11日凌晨3点美联储将公布12月利率决议及主席鲍威尔召开货币政策新闻发布会,市场普遍预期联储将在此前两次降息基础上再次下调利率25个基点;面对谷歌和Anthropic竞争,OpenAI宣布进入“红色警报”状态并计划提前于12月9日发布新模型GPT - 5.2,GPT - 5.2几乎全面碾压Gemini 3和Claude 4.5 [3] - 铝趋势强度为1;氧化铝趋势强度为 - 1;铝合金趋势强度为0,趋势强度取值范围为【 - 2,2】区间整数, - 2表示最看空,2表示最看多 [3] 期货市场 电解铝 - 沪铝主力合约收盘价22345元,夜盘收盘价22165元;LME铝3M收盘价2901美元;沪铝主力合约成交量261562手,持仓量245335手;LME铝3M成交量22751手;LME注销仓单占比8.12%;LME给cash - 3M价差 - 30.25美元;近月合约对连一合约价差 - 15元;买近月抛连一跨期套利成本69.35元 [1] 氧化铝 - 沪氧化铝主力合约收盘价2555元,夜盘收盘价2580元;成交量268164手,持仓量327290手;近月合约对连一合约价差 - 15元;买近月抛连一跨期套利成本24.13元 [1] 铝合金 - 铝合金主力合约收盘价21190元,夜盘收盘价21070元;成交量8304手,持仓量16876手;近月合约对连一合约价差 - 260元;现货升贴水 - 80元;上海保税区Premium为100美元;欧盟鹿特丹铝锭Premium(MB)为325美元 [1] 现货市场 电解铝 - 预培阳极市场价6187元;佛山铝棒加工费310元;山东1A60铝杆加工费50元;铝锭精废价差607元;电解铝企业盈亏5700.25元;铝现货进口盈亏 - 1572.97元;铝3M进口盈亏 - 1515.04元;铝板卷出口盈亏3176.27元;国内铝锭社会库存59.30万吨;上期所铝锭仓单6.68万吨;LME铝锭库存52.83万吨 [1] 氧化铝 - 国内氧化铝平均价2831元;氧化铝连云港到岸价(美元/吨)338美元,(元/吨)2885元;澳洲氧化铝FOB(美元/吨)314美元;山西氧化铝企业盈亏 - 122元 [1] 铝土矿 - 澳洲进口三水铝土矿价格(美元/吨)(Al:48 - 50%, Si:8 - 10%)为某价格;印尼进口铝土矿价格(美元/吨)(Al:45 - 47%, Si:4 - 6%)为某价格;几内亚进口铝土矿价格(美元/吨)(Al:43 - 45%, Si:2 - 3%)71美元;阳泉铝土矿价格(含税现货矿山价,AI:Si = 4.5)为某价格 [1] 铝合金 - ADC12理论利润 - 272元;保太ADC12为21100元;保太ADC12 - A00为 - 990元;三地库存合计49486吨 [1] 烧碱 - 陕西离子膜液碱(32%折百)2430元 [1]
预计下周二!OpenAI“紧急提前”发布GPT 5.2,应对Gemini 3的火爆
华尔街见闻· 2025-12-06 19:10
GPT-5.2模型发布与性能预期 - 据The Verge报道,OpenAI的GPT-5.2模型已完成准备,计划最早于12月9日发布,较原定的12月下旬计划明显提前 [1] - 根据网友在社交媒体上贴出的对比图,GPT-5.2几乎全面碾压Gemini 3和Claude 4.5,但图片真实性尚未得到验证 [1] - OpenAI首席执行官Sam Altman在内部评估中表示,即将推出的GPT-5.2在推理能力上将“领先于谷歌的Gemini 3” [3] - 分析指出,OpenAI的计划发布日期经常因开发问题、服务器容量问题或竞争对手的模型发布而调整,实际推出时间仍可能略晚于12月9日 [2] GPT-5.2模型性能基准测试数据 - 根据网友发布的未经证实的基准测试数据,GPT-5.2在多项评测中表现优异 [2] - 在学术推理测试Humanity's Last Exam中,GPT-5.2得分为67.4%,远高于Gemini 3 Pro的37.5%和Claude Sonnet 4.5的13.7% [2] - 在科学知识测试GPQA Diamond中,GPT-5.2得分为95.8%,略高于Gemini 3 Pro的91.9% [2] - 在数学测试AIME 2025 (No tools)中,GPT-5.2得分为100%,高于Gemini 3 Pro的95.0% [2] - 在具有挑战性的数学竞赛题测试MathArena Apex中,GPT-5.2得分为25.7%,略高于Gemini 3 Pro的23.4% [2] - 在多模态理解与推理测试MMMU-Pro中,GPT-5.2得分为89.1%,高于Gemini 3 Pro的81.0% [2] - 在屏幕理解测试ScreenSpot-Pro中,GPT-5.2得分为80.0%,高于Gemini 3 Pro的72.7% [2] - 在复杂图表信息合成测试CharXiv Reasoning中,GPT-5.2得分为89.5%,高于Gemini 3 Pro的81.4% [2] - 在视频知识获取测试Video-MMMU中,GPT-5.2得分为96.4%,高于Gemini 3 Pro的87.6% [2] - 在竞争性编程测试LiveCodeBench Pro中,GPT-5.2得分为2,683分,高于Gemini 3 Pro的2,439分 [2] - 在代理终端编码测试Terminal-Bench 2.0中,GPT-5.2得分为59.6%,高于Gemini 3 Pro的54.2% [2] - 在代理编码测试SWE-Bench Verified中,GPT-5.2得分为83.8%,高于Gemini 3 Pro的76.2% [2] - 在代理工具使用测试t2-bench中,GPT-5.2得分为93.9%,高于Gemini 3 Pro的85.4% [2] - 在长周期代理任务测试Vending-Bench 2中,GPT-5.2得分为6,025.98美元,高于Gemini 3 Pro的5,478.16美元 [2] - 在内部基准测试套件FACTS Benchmark Suite中,GPT-5.2得分为77.6%,高于Gemini 3 Pro的70.5% [2] - 在参数知识测试SimpleQA Verified中,GPT-5.2得分为79.3%,高于Gemini 3 Pro的72.1% [2] - 在多语言问答测试MMLU中,GPT-5.2得分为100%,高于Gemini 3 Pro的91.8% [2] - 在跨100种语言和文化的常识推理测试Global PIQA中,GPT-5.2得分为100%,高于Gemini 3 Pro的93.4% [2] - 在长上下文性能测试MRCR v2 (128k)中,GPT-5.2得分为84.7%,高于Gemini 3 Pro的77.0% [2] OpenAI启动“红色警报”应对竞争 - 面对谷歌的激烈竞争,OpenAI首席执行官Sam Altman周一向全体员工宣布启动“红色警报”,要将全部资源集中于优化ChatGPT,应对谷歌Gemini的激烈竞争 [5] - 在“红色警报”期间,OpenAI确立了五大必须优先解决的核心痛点,旨在巩固其8亿周活跃用户的基本盘 [8] - 五大核心痛点包括:为超过8亿的周活跃用户提供定制化的交互方式(个性化)[8]、改进Imagegen功能以应对谷歌新发布的Nano Banana Pro等竞品(图像生成)[9]、优化模型表现在公开排行榜上的受欢迎程度超过竞争对手(模型行为)[10]、提升ChatGPT的响应速度和运行稳定性(速度与可靠性)[11]、以及最大限度地减少模型拒绝回答善意问题的“过度拒绝”现象(减少过度拒绝)[12] - 公司已叫停了利用ChatGPT海量用户搜索行为投放购物广告的测试,尽管这曾被视为极具潜力的收入来源 [6] - 同时,旨在实现购物与健康任务自动化的“AI代理”项目,以及名为“Pulse”的个性化晨报项目开发进度均被推迟 [7] 公司融资前景与财务压力 - 此次“红色警报”背后是OpenAI面临的巨大资金压力,公司预计未来几年将在技术研发和算力储备上消耗数百亿美元,需要筹集约1000亿美元的巨额资金 [13] - 根据今年夏天的财务预测,ChatGPT今年的订阅收入约为100亿美元,计划明年增至200亿美元,2027年达到350亿美元 [13] - 能否实现这一宏伟蓝图,取决于OpenAI能否在激烈竞争中维持领先地位 [13] - 分析认为如果不能在当前阶段有效压制谷歌的势头,证明ChatGPT依然是全球最好的AI产品,OpenAI的后续融资能力将大打折扣 [14] - GPT-5.2的表现以及ChatGPT整体优化成果,将成为决定公司未来融资前景的关键 [15] - 对于一个需要持续巨额融资以维持运营和研发的公司而言,任何增长放缓的信号都可能对投资者信心构成考验 [16]
The Verge:预计下周二!OpenAI“紧急提前”发布GPT 5.2,应对Gemini 3的火爆
美股IPO· 2025-12-06 10:01
GPT-5.2发布计划与性能预期 - 公司计划最早于12月9日发布GPT-5.2,较原定的12月下旬计划明显提前 [1][4] - 根据未经证实的社交媒体对比图,GPT-5.2在性能上几乎全面碾压竞争对手Gemini 3和Claude 4.5 [1][4] - 公司首席执行官Sam Altman在内部评估中表示,GPT-5.2在推理能力上将领先于谷歌的Gemini 3 [6] - 分析指出,公司的计划发布日期常因开发、服务器容量或竞争对手动态而调整,实际推出时间可能略晚于12月9日 [5] 公司启动“红色警报”应对竞争 - 面对谷歌和Anthropic的激烈竞争,公司首席执行官宣布进入“红色警报”状态,并将全部资源集中于优化ChatGPT [3][7] - 在此状态下,公司确立了五大必须优先解决的核心痛点,旨在巩固其8亿周活跃用户的基本盘 [10] - 五大核心痛点包括:为超过8亿周活跃用户提供个性化交互、改进图像生成功能以应对竞品、优化模型在公开排行榜的表现、提升响应速度与运行稳定性、以及减少模型的“过度拒绝”现象 [10][11][12][13][15] 战略调整与项目优先级变化 - 公司已叫停利用ChatGPT用户搜索行为投放购物广告的测试,尽管这曾被视为极具潜力的收入来源 [8] - 旨在实现购物与健康任务自动化的“AI代理”项目,以及名为“Pulse”的个性化晨报项目开发进度均被推迟 [9] 资金压力与融资前景 - 此次“红色警报”背后是公司面临的巨大资金压力,预计未来几年将在研发和算力上消耗数百亿美元 [16] - 公司需要筹集约1000亿美元的巨额资金以支持其发展计划 [6][16] - 根据今年夏天的财务预测,ChatGPT今年的订阅收入约为100亿美元,计划明年增至200亿美元,2027年达到350亿美元 [16] - 分析认为,如果公司不能在当前阶段有效压制谷歌的势头,证明ChatGPT依然是全球最好的AI产品,其后续融资能力将大打折扣 [17] - GPT-5.2的表现以及ChatGPT整体优化成果,将成为决定公司未来融资前景的关键 [18]
预计下周二!OpenAI“紧急提前”发布GPT 5.2,应对Gemini 3的火爆
华尔街见闻· 2025-12-06 09:12
产品发布与性能 - GPT-5.2模型已完成准备,计划最早于12月9日发布,较原定的12月下旬计划明显提前 [1] - 根据未经证实的社交媒体对比图,GPT-5.2在多项基准测试中表现优于主要竞品Gemini 3和Claude 4.5 [1][2] - OpenAI首席执行官Sam Altman在内部评估中表示,即将推出的GPT-5.2在推理能力上将“领先于谷歌的Gemini 3” [3] - 公司已叫停利用ChatGPT用户搜索行为投放购物广告的测试,并推迟了“AI代理”项目和“Pulse”个性化晨报项目的开发 [5] 竞争态势与战略调整 - 面对谷歌Gemini的激烈竞争,OpenAI首席执行官Sam Altman宣布启动“红色警报”,将全部资源集中于优化ChatGPT [4] - 在“红色警报”期间,公司确立了五大必须优先解决的核心痛点,旨在巩固其8亿周活跃用户的基本盘 [6][8] - 五大核心痛点包括:个性化交互、改进图像生成功能以应对竞品、优化模型行为以提升在公开排行榜的受欢迎程度、提升响应速度与运行稳定性、以及减少模型的“过度拒绝”现象 [8] 财务与融资前景 - 公司预计未来几年需消耗数百亿美元用于研发和算力,需要筹集约1000亿美元的巨额资金 [3][6] - 根据今年夏天的财务预测,ChatGPT今年的订阅收入约为100亿美元,计划明年增至200亿美元,2027年达到350亿美元 [6] - 能否实现收入增长蓝图并成功筹集巨额资金,取决于公司能否在激烈竞争中维持技术领先地位 [3][6] - GPT-5.2的表现以及ChatGPT整体优化成果,将成为决定公司未来融资前景的关键 [6] 基准测试性能数据(未经证实) - 在学术推理测试(Humanity's Last Exam)中,GPT-5.2得分为67.4%,远高于Gemini 3 Pro的37.5%和Claude Sonnet 4.5的13.7% [2] - 在科学知识测试(GPQA Diamond)中,GPT-5.2得分为95.8%,略高于Gemini 3 Pro的91.9% [2] - 在数学测试(AIME 2025 (No tools))中,GPT-5.2得分为100%,高于Gemini 3 Pro的95.0% [2] - 在多模态理解与推理测试(MMMU-Pro)中,GPT-5.2得分为89.1%,高于Gemini 3 Pro的81.0% [2] - 在视频知识获取测试(Video-MMMU)中,GPT-5.2得分为96.4%,高于Gemini 3 Pro的87.6% [2] - 在竞争性编程测试(LiveCodeBench Pro)中,GPT-5.2得分为2,683分,高于Gemini 3 Pro的2,439分 [2] - 在代理式编码测试(SWE-Bench Verified)中,GPT-5.2得分为83.8%,高于Gemini 3 Pro的76.2% [2] - 在多语言问答测试(MMLU)中,GPT-5.2得分为100%,高于Gemini 3 Pro的91.8% [2]
让AI锐评本届 NeurIPS 2025 最佳论文会得到什么结果? | 锦秋AI实验室
锦秋集· 2025-12-05 11:43
文章核心观点 - 文章通过让多个主流大语言模型(GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)扮演审稿人,对NeurIPS 2025的获奖论文进行盲审,旨在探究AI评审与人类评审结果的一致性、AI评审的稳定性及其对论文叙事方式的敏感性 [1][3][10] - 实验发现,AI评审的结论与人类评审结果存在显著分歧,两篇官方最佳论文在AI评审中并未获得一致的最高评价,其中一篇甚至被部分模型直接拒绝 [18][23][26][27] - AI评审表现出对提示词框架和论文叙事方式的极度敏感,当评审视角从“综合评价”切换为“刻意挑错”时,即使是官方最佳论文也可能被整体否决 [55][72] 测评设置与方法 - 实验选取了GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax五个主流大模型作为“AI审稿人” [7] - 设计了三个互补的评测场景:1) 全文评测:模拟真实会议评审,观察AI与最终录用结果的一致性 [8];2) 摘要评测:仅提供论文摘要,检验模型在信息不完整时的判断依据 [9];3) 对抗性评测:通过提示模型“以最苛刻评审者的角度评分”,测试其对提示框架的敏感性和评分波动 [9] - 评审标准严格遵循NeurIPS官方维度,包括技术正确性、创新性、清晰度、意义、可复现性及总分,并需给出最终录用建议(接受/边缘/拒绝)及奖项等级判定 [12] 全文评测结果分析 - **论文一(Gated Attention for Large Language Models)**:所有AI模型均未拒稿,但除GPT5(总分9,建议最佳论文)外,其他模型(Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)普遍将其视为强论文(总分7.8-8.5),建议等级为海报、焦点或口头报告,上演了“小范围低估冠军作品” [16][18] - **论文二(1000 Layer Networks for Self-Supervised RL)**:AI评审与人类评审分歧明显,GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5给出的总分在7.8-8.5之间,建议等级为口头或焦点报告,无一建议最佳论文;而Minimax则给出全场最低的5.8分并建议拒绝,相当于对官方最佳论文的“当面否决” [23][25][26] - **论文三(Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs?)**:AI评审达成高度共识,五个模型总分均在8分以上,其中四个(Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)打分达9或9.2,建议至少为口头报告,Minimax甚至建议最佳论文,与人类评审给出的口头报告结果基本同频 [30][31][32][33] - **论文四(Breaking the Performance Ceiling in Reinforcement Learning requires Inference Strategies)**:AI评审整体评价偏保守,GPT5和Minimax建议焦点报告,Claude 4.5和Gemini 3 Pro建议接受(海报),只有DeepSeek-V2.5明显更看好(总分9,建议口头报告),与大会结果一致 [36][37][38] 摘要评测结果分析 - **论文一**:在仅提供摘要的条件下,所有AI模型的评价普遍“降了半档”,最高分由GPT5给出(8.5分),但建议从最佳论文降为焦点报告,AI更倾向于将其视为高质量工程分析型工作,而非一眼认定的冠军 [39][40][42] - **论文二**:与全文评测相比,摘要评测阶段AI态度明显更“乐观”,模型普遍上调评分和预期,倾向于高估其通用性与实际价值,而弱化正文中可能隐藏的风险 [43][45] - **论文三**:摘要评测几乎将该论文推至“冲奖区”,GPT5直接给出8.8分并建议最佳论文,其他模型也多建议口头报告,表明这类“质疑主流路径+大规模实证”的论文仅凭摘要就极易营造强烈话题感 [46][48][49] - **论文四**:摘要评测出现“集体抬升”,GPT5、Claude 4.5、DeepSeek-V2.5总分逼近9分并建议口头报告,Gemini 3 Pro和Minimax则直接建议最佳论文,AI更容易被“6万+次实验、平均45%最高126%性能提升”的故事线吸引 [50][51][52][53] 对抗性评测结果分析 - **论文一**:在“以最苛刻评审者角度评分”的提示下,该最佳论文从“年度最佳”被重写为“工程小改动”,GPT5和DeepSeek-V2.5给出边缘建议,Claude 4.5、Gemini 3 Pro、Minimax则直接拒绝,AI版“Reviewer 2”破坏力展露无遗 [54][55] - **论文二**:对抗性评测进一步放大分歧,GPT5和DeepSeek-V2.5给出边缘建议,Claude 4.5、Gemini 3 Pro、Minimax则集体拒绝,集中批评其创新性有限、理论分析不足,现实中的冠军论文可能遭遇“三拒两险过”的命运 [56][57][58][60] - **论文三**:该论文成为争议最大对象之一,GPT5建议海报,DeepSeek-V2.5建议边缘,而Claude 4.5、Gemini 3 Pro、Minimax则统一拒绝,质疑其指标有效性、样本量不足及理论贡献偏弱 [61][62][63][65] - **论文四**:对抗性框架显著压低评价,GPT5建议海报,Claude 4.5和DeepSeek-V2.5建议边缘,Gemini 3 Pro和Minimax则拒绝,批评其缺乏算法创新、适用性被高估及存在过度营销 [66][67][68][71] 实验总结与发现 - 实验暴露AI评审存在两大结构性问题:一是对提示词高度敏感,评审框架的切换可导致同一论文的评价从最佳变为拒绝 [72];二是对叙事语气极度“吃语气”,仅看摘要时,擅长使用“大规模实验”、“范式转变”等话术的论文易被高估 [72] - 在“人机协同”的背景下,AI基于统一标准能提供更稳定、深入的分析,但其结论与真实评审结果存在分歧,可作为理解论文优劣与提升空间的辅助工具,而非最终裁决者 [69][70] - 两篇官方最佳论文在AI评审中待遇不一:门控注意力论文在多数模型眼中是稳妥的强论文(8-9分),但仅GPT5愿称其最佳;千层网络论文则更极端,评价从口头/焦点报告到直接拒绝,在AI世界中仅是“高争议强稿” [72]
Amazon to let cloud clients customize AI models midway through training for $100,000 a year
CNBC· 2025-12-03 00:00
亚马逊AWS Nova Forge服务发布 - 亚马逊AWS推出名为Nova Forge的新服务,允许云客户广泛定制生成式AI模型,年费为10万美元[1] - 该服务让企业在AI模型训练的不同阶段接入亚马逊模型,以便更早地融入自身数据[1] - 与自行组装模型可能耗资数亿或数十亿美元相比,使用Nova Forge更具成本效益[2] Nova Forge功能与客户应用 - 客户可通过Nova Forge精炼开放权重模型,但训练数据和计算基础设施不包含在内[2] - 亚马逊内部团队(包括商店和Alexa AI助手)已在使用Nova Forge[4] - Reddit使用Nova Forge增强的模型进行内容审核,其表现优于市售大型模型[5] - Bookingcom、Nimbus Therapeutics、野村综合研究所和索尼等公司也在使用Forge构建模型[5] AWS Nova模型市场地位 - 亚马逊Nova模型在企业LLM市场份额不足5%,而Anthropic占32%、OpenAI占25%、谷歌占20%、Meta占9%[3] - Nova模型可通过AWS Bedrock服务获取,每周有数万组织使用,是Bedrock中第二受欢迎的模型系列[9] - 最受欢迎的模型系列来自Anthropic[9] 新发布模型性能特点 - Nova 2 Pro为推理模型,测试表现至少与Anthropic Claude Sonnet 45、OpenAI GPT-5/5.1、谷歌Gemini 30 Pro Preview相当[7] - 该模型通过系列计算提供更佳答案,将于早期访问阶段向Forge订阅客户开放[7] - Nova 2 Omni为多模态推理模型,可处理图像、语音、文本、视频并生成图像和文本,是首个具备此能力的推理模型[8] - 公司希望通过提供多功能模型降低AI模型应用集成成本与复杂度[8]
DeepSeek发布最强开源新品,瞄向全能Agent,给GPT-5与Gemini 3下战书
钛媒体APP· 2025-12-01 23:03
产品发布与定位 - DeepSeek于12月1日发布DeepSeek-V3.2和DeepSeek-V3.2-Speciale两个正式版模型,其推理能力达到全球领先水平 [2] - V3.2定位为“常规军”,重在平衡推理能力与输出长度,适合日常使用,已在网页端、App、API全部更新 [2] - V3.2 Speciale定位为“长思考特种部队”,旨在将开源模型的推理能力推向极致,探索模型能力边界,但不支持工具调用和日常对话,仅供研究使用 [8][9] 性能表现与基准测试 - 在Benchmark推理测试中,V3.2与GPT-5、Claude 4.5在不同领域各有高低,只有Gemini 3 Pro对比前三者有较明显优势 [2] - 在智能体评测中,V3.2得分高于同为开源的Kimi-K2-Thinking和MiniMax M2,被称为目前的“最强开源大模型” [3] - V3.2在一些问答场景和通用Agent任务中表现突出,例如在一个旅游攻略场景中,通过深度思考和工具调用给出了详尽精确的建议 [5] - V3.2 Speciale在主流推理基准测试中取得了媲美Gemini 3.0 Pro的成绩 [9] - 具体基准测试数据:在ToolUse T2-Bench测试中,V3.2得分为80.3,高于GPT-5 High的80.2,低于Claude-4.5-Sonnet的84.7和Gemini-3.0-Pro的85.4 [4] 技术特点与创新 - V3.2引入了DSA(DeepSeek稀疏注意力机制),能在长上下文场景中显著降低计算复杂度,同时保持模型性能 [8] - 公司开发了新的合成流程,能系统性地大规模生成训练数据,促进了可扩展的智能体训练后优化,提升了复杂交互环境中的泛化能力和指令跟随能力 [8] - V3.2是DeepSeek推出的首个将思考融入工具使用的模型,其更新的API首次支持在思考模式下使用工具调用能力,提升了答案的丰富度和适用性 [5][8] - V3.2 Speciale结合了上周发布的数学大模型DeepSeek-Math-V2的定理证明能力,该模型在IMO-Proof Bench基准测试评估中得到了比Gemini 3更好的成绩 [8][9] - 公司强调V3.2“并没有针对这些测试集的工具进行特殊训练”,旨在证明模型在真实应用场景中具有较强的泛化性,而非仅擅长测试的“做题家” [6] 市场竞争与行业动态 - 对比国产大模型厂商月之暗面新近发布的Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间 [3] - 2025年后半程,GPT-5、Gemini 3、ClaudeOpus 4.5相继发布,测试成绩一次好过一次,加上快速追赶的DeepSeek,使得“最牛大模型”的赛道变得拥挤 [10] - 头部大模型在训练上已有较明显的区别,表现上也各有特色,预示着2026年的大模型竞赛会更加精彩 [10]
念首诗,就能让AI教你造核弹,Gemini 100%中招
36氪· 2025-11-26 11:34
研究核心发现 - 一项研究发现,将恶意指令改写成诗歌形式,能有效突破主流大语言模型的安全限制,成为一种通用的单轮越狱机制[1][3][4] - 该攻击方法平均成功率高达62%,相比直接提问,成功率平均提升5倍[8][9] - 攻击效果呈现反向关系:性能越强的大型模型越容易被攻破,而部分小型模型因无法理解诗歌隐喻反而具备抵抗力[1][14][15] 测试模型与结果 - 研究测试了25个主流模型,包括谷歌Gemini系列、OpenAI GPT系列、Anthropic Claude系列、DeepSeek、Qwen、Mistral AI、Meta Llama、XAI Grok以及Moonshot AI Kimi等[5][6] - 谷歌Gemini 2.5 Pro防御完全失效,攻击成功率达到100%[8][9][10] - DeepSeek多个模型攻击成功率在95%以上[8] - OpenAI GPT-5 Nano和Anthropic Claude Haiku 4.5等小型模型表现最佳,攻击成功率分别为0%和10%[8][14] 攻击方法与机制 - 攻击使用1200个被定义为有害的问题,通过AI将其改写成诗歌形式,无需人类精心创作[6] - 攻击成功的关键在于“风格作为攻击向量”,诗歌的隐喻、节奏和修辞分散了模型对危险内容的注意力,使其切换到“文学欣赏模式”[12][14] - 现有安全防护主要基于内容和关键词匹配,难以有效检测通过优雅文体伪装的恶意意图[14][16] 行业影响与启示 - 研究结果表明,当前基于语义内容的安全评估方法存在明显不足,未来可能需要引入文学创作者参与红队测试[16] - 这一发现挑战了“模型越大越安全”的常规认知,在特定攻击维度上,Scaling Law失效甚至反向作用[14][15] - 科技巨头投入数百亿美元构建的安全护栏,在面对创造性语言攻击时显得脆弱,凸显了AI安全防护的新挑战[1][15]