Artificial Intelligence
搜索文档
Claude Opus 4.7深夜上线,评分碾压
机器之心· 2026-04-17 08:00
Anthropic发布Claude Opus 4.7模型 - Anthropic于周四晚间宣布其最新基础模型Claude Opus 4.7全面上市[2] - 该模型在高级软件工程、处理复杂任务方面相比Opus 4.6有显著提升,用户可放心将最棘手的编码工作交给其处理[2] - 模型定价与Opus 4.6相同,为每百万个输入token 5美元,每百万个输出token 25美元[3] 模型性能与基准测试 - 在多项基准测试中,Opus 4.7的表现优于Opus 4.6,例如在SWE-bench Pro的Agentic coding测试中得分为64.3%,高于Opus 4.6的53.4%和GPT-5.4的57.7%[2] - 在SWE-bench Verified的Agentic coding测试中得分为87.6%,高于Opus 4.6的80.8%和Gemini 3.1 Pro的80.6%[2] - 在Agentic financial analysis (Finance Agent v1.1)测试中得分为64.4%,高于Opus 4.6的60.1%和GPT-5.4 Pro的61.5%[2] - 在Graduate-level reasoning (GPQA Diamond)测试中得分为94.2%,略低于GPT-5.4 Pro的94.4%[2] - 在Visual reasoning (CharXiv Reasoning)测试中,无工具时得分为82.1%,有工具时得分为91.0%,均高于Opus 4.6[2] 核心功能与特性提升 - **指令执行能力**:Opus 4.7对指令的执行更加严格和精准,用户需相应调整提示信息[8] - **多模态支持**:图像处理能力增强,可处理长边高达2576像素(约375万像素)的图像,是之前Claude型号的三倍以上[8] - **实际应用能力**:在财务分析方面更高效,能生成严谨的分析模型和更专业的演示文稿,在GDPval-AA评估中处于领先水平[8] - **内存占用**:更擅长利用文件系统内存,能记住长时间、多会话工作中的重要笔记,降低对新任务上下文信息的要求[8] Claude Code新特性 - **自动模式**:允许模型在无需全程监督下执行复杂、长时间运行的任务,权限提示由基于模型的分类器决定是否安全执行[21][22][23] - **/fewer-permission-prompts技能**:扫描会话历史,推荐将安全的常见命令加入权限白名单,以减少不必要的权限提示[26][27] - **“回顾”功能**:提供智能体所做工作及下一步行动的简短总结,便于长时间运行会话后快速了解进度[28] - **专注模式**:在CLI中隐藏所有中间步骤,只显示最终结果,可通过/focus开关[30][31] - **自适应的思考深度**:使用自适应思考,通过/effort设置努力程度(如xhigh, max)来调整模型的思考程度和响应速度[32][33][34] - **工作验证机制**:为Claude提供验证其工作的方式(如端到端测试),可提升2-3倍产出,例如使用/go技能进行自我测试、运行/simplify技能并提交PR[37] 模型安全与一致性 - Opus 4.7是首个在网络安全能力上被有意降低的模型,作为“Project Glasswing”项目的一部分,旨在测试新的网络安全防护措施[37][38] - 模型配备了安全防护措施,能自动检测并阻止违禁或高风险的网络安全用途请求[38] - 总体安全性能与Opus 4.6相似,在诚实度和抵御“快速注入”攻击方面有所改进,但在提供管制药物减害建议方面略有不足[39] - Anthropic的一致性评估认为该模型“总体上一致性良好且值得信赖,但其行为并非完全理想”,Mythos Preview仍被认为是一致性最佳的模型[39] 平台与API更新 - 模型已在所有Claude产品、API、Amazon Bedrock、Google Cloud的Vertex AI以及Microsoft Foundry平台上推出[3] - **更精细的难度控制**:新增介于high和max之间的xhigh级别,Claude Code所有套餐的默认级别已提升至xhigh[42] - **任务预算**:在API公开测试版中推出,允许开发者引导Claude的token支出以优先处理较长时间的工作[42] - **/ultrareview命令**:在Claude Code中新增,可创建专门审查会话,标记错误和设计问题,为Pro和Max用户提供三次免费试用[43] - **自动模式扩展**:已扩展至Claude Code Max用户[43] 技术细节与影响 - Opus 4.7使用了更新的分词器,改进了文本处理方式,可能是一个新的基础模型或从Mythos提炼而来[43] - 由于分词器更新,相同输入映射到的词元数量可能增加约1.0到1.35倍[43] - 在高难度任务下,模型会进行更多思考,尤其在主动语态场景的后期回合,这提高了可靠性但也意味着产生更多输出token[43] - 知识截止日期更新至2026年1月,可靠知识截止日期为2026年1月[44] - 用户可通过工作量参数、任务预算或引导模型简化代码来控制token使用,内部编码评估显示所有工作量级别的令牌使用率均有所提高[44] - Anthropic提供了从Opus 4.6升级到Opus 4.7的迁移指南[45] 市场反馈与竞争 - 用户反馈新模型效果不错,但也有人指出其token消耗非常惊人[49] - 同期,千问开源了Qwen3.6-35B-A3B模型(350亿参数,激活30亿),有用户表示在其设备上运行该模型生成“鹈鹕骑自行车”的效果比Opus 4.7好,但此结论有待进一步验证[49][52]
杀疯了!Claude Opus 4.7 突袭发布,多项能力登顶第一
程序员的那些事· 2026-04-17 07:42
核心观点与行业影响 - Anthropic公司于2026年4月17日正式推出Claude Opus 4.7版本,作为当前面向公众开放的最强旗舰模型,该版本在多项核心能力上实现显著提升且未涨价,引发了行业高度关注 [1] - 此次更新使模型从一个单纯的对话工具,转变为一个能够独立完成专业任务的助手,其“不涨价还更强”的策略被认为是对用户最实在的升级,并加剧了大模型行业的竞争 [3][4] 核心能力提升 - **编程能力**:在权威编程基准SWE-bench Pro上的得分从53.4%大幅提升至64.3%,超越了同赛道竞品,能够独立完成复杂系统开发、Rust项目构建等硬核任务,显著提升程序员效率 [3] - **视觉能力**:支持更高清的图像解析,对技术图纸、密集图表、UI界面的识别精度大幅提升,在处理财报、设计原型等场景时能做到细节不丢、逻辑不乱 [3] - **推理与稳定性**:新增“自我验证机制”,在输出内容前会主动自检纠错,从而大幅降低了长文本、长任务的错误率,并提升了工具调用的稳定性 [3] - 新增了“Xhigh”推理强度档位,在深度与速度之间取得了更好的平衡,在办公、法律、学术等场景的处理能力全面领先上一代 [3] 产品策略与市场定位 - 尽管在代码、视觉、推理等核心维度实现了全面升级并刷新了多项行业纪录,但Claude Opus 4.7版本维持了原有价格,这一策略将产品的性价比拉满 [3]
实测Claude Opus 4.7,好好的模型也开始不说人话了。
数字生命卡兹克· 2026-04-17 05:32
文章核心观点 Claude Opus 4.7模型发布后,在编程、视觉等多方面能力显著提升,但同时也出现了“不说人话”的倾向,引发了对于AI模型过度追求编程等可量化能力而牺牲语言审美与人文价值的担忧 [18][24][65][101][107] Claude Opus 4.7发布与市场反响 - 新模型Claude Opus 4.7于近期发布,在作者监控的数十个精选信源中,有10个信源同时报道,热度远超一般热点(通常3-6个信源)[2][3][4] - 模型已全渠道上线,包括移动端和Claude Code开发框架,并维持了1M(一百万)的上下文长度 [7][8][10][12] 定价、成本与商业模式 - 模型API定价与4.6版本保持一致,为输入每百万token 5美元,输出每百万token 25美元 [19] - 尽管单价未变,但相同任务下,4.7模型的token消耗可能比4.6版本多出最多35%,导致实际使用成本上升 [28][29][31] - 公司解释称,更高的单次token消耗可被模型准确率提升、减少修改轮次所抵消,但此逻辑更适用于其擅长的高难度复杂任务 [32][33] 性能基准评测表现 - 在多项基准测试中,Claude Opus 4.7相比4.6版本有显著提升,例如在Agentic coding (SWE-bench Verified)中从80.8%提升至87.6% [21] - 视觉能力提升巨大,在XBOW的视觉测试中,成功率从4.6版本的54.5%跃升至98.5% [36][38] - 多模态能力增强,支持处理最高2576像素长边的图片,约3.75兆像素,是之前Claude模型处理能力的三倍多 [40][41] - 官方数据显示,Claude Opus 4.6在多数性能上未跑赢GPT-5.4,这是首次承认在编程上不如对手 [21] 关键能力更新与用户体验 1. **视觉与多模态能力** - 视觉识别精度大幅提高,能准确识别复杂界面截图中的文字和细节,对知识工作者是重大加成 [44][48][49] - 高分辨率图像处理能力可应用于法律合同审查、金融图表解析、竞品界面分析等专业场景 [50][51][52][53] 2. **编程与开发体验** - 编程能力(Agentic coding)在多个基准测试中领先于GPT-5.4和Gemini 3.1 Pro [21] - 在开发微型项目(如公司招聘网站)时,审美、对需求的理解以及动效实现比4.6版本更好,开发体验更优 [56][62] 3. **创作与语言风格** - 出现明显的“不说人话”倾向,生成文本带有类似GPT-5.4的“伪人”味道和行业黑话,文字品味下降,引发了核心用户群体的强烈不满 [65][68][71][77][79] - 此前Claude模型在创作和用户体验设计上被认为远优于GPT-5.4,尤其在影视编剧等创意领域备受青睐 [22] 新增功能与行业应用 - 在Claude Code中新增了`/ultrareview`命令,用于深度代码审查,Pro和Max用户有3次免费试用额度 [86][87] - 推出了“网络安全验证计划”,为合法的安全研究、渗透测试等场景提供申请使用受限能力的正式通道,这被认为是进入产业应用、具有长期价值的分级授权设计 [87][89][91][92][94] - 在模型“努力程度”档位中,于high和max之间新增了xhigh档,并设为默认档位,以平衡性能与消耗 [82][83][85] 行业观察与反思 - 行业普遍存在过度追求编程等可量化Benchmark能力的现象,导致模型在语言审美、人文关怀等“无法量化”的能力上出现系统性退步 [100][102][105][106][108] - 尽管编程能力对开发者至关重要,但语言作为人类智力活动的底座,其丰富性、创造性和情感价值不应被牺牲 [103][104] - 模型能力的差异化依然存在,Claude在创作和用户体验设计上具有优势,而GPT-5.4则在解决具体产品BUG等方面表现更强 [22][23]
Employment 'Apocalypse' Fears Are Overblown, Scale AI CEO Says - Meta Platforms (NASDAQ:META), Oracle (NY
Benzinga· 2026-04-17 05:19
行业观点:AI对就业市场的影响 - Scale AI首席执行官Jason Droege指出,部分公司以AI为借口进行裁员,实则是执行其原有计划,即“用AI粉饰裁员”[1] - Droege淡化AI将引发就业“末日”的观点,认为AI工具将增强企业能力、提升竞争力,进而使更具竞争力的公司对竞争力较弱的公司施加压力[1] - 该高管同时指责员工未能有效学习使用新兴技术,认为个人生计面临风险的主因是未能适应,而非无法控制的突发事件[2] - Droege警告AI可能表现不一致,尤其在微小错误会导致重大后果的领域[2] 政府官员与投资界观点 - 美国财政部长Scott Bessent在“投资美国”论坛上表示,AI本身不会取代工作,但懂得使用AI的人会取代不懂的人[3] - Bessent预测经济将出现“数十年来未见的巨大生产率提升”,并鼓励所有人学习AI知识,认为人们需要向雇主证明自身价值[3] - Bessent指出,硅谷一些优秀投资者认为AI将成为小企业的“伟大均衡器”,因为初创公司可利用AI处理小型任务,从而减少对员工的需求[3] 市场现状:AI已导致实际裁员 - 尽管行业领袖发表上述评论,但已有部分公司因AI技术的快速进步而进行了大规模裁员[4]
Manycore, the first of the Hangzhou ‘Little Dragons’ to go public, pushes ‘spatial intelligence’ as the next wave of AI development
Yahoo Finance· 2026-04-17 05:00
Hong Kong’s AI IPO boom produces its latest entrant today, as design AI startup Manycore Tech begins trading after seeking up to 1.02 billion Hong Kong dollars ($130 million) in funding, becoming the first of China’s six celebrated “Little Dragons” from Hangzhou to reach public markets. “The IPO is important for us to attract the most talented engineers to join us, to buy more GPUs, and to collect more data,” Victor Huang, Manycore’s chair and one of its cofounders, told Fortune ahead of the trading debut ...
Anthropic Unveils Updated Opus 4.7 Model | Bloomberg Tech 4/16/2026
Youtube· 2026-04-17 04:51
人工智能模型更新 - Anthropic公司发布了其广泛可用的人工智能模型Opus的更新版本,性能提升了4.7%,而上一版本为4.6% [1][4][6] - 新版本在广泛的能力上有所提升,特别是在处理过去需要分解成多个部分的任务(如软件工程)方面表现更佳 [4][5] - 模型的计算机视觉能力得到增强,能够处理更高分辨率的图像并从中更好地提取信息,这为数据分析等应用开辟了可能性 [5][6] - 此次更新是在其更先进的模型Mythos进行有限发布仅一周后推出的 [1][4] 先进模型Mythos与网络安全 - Anthropic的Mythos模型被设计用于发现网络安全漏洞,以便进行修复,公司已将其提供给少数选定的公司进行早期使用 [7][8] - 该模型在测试中表现出不仅能帮助发现漏洞,还能自主利用这些漏洞的能力,这促使公司决定限制其发布范围 [42][43] - 出于对模型强大能力可能被滥用的担忧,Anthropic采取了有意的、限制性的发布策略,而非大规模发布 [38][39][46] - 公司计划在未来几周内将Mythos的访问权限扩展到英国的金融机构 [34][35] 芯片制造与供应链动态 - 台积电(TSMC)利润大幅增长,受人工智能芯片强劲需求驱动 [2] - 台积电将营收增长预测上调至超过30%,并预计将接近560亿美元营收区间的上限 [22] - 埃隆·马斯克正在积极推进其芯片制造项目,已联系东京电子、应用材料等设备供应商询价和交货时间 [13] - 行业对马斯克的项目持保留态度,现有芯片制造专家和设备供应商可能不愿将专业知识或有限产能分配给一个新手 [15][19][20] - 芯片制造是一个竞争激烈且困难的市場,分析师估计需要投入5万亿至13万亿美元,且大规模生产预计要到2029年才开始 [15][16] 人工智能驱动的市场与行业趋势 - 以科技股为主导,美国股市连续12天上涨,创下自2017年以来最长的连涨纪录 [2][3][25] - 人工智能被视为下一个重大技术浪潮,其带来的生产力提升规模被比作国家的电气化,市场仍在试图为人工智能定价 [26] - 人工智能需求非常强劲,但也存在内存芯片供应紧张等瓶颈,限制了部分公司获取供应 [22][23] - 人工智能的采用正在加速,不仅限于编码,还扩展到市场营销、人力资源和财务等公司运营的各个层面 [78][79][80] 数据中心扩张与监管挑战 - 数据中心建设热潮导致电力需求激增和电价上涨,这在美国已成为一个政治议题,影响了州长选举 [54][55] - 为应对反对意见,一种解决方案是要求数据中心开发商自建发电设施或签署购电协议,以承担其能源消耗 [55][56] - 美国缅因州已成为第一个暂停数据中心建设的州,以评估所需的监管措施 [57] - 在欧洲,西班牙正将自己定位为欧洲的人工智能中心,大力推动基础设施建设,但也面临土地征用和当地居民反对的挑战 [60][61][62] - 欧盟和西班牙预计将出台新的法规,将未来的数据中心建设许可与满足可持续性标准挂钩 [65][66] 初创公司与融资动态 - 金融科技初创公司Slash完成了1亿美元的融资,该公司为特定行业提供定制化银行服务 [81][84] - Slash公司年经常性收入达到3亿美元,自去年5月以来一直保持盈利,其运营高度依赖人工智能实现自动化 [84][85][87][88] - 公司超过50%的工程时间用于构建内部软件工具,以自动化从文件归档到处理争议等后台任务 [88] - 通风与过滤系统公司Madison Air正在进行首次公开募股,发行价每股27美元,预计开盘价为每股30至31美元,其需求增长部分得益于数据中心建设的繁荣 [92]
Upscale AI in talks to raise at $2B valuation, says report
Yahoo Finance· 2026-04-17 04:41
AI infrastructure company Upscale AI is reportedly in talks to nab its third funding round since launching just seven months ago, according to Bloomberg. This latest round — which aims to raise around $180 million to $200 million — would value the company at about $2 billion. The company announced a $200 million Series A in January and a $100 million seed round in September, when it first launched. Investors in the company include Tiger Global Management, Xora Innovation, and Premji Invest. Notably, Up ...
Gaxos Labs Expands AI Platform with Music Generation, AI Chat and 3D Model Creation, Driving Increased Engagement Across its AI Portfolio
Globenewswire· 2026-04-17 04:15AI 处理中...
Latest rollout broadens Gaxos’ generative AI markets as expanded capabilities fuel user activity and platform momentum Roseland, NJ, April 16, 2026 (GLOBE NEWSWIRE) -- Gaxos.ai Inc. ("Gaxos" or the "Company"), a company developing artificial intelligence applications across various high-growth sectors, today announced the expansion of its Gaxos Labs product ecosystem with the addition of AI Music Generation, AI Chat, and AI 3D Model Creation capabilities. The rollout of these latest features has already con ...
Anthropic Releases Claude 4.7, Introducing Mythos-Inspired Cybersecurity Protections - Apple (NASDAQ:AAPL
Benzinga· 2026-04-17 03:59
Anthropic发布Claude Opus 4.7模型 - 公司发布最新AI模型Claude Opus 4.7,其网络能力测试不如Mythos Preview先进 [1] - 公司表示将首先在能力较低的模型上测试新的网络防护措施,并限制Claude Mythos Preview的发布 [1] - 更新后的Claude Opus 4.7将配备防护措施,能自动检测并阻止表明被禁止或高风险的网络安全用途的请求 [4] - 公司指出,从这些防护措施的实际部署中获得的经验将有助于其最终实现广泛发布Mythos级别模型的目标 [4] 模型性能与功能更新 - 更新后的模型允许用户以更高分辨率查看图像,并能协助处理“最困难的任务” [5] - 公司指出,尽管其广泛能力不及Mythos,但能提供比Opus 4.6更好的结果 [5] - 早期测试表明,更新后的模型在指令遵循能力方面有所改进,在扮演金融分析师角色时表现出更强的性能 [6] - 发布说明指出,Opus 4.7将包含基于文件系统的记忆功能,使其能够保留先前的工作,并在较少前置上下文的情况下运行 [6] Project Glasswing合作与Mythos Preview应用 - 公司上周宣布创建Project Glasswing,这是一个专注于安全的合作项目,成员包括横跨金融和科技领域的大型知名公司 [1] - 该小组计划使用未发布的Anthropic模型Claude Mythos Preview来搜寻并修复软件缺陷,以期“重塑”网络安全 [2] 发布范围与行业影响 - 此次新发布虽然仅限于大约40家公司,但引发了监管机构对其使用中潜在网络安全问题的审查 [3] - 许多美国大型银行的核心系统仍运行在已有数十年历史的遗留代码上,如果Mythos能发现所有现有安全工具都遗漏的缺陷,银行业可能是较脆弱的行业之一 [3]
OpenAI launches AI model GPT-Rosalind for life sciences research
Reuters· 2026-04-17 03:01
OpenAI发布生命科学AI模型GPT-Rosalind - 公司于4月16日推出名为GPT-Rosalind的人工智能模型 该模型以20世纪英国科学家罗莎琳德·富兰克林命名 旨在增强生物学知识和科学研究能力 标志着公司向生命科学领域深化拓展 [1] - 该模型基于公司最新的内部模型构建 设计用于支持生物化学、药物发现和转化医学等领域的研究 [2][3] 模型功能与设计目标 - 模型旨在通过支持证据综合、假设生成、实验规划等多步骤研究任务 帮助研究人员加速早期发现阶段 [3] - 研究人员可使用该模型查询数据库、阅读最新科学论文、使用其他科学工具并提出新的实验建议 [3] 产品发布与客户合作 - GPT-Rosalind作为研究预览版 通过公司的可信访问部署结构 在ChatGPT、Codex和API中向合格客户提供 [4] - 公司同时为Codex推出免费的“生命科学研究”插件 将科学家与超过50种科学工具和数据源连接起来 [4] - 公司正与安进、莫德纳、赛默飞世尔科技等客户合作 将GPT-Rosalind应用于工作流程中 [4] 行业背景与需求 - 制药公司、学术机构和生物技术公司对加速药物发现和研究的AI工具需求不断增长 [2] 公司近期其他动态 - 在发布GPT-Rosalind之前 公司于4月14日推出了GPT-5.4-Cyber 这是其最新旗舰模型的变体 专门针对防御性网络安全工作进行微调 此举紧随竞争对手Anthropic发布前沿AI模型Mythos之后 [5]