Workflow
Artificial Intelligence
icon
搜索文档
RAG搜对了却答错?德国萨尔大学找到了真相丨ACL'26
量子位· 2026-04-17 09:54
文章核心观点 - 传统RAG技术的核心痛点在于模型对检索到的内容“读不懂”,而非“搜不到”,具体表现为无法识别段落内部的主次关系以及段落之间的逻辑关联,导致答案质量低下[2][5][6][7] - Disco-RAG框架通过在检索和生成之间加入“读懂”环节,即对文档进行篇章结构解析,显著提升了模型对复杂信息的理解和组织能力,且全程无需训练[2][9][27] - Disco-RAG在多个权威基准测试中表现优异,尤其在长文档、歧义问答和科学摘要任务上全面领先现有方法,并证明了其部署灵活性和与模型微调的互补性[14][17][19][23][26] 传统RAG的痛点诊断 - 传统RAG将检索到的段落当作“散装零件”直接投喂给模型,抹平了段落内部的主次关系和段落间的逻辑脉络,模型看到的是“信息乱炖”[2] - 具体盲区包括:段落内部分不清结论与前提条件;段落之间无法识别支持、反驳等关联关系[5][6] - 以“补充维生素D能否预防流感”为例,模型会忽略段落A中“冬季+偏低人群”的关键限定条件,且无法识别段落A与段落B结论相悖,从而给出错误答案[3] Disco-RAG的解决方案 - 该框架通过三步让模型学会“读”文档,全程不改动模型参数[10][11] - **第一步:构建论证树**。利用LLM将段落拆解为最小语义单元,标记核心内容与辅助说明,并识别单元间关系(如因果、对比)[11] - **第二步:构建关系网**。对检索到的所有段落进行两两配对分析,预测它们之间的支持、反驳、补充等关系,形成有向图[11] - **第三步:生成提纲并作答**。综合问题、段落、论证树和关系网,先生成标明关键证据、叙述顺序及矛盾协调策略的“写作提纲”,再以此为指导生成最终答案[11] - 在维生素D案例中,该流程能明确标记限定条件、核心结论以及段落间的“对比”关系,从而生成有层次、有条件的分析性回答[13] 性能基准测试结果 - **长文档推理(Loong)**:在文档长度从1万到25万tokens的测试中,Disco-RAG优势随文档增长而扩大。在最长25万tokens档位,普通RAG几乎失效,而Disco-RAG仍能有效回答,整体表现甚至超过需要专门训练的方法[15]。例如,在Set 4(200K-250K Tokens)中,使用Llama-3.3-70B的Disco-RAG在核心指标上达到57.74,显著优于标准RAG的40.27和同期先进方法StructRAG的56.87[16] - **歧义问答(ASQA)**:Disco-RAG在核心指标上刷新最佳记录。使用Llama-3.3-70B时,EM+指标达42.0,RL+指标达42.3,DR Score+达32.8,均优于所列的各类先进方法[17][18] - **科学摘要(SciNews)**:在将学术论文改写为新闻摘要的任务中,Disco-RAG在四项指标中拿下三项第一。使用Llama-3.3-70B时,RL+指标达21.11,BERTScore+达65.67,SARI+达44.37,事实一致性(SummaC+)达69.48,排名第二[19][20] 技术有效性与鲁棒性验证 - 对照实验表明,论证树、关系网、提纲三个模块缺一不可,各自承担不同角色,移除任一模块性能均明显下滑[21] - 仅为普通RAG添加通用规划步骤(不含篇章结构)提升有限,证明Disco-RAG的大幅提升主要源于“论证树+关系网”的结构化表示,模型确实利用了文本逻辑结构[21] - 即使面对大量无关噪声内容或大幅调整段落切分粒度,Disco-RAG表现依然稳健,而普通RAG波动剧烈[21] 实际部署的灵活性与成本优势 - Disco-RAG的模块化设计允许使用不同大小的模型分别承担结构分析与最终生成任务[23] - 实验显示,使用小模型(Llama-3.1-8B)进行所有结构分析,仅在大模型(Llama-3.3-70B)进行最终生成,效果可接近全部使用70B模型的水平[24] - 全部使用8B小模型运行Disco-RAG,效果也远超使用70B大模型运行普通RAG,这意味着结构分析模块可“降配”部署以控制成本,同时保留核心性能收益[25] 与模型微调的协同效应 - 在SciNews任务上,不经过任何训练的Disco-RAG(RL+ 21.1, SummaC+ 69.5)其效果已经超过了经过微调的普通RAG(RL+ 20.3, SummaC+ 66.8)[26] - 将微调与Disco-RAG的篇章结构结合使用时,效果得到进一步提升(RL+ 23.3, SummaC+ 74.0),表明结构信息与微调带来的收益是互补的[26] - 这为实际应用提供了清晰路径:可先通过Disco-RAG免训练获得即时收益,再根据需要叠加微调以追求更优性能[26] 行业启示与应用前景 - 这项工作揭示了一个被长期忽视的事实:自然语言文本拥有自己的逻辑骨架(主次、因果、转折等),将这一骨架解析并交给模型能显著改变其信息理解和组织能力[27] - Disco-RAG的思路不仅适用于RAG场景,也可能为更广泛的多文档推理、长文本理解等任务提供新启发[27] - 对于正在进行RAG系统落地的团队而言,Disco-RAG提供了一个轻量、即插即用的增强方案[27]
ImageNet作者苏昊回国任教复旦!李飞飞高徒,具身第一高引,出任通用物理AI院长
量子位· 2026-04-17 09:54
苏昊加盟复旦大学 - 在第五届中国三维视觉大会上,李飞飞弟子、ImageNet作者苏昊正式被复旦大学官宣加盟 [2] - 苏昊将担任复旦大学浩清特聘教授,并领衔建设通用物理智能研究院,出任院长 [3] - 复旦大学官方将此次加盟定义为面向智能时代的关键落子 [5] 苏昊的学术背景与成就 - 苏昊是具身智能领域论文被引次数最高的华人学者,谷歌学术被引次数超过14.5万次 [8][13] - 他是ImageNet奠基性数据集的缔造者之一,并参与了后续的Object Bank项目 [8][25] - 他是ShapeNet、PointNet、PointNet++、PartNet、SAPIEN、ManiSkill等一系列奠基级项目的主导者 [8] - 2025年,他与谢赛宁共同获得了CVPR青年学者奖 [15] - 在加盟复旦前,他是加州大学圣地亚哥分校计算机科学与工程系副教授及具身智能实验室主任 [9] 苏昊的学术历程与研究演进 - 本科就读于北京航空航天大学,师从李未院士,后于微软亚洲研究院实习,研究重心从自然语言处理转向计算机视觉 [19][20][21][22] - 2008年,经推荐先后在普林斯顿和斯坦福参与ImageNet项目,并于2009年跟随李飞飞正式转入斯坦福 [23] - 2015年,发布全球第一个大规模3D数据集ShapeNet,包含逾300万个3D CAD模型,涵盖3135个类别 [28] - 2017年,发布PointNet与PointNet++,使3D视觉相关论文在顶会的占比从不足10%跃升至70% [30] - 2018年获得斯坦福博士后,发布3D物体数据集PartNet,并入职UCSD [34] - 研究从计算机视觉迁移至机器人领域,2021年推出机器人操作仿真平台ManiSkill [35][37] 苏昊的创业实践 - 2024年,苏昊创办具身智能公司Hillbot并担任首席技术官 [40] - Hillbot的核心技术依托于其此前发布的SAPIEN仿真器及ManiSkill训练平台 [42] - 公司已与英伟达合作,借助Nvidia Cosmos平台生成高仿真视频训练数据 [43] - 产品方面推出了轮式机器人Hillbot Alpha,用于零售店、咖啡馆和制造车间等复杂环境下的移动操纵任务 [43] 加盟复旦的动机与愿景 - 苏昊选择加盟复旦大学,是因为双方目标一致,即推动“物理智能”的最终实现 [45][46] - 物理智能旨在让AI系统在物理世界中既能理解世界,也能执行恰当行动 [47] - 苏昊看重复旦大学深厚的数学、物理学科根基、新工科建设以及地处上海和长三角的产业与区位优势 [48] - 他将领衔建设的通用物理智能研究院将打破学科边界,汇聚数学、物理、计算机、人机交互、脑机接口等多领域人才 [50] - 研究院的目标是培养未来5到10年的人工智能领军人物,强调高品位的科研眼光和长周期的探索耐心 [51][52] 对具身智能领域的看法 - 苏昊对当下具身智能赛道持“谨慎的乐观”态度 [54] - 乐观源于这是一个既有科学深度又有巨大产业潜力的真问题 [55] - 谨慎则源于当前大量演示与真正的通用能力之间仍存在关键断层,而填补断层的核心是物理智能 [56][57] - 他认为短期内实现类似大语言模型的泛化还不现实,但长期方向清晰 [59] - 预见具身智能将深度渗透制造业、服务业、养老行业,最终推动进入人机共存的时代 [60]
Claude Opus 4.7来了,公开模型里的SOTA!不过用起来GPT味好浓
量子位· 2026-04-17 09:54
Anthropic发布Claude Opus 4.7模型 - Anthropic公司发布了其最新的Claude Opus 4.7模型,并宣称这是其目前最强大的公开可用模型,但其最强大的模型仍是未公开的Mythos [1][6] - 与未发布的Mythos相比,Opus 4.7在多项测试上的整体表现约低10%至15% [7] - Opus 4.7的定价为Opus 4.6保持一致,输入为5美元每百万tokens,输出为25美元每百万tokens,而Mythos Preview的价格是Opus 4.7的5倍 [8][45] 模型性能表现与特点 - **高级软件工程能力显著提升**:在高级软件工程领域,Opus 4.7取得了最显著的进步 [13] - 在CursorBench上的表现从58%跃升至70% [14] - SWE-bench Verified测试达到78.2%,SWE-bench Multimodal达到72.7%,Terminal-Bench 2.0达到68.8% [15] - 在Rakuten-SWE-Bench中解决生产任务的数量是Opus 4.6的3倍 [15] - GitHub 93项任务编码基准提升了13% [15] - **视觉能力大幅增强**:视觉处理能力有长足进步,长边最大支持2576像素(约3.75百万像素),是Opus 4.6的3倍以上 [22] - XBOW视觉敏锐度达到98.5%,而Opus 4.6仅为54.5% [22] - 能够识别完整Figma设计稿、1080p终端截图(含灰色小字),并精准解析复杂技术架构图、财报图表 [22] - **指令遵循与推理能力改进**:在指令遵循上更加严格和可靠,不再猜测用户意图,而是严格按照字面执行 [26][27] - 在100万token长上下文场景的BFS任务中得分为58.6%,而Opus 4.6为41.2% [27] - **Agent能力全方位增强**:Opus 4.7被定位为“为Agent而生”的版本,核心Agent能力得到提升 [29][31] - 在Notion的多步骤工作流中,成功率比Opus 4.6提升14%,工具调用错误率降至三分之一 [20][31] - 在Vending-Bench 2长期经营模拟中,最终余额达到10937美元,而Opus 4.6为8018美元 [31] - 具备文件系统记忆功能,新任务可减少40%的重复上下文输入 [32] - 在Devin中能将长周期自主性提升到新水平,可连贯工作数小时 [33] 开发者工具与控制优化 - 新增`xhigh`推理等级,介于`high`与`max`之间,为开发者提供更精细的控制权,以平衡推理深度、延迟和token成本 [35] - 新增自适应思考模式,模型可自主决定思考深度,简单查询快速响应,复杂步骤重点投入 [35] - 提供任务预算功能(公开beta),开发者可引导token消耗,优化长任务资源分配 [36] - Claude Code新增`/ultrareview`命令,可创建专属审查会话,用于标记细微错误与设计问题 [36] 安全策略与部署考量 - Anthropic在训练中刻意差异化降低了Opus 4.7的网络能力,使其在面对网络安全相关任务时表现出更谨慎的行为模式 [37][40] - 公司发布了自动检测和阻止高风险网络安全请求的防护措施,并推出了Cyber Verification Program供安全专业人员申请用于合法目的 [40] - 公司试图对外塑造一个比竞争对手更注重安全和负责任AI部署的声誉 [39] 使用成本与效率分析 - Opus 4.7使用了新的分词器,相同输入可能映射到1.0到1.35倍之间的tokens,提示词可能消耗更多token [41][42] - 在`high`和`xhigh`努力级别下,思考深度增加,特别是在Agent场景的多轮对话后期,这意味着更多的token消耗 [43][47] - 尽管单次调用的token数可能增加,但Anthropic内部测试显示,在所有努力级别下的token使用效率相比Opus 4.6都有改善,完成任务所需的总token往往更少,因为模型犯错次数减少 [45] - 开发者可以通过调整努力参数、设置任务预算或优化提示词来平衡性能与成本 [48] 市场定位与可获得性 - Opus 4.7被描述为安全体系完成全验证、定价亲民且全平台开放的最强量产版 [9] - 模型已实现全平台开放,除Claude官方途径外,还登陆了微软Foundry、谷歌Cloud Vertex AI、亚马逊Bedrock三大云平台 [44]
觅蜂科技发布一站式物理 AI 数据服务平台,为 AGI 时代筑牢数据根基
IPO早知道· 2026-04-17 09:12
行业背景与核心问题 - 行业核心观点:AI正从数字世界走向物理世界,具身智能成为下一代计算革命的核心赛道[2] - 行业面临严重数据瓶颈:物理AI真机交互数据量不足大语言模型的两万分之一,且存在标准缺失、质量参差不齐、供需错配等问题,制约具身智能从实验室走向产业落地[2] 公司定位与使命 - 公司定位为一站式物理AI数据服务平台,使命是“让全世界的数据为AI所用”[2] - 公司致力于打造具身智能数据的平台型供给基础设施,实现数据体系化、标准化、规模化供给[2] - 与传统数据服务商不同,公司不只提供数据,更致力于构建物理AI数据基础设施,实现真机遥操、无本体采集、仿真数据全范式覆盖,并打通硬件、软件、平台、运营全链路[2][3] 产品与服务能力 - 公司推出MEgo系列无本体数据采集硬件,包括MEgo Gripper采集夹爪、MEgo View头戴式采集设备及MEgo Engine数据治理引擎[2][3] - 产品技术特点:实现毫米级精准捕捉、亚毫秒级同步、超300°全景感知,支持随时随地轻量化采集,大幅降低数据获取门槛与成本[3] - 产品具备与精灵G2 Air原生同构的特点,从源头保障UMI采集数据和真机数据的同源共生,基于同构型传感器和夹爪一致性数据训练的模型可无缝对接部署到G2 Air,快速实现机器人自主作业能力[3] - 公司旨在提供类型全、质量好、交付快的“又全又好又快”数据供给能力,让高质量数据像水电一样即取即用[2][3] 产能目标与行业愿景 - 公司计划在2026年实现千万小时级数据产能,数据质量与规模均处于行业领先水平[5] - 公司目标在2030年达成百亿小时级数据产能,共建全球最大物理AI数据生态[5] - 公司强调2026年是具身智能数据元年,将以平台化供给为核心,通过“蜂巢行动”与全球伙伴共建数据生态、共享产业红利[5] - 公司未来将持续推动物理AI数据走向标准化、规模化、平台化,与全行业伙伴携手破解数据瓶颈,为具身智能规模化落地与全球AI产业创新发展注入持久动能[5]
Anthropic发布Claude Opus 4.7:金融分析能力登顶公开模型;MiniMax发布全球首个云端自我进化AI助手MaxHermes丨AIGC日报
创业邦· 2026-04-17 08:37
MiniMax发布云端自我进化AI助手MaxHermes - 公司发布全球首个基于Hermes Agent构建的云端自我进化AI助手MaxHermes [2] - MaxHermes将Hermes Agent的学习闭环与自我进化能力与MiniMax M2.7模型结合,用户无需本地部署,10秒内可在云端拥有自主迭代的AI智能体 [2] - 产品已打通飞书、钉钉、企业微信等多款即时通讯渠道,用户可在常用聊天应用中直接与MaxHermes实时对话 [2] 腾讯混元3D世界模型2.0发布并开源 - 公司混元3D世界模型2.0正式发布并开源 [2] - HY-World 2.0是一个多模态世界模型,能够根据文字、图片、视频等不同类型输入,自动生成、重建和模拟3D世界 [2] - 模型支持多格式3D资产导出,并能与现有游戏工作流无缝对接,用于快速生成游戏地图和关卡原型 [2] 科大讯飞发布AstronClaw智能体矩阵 - 公司发布全新软硬一体智能体矩阵AstronClaw [2] - 硬件端,讯飞办公本、AI眼镜、Guide01机器人全面接入Claw能力,同时推出WallEX、NOVA智能空间产品 [2] - 软件与生态层面,Loomy新增Buddy分身协作功能,升级招采Claw、陪练Skill等垂直场景应用,并发布企业级开源技能仓库SkillHub,构建覆盖个人办公、企业服务、家庭生活的全场景智能体生态 [2] Anthropic发布Claude Opus 4.7模型 - 公司推出旗舰人工智能模型Claude Opus的4.7版本,侧重于软件工程领域的提升,同时在金融分析、视觉能力和创作“品味”方面实现进步 [2] - 在大多数AI模型“跑分”中,Opus 4.7较两个月前发布的Opus 4.6及竞品GPT-5.4都要高出一头 [3] - Opus 4.7在“金融分析代理”测试中取得全球AI大模型最高得分,相较4.6版本能生成更严谨的分析与建模、更专业的报告展示,并在各项任务间实现更紧密的整合 [3] - 在衡量AI在金融、法律和其他知识性工作的GDPval AA测试中,Opus 4.7也拿到行业领先的成绩 [3]
Claude Opus 4.7深夜上线,评分碾压
机器之心· 2026-04-17 08:00
Anthropic发布Claude Opus 4.7模型 - Anthropic于周四晚间宣布其最新基础模型Claude Opus 4.7全面上市[2] - 该模型在高级软件工程、处理复杂任务方面相比Opus 4.6有显著提升,用户可放心将最棘手的编码工作交给其处理[2] - 模型定价与Opus 4.6相同,为每百万个输入token 5美元,每百万个输出token 25美元[3] 模型性能与基准测试 - 在多项基准测试中,Opus 4.7的表现优于Opus 4.6,例如在SWE-bench Pro的Agentic coding测试中得分为64.3%,高于Opus 4.6的53.4%和GPT-5.4的57.7%[2] - 在SWE-bench Verified的Agentic coding测试中得分为87.6%,高于Opus 4.6的80.8%和Gemini 3.1 Pro的80.6%[2] - 在Agentic financial analysis (Finance Agent v1.1)测试中得分为64.4%,高于Opus 4.6的60.1%和GPT-5.4 Pro的61.5%[2] - 在Graduate-level reasoning (GPQA Diamond)测试中得分为94.2%,略低于GPT-5.4 Pro的94.4%[2] - 在Visual reasoning (CharXiv Reasoning)测试中,无工具时得分为82.1%,有工具时得分为91.0%,均高于Opus 4.6[2] 核心功能与特性提升 - **指令执行能力**:Opus 4.7对指令的执行更加严格和精准,用户需相应调整提示信息[8] - **多模态支持**:图像处理能力增强,可处理长边高达2576像素(约375万像素)的图像,是之前Claude型号的三倍以上[8] - **实际应用能力**:在财务分析方面更高效,能生成严谨的分析模型和更专业的演示文稿,在GDPval-AA评估中处于领先水平[8] - **内存占用**:更擅长利用文件系统内存,能记住长时间、多会话工作中的重要笔记,降低对新任务上下文信息的要求[8] Claude Code新特性 - **自动模式**:允许模型在无需全程监督下执行复杂、长时间运行的任务,权限提示由基于模型的分类器决定是否安全执行[21][22][23] - **/fewer-permission-prompts技能**:扫描会话历史,推荐将安全的常见命令加入权限白名单,以减少不必要的权限提示[26][27] - **“回顾”功能**:提供智能体所做工作及下一步行动的简短总结,便于长时间运行会话后快速了解进度[28] - **专注模式**:在CLI中隐藏所有中间步骤,只显示最终结果,可通过/focus开关[30][31] - **自适应的思考深度**:使用自适应思考,通过/effort设置努力程度(如xhigh, max)来调整模型的思考程度和响应速度[32][33][34] - **工作验证机制**:为Claude提供验证其工作的方式(如端到端测试),可提升2-3倍产出,例如使用/go技能进行自我测试、运行/simplify技能并提交PR[37] 模型安全与一致性 - Opus 4.7是首个在网络安全能力上被有意降低的模型,作为“Project Glasswing”项目的一部分,旨在测试新的网络安全防护措施[37][38] - 模型配备了安全防护措施,能自动检测并阻止违禁或高风险的网络安全用途请求[38] - 总体安全性能与Opus 4.6相似,在诚实度和抵御“快速注入”攻击方面有所改进,但在提供管制药物减害建议方面略有不足[39] - Anthropic的一致性评估认为该模型“总体上一致性良好且值得信赖,但其行为并非完全理想”,Mythos Preview仍被认为是一致性最佳的模型[39] 平台与API更新 - 模型已在所有Claude产品、API、Amazon Bedrock、Google Cloud的Vertex AI以及Microsoft Foundry平台上推出[3] - **更精细的难度控制**:新增介于high和max之间的xhigh级别,Claude Code所有套餐的默认级别已提升至xhigh[42] - **任务预算**:在API公开测试版中推出,允许开发者引导Claude的token支出以优先处理较长时间的工作[42] - **/ultrareview命令**:在Claude Code中新增,可创建专门审查会话,标记错误和设计问题,为Pro和Max用户提供三次免费试用[43] - **自动模式扩展**:已扩展至Claude Code Max用户[43] 技术细节与影响 - Opus 4.7使用了更新的分词器,改进了文本处理方式,可能是一个新的基础模型或从Mythos提炼而来[43] - 由于分词器更新,相同输入映射到的词元数量可能增加约1.0到1.35倍[43] - 在高难度任务下,模型会进行更多思考,尤其在主动语态场景的后期回合,这提高了可靠性但也意味着产生更多输出token[43] - 知识截止日期更新至2026年1月,可靠知识截止日期为2026年1月[44] - 用户可通过工作量参数、任务预算或引导模型简化代码来控制token使用,内部编码评估显示所有工作量级别的令牌使用率均有所提高[44] - Anthropic提供了从Opus 4.6升级到Opus 4.7的迁移指南[45] 市场反馈与竞争 - 用户反馈新模型效果不错,但也有人指出其token消耗非常惊人[49] - 同期,千问开源了Qwen3.6-35B-A3B模型(350亿参数,激活30亿),有用户表示在其设备上运行该模型生成“鹈鹕骑自行车”的效果比Opus 4.7好,但此结论有待进一步验证[49][52]
杀疯了!Claude Opus 4.7 突袭发布,多项能力登顶第一
程序员的那些事· 2026-04-17 07:42
核心观点与行业影响 - Anthropic公司于2026年4月17日正式推出Claude Opus 4.7版本,作为当前面向公众开放的最强旗舰模型,该版本在多项核心能力上实现显著提升且未涨价,引发了行业高度关注 [1] - 此次更新使模型从一个单纯的对话工具,转变为一个能够独立完成专业任务的助手,其“不涨价还更强”的策略被认为是对用户最实在的升级,并加剧了大模型行业的竞争 [3][4] 核心能力提升 - **编程能力**:在权威编程基准SWE-bench Pro上的得分从53.4%大幅提升至64.3%,超越了同赛道竞品,能够独立完成复杂系统开发、Rust项目构建等硬核任务,显著提升程序员效率 [3] - **视觉能力**:支持更高清的图像解析,对技术图纸、密集图表、UI界面的识别精度大幅提升,在处理财报、设计原型等场景时能做到细节不丢、逻辑不乱 [3] - **推理与稳定性**:新增“自我验证机制”,在输出内容前会主动自检纠错,从而大幅降低了长文本、长任务的错误率,并提升了工具调用的稳定性 [3] - 新增了“Xhigh”推理强度档位,在深度与速度之间取得了更好的平衡,在办公、法律、学术等场景的处理能力全面领先上一代 [3] 产品策略与市场定位 - 尽管在代码、视觉、推理等核心维度实现了全面升级并刷新了多项行业纪录,但Claude Opus 4.7版本维持了原有价格,这一策略将产品的性价比拉满 [3]
实测Claude Opus 4.7,好好的模型也开始不说人话了。
数字生命卡兹克· 2026-04-17 05:32
文章核心观点 Claude Opus 4.7模型发布后,在编程、视觉等多方面能力显著提升,但同时也出现了“不说人话”的倾向,引发了对于AI模型过度追求编程等可量化能力而牺牲语言审美与人文价值的担忧 [18][24][65][101][107] Claude Opus 4.7发布与市场反响 - 新模型Claude Opus 4.7于近期发布,在作者监控的数十个精选信源中,有10个信源同时报道,热度远超一般热点(通常3-6个信源)[2][3][4] - 模型已全渠道上线,包括移动端和Claude Code开发框架,并维持了1M(一百万)的上下文长度 [7][8][10][12] 定价、成本与商业模式 - 模型API定价与4.6版本保持一致,为输入每百万token 5美元,输出每百万token 25美元 [19] - 尽管单价未变,但相同任务下,4.7模型的token消耗可能比4.6版本多出最多35%,导致实际使用成本上升 [28][29][31] - 公司解释称,更高的单次token消耗可被模型准确率提升、减少修改轮次所抵消,但此逻辑更适用于其擅长的高难度复杂任务 [32][33] 性能基准评测表现 - 在多项基准测试中,Claude Opus 4.7相比4.6版本有显著提升,例如在Agentic coding (SWE-bench Verified)中从80.8%提升至87.6% [21] - 视觉能力提升巨大,在XBOW的视觉测试中,成功率从4.6版本的54.5%跃升至98.5% [36][38] - 多模态能力增强,支持处理最高2576像素长边的图片,约3.75兆像素,是之前Claude模型处理能力的三倍多 [40][41] - 官方数据显示,Claude Opus 4.6在多数性能上未跑赢GPT-5.4,这是首次承认在编程上不如对手 [21] 关键能力更新与用户体验 1. **视觉与多模态能力** - 视觉识别精度大幅提高,能准确识别复杂界面截图中的文字和细节,对知识工作者是重大加成 [44][48][49] - 高分辨率图像处理能力可应用于法律合同审查、金融图表解析、竞品界面分析等专业场景 [50][51][52][53] 2. **编程与开发体验** - 编程能力(Agentic coding)在多个基准测试中领先于GPT-5.4和Gemini 3.1 Pro [21] - 在开发微型项目(如公司招聘网站)时,审美、对需求的理解以及动效实现比4.6版本更好,开发体验更优 [56][62] 3. **创作与语言风格** - 出现明显的“不说人话”倾向,生成文本带有类似GPT-5.4的“伪人”味道和行业黑话,文字品味下降,引发了核心用户群体的强烈不满 [65][68][71][77][79] - 此前Claude模型在创作和用户体验设计上被认为远优于GPT-5.4,尤其在影视编剧等创意领域备受青睐 [22] 新增功能与行业应用 - 在Claude Code中新增了`/ultrareview`命令,用于深度代码审查,Pro和Max用户有3次免费试用额度 [86][87] - 推出了“网络安全验证计划”,为合法的安全研究、渗透测试等场景提供申请使用受限能力的正式通道,这被认为是进入产业应用、具有长期价值的分级授权设计 [87][89][91][92][94] - 在模型“努力程度”档位中,于high和max之间新增了xhigh档,并设为默认档位,以平衡性能与消耗 [82][83][85] 行业观察与反思 - 行业普遍存在过度追求编程等可量化Benchmark能力的现象,导致模型在语言审美、人文关怀等“无法量化”的能力上出现系统性退步 [100][102][105][106][108] - 尽管编程能力对开发者至关重要,但语言作为人类智力活动的底座,其丰富性、创造性和情感价值不应被牺牲 [103][104] - 模型能力的差异化依然存在,Claude在创作和用户体验设计上具有优势,而GPT-5.4则在解决具体产品BUG等方面表现更强 [22][23]
Employment 'Apocalypse' Fears Are Overblown, Scale AI CEO Says - Meta Platforms (NASDAQ:META), Oracle (NY
Benzinga· 2026-04-17 05:19
行业观点:AI对就业市场的影响 - Scale AI首席执行官Jason Droege指出,部分公司以AI为借口进行裁员,实则是执行其原有计划,即“用AI粉饰裁员”[1] - Droege淡化AI将引发就业“末日”的观点,认为AI工具将增强企业能力、提升竞争力,进而使更具竞争力的公司对竞争力较弱的公司施加压力[1] - 该高管同时指责员工未能有效学习使用新兴技术,认为个人生计面临风险的主因是未能适应,而非无法控制的突发事件[2] - Droege警告AI可能表现不一致,尤其在微小错误会导致重大后果的领域[2] 政府官员与投资界观点 - 美国财政部长Scott Bessent在“投资美国”论坛上表示,AI本身不会取代工作,但懂得使用AI的人会取代不懂的人[3] - Bessent预测经济将出现“数十年来未见的巨大生产率提升”,并鼓励所有人学习AI知识,认为人们需要向雇主证明自身价值[3] - Bessent指出,硅谷一些优秀投资者认为AI将成为小企业的“伟大均衡器”,因为初创公司可利用AI处理小型任务,从而减少对员工的需求[3] 市场现状:AI已导致实际裁员 - 尽管行业领袖发表上述评论,但已有部分公司因AI技术的快速进步而进行了大规模裁员[4]
Manycore, the first of the Hangzhou ‘Little Dragons’ to go public, pushes ‘spatial intelligence’ as the next wave of AI development
Yahoo Finance· 2026-04-17 05:00
IPO与融资 - 设计AI初创公司Manycore Tech于今日开始交易 成为杭州六家备受瞩目的“小龙”中首家上市的公司[1] - 此次IPO旨在筹集高达10.2亿港元(1.3亿美元)的资金 用于吸引顶尖工程师、购买更多GPU以及收集更多数据[1] - 上市首日 公司股价收报18.60港元(2.38美元) 较7.62港元的发行价上涨144%[2] 公司技术与定位 - 公司专注于“空间智能”领域 其AI模型旨在超越基于文字和语言的大语言模型 能够自主在现实世界中工作[2] - 空间智能被类比为人类或动物理解周围环境的内在能力 例如进入房间后能理解自身位置和周围物体并找到空位[4] - 公司拥有庞大的3D资产库作为关键数据集 积累了来自现实世界的近5亿个资产 并认为这比视频数据更适合训练物理世界规则[6] - 公司已发布多个开源模型 包括能理解和生成3D环境的“空间语言模型”SpatialLM以及SpatialGen[7] 行业背景与发展 - 公司专注的“世界模型”是机器人技术和自动驾驶等领域的关键 使机器能够对外部刺激做出反应[3] - 行业正尝试将AI应用于物理维度 当前人形机器人的表演多为预先编程 而世界模型旨在实现更灵活的指令响应[5] - AI领域的知名人物如李飞飞和Yann LeCun也将世界模型视为AI发展的下一步[5] - 中国AI行业广泛采用开源模式发布模型 这有助于提升其初创公司的声誉并在全球科技界(包括硅谷)赢得用户[7]