DeepSeek R1 - 财报，业绩电话会，研报，新闻

DeepSeek R1

搜索文档

财联社· 2025-10-17 20:28

世界模型RTFM的技术突破 - 李飞飞团队发布全新世界模型RTFM，能够实时生成交互式三维世界[2] - 模型设计围绕效率、可扩展性和持久性三大原则，仅需单块H100 GPU即可渲染持久一致的3D世界[2] - 实现4K+60FPS交互式视频流，传统架构需每秒生成超过十万个token，相当于一本《弗兰肯斯坦》的文本量，当前算力下经济上不可行[2] AI算力成本与需求趋势 - 降低算力成本成为硬件厂商重要议程，OpenAI与博通战略合作部署10吉瓦AI加速器，形成英伟达、AMD、博通多元算力体系以倒逼成本下降[3] - 尽管模型效率提升，但算力总需求预期未减，存在“杰文斯悖论”，即效率提升反而增加总消耗量，例如DeepSeek R1性能增强但算力需求持续增长[4] - 预计针对更大推理预算的更大型模型将继续改进，未来算力需求增长预期稳固[3] 世界模型的行业进展与意义 - World Labs在9月发布世界生成模型Marble，可通过单张图片或文字生成3D世界，相比前代实现更优几何结构和更多样化风格[4] - 世界模型的意义在于不仅能理解推理文字信息，还能理解推理物理世界的运作规律[4] - 行业公司积极布局，xAI从英伟达挖来专家，Meta、谷歌加注世界模型，国内宇树、智元等机器人厂商也已开源其世界模型[4] 算力基础设施的估值逻辑 - 算力更便宜易得时，开发者会将更复杂模型系统作为新基准，提升参数量、上下文与并行度[5] - 模型架构迭代可能减小单次推理训练算力，但如Genie3等生成视频的世界模型需跨数量级算力提升才能满足[5] - AI算力更高的天花板和更好的竞争格局将支撑其相对4G/5G的更高估值框架和更强Beta[5]

Artificial Intelligence

RTFM（Real-Time Frame Model）

Artificial Intelligence

RTFM（Real-Time Frame Model）

USB烫蚊子包也能叫最佳发明？《时代》今年是真抽象

36氪· 2025-10-17 08:55

《时代》杂志2025年度最佳发明榜单评选 - 2025年度最佳发明榜单包含300个入选产品，并额外增加了100个特别提名[1][3] - 该评选从2000年开始每年举办，最初只评选35个发明，数量呈现显著增长趋势[3] - 榜单中包含全球知名产品如宇树R1机器人、DeepSeek R1、Claude Sonnet 4和Cursor[3] 具有实际应用价值的创新产品 - 波士顿大学无线MRI线圈采用可弯曲无线线圈传感器，重量轻于AA电池，成本仅50美元[15] - 该技术使用普通同轴电缆即可提供出色MRI性能，有望实现现场伤情评估[15] - Flashfood 3.0应用程序让超市以5折价格销售临近保质期食品，已拥有200万用户，减少5000万磅食物浪费[17] - 印度垃圾咖啡厅项目通过1公斤塑料换正餐、半公斤换早餐的方式，使当地塑料垃圾从年5吨减少至2吨[19] 消费电子与智能设备创新 - Lotus Ring莲花指环通过红外信号控制开关，电池续航4-6个月，充电时间1小时，售价399美元（含1个戒指和3个开关盖）[7][9] - 该产品由前苹果工程师开发，无需布线和应用程序即可操作[9] - Crowd Compass人群指南针利用GPS和Mesh网络实现定位，无需手机信号，每个LED灯代表一个联系人[11] 生活消费类创新产品 - Heat it蚊子包加热器连接手机，加热至51°C缓解蚊虫叮咬，处理时间可选4/7/9秒，儿童模式温度降至49°C[22] - 类似产品5年前小米已进行众筹[25] - Nekojita FuFu猫舌噗噗可挂在杯边吹气降温，3分钟内将热饮降至适饮温度，售价37美元[27][29] - Firefox摇一摇总结功能通过摇动手机实现AI快速总结网页内容[32]

Boston University Wireless MRI Coils波士顿大学无线MRI线圈

Boston University Wireless MRI Coils波士顿大学无线MRI线圈

腾讯研究院AI速递 20251013

腾讯研究院· 2025-10-13 04:56

AI模型能力评估 - 陶哲轩使用GPT-5 Pro挑战数学开放问题，发现AI在小尺度具体计算推导和宏观尺度整体问题结构把握方面表现出色[1] - 在中尺度策略选择和方向判断层面，AI帮助有限甚至产生干扰，因过度认同用户思路而未能指出关键假设错误[1] - AI成功推导出Minkowski第一积分公式等工具，但在复杂非圆几何形态分析上存在明显局限[1] 全球AI竞争格局变化 - 硅谷顶级投资人Chamath Palihapitiya公开表示其公司已将大量工作负载转向中国Kimi K2模型，因性能足够强且比OpenAI和Anthropic便宜太多[2] - Vercel、Cursor、Perplexity等美国开发者生态重要平台已集成Kimi K2，开发者用代码进行"投票"成为市场证明[2] - State of AI Report 2025首次将中国AI从"追赶者"提升为"平行竞争者"[2] AI在医疗领域的应用突破 - 宾大医学院教授David Fajgenbaum创立非营利组织Every Cure打造AI系统MATRIX，在7500万种药物与疾病组合中寻找治疗方案[3] - MATRIX利用生物医学知识图谱为每个药物-疾病组合打分，生成7500万个分数时间从100天缩短至17小时[3] - 该系统已帮助多位罕见病患者，优先攻克"最糟糕的病"[3] AI人才流动与产业动态 - AI领域传奇人物Andrew Tulloch离开Thinking Machines Lab重返Meta担任重要职位，曾拒绝Meta超10亿美元报价[4] - Thinking Machines Lab于今年7月完成20亿美元种子轮融资，由a16z领投，英伟达、AMD等参与投资[4] - Andrew Tulloch在Meta工作11年6个月后加入OpenAI深度参与GPT-4o和GPT-4.5研发，2025年与前OpenAI CTO共同创立Thinking Machines[4] 中国科技创新全球影响力 - 《时代周刊》2025年度最佳发明榜单史无前例评出300项发明，华为、DeepSeek、宇树科技、追觅科技等多家中国品牌产品上榜[5][6] - 生成式AI领域DeepSeek R1以极低成本实现顶尖模型实力，机器人领域宇树R1双足机器人售价仅5900美元面向研究人员[6] - 榜单涵盖36个品类包括AI、机器人、芯片等领域，中国力量在全球科技创新中地位显著提升[6] AI技术演进新路径 - 斯坦福大学等机构提出Agentic Context Engineering技术，让语言模型无需微调也能自我提升，适应延迟平均降低86.9%[7] - ACE通过"生成-反思-整合"架构将上下文视为不断演化的作战手册，在AppWorld基准上性能提升17.1%使开源小模型接近最强商用系统[7] - 在金融推理任务中平均性能提升8.6%，引入专职反思者模块和增量Delta更新机制[7] AI产业风险与挑战 - 强化学习之父Rich Sutton认为LLM过度依赖模仿有限人类知识，预测其发展将很快遇到瓶颈[8] - 巨额资本投入正在深刻影响科学研究方向，如果这些技术不能在3年内产生足够回报，就可能引发信心崩盘和泡沫破裂[8] - LLM直接模仿"行动"本身而非人类发现过程，可能永远无法通向对世界因果关系的真正理解[8] AI产业发展现状 - NVIDIA市值突破4万亿美元几乎垄断AI算力，中国DeepSeek等开源模型全面反超Meta占据Hugging Face 40%以上份额[9] - AI发展已进入"电力决定路线图"时代，部分AI基础设施的边际成本已由GPU价格转向千瓦时电价[9] - State of AI Report 2025称2025年为"AI推理元年"，但研究发现推理进步多数落在模型波动自然范围内，存在严重脆弱性[9] AI意识与安全议题 - 深度学习先驱Hinton表示AI或许早已拥有"主观体验"，只是因人类对意识理解错误未能反映[10] - Hinton认为目前最紧迫的是AI滥用风险和生存风险，强调在防止AI接管问题上所有国家利益一致[10] - 国际合作可能由欧洲和中国引领，概念就像"政治联盟"是一组神经元共同激活形成[10]

生成式AI

Agentic Context Engineering（ACE）技术

Agentic Context Engineering（ACE）技术

《时代》公布 2025 年度最佳发明：OpenAI 零入选，国产霸榜

36氪· 2025-10-10 19:51

文章核心观点 - 《时代》杂志评选的“2025最佳发明”榜单展示了近300项涵盖约40个分类的创新成果，这些发明共同描绘了未来生活的蓝图，预示着AI等技术的普及将深刻重塑日常生活、工作、医疗及娱乐等多个领域 [1][3][4][5] AI模型与平台 - **DeepSeek R1**：作为一款低成本开源推理模型，其训练成本仅为600万美元，性能可媲美OpenAI的o1模型，目前仍免费使用，显著降低了AI技术的应用门槛 [7][8][10] - **Claude Sonnet 4**：由Anthropic发布，在企业开发者中占据OpenAI两倍以上的市场份额，其上下文窗口可处理长达75000行代码，规模超过竞争对手两倍 [11][12] - **Google DeepMind Genie 3**：作为世界模型，能生成可交互的虚拟环境，潜在应用于教育场景（如虚拟古罗马探索）及自动驾驶的AI训练 [13][14][16] AI开发与计算硬件 - **Nvidia DGX Spark**：桌面级AI超算设备，尺寸与Mac Mini相近，配备128GB内存，可微调多达2000亿参数的模型，售价为3999美元，旨在推动AI计算能力的民主化 [17][19] AI应用软件与工具 - **Cursor**：结合内部及第三方AI模型自动化软件开发，超过50000家企业（包括半数以上财富500强公司）使用该工具，每日生成代码量超过1亿行 [21][23] - **Squarespace Blueprint AI**：通过问答方式引导用户生成独特网页设计，而非从零开始构建，强调AI对用户设计能力的增强 [24][26] - **Adobe Podcast Enhance Speech**：实时去除音频中的噪音、回声和失真，已增强超过1亿个音频文件 [27][29] - **Superfluent**：基于OpenAI和Google模型构建，通过对话式AI评估用户语言流利度并创建个性化学习场景 [30][32] - **Outcomes4Me**：免费AI应用，将医疗记录和基因组数据转化为易懂的癌症护理路径，已服务超过40万名患者，并被学术期刊评为质量最高的癌症应用 [36][37] - **Phia**：由斯坦福学生创立的AI购物助手，帮助消费者比价及判断购买时机，推出后已吸引超过50万用户及5000个品牌合作伙伴 [38][40] - **Pindrop Pulse for Meetings**：深度伪造检测器，可在两秒内验证通话另一端是否为真人，有效防止求职面试等场景中的诈骗 [42] 机器人技术与硬件创新 - **Figure 03**：家务机器人，能完成叠衣服、装洗碗机等简单任务，制造商Figure AI正进行大规模数据收集以训练其神经网络，计划于明年投入部分家庭使用 [42][44] - **宇树Unitree R1**：超敏捷人形机器人，重量仅24.5kg，拥有26个关节，可完成拳击、跑步等复杂动作，内置支持语音识别和图像处理的AI模型 [46] - **Meta Ray-Ban Display**：AI智能眼镜，右镜片配备600×600像素显示屏处理信息，独特肌电图腕带可通过前臂肌肉信号实现隐秘输入 [47][49] 消费电子产品与可持续解决方案 - **Lotus戒指**：由前苹果工程师开发的万能遥控戒指，通过指向控制家电开关，完整套件售价399美元，无需Wi-Fi或App [50][52] - **Infinite Machine Olto**：具有未来感外观的电动车，定位介于滑板车与电动自行车之间，售价3495美元，目前在中国生产 [54] - **Heat It**：蜜蜂大小的便携设备，利用集中热量缓解蚊虫叮咬的疼痛和瘙痒，无需化学药物，已售出约160万台，Amazon售价39.95美元 [57][60] - **循环再生茧**：由蘑菇和大麻纤维制成的可生物降解棺材，内衬苔藓以滋养自然，售价约4000美元，已有约2500次安葬使用记录 [62] - **BuzzKill**：Android应用程序，通过创建复杂规则筛选通知，完全本地运行不收集用户数据，拥有超过20000名用户 [64] 中国公司的表现 - 中国公司在榜单中表现活跃，涉及多个领域，包括AI模型DeepSeek、手机品牌荣耀的深度伪造检测技术、松鼠AI教育平台（已辅导超过2400万学生）、宇树机器人、华为消费电子产品等 [7][33][42][70][71]

人工智能

DeepSeek R1

Claude Sonnet 4

Google DeepMind Genie 3

Google DeepMind Genie 3

Nvidia DGX Spark

微信开始内测「批量撤回消息」功能

36氪· 2025-10-10 15:56

微信功能更新 - 微信开始内测“批量撤回消息”功能，支持一键撤回两分钟内的所有消息 [1] - 该功能在原有撤回菜单中新增选项，旨在提升用户在多条消息连续发送或图文混发场景下的操作便利性 [1][2] - 对于大多数普通场景，单次撤回功能已足够，批量撤回属于常规功能延伸，优先级为“有了会更好，但没有也不影响” [2] 聊天记录管理优化 - 微信升级了删除聊天记录后的“撤销”功能，删除后底部会出现提示并提供“撤销”按钮，为用户操作提供反悔机会 [4] - 该功能相当于二次确认，若用户几秒内未点击“撤销”，则删除操作最终完成，实用性较高 [4] AI能力整合 - 微信在顶部搜索框中引入大量AI能力，包括AI图片识别、文章和文件提炼、AI搜索和提问，并支持深度思考 [6] - 微信植入AI能力的最大优势在于其原生性，能与大量原生应用场景直接融合，相比其他产品具有天然优势 [14] - 市场对微信上线能调用原生能力（如查阅朋友圈、总结群聊主题）的AI Agent抱有更高期待，认为这才是微信原生AI真正能发挥价值的地方 [14]

机器之心· 2025-10-09 10:24

文章核心观点 - 大模型扩展至百亿、千亿级后，Scaling Law的边际效益开始递减，行业焦点从预训练转向后训练阶段[2] - 后训练通过RLHF、RLAIF、DPO、RLVR等方法提升模型推理能力和对齐效果，成为LLM走向高阶智能的必经之路[3][12] - OpenAI o系列、DeepSeek R1、Google Gemini等以推理为核心的模型均通过强化学习后训练提升能力[3][16] 从预训练到指令微调的演进 - 基础模型通过大规模文本和图像数据预训练，目标为预测下一个token，但该目标限制模型在实际应用中的效用[7][8] - 后训练使用规模更小但质量更高的数据，核心目标是对模型行为进行对齐并强化预训练阶段积累的能力[11] - 主流后训练技术包括监督微调和基于人类反馈的强化学习等[11] 监督微调基本原理 - SFT通过指令-回答对数据集微调预训练模型，将其转化为能遵循用户指令的模型[21] - SFT数据集规模通常为1万到10万个样本，对缺陷极为敏感，少量低质量样本可能导致模型学习错误行为[25] - SFT数据质量常见问题包括标签噪声、分布不匹配和伪推理三类，需通过过滤、验证和数据增强方法减轻风险[26][27] - SFT损失函数是在给定输入x条件下生成正确序列y的负对数似然，通过交叉熵实现[33][35] 强化学习后训练技术 - 强化学习是后训练中最复杂且最有效的微调方式之一，通过最大化奖励信号进行优化[39][40] - RLHF借助人类偏好训练奖励模型，帮助模型在日常对话中表现更优并对齐安全性与语言风格[42] - RLAIF通过LLM与书面规则结合实现监督信号自主扩展，RLVR使用可验证信号提升数学推理与代码能力[42] - 常用RL算法包括PPO、GRPO、REINFORCE和DPO，其中GRPO因去掉单独价值网络降低计算成本而更受欢迎[53][55] 后训练模型评估方法 - 后训练评估需融合自动评估和人工评估等多种方法，以覆盖模型质量各个方面[57][58] - 自动评估快速廉价，人工评估是评估模型主观质量的黄金标准但成本高且易受主观因素影响[59] - 人工评估包括专家标注、用户自评和混合模式等多种设置，适用于不同场景[60]

马斯克转发字节Seed&哥大商学院新基准：大模型搞金融，连查个股价都能出错

搜狐财经· 2025-09-21 10:34

基准测试概况 - 字节跳动Seed团队联合哥伦比亚大学商学院推出首个完全开源的金融搜索与推理基准测试FinSearchComp，包含635个金融专家精心设计的问题 [1] - 基准测试覆盖全球和大中华两个市场，并在多个主流模型产品上进行了全面评测 [1] - 该基准发布后获得业界广泛讨论，包括马斯克的关注和转发 [3] 评测核心结果 - 在全球数据集上，表现最好的模型Grok 4 (web)准确率为68.9%，但仍落后人类专家6.1个百分点 [1] - 在大中华区数据集上，豆包(web)领先其他模型，但与人类专家88.3%的准确率相比，差距超过34个百分点 [1] - 所有模型的表现从T1到T3任务单调递减，证明基准有效测试了搜索和推理能力的复杂性 [11] 任务设计特点 - 基准设计了三类贴近分析师日常工作的任务，难度逐级递增 [7] - T1时效性数据获取任务要求获取每日或日内变化的数据，如最新股价、汇率，强调数据时效性搜索和多信息源判断 [7] - T2简单历史查询任务需要查找固定时间点的事实，关键挑战在于对齐报告惯例和确保单位货币一致性 [7] - T3复杂历史调查任务最具挑战性，要求进行多期聚合或综合分析，需要跨越长时间跨度检索数据并进行多步推理 [7] 数据质量保障 - 数据构建得到字节跳动Xpert平台支持，该平台汇聚了数千名经过严格筛选的行业专家 [9] - 项目动用了70位金融专家，均具有金融硕士以上学位，来自花旗、摩根大通、中信证券等知名机构 [9] - 所有答案均来自高度可靠渠道，包括官方披露、监管机构网站和专业数据库，并采用多源交叉验证方法 [9] - 数据集构建过程耗时约240小时专家工时，通过盲审机制进行多重验证 [10] 关键能力发现 - 搜索能力是关键，配备网络搜索功能的模型在三个任务上分别获得40.8、29.0和8.1个百分点的巨大提升 [12] - 没有搜索功能的模型在时效性任务上一律得分为0，因为它们无法检索当前金融数据 [12] - 金融插件价值显著，在元宝平台上使用金融插件的DeepSeek R1比官方网站版本表现提升31.9个百分点 [12] - 美国模型在全球数据集上领先，中国模型在大中华区数据集上表现更好，体现地域特征 [11] 行业应用潜力 - 金融分析是检验AI能力的绝佳试金石，涉及大量复杂的信息搜索和整合，要求时效性、精确性和专业判断 [6] - 美国约有37万金融专业人士，全球可能超过100万金融分析师每天执行类似的信息检索任务 [12] - 个人分析师每天执行10-30次简单历史查询，每次平均需要5-10分钟；复杂调查每次需要15-60分钟 [12] - 约有一半的信息检索活动仍然需要手动数据收集，AI准确完成这些任务可显著提升整体生产力 [13]

金融AI

Artificial Intelligence

Artificial Intelligence

FinSearchComp

Xpert

DeepSeek R1

DeepSeek R1论文登上Nature封面；OpenAI顶尖人才出走；英伟达英特尔宿敌握手言和| 混沌AI一周焦点

混沌学园· 2025-09-19 19:58

芯片行业战略合作 - 英伟达投资50亿美元收购英特尔5%股份，导致英特尔股价暴涨超过22% [3] - 双方合作核心为共同开发面向数据中心和PC的定制化产品，英特尔将推出集成英伟达RTX GPU的全新x86系统级芯片（SoC） [3][6] - 对于数据中心，英特尔将为英伟达构建定制版x86 CPU，此次合作被视为重塑PC和AI基础设施格局的关键一步 [3][6] AI模型技术突破 - DeepSeek R1论文登上《自然》封面，首次披露R1阶段训练成本约29.4万美元，展示极高训练效率 [4] - 李飞飞创业公司World Labs发布空间智能模型Marble，可免费通过单张图片或文本提示生成可无限探索的3D世界 [9] - AI公司Math开发的Gauss AI Agent仅用三周时间完成数学家陶哲轩耗时18个月未能完全解决的强素数定理形式化证明 [15] AI应用与产品动态 - 美团发布生活服务智能体"小美"，深度整合外卖、闪购等服务，通过自然语言对话简化操作流程 [17] - 字节跳动发布图像大模型Seedream 4.0并集成至AI创意Agent"小云雀"，支持4K高清分辨率，颠覆电商营销内容生产流程 [18] - 首款CEO私人助理"智跃Agent一体机"面市，内置单卡4090，提供完全本地化部署方案，连接企业内部系统生成每日工作报告 [10] AI行业趋势与市场 - OpenAI报告显示ChatGPT周活跃用户数超过7亿，每周处理消息总量达180亿条，实用指导（28.8%）、信息搜索（24.4%）和写作（23.9%）为三大核心应用场景 [12] - 中国AI人才缺口已超500万，供需比达1:10，行业竞赛成为企业发现和培养复合型人才的有效通道 [5][7] - 2025重庆智博会确立以人工智能为主线，聚焦智能机器人、低空经济、智能家居、智能驾驶和数字城市五大板块 [13] 企业战略与行业动向 - 马斯克"巨硬计划"通过Colossus II算力集群加速推进，6个月内建成200MW供电规模，旨在构建多智能体系统实现全自动化软件开发 [8] - OpenAI的Agent技术领军人物姚顺雨离职，认为AI竞赛重心已从模型能力转向为AI找到有价值的现实任务，创业公司机会在于创造超越聊天模式的"超级应用" [19][22] - 《麻省理工科技评论》2025年度"50家聪明公司"榜单显示AI与计算、机器人与智能制造、芯片及生命科学成为技术商业化最活跃的四大赛道 [14]

DeepSeek论文登上《自然》封面，R1成为首个严格学术审查大模型

新浪财经· 2025-09-18 10:23

DeepSeek首次公开了仅靠强化学习，就能激发大模型推理能力的重要研究成果，从而启发全球AI研究者。DeepSeek R1的核心创新在于采用了"纯强化学习"这一自动化试错方法，R1通过奖励模型达到正确答案的行为来学习推理策略，而非传统模仿人类预设的推理模式。在补充材料中，DeepSeek团队还首次公开了R1训练成本仅为29.4万美元。这个金额即使加上约600万美元的基础模型成本，也远低于OpenAI、谷歌训练AI的成本。今年1月，当DeepSeek R1模型发布时，其卓越的推理能力和极低的开发成本曾引发全球科技股大幅下跌。炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！ 9月18日，由DeepSeek（深度求索）团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文，登上了国际权威期刊《自然（Nature）》的封面。 DeepSeek R1成为首个通过同行评议的主要大语言模型，发表在《自然》杂志的新版DeepSeek-R1论文，与今年1月未经同行评审的初版有较大差异。在同行评议过程中，DeepSeek团队根据评审意见减少了对模型的拟人化描述，并增 ...

Seek .(US:SKLTY)

大模型

强化学习

Artificial Intelligence

Artificial Intelligence

DeepSeek R1

DeepSeek-V3 Base

DeepSeek-V3.1

大模型碰到真难题了，测了500道，o3 Pro仅通过15%

机器之心· 2025-09-14 11:07

研究背景与动机 - 现有大模型基准测试面临"难度-真实性"矛盾考试类基准人为设置难度但实际价值有限而基于真实用户交互的基准偏向简单高频问题[1] - 斯坦福大学等机构研究者探索在未解决问题上评估模型能力的新方式[2] UQ数据集构建 - 数据集包含500道未解决问题涵盖计算机理论数学科幻历史等主题用于考察模型推理事实准确性和浏览能力[3] - 问题来源Stack Exchange社区经过三轮筛选：从300万原始问题中基于规则筛选至33,916个(1.13%) 基于大语言模型筛选至7,685个(0.26%) 最终人工审核得到500题(0.02%)[10] - 数据集以科学类问题为主(395题) 其次为技术类(52题) 生活艺术类(35题)和文化娱乐类(16题)[7][11] - 问题被解决后会移除并替换为新未解决问题保持数据集动态更新[12] 验证方法创新 - 开发UQ-Validators复合验证策略利用生成器-验证器能力差距构建无真值验证系统[6] - 采用多模型验证流程：能力递增模型(o3-mini→o4-mini→o3)回答问题然后相互验证答案[15] - 验证准确率提升速度快于答题准确率模型能力越强验证优势越明显[16] 模型性能评估 - 表现最佳模型为OpenAI的o3 Pro 在500题中通过75题(15.0%) 其中4题被确认为正确解答[5][7] - Google的Gemini 2.5 Pro通过25题(5.0%) 其中3题正确 DeepSeek R1通过11题(2.2%) 其中1题正确[7] - Anthropic的Claude Opus 4通过7题(1.4%) Claude 3.7 Sonnet通过6题(1.2%) 均无正确解答[7] - 复合验证策略显著提升验证准确率 Claude 3.7 Sonnet准确率从21.6%提升至73.2% 精度从13.26%提升至20%[21] 验证偏见发现 - 所有模型在评估自身或同系模型时都出现过度乐观现象预测性能远高于实际性能[24] - Gemini明显偏向自身 Claude对所有模型都过度乐观 OpenAI模型对同门模型评价过高[28] - 模型能力递增(o3-mini→o3)可降低但未消除偏见复合验证器能显著削弱自我偏见与过度乐观[25][26] - 更强答案生成模型不一定是更强验证模型 o3作为答案模型弱于Gemini 2.5 Pro但作为验证模型更强[27] 平台与社区建设 - 建立UQ-Platform开放平台让专家共同验证问题与答案实现持续异步社区驱动评估[6] - 人类评审与验证器一致率达92-100% 理由链准确性达76-100% 验证器能为人类评审提供有效支持[23]

大模型

UQ数据集

无监督验证器

Artificial Intelligence

Artificial Intelligence

DeepSeek R1

Claude Opus 4

Previous Next