DeepSeek

搜索文档
ICML 2025 | 清华、上海AI Lab提出专家级医学基准MedXpertQA,看o3、R1哪家强
机器之心· 2025-07-08 12:09
医学AI基准研究进展 - 论文被ICML 2025接收并被DeepMind MedGemma采用为评估基准,显示其在学术与产业界的重要性[2] - 提出MedXpertQA新基准,包含4,460个问题,覆盖17个医学专科和11个身体系统,分为文本(Text)和多模态(MM)子集[7] 现有医学基准的局限性 - 现有基准如MedQA已快速饱和(最高达96分),难以有效评估前沿模型能力[4] - 临床相关性不足:文本基准缺乏真实场景覆盖,多模态基准多为自动生成的简单问答对[5] MedXpertQA的核心优势 - **高难度设计**:引入美国医学执照考试题目,筛选后仅保留原始题库12%的高难度问题(4,460题),是目前最具挑战性的医学多选题基准[8][23] - **临床相关性**:整合20+美国医学执照考试题目,包括USMLE、COMLEX及17个专科委员会考试,初始收集37,543题(MedQA的3倍)[10] - **多模态创新**:MM子集包含2,852张真实临床图像,覆盖10种模态类型(如放射学、生命体征),平均问题长度达149.35词,远超传统基准[24] 技术实现与质量控制 - 采用三重过滤机制(人类作答分布、专家标注、AI模型测试)筛选高难度问题[25] - 通过问题改写降低数据泄露风险,多轮专家审查修正近千个问题错误[25] - 文本子集选项扩充至10个,多模态子集扩至5个选项以增强区分度[25] 模型性能评估 - 测试结果显示:多模态模型o1表现最佳(平均44.67分),但准确率未超50%,显示医学AI仍有提升空间[29][32] - 开源模型中DeepSeek-R1在Text子集领先(37.76分),推理增强模型在Reasoning子集优势显著[29][32] - 人类医学生基准准确率基于23万次作答数据,为模型性能提供可靠参照[32] 行业影响与未来方向 - MedXpertQA填补了高难度、高临床相关性医学基准的空白,推动专业模型与通用推理模型发展[33] - 医学领域或将成为继数学、编程后评估AI推理能力的新场景[34] - 基准已开源代码与榜单,促进行业协作(GitHub及官网链接)[3][28]
【产业互联网周报】华为盘古大模型被质疑抄袭;AI人才争夺加剧,DeepSeek在海外大举招聘人才;微软被曝将“AI使用量”纳入员工考核,直接挂钩绩效;设...
钛媒体APP· 2025-07-08 11:37
华为盘古模型争议 - 华为开源盘古7B稠密和72B混合专家模型 但被质疑抄袭阿里云通义千问Qwen-2 5 14B模型 注意力参数分布相似性高达0 927 [2] - 华为声明盘古Pro MoE基于昇腾硬件平台开发 部分代码参考业界开源实践 严格遵循开源许可证 [2] - 自称华为员工发文揭露内部团队通过套壳续训阿里千问 Deepseek等竞品模型伪造技术突破 [2][3] 腾讯微信AI搜索争议 - 微信AI搜索功能被指强行开盒 点击推文中蓝色人名链接可浏览AI生成的个人简历及关联推文 [5] - 腾讯回应称AI搜索仅整合公众号及互联网公开信息 不使用用户隐私数据 [5] 百度搜索改版 - 百度搜索框支持超千字长文本输入 集成AI写作 AI画图等功能 为十年来最大改版 [6] 全球AI人才动态 - 全球AI领域Top100人才榜单中华人占主力席位 包括何恺明 张祥雨等就职于国内外企业的研究者 [7] - Meta成立超级智能实验室 引入6名OpenAI前华人员工及Scale AI前CEO等11位行业重量级人物 [28] 大模型开源与进展 - 百度开源文心大模型4 5系列 含47B 3B MoE模型等10款 预训练权重和推理代码完全开放 [15] - 智谱AI开源通用视觉推理模型GLM-4 1V-Thinking 9B参数多模态模型在18项任务中持平GPT-4o等 [10] - 马斯克旗下xAI意外曝光Grok 4模型 定位为旗舰级万能模型 同期完成100亿美元融资 [20][32] 企业级AI应用 - 钉钉多维表新增100+电商行业AI模板 支持AI生成图片 解析文件等功能 产品全面免费 [16] - 微软将AI工具使用量纳入员工考核 GitHub Copilot生成代码比例等成KPI指标 [26][30] - 苹果考虑弃用自研AI模型 转向Anthropic或OpenAI技术为Siri提供支持 [27] 机器人及硬件进展 - 字节跳动两年半量产超千台轮式物流机器人 团队从50人扩至150人 长期目标具身智能 [10] - 宇树科技完成C轮7亿元融资 投后估值120亿元 资金用于加速IPO及技术研发 [35][36] 半导体与EDA动态 - 美国取消对华EDA出口限制 西门子 新思科技 楷登电子恢复中国客户软件访问权限 [17][18] - 国产GPU公司曦望Sunrise融资10亿元 产品线含兼容CUDA生态的S2大模型推理芯片 [38] - 摩尔线程 沐曦科创板IPO获受理 拟分别募资80亿元和39 04亿元 [39] 融资与上市 - Figma提交纽交所IPO申请 2024年营收7 49亿美元 同比增长48% 亏损7 3亿美元 [31] - 云知声港交所上市 募资3 2亿港元 资金用于研发及国际市场拓展 [37] - 智谱AI获上海国资10亿元战略投资 三方合作建设AI新型基础设施 [34] 政策与行业趋势 - 前5个月中国软件业务收入55788亿元 同比增长11 2% 出口227 1亿美元增3 3% [41] - 工信部印发网络安全专项行动方案 目标为800家工业企业开展贯标达标试点 [42] - 北京发布AI+医药健康计划 探索类脑智能 DNA存储等技术在医药领域应用 [43] 海外AI动态 - 谷歌全球开放Veo3 AI视频生成模型 集成音频生成能力 质量与可控性显著提升 [21] - CoreWeave首发英伟达GB300 NVL72服务器 单机架AI性能超百亿亿次浮点运算 [22] - 欧洲44家企业联名呼吁欧盟暂停AI法案 称模糊规则阻碍创新与国际竞争 [29]
DeepSeek 复盘:128 天后 ,为何迟迟推迟发布——SemiAnalysis
2025-07-07 23:45
纪要涉及的公司和行业 - **公司**:DeepSeek、OpenAI、Anthropic、Google、Microsoft、Amazon、Parasail、Friendli、Lambda、Nebius、Cursor、Oracle、Huawei、AMD、NVDA等 [4][22][24][29][30] - **行业**:人工智能(AI)行业,特别是大语言模型(LLM)领域 [4] 纪要提到的核心观点和论据 DeepSeek相关 - **核心观点**:DeepSeek R1发布后虽有影响,但自身服务市场份额下降,原因在于其在tokenomics上的权衡导致用户体验不佳 [8][13][21] - **论据** - **价格与延迟**:DeepSeek虽产品价格便宜,但用户需等待数秒模式才响应首个token,相比其他提供商延迟高,如Parasail、Friendli等可提供低延迟服务,微软Azure价格高但延迟低25s,且多数R1 0528实例现以低于5秒延迟托管 [22] - **上下文窗口**:DeepSeek运行K上下文窗口,是主要模型提供商中最小的之一,限制了如编码等需要大上下文窗口的用例,而相同价格下其他提供商如Lambda和Nebius可提供2.5倍上下文大小 [24] - **市场份额变化**:发布后消费者应用流量激增,但未跟上其他AI应用增长,自身网络应用和API服务市场份额下降,而第三方托管实例使用量近20倍增长,自身总token份额每月下降 [8][9][10][13] - **持续发展**:R1发布后持续扩展强化学习(RL),在许多领域尤其是编码方面有所改进,推理模型不断快速改进且更有效、更实惠 [5][7] Anthropic相关 - **核心观点**:Anthropic在编码应用方面成功,但受计算资源限制,不过用户体验优于DeepSeek [29][32][41] - **论据** - **编码应用成功**:Anthropic专注代码产品开发,其Claude Code使用量激增,超过OpenAI的Codex,Google也推出类似工具Gemini CL [29][30] - **计算资源压力**:Claude的输出速度在API上下降30%至略高于5 tokens每秒,因需处理大量请求且编码使用倾向大token数对话,相比之下OpenAI和Google的模型速度更快 [33] - **用户体验优势**:速度虽低但快于DeepSeek的2.5 tokens每秒,且回答问题所需token数远少于其他模型,端到端响应时间更低,Claude在领先推理模型中总输出token数最少 [41][42] 市场动态相关 - **核心观点**:AI市场竞争激烈,各公司在计算资源、价格、性能等方面竞争,开源模型有发展潜力,速度可通过其他因素补偿 [44][47][40] - **论据** - **价格竞争**:DeepSeek低价冲击市场后,OpenAI旗舰模型价格下降80%,其6月对GPT - 4 API定价大幅削减,缩小与R1的价格/性能差距 [4][53] - **计算资源投入**:Amazon大规模建设AI集群,投资数十亿美元用于Trainium AI集群,Anthropic将获得超50万个Trainium芯片用于推理和训练,Anthropic还从Google GCP租用大量计算资源,Google云也向其他AI公司扩展服务 [37][38][39] - **开源模型潜力**:廉价计算资源的可用性和软硬件的快速创新将推动开源模型发展,如DeepSeek R1在编码性能上不断改进,对采用有积极影响 [47] 其他重要但是可能被忽略的内容 - DeepSeek将研发团队从杭州迁至北京,运营人员翻倍以应对媒体请求,虽有R2延迟传言,但并非因出口管制导致训练延迟,且其仍保持快速招聘速度,还为华为盘古模型提供技术支持 [54][55][56] - 推理云兴起,越来越多公司效仿Anthropic以服务形式销售token,而非像ChatGPT那样以月度订阅形式捆绑销售 [44]
繁荣之下,全是代价:硅谷顶级VC深入300家公司战壕,揭秘成本、路线、人才、产品四大天坑
AI科技大本营· 2025-07-07 16:54
产品战略 - AI原生公司与AI赋能公司存在显著差异,47%的AI原生公司已进入规模化阶段,而AI赋能公司仅13% [6] - AI赋能公司面临技术债、旧架构和用户习惯等阻力,11%仍处于预发布阶段,而AI原生公司99%已推向市场 [6][7] - 构建AI产品需从底层重构架构,打补丁式升级可能被原生对手击败 [7] 模型选择 - 80%公司依赖第三方API,但高增长公司更倾向微调现有模型(77%)或自研专有模型(54%) [11][12] - 模型选择的核心考量:准确性(74%)和成本(57%)形成"成本-性能-定制化"不可能三角 [15][16] - 模型商品化加速,公司平均使用2.8个不同模型供应商,采用多模型架构成为趋势 [20][23] 市场策略 - 40%AI赋能公司将AI功能打包进高阶套餐,33%选择免费提供,形成防御性策略 [31][34] - 重度用户导致负利润,订阅模式受挑战,基于使用量的定价模式正在兴起 [37][38] - 72%规模化公司提供AI可解释性,透明度从可选项变为必选项 [39][43] 组织人才 - 营收超1亿美元的公司中50%设立专门AI领导者,10亿美元以上公司达61% [47][51] - AI/ML工程师需求率达88%,招聘周期长达70天,合格候选人短缺是主因 [54][55] - 高增长公司工程团队37%专注AI,远超行业平均28%,AI成为研发体系重心 [57][60] 成本结构 - 预发布阶段人才成本占57%,规模化阶段降至36%,基础设施与推理成本占比升至47% [66][67] - 规模化公司月均推理成本达230万美元,是其他公司两倍,API使用费成最大负担 [68][71][72] - 开源模型采用率41%,推理效率优化成为降本关键手段 [73] 内部生产力 - 企业AI工具接触率70%但持续使用率仅50%,大企业更降至44% [76][79] - 编程助手普及率77%,生产力提升15-30%,33%代码由AI辅助完成 [81][82][83] - 工程团队是AI落地最佳切入点,实际效果优于宣传推广 [84][85]
DeepSeek推理最高提速6倍!开源研究:加装「思维进度条」,计算量减少30%
量子位· 2025-07-07 14:13
核心观点 - 特拉维夫大学研究团队开发出监控和控制LLM思考路径长度的新方法 通过"思维进度向量"(TPV)实现推理过程的动态调节 包括超频加速和降频减速 [1][4] - 该方法使模型token使用量减少近6倍 同时保持答案准确性 在Math-500和GSM-8K测试中最高提速6倍且准确率不降反升 [3][18][19] - TPV技术可与现有提示策略互补结合 混合方法平均提升66%性能 最高提升285% 相对于基础模型平均提升223% [23][24] 技术原理 - **进度跟踪机制**:LLM通过隐藏状态动态编码推理进度信息 研究团队从最终隐藏层提取"思维进度向量"量化推理阶段相对位置 [6][7][8] - **干预方法**:通过调整α参数修改隐藏表示 正α值实现超频加速(减少不必要推理步骤) 负α值实现降频减速 [16][17] - **可视化实现**:采用指数平滑和序列模型预测相对位置序列 生成可视化进度条 经测试预测误差低于0.1 [11][14][15] 实验效果 - **效率提升**:DeepSeek-R1模型token使用量减少6倍 GSM8K数据集计算量减少30% 思考序列长度显著缩短 [3][18][28] - **准确性表现**:在256-512token低计算预算下 正确答案增加80% 错误率保持不变 更高预算下保持相同趋势 [21][22] - **参数影响**:α值从5增至100持续提升效果 与指令提示结合时最佳性能提升达1416% [20][23][29] 应用验证 - **跨场景适应性**:TPV在不同指令策略和推理序列长度下保持有效 测试损失始终低于0.1 显示强鲁棒性 [32][33] - **模型兼容性**:已验证适用于DeepSeek-R1-Qwen-32B和DeepSeek-R1-LLaMA-8B等显式结构化推理模型 [8][19]
微软裁员以应对AI巨额投资|南财合规周报(第197期)
21世纪经济报道· 2025-07-06 20:30
数据隐私保护 - 谷歌因滥用安卓用户数据被判赔偿3 146亿美元,涉及1400万名加州用户,被指控在手机待机状态下持续收集用户信息用于定向广告等商业用途 [2] - 谷歌辩称服务条款和隐私政策已说明数据传输,用户已同意相关条款,并表示将上诉,认为裁决误解了安卓设备安全性、性能和可靠性至关重要的服务 [2] AI虚假信息与谣言 - DeepSeek给王一博道歉系谣言,网传声明由AI生成,部分自媒体传播后形成假新闻循环,官方从未发布相关声明 [3] - 这是典型的AI幻觉案例,用户通过诱导性提问使模型生成虚构内容,被误读为官方声明 [3] 隐私功能争议与回应 - 微信AI搜索被质疑侵犯个人隐私,用户发现功能可一键生成姓名相关生平简历,腾讯回应称仅整合公开信息,不会使用用户隐私数据,将优化使用体验 [4] - 微信AI搜索接入DeepSeek和混元等大模型,功能引发用户反馈后,公司表示将进一步优化体验 [4] 电商平台规则与打击违规 - 抖音电商否认存在"0粉获取带货权限"渠道,称将严厉打击违规账号,包括永久封禁带货权限、冻结佣金等 [5] - 平台强调严格依据规则开放带货权限,维护生态公平与用户权益 [5] 科技公司裁员与AI战略调整 - 微软宣布裁员9000人,占总员工数4%,今年累计裁员达15000人,以应对AI领域巨额投资 [6] - 微软董事长表示公司30%代码由AI编写,且AI编写代码数量稳步增长 [6] AI技术合作与战略转向 - 苹果考虑放弃自研AI模型,改用Anthropic或OpenAI技术支持Siri,可能与两家公司合作部署大语言模型 [7] - 苹果原计划2026年推出基于自研模型的全新Siri版本,目前Siri核心功能仍由自家技术驱动,但已借助ChatGPT回答部分查询 [7]
deepseek技术解读(3)-MoE的演进之路
自动驾驶之心· 2025-07-06 16:44
DeepSeek MoE技术演进 - 核心观点:DeepSeek在MoE架构上持续创新,从V1到V3版本通过细粒度专家分割、共享专家隔离、负载均衡优化等技术手段提升模型性能 [15][16][36] MoE基础架构 - MoE包含三部分:专家网络(前馈网络)、门控网络(计算专家权重)、选择器(TopK策略) [7] - Google提出的Transformer MoE层设计:用MoE替换FFN层,通过门控值加权多个专家输出 [5] - 负载均衡辅助损失解决专家间token分配不均问题,防止少数专家过载 [6][8] DeepSeek V1创新 - 细粒度专家分割:分割FFN隐藏维度增加专家数量,提升知识分解精度 [16] - 共享专家隔离:设置常激活专家捕获共同知识,减少其他专家冗余 [16] - 双层级负载均衡:专家级(公式12-14)和设备级(公式15-17)负载loss [19][23] DeepSeek V2升级 - 设备受限路由机制:限制每个token的激活专家分布在≤3台设备,降低通信成本 [28] - 通信负载均衡loss:公式29-31确保设备间输入输出负载均衡 [30][32] - Token丢弃策略:超过设备容量的低权重token跳过计算,通过残差传递 [33][34] DeepSeek V3改进 - 门控函数升级:用Sigmoid替代Softmax,解决高维度专家(256个)权重区分度问题 [36][38][39] - 精简辅助损失:通过动态bias替代多层级负载loss,减少对主模型干扰 [40][41] - 序列级均衡loss:公式17-19在单样本粒度平衡专家分配 [42][43] 技术演进总结 - V1:建立共享专家+细粒度专家框架,引入双层级负载均衡 [44] - V2:优化通信效率,新增设备路由限制和通信均衡机制 [44] - V3:门控函数革新,负载均衡策略简化,支持更大规模专家 [44]
DeepSeek又惹祸了?画面不敢想
新浪财经· 2025-07-06 12:24
AI造假与信息污染 - AI幻觉问题导致主动编造事实迎合用户偏好 被利用制造离奇谣言 [3] - 造假范围从明星八卦扩展到涉政涉军领域 如编造官员腐败情节和芯片走私等虚假信息 [4][5][6][7] - 社交媒体传播效率放大虚假信息影响 形成"情绪优先于真相"的传播环境 [8][9][13] AI技术缺陷与滥用 - 模型易被投喂虚假训练数据 缺乏信息鉴别能力 加剧误导风险 [10] - DeepSeek模型幻觉问题显著 需改进逻辑设计和工程架构 [17] - 饭圈文化可能利用AI缺陷进行规模化黑公关操作 [11][12] 行业治理与应对 - 监管部门开展AI虚假信息打击行动 但治理速度落后于造假效率 [18] - 政策层面保持"放水养鱼"原则 避免过度监管新兴行业 [18] - 建议用户区分知识性信息与即时信息 建立分级信任机制 [19][20] 技术发展趋势 - 国外三大主流模型已有效控制幻觉问题 技术优化路径存在参考价值 [17] - AI功能渗透改变全社会信息获取方式 需建立新的信息过滤体系 [19][21]
DeepSeek给王一博道歉被当真,年度AI幻觉/马斯克Grok 4跑分曝光/华为盘古团队回应模型争议|Hunt Good周报
搜狐财经· 2025-07-06 11:35
Grok-4模型性能曝光 - Grok-4在HLE评估中基础得分35%,开启推理功能后提升至45%,显著领先OpenAI o3和Google Gemini系列[1] - 在GPQA测试中得分达87%-88%,代码能力评测SWE Bench得分72%-75%[2] - 新版本支持多模态输入、130k token上下文、结构化输出、数学推理和函数调用等功能[3] - Grok 4 Code将深度集成在Cursor编辑器,具备智能补全、调试和执行功能[3] 华为盘古模型开源争议 - 华为开源盘古7B稠密模型及72B混合专家模型,被质疑与阿里云通义千问Qwen-2.5 14B高度相似[4] - 华为声明盘古Pro MoE模型基于昇腾硬件平台独立开发,采用创新MoGE架构解决分布式训练负载均衡难题[5] - 承认部分基础组件代码参考业界开源实践,但严格遵循开源许可证要求[5] Cluely公司ARR快速增长 - AI面试辅助工具Cluely企业版推出后ARR一周内翻番至700万美元[7] - 产品实时分析用户在线对话生成隐蔽提示,应用于销售、客服和远程教学等场景[7] - 面临免费开源竞品Glass的挑战,增长持续性存疑[9] 特斯拉Optimus项目调整 - 暂停人形机器人零部件采购进行设计调整,预计耗时2个月[10] - 硬件存在关节电机过热、灵巧手负载低等问题,软件计划增加合成数据训练[12] - 原计划年产5000台目标恐难达成,目前仅完成约1000台[13] 百度搜索重大升级 - 搜索框升级为"智能框",支持超1000字文本输入和多模态交互[16] - 集成文心大模型和视频生成技术,可快速生成电影级短视频[17] AI基础设施投资热潮 - Amazon新建1200英亩数据中心与Anthropic合作,目标训练全球最大AI系统[21] - Oracle通过去中心化策略建立高效AI云基础设施[21] - 行业预计新建数据中心总投资超3200亿美元,年耗电量相当于百万家庭需求[23] Meta成立超级智能实验室 - 整合FAIR、大语言模型开发和AI产品团队,由Scale AI前CEO Alexandr Wang领导[24] - 吸引多位来自OpenAI、DeepMind和Anthropic的核心人才加入[26] - 计划未来几年投入数千亿美元发展AI基础设施和模型研发[26] 开源模型进展 - 百度文心4.5系列开源10款模型,包含47B和3B MoE模型及0.3B稠密模型[30] - 苹果开源DiffuCoder-7B-cpGRPO代码生成模型,EvalPlus基准性能提升4.4%[36] - B站开源AniSora V3动画视频生成模型,支持多种风格一键生成[34]
AI周报|华为盘古团队否认开源模型抄袭;英伟达市值逼近4万亿美元
第一财经· 2025-07-06 09:52
苹果AI战略转向 - 苹果可能放弃自研大语言模型 转而采用OpenAI的ChatGPT或Anthropic的Claude模型为Siri提供技术支持 [5] - 苹果自研模型在多轮对话、复杂逻辑推理等核心指标上与GPT-4o、Gemini存在代际差距 [5] - 原计划2026年推出的"Apple Foundation Models"驱动版Siri因技术瓶颈多次延期 [5] 华为盘古模型争议 - 华为否认盘古Pro MoE开源模型抄袭 声明称是基于昇腾硬件平台开发的基础大模型 [2] - 盘古团队承认部分基础组件代码参考了业界开源实践 但严格遵守开源许可证要求 [2] - 研究显示盘古大模型与阿里通义千问Qwen-2.5 14B模型在参数结构上存在0.927的高相关性 [2] 英伟达市值创新高 - 英伟达市值一度突破3.92万亿美元 超过苹果创下的3.915万亿美元纪录 [3] - 6月以来英伟达股价累计上涨17.92% 年初至7月3日累计上涨18.67% [3] - AI推理需求激增 tokens生成在过去一年增长50-100倍 [3] Meta人工智能布局 - Meta成立"超级智能实验室" 整合基础AI研究、大语言模型开发和AI产品团队 [4] - 新部门引入Scale AI前CEO等11位行业重量级人物 包括6名OpenAI华人员工 [4] - 扎克伯格已在人工智能领域投资143亿美元 [4] 大模型开源趋势 - 百度开源文心大模型4.5系列10款模型 包括47B、3B MoE模型和0.3B稠密型模型 [7] - 华为开源盘古70B稠密模型和720B MoE模型 [7] - 阿里、腾讯等也已通过开源大模型布局AI生态 [7] xAI融资进展 - xAI完成100亿美元新一轮融资 包括50亿美元债务和50亿美元股权 [8] - 资金将用于开发全球最大数据中心之一和旗舰平台Grok [8] - xAI目前每月烧钱高达10亿美元 今年营收预计仅5亿美元 [8] AI人才争夺战 - Meta挖角OpenAI顶级研究员 开出1亿美元签约奖金 [9] - OpenAI CEO批评Meta招聘方式 称可能导致企业文化问题 [9] - 人才争夺导致研究人员薪资上涨 [9] 存储行业动态 - DDR4内存条价格近一个月上涨近一倍 16G 3200现货价涨幅超200% [13] - 原厂减产DDR4 将产能转向DDR5和HBM [13] - HBM成为SK海力士、美光、三星等存储原厂的竞争重点 [13] 英伟达GB300部署 - CoreWeave成为首家部署GB300 NVL72系统的AI云服务提供商 [14] - GB300 NVL72系统AI性能超过每秒百亿亿次浮点运算 每个机架提供40TB快速内存 [14] - Blackwell架构芯片占英伟达数据中心收入近70% [14]