Workflow
量子位
icon
搜索文档
医疗AI质变时刻来临!国产医疗AI率先突破,临床诊疗能力问鼎全球
量子位· 2025-11-12 12:08
医疗AI临床能力的现状与挑战 - 通用大模型在标准化医学考试中表现优异,但在真实临床场景中暴露出推理幻觉、诊断不当、治疗方案欠妥等问题[2] - 现实医疗实践是高度个体化、动态演变的复杂系统,容错率极低,与标准化考试的固定答案模式存在巨大落差[2] - OpenAI已更新政策,禁止ChatGPT在解读医学影像、协助医疗诊断等高价值应用领域提供服务,反映行业对介入严肃领域的审慎态度[2] 临床适用性新标准CSEDB - 由32位来自北京协和医院等23家医院的一线临床专家共同制定全球首个评估医疗AI临床适用性的"临床安全-有效性双轨基准"[10] - 新标准打破"标准问-标准答"静态模式,构建2069个开放式问答条目,覆盖26个临床专科,高度贴近真实病例推演[12] - 首次引入风险分级机制,按临床风险等级进行1-5分加权打分,5分代表"潜在致命后果",将模型评分与实际医疗后果直接绑定[14][15] - 评估维度涵盖危急重症状识别、药物剂量计算错误等30项核心指标,全面对照真实临床工作的判断难题与决策压力[11] 中国模型MedGPT的卓越表现 - MedGPT在CSEDB测评中以总分0.895的成绩位列第一,领先第二名超过15个百分点[19][22] - 该模型是唯一在安全性评分上超过有效性的模型,安全性评分突破0.9,展现罕见的"谨慎"特质[22][24] - 在"致命药物相互作用"等权重为5的高风险场景中几乎全线达标,而其他通用大模型在这些维度得分普遍不足0.6[26] - 早在2023年与四川大学华西医院主治医师的临床实验中,就取得了与三甲医院主治医生96%一致性的结果[29] 技术实现与平台应用 - MedGPT采用三层认知系统技术架构,是全球第一个经验证具备临床诊疗能力的医疗大模型[53] - 基于MedGPT推出的"未来医生"平台实现L3级别人机协作,大部分标准化诊疗场景可授权AI处理,危急重场景由医生接管决策[38] - 平台每周有超过一万名医生交互,沉淀两万条诊疗反馈,推动模型每月准确率提升1.2%-1.5%,形成"反馈即迭代"的飞轮机制[31][32] - 已汇聚超过50位中华医学会主委级顶尖医学专家参与模型训练与人机协同方案设定[44] 行业影响与未来愿景 - 医疗AI从"模拟医生语言"向"参与临床级医生推理"质变跃迁,是行业不再纸上谈兵的关键标志[32] - 通过AI"复制医生"模式将稀缺临床经验变成可规模化能力,创造新的医疗资源而非简单搬运既有资源[34][45] - 研发理念聚焦"继绝学"和"开太平"两大目标,即复制顶尖医生能力并为绝症提供突破性治疗思路[48][49][50] - CSEDB标准将向全行业开放,任何机构都可基于此标准对自身模型进行评估与优化,推动行业走向成熟[54][55]
最后一周!人工智能年度榜单申报即将截止。
量子位· 2025-11-12 12:08
让我们共同见证年度之星,点亮未来的方向。 组委会 发自 凹非寺 量子位|公众号 QbitAI 「2025人工智能年度榜单」申报 已进入倒计时阶段。 今年是量子位 「2025人工智能年度榜单」评选报名 的 第8年。 八年来,我们见证了技术的突破与落地,产业的融合与重塑,也见证了一批 又一批推动时代前行的企业、人物与产品。 本次评选已经从 企业 、 产品 、 人物 三大维度,设立五类奖项。欢迎企业抓住最后时间,尽快报名! 企业榜 产品榜 人物榜 2025 人工智能年度 焦点人物 报名方式 本次评选将于 2025年11月17日 截止。评选结果将于量子位主办的 MEET2026智能未来大会 上正式公布。 扫描二维码即可报名评选: 网页端链接:https://wj.qq.com/s2/23740133/iso8/ 如对本次评选有其他疑问,请联系量子位工作人员。添加微信18801103170,或邮件发送至linyu@qbitai.com,并备注「评选-企业-姓 名」。 详细评选标准及报名方式如下。 2025 人工智能年度领航企业 将面向中国人工智能领域,评选出最具综合实力的企业, 参选条件 : 评选标准 : 2025 人 ...
阿里发了个简历AI神器,大小仅0.6B
量子位· 2025-11-12 12:08
阿里巴巴推出创新简历解析框架 - 阿里巴巴集团研究团队开发了一套基于布局感知的简历解析框架,旨在解决自动化简历解析的行业痛点[2][9] - 该框架在简历解析任务上的准确率逼近Claude-4等业界顶尖大模型,处理整份简历仅需1-2秒[3] - 该创新技术直击自动化简历解析的三大痛点:版面格式多样、大模型成本高昂及响应速度慢[4] 技术方案与核心创新 - 框架引入“布局感知解析器”,能识别简历整体结构,将不同区域分割成独立逻辑区块,并按人类阅读习惯重新排列,解决了布局混乱带来的解析难题[11][12] - 研究团队创新性地对一个仅有0.6B参数的小模型(Qwen3-0.6B)进行微调,而非使用庞大的百亿或千亿参数模型[15] - 通过专门构建的包含数万份简历的指令数据集对模型进行训练,使其学会精准提取关键信息[16] - 采用“并行任务分解”和“索引指针”机制,将提取任务拆分并行处理,并让模型返回文本“行号范围”以回填内容,大幅减少生成token数量,保证内容100%保真[17][18][19][20] 性能表现与效率 - 在RealResume数据集上,微调后的0.6B模型F1-score达到0.964,处理一份简历的平均耗时仅为1.54秒[20] - 该处理速度远快于Claude-4的4.62秒,实现了3-4倍的速度提升[20] - 在线上服务中,系统吞吐量可达每分钟240-300份简历,平均响应延迟低于2秒,10秒内成功解析率达到100%[22] 行业应用与部署现状 - 该技术框架已在阿里巴巴集团内部的HR系统中全面部署[21] - 该研究证明,通过创新的系统设计和模型优化,可以在不牺牲准确率的前提下,大幅降低大模型技术的使用门槛和成本[23]
华为刚投的物理AI:首家国产世界模型公司
量子位· 2025-11-12 12:08
华为投资动态 - 华为哈勃与华控基金联合投资物理AI公司极佳视界 完成亿元级A1轮融资[2] - 这是极佳视界两个月内连续完成的第三轮融资 也是华为哈勃首次投资主业定位为"世界模型"的公司[2][28] 极佳视界公司概况 - 公司成立于2023年 是国内第一家"纯血"物理AI公司 创业目标为世界模型[4] - 产品覆盖自动驾驶世界模型 具身基础模型到世界模型平台的全栈软硬件[4] - 应用落地领域包括自动驾驶和具身智能 与华为押注方向一致[4] 技术产品进展 - 2024年发布国内首个支持原生16秒超长时长视频生成模型"视界一粟YiSu"[5] - 2023年推出全球首个真实世界驱动的自动驾驶世界模型DriveDreamer[9] - 2024年DriveDreamer升级4D版本 联合多家研究机构实现4D驾驶场景重建效果增强[11] - DriveDreamer系列为自动驾驶和具身智能提供数据生成和闭环仿真解决方案 已签约多家头部主机厂 服务客户几十余家[12] 核心团队背景 - 创始人兼CEO黄冠为清华大学自动化系AI方向博士 拥有微软 三星 地平线等公司算法经历及连续创业经验[9] - 联合创始人兼首席科学家朱政论文被引数达1 7万+ h-index为50 其代表作SiamRPN和DaSiamRPN是深度学习时代最具影响力目标跟踪算法[15][16] - 另一位联合创始人孙韶言曾任阿里云总监 地平线数据闭环产品线总经理[17] - 合伙人兼工程副总裁毛继明曾任百度 嬴彻架构师 曾担任百度Apollo仿真技术负责人[18] 华为技术布局 - 华为在自动驾驶领域偏好世界模型而非VLA路径 强调从视觉直接到决策的端到端方式[21] - 华为智能汽车解决方案BU CEO靳玉志表示更看重WA路径 省掉Language环节直接通过视觉信息输入控车[22] - 华为与高校合作的世界模型研究还扩展到更大范围 如联合推出的WorldGrow可单卡30分钟生成272㎡室内场景[26] - 结合此前对具身智能公司千寻智能的投资 华为在空间智能和世界模型上的布局正在连点成线[28]
忍无可忍,LeCun离职!Meta市值应声蒸发1400亿
量子位· 2025-11-12 00:01
核心事件 - 图灵奖得主、Meta首席AI科学家Yann LeCun因对公司战略调整及内部管理不满而决定离职 [1][2][3] - 该消息导致Meta市值在盘前交易中蒸发1.5%,约200多亿美元(约1400多亿人民币),且开盘后持续下跌 [4] - LeCun离职后计划创业,专注于其长期倡导的"世界模型"架构 [2][24] Meta AI战略调整 - 公司AI战略频繁摇摆,6个月内对内部AI部门进行4次重组,导致研究无法推进 [10] - 为追赶谷歌和OpenAI,公司将战略重心转向大语言模型(LLM),LeCun领导了十多年的基础人工智能研究实验室FAIR被战略性放弃 [5][36] - 公司任命OpenAI前高级研究员赵晟佳为MSL超级智能实验室首席科学家,此举实质上架空了LeCun的内部领导地位 [13][14] - 公司大幅提高资本支出,2025年资本支出预期提高至700亿至720亿美元,远超市场预期 [29] 组织架构与权力变动 - Meta AI研发体系重组为四大部门:TBD实验室(负责人Alexandr Wang,专注高风险高回报创新及Llama系列开发)、产品与应用研究(负责人Nat Friedman,推动技术产品化)、基础设施(负责人Aparna Ramani,负责硬件及算力支持)、基础人工智能研究FAIR(负责人Robert Fergus,专注长期基础研究) [12] - LeCun需向28岁、高中学历的TBD实验室负责人Alexandr Wang汇报工作,地位显著下降 [15] - Alexandr Wang要求FAIR发表研究成果前必须经过TBD实验室审核,包括LeCun的论文也需其团队批准 [16] - 上个月在Alexandr Wang主导下,FAIR包括科学家总监田渊栋及其团队在内的600多人被成建制裁撤,田渊栋团队专攻的强化学习与规划技术是LeCun"世界模型"愿景的关键路径 [6][18][20] 理念与路线分歧 - LeCun是知名LLM怀疑论者,认为LLM仅是文本数据库而非真正理解物理世界,其创业公司将推进需要"十年"开发的"世界模型"长期架构 [24][25] - 公司当前战略全力押注LLM以实现产品快速追赶,与LeCun坚持的长期基础研究路线产生根本冲突 [25][36] - LeCun是AI开源运动旗帜人物,而TBD实验室正内部讨论将未来Llama版本转为闭源模式,与LeCun理念相悖 [26] - Meta的快车道战略选择牺牲基础科学和长期愿景,标志着公司长达十年的"学院派"研究黄金时代结束 [30][36][37] 历史背景 - LeCun于2013年受扎克伯格邀请加入,创建并领导FAIR实验室,该实验室享有极高独立性,以"大学式"特权推动基础科学研究和开源 [31][32][35] - 2018年LeCun获得图灵奖,标志着Meta在AI基础研究领域声望达到顶峰 [33]
6666!NuerIPS满分论文来了
量子位· 2025-11-11 19:11
文章核心观点 - 一篇来自清华大学和上海交通大学的研究论文在NeurIPS 2025上获得四位审稿人一致给出的满分6分,成为该会议唯一的满分论文[1] - 论文的核心结论挑战了行业普遍认知,指出真正决定大语言模型推理能力上限的是基座模型本身,而非强化学习训练方法[1] - 研究结果表明,知识蒸馏方法比强化学习更有潜力实现大模型能力的自我进化,这对当前主流的RLVR技术路线提出了重要质疑[1][12] 研究方法与实验设计 - 研究团队采用pass@k作为关键评估指标,该指标通过多轮采样揭示模型的真实推理边界,能更精准判断模型是否"有能力"解决问题[14][15] - 实验覆盖大语言模型推理能力的三大典型应用领域:数学推理、代码生成和视觉推理,并搭配GSM8K、MATH500、LiveCodeBench、MathVista等权威基准数据集[17] - 模型选择以主流大语言模型家族为基础,包括Qwen2.5系列和LLaMA-3.1等,构建了"基础模型vs RLVR训练模型"的多组平行对照[18] - 针对每个测试样本,让基础模型和RLVR模型进行不同次数的采样,k值从1逐步提升至1024,记录每次采样中"至少出现一个正确结果"的概率[20] 关键研究发现 - RLVR主要是在"强化"底模已有的推理路径,而不是"发现"底模没有的新路径[10] - RL训练后的模型在低采样次数下表现更好,但随着采样次数增加,底模反而能超过RL模型,说明底模隐藏的推理能力被低估了[10] - 多种RL算法在提升采样效率方面差异不大,且与"理论上底模最大能力"相比仍有明显差距[10] - 蒸馏方法更有可能"扩展"模型的推理能力范围,因为其接收来自教师模型的新推理模式,而RLVR更受限于底模[10] 研究团队背景 - 研究团队由8位研究人员组成,其中7位来自清华大学LeapLab,1位来自上海交通大学[24] - 项目负责人Yang Yue是清华大学自动化系四年级博士生,研究方向为强化学习、世界模型和多模态大模型[25] - 通讯作者Gao Huang是清华大学自动化系副教授、博士生导师,LeapLab负责人,以提出经典卷积架构模型DenseNet而闻名[31][32]
杨植麟回复:Kimi K2训练用的H800!但“只花了460万美元”嘛…
量子位· 2025-11-11 19:11
文章核心观点 - Kimi K2 Thinking模型以显著低于行业水平的训练成本(传闻约460万美元)实现了卓越性能,其开源策略和工程创新正在引发硅谷开发者和企业从闭源模型向该模型的迁移潮 [1][5][13][14] 训练成本与行业影响 - 传闻Kimi K2 Thinking训练成本约为460万美元,低于DeepSeek V3的约560万美元,但公司澄清此非官方数据,并指出训练成本因包含大量研究和实验而难以精确计算 [1][13] - 低成本高性能的开源模型引发市场对闭源巨头高估值的反思,并可能推动对月之暗面公司的价值重估 [14][15] 技术架构与工程创新 - 模型架构继承并优化了DeepSeek等开源成果,将MoE层专家数量从256个增至384个以扩大知识容量,同时将每次推理激活参数量从约370亿降至320亿以降低推理成本 [16] - 词汇表从129K扩大至160K,并减少了MoE前的密集前馈网络块,进一步优化计算效率 [16] - 采用自研MuonClip优化器,在15.5万亿token的训练过程中实现了零训练崩溃,无需人为干预重启 [18] - 采用量化感知训练方案,实现原生INT4精度推理,在提升推理速度约2倍的同时将性能损失降至最低 [21] 市场反响与性能表现 - 硅谷投资人Chamath Palihapitiya将其新公司AI负载迁移至Kimi K2,原因是其性能更强且价格便宜得多 [6] - 云端开发平台Vercel CEO内部测试显示,Kimi K2比闭源模型快5倍,准确率高50% [8] - Claude Code用户相互传授将模型切换为Kimi K2的设置方法 [9] 公司未来规划与产品路线 - 下一代K3模型可能采用实验性混合注意力机制KDA,在同等条件下性能优于采用RoPE的模型,且速度更快、效率更高 [24] - 将很快推出类似Claude Code的Kimi Code产品,视觉语言模型正在开发中 [27] - 承认K2 Thinking思考过程过长、效率较低,下一版会将简化思考过程写入奖励函数 [27] - 曾尝试1M上下文窗口但因服务成本过高而搁置,未来会重新考虑更长的上下文窗口 [27]
谷歌192亿买他回来,现在只想让他闭嘴
量子位· 2025-11-11 19:11
事件概述 - 谷歌以27亿美元(约192亿人民币)收购Character AI并引入其核心团队,其中Transformer“贡献最大”的作者Noam Shazzer回归公司[1][26][28] - Noam Shazzer在公司内部论坛就性别等敏感议题发表个人观点,引发内部激烈争论并迅速形成对立阵营[5][6][7] - 公司管理层删除Noam部分评论,导致争议升级,支持者认为此举体现企业文化僵化,反对者则认为顶尖人才也需遵守公司包容政策[8][9] 人物背景与价值 - Noam Shazzer是Transformer八位作者之一,被公认为“贡献最大”作者,其重写项目代码将系统提升至新水平[20] - 华盛顿大学计算机教授Pedro Domingos表示,Noam回归后修复的一个Gemini漏洞价值达25亿美元[14] - Hyperbolic Labs联创兼CTO Yuchen Jin认为此次收购是谷歌最划算交易,若Noam被马斯克挖走,最佳大模型将变为Grok[16][17] 历史相似事件对比 - 当前事件让外界联想到2017年James Damore事件,该工程师因撰写涉及性别议题的内部备忘录被解雇[12] - 但外界普遍认为Noam地位重要,公司无法像对待James Damore那样解雇他[13][19] - 2020年谷歌AI伦理团队联合负责人Timnit Gebru博士因合著批评大模型偏见的论文被解雇,超过1400名谷歌员工和数千名外部学者联名支持她[31][39] - AI负责人Jeff Dean当时为处理Gebru事件的敏感度道歉,显示公司高层与顶尖研究人员价值观冲突持续存在[36][40][41]
看图写代码,3毛钱开发一个网页!字节AI Coding新模型真卷麻了
量子位· 2025-11-11 14:59
产品发布与核心优势 - 火山引擎推出全新代码模型Doubao-Seed-Code,专门面向Agentic编程任务进行深度优化 [2] - 该模型在三个维度表现突出:性能达到SOTA、调用价格国内最低、迁移成本近乎为零 [3][6][7] - 模型与TRAE开发环境深度结合,在SWE-Bench Verified榜单上以78.80%的解决问题率登顶,超过TRAE单独使用的75.20%以及其他主流模型 [4][63] 性能表现与技术能力 - 具备原生256K长上下文能力,擅长处理长代码文件和多模块依赖等复杂场景 [56] - 是国内首个支持视觉理解能力的编程模型,能够参照UI设计稿、界面截图或手绘草图直接生成对应代码 [43][44][56] - 在工程化重构测试中展现出系统性诊断与专业重构能力,能有效定位代码Bug并进行结构化优化 [28][32][38] 实测效果与功能验证 - 基础功能测试中能快速完成简单视觉任务,技术栈使用准确且基础功能无偏差 [11][13][14] - 在复杂交互逻辑任务中展现出多轮交互优化能力,能根据反馈调整实现更真实的效果 [15][19][23][27] - 完整项目开发测试中展示了多需求整合能力,能主动解决素材缺失问题并提供详细替换教程 [40][41][42] 价格优势与成本控制 - 调用价格达到国内最低水平,在0-32k区间相同tokens量下成本仅约0.34元,显著低于Claude Sonnet 4.5的4.05元和GLM-4.6的0.77元 [55] - 综合使用成本在业界平均水平上降低了62.7% [55] - 推出个人开发者套餐,首月最低仅需9.9元,实现"一杯咖啡价"的AI编程服务 [6][58] 生态兼容与迁移便利 - 原生兼容Anthropic API,在Claude Code环境中迁移几乎零成本 [7][16] - 支持多平台适配,在Cursor、Cline、Codex CLI等主流智能编程环境中都能无缝衔接 [16] - 对Claude Code、Trae等主流IDE进行了特别优化,迁移过程无需复杂配置 [56] 技术支撑与基础设施 - 构建了覆盖10万容器镜像的训练库,支持端到端沙盒环境评测 [66] - 依托千卡GPU集群实现万级并发沙盒session能力 [66] - 采用端到端强化学习技术,直接从任务沙盒反馈中学习,优化路径更高效 [67] 市场表现与用户基础 - 在字节内部超过80%的工程师使用TRAE辅助开发,整体月活用户已超100万 [62] - 在Terminal Bench、SWE-Bench-Verified-Openhands、Multi-SWE-Bench-Flash-Openhands等主流测评中表现出色 [64] - 火山引擎还开源了命令行AI Agent——veCLI,通过自然语言交互实现从指令到代码的自动化构建与运行 [60]
iPhone Air卖不动,库克挥泪砍产线…这也就刚卖了一个月
量子位· 2025-11-11 12:24
iPhone Air产品停产与市场表现 - 苹果供应商富士康已拆除一条半iPhone Air生产线外的所有生产线,预计本月底停止所有生产[2] - 另一家供应商立讯精密早在10月底就已终止该机型生产[3] - iPhone Air自9月推出以来首销周激活量仅5万+,不足iPhone 17 Pro Max的十分之一[5] 市场销售数据与用户反馈 - 在京东和天猫平台,iPhone Air销量不仅追不上同期iPhone 17系列,还被老款iPhone 16反超,在小屏热销榜中掉出前十名[6] - 在亚马逊上,iPhone Air评分仅4.4分,评论量远低于同期主力型号,用户普遍反映电池和续航问题严重[8] - iPhone Air起售价为7999元,而iPhone 17 Pro起售价1099美元(约合人民币更贵),但后者提供三摄、长续航等完整Pro体验[15] 产品定位与配置缺陷 - 产品定位为"非Pro旗舰",在标准款基础上做减法,砍掉高刷屏、钛合金、长焦等配置,保留A系列芯片和主摄,追求轻薄极致[12] - 配置削减过度,仅保留顶部扬声器,后置摄像头缩水成单摄,连标准款的超广角都砍掉,影像能力退回iPhone X时代[13] - 部分版本为轻量化砍掉实体SIM卡槽仅保留eSIM,但eSIM在许多国家和地区未普及,导致用户开通繁琐甚至无法使用[18][19] 生态协同与市场机会 - iPhone Air缺乏独占配置、新模组或结构变化,无法刺激硬件配件商或开发者为其适配新功能,难以撬动苹果生态[22] - 产品未能带动生态链条、贡献新增用户或拉动新硬件,导致公司决定停止投入资源[24] - 苹果退出"轻薄旗舰"价位段为国产厂商留下空档,华为顺势推出Mate 70 Air,厚度6.6mm,重量208g,起售价4199元[28] 未来产品规划与行业竞争 - iPhone Air 2项目虽被撤出主线排期,但部分原型开发已在内部进行,迭代方案包括进一步减轻重量、引入更大电池容量和改进散热结构[31] - 国内厂商如小米Civi、OPPO Reno、荣耀数字系列已在轻薄旗舰赛道形成生态闭环,卷手感、颜值、人像和系统体验[26] - 苹果撤退后国产厂商迅速补位,"轻旗舰果粉"可能转向安卓阵营,行业竞争格局发生变化[27][29]