量子位
搜索文档
孙正义再次清仓英伟达!上一次教训“价值2500亿美元”
量子位· 2025-11-12 16:01
软银清仓英伟达 - 软银在第二季度结束后清仓了所持有的3210万股英伟达股份,套现58.3亿美元(约合人民币415亿元)[2][3] - 此次清仓正值英伟达市值突破历史性的5万亿美元大关之际[5] 资金投向OpenAI - 清仓英伟达所获资金将用于对OpenAI的追加投资[7][8][9] - 软银与OpenAI签订协议,承诺最高追加投资400亿美元,实际投资额预计为300亿美元[11] - 首次100亿美元投资已于今年4月完成,其中软银愿景基金二期出资75亿美元[11] - 软银计划通过愿景基金二期继续出资225亿美元,部分资金来自此次英伟达股票出售[11][12] 战略转向AI软件与模型 - 行业分析认为软银正在将投资重点从AI硬件转向应用交互层[14][15] - 公司认为AI领域更大的机遇在于软件和模型层面,而非硬件[16] - 软银即将进行的主要投资包括:对OpenAI的后续投资(计划于2025年12月)、65亿美元收购Ampere(计划于2025年底前完成)、54亿美元收购ABB机器人业务(计划于2026年中后期完成)以及投资Stargate项目[17] OpenAI上市计划 - 软银批准对OpenAI剩余225亿美元投资的条件是OpenAI在年底前完成重组,为上市铺平道路[19] - OpenAI已于上月底完成资本结构重组,IPO指日可待[20] - 一旦OpenAI顺利上市,软银的投资将从多个层面获得回报[21] 历史清仓记录与教训 - 软银曾在2017年以40亿美元买入英伟达近5%股份,但在2019年套现36亿美元清空全部持股[23][24][25] - 若2019年清仓的股票持有至今,价值约为2500亿美元[28] - 英伟达CEO黄仁勋曾公开表示软银错失了巨额投资回报[26][27] 孙正义投资风格 - 高风险、高回报、大手笔是孙正义最鲜明的投资标签[32] - 典型成功案例包括2000年互联网泡沫时期投资阿里巴巴2000万美元,最终价值1500亿美元[33] - 其他代表性投资还包括Uber、WeWork等明星企业[33]
硅谷热议:最快语音转文字模型
量子位· 2025-11-12 16:01
产品发布与性能突破 - AI语音独角兽公司ElevenLabs发布了Scribe v2 Realtime实时语音转文本模型,被网友评价为“Next-Level” [3] - 该模型实现了150毫秒的超低延迟,其速度之快相当于人类眨眼一次的平均时长(100-400毫秒) [4][5] - 模型在FLEURS基准测试中对前30种常用语言的准确率达到93.5%,表现突出 [4][7] - 模型支持90多种语言,覆盖从主流到小众的语种,并支持PCM(8-48kHz)、μ-law编码等多种音频格式 [4][10] - 产品具备语音活动检测和手动提交控制功能,便于实现定制化的音频流处理和更高精度的微调 [10] - 即使在嘈杂环境、方言或包含专业术语的对话中,模型也能精准抓取关键词,甚至能辨别笑声类型 [9] - 实际测试显示,该模型对中文某些生活化表达(如“五月单五”)的识别尚不完美,但整体准确率较高 [12] 行业技术演进与痛点 - 实时语音转文本赛道早期以传统统计模型为主,存在识别准确率低、背景噪音下错误率常超30%、延迟普遍在1秒以上的痛点 [13] - 深度学习技术应用后,模型准确率有所提升,但多语言支持能力薄弱,主流模型仅覆盖20-30种语言,对小众语言或复杂口音适配性差 [13] - 行业长期存在“速度与精度不可兼得”的困境,直至Transformer架构在语音领域应用后才逐步缓解 [14] - Scribe v2 Realtime实现了毫秒级延迟与90%以上准确率的突破,成为该赛道新的技术天花板 [15][25] 公司背景与商业成就 - ElevenLabs成立于2022年,是一家聚焦AI语音技术的科技企业,创始团队包括前谷歌机器学习工程师与前Palantir策略师 [18][19] - 公司成立后商业进展迅速,仅用20个月营收突破1亿美元,随后10个月内进一步增长至2亿美元 [21] - 公司在2025年1月完成1.8亿美元C轮融资后,估值达到33亿美元 [22] - 公司创立之初即坚定押注语音方向,目前拥有全球Top 100的AI语音方向研究员 [23] - 公司采用灵活的组织架构,将250人团队视为20个5-10人的小团队,内部不设头衔,鼓励任何人成为关键决策者 [23] - 公司此前推出的Eleven v3文本转语音模型因支持70多种语言及自然生动的表现力已获好评 [24]
罗福莉C位亮相小米,离职DeepSeek后首次官宣
量子位· 2025-11-12 16:01
罗福莉加入小米事件 - 罗福莉正式官宣加入小米,出任MiMo团队负责人 [1][7] - 该传闻始于2024年底,称雷军以千万年薪挖角DeepSeek核心开发者罗福莉 [4][10] - 2024年12月,小米AI团队论文作者栏已出现罗福莉名字,但当时身份为“独立研究者” [11] 罗福莉背景与影响力 - 罗福莉拥有北京师范大学计算机本科和北京大学计算语言学硕士背景,曾在阿里巴巴达摩院和DeepSeek任职 [15][17] - 其学术论文总引用次数超过11,000次,仅2024年一年内就新增约8,000次引用 [18] - 她参与了DeepSeek-V2等模型的研发,其名字也出现在DeepSeek最新的Nature封面论文中 [17][19] 小米的AI战略方向 - 在汽车业务步入正轨后,小米宣布将全力进军AI深水区 [9] - 2024年12月26日,媒体曝出小米正在组建GPU万卡集群 [6] - 雷军在跨年直播中公开披露了小米在AI方面的野心 [8] MiMo团队与空间智能技术 - 罗福莉领导的MiMo团队是小米推进大模型研发的核心招牌,目标指向空间智能 [23] - 空间智能旨在从语言世界走向物理世界,具备感知、推理、生成与行动的能力,是实现通用人工智能的关键一步 [3][23] - 该技术理念与小米拥有的“人、车、家全生态”场景天然适配 [25]
医疗AI质变时刻来临!国产医疗AI率先突破,临床诊疗能力问鼎全球
量子位· 2025-11-12 12:08
医疗AI临床能力的现状与挑战 - 通用大模型在标准化医学考试中表现优异,但在真实临床场景中暴露出推理幻觉、诊断不当、治疗方案欠妥等问题[2] - 现实医疗实践是高度个体化、动态演变的复杂系统,容错率极低,与标准化考试的固定答案模式存在巨大落差[2] - OpenAI已更新政策,禁止ChatGPT在解读医学影像、协助医疗诊断等高价值应用领域提供服务,反映行业对介入严肃领域的审慎态度[2] 临床适用性新标准CSEDB - 由32位来自北京协和医院等23家医院的一线临床专家共同制定全球首个评估医疗AI临床适用性的"临床安全-有效性双轨基准"[10] - 新标准打破"标准问-标准答"静态模式,构建2069个开放式问答条目,覆盖26个临床专科,高度贴近真实病例推演[12] - 首次引入风险分级机制,按临床风险等级进行1-5分加权打分,5分代表"潜在致命后果",将模型评分与实际医疗后果直接绑定[14][15] - 评估维度涵盖危急重症状识别、药物剂量计算错误等30项核心指标,全面对照真实临床工作的判断难题与决策压力[11] 中国模型MedGPT的卓越表现 - MedGPT在CSEDB测评中以总分0.895的成绩位列第一,领先第二名超过15个百分点[19][22] - 该模型是唯一在安全性评分上超过有效性的模型,安全性评分突破0.9,展现罕见的"谨慎"特质[22][24] - 在"致命药物相互作用"等权重为5的高风险场景中几乎全线达标,而其他通用大模型在这些维度得分普遍不足0.6[26] - 早在2023年与四川大学华西医院主治医师的临床实验中,就取得了与三甲医院主治医生96%一致性的结果[29] 技术实现与平台应用 - MedGPT采用三层认知系统技术架构,是全球第一个经验证具备临床诊疗能力的医疗大模型[53] - 基于MedGPT推出的"未来医生"平台实现L3级别人机协作,大部分标准化诊疗场景可授权AI处理,危急重场景由医生接管决策[38] - 平台每周有超过一万名医生交互,沉淀两万条诊疗反馈,推动模型每月准确率提升1.2%-1.5%,形成"反馈即迭代"的飞轮机制[31][32] - 已汇聚超过50位中华医学会主委级顶尖医学专家参与模型训练与人机协同方案设定[44] 行业影响与未来愿景 - 医疗AI从"模拟医生语言"向"参与临床级医生推理"质变跃迁,是行业不再纸上谈兵的关键标志[32] - 通过AI"复制医生"模式将稀缺临床经验变成可规模化能力,创造新的医疗资源而非简单搬运既有资源[34][45] - 研发理念聚焦"继绝学"和"开太平"两大目标,即复制顶尖医生能力并为绝症提供突破性治疗思路[48][49][50] - CSEDB标准将向全行业开放,任何机构都可基于此标准对自身模型进行评估与优化,推动行业走向成熟[54][55]
最后一周!人工智能年度榜单申报即将截止。
量子位· 2025-11-12 12:08
让我们共同见证年度之星,点亮未来的方向。 组委会 发自 凹非寺 量子位|公众号 QbitAI 「2025人工智能年度榜单」申报 已进入倒计时阶段。 今年是量子位 「2025人工智能年度榜单」评选报名 的 第8年。 八年来,我们见证了技术的突破与落地,产业的融合与重塑,也见证了一批 又一批推动时代前行的企业、人物与产品。 本次评选已经从 企业 、 产品 、 人物 三大维度,设立五类奖项。欢迎企业抓住最后时间,尽快报名! 企业榜 产品榜 人物榜 2025 人工智能年度 焦点人物 报名方式 本次评选将于 2025年11月17日 截止。评选结果将于量子位主办的 MEET2026智能未来大会 上正式公布。 扫描二维码即可报名评选: 网页端链接:https://wj.qq.com/s2/23740133/iso8/ 如对本次评选有其他疑问,请联系量子位工作人员。添加微信18801103170,或邮件发送至linyu@qbitai.com,并备注「评选-企业-姓 名」。 详细评选标准及报名方式如下。 2025 人工智能年度领航企业 将面向中国人工智能领域,评选出最具综合实力的企业, 参选条件 : 评选标准 : 2025 人 ...
阿里发了个简历AI神器,大小仅0.6B
量子位· 2025-11-12 12:08
阿里巴巴推出创新简历解析框架 - 阿里巴巴集团研究团队开发了一套基于布局感知的简历解析框架,旨在解决自动化简历解析的行业痛点[2][9] - 该框架在简历解析任务上的准确率逼近Claude-4等业界顶尖大模型,处理整份简历仅需1-2秒[3] - 该创新技术直击自动化简历解析的三大痛点:版面格式多样、大模型成本高昂及响应速度慢[4] 技术方案与核心创新 - 框架引入“布局感知解析器”,能识别简历整体结构,将不同区域分割成独立逻辑区块,并按人类阅读习惯重新排列,解决了布局混乱带来的解析难题[11][12] - 研究团队创新性地对一个仅有0.6B参数的小模型(Qwen3-0.6B)进行微调,而非使用庞大的百亿或千亿参数模型[15] - 通过专门构建的包含数万份简历的指令数据集对模型进行训练,使其学会精准提取关键信息[16] - 采用“并行任务分解”和“索引指针”机制,将提取任务拆分并行处理,并让模型返回文本“行号范围”以回填内容,大幅减少生成token数量,保证内容100%保真[17][18][19][20] 性能表现与效率 - 在RealResume数据集上,微调后的0.6B模型F1-score达到0.964,处理一份简历的平均耗时仅为1.54秒[20] - 该处理速度远快于Claude-4的4.62秒,实现了3-4倍的速度提升[20] - 在线上服务中,系统吞吐量可达每分钟240-300份简历,平均响应延迟低于2秒,10秒内成功解析率达到100%[22] 行业应用与部署现状 - 该技术框架已在阿里巴巴集团内部的HR系统中全面部署[21] - 该研究证明,通过创新的系统设计和模型优化,可以在不牺牲准确率的前提下,大幅降低大模型技术的使用门槛和成本[23]
华为刚投的物理AI:首家国产世界模型公司
量子位· 2025-11-12 12:08
华为投资动态 - 华为哈勃与华控基金联合投资物理AI公司极佳视界 完成亿元级A1轮融资[2] - 这是极佳视界两个月内连续完成的第三轮融资 也是华为哈勃首次投资主业定位为"世界模型"的公司[2][28] 极佳视界公司概况 - 公司成立于2023年 是国内第一家"纯血"物理AI公司 创业目标为世界模型[4] - 产品覆盖自动驾驶世界模型 具身基础模型到世界模型平台的全栈软硬件[4] - 应用落地领域包括自动驾驶和具身智能 与华为押注方向一致[4] 技术产品进展 - 2024年发布国内首个支持原生16秒超长时长视频生成模型"视界一粟YiSu"[5] - 2023年推出全球首个真实世界驱动的自动驾驶世界模型DriveDreamer[9] - 2024年DriveDreamer升级4D版本 联合多家研究机构实现4D驾驶场景重建效果增强[11] - DriveDreamer系列为自动驾驶和具身智能提供数据生成和闭环仿真解决方案 已签约多家头部主机厂 服务客户几十余家[12] 核心团队背景 - 创始人兼CEO黄冠为清华大学自动化系AI方向博士 拥有微软 三星 地平线等公司算法经历及连续创业经验[9] - 联合创始人兼首席科学家朱政论文被引数达1 7万+ h-index为50 其代表作SiamRPN和DaSiamRPN是深度学习时代最具影响力目标跟踪算法[15][16] - 另一位联合创始人孙韶言曾任阿里云总监 地平线数据闭环产品线总经理[17] - 合伙人兼工程副总裁毛继明曾任百度 嬴彻架构师 曾担任百度Apollo仿真技术负责人[18] 华为技术布局 - 华为在自动驾驶领域偏好世界模型而非VLA路径 强调从视觉直接到决策的端到端方式[21] - 华为智能汽车解决方案BU CEO靳玉志表示更看重WA路径 省掉Language环节直接通过视觉信息输入控车[22] - 华为与高校合作的世界模型研究还扩展到更大范围 如联合推出的WorldGrow可单卡30分钟生成272㎡室内场景[26] - 结合此前对具身智能公司千寻智能的投资 华为在空间智能和世界模型上的布局正在连点成线[28]
忍无可忍,LeCun离职!Meta市值应声蒸发1400亿
量子位· 2025-11-12 00:01
核心事件 - 图灵奖得主、Meta首席AI科学家Yann LeCun因对公司战略调整及内部管理不满而决定离职 [1][2][3] - 该消息导致Meta市值在盘前交易中蒸发1.5%,约200多亿美元(约1400多亿人民币),且开盘后持续下跌 [4] - LeCun离职后计划创业,专注于其长期倡导的"世界模型"架构 [2][24] Meta AI战略调整 - 公司AI战略频繁摇摆,6个月内对内部AI部门进行4次重组,导致研究无法推进 [10] - 为追赶谷歌和OpenAI,公司将战略重心转向大语言模型(LLM),LeCun领导了十多年的基础人工智能研究实验室FAIR被战略性放弃 [5][36] - 公司任命OpenAI前高级研究员赵晟佳为MSL超级智能实验室首席科学家,此举实质上架空了LeCun的内部领导地位 [13][14] - 公司大幅提高资本支出,2025年资本支出预期提高至700亿至720亿美元,远超市场预期 [29] 组织架构与权力变动 - Meta AI研发体系重组为四大部门:TBD实验室(负责人Alexandr Wang,专注高风险高回报创新及Llama系列开发)、产品与应用研究(负责人Nat Friedman,推动技术产品化)、基础设施(负责人Aparna Ramani,负责硬件及算力支持)、基础人工智能研究FAIR(负责人Robert Fergus,专注长期基础研究) [12] - LeCun需向28岁、高中学历的TBD实验室负责人Alexandr Wang汇报工作,地位显著下降 [15] - Alexandr Wang要求FAIR发表研究成果前必须经过TBD实验室审核,包括LeCun的论文也需其团队批准 [16] - 上个月在Alexandr Wang主导下,FAIR包括科学家总监田渊栋及其团队在内的600多人被成建制裁撤,田渊栋团队专攻的强化学习与规划技术是LeCun"世界模型"愿景的关键路径 [6][18][20] 理念与路线分歧 - LeCun是知名LLM怀疑论者,认为LLM仅是文本数据库而非真正理解物理世界,其创业公司将推进需要"十年"开发的"世界模型"长期架构 [24][25] - 公司当前战略全力押注LLM以实现产品快速追赶,与LeCun坚持的长期基础研究路线产生根本冲突 [25][36] - LeCun是AI开源运动旗帜人物,而TBD实验室正内部讨论将未来Llama版本转为闭源模式,与LeCun理念相悖 [26] - Meta的快车道战略选择牺牲基础科学和长期愿景,标志着公司长达十年的"学院派"研究黄金时代结束 [30][36][37] 历史背景 - LeCun于2013年受扎克伯格邀请加入,创建并领导FAIR实验室,该实验室享有极高独立性,以"大学式"特权推动基础科学研究和开源 [31][32][35] - 2018年LeCun获得图灵奖,标志着Meta在AI基础研究领域声望达到顶峰 [33]
6666!NuerIPS满分论文来了
量子位· 2025-11-11 19:11
文章核心观点 - 一篇来自清华大学和上海交通大学的研究论文在NeurIPS 2025上获得四位审稿人一致给出的满分6分,成为该会议唯一的满分论文[1] - 论文的核心结论挑战了行业普遍认知,指出真正决定大语言模型推理能力上限的是基座模型本身,而非强化学习训练方法[1] - 研究结果表明,知识蒸馏方法比强化学习更有潜力实现大模型能力的自我进化,这对当前主流的RLVR技术路线提出了重要质疑[1][12] 研究方法与实验设计 - 研究团队采用pass@k作为关键评估指标,该指标通过多轮采样揭示模型的真实推理边界,能更精准判断模型是否"有能力"解决问题[14][15] - 实验覆盖大语言模型推理能力的三大典型应用领域:数学推理、代码生成和视觉推理,并搭配GSM8K、MATH500、LiveCodeBench、MathVista等权威基准数据集[17] - 模型选择以主流大语言模型家族为基础,包括Qwen2.5系列和LLaMA-3.1等,构建了"基础模型vs RLVR训练模型"的多组平行对照[18] - 针对每个测试样本,让基础模型和RLVR模型进行不同次数的采样,k值从1逐步提升至1024,记录每次采样中"至少出现一个正确结果"的概率[20] 关键研究发现 - RLVR主要是在"强化"底模已有的推理路径,而不是"发现"底模没有的新路径[10] - RL训练后的模型在低采样次数下表现更好,但随着采样次数增加,底模反而能超过RL模型,说明底模隐藏的推理能力被低估了[10] - 多种RL算法在提升采样效率方面差异不大,且与"理论上底模最大能力"相比仍有明显差距[10] - 蒸馏方法更有可能"扩展"模型的推理能力范围,因为其接收来自教师模型的新推理模式,而RLVR更受限于底模[10] 研究团队背景 - 研究团队由8位研究人员组成,其中7位来自清华大学LeapLab,1位来自上海交通大学[24] - 项目负责人Yang Yue是清华大学自动化系四年级博士生,研究方向为强化学习、世界模型和多模态大模型[25] - 通讯作者Gao Huang是清华大学自动化系副教授、博士生导师,LeapLab负责人,以提出经典卷积架构模型DenseNet而闻名[31][32]
杨植麟回复:Kimi K2训练用的H800!但“只花了460万美元”嘛…
量子位· 2025-11-11 19:11
文章核心观点 - Kimi K2 Thinking模型以显著低于行业水平的训练成本(传闻约460万美元)实现了卓越性能,其开源策略和工程创新正在引发硅谷开发者和企业从闭源模型向该模型的迁移潮 [1][5][13][14] 训练成本与行业影响 - 传闻Kimi K2 Thinking训练成本约为460万美元,低于DeepSeek V3的约560万美元,但公司澄清此非官方数据,并指出训练成本因包含大量研究和实验而难以精确计算 [1][13] - 低成本高性能的开源模型引发市场对闭源巨头高估值的反思,并可能推动对月之暗面公司的价值重估 [14][15] 技术架构与工程创新 - 模型架构继承并优化了DeepSeek等开源成果,将MoE层专家数量从256个增至384个以扩大知识容量,同时将每次推理激活参数量从约370亿降至320亿以降低推理成本 [16] - 词汇表从129K扩大至160K,并减少了MoE前的密集前馈网络块,进一步优化计算效率 [16] - 采用自研MuonClip优化器,在15.5万亿token的训练过程中实现了零训练崩溃,无需人为干预重启 [18] - 采用量化感知训练方案,实现原生INT4精度推理,在提升推理速度约2倍的同时将性能损失降至最低 [21] 市场反响与性能表现 - 硅谷投资人Chamath Palihapitiya将其新公司AI负载迁移至Kimi K2,原因是其性能更强且价格便宜得多 [6] - 云端开发平台Vercel CEO内部测试显示,Kimi K2比闭源模型快5倍,准确率高50% [8] - Claude Code用户相互传授将模型切换为Kimi K2的设置方法 [9] 公司未来规划与产品路线 - 下一代K3模型可能采用实验性混合注意力机制KDA,在同等条件下性能优于采用RoPE的模型,且速度更快、效率更高 [24] - 将很快推出类似Claude Code的Kimi Code产品,视觉语言模型正在开发中 [27] - 承认K2 Thinking思考过程过长、效率较低,下一版会将简化思考过程写入奖励函数 [27] - 曾尝试1M上下文窗口但因服务成本过高而搁置,未来会重新考虑更长的上下文窗口 [27]