量子位
搜索文档
OpenAI新模型GPT-5.1发布,不跑分不刷榜,主打一个说人话
量子位· 2025-11-13 08:49
模型升级概述 - ChatGPT突然更新模型直接升级为GPT-5.1主打更智能更具对话性[1] - GPT-5.1包括两个子模型GPT-5.1 Instant面向日常对话快速响应场景GPT-5.1 Thinking用于复杂推理深入问题场景[2] - 新模型本周内向所有用户免费开放首先提供给付费用户旧版本GPT-5继续向付费用户开放三个月后下架[3] 模型性能提升 - GPT-5.1 Instant作为最常用模型在保证实用性同时以更轻松有趣回答带来惊喜[4][5] - 对比GPT-5回答理性克制GPT-5.1 Instant更像温暖好友例如压力问题回复更人性化[6][7][8] - 新模型遵循指令能力更强例如严格用六字回复而GPT-5未遵守指令[12][13][14][15] - GPT-5.1 Instant首次运用自适应推理技术自主决定思考时机在快速响应同时给出更全面准确答案[17] - 在AIME 2025和Codeforces等数学编程测试中自适应推理技术体现更明显[18] 专业任务表现 - GPT-5.1 Thinking在典型任务中比GPT-5 Thinking快两倍慢任务多思考两倍时间[20][21] - 回答专业问题更清晰减少专业术语和未定义词汇使用例如解释BABIP和wRC+时用通俗比喻补充背景[24] - GPT-5.1 Instant和GPT-5.1 Thinking本周晚些时候引入API[26] 个性化功能增强 - 自定义ChatGPT语气风格更易用提供八种预先人设选项包括专业友好直言古怪高效讽刺书呆子等风格[27] - 用户可调整回复简洁程度亲切程度易读性及表情符号使用频率[27] - 测试功能让ChatGPT主动询问用户是否希望使用特定语气或风格无需用户设置[28] - 升级重点在模型能力和个性化设置两方面[29] 用户实测反馈 - 网友实测显示更个性GPT-5.1有趣例如高效型人格对吹牛获取10吨钋直接嘲讽[30][31][32] - 对离谱问题如卖便便冰棒先劝说后建议改为巧克力恶搞冰棒体现灵活应对[33][35]
小红书提出DeepEyesV2,从“看图思考”到“工具协同”,探索多模态智能新维度
量子位· 2025-11-13 08:49
核心观点 - DeepEyesV2是DeepEyes模型的重大升级版本,实现了从“会看细节”到“能主动解决复杂问题的智能体”的进化 [3] - 该模型突破性地实现了代码执行、网页搜索和图像操作的全工具协同,解决了传统多模态模型工具调用能力薄弱和多能力协同缺失的痛点 [3][4][5][8] - 通过“冷启动+强化学习”的两阶段训练策略,模型具备了自适应推理能力,能根据任务难度动态调整工具调用策略 [37][71][72] 多工具协同能力 - DeepEyesV2能够动态选择、组合和使用工具,包括生成可执行Python代码、进行网络搜索查询和图像操作 [23][24][26] - 模型采用“推理—工具—整合”的循环工作模式,直至得出准确答案,支持在单一轨迹中动态结合代码执行和搜索 [22][25][27] - 代码执行在沙箱环境中进行,产生结构化输出;图像查询通过SerpAPI提交,返回排名前五的视觉匹配网页 [24] 性能表现 - 在团队构建的RealX-Bench基准测试(包含300个真实场景问题)上,DeepEyesV2准确率远超开源模型 [41][45] - 在数学推理任务上,DeepEyesV2(71.9)相比Qwen2.5-VL-7B(68.3)提升3.6个百分点;在MathVerse上从45.6提升至52.7,提升7.1个百分点 [48] - 在搜索任务中,DeepEyesV2在MMSearch上达到63.7,相比Qwen2.5-VL-7B Search提升11.5个百分点 [49] 训练方法论 - 采用两阶段训练策略:阶段一为冷启动,使用感知类、推理类、搜索类和CoT数据打好基础;阶段二为强化学习,通过“准确率+格式规范”双奖励机制优化工具调用 [37][38][43] - 强化学习后模型工具调用率显著下降,从冷启动阶段的90%以上降至自适应水平,表明模型学会了“按需调用”工具 [66][67] - 最优数据组合为“感知+推理+CoT”,三类数据结合后模型在感知和推理测试集上均实现最优表现 [58] 技术突破 - DeepEyesV2通过强化学习自主获得了通过代码访问API的技能,而该行为在训练数据中并不存在 [19] - 模型展现出任务自适应的工具使用模式,对于真实世界感知任务偏向使用裁剪工具,数学推理任务主导使用数学计算,搜索任务主要使用搜索工具 [62][63] - 在复杂问题解决示例中,模型能依次调用图像搜索、文本搜索和代码执行API获取雅虎金融数据并进行计算 [15][16][17]
稚晖君最新188机器人,阅后即焚
量子位· 2025-11-13 08:49
文章核心观点 - 具身智能机器人领域市场热度极高,智元机器人通过非传统并购方式获得上纬新材控股权,引发后者股价在4个月内飙升1500% [1][3][25][30] - 智元机器人联合创始人稚晖君参与上纬新材董事会,公司公众号发布机器人相关图片后,上纬新材股价单日涨停,市场反应剧烈 [4][5][12] - 上纬新材原为新材料公司,收购后业务方向引发关注,但公司强调具身智能业务仍处开发阶段,尚未实现量产及规模化销售,对2025年业绩影响有限 [20][27][43][44] 收购事件概述 - 智元机器人通过协议转让加要约收购组合方式,以总成本约21亿元获得上纬新材63.62%股权,实现绝对控股 [28][38][39] - 收购过程历时四个月,包括7月8日公布计划、9月22日协议转让完成、11月6日要约收购股份交割完成 [28][34][36][39] - 收购后上纬新材董事会改组,智元机器人CEO邓泰华成为实际控制人,稚晖君成为董事候选人 [31][40][41] 市场反应与股价表现 - 上纬新材股价从7月的7元上涨至11月11日的130元,累计涨幅达1500% [3][25] - 7月9日至7月30日期间股价累计涨幅1083.42%,成为2025年A股市场首只十倍股 [35] - 11月11日公司公众号发布机器人图片后,股价直线拉升涨停,但文章随后被删除 [5][12][15][16] 业务定位与现状 - 上纬新材原主营业务为环保高性能耐腐蚀材料、风电叶片用材料、新型复合材料等,业务架构未发生实质性变化 [33][43] - 智元机器人已推出远征、精灵、灵犀三大机器人产品线,覆盖交互服务、工业智造等商用场景 [32] - 上纬新材涉足具身智能机器人业务仍处于开发阶段,未形成营收和利润,与智元机器人独立开展业务 [20][27][44]
比0.99元羊毛更重要的,是跟AI砍价的快乐
量子位· 2025-11-12 20:07
营销活动与用户参与 - 公司推出限时营销活动,用户可通过特定话术与AI互动将Kimi Agent会员价格从49元/月砍至0.99元/月 [1] - 活动时间为双十一当天至当月25日24:00,仅限新用户享受0.99元首月优惠,老用户通过分享链接给新用户并完成支付可额外获得一个月会员权限 [18] - 用户参与砍价活动的积极性高,通过多种创意Prompt(如夸赞、古风对话、卖惨、威胁、角色扮演等)与AI互动,成功获得优惠后成就感显著 [2][4][6][8][11][12][21] 产品技术特性 - 此次砍价活动背后的AI模型为Kimi K2 Thinking,该模型在推理和Agent任务方面能力突出 [22] - 模型交互体验被用户评价为具有强烈的“活人感”,互动过程生动拟人,部分用户反馈产生对面是真实存在的错觉 [23][24] 市场反应与用户行为 - 该营销策略在社交媒体(如小红书)引发广泛分享,用户积极交流砍价成功经验与话术技巧 [1][15] - 活动有效吸引了用户深度体验产品,部分用户表示此方式避免了去其他平台购买额外服务次数,提升了产品黏性 [20] - 活动存在时效性,早期有效的Prompt注入方法后期已失效,表明公司可能对互动规则进行了动态调整 [25]
孙正义再次清仓英伟达!上一次教训“价值2500亿美元”
量子位· 2025-11-12 16:01
软银清仓英伟达 - 软银在第二季度结束后清仓了所持有的3210万股英伟达股份,套现58.3亿美元(约合人民币415亿元)[2][3] - 此次清仓正值英伟达市值突破历史性的5万亿美元大关之际[5] 资金投向OpenAI - 清仓英伟达所获资金将用于对OpenAI的追加投资[7][8][9] - 软银与OpenAI签订协议,承诺最高追加投资400亿美元,实际投资额预计为300亿美元[11] - 首次100亿美元投资已于今年4月完成,其中软银愿景基金二期出资75亿美元[11] - 软银计划通过愿景基金二期继续出资225亿美元,部分资金来自此次英伟达股票出售[11][12] 战略转向AI软件与模型 - 行业分析认为软银正在将投资重点从AI硬件转向应用交互层[14][15] - 公司认为AI领域更大的机遇在于软件和模型层面,而非硬件[16] - 软银即将进行的主要投资包括:对OpenAI的后续投资(计划于2025年12月)、65亿美元收购Ampere(计划于2025年底前完成)、54亿美元收购ABB机器人业务(计划于2026年中后期完成)以及投资Stargate项目[17] OpenAI上市计划 - 软银批准对OpenAI剩余225亿美元投资的条件是OpenAI在年底前完成重组,为上市铺平道路[19] - OpenAI已于上月底完成资本结构重组,IPO指日可待[20] - 一旦OpenAI顺利上市,软银的投资将从多个层面获得回报[21] 历史清仓记录与教训 - 软银曾在2017年以40亿美元买入英伟达近5%股份,但在2019年套现36亿美元清空全部持股[23][24][25] - 若2019年清仓的股票持有至今,价值约为2500亿美元[28] - 英伟达CEO黄仁勋曾公开表示软银错失了巨额投资回报[26][27] 孙正义投资风格 - 高风险、高回报、大手笔是孙正义最鲜明的投资标签[32] - 典型成功案例包括2000年互联网泡沫时期投资阿里巴巴2000万美元,最终价值1500亿美元[33] - 其他代表性投资还包括Uber、WeWork等明星企业[33]
硅谷热议:最快语音转文字模型
量子位· 2025-11-12 16:01
产品发布与性能突破 - AI语音独角兽公司ElevenLabs发布了Scribe v2 Realtime实时语音转文本模型,被网友评价为“Next-Level” [3] - 该模型实现了150毫秒的超低延迟,其速度之快相当于人类眨眼一次的平均时长(100-400毫秒) [4][5] - 模型在FLEURS基准测试中对前30种常用语言的准确率达到93.5%,表现突出 [4][7] - 模型支持90多种语言,覆盖从主流到小众的语种,并支持PCM(8-48kHz)、μ-law编码等多种音频格式 [4][10] - 产品具备语音活动检测和手动提交控制功能,便于实现定制化的音频流处理和更高精度的微调 [10] - 即使在嘈杂环境、方言或包含专业术语的对话中,模型也能精准抓取关键词,甚至能辨别笑声类型 [9] - 实际测试显示,该模型对中文某些生活化表达(如“五月单五”)的识别尚不完美,但整体准确率较高 [12] 行业技术演进与痛点 - 实时语音转文本赛道早期以传统统计模型为主,存在识别准确率低、背景噪音下错误率常超30%、延迟普遍在1秒以上的痛点 [13] - 深度学习技术应用后,模型准确率有所提升,但多语言支持能力薄弱,主流模型仅覆盖20-30种语言,对小众语言或复杂口音适配性差 [13] - 行业长期存在“速度与精度不可兼得”的困境,直至Transformer架构在语音领域应用后才逐步缓解 [14] - Scribe v2 Realtime实现了毫秒级延迟与90%以上准确率的突破,成为该赛道新的技术天花板 [15][25] 公司背景与商业成就 - ElevenLabs成立于2022年,是一家聚焦AI语音技术的科技企业,创始团队包括前谷歌机器学习工程师与前Palantir策略师 [18][19] - 公司成立后商业进展迅速,仅用20个月营收突破1亿美元,随后10个月内进一步增长至2亿美元 [21] - 公司在2025年1月完成1.8亿美元C轮融资后,估值达到33亿美元 [22] - 公司创立之初即坚定押注语音方向,目前拥有全球Top 100的AI语音方向研究员 [23] - 公司采用灵活的组织架构,将250人团队视为20个5-10人的小团队,内部不设头衔,鼓励任何人成为关键决策者 [23] - 公司此前推出的Eleven v3文本转语音模型因支持70多种语言及自然生动的表现力已获好评 [24]
罗福莉C位亮相小米,离职DeepSeek后首次官宣
量子位· 2025-11-12 16:01
罗福莉加入小米事件 - 罗福莉正式官宣加入小米,出任MiMo团队负责人 [1][7] - 该传闻始于2024年底,称雷军以千万年薪挖角DeepSeek核心开发者罗福莉 [4][10] - 2024年12月,小米AI团队论文作者栏已出现罗福莉名字,但当时身份为“独立研究者” [11] 罗福莉背景与影响力 - 罗福莉拥有北京师范大学计算机本科和北京大学计算语言学硕士背景,曾在阿里巴巴达摩院和DeepSeek任职 [15][17] - 其学术论文总引用次数超过11,000次,仅2024年一年内就新增约8,000次引用 [18] - 她参与了DeepSeek-V2等模型的研发,其名字也出现在DeepSeek最新的Nature封面论文中 [17][19] 小米的AI战略方向 - 在汽车业务步入正轨后,小米宣布将全力进军AI深水区 [9] - 2024年12月26日,媒体曝出小米正在组建GPU万卡集群 [6] - 雷军在跨年直播中公开披露了小米在AI方面的野心 [8] MiMo团队与空间智能技术 - 罗福莉领导的MiMo团队是小米推进大模型研发的核心招牌,目标指向空间智能 [23] - 空间智能旨在从语言世界走向物理世界,具备感知、推理、生成与行动的能力,是实现通用人工智能的关键一步 [3][23] - 该技术理念与小米拥有的“人、车、家全生态”场景天然适配 [25]
医疗AI质变时刻来临!国产医疗AI率先突破,临床诊疗能力问鼎全球
量子位· 2025-11-12 12:08
医疗AI临床能力的现状与挑战 - 通用大模型在标准化医学考试中表现优异,但在真实临床场景中暴露出推理幻觉、诊断不当、治疗方案欠妥等问题[2] - 现实医疗实践是高度个体化、动态演变的复杂系统,容错率极低,与标准化考试的固定答案模式存在巨大落差[2] - OpenAI已更新政策,禁止ChatGPT在解读医学影像、协助医疗诊断等高价值应用领域提供服务,反映行业对介入严肃领域的审慎态度[2] 临床适用性新标准CSEDB - 由32位来自北京协和医院等23家医院的一线临床专家共同制定全球首个评估医疗AI临床适用性的"临床安全-有效性双轨基准"[10] - 新标准打破"标准问-标准答"静态模式,构建2069个开放式问答条目,覆盖26个临床专科,高度贴近真实病例推演[12] - 首次引入风险分级机制,按临床风险等级进行1-5分加权打分,5分代表"潜在致命后果",将模型评分与实际医疗后果直接绑定[14][15] - 评估维度涵盖危急重症状识别、药物剂量计算错误等30项核心指标,全面对照真实临床工作的判断难题与决策压力[11] 中国模型MedGPT的卓越表现 - MedGPT在CSEDB测评中以总分0.895的成绩位列第一,领先第二名超过15个百分点[19][22] - 该模型是唯一在安全性评分上超过有效性的模型,安全性评分突破0.9,展现罕见的"谨慎"特质[22][24] - 在"致命药物相互作用"等权重为5的高风险场景中几乎全线达标,而其他通用大模型在这些维度得分普遍不足0.6[26] - 早在2023年与四川大学华西医院主治医师的临床实验中,就取得了与三甲医院主治医生96%一致性的结果[29] 技术实现与平台应用 - MedGPT采用三层认知系统技术架构,是全球第一个经验证具备临床诊疗能力的医疗大模型[53] - 基于MedGPT推出的"未来医生"平台实现L3级别人机协作,大部分标准化诊疗场景可授权AI处理,危急重场景由医生接管决策[38] - 平台每周有超过一万名医生交互,沉淀两万条诊疗反馈,推动模型每月准确率提升1.2%-1.5%,形成"反馈即迭代"的飞轮机制[31][32] - 已汇聚超过50位中华医学会主委级顶尖医学专家参与模型训练与人机协同方案设定[44] 行业影响与未来愿景 - 医疗AI从"模拟医生语言"向"参与临床级医生推理"质变跃迁,是行业不再纸上谈兵的关键标志[32] - 通过AI"复制医生"模式将稀缺临床经验变成可规模化能力,创造新的医疗资源而非简单搬运既有资源[34][45] - 研发理念聚焦"继绝学"和"开太平"两大目标,即复制顶尖医生能力并为绝症提供突破性治疗思路[48][49][50] - CSEDB标准将向全行业开放,任何机构都可基于此标准对自身模型进行评估与优化,推动行业走向成熟[54][55]
最后一周!人工智能年度榜单申报即将截止。
量子位· 2025-11-12 12:08
让我们共同见证年度之星,点亮未来的方向。 组委会 发自 凹非寺 量子位|公众号 QbitAI 「2025人工智能年度榜单」申报 已进入倒计时阶段。 今年是量子位 「2025人工智能年度榜单」评选报名 的 第8年。 八年来,我们见证了技术的突破与落地,产业的融合与重塑,也见证了一批 又一批推动时代前行的企业、人物与产品。 本次评选已经从 企业 、 产品 、 人物 三大维度,设立五类奖项。欢迎企业抓住最后时间,尽快报名! 企业榜 产品榜 人物榜 2025 人工智能年度 焦点人物 报名方式 本次评选将于 2025年11月17日 截止。评选结果将于量子位主办的 MEET2026智能未来大会 上正式公布。 扫描二维码即可报名评选: 网页端链接:https://wj.qq.com/s2/23740133/iso8/ 如对本次评选有其他疑问,请联系量子位工作人员。添加微信18801103170,或邮件发送至linyu@qbitai.com,并备注「评选-企业-姓 名」。 详细评选标准及报名方式如下。 2025 人工智能年度领航企业 将面向中国人工智能领域,评选出最具综合实力的企业, 参选条件 : 评选标准 : 2025 人 ...
阿里发了个简历AI神器,大小仅0.6B
量子位· 2025-11-12 12:08
阿里巴巴推出创新简历解析框架 - 阿里巴巴集团研究团队开发了一套基于布局感知的简历解析框架,旨在解决自动化简历解析的行业痛点[2][9] - 该框架在简历解析任务上的准确率逼近Claude-4等业界顶尖大模型,处理整份简历仅需1-2秒[3] - 该创新技术直击自动化简历解析的三大痛点:版面格式多样、大模型成本高昂及响应速度慢[4] 技术方案与核心创新 - 框架引入“布局感知解析器”,能识别简历整体结构,将不同区域分割成独立逻辑区块,并按人类阅读习惯重新排列,解决了布局混乱带来的解析难题[11][12] - 研究团队创新性地对一个仅有0.6B参数的小模型(Qwen3-0.6B)进行微调,而非使用庞大的百亿或千亿参数模型[15] - 通过专门构建的包含数万份简历的指令数据集对模型进行训练,使其学会精准提取关键信息[16] - 采用“并行任务分解”和“索引指针”机制,将提取任务拆分并行处理,并让模型返回文本“行号范围”以回填内容,大幅减少生成token数量,保证内容100%保真[17][18][19][20] 性能表现与效率 - 在RealResume数据集上,微调后的0.6B模型F1-score达到0.964,处理一份简历的平均耗时仅为1.54秒[20] - 该处理速度远快于Claude-4的4.62秒,实现了3-4倍的速度提升[20] - 在线上服务中,系统吞吐量可达每分钟240-300份简历,平均响应延迟低于2秒,10秒内成功解析率达到100%[22] 行业应用与部署现状 - 该技术框架已在阿里巴巴集团内部的HR系统中全面部署[21] - 该研究证明,通过创新的系统设计和模型优化,可以在不牺牲准确率的前提下,大幅降低大模型技术的使用门槛和成本[23]