量子位
搜索文档
Qwen深度研究一夜升级!可生成网页和音频播客,新模型能认医生手写体
量子位· 2025-10-22 13:48
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI Qwen版深度研究加速进化,一觉起来增加了听觉和视觉输出: 可以生成网页和音频了。 AI深度研究整合的内容,变成图文并茂的网页,还可以一键部署,任何人可凭链接查看,方便对外展示。 与此前火爆的NoteBookLM相比,深度研究作为输入还省去了给AI提供内容的环节。 改进产品功能的同时,Qwen团队也在不断更新背后的模型。 最新版视觉语言模型Qwen3 VL 甚至可以识别地狱难度的医生手写体。 实测新版Qwen深度研究 加上OpenAI新出的ChatGPT Atlas,AI浏览器这个品类已经有不少产品出现了。 那么该如何挑选呢?这个活就非常适合让深度研究产品来干。 打开深度研究功能,默认会选择最强的Qwen3-Max模型。 它不会直接闷头就开干,而是先向用户确认具体意图。 长篇文字内容也可以变成音频播客,方便自己在碎片时间消化吸收。 得到确认以后,智能体会开始分布操作,总共耗时6分钟。 完成后会得到一份传统的AI文字回复,以及可下载的PDF文件。 | 特 Perplexity Comet | The Browser Company | OpenAI AI | ...
中国数学家再中数学四大刊,兰州大学首篇:突破斯托克斯方程“光滑性”限制
量子位· 2025-10-22 13:48
鱼羊 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 兰州大学刚出了篇数学四大刊! 作者是 兰州大学耿俊教授 和 西湖大学申仲伟教授 ,论文已经被 Inventiones mathematicae(《数学新进展》) 接收。 《数学年刊》、《数学学报》、《数学新进展》和《美国数学会杂志》并称为数学四大刊,是国际数学界公认的数学顶级期刊,每年中国研究 机构中选论文经常不超过10篇。 这项研究,围绕的是流体力学的重要基础之一:斯托克斯方程。 具体来说,是研究斯托克斯算子在非光滑区域里的无穷范数预解估计。 ——别慌,咱浅浅地做个简化翻译,大概意思就是,两位数学家想搞清楚,在边界不那么规则的空间里,比如自然河道而非光滑的管道中,流 体运动相关的数学方程解的范围和规律。 可以理解为,是为斯托克斯方程在相当广的范围内找到了更通用的数学规律。 这也是兰州大学首篇数学四大。 揭示斯托克斯方程在非光滑域内更普适规律 两位数学家瞄准的是流体力学理论里的一个关键缺口: 描述粘稠流体运动的斯托克斯方程,在非光滑边界空间里,流体的速度和压力还没有找到可靠的最大值约束规律。 $$\left\{\begin{array}{ll}-\D ...
阿里云秘密武器亮相顶会:狂砍82%英伟达含量,213块GPU干了1192块的活
量子位· 2025-10-22 07:50
文章核心观点 - 阿里云与北京大学合作研发出名为Aegaeon的新型GPU池化系统,该系统通过token级别的自动扩缩容等创新技术,显著提升了GPU资源利用率并大幅降低了需求 [1][2][3][5] - 该技术已在实际生产环境中得到验证,能够将GPU使用量削减82%,并将GPU利用率从最高33.9%提升至48.1%,同时实现吞吐量最高9倍的提升 [3][18][20] 技术背景与痛点 - 在阿里云Model Studio(百炼平台)上,17.7%的GPU被分配用于服务仅处理总请求量1.35%的冷门模型,资源利用率极低 [4] - 统计的779个模型中,94.1%属于长尾模型,平均每秒请求量不到0.2个,而热门模型也存在突发流量导致资源时而过载时而闲置的问题 [6][7] - 传统为每个模型分配专用GPU的做法在面对大量偶发性请求时资源浪费严重,存在超过10倍的优化空间 [7][9] Aegaeon系统核心技术 - 核心创新在于采用token级别的自动扩缩容技术,在生成每个token时动态决定是否切换模型,而非在请求级别进行调度 [10][11] - 通过一系列底层优化将自动扩缩容的开销降低了97%,包括组件复用减少80%初始化开销、显式内存管理避免碎片、细粒度KV缓存同步使模型切换时间缩短至1秒以内 [14][15] 性能表现与实际部署 - 与ServerlessLLM和MuxServe等现有系统相比,Aegaeon能支撑2-2.5倍的请求到达率,有效吞吐量提升1.5到9倍 [18] - 在16块H800 GPU的测试集群中,成功服务了从6B到72B参数规模的多个模型 [18] - 系统已在阿里云百炼平台进行超过3个月的生产环境测试,服务了47个不同规模的模型,期间无任何SLO违规或服务中断 [19][20] - 实际部署使GPU利用率从之前的13.3%-33.9%提升到了48.1% [20]
OpenAI首款ChatGPT浏览器发布!现在就能免费下载使用
量子位· 2025-10-22 07:50
产品发布与定位 - OpenAI正式发布首款AI原生浏览器ChatGPT Atlas,定位为“浏览+对话聊天+任务代理”一体化工具[1][11] - 该浏览器基于谷歌开源的Chromium内核打造,旨在成为用户上网的全新流量入口[7][11] - 目前优先向苹果Mac用户开放下载[9] 核心功能特性 - 每个标签页均整合ChatGPT聊天对话能力,用户可直接对当前网页内容提问,无需复制粘贴文本[3][12][13] - 具备浏览器上下文助手能力,可基于用户正在浏览的页面提供针对性回答,例如自动识别旅游攻略语境并生成行程规划[14] - 支持开启“浏览器记忆”功能,记录用户浏览历史与任务背景,后续交互无需重复交代上下文[5][15] - 提供“Cursor Chat”功能,允许用户选中文本后直接让ChatGPT进行编辑、润色或改写[5][18] - 推出Agent Mode智能体模式,可代理用户完成网页操作,如深度研究、比价、填写表单、购物下单等[5][20][21][22] 商业模式与战略意图 - Agent Mode目前仅向付费用户(Plus、Pro、Business)开放预览,成为OpenAI商业化路径之一[24] - 公司通过浏览器构建全新Agent生态,强化对流量入口和搜索模式的主导权,直接挑战谷歌Chrome的统治地位[32][34][35] - 浏览器有望重塑传统广告分发模式,推动OpenAI在对话式检索领域的商业变现[34][36] 行业影响与趋势 - 浏览器形态从“网页渲染工具”转向“智能助手+任务自动化”平台,标志AI从被动推荐迈向主动执行[38][39] - Agent Mode代表AI能力从提供建议升级为代用户操作,可能颠覆电商、旅游、金融等行业的服务接口模式[39][40] - 行业进入“Agentic时代”,AI原生应用将进一步重塑产品形态与用户交互方式[37][40]
AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架
量子位· 2025-10-22 07:50
MUSE框架核心创新 - 提出全新的智能体框架MUSE,旨在解决现有LLM智能体在处理现实世界长程任务时无法积累经验和持续自我进化的核心挑战[1] - 核心理念是为LLM智能体构建经验驱动、自我演化的闭环系统,通过测试时学习范式解决静态参数、无法进化、长程任务三大痛点[5] - 框架围绕分层记忆模块展开,实现规划→执行→反思→提取经验的四步闭环循环,使智能体性能随经验积累持续提高[13][15] 分层记忆模块设计 - 引入分层记忆模块作为大脑中枢,组织不同层级经验以解决传统LLM智能体缺乏长期记忆的问题[7] - Strategic Memory保存困境-策略对,全局加载到系统提示指导宏观行为范式[7] - Procedural Memory按应用→SOP索引→详细步骤三级组织,将成功子任务轨迹实时沉淀为自然语言标准作业程序[7] - Tool Memory包含静态描述和动态指令双组件,为每个基础工具提供肌肉记忆并在使用后立即更新[8] 自主反思机制 - 在每完成一个子任务后,智能体会自主对执行轨迹进行反思,评估任务成功或失败[10] - 将原始执行轨迹自动转化为结构化经验,成功时提炼高效操作序列作为新SOP[11] - 具备第二次机会机制,第一次尝试失败可重试一次,再次失败才触发重新规划[12] 实验性能表现 - 在专为长期生产力任务设计的TAC基准测试上取得SOTA性能,指标首次突破50%大关达到51.78%[16] - 仅使用轻量级Gemini-2.5 Flash模型就击败了使用更大模型Claude Sonnet 4的现有SOTA方法[16] - 面对重复任务时表现持续改进,展示出熟能生巧的能力[19] 泛化与迁移能力 - 积累的经验具备强大泛化特性,在全新未见任务上能实现零样本改进[21] - 经验可迁移性显著,将闭源模型经验迁移到开源模型DeepSeek-V3后,使其在一众开源模型中成为SOTA[22] - DeepSeek-V3使用MUSE带记忆框架后,检查点通过率从34.12%提升至50.59%[23] 实际应用演示 - 在模拟人类项目经理管理公司项目issue的演示中,MUSE能在包括GitLab、Plane在内的多个软件平台来回跳转操作,无需人类介入完成复杂任务[3] - 智能体可创建多人聊天群组,同时向三位同事询问信息,显著简化信息收集流程[24] - 能够跨越多个平台依次与同事沟通,执行超过100个步骤圆满完成复杂任务[26] 技术开源与未来方向 - MUSE的论文与代码已经完成开源[4] - 未来研究方向包括引入人类反馈和人类示范集成到记忆系统中,加速AI智能体学习效率[29] - 需要优化经验检索效率,确保新旧知识无缝整合,实现真正的终身持续学习[30] - 需创建更全面的长期任务评估基准,多维度考察智能体记忆保留能力、技能迁移能力和主动决策能力[31]
讯飞刚发的财报:净利润暴涨了202%
量子位· 2025-10-21 17:05
核心财务表现 - 第三季度营业收入为60.78亿元,同比增长10.02% [1][4] - 第三季度归母净利润达1.72亿元,同比大幅增长202.40%,实现扭亏为盈 [1][4] - 第三季度扣非净利润为2624万元,同比增长76.5% [4] - 前三季度累计营业收入为169.89亿元,同比增长14.41% [7][8] - 前三季度归母净利润虽为小幅亏损0.67亿元,但亏损额较上年同期大幅收窄80.6% [7][8] - 经营性现金流表现强劲,前三季度经营活动产生的现金流量净额为1.23亿元,同比大幅增长114.94% [7][10] AI大模型技术突破 - 公司基于全国产算力平台完成讯飞星火X1升级版的关键技术升级,算法、算力、数据等要素自主可控 [3][14] - 星火大模型在参数规模较小的情况下,于文本生成(准确率90.43)、数学能力(准确率90.16)等核心能力上表现优异,并在幻觉治理(幻觉率2.39)上大幅领先业界主流模型 [14][15] - 大模型底座能力支持130多个语种,并发布首个基于纯国产软硬件打造的星火东盟多语言大模型,推进国际化布局 [15] 商业化落地与生态建设 - AI大模型的技术突破与产业化落地成为拉动业绩修复的关键引擎 [2][13] - 第三季度大模型相关项目中标金额达5.45亿元,为行业第二至第五名总和的1.88倍,中标数量和金额在行业中排名第一 [16] - 前三季度大模型开发者新增69万人,生态开发者总量新增122万人,显示出产业生态的强劲吸引力 [17] - 公司计划通过定向增发融资不超过40亿元,资金将投向星火教育大模型及算力平台建设 [19] 盈利质量与运营效率 - 公司主营业务盈利能力展现,核心利润指标高增,成本控制与盈利效率提升 [5][9] - 非经常性损益为利润转正提供补充,报告期内非经常性损益达1.46亿元,主要来自政府补助(2.68亿元)与投资收益(6046万元) [11][12] - 毛利率保持稳定,前三季度毛利率为40.28%,与往年同期水平相当 [10]
Embedding黑箱成为历史!这个新框架让模型“先解释,再学Embedding”
量子位· 2025-10-21 17:05
UIUC团队 投稿 量子位 | 公众号 QbitAI 让模型先解释,再学Embedding! 来自UIUC、ANU、港科大、UW、TAMU等多所高校的研究人员,最新推出 可解释的生成式Embedding框架——GRACE 。 过去几年,文本表征 (Text Embedding) 模型经历了从BERT到E5、GTE、LLM2Vec,Qwen-Embedding等不断演进的浪潮。这些模型 将文本映射为向量空间,用于语义检索、聚类、问答匹配等任务。 简单来说, GRACE不再是"把文本压成向量",而是"让模型先解释,再学Embedding" —— 模型首先生成每个文本的"推理说明(rationale)",然后再将这些rationale编码成Embedding。奖励信号会鼓励模型产生更有逻辑、更语义 一致的推理。 方法总览:生成、表征、优化三位一体 概括而言,GRACE包含三个关键模块: 然而,大多数方法有一个共同缺陷: 它们把大语言模型当成"哑巴编码器"使用—— 输入文本,输出向量,却无法告诉我们为什么这两个文本相似 。 这种 "对比学习+池化" 的做法虽然有效,但本质上抛弃了大语言模型 (LLM) 的推理与生成能 ...
“最美产品经理”宋紫薇,创业AI硬件首款产品曝光
量子位· 2025-10-21 17:05
Jay 发自 凹非寺 量子位 | 公众号 QbitAI 前vivo「最美产品经理」宋紫薇,AI创业细节进一步曝光了。 量子位获悉,已经入局AI智能硬件赛道创业的宋紫薇,瞄准的是 「AI化妆镜」 。 「最美产品经理」入局AI创业 工商信息显示,9月,宋紫薇创业项目「薇光点亮」完成天使轮融资,股东包括:中科创星、九合创投。 官方口径,此次融资将主要用于公司AI硬件研发、应用软件开发及团队建设,加速技术创新与市场拓展。 公开信息显示, 薇 光点 亮 成立于2024年11月,自一开始便将目光瞄向了AI硬件——并且还是"时尚"和"年轻"的硬件。 我们是一家以AI Agent为核心的智能硬件创新企业,通过自研AI Agent硬件与垂类模型,深度融合生活中高频场景,为年轻用户打造围 绕时尚与审美的"Agent伙伴"。 此外,公司还在招APP客户端开发岗位,负责开发图像处理APP。 怎样形态的硬件才能称得上是时尚且年轻的呢?宋紫薇本人此前对产品细节守口如瓶。 但量子位听说,薇光点亮正在打造的首款产品方向是—— 「AI化妆镜」 。 公开招聘信息中,也能一定程度上有呼应。 招聘职位里,"影像产品经理"排在第一位,薪资待遇也最丰厚 ...
直击IROS现场:宇树禾赛自变量杭州论剑,美团C位攒局
量子位· 2025-10-21 13:41
美团机器人战略与落地 - 美团在IROS 2025机器人研究院学术年会上展示强大行业影响力,展厅被围得水泄不通[1][2] - 公司战略从"零售"升级为"零售+科技",零售是场景,科技是赋能[8] - 未来5到10年,具身智能是核心技术范式,美团关键词是无人化,旨在让技术驱动零售行业变革[10][11] - 构建从低空到地面的具身智能网络,无人机能送汉堡披萨,无人配送车能从北京跑到深圳[12][14] - 美团是全国唯一获得民航局许可在全国所有城市合法飞行的无人机,且晚上也能飞[13] - 只有当低空经济基础设施建设与真实零售场景深度结合,具身智能才能发挥全部潜能[15] 具身智能技术前沿 - 港大席宁教授提出GAT模型,让机器学习模型和解析模型彼此纠错循环迭代,保证稳定与可解释性[20][21][22] - 具身智能形态应是纯数据驱动和传统模型驱动二者的生成性博弈[23] - 提出非向量空间控制理论,在感知空间中直接控制,机器人行动不再依赖精确轨迹规划[24][27] - 提出感知控制框架,感知信息实时介入控制指令,实现"Planning and control in perceptive frame"[28][29] - 在底层理论探讨采样不足时仍有效控制,以压缩感知为例讨论低采样率下重构信息[30] - 人形机器人控制最新尝试显示机器人能学会执行Plan B,快速重置策略重新站稳[31] 机器人行业基础设施与硬件 - 禾赛创始人李一帆提出专注基础设施的路线,认为基础设施技术能解决创业中的根本性风险和不确定性[32][33][34] - 硬件开发存在质量、性能、成本的不可能三角,降本关键是自己掌握关键部件并优化设计[36][37] - 禾赛自2017年起逐年将核心技术自研化,每年投入数亿元确保产品性能与成本可控[38] - 在软硬不解耦环境下,中国创业者凭借强大供应链和制造能力有望快速抢占市场[40] - 机器人领域存在巨大创业机会,这有可能是未来20年最好的机会[41] 具身智能基础模型新范式 - 自变量机器人CEO王潜提出具身智能不是AI应用而是基础模型,且与大语言模型完全不同[42][44] - 物理世界基础模型平行于虚拟世界,完全独立于现有语言和多模态模型,需应对物理世界随机性[45][46] - 模型训练应以数据为中心而非单纯增加数据量,高质量真实数据比大量低质量模拟数据更有效[49][50] - 通才模型是未来通用机器人核心,能通过学物理规律以极少数据实现新任务快速适应[52] - 真正人工智能基点是物理基点,来源于物理世界的算力、能源和数据才能推动AGI发展[52] 具身智能第一性原理探讨 - 宇树CEO王兴兴认为目前关于智能第一性的认知尚未收敛,缺乏像牛顿力学的基本规律体系[58] - 浙大许超提出"牛顿加辛顿"模型,牛顿代表物理世界第一性原理,辛顿代表神经网络学习能力[60] - 星海图联创许华哲提出"三原论"——欲望、先验与经验,智能闭环应由这三者共同组成[62][68] - 清华赵明国强调具身智能需独立概念体系,不能只是大语言模型应用延伸[71][72] - 赵明国提出"3+1"智能系统模式,包含传感、处理推理、驱动执行三部分及信息能量流动机制[76][85] 软硬件协同与数据驱动 - 算法端希望硬件别太脆别太热别太容易坏,能与软件共同进化像生物系统一样协同[77][78] - 硬件方认为AI越强对硬件要求反而越低,但当前AI不够强因此对硬件稳定性灵活度要求仍高[79][81] - 软硬件关系是螺旋式迭代,硬件升级本质是软件逻辑跃迁,关键在于软硬一体融合设计[83][84] - 数据驱动覆盖面更广,可能催生新理论,但需要"好数据"而非"多数据",数据背后仍有理论支撑[86][87] - 人工智能"家谱"中爸爸是自动化,妈妈是计算机,叔叔是数学,需合二为一解决真实问题[91][92] 未来机器人理想形态 - 赵明国以机器人足球为理想形态,认为足球是机器人最完整训练场,是具身智能综合考场[96] - 许华哲希望机器人拥有自己好奇心,能自己造出自己,带着人类好奇心欲望与智慧探索宇宙[98][99] - 许超构想"汇聚之城",让机器人与人类在真实空间协同生活,并强调绿色智能重要性[101][102] - 王兴兴将具身智能和AGI联系,认为AGI是人类终极发明,可实现生产消费娱乐及星际探索[103] - 当前是年轻人最幸运时代,有机会真正定义智能,再早没算力再晚别人都做完了[104]
苹果AI选Mamba:Agent任务比Transformer更好
量子位· 2025-10-21 13:41
文章核心观点 - 苹果公司最新研究发现,在长任务、多交互的Agent场景中,基于状态空间模型(SSM)的Mamba模型,在结合外部工具后,其效率与泛化能力展现出超越Transformer架构的潜力 [1] Transformer架构的局限性 - Transformer依赖自注意力机制,计算量随输入序列长度增加呈平方级增长,例如处理1000个词需计算100万次词对关系,处理上万词的长文档计算量达亿级,对GPU造成较大负担 [3][4][5] - 高计算成本导致处理延迟显著增加,在需要动态决策与迭代优化的Agent任务中表现不佳,因每一步都需重新计算全局注意力,整体效率偏低 [12] - 在需要反复调整的Agent式任务中,Transformer显得又贵又笨重 [18] Mamba架构的优势与局限 - Mamba作为状态空间模型,不依赖全局注意力,通过持续更新的内部状态理解信息,计算量随序列长度仅呈线性增长,例如处理1000个词仅需对应数量级计算 [6][7][13] - Mamba支持流式处理,可边接收输入边计算,且内存占用稳定,不会随序列长度显著上升,效率突出 [13] - Mamba的局限在于内部状态存储容量有限,处理超长序列时早期信息易被后续输入覆盖,导致对前文关键信息保留能力较弱 [9] “Mamba+工具”方案的性能表现 - 苹果团队提出通过引入外部工具(如指针工具、文件查看工具、运行工具)来扩展Mamba的信息处理能力,相当于为模型提供可动态调用的外部存储和交互接口 [10][11] - 在多位数加法任务中,配备指针工具的Mamba经5位数训练后能稳定处理1000位数计算,准确率近100%,而Transformer处理20位数时已出现明显误差 [15] - 在代码调试任务中,Mamba模拟交互式调试流程,面对高于训练集复杂度的代码库,其正确率显著高于Transformer [15] - 在逻辑推理及汉诺塔等分步规划任务中,结合工具的Mamba能应对更复杂场景,Transformer则计算缓慢或卡壳 [15] - “Mamba+工具”组合补足了Mamba的记忆短板,在Agent场景下反应快且效率提升显著 [16]