量子位
搜索文档
OpenAI首款ChatGPT浏览器发布!现在就能免费下载使用
量子位· 2025-10-22 07:50
产品发布与定位 - OpenAI正式发布首款AI原生浏览器ChatGPT Atlas,定位为“浏览+对话聊天+任务代理”一体化工具[1][11] - 该浏览器基于谷歌开源的Chromium内核打造,旨在成为用户上网的全新流量入口[7][11] - 目前优先向苹果Mac用户开放下载[9] 核心功能特性 - 每个标签页均整合ChatGPT聊天对话能力,用户可直接对当前网页内容提问,无需复制粘贴文本[3][12][13] - 具备浏览器上下文助手能力,可基于用户正在浏览的页面提供针对性回答,例如自动识别旅游攻略语境并生成行程规划[14] - 支持开启“浏览器记忆”功能,记录用户浏览历史与任务背景,后续交互无需重复交代上下文[5][15] - 提供“Cursor Chat”功能,允许用户选中文本后直接让ChatGPT进行编辑、润色或改写[5][18] - 推出Agent Mode智能体模式,可代理用户完成网页操作,如深度研究、比价、填写表单、购物下单等[5][20][21][22] 商业模式与战略意图 - Agent Mode目前仅向付费用户(Plus、Pro、Business)开放预览,成为OpenAI商业化路径之一[24] - 公司通过浏览器构建全新Agent生态,强化对流量入口和搜索模式的主导权,直接挑战谷歌Chrome的统治地位[32][34][35] - 浏览器有望重塑传统广告分发模式,推动OpenAI在对话式检索领域的商业变现[34][36] 行业影响与趋势 - 浏览器形态从“网页渲染工具”转向“智能助手+任务自动化”平台,标志AI从被动推荐迈向主动执行[38][39] - Agent Mode代表AI能力从提供建议升级为代用户操作,可能颠覆电商、旅游、金融等行业的服务接口模式[39][40] - 行业进入“Agentic时代”,AI原生应用将进一步重塑产品形态与用户交互方式[37][40]
AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架
量子位· 2025-10-22 07:50
MUSE框架核心创新 - 提出全新的智能体框架MUSE,旨在解决现有LLM智能体在处理现实世界长程任务时无法积累经验和持续自我进化的核心挑战[1] - 核心理念是为LLM智能体构建经验驱动、自我演化的闭环系统,通过测试时学习范式解决静态参数、无法进化、长程任务三大痛点[5] - 框架围绕分层记忆模块展开,实现规划→执行→反思→提取经验的四步闭环循环,使智能体性能随经验积累持续提高[13][15] 分层记忆模块设计 - 引入分层记忆模块作为大脑中枢,组织不同层级经验以解决传统LLM智能体缺乏长期记忆的问题[7] - Strategic Memory保存困境-策略对,全局加载到系统提示指导宏观行为范式[7] - Procedural Memory按应用→SOP索引→详细步骤三级组织,将成功子任务轨迹实时沉淀为自然语言标准作业程序[7] - Tool Memory包含静态描述和动态指令双组件,为每个基础工具提供肌肉记忆并在使用后立即更新[8] 自主反思机制 - 在每完成一个子任务后,智能体会自主对执行轨迹进行反思,评估任务成功或失败[10] - 将原始执行轨迹自动转化为结构化经验,成功时提炼高效操作序列作为新SOP[11] - 具备第二次机会机制,第一次尝试失败可重试一次,再次失败才触发重新规划[12] 实验性能表现 - 在专为长期生产力任务设计的TAC基准测试上取得SOTA性能,指标首次突破50%大关达到51.78%[16] - 仅使用轻量级Gemini-2.5 Flash模型就击败了使用更大模型Claude Sonnet 4的现有SOTA方法[16] - 面对重复任务时表现持续改进,展示出熟能生巧的能力[19] 泛化与迁移能力 - 积累的经验具备强大泛化特性,在全新未见任务上能实现零样本改进[21] - 经验可迁移性显著,将闭源模型经验迁移到开源模型DeepSeek-V3后,使其在一众开源模型中成为SOTA[22] - DeepSeek-V3使用MUSE带记忆框架后,检查点通过率从34.12%提升至50.59%[23] 实际应用演示 - 在模拟人类项目经理管理公司项目issue的演示中,MUSE能在包括GitLab、Plane在内的多个软件平台来回跳转操作,无需人类介入完成复杂任务[3] - 智能体可创建多人聊天群组,同时向三位同事询问信息,显著简化信息收集流程[24] - 能够跨越多个平台依次与同事沟通,执行超过100个步骤圆满完成复杂任务[26] 技术开源与未来方向 - MUSE的论文与代码已经完成开源[4] - 未来研究方向包括引入人类反馈和人类示范集成到记忆系统中,加速AI智能体学习效率[29] - 需要优化经验检索效率,确保新旧知识无缝整合,实现真正的终身持续学习[30] - 需创建更全面的长期任务评估基准,多维度考察智能体记忆保留能力、技能迁移能力和主动决策能力[31]
讯飞刚发的财报:净利润暴涨了202%
量子位· 2025-10-21 17:05
核心财务表现 - 第三季度营业收入为60.78亿元,同比增长10.02% [1][4] - 第三季度归母净利润达1.72亿元,同比大幅增长202.40%,实现扭亏为盈 [1][4] - 第三季度扣非净利润为2624万元,同比增长76.5% [4] - 前三季度累计营业收入为169.89亿元,同比增长14.41% [7][8] - 前三季度归母净利润虽为小幅亏损0.67亿元,但亏损额较上年同期大幅收窄80.6% [7][8] - 经营性现金流表现强劲,前三季度经营活动产生的现金流量净额为1.23亿元,同比大幅增长114.94% [7][10] AI大模型技术突破 - 公司基于全国产算力平台完成讯飞星火X1升级版的关键技术升级,算法、算力、数据等要素自主可控 [3][14] - 星火大模型在参数规模较小的情况下,于文本生成(准确率90.43)、数学能力(准确率90.16)等核心能力上表现优异,并在幻觉治理(幻觉率2.39)上大幅领先业界主流模型 [14][15] - 大模型底座能力支持130多个语种,并发布首个基于纯国产软硬件打造的星火东盟多语言大模型,推进国际化布局 [15] 商业化落地与生态建设 - AI大模型的技术突破与产业化落地成为拉动业绩修复的关键引擎 [2][13] - 第三季度大模型相关项目中标金额达5.45亿元,为行业第二至第五名总和的1.88倍,中标数量和金额在行业中排名第一 [16] - 前三季度大模型开发者新增69万人,生态开发者总量新增122万人,显示出产业生态的强劲吸引力 [17] - 公司计划通过定向增发融资不超过40亿元,资金将投向星火教育大模型及算力平台建设 [19] 盈利质量与运营效率 - 公司主营业务盈利能力展现,核心利润指标高增,成本控制与盈利效率提升 [5][9] - 非经常性损益为利润转正提供补充,报告期内非经常性损益达1.46亿元,主要来自政府补助(2.68亿元)与投资收益(6046万元) [11][12] - 毛利率保持稳定,前三季度毛利率为40.28%,与往年同期水平相当 [10]
Embedding黑箱成为历史!这个新框架让模型“先解释,再学Embedding”
量子位· 2025-10-21 17:05
文章核心观点 - GRACE框架是一种创新的可解释生成式Embedding框架,其核心思想是“让模型先解释,再学Embedding”,将对比学习信号从惩罚式损失转变为奖励信号,通过强化学习驱动模型生成解释性推理链后再进行表征学习 [1][6][7] - 该方法解决了传统文本表征模型将大语言模型视为“哑巴编码器”的黑箱缺陷,使得Embedding过程从纯粹统计结果转变为可审查的透明表征,在保持甚至提升性能的同时获得了高可解释性 [4][5][27] - 在MTEB基准测试的56个数据集上,GRACE在多个骨干模型上均实现了性能全面提升,特别是在检索、配对分类和聚类任务上表现显著领先,且未损害模型原有的通用任务能力 [20][22][23] 技术框架与方法 - GRACE框架包含三个核心模块:生成式思维链模块首先生成输入文本的解释性推理链;可解释表征模块将“输入+推理链”拼接后通过Masked Mean Pooling得到Embedding;奖励驱动学习模块将对比学习目标重新定义为奖励函数进行强化学习优化 [8][9][11] - 训练流程采用有监督与无监督统一的框架,有监督阶段基于包含150万样本的E5训练集学习语义关系,无监督阶段借鉴SimCSE思路对同一文本生成多个推理链作为正样本,该双模式设计使GRACE可适配任何预训练大语言模型而无需大规模新标注数据 [12][13][17][18] - 奖励函数设计包含三个关键部分:对比奖励用于提升查询与正样本相似度并惩罚负样本;一致性奖励确保不同生成的推理链保持相似性以防止不稳定;困难负样本奖励重点区分最容易混淆的负样本 [16] 性能表现与实验结果 - 在MTEB全套56个数据集的综合评测中,GRACE在平均得分上全面超越所有基线模型,以Qwen3-4B模型为例,GRACE版本平均得分达51.03,显著高于基线模型的45.49和SimCSE增强版的50.11,在检索任务上从37.42提升至43.67,重排序任务从48.16提升至52.34 [22] - 对通用领域任务的测试表明GRACE避免了传统对比学习导致的灾难性遗忘问题,Qwen3-4B模型在GRACE监督训练下通用任务平均性能从60.73提升至61.13,而非GRACE的对比学习训练则导致性能暴跌至8.51,差异达52.22 [23][24] - 实验覆盖了四类主流大语言模型骨干网络,包括Qwen2.5-1.5B/3B、LLaMA-3.2-3B和Qwen3-4B,GRACE在所有模型上都表现出稳定的性能提升和可解释性优势,验证了框架的普适性 [21][22]
“最美产品经理”宋紫薇,创业AI硬件首款产品曝光
量子位· 2025-10-21 17:05
Jay 发自 凹非寺 量子位 | 公众号 QbitAI 前vivo「最美产品经理」宋紫薇,AI创业细节进一步曝光了。 量子位获悉,已经入局AI智能硬件赛道创业的宋紫薇,瞄准的是 「AI化妆镜」 。 「最美产品经理」入局AI创业 工商信息显示,9月,宋紫薇创业项目「薇光点亮」完成天使轮融资,股东包括:中科创星、九合创投。 官方口径,此次融资将主要用于公司AI硬件研发、应用软件开发及团队建设,加速技术创新与市场拓展。 公开信息显示, 薇 光点 亮 成立于2024年11月,自一开始便将目光瞄向了AI硬件——并且还是"时尚"和"年轻"的硬件。 我们是一家以AI Agent为核心的智能硬件创新企业,通过自研AI Agent硬件与垂类模型,深度融合生活中高频场景,为年轻用户打造围 绕时尚与审美的"Agent伙伴"。 此外,公司还在招APP客户端开发岗位,负责开发图像处理APP。 怎样形态的硬件才能称得上是时尚且年轻的呢?宋紫薇本人此前对产品细节守口如瓶。 但量子位听说,薇光点亮正在打造的首款产品方向是—— 「AI化妆镜」 。 公开招聘信息中,也能一定程度上有呼应。 招聘职位里,"影像产品经理"排在第一位,薪资待遇也最丰厚 ...
直击IROS现场:宇树禾赛自变量杭州论剑,美团C位攒局
量子位· 2025-10-21 13:41
美团机器人战略与落地 - 美团在IROS 2025机器人研究院学术年会上展示强大行业影响力,展厅被围得水泄不通[1][2] - 公司战略从"零售"升级为"零售+科技",零售是场景,科技是赋能[8] - 未来5到10年,具身智能是核心技术范式,美团关键词是无人化,旨在让技术驱动零售行业变革[10][11] - 构建从低空到地面的具身智能网络,无人机能送汉堡披萨,无人配送车能从北京跑到深圳[12][14] - 美团是全国唯一获得民航局许可在全国所有城市合法飞行的无人机,且晚上也能飞[13] - 只有当低空经济基础设施建设与真实零售场景深度结合,具身智能才能发挥全部潜能[15] 具身智能技术前沿 - 港大席宁教授提出GAT模型,让机器学习模型和解析模型彼此纠错循环迭代,保证稳定与可解释性[20][21][22] - 具身智能形态应是纯数据驱动和传统模型驱动二者的生成性博弈[23] - 提出非向量空间控制理论,在感知空间中直接控制,机器人行动不再依赖精确轨迹规划[24][27] - 提出感知控制框架,感知信息实时介入控制指令,实现"Planning and control in perceptive frame"[28][29] - 在底层理论探讨采样不足时仍有效控制,以压缩感知为例讨论低采样率下重构信息[30] - 人形机器人控制最新尝试显示机器人能学会执行Plan B,快速重置策略重新站稳[31] 机器人行业基础设施与硬件 - 禾赛创始人李一帆提出专注基础设施的路线,认为基础设施技术能解决创业中的根本性风险和不确定性[32][33][34] - 硬件开发存在质量、性能、成本的不可能三角,降本关键是自己掌握关键部件并优化设计[36][37] - 禾赛自2017年起逐年将核心技术自研化,每年投入数亿元确保产品性能与成本可控[38] - 在软硬不解耦环境下,中国创业者凭借强大供应链和制造能力有望快速抢占市场[40] - 机器人领域存在巨大创业机会,这有可能是未来20年最好的机会[41] 具身智能基础模型新范式 - 自变量机器人CEO王潜提出具身智能不是AI应用而是基础模型,且与大语言模型完全不同[42][44] - 物理世界基础模型平行于虚拟世界,完全独立于现有语言和多模态模型,需应对物理世界随机性[45][46] - 模型训练应以数据为中心而非单纯增加数据量,高质量真实数据比大量低质量模拟数据更有效[49][50] - 通才模型是未来通用机器人核心,能通过学物理规律以极少数据实现新任务快速适应[52] - 真正人工智能基点是物理基点,来源于物理世界的算力、能源和数据才能推动AGI发展[52] 具身智能第一性原理探讨 - 宇树CEO王兴兴认为目前关于智能第一性的认知尚未收敛,缺乏像牛顿力学的基本规律体系[58] - 浙大许超提出"牛顿加辛顿"模型,牛顿代表物理世界第一性原理,辛顿代表神经网络学习能力[60] - 星海图联创许华哲提出"三原论"——欲望、先验与经验,智能闭环应由这三者共同组成[62][68] - 清华赵明国强调具身智能需独立概念体系,不能只是大语言模型应用延伸[71][72] - 赵明国提出"3+1"智能系统模式,包含传感、处理推理、驱动执行三部分及信息能量流动机制[76][85] 软硬件协同与数据驱动 - 算法端希望硬件别太脆别太热别太容易坏,能与软件共同进化像生物系统一样协同[77][78] - 硬件方认为AI越强对硬件要求反而越低,但当前AI不够强因此对硬件稳定性灵活度要求仍高[79][81] - 软硬件关系是螺旋式迭代,硬件升级本质是软件逻辑跃迁,关键在于软硬一体融合设计[83][84] - 数据驱动覆盖面更广,可能催生新理论,但需要"好数据"而非"多数据",数据背后仍有理论支撑[86][87] - 人工智能"家谱"中爸爸是自动化,妈妈是计算机,叔叔是数学,需合二为一解决真实问题[91][92] 未来机器人理想形态 - 赵明国以机器人足球为理想形态,认为足球是机器人最完整训练场,是具身智能综合考场[96] - 许华哲希望机器人拥有自己好奇心,能自己造出自己,带着人类好奇心欲望与智慧探索宇宙[98][99] - 许超构想"汇聚之城",让机器人与人类在真实空间协同生活,并强调绿色智能重要性[101][102] - 王兴兴将具身智能和AGI联系,认为AGI是人类终极发明,可实现生产消费娱乐及星际探索[103] - 当前是年轻人最幸运时代,有机会真正定义智能,再早没算力再晚别人都做完了[104]
苹果AI选Mamba:Agent任务比Transformer更好
量子位· 2025-10-21 13:41
文章核心观点 - 苹果公司最新研究发现,在长任务、多交互的Agent场景中,基于状态空间模型(SSM)的Mamba模型,在结合外部工具后,其效率与泛化能力展现出超越Transformer架构的潜力 [1] Transformer架构的局限性 - Transformer依赖自注意力机制,计算量随输入序列长度增加呈平方级增长,例如处理1000个词需计算100万次词对关系,处理上万词的长文档计算量达亿级,对GPU造成较大负担 [3][4][5] - 高计算成本导致处理延迟显著增加,在需要动态决策与迭代优化的Agent任务中表现不佳,因每一步都需重新计算全局注意力,整体效率偏低 [12] - 在需要反复调整的Agent式任务中,Transformer显得又贵又笨重 [18] Mamba架构的优势与局限 - Mamba作为状态空间模型,不依赖全局注意力,通过持续更新的内部状态理解信息,计算量随序列长度仅呈线性增长,例如处理1000个词仅需对应数量级计算 [6][7][13] - Mamba支持流式处理,可边接收输入边计算,且内存占用稳定,不会随序列长度显著上升,效率突出 [13] - Mamba的局限在于内部状态存储容量有限,处理超长序列时早期信息易被后续输入覆盖,导致对前文关键信息保留能力较弱 [9] “Mamba+工具”方案的性能表现 - 苹果团队提出通过引入外部工具(如指针工具、文件查看工具、运行工具)来扩展Mamba的信息处理能力,相当于为模型提供可动态调用的外部存储和交互接口 [10][11] - 在多位数加法任务中,配备指针工具的Mamba经5位数训练后能稳定处理1000位数计算,准确率近100%,而Transformer处理20位数时已出现明显误差 [15] - 在代码调试任务中,Mamba模拟交互式调试流程,面对高于训练集复杂度的代码库,其正确率显著高于Transformer [15] - 在逻辑推理及汉诺塔等分步规划任务中,结合工具的Mamba能应对更复杂场景,Transformer则计算缓慢或卡壳 [15] - “Mamba+工具”组合补足了Mamba的记忆短板,在Agent场景下反应快且效率提升显著 [16]
ChatGPT也遭殃,亚马逊服务器故障,半个互联网都崩了
量子位· 2025-10-21 11:38
事件概述 - AWS服务器发生宕机,故障位于美国东部us-east-1区域,该区域是AWS全球服务的核心 [1][2][3] - 故障导致大量互联网服务中断,故障追踪平台当天累计收到超过650万份用户故障报告 [4] 受影响的服务与行业 - **开发者工具**:Docker全线瘫痪,多个核心服务中断;npm、Cursor、Vercel等开发工具同样出现问题 [11][13] - **企业办公**:视频会议软件Zoom、办公平台Slack服务崩溃,亚马逊内部会议因使用Zoom而受到影响 [14][15] - **娱乐与社交**:游戏平台Epic、索尼PlayStation、社交平台Reddit以及流媒体Netflix、Disney+等服务宕机 [5][16] - **在线学习**:多邻国、学生作业平台Canvas无法登录 [17] - **人工智能工具**:ChatGPT以及AI搜索工具Perplexity受到波及 [2][18] - **日常生活与出行**:打车软件、麦当劳、星巴克无法使用;美联航和达美航空无法办理值机和行李托运,有航班因故障无法正常停靠 [23][24][27] - **智能家居与安防**:亚马逊Alexa等智能家居服务罢工,有智能门锁用户因网络问题无法解锁而触发报警 [29][31] - **体育赛事**:英国英超联赛的半自动越位系统故障,被迫改用人工画线方式辅助判定 [32] 故障原因与影响分析 - 故障直接原因是DNS解析问题,起源于EC2内部网络中用于监控和管理网络负载均衡器健康状态的子系统异常 [33][34] - 该监控系统异常导致网络连接不稳定、数据库访问延迟以及部分API请求失败,引发连锁反应 [35] - us-east-1区域是AWS最早建立、服务种类最多的区域,大量企业在此部署核心服务,且许多全球控制面服务集中托管于此,其故障能影响全球 [36] - 此次事件揭示了互联网对大型云服务商的集中依赖,标准化的集中服务虽提升稳定性,但单一故障点可能导致广泛后果 [39] 潜在解决方案 - 为避免类似情况,网站开发者可设置弹性机制,例如通过CloudFront连接多个区域,不将所有服务押注于单一区域 [40][41] - 采用原生多区域、故障转移的部署方式在技术上不复杂,成本也不会显著增加 [43]
长序列推理不再卡顿!北大华为KV缓存管理框架实现4.7倍推理加速
量子位· 2025-10-21 11:38
LouisKV团队 投稿 量子位 | 公众号 QbitAI 北大华为联手推出KV cache管理新方式,推理速度比前SOTA提升4.7倍! 大模型处理长序列时,KV cache的内存占用随序列长度线性增长,已成为制约模型部署的严峻瓶颈。 为此,来自北京大学与华为的研究团队联合提出了 LouisKV ——一个专为长输入、长输出等各类长序列场景设计的高效KV cache 检索框 架。 它通过创新的语义感知检索策略与解耦的精细化管理机制,在几乎不损失模型精度的前提下,实现了高达4.7倍的推理加速,为突破LLM长序 列推理瓶颈提供了全新的解决方案。 关键洞察 传统上,学术界与工业界提出了多种KV cache优化方案,其中 KV Cache Retrieval 是极具前景的方向之一。 该类方法将完整的KV cache卸载至容量更大的CPU内存中,并在推理时仅将最关键的KV子集检索回GPU进行计算,从而有效缓解GPU 显存 压力。 然而,现有的KV retrieval方法仍面临着 效率 和 精度 的双重瓶颈: 为了设计更高效的检索策略,研究团队首先对不同长序列任务中关键 KV 的访问模式进行实验分析,得到了两个关键洞察。 ...
人工智能年度榜单火热报名中!五大奖项,寻找AI+时代的先锋力量
量子位· 2025-10-21 11:38
评选活动概述 - 正式启动第8届量子位人工智能年度榜单评选 旨在发现并致敬引领变革的探索者与实践者[1] - 评选从企业、产品、人物三大维度设立五类奖项 共同见证年度之星并点亮未来方向[2] - 评选报名从即日起开始 截至2025年11月17日 结果将于MEET2026智能未来大会上公布[23] 企业类奖项评选标准 - 年度领航企业评选聚焦中国人工智能领域最具综合实力企业 参选需注册在中国或主营面向中国市场[6] - 企业主营业务需属人工智能及相关产业 或已广泛应用AI并在细分领域领先 具备成熟产品并获得市场认可[9] - 评选标准涵盖业务能力、技术能力、资本能力及其他综合能力 包括市场占有率、营收规模、研发投入及融资情况等[9] - 年度潜力创业公司评选聚焦最具投资价值和发展潜力的未上市AI创业公司 需在技术研发或行业应用方面取得显著成果[8][10] - 创业公司评选标准包括业务潜力、技术创新、资本能力及其他综合能力 关注商业模式、目标市场规模及营收增长情况[10] 产品与解决方案类奖项评选标准 - 年度杰出产品评选聚焦最具代表性与影响力的AI产品 需以AI技术为核心并已投入市场获得用户反馈[13] - 产品需在近一年完成重要技术创新或迭代升级 对AI规模化落地与商业化有显著推动[16] - 评选标准包括产品力与技术力、落地情况及其他综合能力 评估功能完整性、性能表现、市场占有率及用户规模等[16] - 年度杰出解决方案评选聚焦AI在不同行业与场景中的典型应用 需以自主创新AI技术为核心并已落地实施[15] - 解决方案需在技术融合、应用创新或商业模式上有显著突破 对行业智能化转型产生积极推动作用[17] - 评选标准涵盖创新性、落地情况及其他综合能力 关注技术融合能力、应用模式创新、市场占有率及客户情况等[17] 人物类奖项及大会信息 - 年度焦点人物评选面向中国AI领域最受关注的新星与领军人物 需为创始团队成员或核心高管[20][24] - 参选人物近一年需带领团队在AI技术或商业化方面取得显著突破 对行业发展产生重要影响[24] - 评选标准包括企业情况、个人能力及其他综合能力 评估企业行业地位、营收情况、技术能力及商业能力等[21][24] - MEET2026智能未来大会以"共生无界,智启未来"为主题 邀请科技、产业与学术领域领军人物齐聚[27] - 大会每年吸引上千名科技从业者参与 百万观众线上围观 近百家合作媒体联合曝光[28] - 大会将聚焦智能科技产业 探讨人工智能+、AI Infra、智能终端、智能驾驶及低空经济等前沿话题[28]