Workflow
量子位
icon
搜索文档
外滩大会今年太AI了!王坚暴论:OpenAI确实站在了历史错误的一边
量子位· 2025-09-12 11:24
一水 发自 凹非寺 量子位 | 公众号 QbitAI 今年的外滩大会属实让人眼花缭乱了—— 机器狗当宠物已不新奇,现在改恐龙了?还是会自己到处跑、开口出声那种。 这还不算完,在 整整10000平科技展览、5000平科技集市里 ,什么炒菜机器人、打鼓机器人、会在蛋壳上雕花的机器人……统统都亮相 了,而且还把"人造太阳"核聚变、AI健身房这样的黑科技搬到了观众眼前。 u1s1,虽然人挤人,但现场着实好玩~ 而除了新鲜感拉满,这届Inclusion·外滩大会还汇聚一众大佬对一系列前沿问题进行了探讨: 智能的上限是什么?产业在落地中遇到哪些困难?大洋两岸的算力差距如何?诸如此类的问题在 1场开幕主论坛+44场见解论坛 中不断地被 提出、被回答。 与会嘉宾包括我们熟悉的 新晋图灵奖得主理查德·萨顿、阿里云创始人王坚、金沙江创投主管合伙人朱啸虎、"人类简史系列"作者尤瓦尔·赫 拉利,宇树CEO王兴兴等 。 所以,如果你对AI的现状及未来感兴趣,不妨花点时间了解一下这些行业领军人物都在思考什么、做什么,相信对你也会有所启发。 话不多说,以下为 部分 重要嘉宾观点传送。 图灵奖得主萨顿:人类数据红利正逼近极限 一上来,大会就 ...
陶哲轩都拿不到暑期工资,被迫给自己和学生筹钱
量子位· 2025-09-12 11:24
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 顶级如 陶哲轩 这般的数学家,也已经拿不到暑期工资了。 这事还是陶哲轩本轩在接受《华盛顿邮报》采访时亲口说的: 研究所的经费仍然无法发放,连暑期工资都拿不到了。 之所以会如此,是因为美国在今年的7月25日,突然暂停了国家科学基金会(NSF)、国立卫生研究院(NIH)等机构对 UCLA 的资助, 金额高达 5亿美元 之多。 即便后来事态有所好转,联邦法院在8月12日决定恢复部分拨款,但直到9月初,资金仍旧没有到位。 现如今,就连陶哲轩也不得不将精力从科研转向 筹款活动 。 陶哲轩撰文痛诉 陶哲轩其实并不是第一次对中断科研资助的事情发声。 早在上个月,他就亲笔撰写了一篇长文痛诉这一现状: 而比起陶哲轩自己的工资,他本人表示 更加担心自己的学生 : 我没关系,我能承受。但这些资助主要目的是支持我的研究生。 这份经费能支持这些年轻人参加学术会议,这对他们的职业发展非常重要。 (为完整表达内容,下文将以陶哲轩第一人称来展开。) 在短短六个月内,美国科学基础设施遭受了全面冲击,科研项目进行到一半就被取消了资助,培养下一代研究人员的奖学金被大幅削减。这 些决定已经侵蚀了 ...
Meta超级智能实验室新论文陷争议!被指忽略大量前人研究
量子位· 2025-09-12 08:59
henry 发自 凹非寺 量子位 | 公众号 QbitAI 究竟是啥论文? 让模型在博弈中学习 总的来说,MSL这篇新论文的核心思想是通过一种 Language Self-Play (LSP)的方法,让大型语言模型 在没有额外训练数据的情况下实 现自我提升 。 这一方法旨在应对当前大语言模型高度依赖大规模、高质量训练数据,且训练数据有限所带来的困境。 为此,LSP将模型的学习过程设计成一个博弈框架,让同一个语言模型扮演两个角色进行对抗,从而实现无数据训练。 Meta超级智能实验室(MSL)又被送上争议的风口浪尖了。 不过,这次不是人事风波,而是他们的 第二篇 论文《Language Self-Play For Data-Free Training》被质疑 忽视前人研究、缺乏创新 。 具体来说,这两个角色分别是: 在对抗过程中,挑战者不断生成越来越刁钻的问题或指令,以降低解决者的预期回报;而解决者则必须努力理解并回答这些指令,以最大化自 身回报——这其实就是我们熟悉的极小极大博弈(minimax game)。 通过这样的对抗训练,模型能够在不断博弈中持续改进,逐步提升能力。 此外,与传统对抗训练不同,LSP让 ...
姚顺雨离职OpenAI,开启下半场
量子位· 2025-09-12 08:59
henry 发自 凹非寺 量子位 | 公众号 QbitAI 之前有人说他出现在小扎的必挖名单上,也有人最近爆料他即将加盟其他的巨头——而且是中国科技巨头,"转会费"也有了惊人传闻。以及还 有一种说法,姚顺雨选择个人创业…… 姚顺雨去哪儿?还不知道。 但姚顺雨离职OpenAI ,得到了不同渠道的证实,只差个人官宣。 他似乎就此要开启个人AI的下半场了。 这个刚刚29岁的年轻人, 合肥一中毕业、NOI奥赛银牌、高考704分以安徽探花进入清华姚班 ,最后在普林斯顿获得计算机博士(语言和强 化学习方向),毕业就加入了OpenAI…… 而且更早之前,姚顺雨就有着突出而知名的科研成果,比如: 甚至还有超越年龄的哲思,一篇"AI下半场"的博文,在AI圈内外洛阳纸贵。 所以姚顺雨,究竟是一个怎样的年轻人? 为大模型开启"下半场"的 姚顺雨 ,也开启了个人AI的下半场。 就在最近,这位明星OpenAI华人研究员的动态,开始被火热关注。 姚顺雨成长之路 在2024年刚加入OpenAI不久,姚顺雨在一次采访中推荐了一本书——《哥德尔、艾舍尔、巴赫:集异璧之大成》。 思维树(Tree of Thoughts):让LLM反复思考,大幅 ...
万万没想到,大学生都开始拿AI来养猪了
量子位· 2025-09-11 18:19
奕然 发自 凹非寺 量子位 | 公众号 QbitAI 有被大学生们使用AI的强度震惊到(doge)。 不仅写作业、做PPT使用AI辅助成为常态, 解梦算命什么的也不算新鲜事 ,现在连如何科学养猪、葡萄品种怎么区分这种更深度的专业课 题,都要拉AI来讨论讨论了。 这不开学第一天,夸克在中国人民大学搞了次分享会,把大学生用户们如何在学习生活中使用夸克,都给"曝光"了。 数据显示, 每10个大学生中就有7人在使用夸克,并且不仅北上广,在高考大省山河四省,大学生们也都在高频使用AI。 其中AI搜索、AI拍题、AI扫描、AI写作和AI总结位列最受欢迎的五大场景。 还不止是泛泛一用。举个例子, 有28.8%的大学生用户都在使用夸克生成班委竞选PPT 。仅9月上旬,就已产生 42万份 与学生竞选、社团 面试相关的PPT需求…… 在AI拍题方面,使用最多的专业top3是 临床医学、计算机科学与技术以及高等数学 。位居榜首的一类题目是 高数 。(果然大学生都逃不开 高数的折磨) 更多有意思的细节,一起来看。 00后大学生,AI原生一代 夸克数据显示, 夸克大学生用户 中AI渗透率达 到了80% 。大学生用户们不仅仅是用AI进行 ...
DeepDiver-V2来了,华为最新开源原生多智能体系统,“团战”深度研究效果惊人
量子位· 2025-09-11 18:19
产品发布与核心特性 - 华为发布DeepDiver-V2原生多智能体系统 采用团队作战模式 包括一个Planner负责任务分解和进度管理 多个专业Executor并行处理子任务 通过共享文件系统交换信息 [1] - 系统基于多智能体形态训练 具备更强的角色扮演和协同推理能力 能够生成数万字的高质量深度研究报告 [2] - 该系统专攻AI深度搜索和长文调研报告生成 目前已开源 [3] 性能表现与基准测试 - 在WebPuzzle-Writing基准测试中 DeepDiver-V2生成报告平均长度达24.6K tokens 是OpenAI o3 DeepResearch(10.6K tokens)的两倍多 [4] - DeepDiver-V2-38B在BrowseComp-zh测试中达到34.6分 超越WebSailor-72B(30.1分)和WebSailor-32B(25.5分) [5] - DeepDiver-V2-38B在BrowseComp-en测试中达到13.4分 为同规模开源模型中最高 超过WebSailor-72B(12.0分) [5] - 在自动评测中 DeepDiver-V2效果与主流agent产品相当 Content Diversity指标表现优异 [4] 系统架构创新 - 采用以Planner为中心的多智能体系统架构 协调多个Executor 取代V1版本的单模型超长上下文处理模式 [7] - Planner进行自适应复杂度评估 构建任务树分解复杂问题 并采用竞争赛马机制提高结果可靠性 [8][9] - 智能体通过共享文件系统交换精炼任务摘要和文件元数据 而非完整上下文 实现可扩展通信和并行执行 [11] - 系统包含专业化Executor:Information Seeker负责信息收集与验证 Writer负责长文本生成与章节构建 [12] 训练方法与技术支撑 - 采用Planner-centric分配机制解决多智能体训练中的责任归属问题 [13] - 训练流程包括冷启动监督微调 拒绝采样微调(RFT)和在线RFT 使用动态轨迹缓存批处理策略 [15][16] - 训练完全使用Atlas 800I A2集群 依托1000+ NPU组成的大规模计算集群 通过华为高速缓存一致性系统(HCCS)互联 [17] - 开发专门强化学习框架 包括Agent Factory代码库和Trajectory-wise过滤机制 [17][18] 实验发现与性能分析 - 系统性能对Executor能力极其敏感 但对Planner要求相对宽松 7B Planner已能胜任大部分协调工作 [19][21] - 38B Information Seeker单独使用时在BrowseComp-zh得分26.3 超越WebSailor-32B(25.5分) [23] - 将7B Executor升级为38B后 BrowseComp-zh分数增加9分(18.3→27.3) 而升级Planner仅提升6.3分(18.3→24.6) [25] - 在长文本写作任务中 升级Writer带来的提升(5.51→5.80)远超升级Planner(5.51→5.56) [25] - 多智能体训练使子智能体在处理扩展任务集时更加鲁棒 具备独当一面的能力 [26] 应用前景与行业影响 - 从单一模型到多智能体系统的转变为解决复杂现实问题开辟道路 [27] - 未来将在企业调研 科学文献综述 专业数据分析等专业领域发挥巨大作用 [27]
央企怎么做超级智能体?对谈中电信天翼AI:自研模型为底座,自主规划是必须,能适应千行百业才行
量子位· 2025-09-11 18:19
文章核心观点 - 中国电信天翼AI发布星辰超级智能体 在DBC德本咨询2025企业级AI Agent榜单中位列央企第一 [1] - 智能体是当前人工智能发展的重点方向 国务院首次将其列为重点发展领域 [4] - 星辰超级智能体基于全栈国产化技术 具备多模态理解、复杂推理和增强记忆能力 定位为深入业务架构的数字化生产力单元 [9][12][13][16] - 智能体平台能直接产出应用 是大模型落地产业的主流模式和最佳模式 [8][20][65] 智能体技术架构与能力 - 星辰超级智能体支持全模态理解 包括语音、视觉、文本等模态 支持文生图、文生视频 [11] - 采用完全国产化技术栈 包括自研底层模型、国产算力和国产框架训练 [12] - 定向增强复杂推理和记忆能力 上下文可扩展到百万字级别 针对办公、客服、金融、工业等场景优化 [13] - 采用四模块架构:感知与理解、认知与决策、记忆与知识、行动与执行 [27] - 通过数据加密和容器化隔离保障安全 满足ToC和企业级用户安全要求 [14] 智能体发展路线与现状 - 行业存在三种智能体发展路线:自主规划智能体(全自动+简单任务)、工作流智能体(半自动+复杂任务)、超级智能体(全自动+复杂任务) [23] - 超级智能体具备动态调整能力 通过虚拟机环境自主修正错误 无需人工编排工作流 [25][26] - 当前超级智能体已达到70分水平 能为人类提供有效帮助 但执行时间可能长达几分钟至十几分钟 [8][30][32] - 能力上限取决于底层模型能力和系统嵌入程度 底层模型持续迭代中 [34] 产业落地与应用场景 - 智能体落地需要嵌入企业主业系统 中国电信江苏公司案例显示智能体可实现客服工单自动预处理 [36][37] - 优先落地场景包括客服、营销、办公软件和IT化程度高的行业 因业务流程清晰且与大模型适配度高 [52] - 在客服网络运维领域实际应用中 智能体使员工处理工单效率提升30%以上 [40] - 市场需求强烈 国外资本市场和科技企业大幅投入 国内推动AI+产业落地 [43] 市场竞争格局 - 市场存在四类玩家:大模型厂商、科技大厂、创业公司、央国企 [53] - 央国企优势在于内部海量落地场景、全国本地化服务团队和丰富产业经验 [54] - 中国电信2024年产业数字化收入达1466亿元 与中车、中物流、国能等国企有深度合作 [56] - 星辰智能体平台采用内部开源模式 允许省专公司二次开发以适应各种场景 [54] 研发背景与人才培养 - 中国电信2024年初开始布局智能体平台 提前卡位新兴趋势 [22] - 专职投入大模型算法研发团队约300人 与高校和科研机构合作攻关下一代技术 [59] - 获得工信部授权运营"智能体开发工程师"职业认证培训 培养专业人才 [50] - 通过应用创意挑战赛和方案实现赛挖掘企业核心落地场景 [44]
攻克AI过度思考难题!美团新研究让通过“可验证”过程奖励激活LRM的高效推理
量子位· 2025-09-11 18:19
美团搜推Agentic System X (AsX) 团队 投稿 量子位 | 公众号 QbitAI LRM通过简单却有效的RLVR范式,培养了强大的CoT推理能力,但伴随而来的冗长的输出内容,不仅显著增加推理开销,还会影响服务的吞 吐量,这种消磨用户耐心的现象被称为"过度思考"问题。 针对这一缺陷,来自美团等机构的研究团队提出 可验证的过程奖励机制(VSRM) , 鼓励CoT中的"有效步骤",惩戒"无效步骤",最大限 度保持性能的同时,实现高效推理 。 通过在数学任务上的实验显示,在多个常用benchmark上, VSRM加持的后训练使得不同尺度的模型实现了输出长度的大幅缩减 ,甚至在部 分情况下提升了模型表现。 过度思考问题的本质 此前的工作将过度思考问题的现象总结为:对于一个问题,模型倾向于给出多种不同的解答,特别简单的问题。在这一认识的基础上,作者团 队更进一步,对现有LRM在MATH-500上做出的回复进行了深入的case study。 | Find the number of integer values of k in the closed interval [-500,500] for whic ...
国产类脑大模型适配国产沐曦GPU!长序列推理提速超百倍,仅用2%数据匹敌主流模型
量子位· 2025-09-11 18:19
SpikingBrain团队 投稿 量子位 | 公众号 QbitAI 超长序列推理时的巨大开销如何降低? 中国科学院自动化所李国齐、徐波团队 发布的 类脑脉冲大模型SpikingBrain (瞬悉)-1.0 提出了新思路。 SpikingBrain借鉴大脑信息处理机制,具有线性/近线性复杂度,在超长序列上具有显著速度优势。 在GPU上1M长度下TTFT 速度相比主流大模型提升26.5x,4M长度下保守估计速度提升超过100x;在手机CPU端64k-128k-256k长度下较 Llama3.2的同规模模型Decoding速度提升4.04x-7.52x-15.39x。 SpikingBrain适配了面向 沐曦MetaX国产GPU集群 的高效训练和推理框架、Triton算子库、模型并行策略以及集群通信原语,表明了构建国 产自主可控的新型非Transformer大模型架构生态的可行性。 SpikingBrain-1.0就是这一思路下的初步尝试。 大模型时代的新视角 人脑是目前唯一已知的通用智能系统,包含约1000亿神经元和约1000万亿突触数量、具有丰富的神经元种类、不同神经元又具有丰富的内部 结构,但功耗仅20W左 ...
2025人工智能年度评选启动!3大维度5类奖项,正在寻找AI+时代领航者
量子位· 2025-09-11 15:43
组委会 发自 凹非寺 量子位|公众号 QbitAI 为了让更多从业者感受智能浪潮的跃迁,也为了给予更多同行同路人掌声与鼓舞,我们将正式启动 「2025人工智能年度榜单」评选报名 。 这是量子位人工智能年度榜单的 第8年 。八年来,我们见证了技术的突破与落地,产业的融合与重塑,也见证了一批又一批推动时代前行 的企业、人物与产品。 在人工智能重新定义一切的时代里,智能技术已不再是单一工具,而是产业与社会协同进化的驱动力。我们期待通过这场年度评选,去发现 并致敬那些真正引领变革、开拓边界的探索者与实践者。 本次评选将从 企业 、 产品 、 人物 三大维度,设立五类奖项。欢迎企业踊跃报名! 让我们共同见证年度之星,点亮未来的方向。 企业榜 产品榜 人物榜 2025 人工智能年度 焦点人物 详细评选标准及报名方式如下。 2025 人工智能年度领航企业 2025 人工智能年度 领航企业 2025 人工智能年度 潜力创业公司 2025 人工智能年度 杰出产品 2025 人工智能年度 杰出解决方案 将面向中国人工智能领域,评选出最具综合实力的企业, 参选条件 : 评选标准 : 2025 人工智能年度潜力创业公司 聚焦于中国人 ...