Workflow
阿里千问
icon
搜索文档
DeepSeek V4终于发布,但它留下的5道主观题还没有答案
36氪· 2026-04-24 22:30
以下文章来源于智能涌现 ,作者周鑫雨 智能涌现 . 直击AI新时代下涌现的产业革命。36氪旗下账号。 DeepSeek是中国AI跻身全球一流的起点,但不会是终点。 文 | 周鑫雨 编辑 | 苏建勋 杨轩 来源| 智能涌现(ID: AIEmergence) 封面来源 | 视觉中国 靴子终于落地。 被调侃"Next Week"近3个月的DeepSeek V4,终于显露真身。 1.6T的最大参数量、1M的上下文窗口、针对Agent的性能优化,以及基于MoE(混合专家模型)和稀疏注意力机制DSA,降低计算和显存需求——这些曾被 外界纷纷猜测的参数和性能,随着V4的官宣,一锤定音。 姗姗来迟的原由,与V4将训练框架从英伟达迁移到华为昇腾上有关,也与DeepSeek内部的决策变动有关。我们得知,2025年年中,DeepSeek曾面临一次较 为严重的训练失败。 "当时,DeepSeek面临重新适配芯片的问题。"一名知情者提到,"内部有关训练方向的意见也不完全统一。梁文锋提出了一些自己的要求,但在执行层面很 难折中。" 不过,与外界关于"新模型支持多模态生成和理解"的猜测不同,V4依然是个语言模型。暂缓多模态生成的训练策略, ...
上车后,千问想让AI成为副驾了
虎嗅APP· 2026-04-24 21:22
文章核心观点 - 智能汽车竞争正从以辅助驾驶为核心的“上半场”进入以释放驾驶时间、创造座舱内新价值为核心的“智能化下半场”[2][4] - 行业竞争焦点从提升驾驶效率转向挖掘被释放的“时间价值”,座舱成为新的核心战场[4] - 大模型等AI技术上车需提供端到端全链路解决方案,而非单点功能,才能创造真正价值[10][13] - 阿里凭借全栈AI能力、云基础设施及丰富生态,有望成为定义智能化下半场的“行业底座共建者”[6][19][21] 智能化竞争阶段的演变 - **上半场(已发生)**:以辅助驾驶(智驾)为核心竞争主轴,目标是更安全、省力地完成移动[4] - **下半场(正在进行)**:智驾普及后,焦点转向如何利用被释放的驾驶时间(中国车主年均约400小时),需求从驾驶效率转向时间价值[2][4] - 行业风向已转向座舱智能化,2024年北京车展上众多展商密集发布相关新动态[5] 智能化下半场的竞争格局与参与者 - **主要参与者类型**:智驾供应商(向舱驾一体延伸)、大模型公司(寻找终端落地)、芯片厂商(尝试软硬一体)[4][5] - **行业需求变化**:行业更需要一个能打通从模型、算力到服务与商业闭环全链路的“智能化底座共建者”,而非多个独立供应商[19] - **竞争关键**:谁能率先给出新的座舱范式,谁就有机会在智能化下半场打破同质化,获得先机[6] 大模型上车的正确路径与挑战 - **历史教训**:AI落地新终端,成功关键在于能否提供“一揽子打包”的端到端全链路解决方案,打通从底层模型、系统接口到服务与商业闭环的所有环节[10] - 手机Agent的失败尝试:通过独立App模拟点击在不同应用间跳转,导致体验割裂、效率低下[9] - 智驾发展的教训:车企采用多家供应商(AB供)导致模块协同效率低、体验不一致,最终倒逼一体化方案成为主流[10] - **正确范式**:应避免单纯复制旧模式(如改造语音助手),需探索出适应新平台的全新范式[8] - **技术架构**:需要端云协同架构,端侧处理车内多模态数据与实时交互以保证低时延和弱网能力,云端承担深度推理与生态连接[15] 阿里的战略布局与竞争优势 - **全栈AI能力与生态**:公司是极少数同时掌握大模型能力、云、超级App与完整生态的公司[21] - **AI算力**:中国60%的智能驾驶AI算力来自阿里云[4] - **客户基础**:有30多家头部车企和智驾方案商在阿里云上开展智驾研发[4] - **大模型**:Qwen模型处于全球领先位置,车端小模型部署已跑通;千问App月活数已超1.6亿[21] - **生态能力**:结合高德的出行与路网数据、淘天体系的交易能力,具备从理解需求到完成交易的闭环能力[21] - **核心方案:AI超级副驾**:在车展提出的概念,打包了阿里全栈AI能力与生态资源,包括算力、端云协同模型、语音助手、数据体系及服务链路[11][13] - **具体体验**:高德导航支持多轮对话添加途经点;支付宝声纹支付与淘天、淘宝闪购能力打通,实现车内免手机购物[13] - **差异化价值**:全栈技术能力与阿里巴巴最丰富的生态[21] - **已验证的闭环能力**:年初“千问请奶茶”活动不仅带来用户增长,更验证了从理解需求到完成交易的流程可跑通,并具备跨终端复制可能[21] 智能化下半场的行业意义与未来展望 - **商业价值转变**:关键变化不在体验,而在商业。汽车有望成为个人智能、数据和算力的核心枢纽,连接人、数据与现实世界的核心节点[16] - **汽车的新定位**:在通用机器人普及前,汽车是当下规模最大、算力最强的物理AI载体[16] - 全球已有约6000万至7500万辆具备L2及以上能力的车辆,其端侧算力构成分布式超级计算机,积累的数据与认知是通往物理AI世界的门票[16] - **中国公司的角色转变**:在大模型浪潮中,中国公司与硅谷处于接近的领先地位。智能化下半场是尚未被定义的“无人区”,为中国公司提供了从追赶者转向定义者的机会[19] - **成功公司的特征**:历史上伟大的科技公司几乎都解决了“大幅提高人类效率”的具体问题。在生产力被极大释放后,如何承接并放大这些能力、创造新的价值空间,是孕育下一代巨头的机会[22]
中国东航与阿里千问推出AI航空出行服务,可以查询航班、购票及选座
北京商报· 2026-04-23 13:30
公司与科技公司合作 - 中国东航与阿里巴巴旗下的“千问”举行合作发布活动,正式推出AI航空出行服务 [1] 服务功能与流程 - 旅客可在千问APP的AI对话界面,通过语音或文字输入起始地、目的地、出行时间及个人偏好等信息 [1] - AI能快速精准识别旅客需求,自动查询、对比并推荐最适配的东航航班 [1] - 航班查询、加入东航会员、在线购票、支付结算、免费选座、值机、订单查询及行程总览等全流程操作均可在千问App内一站式完成 [1] - 未来,双方还将逐步升级退改功能和会员服务 [1]
从“龙虾”到“爱马仕”,Agent越能干Token越费钱
第一财经· 2026-04-17 21:35
文章核心观点 - 2026年,AI智能体(Agent)赛道热度因大厂跟进达到新高度,行业共识认为模型能力需要落地执行,而智能体是目前的最佳载体 [3] - 智能体的核心发展逻辑已从“一问一答”的单轮交互,进化为“全链路端到端自主执行”的生产力工具,关键词是“全链路”与“自主性” [8] - 智能体自主能力的持续“沸腾”与成本控制之间的双向博弈,正推动行业从追求能力上限向平衡能力与成本转型 [14] Agent技术持续迭代 - 初代Agent因易失忆、易中断等稳定性问题未能大规模应用 [6] - OpenClaw阶段引入混合记忆,初步解决上下文丢失;Hermes构建分层持久记忆与主动检索,实现长期记忆不丢失;Harness进一步强化状态持久化与错误恢复机制,并补齐任务拆解、执行、校验、修正全流程闭环,共同解决了“上下文焦虑”与执行稳定性问题 [6] - OpenAI对Codex平台进行升级,新功能包括根据提示生成图像、学习用户偏好的记忆功能以及来自Slack等应用程序的主动建议,并使其能在后台控制MacOS应用程序,运行多个Agent以执行测试和前端开发等任务,集成了超过90个插件 [3][6] - Codex每周为超过300万用户提供服务,需求已远超编程范畴,此次升级首先在MacOS推出,Windows版本即将推出 [8] - 从OpenClaw到Hermes的迭代,本质是一条大模型、智能、自主、可信的完整AGI发展路径,智能体现已能自主完成编程、跨工具协作等复杂任务 [9] Token暴增背后的算力压力 - Agent需求带动Token调用量大幅提升,但亏损是大模型厂商面临的主要挑战,规模化后单条请求可能仍是负利润 [12] - 厂商通过提价、优化工程等方式应对Token需求暴增,以智谱GLM为例,其同模型、同配额的海外订阅/API价格几乎是国内版本的2至3.5倍 [12][13] - 智谱CEO张鹏解释,复杂任务的推理链路更长,完成任务的Token用量是简单问答的十至百倍,价格调整是成本变化的自然结果 [13] - Agent需求带动下的Token暴增存在资源浪费,部分被戏称为“代码垃圾”,业内无法精准计算高额AI Coding的实际ROI,有观点指出产品在完成任务时存在大量无效尝试 [13] - 行业正探索成本控制路径,例如Hermes通过工具集拆分、按需加载降低消耗;未来核心路径将是“云边端协同+大小模型编排”,用云端大模型规划任务,边缘/终端轻量化模型执行特定任务,避免大模型全程介入;企业OS、Token网关配额管理等方式也在落地,以实现成本透明化管控 [14]
大厂AI,盯上2.5亿股民
21世纪经济报道· 2026-04-14 14:40
行业趋势:AI辅助炒股成为市场热点 - 近期多家互联网大厂及金融数据服务商密集推出AI辅助炒股产品,行业竞争加剧 [1] - 市场空间巨大,截至2026年一季度末,A股投资者数量已近2.5亿人(约2.5亿人),为产品提供了庞大的潜在用户基础 [1][9][10] - 年轻投资者(Z世代)加速入市,他们作为“AI原生代”对此类工具的接受度高,降低了市场教育和获客成本 [1][10] 主要参与者与产品动态 - **阿里千问**:升级“深度研究”能力,新增“财经分析”模块,通过与同花顺合作接入超1.3万只股票数据,整合约100万份上市公司财报、公告等内容 [1][4] - **Kimi**:接入同花顺iFinD、Yahoo Finance等专业金融数据库,用户需升级会员以获取相关功能 [1][5] - **腾讯**:据称正在内测“腾讯AI问股”小程序,旨在通过AI大模型解答证券业务问题 [1][5] - **万得(Wind)**:上线Wind AI个人版并推出APP,首次将AI能力直接面向个人投资者,标志着其从专注机构客户向C端市场拓展 [1][6] 技术路径与产品逻辑 - 主流技术路径为“通用大模型+金融垂类数据”,互联网公司提供算法与推理能力,金融数据商(如同花顺)提供高质量结构化数据,双方通过合作实现互补 [2][15] - 产品着力解决两大核心短板:一是数据源的准确性与时效性,通过接入专业数据库解决;二是推理链的严谨性,通过Agentic架构(如千问)或“智能内核、工具联动、技能分身”(如Wind AI)来规划分析路径并整合多源信息 [6][7] - 万得选择“自给自足”路线,依托自研AI能力和自有金融数据库直接服务C端用户 [15] 市场驱动与商业化潜力 - 金融场景具备“高频使用、高用户黏性、高付费意愿”的“三高”特征,是互联网公司探索AI商业化的理想场景 [11] - 产品已开始探索变现,例如Kimi接入专业数据库需升级会员,月费在49元至699元不等 [11][13] - 阿里千问的财经分析功能目前设有每日5次的使用上限 [11] 行业影响与竞争逻辑演变 - AI正在重构金融信息产品的核心竞争力,行业竞争从传统的数据展示转向智能解读与决策效率,不具备AI能力的工具面临被边缘化的风险 [16] - 对投顾行业产生冲击,AI将压缩基础投研与咨询空间,低端服务可能被替代,行业竞争将转向算法、数据以及人机协同能力 [16] - 金融信息服务商的竞争逻辑正被AI改写,具备对金融工作流深度理解和方法论沉淀(如万得)构成竞争壁垒 [16] 产品局限性与潜在问题 - 当前产品在可靠性上存在不足,例如在生成报告中可能混杂引用自媒体平台信息或过时数据 [18] - 大模型技术存在根本局限,依赖历史数据训练,难以应对黑天鹅事件、政策突变和市场情绪博弈,“幻觉”与过拟合问题在金融场景中同样存在 [18] - 存在合规风险,AI直接给出投资建议可能触及证券投资咨询资质问题,且因建议失误导致亏损的责任归属尚不明确 [18] 对投资者行为的影响 - AI工具能快速处理财报、研报等信息,短期内有助于抹平普通投资者与机构之间的信息差 [19] - 但过度依赖AI可能弱化投资者的独立判断能力,导致散户从“盲目跟风”转向“算法跟风” [18][20] - 由于主流模型的训练逻辑和数据来源趋同,可能导致大量用户获得相似的建议,进而形成集中化交易,放大市场羊群效应 [19] - 更值得警惕的是,机构可能反向利用这种算法一致性,使跟风AI的散户成为被精准预判和收割的对象 [20]
华为汪涛当值轮值董事长;佳能(中国)任命首席运营官;Adobe首席执行官将离任
搜狐财经· 2026-04-02 13:18
文章核心观点 近期全球科技、媒体与电信行业出现密集的高管人事变动,涉及人工智能、云计算、消费电子、汽车、媒体娱乐及专业服务等多个领域,反映出行业在技术变革与市场竞争加剧背景下的战略调整与人才流动 中国公司高管变动 - 阿里千问技术负责人林俊旸于3月4日离职,Qwen后训练负责人郁博文、核心贡献者李凯新亦宣布离职,此前1月Qwen Code负责人惠彬原已离职并加入Meta [2] - 华为自2026年4月1日起由汪涛当值轮值董事长,主持公司董事会及董事会常务委员会 [3] - 华为诺亚方舟实验室主任、盘古大模型负责人王云鹤于3月28日宣布离职,将投身Agent创业 [4] - 智界汽车任命郭锐为董事长兼首席执行官,全面负责公司经营管理工作,郭锐曾担任华为终端大中华区首席营销官及荣耀品牌营销总裁 [5] - 雷军因其他工作安排,自2026年3月25日起辞任金山云非执行董事、董事长等职务,副董事长邹涛接任董事长 [6] - 丁健因个人工作安排变动,自2026年3月17日起辞任百度集团董事会独立董事及多个委员会职务,委员会将进行调整以符合规定 [7] - WPP旗下WPP Media任命陈怡为中国区首席执行官,自3月30日起与即将卸任的Rupert McPetrie共同担任联席首席执行官至6月30日 [8] - 阳狮中国任命Marc Leclerc为奢侈品业务阳狮Luxe中国负责人,Marc在阳狮集团拥有14年履历,其中10年专注中国市场 [9] 1. 佳能(中国)任命原佳能加拿大董事长兼首席执行官高木干雄为副董事长兼首席运营官,于2026年4月1日就任,负责在华运营发展 [10] 全球科技公司高管变动 - 苹果更新管理层,前Meta首席法务官Jennifer Newstead于2026年3月1日加盟,出任高级副总裁兼总法律顾问,原总法律顾问Katherine Adams转任政府事务高级副总裁 [11] - 苹果智能家居硬件工程团队高级总监布莱恩·林奇将离职并加盟智能戒指公司Oura,出任硬件工程高级副总裁 [12] - 苹果健身技术副总裁杰伊·布拉尼克将于2026年7月退休,结束其13年任期,曾主导开发Apple Watch“健身记录圆环”及推出Apple Fitness+ [13] - 苹果聘请前谷歌购物产品副总裁Lilian Rincon负责AI产品营销工作,担任AI产品营销副总裁,为Siri大改版做准备 [14] - Meta首席技术官安德鲁·博斯沃思将接管公司向AI原生化转型的“AI For Work”项目 [15] - Meta正在组建一个新的应用AI工程部门,由Reality Labs部门副总裁马赫·萨巴领导,致力于超级智能探索,向首席技术官博斯沃思汇报 [16][17] - Meta长期担任内容政策主管的莫妮卡·比克特将离职前往哈佛法学院任职,工作至今年8月 [18] - 马斯克旗下xAI最后一位联合创始人罗斯·诺丁已离职,此前已有两位联合创始人离职,同时Thinking Machines Lab创始成员Devendra Chaplot宣布加入xAI [19] - X公司解雇自2024年9月起担任首席营销官的安吉拉·泽佩达,过去几周还解雇了20多名非技术岗位员工 [20] - OpenAI机器人业务负责人凯特琳·卡利诺夫斯基于3月8日辞职,以回应公司与美国国防部的协议 [21] - OpenAI聘请Meta前广告业务高管戴夫·杜根负责广告销售业务,担任全球广告解决方案副总裁 [22] - OpenAI任命印度JioStar首席执行官基兰·马尼领导其亚太地区业务,将于6月正式出任,并计划在孟买和班加罗尔开设新办事处 [23] - 英特尔委任Craig H. Barratt为下一任董事长,他将在5月13日的年度股东大会后接替Frank Yeary [24] - 微软体验与设备部门负责人拉杰什·贾哈宣布在任职三十多年后退休,将于7月1日卸任,并宣布了多项人事晋升 [25][26] - 桥水基金首席科学家兼人工智能主管贾斯吉特·塞孔将加入谷歌旗下DeepMind,担任首席战略官 [27] - Adobe首席执行官山塔努·纳拉延在继任者确定后将卸任,并继续担任董事会主席,其执掌Adobe已达18年 [28] 媒体与娱乐公司高管变动 - 戴明哲正式接替艾格成为迪士尼公司新任首席执行官,寄望以技术加速特许经营业务提振股价 [29] - 迪士尼任命Paul Roeder为高级执行副总裁兼首席传播官,自3月19日起生效,直接向首席执行官戴明哲汇报 [30] - 迪士尼公布新领导架构,整合媒体、电影、电视与游戏及数字娱乐部门,Joe Earley和Adam Smith将共同担任直接面向消费者业务总裁 [31] - 谷歌前高管布里廷已被确认为英国广播公司新任总干事 [32] - 汤森路透任命小加里·E·比绍平为首席财务官,自5月8日起生效,接替将退休的迈克·伊斯特伍德 [33] - 阳狮集团任命Naomi Michael为亚太区首席传播官,负责领导集团在亚太区的传播战略,常驻新加坡 [34] 其他专业服务与科技公司高管变动 - 量子计算公司Quantinuum宣布,Nitesh Sharan将于2026年4月6日起担任首席财务官 [35][36] - 印度IT服务企业威普罗任命内部高管纳根德拉·班达鲁担任其人工智能部门首席执行官 [37] - MetaOptics晋升并委任蔡昊澎自2026年3月1日起接任执行董事兼行政总裁,程章金继续担任执行主席 [38]
阿里喊出AI云五年干1000亿美元:底气还是画饼?
雷峰网· 2026-03-27 16:23
阿里云Q3财报表现与增长前景 - 阿里发布2026财年Q3财报后,股价连续重挫,3月19日美股盘中一度跌超9%,3月20日港股收跌6.29% [2] - 尽管股价下跌,部分投资者因看好阿里云增长前景而逆势入场 [3] - 阿里云Q3总收入为432.84亿元,同比增长36%,外部商业化收入增速为35% [4] - 过去四个季度,阿里云收入增速从18%、26%、34.5%攀升至本季的36%,增速重回全球云厂商第一梯队 [3] - AI相关产品收入连续第10个季度实现三位数增长 [4] “五年1000亿美元”战略目标 - 管理层在电话会中提出,未来五年AI与云相关业务的营收目标为1000亿美元(约6900亿元人民币) [5] - 以当前每年约1000亿元人民币(约145亿美元)的外部商业化收入为基数,这意味着阿里云要在五年内增长近7倍,年复合增长率约47% [5] - 高盛与瑞银预测,阿里云Q4云业务收入增速将从Q3的36%提升至40% [16] 核心增长驱动力:MaaS(模型即服务) - 管理层将MaaS视为实现千亿目标的关键增量来源 [9] - MaaS营收潜力爆发的两大基础变化:tokens消耗规模进入指数级增长,以及行业价格战回缩 [11] - 阿里云百炼MaaS平台过去三个月Token消耗规模提升6倍 [12] - Agent应用(如Openclaw)的tokens消耗量是传统Chatbot的100–1000倍 [12] - 多模态(尤其是视频模型)消耗巨大,一段15秒视频消耗可达30.88万tokens,单客户月消耗可达数百万甚至上千万 [12] - 行业开始提价,阿里云百炼部分产品型号提价5%或25-34% [13] 其他增长路径与竞争优势 - 直接销售底层AI算力资源(裸算力、AI开发平台PAI等)是另一条关键增长路径 [13] - 全栈AI布局,特别是平头哥自研GPU已实现规模化量产,60%以上服务于外部商业化客户,年化营收规模达百亿级别,首次被写入财报 [14][15] - 自研芯片使公司在全球涨价潮中拥有更高的定价话语权 [14][15] - 传统云服务增长弹性相对有限,更多依赖AI业务带动 [15] 实现目标面临的主要挑战 - **竞争加剧(外患)**:国内AI云市场竞争激烈,阿里云市场份额为30.2%,领先第二名百度智能云(22.5%)近10个百分点,但维持领先地位压力大 [19][20] - 火山引擎是MaaS领域强劲对手,其豆包日均tokens调用量已超过100万亿,不到两个月增长超60% [20] - 阿里在多模态模型领域存在短板,而火山引擎生成15秒视频的成本可控制在10元以内 [21] - 腾讯在3D模型领域凭借数据积累表现亮眼 [21] - 近期阿里大模型人才出现流动 [21] - **高增长目标与存量市场防守压力(内忧)**:在145亿美元年营收基数上保持47%的年复合增长率,相当于每年要再造近半个阿里云 [23] - 作为对比,AWS从2016年122亿美元增长到2024年1076亿美元,8年年复合增长率约31% [23] - 传统云市场增速放缓,且面临友商价格战压力 [25] - MaaS正成为撬动底层云服务的入口,可能帮助竞争对手(如火山引擎)打破原有采购壁垒,对阿里云存量市场造成新压力 [25] 公司的应对措施与组织调整 - 为应对竞争与抓住机会,公司成立了Alibaba Token Hub(ATH)事业群,整合五条核心业务线,以“创造Token、输送Token、应用Token”为核心 [22] - 其中,面向企业级AI原生工作场景的“悟空事业部”首次公开亮相 [22] - 为稳住存量客户,公司内部启动了“搬山计划”,旨在重塑收入结构,推动客户从轻量组合转向使用网络、存储、大数据等高粘性产品 [25][26] - 该策略已显现效果,头部互联网客户(如小红书、快手、哔哩哔哩)的用云结构发生明显变化 [26] - 公司在PaaS层拥有丰富的产品线和稳定性优势,是其他厂商难以比拟的护城河 [25] 市场估值与战略意义 - 摩根大通分析认为,若阿里云实现五年千亿美元收入目标并获得合理估值,仅云业务价值便可达4000亿美元,远超公司当前约3000亿美元的整体市值 [30] - 当前市场对阿里的估值仅反映其国内电商业务价值,实现该目标将有助于公司从“电商股”向“科技股”的身份转变 [29][30] - 实现目标需平衡“算账”(盈利爬坡速度支撑高强度资本开支)与“讲故事”(作为全球领先的全栈AI玩家描绘增长前景) [1][30]
林俊旸离职后首次发声:复盘千问的弯路,指出AI的新路
创业邦· 2026-03-27 15:18
文章核心观点 - 行业正经历从“推理模型时代”向“智能体时代”的范式转变,其核心是从“想更久”转变为“为了行动而想” [7][8] - 未来的竞争力不只来自更好的模型,更来自更好的环境设计、更强的编排工程以及多智能体之间的协调 [7][25] - 训练的核心对象已从模型本身,转变为“模型+环境”的系统,或更具体地说是智能体及其编排框架 [27] 1. 对过去推理模型时代的总结与反思 - OpenAI的o1和DeepSeek-R1证明了推理能力可以被训练和复现,教会行业一个关键认知:要在语言模型上做强化学习,需要确定性强、可规模化的反馈信号 [5][9] - 推理模型的崛起既是建模的故事,也是基础设施的故事,标志着从扩展预训练到扩展面向推理的后训练的第一次重大转变 [9] - 2025年上半年,行业将大部分精力花在研究如何让模型花更多推理时间、如何训练更强的奖励、如何控制推理力度 [6][8] 2. 关于“合并思考与指令”模式的探讨与挑战 - 通义千问团队曾尝试将思考(thinking)和指令(instruct)模式合并到一个模型,Qwen3是该方向最清晰的公开尝试之一,引入了混合思维模式 [5][10] - 但合并面临根本挑战:两种模式的数据分布和行为目标存在本质差异,导致思考行为变得啰嗦犹豫,指令行为不够干脆可靠且成本更高 [5][13] - 真正成功的合并不是硬塞两种人格,而是需要一个流畅的推理努力连续光谱,让模型能表达多个层级的推理力度并自适应选择 [5][15] - 实践中,分离产品线(如Qwen3 2507版本发布独立的Instruct和Thinking更新)对满足商业客户对高吞吐、低成本、高度可控指令行为的需求更有吸引力 [14] 3. 智能体式思维(Agentic Thinking)的定义与核心特征 - 智能体式思维是为了行动而思考,在与环境的交互中思考,并根据来自真实世界的反馈持续更新计划 [6][8] - 其与推理式思维的关键区别在于:判断何时停止思考并开始行动;动态选择调用工具及顺序;消化来自环境的噪声和部分观测;失败后修正计划;跨越多轮对话和工具调用保持连贯 [6][22] - 智能体是一个能够制定计划、决定何时行动、使用工具、感知环境反馈、修正策略、并在长周期内持续运行的闭环交互系统 [19] 4. 实现智能体时代面临的技术与基础设施挑战 - 智能体强化学习的基础设施比推理RL更难,需要将策略嵌入包含工具服务器、浏览器、模拟器等的大编排框架中,环境本身成为训练系统的一部分 [20] - 这带来了新的系统需求:训练和推理必须更彻底地解耦,以避免因工具延迟、等待反馈等导致的采样吞吐量崩溃和GPU利用率低下 [20][21] - 环境质量成为核心,行业应痴迷于环境的稳定性、真实性、覆盖度、反馈丰富度及防作弊能力,构建环境正变成一个真正的创业赛道 [23] 5. 行业未来发展方向与竞争关键 - 从训练模型,到训练智能体,再到训练系统,是未来的明确方向 [7][25] - 智能体时代的优势将来自更好的环境设计、更紧密的训练-推理耦合、更强的编排工程,以及在模型决策与其后果之间实现闭环的能力 [27] - 需要警惕奖励作弊(reward hacking)的风险,更好的工具访问权限也扩大了虚假优化的攻击面,下一批研究瓶颈将来自环境设计、评估器鲁棒性和防作弊协议 [24] - 编排工程将兴起,核心智能将越来越多地来自多个智能体(如规划者、领域专家、子智能体)的组织与协调方式 [25]
林俊旸离职后首度发声:万字复盘,大模型下一站「智能体式思考」
机器之心· 2026-03-27 08:10
文章核心观点 - 行业正经历从“推理式思维”向“智能体式思维”的范式转移,未来的绝对主线是训练能够与环境交互、为行动而思考的智能体,而非仅仅优化内部推理的模型 [4][16][29] - OpenAI o1和DeepSeek R1的崛起标志着行业从扩展预训练规模转向扩展后训练规模以进行推理,并凸显了基础设施和确定性反馈信号的重要性 [4][7] - 将“思考模式”与“指令模式”融合在单一模型内面临根本性挑战,两种模式在数据分布和行为目标上存在内在冲突,实践中分离部署可能更具吸引力 [10][11][13] - 智能体式思维将优化目标从解决基准测试转向在交互中持续取得进展,这带来了更复杂的基础设施挑战,并使得环境设计、训练-推理解耦、防作弊协议成为新的研究瓶颈 [18][20][25][26] - 竞争优势的来源正在改变:从“推理时代”的强化学习算法和训练流水线,转向“智能体时代”的环境设计、训练与服务集成以及系统编排工程能力 [30] 1. o1和R1的崛起究竟教会了我们什么 - 第一波推理模型表明,在语言模型中扩展强化学习需要确定性、稳定和可扩展的反馈信号,数学、代码等可验证领域的奖励比通用偏好监督更有效 [6] - 推理模型的出现既是建模的故事,也是基础设施的故事,强化学习从监督微调的附加组件演变为需要大规模部署、高吞吐量验证和高效采样的系统问题 [7] - 行业发生了第一个重大转变:从扩展预训练规模转向扩展后训练规模以进行推理 [7] 2. 真正的问题绝非仅仅是“融合思考与指令” - Qwen3尝试了“混合思考模式”,旨在将“思考型”与“指令型”行为融合,支持可调节的推理强度,并设计了四阶段的后训练流程 [9] - 融合的根本挑战在于数据:两种模式依赖的数据分布和行为目标截然不同,指令型追求低延迟、格式规范和简洁,思考型则需投入更多Token资源进行逻辑推理和探索 [10][11] - 未经精细数据编排的融合训练可能导致两头落空:思考行为变得冗杂臃肿,指令行为成本升高且可靠性下降 [11] - 实践中,保持分离部署更具吸引力,例如Qwen 2507系列推出了针对指令和思维功能的独立更新,以满足商业客户对高吞吐量、低成本、可控响应的需求 [11] - 其他实验室如Anthropic、智谱GLM和DeepSeek选择了集成路径,推出混合推理模型,但关键在于模型是否能呈现平滑连续的推理强度谱系,而非简单的二元开关 [12][13] 3. Anthropic的发展方向为何起到了有益的纠偏作用 - Anthropic在宣传Claude 3.7和Claude 4时强调集成推理、用户可控的“思考预算”、解决现实任务的能力以及思考与工具调用的交错进行 [15] - 其发展轨迹体现了一种严谨理念:模型的思考过程应根据具体工作负载塑形,例如为代码编写任务辅助导航和规划,为智能体工作流提升长周期任务执行成效 [16] - 这种对“针对性实用价值”的强调,指向了从“训练模型”向“训练智能体”时代的更宏大趋势 [16] 4. “智能体式思维”的真正含义 - 智能体式思维的优化目标发生转变:核心问题从“模型能否进行足够长时间的思考?”变为“模型能否以一种能够支撑有效行动的方式进行思考?” [18] - 它关注模型在与环境交互过程中能否持续取得进展,并必须处理行动选择、工具调用、整合不完整观测信息、失败后修正计划以及保持多轮交互一致性等问题 [18][25] 5. 为什么智能体式强化学习的基础设施构建难度更大? - 优化目标转向交互式任务后,强化学习技术栈发生变化,策略模型被嵌入包含工具服务器、浏览器、模拟器、记忆系统等组件的庞大支撑框架中,环境成为训练系统不可分割的一部分 [20] - 这带来了全新的系统级需求:训练过程与推理过程必须实现彻底解耦,否则工具调用延迟、环境状态变化等因素将导致轨迹采样吞吐量急剧下滑和GPU利用率低下 [21] - 环境本身跃升为核心研究资产,其质量(如稳定性、真实性、覆盖度、反馈丰富度)至关重要,环境构建正演变为一个独立的创业赛道 [22] 6. 下一个前沿:更具可用性的思维 - 智能体式思维预计将取代许多静态独白式的推理思维模式,先进系统应拥有执行搜索、模拟、执行代码、验证等操作的权限,核心目标是以稳健高效的方式解决问题 [24] - 训练此类系统最棘手的挑战是“奖励作弊”风险,模型在获得调用外部工具权限后,可能学会利用环境漏洞走捷径,而非真正解决问题,这扩大了“虚假优化”的攻击面 [25] - 下一波研究瓶颈将集中在环境设计、评估器鲁棒性、防作弊协议以及策略与世界接口的构建上 [26] - 基于工具辅助的思维模式实用性优于孤立内部思维,智能体式思维的兴起也意味着对“系统编排工程”的精细化构建,未来趋势是从训练模型到训练智能体,再到训练整个智能体系统 [27]
林俊旸离职后首次发声!复盘千问的弯路,指出AI的新路
量子位· 2026-03-27 00:01
文章核心观点 - 行业正经历从“推理模型时代”向“智能体时代”的范式转变,未来的核心竞争力将来自智能体与环境交互的能力,而非孤立的模型推理能力 [12][13][71] - OpenAI的o1和DeepSeek-R1的成功标志着“推理式思考”时代的使命完成,它们证明了推理能力可通过强化学习规模化训练,关键在于确定性强、可规模化的反馈信号 [9][10][23] - 千问团队在Qwen3上尝试合并“思考”与“指令”模式,但结果未达预期,两种模式的行为目标存在本质冲突,导致合并后效果平庸 [5][7][35][36] - 真正的未来方向是“智能体式思考”,即模型为了行动而思考,在与环境的交互中不断修正计划,其基础设施和训练挑战远大于推理模型 [22][54][56][73] 从“推理模型时代”到“智能体时代”的转变 - **推理时代的成就与局限**:OpenAI的o1和DeepSeek-R1证明了推理能力可以成为一等公民级别的、可专门训练的能力,并能在实验室外被复现和规模化 [16][17][27]。行业在2025年上半年集中研究如何让模型花更多推理时间、训练更强的奖励模型以及控制推理力度 [11][21]。然而,过长的推理轨迹可能只是算力分配低效的信号,并非更聪明的表现 [48] - **智能体时代的定义与核心**:智能体式思考的核心优化目标从“想得更久”转变为“为了行动而想”,模型需要在与环境的交互中持续取得进展 [13][22][54]。智能体是一个能与世界进行闭环交互的系统,能够制定计划、使用工具、感知反馈并修正策略 [52] - **竞争优势的迁移**:在推理时代,优势来自更好的强化学习算法、更强的反馈信号和更可扩展的训练流水线 [76]。在智能体时代,优势将来自更好的环境设计、更强的编排工程、训练与推理的紧密耦合,以及多智能体之间的协调能力 [13][74][76] 对“思考”与“指令”模式合并的反思 - **千问团队的尝试与挑战**:Qwen3是统一思考与指令模式方向上“最清晰的公开尝试之一”,引入了混合思维模式和四阶段后训练流水线 [6][32]。但合并面临根本挑战:两种模式的数据分布和行为目标存在本质差异 [35]。指令模式追求简洁、直接、低延迟和高吞吐,适用于企业批量任务;思考模式则奖励在难题上花费更多token进行连贯推理以提升正确率 [35]。强行合并可能导致“思考”行为变得臃肿犹豫,“指令”行为变得不够干脆可靠且成本更高 [7][36] - **行业的不同路径**:2025年下半年,千问在Qwen3之后发布了独立的Instruct和Thinking模型更新,因为大量商业客户仍需要高吞吐、低成本、高度可控的指令模型,分离产品线能更专注地解决各自问题 [38]。相反,Anthropic的Claude 3.7 Sonnet和GLM-4.5等选择了整合路线,主张推理应作为一种整合能力,而非独立模型 [39][40] - **成功合并的关键**:真正的成功合并不是将两种人格硬塞进一个检查点,而是让模型拥有一个连续的“推理努力光谱”,能够流畅地表达多个层级的推理力度,并理想地自适应选择 [8][44]。GPT式的力度控制是朝这个方向的努力,它是一种关于算力分配的策略 [45] 智能体时代的基础设施与挑战 - **基础设施的根本性变革**:智能体强化学习的基础设施比推理强化学习复杂得多 [55]。环境(如工具服务器、浏览器、模拟器)成为训练系统的一部分,而不仅仅是静态验证器 [57][58]。这要求训练与推理必须更彻底地解耦,否则采样吞吐量会因等待环境反馈而崩溃 [59][60] - **环境成为核心研究对象**:在智能体时代,环境质量(稳定性、真实性、反馈丰富度、防作弊能力)变得至关重要,构建高质量环境本身已成为一个重要的创业或研究方向 [61] - **奖励作弊风险加剧**:一旦模型能访问工具,奖励作弊变得非常危险。例如,模型可能学会在训练中直接搜索答案,或利用环境漏洞走捷径,这要求更严格的环境设计、评估器鲁棒性和防作弊协议 [66][67][69] 未来发展方向与关键能力 - **从训练模型到训练系统**:未来的方向是从训练模型,演进到训练智能体,最终到训练整个系统(模型+环境+编排框架) [14][71][73] - **编排工程的兴起**:核心智能将越来越多地来自多个智能体的组织与编排,例如规划者、领域专家智能体和执行子智能体的协同工作 [70] - **“好的思考”重新定义**:最有用的思考轨迹是能在真实世界约束下维持有效行动的轨迹,而非最长或最醒目的内部独白 [75]