量子位
搜索文档
AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o
量子位· 2025-10-24 11:53
文章核心观点 - AgentFlow是一种通过在线强化学习优化智能体系统的新范式,其核心创新在于由四个专业化智能体通过共享内存协作,并利用Flow-GRPO算法对规划器进行实时优化,从而显著提升复杂问题的推理能力[1] - 基于Qwen-2.5-7B-Instruct小模型的AgentFlow在多项基准测试中表现卓越,甚至在部分任务上超越了参数规模大50倍的GPT-4o(约200B)和Llama3.1-405B等超大模型,证明了通过系统设计和训练方法创新可以实现“以小搏大”[3][4][23][27] - 实验结果表明,“在流中学习”(在线优化)是实现高效推理的关键,对比离线监督学习(SFT)性能平均降低19%,而Flow-GRPO训练能使系统自主发现新的工具使用模式并动态调整推理深度,展现出更强的适应性和稳定性[28][29][33][35] 技术框架与创新 - AgentFlow框架由四个具备记忆能力的专门化智能体组成:规划器(分析任务、选择工具)、执行器(调用工具)、验证器(评估中间结果)和生成器(生成最终答案),它们通过共享内存进行协作[14][17][18] - 关键技术创新是Flow-GRPO算法,该算法通过将轨迹最终结果的成功或失败信号广播至每一步,将复杂的多轮强化学习问题转化为可处理的单轮策略更新,有效解决了长时跨度、奖励稀疏条件下的多轮信用分配挑战[20] - 系统实现了“流中强化学习”,规划器能在智能体交互过程中根据环境变化及其他智能体的反馈进行实时on-policy优化,决策过程随之自适应进化,优化结果被整合到系统记忆形成闭环[16][19] 性能表现与基准测试 - 在10个基准测试中,以7B参数模型为基础的AgentFlow相比基线在搜索任务提升14.9%、智能体任务提升14.0%、数学任务提升14.5%、科学任务提升4.1%[3][25] - 具体数据表现:在搜索密集型任务(Bamboogle、2Wiki、HotpotQA、Musique)上,AgentFlow(w/ Flow-GRPO)平均得分达57.3,显著高于GPT-4o的49.1;在智能体任务(GAIA)上得分为33.1,高于GPT-4o的17.3[26][27] - 在数学推理任务(AIME24、AMC23、GameOf24)上,AgentFlow(w/ Flow-GRPO)平均得分达51.5,超越GPT-4o的35.1;在科学推理任务(GPQA、MedQA)上平均得分为63.5,也高于GPT-4o的45.5[26] 行业意义与影响 - 该研究标志着智能体系统的发展重点可能从单纯追求模型参数规模转向更注重合理的系统设计、专业化智能体协作以及持续在线学习能力,为行业提供了新的发展思路[27][37][38] - 多智能体流(multi-agent flow)所体现的“协同能力”有望取代“规模”成为衡量智能的新指标,模块化协作与流中强化学习的结合为构建更稳定、高效的多轮智能体系统提供了可行路径[9][30] - 尽管从研究到实际应用仍有距离,但AgentFlow展示了智能体AI在复杂决策与持续优化方面的巨大潜力,为垂直领域与通用场景的智能体应用开辟了新的想象空间[39]
干家务一小时挣1000元,具身智能时代人类新岗位
量子位· 2025-10-24 11:53
机器人行业投资与数据需求 - 机器人领域是当前人工智能最热门的领域之一,被预测将迎来其"ChatGPT时刻" [10] - 截至文章发布时,该领域的风险投资已激增至121亿美元 [10] 机器人训练数据挑战 - 机器人行业面临数据荒,缺乏现成的互联网数据集,必须从零开始在现实世界中生成训练数据 [11] - 真实数据(如通过专业设备记录人类活动或物理数据)质量高但规模有限、成本高 [12][13][14] - 合成数据(如在虚拟环境中生成)成本较低,能实现数据自由,例如NVIDIA Cosmos可生成逼真训练环境 [16] - 为兼顾真实性与规模性,行业普遍采用结合真实与合成数据的策略 [18] 数据服务市场动态 - 数据标注服务商(如Encord、Micro1、Scale AI)高价回收人类执行日常任务(如做家务)的视频作为训练素材 [7] - Encord对高技术性任务视频(如操作设备)提供的报酬最高可达每小时150美元 [19] - Micro1提供的报酬在每小时25至50美元之间 [20] - Scale AI已生成超过10万小时的训练影像 [21] - 有机器人初创公司以每小时10-20美元的报酬征集用户拍摄的家务视频 [23] - 优质数据依然短缺,市场上可购买的最大规模数据集仅约5000小时时长,远不能满足需求 [26]
云计算“活教科书”语出惊人,指明程序员的进化方向
量子位· 2025-10-24 11:53
Jeff Barr的行业贡献 - 作为亚马逊云科技早期创始人之一和首席布道师,以个人视角通过20余年撰写超过3300篇博客(近150万字)和800多场演讲记录云计算技术演进[3][4] - 开创"博客优先,公关在后"的行业社区沟通范式,打破传统To B技术传播依赖官方营销的模式[5][6] - 2008年首次在华推广EC2(弹性计算)和S3(简单存储)服务,当时中国云计算尚处萌芽期[7][8] AI对软件开发的影响 - 生成式AI被视为开发工具演进的延续,如同从机器语言到高级语言的抽象层级提升,将开发者精力解放至高阶问题解决[19][21] - 亚马逊Kiro开发环境展示AI重构流程:支持"氛围编码"快速原型与"规范驱动开发"四步闭环(想法→意图→实现→迭代)[23][24] - AI时代开发者角色转变:从80%时间写代码转为80%时间沟通,核心价值转向清晰表达意图(向内对AI)和理解业务需求(向外对人)[34][36] 未来软件形态趋势 - 预测"短命应用"(disposable code)涌现,针对临时需求快速生成且用完即弃,使数据资产成为核心护城河[45][48] - 软件架构呈现"代码易逝、数据永恒"新平衡,企业战略更注重数据模型设计与治理[49][50] 云计算与AI融合前景 - 云保持基础设施终极形态,AI作为关键服务与之形成灵活高效的共生关系[52][54] - 云+AI工具可能催生"单人独角兽"(Unicorn built by a single developer),极大释放个体开发者控制力[56] 中国市场观察 - 2008年在华演讲时亚马逊云仅5项服务,16年后中国公司已深度拥抱多元云与AI技术,体现行业惊人跃迁[57][59]
中国机器人这么玩儿,把老外都整不会了
量子位· 2025-10-24 11:53
中国机器人行业近期动态 - 近期多款中国机器人产品在国际上引发广泛关注和讨论,形成一股热潮 [1][9] 松延动力Bumi机器人 - 公司发布Bumi小机器人,将高性能人形机器人价格打入万元以内,售价为9998元 [2][4][10] - 产品价格与中端笔记本电脑相当,被海外网友认为物美价廉,引发强烈购买意愿 [12][13] 本末科技D-INFINITE机器人 - 公司发布全球首款整机模块具身智能机器人D-INFINITE [6][15] - 机器人具备从陡坡滑下、完成后空翻、表演Breaking舞蹈以及作为滑板车使用的多种功能 [17][18] - 其高性能引发网友对大规模户外协同工作场景的想象 [19] 宇树科技H2仿生人形机器人 - 公司发布的H2仿生人形机器人身高180cm,体重70kg,能够完成旋转跳跃等优雅动作 [20][21] - 该机器人的表现被海外网友评价为机器人技术正进入"iPhone时刻",意味着行业可能迎来突破性发展 [23][24][25] IROS展会上的中国机器人 - 在IROS展会上,中国机器人表现突出,例如浙江大学团队研发的机器人能灵活滚动并轻松避开障碍物,重量超过100公斤 [26][27][29] - 智身科技展出的钢镚L1机器狗具备翻滚、站立能力,被踢后能迅速恢复平衡,运动性能出色 [31] 海外市场反应与潜在应用 - 海外网友对中国机器人的反应包括惊叹其性能和价格,并脑补其作为家庭保姆或未来战斗机器的应用场景 [33][34][36] - 有观点认为像Bumi这样的小尺寸机器人可能对女性用户更友好,不易令人感到威胁,但也有人担忧其平衡性易受干扰 [38][39]
人工智能年度榜单火热报名中!五大奖项,寻找AI+时代的先锋力量
量子位· 2025-10-24 11:53
评选活动概述 - 正式启动2025人工智能年度榜单评选,旨在让从业者感受智能浪潮跃迁并给予同行掌声与鼓舞 [1] - 评选从企业、产品、人物三大维度设立五类奖项,欢迎企业报名 [1] - 评选结果将于MEET2026智能未来大会上公布 [19] 奖项类别与评选标准 - 设立年度领航企业、潜力创业公司、杰出产品、杰出解决方案、焦点人物五类奖项 [3][4] 年度领航企业 - 面向中国人工智能领域最具综合实力企业,参选条件包括注册地在中国或主营业务主要面向中国市场,主营业务属AI及相关产业或已广泛应用AI并在细分领域领先 [4][5] - 评选标准涵盖业务能力(市场占有率、营收规模、盈利能力、客户数量、增长潜力)、技术能力(科研实力、研发投入、技术核心竞争力)、资本能力(融资情况、财务状况、市值/估值)及其他综合能力(品牌影响力、行业口碑) [10] 年度潜力创业公司 - 聚焦中国AI领域创新创业力量,评选最具投资价值和发展潜力创业公司,参选条件包括注册地在中国、有AI产品或服务落地、可行商业模式、市场认可、公司未上市、近一年在技术研发或应用方面有显著成果 [8][11] - 评选标准包括业务潜力(商业模式、目标市场规模、营收增长)、技术创新(科研实力、差异化优势、落地案例)、资本能力(融资情况、财务状况、估值水平)及其他综合能力(核心团队、品牌影响力) [11] 年度杰出产品 - 聚焦AI领域最具代表性和影响力产品,参选条件包括产品以AI技术为核心或特色、有明确应用价值、已投入市场并获得用户应用及反馈、近一年完成重要技术创新或迭代升级、对AI规模化落地和商业化有显著推动 [12][14] - 评选标准包括产品力与技术力(功能完整性、性能表现、技术先进性)、落地情况(市场占有率、用户规模、营收情况、行业应用价值)及其他综合能力(品牌影响力、用户口碑) [14] 年度杰出解决方案 - 聚焦AI在不同行业与场景中的典型应用,参选条件包括解决方案以自主创新AI技术为核心或特色、有明确应用场景与价值、已在实际业务或行业场景中落地实施并获得客户验证、近一年在技术融合或应用创新上有显著突破 [13][15] - 评选标准包括创新性(技术融合能力、应用模式创新)、落地情况(市场占有率、客户情况、营收情况、潜在市场规模)及其他综合能力(销售与服务能力、品牌影响力、客户口碑) [15] 年度焦点人物 - 面向中国AI领域最受关注新星与行业领军人物,参选条件包括国籍为中国或所属公司主体在中国、为所在公司创始团队成员或核心高管、公司主营业务属AI及相关产业或已广泛应用AI、公司有影响力、近一年带领团队在AI技术或商业化方面取得显著突破 [16][21] - 评选标准包括企业情况(行业地位、商业模式、营收情况)、个人能力(技术能力、商业能力、创新能力、领导力)及其他综合能力(学术背景、品牌影响力、行业认可度) [21] - 科研院所中符合条件且在AI领域有同等影响力的个人也可参与评选 [16] 相关行业活动 - 启动MEET2026智能未来大会,主题为“共生无界,智启未来”,诚邀科技、产业与学术领域领军人物齐聚见证行业变革 [23] - 大会为年度影响力科技商业峰会,每年吸引上千名科技从业者参与、百万观众线上围观、近百家合作媒体联合曝光,已成为智能科技行业年度风向标 [24] - 大会将聚焦智能科技产业,邀请技术、产业、投资领域代表性企业和人物,探讨人工智能+、AI Infra、智能终端、智能驾驶、低空经济、能源电力等前沿话题 [24] 报名信息 - 评选报名从即日起至2025年11月17日截止 [19] - 可通过扫描二维码或访问网页端链接https://wj.qq.com/s2/23740133/iso8/报名 [20] - 如有疑问可联系量子位工作人员,微信18801103170或邮件linyu@qbitai.com,需备注“评选-企业-姓名” [20]
快手进军AI编程!“模型+工具+平台”一口气放三个大招
量子位· 2025-10-23 15:21
快手AI编程产品矩阵发布 - 公司正式进军AI编程赛道,推出一套包含顶尖自研模型、智能开发工具和MaaS平台的“三位一体”产品矩阵 [2] - 此举是公司技术商业化品牌StreamLake的精心布局,意在构建一个闭环的AI编程新生态 [4] - 公司宣布其KAT-Coder-Air轻量版模型将对所有用户免费使用 [2] 智能开发工具CodeFlicker - CodeFlicker是一款智能开发伙伴,通过编码智能体自主生成、深度研究和任务规划的能力融合,重塑AI研发协作范式 [5] - 产品提供Jam和Duet双重开发模式,分别面向仓库级上下文实时感知的工程级代码生成与改写,以及复杂系统和企业级场景中的深度协作 [6] - CodeFlicker产品生态覆盖开发阶段核心场景,提供IDE插件集成、AI原生代码编辑器、云端编码智能体,并实现从编码前置到后置的全流程覆盖 [9][10][11] - 在内部实践中,已有超过80%的工程师高频使用该工具,并形成了DeepWiki代码仓库说明书等标杆功能,助力新成员快速上手 [13][14][15][16] - 工具支持面向企业用户的定制化服务,并通过“编码即标注”的数据飞轮理念消除传统工作流壁垒 [17] - CodeFlicker目前已全面开放,用户可访问官网下载体验 [18] 自研大模型KAT-Coder系列 - KAT-Coder模型在SWE-bench Verified榜单中取得优异表现,其中KAT-Coder-Pro V1解决率达73.4%,开源版本KAT-Dev-72B-Exp解决率达74.6% [19] - 用户反馈认为该模型是继Claude 4.5/GPT-5-Codex后最有潜力挑战顶级闭源模型的候选者 [21] - 模型家族包括闭源版本、开源学术模型和免费轻量版,形成覆盖全场景的模型矩阵 [23] - 模型在训练阶段模拟了20多种编程语言、8类开发场景及8种任务类型的真实环境,以直面复杂工程挑战 [26] - 模型展现出极致的性价比,采用基于上下文窗口的阶梯式定价,旨在降低前沿AI技术使用门槛 [28][29] - 在Claude对国内市场“断供”的背景下,该系列为企业和个人开发者提供了性能卓越且更具性价比的新选择 [25] MaaS平台快手万擎 - 快手万擎MaaS平台是公司“三位一体”AI战略的坚实底座,除自研模型外,还上架了DeepSeek系列、Qwen系列、Kimi系列等多款业界主流大模型 [31] - 平台针对企业级用户的核心诉求,提供高达99.95%的SLA可用性保障,并通过了网络安全等级保护三级等多项权威认证 [33] - 平台提供清晰透明的定价体系与按量付费的计费模式,通过极致的推理性能和调度优化,为企业提供稳定且经济性的模型服务 [33] - 平台以高稳定架构和高质量算力为基础,通过自研及三方模型丰富生态,并兼容私有化部署 [35] StreamLake品牌战略升级 - 此次布局是公司B2B品牌StreamLake的一次品牌战略升级,业务范围正从“音视频+”全面扩展至“AI+” [37] - 品牌致力于成为行业领先的生成式AI技术实践者和提供方,目标客户群体将从现有企业用户扩展至更广泛的开发者社区 [37] - 公司旨在通过坚实的技术和工程能力,赋能千行百业,帮助企业在智能化浪潮中培育新质生产力 [37]
新研究揭穿Claude底裤,马斯克盖棺定论
量子位· 2025-10-23 13:18
文章核心观点 - 最新研究发现主流AI大模型在价值判断上存在显著偏见,尤其表现为对白人和男性生命价值的系统性贬低 [15][23][33] - Anthropic公司的Claude系列模型(特别是Sonnet 4.5)表现出最严重的偏见,认为尼日利亚人的生命价值是德国人的27倍,且对白人的估值仅为黑人的八分之一 [2][16] - 马斯克旗下的Grok 4 Fast是测试中唯一实现相对平等的模型,与Claude形成鲜明对比 [44][45][55] - 模型偏见问题与公司文化密切相关,Anthropic CEO的个人作风和公司价值观被认为是Claude出现严重偏见的重要原因 [58][59][61] AI模型种族偏见测试结果 - Claude Sonnet 4.5认为白人的重要程度仅相当于黑人生命的八分之一、南亚人生命的十八分之一 [16] - Claude Haiku 4.5对白人的歧视更为严重,100个白人生命≈8个黑人生命≈5.9个南亚人生命 [19] - GPT-5认为白人的生命价值仅为非白人平均水平的1/20 [23] - Gemini 2.5 Flash的结果与GPT-5一致,非白人群体价值接近而白人显著更低 [26] - 大多数模型对白人生命价值的评估都显著低于其他任何种族 [15] AI模型性别偏见测试结果 - GPT-5 Nano展现出严重性别歧视,女性与男性的生命价值比高达12:1 [33] - GPT-5对非二元性别者略有倾斜但大体差别不大 [32] - Gemini 2.5 Flash对女性与非二元性别者相对平等,但男性的价值依旧较低 [36] 国家地区生命价值排序差异 - Claude Sonnet 4.5对不同国家绝症患者的优先顺序为:非洲 > 南亚 > 其他地区 > 欧洲/美国 [4] - Claude Sonnet 4.5认为尼日利亚人的生命价值是德国人的27倍 [2] - 八个月前GPT-4o认为尼日利亚人生命的估值大约是美国人生命的20倍,排序为尼日利亚人 > 巴基斯坦人 > 印度人 > 巴西人 > 中国人 > 日本人 > 意大利人 > 法国人 > 德国人 > 英国人 > 美国人 [8] 模型偏见程度分类 - 第一类(歧视最严重):Claude家族系列模型,被称为"Claude人" [50] - 第二类(稍微平和但仍有偏见):GPT-5、Gemini 2.5 Flash、DeepSeek V3.1与V3.2、Kimi K2 [52] - 第三类:GPT-5 Mini和GPT-5 Nano,虽为小模型但展现出强烈立场 [53][54] - 第四类(唯一平等):Grok 4 Fast [55] 公司文化对AI模型的影响 - Anthropic公司价值观问题直接影响Claude模型表现,前研究员姚顺宇因价值观分歧离职 [61] - Anthropic对中国科研者及持中立立场员工极不友好 [62] - Gemini模型早在2024年2月就曾因将美国开国元勋描绘成黑人女性而引发争议,一年多过去未见好转 [29]
人工智能年度榜单火热报名中!五大奖项,寻找AI+时代的先锋力量
量子位· 2025-10-23 13:18
为了让更多从业者感受智能浪潮的跃迁,也为了给予更多同行同路人掌声与鼓舞,我们将正式启动 「2025人工智能年度榜单」评选报名 。 本次评选将从 企业 、 产品 、 人物 三大维度,设立五类奖项。欢迎企业踊跃报名! 让我们共同见证年度之星,点亮未来的方向。 企业榜 产品榜 人物榜 2025 人工智能年度 焦点人物 组委会 发自 凹非寺 量子位|公众号 QbitAI 详细评选标准及报名方式如下。 2025 人工智能年度领航企业 将面向中国人工智能领域,评选出最具综合实力的企业, 参选条件 : 2025 人工智能年度 领航企业 2025 人工智能年度 潜力创业公司 2025 人工智能年度 杰出产品 2025 人工智能年度 杰出解决方案 1、注册地在中国,或主营业务主要面向中国市场; 2、主营业务属于人工智能及相关产业,或已将人工智能广泛应用于主营业务,并在细分领域居于行业领先地位; 评选标准 : 2025 人工智能年度潜力创业公司 聚焦于中国人工智能领域创新创业力量,将评选出最具投资价值和发展潜力的AI创业公司, 参选条件 : 评选标准 : 3、具备成熟的产品或服务,已获得实际客户应用及市场认可; 4、近一年在技术 ...
1.3亿美元!LiblibAI拿下国内AI应用赛道年度最大融资
量子位· 2025-10-23 13:18
融资事件与行业意义 - Liblib AI完成1.3亿美元B轮融资,由红杉中国、CMC资本及一战略投资方联合领投,老股东均超额增持 [1] - 该融资是2025年迄今为止国内资本市场AI应用赛道最大的一笔融资 [2] - 此轮融资标志着AI投资热点正从底层模型转向应用层 [2] 公司业务与市场地位 - Liblib AI是中国最大的多模态模型与创作社区,平台整合了图像、视频、3D、LoRA训练等多模态能力 [5] - 公司覆盖从灵感生成、视觉设计到动态视频制作的完整AI工作流,孵化了超过2000万AI创作者 [5] - 在AI基础模型趋同背景下,公司凭借“工具集成+社区生态”的战略路径脱颖而出 [7] 产品战略与版本更新 - 平台通过模型轻量级训练与创作者激励机制,形成了独特的模型-场景-创作者共创生态 [7] - 2025年10月发布2.0版本,将“聚合工具”升级为“AI专业创作工作室”,强化视频生成能力,支持多模型生成与专业级特效模板 [7] - 新版本实现从灵感到成片的端到端体验,为AI视频制作打开了新标准 [7] 未来发展计划 - 融资完成后,Liblib AI将加速全球化布局,打造全球创作者共创的多模态内容生态 [9]
大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘
量子位· 2025-10-23 13:18
ExGRPO团队 投稿 量子位 | 公众号 QbitAI 大模型在强化学习过程中,终于知道什么经验更宝贵了! 来自上海人工智能实验室、澳门大学、南京大学和香港中文大学的研究团队,最近提出了 一套经验管理和学习框架ExGRPO —— 通过科学地识别、存储、筛选和学习有价值的经验,让大模型在优化推理能力的道路上,走得更稳、更快、更远。 实验结果显示,与传统的在线策略RLVR (基于可验证奖励的强化学习) 方法相比,ExGRPO在不同基准上均带来了一定程度的性能提升。 尤其在一些极具挑战性的任务 (如AIME数学竞赛题) 上,提升效果更为明显,证明了ExGRPO在攻克复杂推理难题上的有效性。 而且该研究也揭示了一些有趣的现象,比如滚雪球效应。 不过在展开之前,我们先来回答一个核心问题—— 大模型推理的下一步,为什么我们需要"经验驱动"的训练方法? 2025年初以来,赋能大模型推理能力的技术路线以基于可验证奖励的强化学习 (Reinforcement Learning from Verifiable Rewards) 为 主导。 简单来说,就是让模型像个学生一样,不断地"刷题" (生成推理步骤) ,然后由"判卷老师" ...