Workflow
多模态大模型
icon
搜索文档
ICLR 2026|MathForge:用难题驱动强化学习,提升大模型数学推理
机器之心· 2026-04-26 10:31
核心观点 - 研究提出MathForge框架,其核心观点是:在通过强化学习提升大模型数学推理能力时,应聚焦于“更难但可学”的问题,而非最简单或完全不会的问题,即“Harder Is Better”[3][40][41] - 该框架从算法和数据两端同时发力,通过难度感知的组策略优化(DGPO)和多方面问题改写(MQR)双轮驱动,显著提升模型性能[10][16][40] 现有方法的局限性 - 算法层面:广泛使用的GRPO方法在参数更新上会天然偏向中等难度问题,对过难和过易问题的更新幅度会被压低,导致最有训练价值的“难而可学”问题未能得到足够重视[7][8][17] - 数据层面:已有的数据增强方法要么难以保证新生成题目的答案质量,要么仅做简单重述而未真正提高题目内在难度[9] MathForge框架的算法创新:DGPO - DGPO通过“先平衡,再重加权”的两步过程,使模型更有效地学习难题[11] - 第一步(DGAE):用平均绝对偏差(MAD)替代标准差进行优势归一化,将不同难度题目的参数更新幅度拉平,不再天然偏向中等难度题[12][18] - 第二步(DQW):在更新幅度平衡后,根据题目当前平均正确率估计难度,对更难但仍有学习信号的问题赋予更高权重[19] - 算法分析表明,DGAE与DQW两者互补且均为必要设计,且DGPO可作为通用增强机制与多种现有强化学习方法结合,带来额外收益[35][36] MathForge框架的数据创新:MQR - MQR通过三种策略在保持标准答案不变的前提下,系统性地将原题改写得更有挑战性,以提供更有价值的训练样本[20][28] - **Background策略**:加入干扰性背景信息,迫使模型从复杂叙述中提取关键数学条件[22][23] - **Term策略**:为核心概念引入新的抽象术语,迫使模型理解定义和结构而非依赖表面表达[24][25] - **Sub-Problem策略**:将关键数值条件改造成需先行求解的子问题,增加推理链条长度和复杂度[26][27] - 实验表明,三种改写策略单独使用均有效,组合使用效果最佳,且其价值在于提升了样本质量而非简单增加数量[37][38] 实验结果与有效性验证 - **整体性能提升**:完整的MathForge框架在多个数学推理数据集(AIME24, AIME25, AMC23, MATH500, Minerva, Olympiad)上,相比强基线GRPO带来了平均超过4.5个百分点的显著提升[30][31] - **模型普适性**:MathForge在不同规模(从1.5B到7B参数)和不同类型的基础模型上均能带来约3到4.5个百分点的稳定收益,表明其是一种普适的训练原则而非针对特定模型的调参技巧[33] - **任务泛化性**:DGPO被成功应用于多模态数学推理场景,相比GRPO提升超过2个百分点,表明其思路具有更广泛的适用性[36] - **训练动态优化**:采用DGPO训练的模型不仅准确率更高,且输出更简短,表明其学会了更高效的推理路径而非冗长的推理[38]
AI在夜晚集体失明!90段视频+12类问题实测模型夜盲程度|ICLR 2026
量子位· 2026-04-24 13:49
研究背景与问题定义 - 第一人称视觉在智能眼镜、可穿戴助手、具身智能和机器人学习等方向应用快速升温,但现有基准大多建立在白天场景之上,绕开了夜间这一真实世界中最棘手的部分[6] - 夜间环境不只是“把亮度调低”,会同时改变目标可见性、纹理细节、光源分布、动态范围与时序稳定性,这些问题还会被手部遮挡、视角快速移动、交互距离近等因素进一步放大[6][7] - 现有主流多模态大模型在夜间会出现能力同步退化,在物体识别、文字读取、动作判断、空间定位等基础能力上表现不佳,并非只是“略差一些”[7] EgoNight基准的核心创新 - 该研究提出了首个系统聚焦于“夜间第一人称视觉理解”的综合基准EgoNight,被ICLR 2026收录,将长期被回避的问题变成了可系统测量、公平比较的研究对象[3][8] - 基准的核心设计是引入“昼夜对齐视频”,在相同或高度对齐的场景、动作与时间线上,同时保留白天与夜晚版本,再利用白天参考辅助夜间问答构建,以解决夜间视频标注困难的问题[9][11] - 基准包含三个数据子集:真实采集的EgoNight-Sofia、由Blender/Infinigen构建的EgoNight-Synthetic,以及来自Oxford Day-and-Night的夜间片段[13] 基准任务与数据构成 - 核心任务为EgoNight-VQA,基于数据构建了3658组问答,覆盖12种题型,并投入300多小时进行人工复核[4][15] - 任务设计分为两类:第一类是可做昼夜直接对比的配对问答,用于衡量模型从白天迁移到夜晚的性能下降;第二类是夜间特有或更适合夜间设问的非配对问答,用于捕捉低光环境的特有难点[18][19] - 除了视觉问答,还扩展了两项辅助任务:夜间第一人称深度估计,以及昼夜对应检索,以同时评估模型在低光下的几何感知和跨条件匹配能力[22][23] 实验结果与核心发现 - 在EgoNight-VQA上,当前表现最好的模型如GPT-4.1和Gemini 2.5 Pro的平均准确率也仅为30.93%和30.60%,距离可靠可用仍有相当距离[26] - 几乎所有主流多模态大模型从白天转到夜晚都会显著掉点,且感知驱动的任务通常比推理导向的任务跌得更厉害,表明夜间理解的瓶颈首先卡在“视觉信号不够稳”上[26][30] - 在辅助任务中,无论是深度估计还是昼夜对应检索,低光都会明显削弱模型的几何与跨条件匹配能力[31] 性能提升路径探索 - 基于Qwen2.5-VL-7B的系统微调实验显示,全量微调带来最明显的整体提升,相比零样本基线有9.21%的绝对准确率增益[33][34] - 如果主要微调视觉编码器,收益更集中在物体和文字等感知类任务;而微调语言模型部分,则能同时改善感知与推理,说明夜间理解也与模型如何调用语言先验密切相关[34] - 合成数据到真实场景的迁移有效:仅用合成夜间数据训练,也能迁移到真实夜间场景,为高成本的夜间数据采集与标注提供了更可扩展的推进路径[35]
合合信息20260421
2026-04-23 10:01
纪要涉及的行业或公司 * 公司为合合信息[1] 核心观点与论据 **财务业绩表现** * 2025年总营收18.1亿元,同比增长25.83%[2] * 2025年Q1至Q4收入增速逐季加速,分别为21%、24%、27%和30%[4] * 2025年归母净利润4.54亿元,同比增长13.39%[2] * 2025年扣非后归母净利润4.02亿元,同比增长9.6%[5] * 2025年整体毛利率为86.7%,同比增加2.42个百分点[5] * 2025年经营性现金流6.06亿元,同比增长33%[5] * 预计2026年收入约为22亿元,利润约为5.6亿元[13] **业务板块拆分与进展** * **C端业务**:2025年收入15.44亿元,同比增长28%[5] * 智能文字识别C端业务(主要为扫描全能王)收入14.86亿元,同比增长30%[5] * 商业大数据C端业务收入0.58亿元[5] * 扫描全能王月活用户超过1.5亿,累计用户超6亿[7] * 扫描全能王2025年7月推出CSAI新功能,2026年定位深化为AI商务助手[7] * **B端业务**:2025年合计收入2.57亿元,同比增长14.56%[5] * 智能文字识别B端业务同比增长16%[5] * 商业大数据B端业务同比增长13%[5] * 智能文档处理业务(TextIn/DocFlow)2025年收入1.8亿元,同比增长35%,毛利率72%[2][9] * **海外业务**:2025年海外收入6.24亿元,同比增长34%[2][5] **用户与市场表现** * 2025年公司MAU(月活跃用户数)达到1.9亿,同比增长11%[2][5] * 2025年累计付费用户数达到987万,同比增长33%,付费用户增速远超活跃用户增速[2][5] * 奇信宝(奇云慧眼)月活用户超过1,500万,C端年收入超过5,000万元[7] * 商业大数据产品AI风控日均扫描量超过2000万次,拥有超过2000家标杆客户[10] **新产品与新技术布局** * **AI垂直产品**: * 教育产品“批改酱”上线三个月国内用户达300万[2][9] * 教育产品海外版Quasi AI已进入12个国家的教育榜前十[2][9] * 健康产品AI Diet在海外首发,月活已超过80万[9] * **AI基础设施与产品**: * 自研多模态文本大模型于2025年全面产品化,具备长文本理解、复杂文档结构化及AI鉴伪能力[2][11] * 2026年开放企业API,可面向企业进行私有化部署[11] * 2026年上线文档、商务、开发三类Agent产品,已服务超过300家客户[2][11][12] * 发布了智能文档领域的首个MCP Server服务协议,与亚马逊云、火山引擎等深度合作[9] **估值与股价分析** * 当前PE估值处于历史50%分位左右,PS估值在31%分位左右[3] * 基于2026年预测数据,金山办公PE约50倍,福昕软件PE约72倍,行业平均约60倍,合合信息目前不足50倍[3] * 基于2026年预测数据,金山办公PS约16倍,福昕软件PS约6倍,行业平均约11倍,合合信息约12倍[3] * 预计2026年对应PE为47倍,PS约为12倍[2][13] * 展望2027年,预计PS将降至10倍左右,PE不足40倍[13] * 股价自2025年9月解禁后波动,解禁次日触及146元低点,后在AI应用催化下于2026年1月达到368元高点,涨幅约1.5倍,随后回调至164元,4月以来反弹约18%[3] 其他重要内容 * 利润增速低于收入增速,主要因公司为拓展海外市场和推广新产品增加了销售与研发费用投入[5] * 核心的C端智能文字识别业务毛利率高达90%左右[5] * B端业务策略是在稳固大客户基础上,持续导入AI功能与产品[5] * 智能文档处理产品DocFlow可实现自动分类、提取、审核、流转的全流程自动化[9] * 公司计划向法律、金融等更多行业进行新产品布局[9] * 公司增长逻辑清晰,C端业务为基本盘,B端高增长,Agent产品打开未来成长空间,AI技术重塑基石产品并催化新产品拓展,全球化扩张带来丰厚回报[13]
合合信息2025年年报点评:智能文字识别驱动高增,现金流表现亮眼
浙商证券· 2026-04-22 13:24
证券研究报告 | 公司点评 | 软件开发 合合信息(688615) 报告日期:2026 年 04 月 22 日 智能文字识别驱动高增,现金流表现亮眼 ——合合信息 2025 年年报点评 全年三费合计 11.57 亿元,同比增长 28.06%,三费率约 63.94%,较上年略有抬 升,其中销售费用 5.92 亿元,同比增长 37.88%;管理费用 0.92 亿元,同比增长 9.0%;研发费用 4.74 亿元,同比增长 21.36%,保持高强度投入以支持多模态大 模型、Agent 等前沿研发。销售、研发费用扩张带来归母净利润增速的阶段性摊 薄。 事件: 点评: ❑ 智能文字识别高景气驱动营收增长,商业大数据结构分化 营收高增主要来自智能文字识别 C 端业务拉动,商业大数据形成结构分化。分 业务来看:1)智能文字识别 C 端产品实现营收 14.86 亿元,同比增长 30.27%, 毛利率 89.78%,同比提升 2.02pct,为公司最核心增长与利润来源;智能文字识 别 B 端产品及服务实现营收 0.87 亿元,同比增长 16.17%,毛利率 71.53%,同比 大幅提升 9.21pct,体现产品标准化转型成效。2 ...
合合信息(688615):智能文字识别驱动高增,现金流表现亮眼
浙商证券· 2026-04-22 11:53
证券研究报告 | 公司点评 | 软件开发 合合信息(688615) 报告日期:2026 年 04 月 22 日 智能文字识别驱动高增,现金流表现亮眼 ——合合信息 2025 年年报点评 事件: 点评: ❑ 智能文字识别高景气驱动营收增长,商业大数据结构分化 营收高增主要来自智能文字识别 C 端业务拉动,商业大数据形成结构分化。分 业务来看:1)智能文字识别 C 端产品实现营收 14.86 亿元,同比增长 30.27%, 毛利率 89.78%,同比提升 2.02pct,为公司最核心增长与利润来源;智能文字识 别 B 端产品及服务实现营收 0.87 亿元,同比增长 16.17%,毛利率 71.53%,同比 大幅提升 9.21pct,体现产品标准化转型成效。2)商业大数据方面,C 端产品营 收 0.58 亿元,同比下降 10.18%,受到流量与变现双重压力;B 端产品及服务营 收 1.70 亿元,同比增长 13.75%,受益于供应链风控、金融风控等场景渗透。 整体看,C 端智能文字识别仍是流量与现金流"发动机",B 端两条线均保持两 位数增速,有望在标准化产品迭代后继续抬升占比,优化收入结构。 ❑ 毛利率持续抬升、 ...
英矽智能20260412
2026-04-13 14:12
涉及的行业与公司 * 行业:AI制药(AI驱动的药物研发)[2] * 公司:英矽智能(Insilico Medicine)[1] 核心定位与商业模式 * 公司定位为AI驱动的药物资产平台,通过自主研发管线并对外授权(BD)变现,既非传统软件销售商,也非依赖少数管线的传统生物技术公司[2][3] * 商业模式核心是利用AI平台自主研发候选药物管线资产,并通过商务拓展实现商业变现,收入主要来自药物发现与管线开发业务,占比接近90%[2][5] * 变现路径与创新药BD模式一致,包括首付款、研发里程碑付款及未来销售分成,能获得阶段性现金流并保留长期收益潜力[5] * 公司价值关键在于持续、规模化产出可推进、可授权交易的候选药物资产的能力,而非单一管线或软件平台[3] 业务进展与管线布局 * 截至2026年3月末,公司拥有31条候选药物管线,包括28个临床前候选化合物和12个获得临床试验批件的项目[3] * 管线矩阵覆盖纤维化、肿瘤、免疫、代谢、疼痛等多种治疗领域[14] * 核心管线ISM001-055是全球范围内由AI发现靶点、AI设计分子并已进入临床阶段的代表性项目,针对特发性肺纤维化(IPF)[3] * ISM001-055已完成中国IIa期临床试验,并于2025年获得国家药监局药品审评中心的突破性疗法认定,同时在美国FDA批准下推进II期临床试验[3][11] * 该项目是基于AI发现的全新靶点TNIK开发,是同类管线中临床推进速度最快的项目之一[11] 技术平台与研发效率 * 核心平台Pharma.AI是一个端到端的AI药物研发平台,贯穿从靶点发现到临床阶段的整个流程[9] * 平台由四个核心模块构成:Biology42(靶点发现和通路分析)、Chemistry42(分子设计与优化)、Medicine42(临床阶段辅助决策)、Science42(科研助手与数据分析)[10] * 利用该平台,公司将传统模式下从靶点发现到确定临床前候选化合物(PCC)所需的4-5年周期,缩短至12-18个月,最快可达9个月,实现了数量级上的效率提升[2][9] * AI技术系统性改造了药物研发的早期阶段,在两个核心环节发挥作用:1)靶点发现,通过处理多模态数据更系统地识别基因、蛋白与疾病通路关系;2)分子设计与优化,利用生成式AI直接设计新分子并在多维度寻找最优解[6][7] * AI制药的本质是利用数据和算法重构药物早期研发环节,形成数据、模型、实验三者协同迭代的新范式[7] 技术演进与核心壁垒 * 技术正从单点模型应用,向多模态基础模型驱动的系统性革新演进,趋势是“统一token化”,将不同模态数据转换为统一表示形式处理[8] * 行业竞争的核心壁垒在于能否将AI能力与药物研发能力深度融合,形成包含数据、模型和实际应用场景的研发闭环[8] * 公司核心竞争力体现在“AI+药物研发+商业化”的整套闭环能力,以及复合型管理团队结构[4] * 具体壁垒包括: * **数据**:通过真实药物研发过程沉淀了大量内部推理链和多模态真实反馈的负样本数据,通过自有自动化实验室形成干湿实验闭环,持续积累高质量数据[12] * **算法**:算法体系持续迭代,与英伟达合作推出面向分子设计的“Natrure”系列多模态模型,自研用于靶点发现的生物学基础模型Precious3GPT,技术路径与行业前沿趋势一致[13] * **平台与生态**:推出PharmaGPT训练平台,旨在将数据、模型和训练方法标准化输出,构建面向药物研发领域的模型训练工厂,能显著提升模型能力[13] 商业化合作与行业意义 * 已与全球多家头部药企和创新药公司建立合作,包括赛诺菲、礼来、复星医药、Exelixis、Menarini Group、泰景生物、齐鲁制药、恒瑞医药等[5] * 与礼来达成总额高达27.5亿美元的大额合作,其中首付款为1.15亿美元[2][6][15] * 该合作标志着产业方对AI制药公司能力的认知,已从一个AI工具升级为一个能够持续产出候选药物资产的平台,回应了市场对于AI技术能否稳定转化为可交易资产的核心分歧[2][6] * 在中国创新药产业崛起、对外授权交易占比提升的背景下,AI制药的核心价值在于利用数据和算法显著提升新药的供给效率[5] 财务预测与估值 * 预计公司2026年和2027年的收入将分别达到1.6亿美元和2.2亿美元,2025至2027年的收入年均复合增长率(CAGR)为98%[2][16] * 采用市销率(PS)进行估值,参考全球可比公司2027年25.8倍的PS中位数,公司的目标市值定为440亿港币,较当前市值存在约40%的上行空间[2][16] 业绩驱动与风险因素 * **业绩驱动因素**: * 短期:已有合作项目的里程碑付款兑现以及新BD项目的持续落地[16] * 中长期:公司持续产出高质量候选药物管线资产的能力;行业整体估值体系随AI制药有效性不断被验证而上移的可能性[16] * **主要风险点**: * **商业模式带来的收入波动性**:收入依赖于BD合作的首付款和里程碑付款,存在阶段性非线性波动[2][17] * **临床试验的不确定性**:药物研发存在安全性与有效性的固有不确定性,无法保证所有管线最终成药,临床各期试验结果需持续验证[2][17]
生数科技完成近20亿人民币B轮融资;红板科技登陆上交所,最新市值415.17亿元丨全球投融资周报04.04-04.10
创业邦· 2026-04-12 09:09
一级市场投融资概览 - 本周国内一级市场披露融资事件128个,较上周减少108个 [7] - 在已披露金额的50个事件中,总融资规模为140.47亿元人民币,平均融资金额为2.81亿元人民币 [7] 行业分布 - 从融资事件数量看,人工智能(38个)、智能制造(26个)、医疗健康(17个)领域最活跃 [9] - 从已披露融资规模看,人工智能行业最高,总规模约为83.14亿元人民币 [9] - 产业级多模态大模型研发商「生数科技」获近20亿人民币B轮融资,为本周人工智能领域大额融资 [9] - 智能制造行业已披露融资总额为30.10亿元人民币 [10] - 商业化SAR遥感卫星及科研卫星制造商「天仪研究院」获13亿人民币D轮融资,为智能制造领域大额融资 [10] 地区分布 - 获投企业地区主要集中在江苏(28起)、浙江(20起)、北京(18起) [13] - 北京地区14起事件共融资51.12亿元人民币,融资规模领先 [16] - 广东地区15起事件中,10起共融资30.04亿元人民币 [16] - 上海地区16起事件中,10起共融资26.71亿元人民币 [16] - 浙江地区20起事件中,8起共融资12.87亿元人民币 [16] 阶段分布 - 本周披露获投企业阶段分布为:早期(种子/天使/A轮)100个、成长期(B/C轮)22个、后期(D轮及以后/Pre-IPO)6个 [17] 本周国内大额融资事件 - **生数科技**(人工智能):获近20亿人民币B轮融资,投资方包括阿里云、中网投、百度风投等 [21] - **众警机器人**(人工智能):获融资,投资方包括立讯精密、银泰集团、基石资本等 [21] - **天仪研究院**(智能制造):获13亿人民币D轮融资,投资方包括博华资本、国新国证投资等 [21] - **地瓜机器人**(人工智能):获融资,投资方包括Prosperity7 Ventures、远景科技集团、高瓴创投等 [21] - **Spirit千寻智能**(人工智能):获10亿人民币A+轮融资,投资方包括顺为资本、云锋基金、达晨财智等 [22] 本周海外大额融资事件及新增独角兽 - **SiFive**(美国/智能制造):处理器及计算机系统研发商,获Pre-G轮4亿美元融资,投资方包括英伟达、Prosperity7 Ventures等 [26] - **KreditBee**(印度/金融):数字贷款服务商,获B轮2亿美元融资 [25],投资方包括Dragon Fund、Advent International等 [26] - **Hermeus**(美国/智能制造):高超音速飞行器研发商,获B2轮1.5亿美元融资 [25],投资方包括科斯拉风投、Founders Fund等 [26] - **Sidewinder Therapeutics**(美国/医疗健康):精准双特异性抗体偶联药物研发商,获融资,投资方包括奥博资本、安斯泰来、高盛等 [27] - **Xoople**(西班牙/人工智能):数据基础设施服务商,获融资,投资方包括Nazca Capital等 [27] - 海外市场新增多起大额融资,包括1.3亿美元B轮、2.8亿美元E轮、2亿美元C轮及1.37亿美元B轮融资 [27][28] 本周国内一级市场活跃机构 - 从机构投资活跃度看,顺为资本(6个投资事件)、弘晖基金(4个投资事件)、君联资本(3个投资事件)较为活跃 [31] 本周国内IPO公司 - 本周重点监测到国内IPO公司共5家 [34] - 最新市值最高为「红板科技」,达415.17亿人民币 [34] - 5家上市公司中,有3家曾获VC/PE或CVC投资 [34] - 「三瑞智能」曾获达晨财智、申能诚毅等投资 [34] - 「有研复材」曾获中信证券、比亚迪投资等投资 [34] - 「赛英电子」曾获毅达资本、顺融资本投资 [34] 本周国内并购事件 - 本周国内披露已完成并购事件12个,较上周减少25个 [37] - 事件分布在传统行业、物流仓储、企业服务行业 [37] - 福州千景投资有限公司以25亿人民币收购润滑油生产商高科石化22.35%股份,为本周大额并购 [37] - 其他披露的并购事件包括:卓晖金属以5.1亿人民币被金富科技并购;字邦半导体以3.47亿人民币被康欣新材并购;上海地铁融资租赁以2.36亿人民币被上海张江集团并购;联益热能以2.04亿人民币被金富科技并购;是泰纺织以1.9亿人民币被宁波吴泰企业管理咨询有限公司并购 [40]
商汤-W:生成式 AI 高增,25H2 实现 EBITDA 转正,1+X 战略重塑生态协同
信达证券· 2026-04-07 18:35
投资评级 - 报告未明确给出“买入”、“增持”等具体评级,但建议关注该公司 [3] 核心观点 - 生成式AI业务成为核心增长引擎,推动公司2025年总收入实现近三年最快增速,并在2025年下半年实现上市后首次EBITDA转正,盈利能力和业务增长持续改善 [1] - 公司“1+X”战略重塑生态协同,形成“大装置—大模型—应用”三位一体协同,技术堆栈从ToB能力输出延伸至具备产品化、订阅化潜力的应用层,促使AI实现正向循环 [1][3] 财务业绩与业务表现 - **总体财务表现**:2025年公司实现总收入50.1亿元,同比增长32.9%;调整后归母净亏损19.6亿元,同比缩窄54.3%;EBITDA口径净亏损收窄85%至4.7亿元,并在2025年下半年实现EBITDA转正为3.8亿元 [1] - **生成式AI业务**:2025年收入达到36亿元,同比增长51%,占总收入比例从2024年的64%进一步提升至72% [3] - **视觉AI业务**:2025年收入10.83亿元,同比增长3.4%,占总收入21.6%;2025年下半年同比增长率达20.9%,通过多模态视觉智能体实现二次增长 [3] - **X创新业务**:2025年收入3.02亿元,同比下降5.9%,占总收入6.0%,下降主因智能驾驶业务于2025年8月脱离合并报表 [3] - **运营效率**:应收贸易回款达到48.7亿元,创历史新高;现金周转周期由228天压缩至129天,资金沉淀效率明显改善 [3] - **历史财务数据**:2023-2025年营业收入分别为34.06亿元、50.15亿元、50.15亿元;毛利分别为15.01亿元、20.56亿元、20.56亿元;EBITDA分别为-54.50亿元、-17.82亿元、-4.71亿元;净亏损分别为-64.95亿元、-43.07亿元、-19.60亿元 [7] - **资本支出**:2025年资本支出为34.88亿元,占收入比率为69.6%,较2024年的11.29亿元(占比29.9%)大幅增加 [9][10] 技术与产品进展 - **算力基础设施(大装置)**:截至2025年末,大装置运营算力总规模达到4.04万 PetaFLOPS,全年支撑近百万项模型研发任务;国产算力适配规模达到5500P,并在中东落地首个出海国产算力集群 [3] - **大模型研发**:公司原创架构实现多模态大模型技术领先,预计将在2026年Q2发布基于Neo 2代架构的全新模型,完成原生多模态底层逻辑的重塑 [3] - **应用层产品**:“小浣熊家族”累计服务用户超过1,500万;Vimi支持单机连续生成100集短剧、汇聚超过30万创作者;咔皮相机在多个国家和地区成为爆款应用;咔皮Kapi系列产品累计用户已达千万级 [3] 未来展望与预测 - **盈利预测**:根据彭博一致预期,预计公司2026-2028年有望实现营收63.85亿元、80.53亿元、100.04亿元;预计实现经调整归母净利润分别为-13.1亿元、-6.37亿元、1.30亿元 [3]
让大模型多模态检索全面超越SOTA!ReCALL框架化解生成式与判别式的范式冲突|CVPR'26
量子位· 2026-04-06 15:32
文章核心观点 - AI国家队紫东太初团队与新加坡国立大学联合研发的ReCALL框架,成功解决了多模态大模型在组合图像检索任务中因“生成式”与“判别式”范式冲突导致的能力退化问题,使大模型在保留原生细粒度推理能力的同时,转变为高效检索器 [3] - 该成果已在计算机视觉顶会CVPR 2026被录用,并在CIRR、FashionIQ等主流基准测试中全面刷新了最高性能,为大模型下游任务的能力无损适配开辟了新路径 [3] 行业痛点与问题根源 - 将生成式多模态大模型强行改造为判别式检索器,会导致模型出现严重的能力退化,原本能100%精准解决的问题也频频出错 [1] - 问题的核心在于范式冲突:生成式大模型依赖链式思考进行细粒度推理,而传统检索适配方法将其高维思考压缩为单一向量计算相似度,这种暴力转变导致能力退化 [4][5] - 定量数据显示,在原生大模型原本能100%找对的子集上,经传统微调后的检索器在CIRR数据集的R@1指标暴跌至62.33%,在FashionIQ数据集上暴跌至55.80% [7] 解决方案:ReCALL框架核心机制 - ReCALL框架的核心思想是利用大模型原生的推理信号,来纠正检索空间中的盲区,其闭环体系被划分为四个阶段 [7] - **第一阶段:基础检索适配**。使用标准InfoNCE损失函数将原生大模型微调成基础检索器,但此步骤也诱发了能力退化症状 [7] - **第二阶段:自我诊断**。让基础检索器在训练集上运行,专门挑出它“找错”的样本,这些样本是模型认知模糊的“盲区” [8] - **第三阶段:生成校正**。针对错题,通过精心设计的链式思考诱导机制,将“讲题”过程拆解为“意图分解与验证”和“最小编辑合成”两步,生成全新的纠错三元组,提供高密度的细粒度图文对齐监督信号 [8][9] - **第四阶段:针对性打磨**。通过分组对比学习,将原查询与纠错查询打包进行“对冲”,配合双重优化目标,迫使检索器明确区分细微的视觉-语义边界,将原生大模型的细粒度推理能力完美内化 [10][12] 性能表现与实证结果 - 在CIRR开放域复杂数据集上,ReCALL创造了55.52%的R@1新SOTA,相较于基线模型实现了8.38%的相对提升 [13][15] - 在专门考察细粒度区分能力的子集上,ReCALL的R_subset@1达到了81.49% [13][15] - 在FashionIQ细粒度时尚数据集上,ReCALL平均R@10达到57.04%,即便面对极度相似的服装干扰项也取得最好表现 [13][15] - 实际案例显示,基线模型对“正视镜头”、“半袖”等细粒度条件失效,而经过ReCALL校准后的模型能精准锁定目标 [17] 行业意义与影响 - ReCALL的成功揭示并修复了多模态大模型向下游任务迁移时的一道隐形裂痕,标志着大模型的检索适配进入一个强调保留与激发原生推理能力的新阶段 [17] - 该方法不再依赖海量外部数据“喂养”,而是教会模型用自己的思维链剖析错题、缝合认知盲区,展示了生成与判别两大范式走向和解的可能,或将成为大模型在垂直领域实现“能力无损适配”的重要一步 [17][18]
告别昂贵账单,Token直降68%,多智能体动态协作编程来了
机器之心· 2026-04-05 12:34
行业背景与现有挑战 - 软件开发范式正从“人写代码”转向“人指挥智能体写代码”,以Claude Code、OpenClaw为代表的系统让智能体能够自主完成编码、调试等完整任务流程 [2] - 面对系统级开发或竞赛级算法等复杂问题,单一模型能力边界明显,多智能体协作成为主流范式 [2] - 现有主流方法存在两类典型路径:一类如Claude Code的Agent Teams,通过并行调用多个模型提升能力,但带来极高的Token成本;另一类如OpenClaw,通过技能组合与流程编排实现多智能体管理,工程上更可控 [2] - 现有方法的协作结构大多依赖预定义规则或静态流程,解决的是“如何组织调用”,而非“如何根据任务动态调整协作方式”,导致智能体冗余通讯与大量Token消耗,最终给用户带来极高的自主编程成本 [3] 核心解决方案:AgentConductor框架 - 上海交通大学i-WiN团队提出多智能体框架AgentConductor,通过引入一个经过强化学习训练的3B参数指挥智能体,从根本上解决动态协作问题 [3] - AgentConductor会先评估任务难度,并生成一张以YAML表示的交互拓扑图,使简单任务使用轻量团队,复杂任务使用更复杂的交互图,实现能力与成本的自适应匹配 [3] - AgentConductor并非一次性规划,当生成代码运行失败时,指挥智能体会根据环境反馈的错误信息,结合历史记忆,对拓扑进行端到端重新生成,从而探索新的协作形式 [5] - 该方法在显著提升编码准确率(+14.6%)的同时,将Token成本降低了68% [5] 核心特色与方法 - **基于YAML的新型多智能体交互图结构**:使用YAML结构化表示交互图,使其既具备可读性,又支持程序化校验与约束,并可由大模型直接生成,便于理解与落地 [11][12] - **创新的交互形式**:融合多种拓扑优势,支持层内并行和跨层通讯,且每个智能体可任意链接之前的历史节点,在提升表达能力的同时避免不必要的通信开销 [13] - **两阶段训练范式**:采用监督微调(SFT)和基于GRPO的多轮端到端Agentic强化学习训练,仅训练一个指挥智能体 [15] - **SFT阶段**:基于GPT-4o生成的4,500个高质量拓扑样本(覆盖三档难度),赋予基础模型拓扑先验 [15] - **强化学习阶段**:将环境反馈的代码报错和多轮的拓扑文本一起作为轨迹用于智能体的强化学习训练,基于GRPO算法优化模型的拓扑生成策略以最大化复合奖励,最终实现低Token成本的高质量代码生成 [15] - **拓扑密度评估函数**:为实现任务自适应,将问题分成三档难度,并根据从Token成本到拓扑密度的形式化映射,提出了拓扑密度评估函数并作为奖励函数一部分,综合刻画节点数、边密度与图深度对通信成本的影响 [17] - **通信成本形式化**:多智能体系统的平均通信成本可形式化为 C = m(1 + |V| + (2|E|/|V|) + d),其中d为图深度,m为提示词最大长度 [18] 实验结果与性能 - 在三个竞赛级(APPS, LiveCodeBench, CodeContests)与两个基础代码数据集(HumanEval, MBPP)上评估了AgentConductor(基于Qwen-2.5-3B-Instruct模型) [21] - 在APPS数据集上,AgentConductor(3B)的pass@1准确率达到58.8(±0.3),显著超越所有基线方法 [22] - 在基础代码生成任务上,AgentConductor在HumanEval和MBPP上的平均准确率达到96.3(±0.2) [22] - 在成本方面,AgentConductor在APPS数据集上将Completion Token消耗降低至79,800,相比基线减少了最多68% [22][23] - 系统展现出细粒度难度适配能力:在easy任务上使用极简拓扑(平均3–4节点),在hard任务上自动扩展至8–10节点,而多数基线无论难度均维持固定密度 [23] 行业意义与范式转变 - AgentConductor证明,智能协作的关键不在于智能体数量,更在于结构的适应性,标志着多智能体研究从“静态工作流”迈向“动态生态系统” [24] - 该框架代表了一种新范式:将多智能体协作视为可学习、可演化的结构化决策过程 [24] - 通过将任务难度、执行反馈与通信成本统一纳入强化学习框架,实现了准确率与效率的协同提升 [24] - 这项工作在国际AI社区(X)引发广泛关注,被知名AI分享博主DAIR.AI当日置顶宣传并评为2026年2月23日–3月1日Top AI Papers [8]