Artificial Intelligence
搜索文档
极视角股东将股票存入中信证券经纪香港 存仓市值15.93亿港元
智通财经· 2026-04-17 13:04
公司股价与交易情况 - 中信证券股票分时数据显示,当前股价为26.17元,日内下跌0.14元,跌幅0.53% [1] - 当日股价波动区间在26.09元至26.53元之间 [1] - 当日成交量数据显示,累计成交金额达到数百万量级 [1] 股东持股变动 - 2025年4月15日,极视角(股票代码06636)股东将所持股票存入中信证券(股票代码600030)的香港经纪账户 [2] - 此次存入的股票市值高达15.93亿港元 [2] - 存入的股票数量占极视角公司总股本的比例为14.34% [2] 公司业务与市场地位 - 极视角是一家专注于人工智能计算机视觉解决方案的提供商 [2] - 公司业务涵盖为企业客户提供从开发、部署到管理的端到端企业级解决方案 [2] - 根据弗若斯特沙利文的资料,以2024年收入计算,极视角在中国新兴计算机视觉解决方案市场中排名第八 [2]
直播预约 | 世界模型,点燃下一个AI爆点(第二期)
机器之心· 2026-04-17 13:00
行业活动与关注热度 - 行业对“世界模型”这一AGI关键路径高度关注,相关沙龙活动反响热烈,促使组织方决定加场[2] - 机器之心计划于4月23日组织第二期直播,主题为“世界模型,点燃下一个AI爆点”,集结4位产学研前沿专家进行探讨[2][18] 核心研究方向与演进 - “世界模型”正驱动AI从“被动感知”走向“主动推演”,持续拓宽能力边界[2] - 研究主题聚焦于从第一人称视角构建世界,以实现具身智能[6] 嘉宾阵容与研究方向 - **刘子纬(新加坡南洋理工大学副教授)**:研究方向涵盖计算机视觉、机器学习、计算机图形学,将在沙龙中分享“从视频生成模型到世界动作模型”[3][9][10] - **赵行(清华大学助理教授,星海图联合创始人)**:长期致力于机器人学习和自动驾驶研究,将分享“世界模型的高效学习范式”[3][12][13] - **贾奎(跨维智能创始人&CEO,香港中文大学(深圳)终身教授)**:人工智能、具身智能、计算机视觉等领域权威专家,首创多项有影响力的深度模型[3][15] - **刘桂良(跨维智能技术专家,香港中文大学(深圳)助理教授)**:主要聚焦于具身智能决策与强化学习,研发了EmbodiedChain具身智能数据引擎[3][17]
AI“带货”第一周就卖出一万美元?!前钉钉副总裁创业:12个Agent让普通人“躺赚”
AI前线· 2026-04-17 12:30
公司及产品介绍 - 公司K2 Lab成立于2025年10月,由原阿里钉钉最年轻副总裁王铭创立,并在成立半年内完成了三个月内的第二轮数千万融资[11][22] - 公司核心团队共三人,CEO王铭负责产品与商业,CTO赵先烈负责技术,CSO汤明磊负责增长与资本,团队共三十多人,多来自钉钉、字节等大厂[22][23][24] - 公司首款产品为Moras,是全球首款全自动商业Agentic AI应用,旨在通过AI代理全自动完成电商带货流程[9][11] 产品功能与运作模式 - Moras将电商带货流程自动化,涵盖选品、脚本撰写、视频生成、发布、运营及后台数据分析,用户从零开始可能实现月入1万美元(约合人民币6.8万元)[8] - 产品使用分为三步:1)AI根据账号与粉丝画像推荐商品;2)AI自动生成完整带货视频;3)一键发布至社交平台并自动进行数据分析与策略调整[14] - Moras的自动化流程由12个专业Agent(协作节点)协同完成,包括总控、选品洞察、内容生产、发布复盘等,且每个用户都拥有专属的Agent班子[16][18] 市场测试与初期表现 - 2025年3月,公司与30多位中腰部达人(粉丝数5千至2万)进行共创测试,首周即有超过70%的用户成功出单[12] - 测试期间,有用户首周GMV达1万美元,表现最佳的用户单月GMV达10万美元,参与测试的达人人均月GMV约为1万美元[12] - 产品初期通过直接邮件联系海外中小达人(KOC)进行测试,首位用户为一名训狗师,测试后能成功出单并提供产品反馈[26] 产品核心优势与选品策略 - 产品的核心优势之一是选品环节,其后台会扫描TikTok Shop数百万商品,结合销量、转化率、季节热点等因素,筛选出约1000个候选爆品,并每日更新[18][19] - 系统会根据用户账号风格与粉丝画像对候选商品进行二次排序,大幅降低用户选错成本,简化决策过程[19][20] - 用户使用门槛为社交媒体粉丝数超过1000人,可免费开始使用,盈利后与Moras进行分成[15] 行业洞察与战略定位 - 团队判断未来用户交互范式将向Agent迁移,用户将通过Agent完成信息获取与购物,内容电商因AI生成内容泛滥而使得“信任”变得稀缺,从而成为刚需[25] - 公司创业方向锁定“海外、ToC、非工具、刚需、可积累双边网络”,并聚焦于“内容电商+达人”这一可直接变现的群体[25] - 选择先出海是因为海外内容电商市场尚处早期、竞争不成熟,且海外用户对新工具接受度高,更习惯为效率和结果付费[27] - AI工具降低效率门槛后,可能催生新的职业机会,规模可能从几十万扩展至百万甚至千万级人群[25]
Musk’s SpaceX is shaping up as biggest IPO on record
BusinessLine· 2026-04-17 12:24
上市计划与估值 - SpaceX已向美国纳斯达克交易所提交了保密上市文件,计划进行首次公开募股[1] - 此次IPO的目标总估值高达2万亿美元,计划仅出售一小部分股份,从公开市场募集750亿美元,这仍将使其成为史上规模最大的IPO[1] - 拟募集的750亿美元仅占公司总价值的3.75%,意味着绝大部分股权仍由埃隆·马斯克本人及少数早期私人投资者持有,即流通股比例很低[6] 业务构成与近期发展 - 尽管公司有太空探索的雄心,但其50%至80%的收入来自星链通信业务,该业务为全球超过1000万用户提供卫星互联网服务[4] - 公司的突破在于实现了火箭和运载器的大规模重复使用,将发射成本降至21世纪初的5%左右,并已完成约600次成功的火箭着陆[3] - 2026年2月,SpaceX与亏损的AI公司xAI(Grok聊天机器人背后公司)合并,这是有记录以来规模最大的私人合并交易,对xAI的估值为2500亿美元,对SpaceX的估值为1万亿美元,合并后实体价值1.25万亿美元[4] 募资用途与战略愿景 - 公司宣称其目标是“让人类成为多行星物种”[2] - 马斯克表示,IPO所筹资金将用于向太空发射多达100万个数据中心卫星,旨在利用丰富的太阳能,规避地球上的电力和水资源限制[5] 市场规则调整与影响 - 纳斯达克交易所为容纳SpaceX的上市,特别调整了规则:取消了公司需有至少10%流通股才能纳入指数的最低要求,并将新股纳入指数的“观察期”从三个月缩短至仅15个交易日[7][8] - 其他主要市场指数,如标普500和富时罗素,也在修改规则,以加速纳入大型新上市公司[10] - 目前有超过6000亿美元的被动投资基金跟踪纳斯达克100指数,一旦SpaceX加入指数,这些资金将自动买入[8] - 跟踪标普指数的被动基金规模更大,超过16万亿美元,若标普500效仿纳斯达克修改规则,自动买入的浪潮将更为巨大[11] - 市场担忧允许SpaceX等巨型公司过快进入指数可能导致价格大幅波动,使数百万投资者面临高波动性风险[9] 财务估值与投资者定位 - SpaceX希望投资者给予其2万亿美元的估值,但其去年收入仅为150亿美元,按此收入水平,需要133年的收入才能匹配其要价[10] - 作为对比,全球最昂贵的股票之一特斯拉,仅需13年的收入即可匹配其市值,这意味着SpaceX的估值溢价是特斯拉的十倍[10] - 公司计划将高达30%的股份出售给非机构的个人投资者[12] - 马斯克旗下的公司长期以来一直是散户投资者的宠儿,SpaceX预计也不例外[12]
野村行业观察 | 段冰:中国AI全产业链正形成良性循环,Token出海提速,液冷成刚需
野村集团· 2026-04-17 12:04
AI行业全球发展趋势与驱动力 - 全球AI基础设施投资保持旺盛,大模型训练与推理需求是核心驱动力[4] - 以AI智能体应用为代表的流量爆发式增长已成为年度增长引擎,取代了编程类应用[4] - AI基础设施、基础大模型与上层应用已形成良性发展循环,将持续推动中国人工智能全产业链增长[4] 中国AI产业的竞争优势与机遇 - 中国在电力、数据中心等基础设施上具备成本优势,有望转化为Token定价优势,支撑大模型与AI Agent出海[4] - 中国大模型Token调用量连续多周超越美国,核心驱动力来自国内外双重需求增长[4] - 国产大模型具有更高的性价比优势,且坚持开源技术路线,方便用户进行定制化开发[4] - 中国创新能力强,迭代速度非常快,无论是大模型本身还是智能体应用更新速度都很快[5][6] - 国内用户有意愿接受新兴应用和产品,国内外用户和流量增长基础强,预计Token调用量增长将持续[6] - 中国人工智能正处于技术、应用、成本优势共振阶段,全球竞争力将随基础能力增强与商业化路径清晰而进一步增强[7] Token经济与出海战略 - 智能体应用大规模落地是Token经济成立的基础,其核心价值仍取决于基础大模型能力[4] - 国产大模型厂商的海外营收占比不断增长,已构成真正意义上的Token出海[6] - 国内厂商主打性价比路线,与海外最先进模型的技术差距在逐步缩小[6] - 海外用户有真实使用场景,对Token消费需求多元化,适合使用中国厂商的大模型和智能体产品[6] - 下一步需提升基础模型能力,在高端领域创造较强竞争力,并深入金融、医疗、自动驾驶等垂直领域与用户企业深度绑定[6] 算力结构变化与硬件挑战 - 行业正从训练主导转向推理主导,推理场景对单芯片算力要求相对更低,更适配国产AI芯片与自研ASIC芯片,利好硬件生态成熟[6] - 大规模Agent爆发对算力集群的稳定性、互联技术与软件栈提出更高要求[6] - 国内芯片通用软件栈不完善、先进制程产能受限仍是突出瓶颈[6] - 高性能芯片功耗及单机柜功率密度持续攀升,传统风冷难以满足散热需求,更高散热效率的液冷成为必选方案[7] - 在海外市场,由于高端算力芯片功耗大幅提升,液冷已成为刚需,规模和技术的迭代处于加速过程[7] - 国内大型互联网厂商和互联网数据中心对液冷整体解决方案态度积极,液冷能极大提高能源效率,相关市场正逐步发展[7] AI商业化进程与竞争格局 - 中美两国基础模型平台均处于变现探索期,海外头部企业因模型能力与付费环境优势变现更快[7] - 上层应用企业均面临底层模型功能外溢的压力,标准化应用容易被替代[7] - 与企业数据、信息技术系统深度绑定的软件更具有长期价值[7]
《经济学人》封面文章:美国开始意识到人工智能的危险力量
美股IPO· 2026-04-17 12:01AI 处理中...
放任自流的做法在政治上不再可行,在战略上也不再明智。 插图:伊莎贝尔·塞利格 是否应该将世界上最强大的新技术托付给少数几位精英?五位极客——达里奥、德米斯、埃隆、 马克和山姆——名气大到只需名字就能辨认,他们几乎拥有神一般的权力,掌控着将塑造未来的 人工智能模型。尽管这些模型已经拥有了令人瞠目结舌的能力,特朗普政府却袖手旁观,坚信私 营企业之间不受限制的竞争才是确保美国在人工智能竞赛中胜出的最佳途径。 直到现在。突然间,美国对人工智能的自由放任态度似乎即将终结。原因在于,这些模型令人眼 花缭乱的进步也对美国的国家安全构成了威胁,这令特朗普政府中那些此前更倾向于过度监管的 成员感到不安。与此同时,美国选民日益增长的不满情绪正使人工智能成为一个政治焦点。放任 自流的做法在政治上不再可行,在战略上也不再明智。 4月7日,Anthropic公司发布了 Claude Mythos ,这成为了一个转折点。这家模型制造商的最 新成果在发现软件漏洞方面表现出惊人的能力,一旦落入不法分子之手,将对从银行到医院等关 键基础设施构成威胁。人工智能模型也日益带来其他风险,例如 生物安全隐患 和 大规模诈骗 。 这并非本届政府首次采取 ...
空间智能第一股,开盘暴涨171%!李飞飞押注的赛道,杭州六小龙之一跑通了
量子位· 2026-04-17 11:18
公司上市与市场表现 - 群核科技于4月17日在港交所正式挂牌上市,股票代码00068.HK,成为“空间智能第一股”及“杭州六小龙”中率先上市的公司 [1][2] - 上市首日开盘报20.70港元,较发行价7.62港元上涨171.65%,盘中最高价20.70港元,成交额达5.77亿港元,市值约为351.9亿港元 [3][4] - 上市前一日暗盘交易一度涨超195%,最终收涨163.25% [4][5] 公司财务表现 - 2025年全年营收为8.20亿元人民币,经调整净利润转正,达到5712.7万元人民币,毛利率为82.2% [12] - 2023年至2025年,公司收入从6.635亿元增长至8.200亿元,毛利率从76.8%提升至82.2% [12][44] - 分客户类型看,2025年企业客户毛利率为82.5%,个人客户毛利率为85.0%,专业服务毛利率为56.9% [44] 核心业务与战略定位 - 公司定位为“全球空间智能第一股”,其愿景是“让每一个空间,都成为可计算的世界”,致力于做强空间智能底座,服务人类三维创作与机器智能进化 [5][6] - 公司董事长认为,大语言模型教会AI“说话”,而空间智能是让AI走进物理世界的关键桥梁,是AI发展的“北极星” [7][9] - 公司被描述为空间智能赛道上第一个跑通商业化闭环的公司 [11] 技术优势与竞争壁垒 1. **数据资产**:公司通过旗下产品“酷家乐”等业务,在过去15年积累了超过5亿个3D场景和4.8亿个3D模型及空间设计元素,这些是包含物理参数(如厚度、材质、反射)的结构化三维数据,构成了难以复制的数据壁垒 [59][60] 2. **模型能力**:基于数据资产构建了两大模型底座。一是空间语言模型SpatialLM,旨在赋予AI理解三维世界的能力,曾登上HuggingFace榜单前三 [63][64]。二是空间生成模型SpatialGen,可根据文字或图像生成具有时空一致性的多视角3D内容 [66] 3. **核心能力**:公司构建了四大空间能力:空间重建、空间生成、空间编辑与空间理解,共同构成连接物理与数字世界的桥梁 [76] 4. **发展路径**:公司更侧重于现实世界的重建与模拟,而非纯虚拟内容生成,其技术积累与空间智能的“逆运算”过程高度契合 [39][70] 行业背景与市场前景 - 空间智能被李飞飞称为“世界模型基石”,是继大语言模型后全球AI竞赛的下一个主战场,旨在让AI认知真实世界的三维空间关系,是实现具身智能(Embodied AI)和通用人工智能(AGI)的关键 [10][14][25][28] - 当前AI理解世界存在局限,大语言模型本质是基于文本概率,缺乏对物理世界的真实认知 [14][18]。世界模型需建立在物理正确的三维空间之上 [36] - 空间智能领域存在数据瓶颈,互联网上缺乏高质量、带标注的三维物理数据,采集与标注成本极高,这构成了行业的高门槛 [46][48][50] - 市场前景广阔,应用场景包括:降低三维内容创作门槛(如影视、游戏)、为机器人提供仿真训练场以推动具身智能发展、以及在科研、医疗、智能终端交互等领域发挥价值 [89][96][99][107] 公司发展逻辑与市场预期 - 公司的商业模式已超越传统SaaS软件逻辑,市场预期其空间智能业务将从工具(“铲子”)演变为下一代AI的基础设施 [79][80] - 公司的发展路径被类比为2012年的英伟达,即通过长期深耕特定领域(GPU渲染/空间模拟),在技术浪潮来临时凭借深厚积累占据有利位置 [81][86] - 中国庞大的制造业基础、海量应用场景和工程师文化被认为是发展空间智能的优势,公司“扎根现实、贴近物理世界”的战略与之契合 [100][101][104]
OpenAI Targets Pharma Giants With Purpose-Built AI Model
PYMNTS.com· 2026-04-17 10:18
公司动态 - OpenAI发布专为科学研究和药物发现构建的新AI模型GPT-Rosalind [1] - 新模型具备改进的工具使用能力以及对化学、蛋白质工程和基因组学的更深入理解 [2] - 公司旨在通过该模型帮助科学家克服复杂研究流程的现有限制,并缩短新药从靶点发现到获得监管批准的时间,目前这一过程需要10至15年 [2] - OpenAI认为先进AI系统不仅能提高现有工作效率,还能帮助科学家探索更多可能性、发现可能遗漏的关联并更快得出更好的假设 [3] - GPT-Rosalind作为研究预览版,通过公司的可信访问计划向符合条件的客户提供,接入ChatGPT、Codex和API [4] - 公司同时推出了Codex的生命科学研究插件,可免费访问,帮助科学家将模型连接到超过50种科学工具和数据源 [4] - 公司正与安进、莫德纳、艾伦研究所、赛默飞世尔科技等客户合作,将GPT-Rosalind应用于研究与发现 [4] - 安进公司人工智能与数据高级副总裁表示,与OpenAI的独特合作使其能够以新的创新方式应用最先进的能力和工具,有望加速向患者提供药物的进程 [5] 行业趋势 - 生成式AI创新正在扩展研究人员的潜力,加速药物发现和诊断 [5] - 据报道,制药公司正围绕AI重塑其运营模式,以加速临床试验和监管申报 [6] - AI正在重塑药物发现、临床策略和制造优化 [6] - 制药巨头礼来公司在3月与英矽智能达成一项价值27.5亿美元的交易,以利用AI加速“新型疗法的发现和开发” [6]
Opus 4.7 发布,Claude Code 之父传授使用心得:模型升级只是开始,开发方式才是关键
AI前线· 2026-04-17 10:06
Anthropic发布Claude Opus 4.7模型 - 核心观点:Anthropic正式发布其最新大型语言模型Claude Opus 4.7,该模型在高级软件工程、多模态理解、金融分析及网络安全等专业任务上相比前代Opus 4.6有显著性能提升,并引入了更细粒度的推理控制和新功能,旨在提升生产力,但需要用户调整使用方式以充分发挥其能力[2][9][42] 模型性能表现 - **高级软件工程任务**:在Agentic coding SWE-bench Pro评测中,Opus 4.7得分64.3%,高于Opus 4.6的53.4%和GPT-5.4的57.7%[4] - **金融分析任务**:在Finance Agent v1.1评测中,Opus 4.7得分64.4%,优于Opus 4.6的60.1%和GPT-5.4 Pro的61.5%,达到当前最优表现[5][11] - **网络安全能力**:在CyberGym漏洞复现评测中,Opus 4.7得分73.1%,略低于Opus 4.6的73.8%,但高于GPT-5.4的66.3%[5] - **研究生级推理**:在GPQA Diamond评测中,Opus 4.7得分94.2%,高于Opus 4.6的91.3%,与Gemini的94.3%和GPT-5.4 Pro的94.4%相当[5] - **多模态视觉推理**:在视觉推理CharXiv评测中,Opus 4.7无工具时得分82.1%,高于Opus 4.6的69.1%;使用工具时得分91.0%,高于Opus 4.6的84.7%[6] - **多语言问答**:在MMMLU评测中,Opus 4.7得分91.5%,略高于Opus 4.6的91.1%,但低于GPT-5.4的92.6%[6] 核心能力升级 - **指令遵循**:Opus 4.7在指令遵循方面有显著提升,会严格、逐字执行指令,用户需要重新调优prompt以适应此变化[10] - **视觉能力**:模型可处理长边最高2576像素(约375万像素)的图像,是此前Claude模型的三倍以上,能读取复杂截图、提取图表数据及执行需要像素级精度的任务[10] - **记忆能力**:更善于利用基于文件系统的记忆机制,能在跨会话的长周期任务中记住关键信息,减少前期上下文输入的负担[12] - **推理强度控制**:新增“xhigh”(超高)推理强度档位,介于high和max之间,允许用户在复杂问题上更灵活地权衡推理深度与延迟[16] 配套功能与工具更新 - **Claude Code新功能**:新增`/ultrareview`命令,可开启专门的代码审查会话,自动识别潜在bug和设计问题;Pro和Max用户可获得三次免费体验[17] - **自动模式扩展**:Auto mode已扩展至Max用户,该模式允许Claude代替用户做出部分决策,减少中断,更顺畅地执行长任务[17] - **权限管理技能**:新增`/fewer-permission-prompts`技能,可扫描会话历史,将安全但反复触发权限提示的命令推荐加入允许列表,减少打断[27][28] - **任务回顾功能**:为每个agent生成简短总结,说明“刚刚做了什么”和“接下来要做什么”,帮助用户在长时间任务后快速恢复上下文[30][31] - **专注模式**:CLI中新增可隐藏所有中间过程、只保留最终结果的模式,用户可通过`/focus`开关此模式[33][34] 使用方式与效率优化 - **自适应思考机制**:Opus 4.7改用自适应思考机制,不再依赖固定的thinking budget,用户主要通过`effort`参数来控制模型思考深度,低effort响应更快、token消耗更低,高effort则能力更强[36][37] - **验证机制的重要性**:为Claude提供自我验证手段(如启动服务测试、控制浏览器或使用computer use)可将其效果提升2–3倍,对于确保长时间运行任务的结果可用性至关重要[39][41] - **自动化流程技能**:例如`/go`技能,可让Claude自动完成端到端自测、运行简化技能并直接提交PR的整套流程[40] - **Token使用变化**:Opus 4.7使用了新的tokenizer,同一输入映射的token数量可能增加1.0–1.35倍;在更高推理强度下,尤其在agent多轮任务后期,会生成更多输出token,提升了可靠性但也增加了消耗[17] 定价与可用性 - **价格**:Opus 4.7价格与Opus 4.6保持一致,输入每百万tokens 5美元,输出每百万tokens 25美元[8] - **访问方式**:开发者可通过Claude API使用模型名称`claude-opus-4-7`[8] - **网络安全访问计划**:针对有正当网络安全需求的专业人士,Anthropic推出了Cyber Verification Program供申请参与[7]
RAG搜对了却答错?德国萨尔大学找到了真相丨ACL'26
量子位· 2026-04-17 09:54
文章核心观点 - 传统RAG技术的核心痛点在于模型对检索到的内容“读不懂”,而非“搜不到”,具体表现为无法识别段落内部的主次关系以及段落之间的逻辑关联,导致答案质量低下[2][5][6][7] - Disco-RAG框架通过在检索和生成之间加入“读懂”环节,即对文档进行篇章结构解析,显著提升了模型对复杂信息的理解和组织能力,且全程无需训练[2][9][27] - Disco-RAG在多个权威基准测试中表现优异,尤其在长文档、歧义问答和科学摘要任务上全面领先现有方法,并证明了其部署灵活性和与模型微调的互补性[14][17][19][23][26] 传统RAG的痛点诊断 - 传统RAG将检索到的段落当作“散装零件”直接投喂给模型,抹平了段落内部的主次关系和段落间的逻辑脉络,模型看到的是“信息乱炖”[2] - 具体盲区包括:段落内部分不清结论与前提条件;段落之间无法识别支持、反驳等关联关系[5][6] - 以“补充维生素D能否预防流感”为例,模型会忽略段落A中“冬季+偏低人群”的关键限定条件,且无法识别段落A与段落B结论相悖,从而给出错误答案[3] Disco-RAG的解决方案 - 该框架通过三步让模型学会“读”文档,全程不改动模型参数[10][11] - **第一步:构建论证树**。利用LLM将段落拆解为最小语义单元,标记核心内容与辅助说明,并识别单元间关系(如因果、对比)[11] - **第二步:构建关系网**。对检索到的所有段落进行两两配对分析,预测它们之间的支持、反驳、补充等关系,形成有向图[11] - **第三步:生成提纲并作答**。综合问题、段落、论证树和关系网,先生成标明关键证据、叙述顺序及矛盾协调策略的“写作提纲”,再以此为指导生成最终答案[11] - 在维生素D案例中,该流程能明确标记限定条件、核心结论以及段落间的“对比”关系,从而生成有层次、有条件的分析性回答[13] 性能基准测试结果 - **长文档推理(Loong)**:在文档长度从1万到25万tokens的测试中,Disco-RAG优势随文档增长而扩大。在最长25万tokens档位,普通RAG几乎失效,而Disco-RAG仍能有效回答,整体表现甚至超过需要专门训练的方法[15]。例如,在Set 4(200K-250K Tokens)中,使用Llama-3.3-70B的Disco-RAG在核心指标上达到57.74,显著优于标准RAG的40.27和同期先进方法StructRAG的56.87[16] - **歧义问答(ASQA)**:Disco-RAG在核心指标上刷新最佳记录。使用Llama-3.3-70B时,EM+指标达42.0,RL+指标达42.3,DR Score+达32.8,均优于所列的各类先进方法[17][18] - **科学摘要(SciNews)**:在将学术论文改写为新闻摘要的任务中,Disco-RAG在四项指标中拿下三项第一。使用Llama-3.3-70B时,RL+指标达21.11,BERTScore+达65.67,SARI+达44.37,事实一致性(SummaC+)达69.48,排名第二[19][20] 技术有效性与鲁棒性验证 - 对照实验表明,论证树、关系网、提纲三个模块缺一不可,各自承担不同角色,移除任一模块性能均明显下滑[21] - 仅为普通RAG添加通用规划步骤(不含篇章结构)提升有限,证明Disco-RAG的大幅提升主要源于“论证树+关系网”的结构化表示,模型确实利用了文本逻辑结构[21] - 即使面对大量无关噪声内容或大幅调整段落切分粒度,Disco-RAG表现依然稳健,而普通RAG波动剧烈[21] 实际部署的灵活性与成本优势 - Disco-RAG的模块化设计允许使用不同大小的模型分别承担结构分析与最终生成任务[23] - 实验显示,使用小模型(Llama-3.1-8B)进行所有结构分析,仅在大模型(Llama-3.3-70B)进行最终生成,效果可接近全部使用70B模型的水平[24] - 全部使用8B小模型运行Disco-RAG,效果也远超使用70B大模型运行普通RAG,这意味着结构分析模块可“降配”部署以控制成本,同时保留核心性能收益[25] 与模型微调的协同效应 - 在SciNews任务上,不经过任何训练的Disco-RAG(RL+ 21.1, SummaC+ 69.5)其效果已经超过了经过微调的普通RAG(RL+ 20.3, SummaC+ 66.8)[26] - 将微调与Disco-RAG的篇章结构结合使用时,效果得到进一步提升(RL+ 23.3, SummaC+ 74.0),表明结构信息与微调带来的收益是互补的[26] - 这为实际应用提供了清晰路径:可先通过Disco-RAG免训练获得即时收益,再根据需要叠加微调以追求更优性能[26] 行业启示与应用前景 - 这项工作揭示了一个被长期忽视的事实:自然语言文本拥有自己的逻辑骨架(主次、因果、转折等),将这一骨架解析并交给模型能显著改变其信息理解和组织能力[27] - Disco-RAG的思路不仅适用于RAG场景,也可能为更广泛的多文档推理、长文本理解等任务提供新启发[27] - 对于正在进行RAG系统落地的团队而言,Disco-RAG提供了一个轻量、即插即用的增强方案[27]