Workflow
OpenAI Deep Research
icon
搜索文档
超越GPT-5、Gemini Deep Research!人大高瓴AI金融分析师,查数据、画图表、写研报样样精通
量子位· 2025-12-26 14:35
玉兰·融观 (FinSight) 系统概述 - 中国人民大学高瓴人工智能学院推出了面向真实金融投研场景的多模态研报生成系统“玉兰·融观 (Yulan-FinSight)” [1] - 该系统能够自动拆解研究任务,从互联网和金融数据库搜集多源异构数据,并生成包含“发展历程”、“核心业务架构”、“竞争格局”等章节的万字图文报告 [3] - 该系统在AFAC 2025金融智能创新大赛挑战组的1289支队伍中夺冠,并在多项评测中超越了GPT-5 w/Search、OpenAI Deep Research与Gemini-2.5-Pro Deep Research [3] 通用AI在金融研报领域的挑战 - 金融研究报告是一项高度结构化、强逻辑、强可视化的专家级工作,对数据整合能力、分析深度及表达形式要求极高 [5][6] - 挑战一:领域知识与数据割裂。通用系统难以有效整合股价、财报等结构化数据与新闻、公告等非结构化信息,缺乏统一数据表示与多智能体协作分析机制 [7] - 挑战二:专业级可视化能力缺失。现有模型难以支持多维对比、事件标注等专业金融图表需求,且图文之间常缺乏严格的数据一致性约束 [8] - 挑战三:缺乏“迭代式研究”能力。现有系统多采用固定的“先检索—后生成”流程,难以像人类分析师一样根据中间发现动态调整研究重点 [9] FinSight的核心技术创新 - 核心思路是模拟人类金融专家的工作方式,而非简单堆叠模型 [10] - 创新一:采用代码驱动的可变内存智能体架构。该系统将数据、工具与中间推理结果统一映射为可读写的程序变量,由多个代码智能体通过共享变量空间协同推理,以支持长时程、多流程的专家级任务 [11][14][16] - 创新二:提出迭代式视觉增强机制。采用Actor–Critic协作范式,文本大模型生成绘图代码,视觉语言模型提供视觉反馈,通过多轮“生成—评估—修正”闭环优化,提升图表专业性 [18][20][21] - 创新三:采用两阶段写作框架。第一阶段生成针对子任务的分析链,第二阶段以分析链为骨架,组织编排生成长篇报告,有效避免逻辑松散问题 [24][25][26][27] - 在写作阶段引入生成式检索机制,模型根据上下文动态生成数据和图片索引标识符,以保障引用准确性和图文一致性 [29][30] 系统性能与实验结果 - 在高质量基准测试中,FinSight在事实准确性、分析深度与呈现质量三项核心指标上均显著优于对比系统,综合评分达到8.09 [34] - 在可视化维度上,得益于迭代式视觉增强机制,FinSight获得9.00的评分,明显领先 [35] - 系统生成的研报平均长度超过20000字,包含50余张图表与结构化数据引用,且报告质量随篇幅增长保持稳定 [38] - 在AFAC 2025金融智能创新大赛中,FinSight在1289支参赛队伍中排名第一,验证了其在真实场景中的实用性与鲁棒性 [39] 系统意义与行业影响 - FinSight展示了智能体架构在高复杂度垂直领域的潜力,首次在金融投研这一“专家密集型”场景中,展现出接近人类分析师的工作能力 [40] - 这一范式表明,在高度依赖专业知识、长时程推理与多模态表达的领域,AI系统开始承担起类似人类专家的工作方式 [41] - 随着智能体架构成熟,未来的科研分析、法律研判、医疗决策等复杂领域,或将逐步迎来以专家级AI智能体为核心的新一代生产力形态 [42][43]
Kimi新功能Deep Researcher海外引发热议 还被马斯克直播点名
搜狐财经· 2025-07-10 18:15
模型发布 - 马斯克旗下公司xAI正式发布最新旗舰模型Grok 4 [1] HLE测试表现 - OpenAI Deep Research在HLE测试中创下26.6%的新纪录,较之前最高分(o3-mini的13%)翻倍 [4] - Google Gemini 2.5 Pro在HLE测试中得分为21.64%,优于o3(20.32%)但落后于OpenAI Deep Research [4] - 月之暗面Kimi-Researcher以26.9%的成绩创下HLE测试新纪录,超越OpenAI Deep Research和Google Gemini [4] - AI行业在一年内HLE测试成绩从不足5%提升至超过25% [4] Kimi DeepResearcher产品特性 - 在执行研究任务时平均进行23次推理,筛选高质量信息并剔除冗余内容 [6] - 具备自动生成分析结论能力,拥有文献严谨性,可有效减少模型幻觉 [6] - 在xBench DeepSearch基准测试中达到69%的优异表现 [4] 行业评价 - AI从业者高度评价Kimi DeepResearcher,认为其视觉效果出色且研究能力精准 [3] - 海外研究者将Kimi列为中国AI领域前三强,与DeepSeek、字节跳动并列 [4] - 行业人士指出Kimi是基于模型的Agent产品,而非简单工具套用 [4]
开启 AI 自主进化时代,普林斯顿Alita颠覆传统通用智能体,GAIA榜单引来终章
机器之心· 2025-06-04 17:22
核心观点 - Alita是一款基于「极简即是极致复杂」哲学的通用智能体,通过「最小化预定义」与「最大化自我进化」的设计范式实现自主思考、搜索和创造MCP工具[1][5][14] - Alita在GAIA基准测试中表现卓越,pass@1达75.15%,pass@3达87.27%,超越OpenAI Deep Research和Manus等竞争对手[3][22] - Alita的动态MCP工具创建能力使其在复杂任务中展现出超越预定义工具系统的灵活性与创造力[6][7][19] 技术架构 设计理念 - 最小化预定义:仅内置Manager Agent和Web Agent作为核心组件,避免人工预设工具库[13][14] - 最大化自进化:通过MCP协议动态生成、优化和复用工具,实现持续演化[14][16] 核心模块 - MCP Brainstorming模块:分析任务需求并生成能力缺口描述与工具构建建议[17] - 脚本生成模块:结合网页检索结果实时创建可执行的MCP工具代码[17] - 代码运行与验证模块:在虚拟环境测试工具并实现自我优化[17] 性能表现 GAIA基准 - Validation测试pass@1达75.15%,pass@3达87.27%,超越OpenAI Deep Research的67.36%[3][22] - Mathvista数学推理测试pass@1达74%,PathVQA医学图像识别达52%[22] 跨模型赋能 - 其生成的MCP工具可使Open Deep Research-smolagents准确率从27.88%提升至33.94%[30] - GPT-4o-mini模型复用MCP后准确率从21.82%提升至29.09%,Level 3任务提升3倍[30] 创新应用 动态工具创建案例 - 针对PPT页码提取任务,动态生成专用处理工具而非依赖预设文本转换工具[19] - 在视频理解任务中创建逐帧分析MCP,突破字幕抓取工具的局限性[19][20] MCP复用价值 - 实现智能体蒸馏新范式,降低传统蒸馏成本[27] - 通过工具复用使单次尝试(pass@1)达到近似多次尝试(pass@N)的效果[28]
Deep Research类产品深度测评:下一个大模型产品跃迁点到来了吗?
Founder Park· 2025-04-23 20:37
产品定义与特点 - Deep Research 产品是以大模型能力为基础、集合检索与报告生成的端到端系统,能迭代搜索和分析信息并生成详细报告[4] - 与传统 LLM Search 产品相比,Deep Research 是迈向 Agent 产品雏形的跃迁,可能成为经典产品形态[6] 产品测评情况 - 测评围绕 Tool Use、Instruction Following、报告输出能力对五家 Deep Research 产品评估,Memory 因自动联网检索难以有效评估[10] Tool Use 能力 - 在线检索中 OpenAI 表现出色,在冷门电影和最新书籍检索任务中唯一成功定位正确内容[20][31] - 数据分析任务里五家产品均未成功计算出正确数值,OpenAI 和 Manus 能力成熟度较高但有偏差[35][47] - 编程任务中 Manus 表现最佳,提供完整项目文件且网页功能和美观性达标,五家产品输出分层明显[57] Instruction Following 能力 - 文献分析任务中五家产品均无法完全遵循指令,存在“选择性执行”和“对牛弹琴”情况[72] - 旅游路线设计采用六维评估体系,Google、Manus、OpenAI 得分接近满分但交通可行性有不足[107][118][123][130] 报告输出能力 - 基于商业研报场景评估,各产品能力排序为 OpenAI > Manus > PPLX = xAI >> Google,OpenAI 兼顾深度与广度[136] 总结与展望 - Deep Research 产品打破外部工具调度和需求执行平均线,但消除短板、触及天花板需市场耐心,Agent 产品下一级阶梯或更快降临[162][164]
Deep Research 类产品深度测评:下一个大模型产品跃迁点到来了吗?
海外独角兽· 2025-04-21 21:13
Deep Research产品概述与市场格局 - Deep Research是一种以大模型为基础,集成了检索与报告生成的端到端系统,通过对信息进行迭代搜索和分析,最终输出详细报告[3] - 自2024年末至2025年初,多家公司密集发布了Deep Research产品,包括Google Deep Research (2024-12-11)、OpenAI Deep Research (2025-02-03)、Perplexity (2025-02-15)、xAI Deep Search (2025-02-18)和Manus (2025-03-06),标志着该赛道竞争白热化[3][8][9] - 与传统的LLM Search产品相比,Deep Research通过嵌入系列推理模型和采用多次搜索、异步返回的模式,实现了自主计划、反思和行动,是迈向Agent产品雏形的一次关键跃迁[5] 测评产品核心能力比较 - 在**多模态支持**上,除Google和xAI外,OpenAI、Perplexity和Manus均支持图片等多模态输出,其中OpenAI和Manus还支持多模态输入[9] - 在**上下文长度**上,Google Deep Research支持高达100万token,Perplexity支持32,000 tokens,而OpenAI和Manus未披露,xAI支持“lm token”[9] - 在**数据源**上,各产品主要依赖其关联的搜索引擎,如Google使用其搜索原生索引、Scholar、YouTube等,OpenAI和Perplexity使用Bing,xAI和Manus使用在线网页[9] - 在**商业模式与配额**上,各产品定价策略不同:Google面向Advanced用户收费20美元/月;OpenAI向Plus用户(20美元/月)提供10次/月,向Pro用户(200美元/月)提供100次/月;Perplexity免费用户有3次/日配额,Pro用户(20美元/月)有500次/日配额;xAI免费使用,SuperGrok用户收费30美元/月;Manus采用邀请制,Starter用户(39美元/月)有3900 credits,Pro用户(199美元/月)有19900 credits[9] Tool Use能力测评结果 - **在线检索能力(小众内容定位)**:OpenAI表现突出,是唯一成功完成冷门电影检索(Task 1)和最新书籍检索(Task 2)的产品,验证了其在小众内容检索上的“一骑绝尘”能力[20][22][34] - **数据分析能力(基于财报的因子计算)**:五家产品均未成功计算出Tesla EPS增速跳跃因子的正确数值,但OpenAI和Manus在计算对象准确性和完备度上表现相对成熟,而xAI和Google未完成计算,Perplexity则计算对象错位[39][42][45][46][49][50] - **编程能力(智慧城市设计)**:Manus表现最佳,是唯一提供了完整、可运行且美观的网页项目文件的产品;OpenAI提供了可运行但美观度不足的网页;而Google、xAI和Perplexity提供的代码均无法正常运行[57][59][64][66][70][71] Instruction Following能力测评结果 - **文献分析能力(多话题科研综述)**:五家产品均无法完全遵循所有指令,存在“选择性执行”或内容逻辑偏差的问题。OpenAI在部分段落(如末段总结和表格)符合规范,但首段无视字数要求;xAI严格执行了字数要求但分析深度不足;Perplexity完全遵循了第二段指令但首段偏离主题;Google和Manus则在内容逻辑和字数体例上均未严格遵循指令[75][78][81][83][91][92][95][98][101][102] - **路线设计能力(旅游方案规划)**:在一个六维评估体系(满分30分)中,Google、Manus和OpenAI的方案得分接近满分(29分),但在跨城交通时间上均有扣分;Perplexity方案得28分,目的地较同质化;xAI方案得27分,在咖啡馆体验丰富度上明显不足,有走马观花之感[106][107][108][115][122][130] 报告输出能力测评结果 - 基于商业研报场景的五维度评估,各产品报告输出能力排序为:OpenAI (90分) > Manus (85分) > Perplexity = xAI (70分) >> Google (60分)[136] - **OpenAI**的分析最具专业性和拟真性,是唯一精确锚定并比较了三大竞品公司的产品,报告稍加修改即可作为咨询建议阅读[137][139] - **Manus**的优势在于分析维度全面分解和自主绘图意识强,是唯一明确提到目标公司存在估值泡沫风险的产品,但在信息准确性和论证充分性上有不足[140][143][145] - **Perplexity**和**xAI**的报告质量基本达标,但观点清晰度或创新性有所欠缺,xAI受限于输出媒介无法输出分析图表[147][149][150][153][154] - **Google**的报告停留于整合基本事实,分析观点不明确,方法存在偏差,且信息密度低,以“加长版”扩写为主[159][162][166] 总结:各产品特点与Agent发展前景 - **Google Deep Research**:倾向于以报告篇幅取胜,但模型幻觉问题仍有待干预[167] - **OpenAI Deep Research**:综合表现最强,长尾内容检索能力是行业标杆,但在数据分析和编程维度的Tool Use潜力尚未完全实现[167] - **Perplexity**:在各任务中表现基本合格,但缺乏突出的单项产品能力[167] - **xAI Deep Search**:优势在于保留了短平快的检索底色,在执行字数要求等指令时表现稳定,但多目标规划能力较弱[167] - **Manus**:作为衔接了Deep Research和其他Agent功能的产品,其Tool Use能力有显著优势,但Instruction Following能力仍有空白[167] - 总体而言,Deep Research作为Agent产品的初代形态,在Agent内生能力和长文本报告输出上仍有短板,达到能力天花板仍需时间,但预示着Agent产品的下一级阶梯将更快降临[167]
从 R1 到 Sonnet 3.7,Reasoning Model 首轮竞赛中有哪些关键信号?
海外独角兽· 2025-03-03 21:10
行业竞争格局 - 头部AI实验室在过去一个月密集发布三个SOTA推理模型:OpenAI的o3-mini和deep research、xAI的Grok 3、Anthropic的Claude 3.7 Sonnet,标志着新范式第一轮竞赛暂告段落 [1] - 当前尚无全面领先的SOTA模型:OpenAI和xAI在基础模型和竞赛解题能力占优,Anthropic更擅长真实世界工程问题,Claude 3.7 Sonnet的混合推理模型可能成为行业新标准 [1][3] - DeepSeek R1在有限资源下实现开源创新,虽表现暂时落后但技术扩散价值显著 [7][8] 模型能力对比 - **数学推理**:o3-mini-high在AIME 2024测试中Pass@1达87.3,显著优于Claude 3.7 Sonnet的61.3/80.0和Grok 3的83.9/93.3 [9] - **工程代码**:Claude 3.7 Sonnet在SWE-bench验证中准确率领先20%+,可靠代码输出长度从3.5版的200行提升至1000-1500行 [19][20] - **多模态**:Gemini 2.0 Flash在多模态理解能力上绝对领先,但高阶融合能力尚未涌现 [6] 技术范式演进 - 基础模型预训练仍具关键价值:高质量基础模型是强化学习的前提,且当前评估方法已落后于模型智能发展 [12] - 混合推理成为趋势:Claude 3.7 Sonnet通过"extended thinking"设置实现快慢思考切换,未来模型需具备动态计算能力 [13][14][16] - RL Scaling效果优于垂直微调:OpenAI竞争性编程报告显示通用RL scaling比领域RL finetuning效果更好 [34][35] 产品应用创新 - Claude Code定位为AI Coding基建:通过命令行界面帮助AI扎根传统代码库,结合action scaling能力实现类Devin的agentic工作流 [22][23] - OpenAI Deep Research确立PMF形态:在网页理解深度、信息准确性、意图识别等方面领先,支持可配置的研究广度/深度控制 [29][31][32] - Agent能力升级关键:action scaling实现连续tool use,verifiable environment构建(如OS browser/Coding)及online learning机制 [25][27][28] 性能基准数据 | 测试维度 | Claude 3.7 Sonnet | Grok 3 Beta | o3-mini-high | |----------------|-------------------|-------------|--------------| | GPQA Diamond | 78.2/84.8 | 80.2/84.6 | 79.7 | | Codeforces评分 | - | - | 2130 | | SWE-bench | 49.3 | - | 49.2 | [9]