Deep Research

搜索文档
独家|陈天桥布局端到端Deep Research生态赛道,MiroMind发布全栈开源深度研究项目ODR
Z Potentials· 2025-08-09 12:50
公司概况 - 专注于构建具有自主意识的数字Agent,目标是为全人类实现安全可控的AGI,核心理念是AGI为持续迭代的动态系统而非固化模型 [2] - 愿景成为人工智能创新领域的全球领军者,聚焦基础模型及下一代智能关键技术的前沿探索,强调长期主义、开发者友好和系统开放理念 [2] - 由前中国首富陈天桥创办,其曾创立盛大网络并保持中国最年轻内地首富纪录(31岁),近年All in AI+脑科学领域,孵化多家AI创业公司并捐赠5000万元成立复旦天桥人工智能研究院 [4] 技术架构与性能 - 全栈开源生态系统:包含Agent框架(MiroFlow)、模型(MiroThinker)、数据(MiroVerse)和训练基础设施(MiroTrain/MiroRL),所有组件开放共享 [1][8] - SOTA级性能:MiroFlow搭配商用模型API在GAIA验证集得分82.4,超越现有商用API;搭配开源MiroThinker模型在GAIA-Text-103数据集达60.2%性能,接近OpenAI Deep Research水平 [1][15] - 可复现性:MiroFlow框架代码和配置开源,第三方可复现GAIA验证集82.4的高性能表现 [13] 核心团队与技术背景 - 清华电子工程系副教授代季峰领衔,其研究成果包括可变形卷积Deformable ConvNets(PyTorch标准算子)、BEVFormer(自动驾驶多相机感知里程碑)、UniAD(CVPR 2023最佳论文)等 [5][6] - 代季峰开发的InternVL多模态基础模型Hugging Face下载量超1000万次,论文总引用6万余次 [6] 开发者生态 - 提供147k开源训练数据(MiroVerse),按月更新并响应社区反馈 [12] - 社区活动包括竞赛、排行榜、Hackathons,开发者可直接影响项目发展 [1][22] - 支持数据需求提报、功能定制与技术挑战,覆盖数据工程师、AI研究员等多角色参与 [22] 行业定位与竞品对比 - 对标OpenAI Deep Research概念,构建开源协作的深度研究生态系统(Agent框架+模型+数据+训练设施) [7] - 在GAIA性能表现上显著领先竞品:MiroMind ODR得分82.4,远超OpenAI Deep Research(67.4)、Manus(73.3)等 [10]
AI四小强重新上桌了?
虎嗅· 2025-07-26 20:11
AI四小强技术布局与竞争态势 - AI四小强(MiniMax、DeepSeek、阿里巴巴、百度)被黄仁勋评价为开发"世界级产品",近期通过Deep Research技术重新进入行业焦点 [1] - 7月阶跃星辰推出阶跃AI Deep Research测试版,MiniMax在6月连续发布推理模型M1、视频生成模型及Agent,月之暗面跟进Kimi Research,智谱3月已发布融合Deep Research的AutoGLM沉思版 [2] - 四家公司均押注Deep Research和AI Agent技术,以垂直领域深度应用应对大厂竞争,并需向投资人证明其在下半场的竞争力 [3][4] Deep Research技术路径分化 - 月之暗面Kimi-Researcher采用"傻瓜式操作"路径,用户仅需指令即可生成报告(10-20分钟),提供可视化卡片/表格等ChatGPT未覆盖的功能 [12][14] - 智谱和MiniMax选择高互动型Workflow模式,用户需设计复杂提示词并实时反馈,任务耗时1-2小时但可控性更强 [13][14] - 两种路径均反映当前大模型能力不足,四小强通过升级模型补足短板:MiniMax M1支持1兆上下文,月之暗面K2参数量达万亿,阶跃星辰Step 3推理效率达DeepSeek R1的300% [15] 行业竞争与商业化压力 - 腾讯、阿里、字节等大厂通过元宝、夸克、豆包等产品挤压四小强市场空间,Kimi因停投流导致搜索排名下滑但仍坚持技术优先策略 [17][18] - 四小强放弃用户规模追逐,转向技术迭代:智谱启动上市辅导,MiniMax拟融资3亿美元(估值40-50亿美元),月之暗面K2获国际认可,MiniMax视频模型Hailuo 02评测全球第二 [23][22] - Agent商业化案例显现价值:某客户通过Agent将销售培训周期从30天缩至2天,新人绩效达中等偏上水平,但需解决高token消耗(单报告22万token)及任务执行成本(2-3美元/次)问题 [28][30] 技术卡位与市场挑战 - 四小强需通过出圈案例证明技术优越性,对比Manus(融资7500万美元)和Lovert(获马斯克点赞)的国际影响力仍有差距 [25][26] - Agent市场增长现疲态:Manus月访问量从2376万次降至1730万次,Genspark从888万次跌至769次,反映产品市场匹配度待提升 [31] - 行业进入"厘时代"算力价格战,但Agent的高成本与长耗时(OpenAI目标用户需愿等待30分钟)仍是普及障碍 [30][31]
国产Deep Research杀出一匹「裸奔」黑马:免费开放,过程透明,网页报告一键即出
量子位· 2025-07-15 14:28
秘塔AI搜索深度研究功能发布 - 国产AI搜索平台秘塔AI推出对标Deep Research的深度研究功能,完全免费开放使用,无需申请或会员资格 [1] - 功能可展示完整思考链和证据链,研究步骤全程可视化,最终生成结构化研究报告 [1][2] - 支持将报告一键转换为互动网页,自动排版并标注信息来源 [4][32][33] 技术能力与评测表现 - 在BrowseComp和xbench-DeepSearch评测集上表现最优,中英文能力均领先 [8] - 超越通义开源的WebSailor模型最新测试成绩 [10] - 研究过程采用多色标注系统:绿色为确定结论,紫色为待完善结论,红色为信息缺失部分 [23][24] 核心功能特点 - 支持复杂问题拆解,如分析AMD与英伟达AI芯片竞争时,会从CoWoS封装技术分配比例预测出货量 [18][22] - 参考资料库包含400+篇中英文文献,每个知识点均标注来源 [29][31] - 支持全网+文库+学术+图片+视频+播客+私域的全范围搜索 [14] 应用场景展示 - 商业调研:自动生成数据可视化图表(柱状图/折线图) [39] - 日常生活:提供科学现象深度解释 [41] - 非常规问题:能处理"企鹅偷石头"等奇特查询 [44] 行业定位与竞争优势 - 深度研究功能成为AI能力新风口,国内外巨头(OpenAI/Perplexity/谷歌)纷纷布局 [47][48] - 国内同类产品多设付费墙或试用限制,秘塔直接免费开放形成差异化 [48][49][50] - 技术优势来自"AI+搜索"双基因组合,兼具大模型逻辑能力和搜索引擎信息抓取能力 [51]
80个团队入局,AI深度研究赛道,究竟“卷”向何方 | Jinqiu Select
锦秋集· 2025-06-24 23:14
深度研究系统行业概览 - 2025年AI Agent探索浪潮中"深度研究"类产品最早成功落地 从2024年底谷歌发布首个产品开始 OpenAI Anthropic等巨头迅速跟进 已有超过80个团队投入该领域 [1] - 行业竞争焦点从单一模型能力转向系统架构 工程优化与应用场景适配度的综合比拼 评估体系从通用基准演进为高度专业化测评 [2] - 多智能体协同架构成为前沿方向 需解决幻觉控制 安全隐私和过程可解释性三大核心挑战 未来系统将向知识创造路径演进 [3] 技术架构与系统比较 - 商业系统如OpenAI/DeepResearch和Gemini/DeepResearch依托专有大模型 在上下文长度和复杂推理占优 而Perplexity/DeepResearch通过优化开源模型实现竞争力 [5] - 工具集成呈现"大而全"与"小而精"分野 AutoGLM和Manus构建全能平台 Nanobrowser专注网页交互 n8n擅长API集成与工作流自动化 [6] - 任务规划方面 OpenAI/AgentsSDK长于层级化分解 Agent-RL/ReSearch利用强化学习提升鲁棒性 smolagents通过多智能体协作提升并行效率 [6] 应用场景适配性 - 学术研究场景要求引用严谨性和方法论分析能力 OpenAI/DeepResearch和Perplexity/DeepResearch表现突出 [8] - 企业决策场景注重信息时效性和数据整合 Gemini/DeepResearch和Manus占据优势 [8] - 个人知识管理场景侧重易用性和隐私保护 Open-Manus和nickscamara/open-deep-research等开源方案更适用 [8] 评估体系演进 - 商业系统在HLE和GAIA等综合认知测试保持优势 但专门化评测中不同系统特长显现 如Perplexity/DeepResearch在SimpleQA事实问答领先 AutoGLM在WebArena网页自动化优异 [9] - 评估体系深度专业化 涌现AAAR-1 0 DSBench SciCode MASSW等150+任务评测 覆盖科研助理能力 数据科学 科学工作流等细分领域 [10] - 多模态评估兴起 MMSci ScienceQA GMAI-MMBench等基准检验跨模态理解能力 [10] 实现技术与挑战 - 主流架构包括单体式 流水线 多智能体和混合式四种 多智能体架构通过角色分工实现并行处理 但需解决协调一致性问题 [13][14] - 分布式推理和并行搜索技术优化计算效率 如LightLLM VLLM框架 Perplexity/DeepResearch可并行发出数十查询 [15] - 核心挑战包括幻觉控制(来源标定技术) 隐私保护(数据隔离) 可解释性(展示推理过程) [17][18] 未来技术方向 - 突破上下文窗口限制 通过信息压缩(分层处理 语义导航)和外部记忆架构(检索增强生成)实现"无限记忆" [25][27][28] - 神经与符号推理融合 神经网络处理创造性任务 符号系统负责形式化验证 知识图谱实现动态演化 [30][31] - 从相关性到因果推理 开发因果推断机制(构建因果图 量化效应)和干预建模技术(反事实推理) [33][34] - 多维不确定性建模 区分知识局限 固有随机性和模型缺陷 集成贝叶斯推理系统更新信念 [35][36][37]
OpenManus 00后主创现场演示,Agent开发的“快”与“痛” | 万有引力
AI科技大本营· 2025-04-11 17:49
项目背景 - OpenManus 复刻 Manus 核心功能,以开放姿态在不到一个月内于 GitHub 获超 42.2k Star 关注[2] 开发者经历 - 梁新兵和向劲宇因 MetaGPT 黑客松活动接触 Agent 领域,确定研究方向[8][9] - 梁新兵科班出身,向劲宇从物理转行,两人在合作中优势互补[8][9] 开发工具与工作流 - 开发者日常借助 Kimi、Repo Mix、Cursor 等 AI 工具学习新技术、提升编程技能,提高工作效率[11][14] - OpenManus 很多代码由 AI 辅助编写,但需人工审查和修改[15] 项目诞生与反响 - 向劲宇预判复刻 Manus 并开源会火,两人利用业余时间快速搭建 OpenManus,发布后 Star 数疯涨[18][19] - 开源目的主要是科普和推广简洁实现理念,让初学者易理解 Agent 核心逻辑[18][19] 项目设计与实现 - OpenManus 架构含 planning tool、Agent 和 tool 模块,采用 react 模式执行任务[24][27] - 定义 Agent 关键要素为工具和提示词,核心工具约 10 个,工具粒度较大[28][32][38] 开源社区贡献 - AWS 官方提交适配 Bedrock API 的代码,社区贡献者完善 Web Search 功能[43][44] - 因审核困难和缺乏测试用例,开发者会慎重考虑修改大量代码的 PR[46] 项目演示与挑战 - 演示 OpenManus 制定旅行规划时出现启动慢、卡住等问题,可能与上下文长度和代码 Bug 有关[52][53][55][56] MCP 协议 - MCP 是统一协议,目标是让大模型以统一方式使用工具,OpenManus 已实现部分支持[60][61][64] 未来规划 - 进行强化学习微调模型,基于 Agent Gym 开发 OpenManus RL 扩展项目[66][67] - 完善多 Agent 协调、MCP 协议支持、工具集成和测试用例建设等工作[68] 学习与借鉴 - 开发者通过 RepoMix 抓取代码,借助大模型理解代码逻辑和架构,将精华部分整合到项目中[69][72][73]