Workflow
DeepResearch
icon
搜索文档
Kimi新功能Deep Researcher海外引发热议 还被马斯克直播点名
搜狐财经· 2025-07-10 18:15
是Kimi上月发布的首款Agent产品,在HLE测试中超过了Gemini2.5Pro,略高于OpenAI Deep Research,并与Gemini-Pro的Deep Research Agent打平,是目 前已知的最高水平之一。 当地时间9日晚,马斯克旗下公司xAI举办直播发布会,正式发布其最新旗舰模型Grok 4。 直播中提到HLE(Humanities Last Exam,人类最后的考试)进行对比时,分别介绍了OpenAI、谷歌旗下Gemini以及月之暗面Kimi三家公司,而 DeepResearcher正 资料显示,Kimi DeepResearcher功能在执行每个研究任务时,会平均进行23次推理,由模型判断并筛选出信息质量最高的内容后,剔除冗余及低质信息, 自动生成分析结论,拥有文献的严谨性,可有效告别模型幻觉。 在海外社交媒体上,AI从业者纷纷表达着对这款来自中国AI产品的喜爱,有网友表示,Kimi Deep Researcher可能是用过的最好的深度研究模型,视觉效 果出色。也有博主表示,对深度研究的能力和准确性印象深刻。 | February 3. | OpenAl Deep | A ma ...
一文读懂 Deep Research:竞争核心、技术难题与演进方向
Founder Park· 2025-06-26 19:03
深度研究系统生态现状 - 2025年AI Agent探索浪潮中,"深度研究"类产品成为最早成功落地的领域之一,谷歌、OpenAI、Anthropic等巨头已推出商业竞品,开源社区涌现80+团队参与[1] - 当前生态呈现显著差异化,竞争焦点转向系统架构、工程优化与应用场景适配度的综合比拼[1] - 评估体系从通用基准转向高度专业化测评,"适合与否"取代"好坏"判断[2] 技术实现与核心能力 核心技术差异 - 基础模型与推理效率:OpenAI/DeepResearch等商业系统依托专有大模型在上下文长度和复杂推理占优,Perplexity/DeepResearch通过优化开源模型实现竞争力[4] - 工具集成适应性:AutoGLM等构建全能平台,Nanobrowser专注网页交互,n8n擅长API集成与工作流自动化[5] - 任务规划稳定性:OpenAI/AgentsSDK长于层级化任务分解,Agent-RL/ReSearch利用强化学习提升鲁棒性,smolagents通过多智能体协作提升并行效率[5] 架构选型趋势 - 单体式架构(如OpenAI/DeepResearch)保证推理连贯性但扩展性受限[12] - 多智能体架构(如smolagents)实现功能专业化与并行处理,需解决协调一致性挑战[13] - 混合架构(如Perplexity/DeepResearch)结合多智能体并行搜集与中央推理核心,灵活性最高但实现复杂[13] 应用场景适配 - 学术研究:OpenAI/DeepResearch和Perplexity/DeepResearch在引用严谨性、方法论分析上表现突出[8] - 企业决策:Gemini/DeepResearch和Manus凭借数据整合与分析框架优势明显[8] - 个人知识管理:Open-Manus等开源方案在隐私保护、本地部署方面占优[8] 评估体系演进 - 专业化基准涌现:AAAR-1.0(150项多领域任务)、DSBench(20项数据科学任务)、TPBench(理论物理推理)等[9][11] - 多模态评估兴起:MMSci(研究生级多模态科学问答)、GMAI-MMBench(医学多模态)[10] - 功能评估三维度:任务完成能力(WebArena基准)、信息检索质量(F1分数)、知识综合准确性(TruthfulQA基准)[17][18] 未来技术方向 推理架构突破 - 上下文窗口限制:通过信息压缩(OpenAI分层处理)和外部记忆架构(Camel-AI的OWL系统)解决[23][24] - 混合推理模式:神经网络-符号集成架构实现创造性联想与形式化验证切换[25] - 动态知识图谱:HKUDS/Auto-Deep-Research系统实现知识双向演化[26] 因果与不确定性 - 因果推理三层能力:因果图构建、效应量化、结构化分析框架[28] - 干预建模技术:Agent-RL/ReSearch展示反事实推理潜力[28][29] - 多维不确定性建模:Perplexity/DeepResearch区分源不确定性与集成不确定性[30]
80个团队入局,AI深度研究赛道,究竟“卷”向何方 | Jinqiu Select
锦秋集· 2025-06-24 23:14
深度研究系统行业概览 - 2025年AI Agent探索浪潮中"深度研究"类产品最早成功落地 从2024年底谷歌发布首个产品开始 OpenAI Anthropic等巨头迅速跟进 已有超过80个团队投入该领域 [1] - 行业竞争焦点从单一模型能力转向系统架构 工程优化与应用场景适配度的综合比拼 评估体系从通用基准演进为高度专业化测评 [2] - 多智能体协同架构成为前沿方向 需解决幻觉控制 安全隐私和过程可解释性三大核心挑战 未来系统将向知识创造路径演进 [3] 技术架构与系统比较 - 商业系统如OpenAI/DeepResearch和Gemini/DeepResearch依托专有大模型 在上下文长度和复杂推理占优 而Perplexity/DeepResearch通过优化开源模型实现竞争力 [5] - 工具集成呈现"大而全"与"小而精"分野 AutoGLM和Manus构建全能平台 Nanobrowser专注网页交互 n8n擅长API集成与工作流自动化 [6] - 任务规划方面 OpenAI/AgentsSDK长于层级化分解 Agent-RL/ReSearch利用强化学习提升鲁棒性 smolagents通过多智能体协作提升并行效率 [6] 应用场景适配性 - 学术研究场景要求引用严谨性和方法论分析能力 OpenAI/DeepResearch和Perplexity/DeepResearch表现突出 [8] - 企业决策场景注重信息时效性和数据整合 Gemini/DeepResearch和Manus占据优势 [8] - 个人知识管理场景侧重易用性和隐私保护 Open-Manus和nickscamara/open-deep-research等开源方案更适用 [8] 评估体系演进 - 商业系统在HLE和GAIA等综合认知测试保持优势 但专门化评测中不同系统特长显现 如Perplexity/DeepResearch在SimpleQA事实问答领先 AutoGLM在WebArena网页自动化优异 [9] - 评估体系深度专业化 涌现AAAR-1 0 DSBench SciCode MASSW等150+任务评测 覆盖科研助理能力 数据科学 科学工作流等细分领域 [10] - 多模态评估兴起 MMSci ScienceQA GMAI-MMBench等基准检验跨模态理解能力 [10] 实现技术与挑战 - 主流架构包括单体式 流水线 多智能体和混合式四种 多智能体架构通过角色分工实现并行处理 但需解决协调一致性问题 [13][14] - 分布式推理和并行搜索技术优化计算效率 如LightLLM VLLM框架 Perplexity/DeepResearch可并行发出数十查询 [15] - 核心挑战包括幻觉控制(来源标定技术) 隐私保护(数据隔离) 可解释性(展示推理过程) [17][18] 未来技术方向 - 突破上下文窗口限制 通过信息压缩(分层处理 语义导航)和外部记忆架构(检索增强生成)实现"无限记忆" [25][27][28] - 神经与符号推理融合 神经网络处理创造性任务 符号系统负责形式化验证 知识图谱实现动态演化 [30][31] - 从相关性到因果推理 开发因果推断机制(构建因果图 量化效应)和干预建模技术(反事实推理) [33][34] - 多维不确定性建模 区分知识局限 固有随机性和模型缺陷 集成贝叶斯推理系统更新信念 [35][36][37]
文字的速度终于赶上了短视频
虎嗅APP· 2025-05-24 11:26
行业趋势分析 - 全球最大稍后阅读工具Pocket宣布停服 将于2024年10月8日删除所有用户数据 该产品在被Mozilla收购后已进入慢性衰退期 高峰期曾服务1700万用户并保存超10亿篇文章[2] - 停服核心原因是用户网络使用习惯变化 母公司决定将资源转向更符合当代浏览需求的项目[3] - 该事件标志着"稍后阅读"商业模式的式微 反映AI时代信息获取方式的根本性变革[4] 用户行为变迁 - 2007-2017年间用户通过Pocket等工具缓解信息爆炸焦虑 将未读内容存入"数字冷宫"的行为本质是用空间换时间的幻觉[7] - 实际使用数据显示 绝大多数存入"稍后阅读"的内容最终未被阅读 类似健身房年卡的自我安慰效应[8] - AI技术使信息获取从"等待投喂"转变为"按需定制" 大型语言模型可在秒级生成定制化报告 消除延迟阅读需求[10] 技术替代效应 - AI实现阅读体验革命:GPT-4等模型能即时生成文章摘要 将万字长文压缩为分钟级可消化的核心观点 解决传统阅读时间稀缺痛点[11] - 文字内容消费效率已接近短视频的即时性 信息处理速度提升变相创造时间资源[12] - 创作端AI赋能使写作门槛从技巧要求降为表达意愿 普通劳动者可通过AI助手将生活经验转化为优质文字[19][20] 内容生产变革 - AI最核心价值在于赋能非专业写作者 使基层劳动者等群体能突破文字表达能力限制 释放其独特生活视角的价值[16][19] - 职业写作者面临结构性冲击 依赖转述他人生活的"代言人式"创作模式将被AI直接连接原生态经验的模式取代[19] - 文字创作周期从"十年积淀+一年写作"压缩为"十年积淀+两小时生成" 生产效率实现数量级提升[20] 媒介生态演变 - 文字媒介在AI加持下首次实现与短视频的速度对标 包括生产端和消费端的全链路加速[22][24] - 技术变革带来内容民主化红利 但同步引发对深度思考弱化、原创价值重估等产业争议[24] - 历史经验表明 类似印刷术取代手抄本的技术迭代 最终会推动行业整体进步[24]
文字的速度终于赶上了短视频
虎嗅· 2025-05-23 13:26
全球最大的稍后阅读工具 Pocket 宣布停服,它将在今年 10 月 8 日删除所有账户和用户数据。 实际在 2017 年被 Firefox 浏览器的母公司 Mozilla 收购之后,这款曾经为 1700 万用户保存超过 10 亿篇文章的第二大脑,就已经进入了慢性死亡。 在官方的公告里,用一段非常简单的文字解释了他们为什么要关闭 Pocket: 具体来说,其实只有一条: 与它的一众同侪,如 Instapaper,诞生于一个信息爆炸初期、但个体处理能力尚未迭代的时代。 有个许久不被提及的词,用来形容那个时代——信息爆炸。那时的网民贪婪地刷着 RSS、Twitter、各个博客与论坛,在 Google 简洁的搜索窗前连接全世 界的连接。 在没有任何外力可以帮助他们筛选信息的时候,总有一种"这个似乎有用,但现在没时间细看"的焦虑。于是,"加入稍后阅读"成了一种仪式,仿佛将那些 未读的文章、视频存进去,就等于我们已经拥有了它们,或者至少,拥有了未来某个时刻从容阅读它们的可能性。 这是一种典型的现代病,反映了用空间换时间的幻觉。我们将数字内容从一个即时性的信息流中"拯救"出来,安置到一个专属的、看似永恒的"冷宫"里, 期 ...
大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%
量子位· 2025-05-06 12:24
核心观点 - 新基准测试集BrowseComp-ZH显示主流大模型在中文网页检索任务中表现极差,GPT-4o准确率仅6.2%,最佳模型OpenAI DeepResearch也仅42.9% [1][13][26] - 中文互联网环境具有信息碎片化、搜索入口多样、语言表达复杂等独特挑战,需原生设计测试集而非简单翻译英文基准 [4][5][6] - 模型需具备多跳推理、信息整合能力而非单纯记忆或单次检索,才能有效应对中文网页任务 [14][15][19] 测试集设计 - 采用逆向设计法构建289道高难度中文多跳检索题,覆盖11大领域,确保问题有唯一可验证答案 [7] - 题目模拟真实中文互联网痛点:信息分散于百度百科/微博等多平台、语言含省略/典故、搜索引擎质量参差 [9] - 验证显示百度/Bing/Google首屏无法直接命中答案,人工确认问题结构清晰且答案唯一 [10] 模型表现分析 - 纯记忆模型准确率普遍低于10%,DeepSeek-R1(23.2%)比无搜索版本(8.7%)高14.5%,凸显推理能力重要性 [16][18] - 多轮检索模型全面领先,单次检索模型(如Kimi、Yuanbao)准确率低至个位数 [20] - 部分模型开启搜索功能后性能反降,如DeepSeek-R1准确率从23.2%跌至7.6%,因未能融合网页与既有知识 [22][23] 头部模型排名 - OpenAI DeepResearch以42.9%居首,豆包Deep Search(26.0%)和Perplexity Research模式(22.6%)分列二三名 [27][26] 行业影响 - 数据集已开源,旨在推动LLM中文信息处理能力发展,助力构建真正"会用中文上网"的智能体 [24][25] - 研究团队计划扩充样本规模、拓展问答形式并分析模型推理路径 [26]
AI Agent深度(二):2025 Agent元年,AI从L2向L3发展
东吴证券· 2025-05-05 16:23
报告行业投资评级 未提及 报告的核心观点 - 2025年是Agent元年,AI正从L2向L3进化,由技术成熟、标杆产品出现、MCP协议普及和市场需求驱动[2] - Agent重要性在于深度自动化、通往AGI和重塑互联网入口,预计入口级通用Agent竞争2025年下半年开启[2] - Agent竞争格局是“巨头环伺,新锐突破”,大厂主导通用Agent,垂直领域有创新机会但面临通用Agent威胁[2] - 投资建议重视2025年Agent投资窗口,长期配置平台巨头,关注垂直领域领跑者,知识工作领域尤其是编程领域会最先落地[2] 根据相关目录分别进行总结 为什么说2025年是Agent元年 - AI正从L2向L3进化,L3能自主规划和执行复杂任务,从“思考”走向“行动”[6][7] - 驱动力包括技术成熟,强大多模态基础模型和强化学习训练方法就绪;行业领导者推动,标杆产品验证;市场需求驱动,企业需要AI落地解决复杂业务问题[2][9][18] - MCP协议普及有助于推动Agent行业互联互通,解决交互碎片化和高成本问题[22] - 市场对AI需求从“尝试”到“落地”,渴望自动化复杂任务和显著提升生产力,Agent契合这些需求[40][41] - 只有同时具备对话、推理、长记忆和工具调用四项能力才能称之为Agent,工具调用是核心区分要素[43] Agent为何重要 - Agent带来深度自动化,能理解模糊指令,执行复杂认知型任务,打通端到端工作流,实现认知自动化[49] - 带来指数级效率提升,形成人机协作新范式,让人类聚焦高价值活动,赋能创新,处理速度快、可规模化、有成本优化潜力、减少错误[53][55] - 是通往AGI和具身智能的关键阶段,从L3到L4存在鸿沟,当前“只读”型Agent有PMF,未来向“读写”型进化[56][57][59] - 可能重塑互联网流量入口格局,挑战传统搜索引擎,部分APP被“管道化”,Agent本身可能成为入口,预计2025年下半年围绕通用入口级Agent的大战将开启[61][67][70] 竞争格局:模型即产品,通用Agent将由大厂主导 - Agent领域竞争围绕平台与应用、通用与垂直、成本与效率、交互范式、数据与护城河、人才竞争六个维度展开[75][76] - 模型即产品,爆款应用背后是模型能力更新,“浅层套壳产品”缺乏壁垒,易被颠覆,真正的壁垒来自复杂工作流编排、工具集成和领域知识[77][86][88] - Agent分为垂直型和通用型,大厂主导通用型Agent格局,通过基础大模型、平台与生态、应用集成等策略布局[90][92][95] - 通用Agent对垂直Agent构成长期威胁,但短期内垂直Agent凭借深度领域知识和定制化能力仍有发展空间[112][113][114] Agent将最先落地于知识工作(尤其是代码) - 未详细阐述相关内容 投资建议 - 重视2025年Agent投资窗口,跟踪基础模型、强化学习、工具调用、推理成本和标准化协议进展[2] - 长期配置拥有强大基础大模型、算力、数据和生态系统的大型科技平台公司,如海外的Google、微软,国内的阿里、腾讯、字节等[2] - 关注在特定垂直赛道建立深厚领域知识壁垒、有清晰商业模式和客户基础的垂直Agent提供商,知识工作领域尤其是编程领域会最先落地,已有成功案例,如Cursor、Devin等[2]
AIAgent深度(二):2025Agent元年,AI从L2向L3发展
东吴证券· 2025-05-04 23:05
核心观点 - 2025年是Agent元年,AI正从L2向L3进化,由技术成熟、标杆产品出现、MCP协议普及和市场需求驱动 [2] - Agent重要性在于深度自动化、通往AGI和重塑互联网入口,预计2025年下半年开启入口级通用Agent竞争 [2] - Agent竞争格局是“巨头环伺,新锐突破”,大厂主导通用Agent,垂直领域有创新机会但面临通用Agent威胁 [2] - 投资建议是重视2025年Agent投资窗口,长期配置平台巨头,关注垂直领域领跑者 [2] 为什么说2025年是Agent元年 AI从L2向L3进化 - AI从L2(推理者)向L3(Agent)进化,代表从“思考”走向“行动” [6] - L1是聊天机器人,L2是推理者,L3是智能体,具备记忆、规划、工具使用和行为记忆四大核心能力 [6][7] 驱动力 - 技术成熟度达到临界点,强大的多模态基础模型和成熟的强化学习训练方法已就绪 [2][9] - 行业领导者推动,标杆产品验证,如OpenAI、Google等发布关键产品,RE - Bench测试显示顶尖Agent在特定任务上效率匹敌人类专家 [2][18][20] - MCP协议普及,解决Agent与外部世界交互的碎片化和高成本问题,促进互联互通 [2][22] - 市场需求驱动,2023年是“模型竞赛年”,2024年是“应用探索年”,2025年市场需要AI落地解决复杂业务问题,Agent契合需求 [2][39][40] 定义 - 同时具备对话、推理、长记忆和工具调用四项能力才能称之为Agent,工具调用是核心区分要素 [43] - Agent智能程度有层次和梯度,关于Agent定义存在诸多问题待明确 [46] Agent为何重要 深度自动化 - Agent能理解模糊指令,自主规划并执行复杂认知型任务,打通端到端工作流,实现认知自动化 [49] - 带来指数级效率提升,形成人机协作新范式,让人类聚焦高价值活动,赋能创新 [53] - 解放人类生产力与创造力,将人类从重复性劳动中解放出来 [55] 通往AGI和具身智能 - Agent是通往AGI和具身智能的关键环节,从L3到L4存在鸿沟,目前“只读”型Agent有PMF,未来向“读写”型进化 [56][57][59] 重塑互联网流量入口格局 - 对传统搜索引擎形成挑战,改变信息获取方式,将搜索升级为“完成任务” [62][65] - 部分APP被“管道化”,功能单一的服务型App入口价值下降,复杂或体验型App仍是入口 [67] - Agent本身成为入口,可能是APP、浏览器或OS操作系统,预计2025年下半年围绕“通用入口级Agent”的大战将开启 [69][70] 竞争格局 竞争维度 - 围绕平台与应用、通用与垂直、成本与效率、交互范式、数据与护城河、人才竞争六个维度展开 [75][76] 模型即产品 - AI应用核心价值在于模型能力,爆款应用背后是模型能力更新,API经济可能走向终结 [77][78][79] - “浅层套壳产品”缺乏可持续竞争壁垒,终将被颠覆,真正的壁垒来自复杂工作流编排、工具集成能力和深度领域知识 [86][88] 通用Agent与垂直Agent - 通用Agent由大厂主导,大厂在基础大模型、平台与生态、应用集成方面布局 [92][95] - 垂直Agent短期内凭借深度领域知识和定制化能力有优势,但长期面临通用Agent泛化能力的威胁 [113][114] Agent将最先落地于知识工作 最先落地的行业和场景 - Agent最先落地于知识工作领域,尤其是代码/软件开发领域,已有成功案例,如Cursor、Devin [2][4] 代码/软件开发领域进展 - 代码领域进展较快,Cursor成长曲线陡峭,ARR和估值大幅增长 [115] 法律AI Agent对比 - 文档未提及相关内容 投资建议 - 重视2025年Agent投资窗口,跟踪基础模型、强化学习、工具调用等进展 [2] - 长期配置平台巨头,如海外的Google、微软,国内的阿里、腾讯、字节等 [2] - 关注垂直领域领跑者,如编程、研究、法律等领域,总结了30家上市公司在垂类Agent方面的布局 [2]
国家将全力推动游戏出海战略升级,OpenAI发布轻量版
国盛证券· 2025-04-27 17:42
报告行业投资评级 - 行业评级为增持(维持)[6] 报告的核心观点 - 2025年传媒弹性方向看好AI应用、IP变现及并购重组,AI应用聚焦新应用的映射投资及部分较成熟应用的数据跟踪,重点关注多模态产业方向;IP变现聚焦有IP优势及全产业链潜力的公司,潮流玩具、影视内容等方向有机会;并购重组重点关注国企方向,在国资委明确国企市值考核的背景下,传媒国企诉求明显提升,部分国企资金优势明显[1] 根据相关目录分别进行总结 投资聚焦 行情概览 - 本周(4.21 - 4.25)中信一级传媒板块上涨0.14%,涨跌幅前三的板块分别是综合金融(5.06%)、汽车(4.98%)、电力设备新能源(3.09%);涨跌幅后三的板块分别是房地产(-1.20%)、消费者服务(-1.34%)、食品饮料(-1.42%)[1][10] - 传媒板块本周涨幅前五为生意宝(21.1%)、幸福蓝海(15.1%)、横店影视(14.3%)、天神娱乐(10.0%)、ST三五(7.7%);跌幅前五为大晟文化(-6.6%)、读客文化(-7.8%)、山东出版(-9.1%)、芒果超媒(-9.7%)、冰川网络(-10.4%)[11] - 教育&人服板块本周涨幅前五为光正教育(23.3%)、枫叶教育(19.0%)、高途集团(11.2%)、鸿合科技(10.8%)、有道(10.2%);跌幅前五为好未来(-6.5%)、新高教集团(-6.8%)、宇华教育(-9.0%)、中汇集团(-9.3%)、传智教育(-21.8%)[12] - 重点港股&中概股上市公司一周走势为泡泡玛特(4.7%)、快手(1.4%)、猫眼娱乐(-0.1%)、爱奇艺(16.4%)、腾讯控股(4.4%)、心动公司(5.2%)、网易 - S(4.1%)、哔哩哔哩(7.4%)、阅文集团(2.6%)、腾讯音乐(8.7%)[12] 本周子板块观点 - 资源整合预期关注中视传媒、国新文化、广西广电、唐德影视、吉视传媒、游族网络等[2][16] - AI关注荣信文化、奥飞娱乐、汤姆猫、盛天网络、中文在线、易点天下、视觉中国、盛通股份、焦点科技、豆神教育、世纪天鸿、佳发教育等[2][16] - 游戏建议关注确定性强的神州泰岳、恺英网络、巨人网络、吉比特,关注完美世界、ST华通、冰川网络、华立科技[2][16] - 国企关注慈文传媒、皖新传媒、中文传媒、南方传媒、凯文教育、大晟文化等[2][16] - 教育关注学大教育等[2][16] - 港股关注【阿里巴巴】【腾讯控股】【泡泡玛特】,产业爆发在即的【阜博集团】,K12教培龙头【新东方】及业绩弹性较大的区域龙头【思考乐教育】【卓越教育】[2][16] 重点事件回顾 - AIGC方面,国务院批复《加快推进服务业扩大开放综合试点工作方案》,提及全力推动游戏出海战略升级,重点培育游戏国际化全产业链,2024年中国自主研发游戏在海外市场实际销售收入达185.57亿美元,同比增长13.39%,中国游戏“出海”收入规模已连续5年超千亿元[3][18] - 4月25日,OpenAI官宣基于o4 - mini的轻量版DeepResearch上线,轻量版回答更短,智能水平与满血版几乎无异,付费用户有更多使用次数[4][18] - 4月23日,腾讯混元携手InstantX开源定制化角色生成插件InstantCharacter,基于DiTs,能实现角色个性化创作[5][18] - 4月21日,昆仑万维发布并开源全球首个无限时长电影生成模型SkyReels - V2,支持生成30秒、40秒视频,具备生成高质量视频能力[18] 子板块数据跟踪 - 游戏方面,近期热门重点游戏包括《问鼎三国 - 策略国战手游》、《三国志幻想大陆2:枭之歌》等[19] - 院线方面,内地电影市场周总票房(4.21 - 4.25)约1.21亿元(不含服务费),票房排名前三的电影为《哪吒之魔童闹海》(0.36亿)、《向阳·花》(0.17亿)、《唐探1900》(0.14亿)[20] - 影视视频方面,2025年4月21日至25日全平台剧集收视播放量,《无忧渡》排名第一,全网热度81.4;综艺收视播放量《无限超越班第三季》排名第一,全网热度76.5[22]
腾讯研究院AI速递 20250427
腾讯研究院· 2025-04-26 23:50
OpenAI GPT-4o模型升级 - 优化记忆存储机制,提升对话信息记忆和回忆能力 [1] - STEM领域推理能力显著提升,更好解决数学、科学、工程等复杂问题 [1] - 对话风格更加主动自然,擅长引导对话方向,回复更贴近真实交谈 [1] DeepResearch轻量版发布 - 基于o4-mini的轻量版DeepResearch免费开放使用,付费用户获额外额度 [2] - 轻量版用时更短、内容更精简,但保持相近智能水平 [2] - 实测显示轻量版更注重梳理重点脉络,适合快速了解概况的场景 [2] Kimi开源音频基础模型 - Kimi-Audio开源模型支持多种音频任务,在十多个基准测试中实现SOTA性能 [3] - 采用音频分词器、大模型、去分词器三大核心组件的集成式架构 [3] - 预训练数据集规模达1300万小时,通过三阶段训练方法显著提升性能 [3] DeepWiki代码理解工具 - 为GitHub仓库提供AI驱动的实时交互式文档,免费免注册 [4] - 通过层级化分解和提交历史分析理解代码全局结构,已索引3万个仓库 [4] - 处理超40亿行代码,使用方式简单只需替换域名即可访问AI文档 [4] 百度开发者大会发布 - 文心4.5 Turbo和X1 Turbo两款新模型发布,价格最高降80% [6] - 发布高说服力数字人、多智能体协作APP"心响"、内容操作系统"沧舟OS" [6] - 推出"AI开放计划",发布首个支持电商交易的MCP服务 [6] Perplexity浏览器追踪计划 - 计划推出浏览器"彗星",追踪用户全部在线行为以销售超个性化广告 [7] - 已与摩托罗拉达成合作预装应用,正与三星洽谈合作 [7] - 未来有意收购Chrome浏览器业务 [7] 软体机器手研发 - 清北团队研发两款新型软体机器手,一款基于肌电控制可达10Hz点击频率 [8] - 首款软体假肢手重405.8克,30分钟即可掌握,满足日常办公需求 [8] - 成本控制在千元级,将应用于康复医疗、电竞等领域 [8] 美国政府AI行动计划 - OpenAI和Anthropic呼吁加强对中国AI封锁,建议限制高端GPU芯片输出 [9][10] - Meta和谷歌认为开源AI是美国竞争优势,过度管制会让美国失去主导权 [9] - 美国政府收到超1万份AI行动计划建议 [10] 大模型推理能力研究 - 清华研究表明强化学习未真正提升大模型推理能力,答案来自基座模型分布 [11] - 在数学、代码和视觉推理三大领域,基座模型大量采样后超越RL模型表现 [11] - RL只能优化现有能力而难以创造新能力,真正突破需基础架构创新 [11] Agent系统科普 - Agent核心是LLM与工具的循环交替调用,LLM负责决策,工具负责执行 [12] - 协作式Agent比完全自主Agent更有现实价值,可让用户实时观察和纠正AI行为 [12] - 评估Agent系统需关注多个维度而非盲目使用Agent解决所有问题 [12]