Workflow
AI洞察:字节与OpenAI等Agent多点更新
华创证券·2025-06-04 08:15

报告行业投资评级 - 推荐(维持)[5] 报告的核心观点 - 5月26日AI领域国内外均有动态更新,国内Agent生态与C端用户体验双轮驱动成效显现,海外Agent领域竞争趋于白热化,AI行业在评估体系、交互体验、智能体应用及技术革新等方面快速发展,各领域不断突破创新,企业竞争加剧,技术迭代加速,未来AI行业将面临更多机遇与挑战,建议关注AI企业级服务及场景落地机会[2][3][4][8] 根据相关目录分别进行总结 AI洞察:字节与OpenAI等Agent多点更新 - 5月26日国内红杉中国推出XBench,豆包App上线实时视频通话功能,QQ浏览器推出高考Agent“AI高考通”,昆仑万维发布天工超级智能体app版本;海外OpenAI升级Operator智能体,模型从4o升级到o3,推理和浏览器交互能力提升,有望激发其他企业加快Agent产品迭代,未来Agent技术可能在多模态融合等方面取得更大突破,加速AI在日常生活中的渗透[2][11] 国内 红杉中国发布XBench:AI学术评估体系更新 - 推出AI基准测试工具XBench,采用双轨评估体系,首期发布两大测评集,标志AI评估体系从单一性能指标迈向全面能力评估新阶段,为国内AI企业提供更科学评估手段,促使企业注重产品综合性能提升[12] - XBench主要功能包括双轨评估、长青评估机制、核心评估集、垂直领域智能体评测、实时更新与LeaderBoard[14] - 评估机制采用双轨评估体系和长青评估机制,双轨评估分为xbench - AGI Tracking与xbench - Profession Aligned,AGI Tracking评测是基础,实现关键能力突破才可能进入Profession Aligned评测;长青评估针对不同评估类型有不同构建和维护方式[15][16][26] - 运用长青评估思路和IRT构建xbench - Index追踪Agent产品市场变化,能精准估算核心能力指标,突破时间限制;评估了Agent的技术 - 市场契合点,认为专业领域会经历三个TMF阶段[27][31] 豆包上线视频通话功能:AI进入实时视觉交互时代 - 豆包App上线实时视频通话功能,支持视频问答,将AI交互方式从文字拓展到实时视频场景,推动AI服务向专业化、场景化迈进[12] - 依托视觉理解模型的三大核心技术突破,实现从“图像理解”到“动态视频解析”的质变,结合NLP技术实现“看 + 听”的感知融合[38][39] - 新功能深度覆盖文旅、教育、日常生活三大高频场景,构建“视觉输入 + 自然语言”的双通道交互体系[40] QQ浏览器推出行业首个高考Agent“AI高考通” - 基于腾讯混元大模型技术,将高考服务升级为全流程智能决策平台,整合多方面信息,实现高考场景智能化覆盖[45] - 贯穿高考前、中、后全流程,提供差异化智能服务,以技术赋能教育普惠[46] 昆仑天工超级智能体(Skywork Super Agents)移动App正式上线 - 作为全球首款基于AI Agent架构的移动端Office智能体应用,打破传统AI办公局限,实现办公场景全终端覆盖,提升移动办公效率,支持搭建私人知识库[48][49] - 基于自研“deep research模型”构建,技术实力在国际评测中领先,推理成本仅为OpenAI的40%,有望推动AI办公应用普及与发展[49] 国外 OpenAI升级Operator智能体:推理能力跃升新台阶 - 将Operator从GPT - 4o模型升级至o3,提升复杂任务处理能力,面向Pro或Enterprise套餐用户,基本月费200美元[50] - 主要模块更新包括感知推理架构优化,基于CUA框架整合视觉识别技术与强化学习推理逻辑,实现复杂任务长流程规划能力;安全机制升级,嵌入微调数据集,降低非法操作概率,强化防御体系[51] 投资建议与相关标的 - 建议关注AI企业级服务,如办公领域的金山办公等,营销领域的迈富时等;以及行业落地场景,如金融领域的同花顺等[8]