Skywork Deep Research Agent v2 - 财报，业绩电话会，研报，新闻

Skywork Deep Research Agent v2

搜索文档

量子位· 2025-08-17 17:00

技术发布概览 - 一周内连续发布六款多模态AI模型，覆盖视频生成、世界模型、统一多模态、智能体及AI音乐创作等核心场景 [2][3] - 绝大部分模型已开源，包括音频驱动视频生成模型SkyReels-A3、交互世界模型Matrix-Game 2.0、3D场景生成模型Matrix-3D等 [3][19][25] - 技术周前公司入选"中国AI开源16强"，与腾讯、阿里等并列 [5] 核心模型与技术突破视频生成领域 - **SkyReels-A3**：支持音频驱动人像视频生成，预设8种运镜参数，可生成60秒单分镜视频，唇形同步指标Sync-C达8.66，超越OmniHuman（8.15）和Hydra（7.70） [8][10][12][14] - 技术原理：基于DiT视频扩散模型+插帧延展+强化学习动作优化，支持文本提示词输入画面变化及商品交互 [14][15] 世界模型领域 - **Matrix-Game 2.0**：国内首个对标谷歌Genie 3的开源模型，支持25 FPS实时生成分钟级交互视频，数据管线基于Unreal Engine和GTA 5构建1350小时高质量交互视频 [19][20][22][24] - **Matrix-3D**：单图像生成全景视频并还原三维空间，对标李飞飞World Labs，适用于游戏引擎、元宇宙等领域 [25][27] 统一多模态领域 - **Skywork UniPic 2.0**：2B参数模型在图像生成/编辑任务中超越7B的BAGEL和12B的Flux-Kontext，联合训练后模型UniPic2-Metaquery刷新多项SOTA [29][31][33] - 训练策略：采用渐进式双任务强化策略优化SD3.5-Medium架构，降低硬件门槛 [30][31] 智能体领域 - **Skywork Deep Research Agent v2**：多模态深度调研智能体整合图片检索与生成，自动插入图文混合文档；浏览器智能体支持社媒多模态分析（如小红书、Instagram） [37][38][44] - 技术手段：端到端强化学习（GRPO算法）、并行推理机制、多智能体协同框架 [48][49][50][51] AI音乐与语音 - **Mureka V7.5**：中文音乐生成模型在音色、情感表现上超越Suno v4.5，优化ASR技术提升人声真实度 [53][54][57] - **MoE-TTS**：基于MoE的语音合成框架，通过自然语言描述精准控制声音特征，域外描述贴合度领先闭源产品 [60][61] 战略与行业布局 - **战略定力**：2023年确立"All in AGI与AIGC"战略，2024年研发费用15.4亿元（同比+59.5%），研发团队占比73.41% [66][67][73] - **垂直领域聚焦**：CEO方汉强调垂直Agent与高频应用场景的价值，如数字人直播（国内市场规模近十万亿）、游戏引擎、具身智能等 [70][76] - **开源生态**：通过开源建立技术话语权，推动"技术-社区-应用"正向循环，强化行业地位 [78]

Artificial Intelligence

Artificial Intelligence

MoE - TTS

人工智能龙头“开花结果”：昆仑万维发布多款前沿模型，厚积薄发迎商业收获期

每日经济新闻· 2025-08-15 20:45

技术与商业同步跃升 - 公司正处于AI技术与商业同步发展的关键窗口期在全球AI产业竞争加速背景下 [1] - 通过SkyWork AI技术发布周集中推出六款覆盖多模态AI核心场景的前沿模型展示高强度研发投入转化为市场竞争力的成果 [1] - 2024年全年研发费用达15.4亿元同比增长59.5% 重点投入AI算力芯片、大模型及应用等环节 [1][13] Mureka V7.5模型突破 - 模型构建了深度融合文化语境与语言特性的音乐音频理解模块系统性训练覆盖中文音乐多样性包括传统民歌、戏曲到当代民谣 [3] - 在音色与演奏技法上实现质的飞跃通过优化ASR技术提升人声清晰度、结构感和情感真实度显著降低机械感 [4] - 已形成成熟商业模式包括C端流媒体平台Melodio和B端创作平台Mureka API 2025年3月年化流水超1200万美元 [3] MoE-TTS框架创新 - 首创基于MOE的角色描述语音合成框架融合预训练大语言模型文本能力与语音专家模块实现"知识零损失"的泛化理解能力 [4] - 在双测试集评测中风格表现力贴合度和整体贴合度等声学控制维度领先尤其擅长处理比喻、类比等复杂修辞 [6] - 应用潜力覆盖虚拟助手、数字人、有声创作等领域推动行业从封闭标签式控制迈向自然语言自由控制 [6] 全栈AI技术突破 - SkyReels-A3模型实现音频驱动人像视频生成基于DiT视频扩散模型+插帧模型+强化学习动作优化技术 [7] - Matrix-Game 2.0世界模型实现25FPS实时长序列交互生成生成时长扩展至分钟级为A股唯一对标谷歌Genie的模型 [7][9] - Matrix-3D模型从单图像生成可漫游三维空间对标WorldLabs效果短期革新游戏开发、影视制作流程长期布局元宇宙基础设施 [9] 多模态与智能体技术 - Skywork UniPic 2.0构建理解、生图、编辑一体化能力已全面开源模型权重与训练代码降低开发者门槛 [9] - Skywork Deep Research Agent v2整合多模态检索、理解和生成突破长距离信息收集与异步并行架构输出视觉友好的深度报告 [10] - 技术迭代源于实际产品需求具备高应用价值为产业端提供高效、开放、可落地的AI工具集 [12] 研发战略与商业化闭环 - 公司采用"厚积薄发"策略 2025年一季度研发费用同比增长23.4%至4.3亿元持续加码AI算力芯片与大模型研发 [13] - 技术突破快速转化为商业化应用形成研发-落地-收益反哺的正向循环 2024年全球月活用户近4亿海外收入占比91% [14] - AI社交业务单月最高收入突破100万美元成为海外增长最快的中国AI应用构建面向万亿级生态的双轮驱动模式 [14]

腾讯研究院· 2025-08-15 00:01

美国AI芯片追踪技术 - 美国当局在戴尔和超微等服务器内的英伟达和AMD芯片货运中秘密安装位置追踪装置，主要针对可能非法转运至中国的高风险先进AI芯片 [1] - 追踪器包括智能手机大小的运输箱装置及隐藏于包装或服务器内部的更小型设备，涉及美国商务部工业与安全局、国土安全调查局和联邦调查局等多部门协作 [1] - 白宫和国会提议要求美国芯片公司在芯片中嵌入位置验证技术以加强出口管制 [1] Claude Code Opus规划模式 - Claude Code新增"Opus规划模式"，在规划阶段调用Claude 4 1 Opus模型，其他任务使用Claude 4 Sonnet模型以兼顾智能分析与效率 [2] - 该功能通过模型选择器或快捷键Shift+Tab切换，Opus权限用户更新后即可使用，结合Opus 4 1的复杂问题分析能力与Sonnet 4的代码生成经济性 [2] 昆仑万维Skywork Deep Research Agent v2 - Skywork Deep Research Agent v2整合多模态检索、理解和生成能力，解决传统文本检索丢失图像信息的问题 [3] - 多模态深度浏览器智能体支持小红书等内容平台分析，在BrowseComp评测中标准模式正确率27 8%，开启"并行思考"模式后提升至38 7%刷新行业纪录 [3] 腾讯混元Hunyuan-GameCraft - Hunyuan-GameCraft开源工具通过输入图片、文字和动作指令生成高清动态游戏视频，支持第一/第三人称视角及多样场景 [4] - 具备连续动作空间、场景一致性记忆增强和免人工建模三大优势，适用于游戏开发原型、视频创作和3D设计展示 [4] 微软AI Agent五大模式 - 微软发布工具使用、反思、规划、多智能体和ReAct五种Agent设计模式，支持快速开发自动化AI员工 [5][6] - Azure AI Foundry提供1400多条连接器，原生支持A2A、MCP等模式，每个智能体绑定Entra ID确保安全 [6] 月之暗面OpenCUA框架 - OpenCUA框架包含计算机使用演示注释基础设施、覆盖三大系统及200+应用的AgentNet数据集和长思维链推理工作流 [7] - OpenCUA-32B模型在CUA基准测试OSWorld-Verified上成功率34 8%，超越开源模型及OpenAI CUA [7] 苹果AI智能家居产品 - 苹果开发桌面机器人（带7英寸屏和15厘米机械臂）、带屏HomePod和智能安防摄像头三类AI产品，预计2026-2027年推出 [8] - 配套开发主动对话AI Siri（代号Linwood）和"Bubbles"视觉形象，运行"Charismatic"新操作系统 [8] 智元机器人Genie Envisioner - Genie Envisioner平台整合未来帧预测、策略学习与仿真评估，包含GE-Base、GE-Act和GE-Sim三大组件，基于3000小时真机数据训练 [9] - GE-Act仅需1小时遥操作数据即可跨平台迁移，长时序任务表现超越现有SOTA方法 [9] 百川智能医疗大模型 - 百川智能团队精简至200人以内，发布Baichuan-M2医疗大模型，HealthBench评测34分超过OpenAI宣称的32分 [10][11] - 聚焦AI家庭医生方向，预计2026年推出消费者服务，认为医疗AI协作需求将早于无人驾驶落地 [11]

Artificial Intelligence

Skywork Deep Research Agent v2

Hunyuan - GameCraft

Azure AI Foundry

Genie Envisioner

Artificial Intelligence

Skywork Deep Research Agent v2

Hunyuan - GameCraft

Azure AI Foundry

Genie Envisioner

昆仑万维SkyWork AI技术发布周正式启动

中证网· 2025-08-14 20:13

公司技术发布活动 - 昆仑万维于8月11日至15日启动SkyWork AI技术发布周每天发布一款新模型覆盖多模态AI核心场景的前沿模型包括SkyReels-A3、Matrix-Game 2.0、Matrix-3D、Skywork UniPic 2.0 [1] - 8月14日正式发布Skywork Deep Research Agent v2 作为天工超级智能体的核心引擎 [1] - 该模型自5月22日上线后大幅重塑大模型在AI Office领域的角色通过skywork.ai为用户产出大量信息密度极高的优质文档、PPT、表格等交付物 [1] 多模态技术突破 - 团队在四个方面完成技术突破：多模态爬取技术MM-Crawler、长距离多模态信息收集、异步并行Multi-Agent多模态理解架构和多模态结果呈现能力 [2] - 多模态深度浏览器智能体进行多项关键自研技术优化包括升级DOM+视觉推理方案、主流平台专项适配、并行搜索、多动作规划机制、智能筛选、人机无缝接管与隐私保护 [2] - 智能体能够模拟人类浏览与交互方式革新传统数据采集与分析模式可精准完成智能搜索、多模态信息分析与社区内容洞察 [3] 模型性能提升机制 - Skywork Deep Research Agent v2引入多种提升机制：高质量数据合成及训练、端到端强化学习、高效的并行推理以及多智能体自我学习演进系统 [3] - 在权威搜索评测榜单BrowseComp上常规模式下性能超越大多数同类产品正确率达到27.8% [4] - 开启自主研发的"并行思考"模式后正确率跃升至38.7% 刷新行业SOTA纪录且正确率随思考时间增加持续攀升 [4] 行业技术地位 - 新版本在多项Agent任务评测上超越现有模型达到行业SOTA水平 [3] - 多模态深度浏览器智能体有效解决传统浏览器智能体的多项痛点展示天工智能体在长周期任务与VLA任务中的巨大潜力 [3]

昆仑万维(SZ:300418)

Artificial Intelligence

Multi - modality

Software

Skywork Deep Research Agent v2

Skywork Browser Agent

SkyReels - A3

Artificial Intelligence

Multi - modality

Software

Skywork Deep Research Agent v2

Skywork Browser Agent

SkyReels - A3

昆仑万维正式发布Skywork Deep Research Agent v2

证券日报网· 2025-08-14 18:47

公司技术发布活动 - 昆仑万维于8月11日至15日启动SkyWorkAI技术发布周每天发布一款新模型覆盖多模态AI核心场景的前沿模型已发布SkyReels-A3、Matrix-Game2.0、Matrix-3D、SkyworkUniPic2.0模型 [1] 多模态深度调研智能体 - 公司于8月14日正式发布SkyworkDeepResearchAgentv2 作为天工超级智能体的核心引擎首次整合多模态检索理解和跨模态生成能力到深度研究工作 [1] - 该智能体自5月22日上线后大幅重塑大模型在AIOffice领域的角色通过skywork.ai为用户产出大量信息密度极高的优质文档、PPT、表格及其他交付物 [1] 多模态技术突破 - 为实现多模态信息检索能力提升公司在四个方面完成技术突破：多模态爬取技术MM-Crawler、长距离多模态信息收集、异步并行Multi-Agent多模态理解架构和多模态结果呈现能力 [2] - 通过技术创新使智能体实现"读文字+看图片"功能让用户一次获得信息完整、节奏顺畅、视觉友好的深度报告 [2] 浏览器智能体技术优化 - 多模态深度浏览器智能体进行多项关键自研技术优化包括升级DOM+视觉推理方案、主流平台专项适配、并行搜索、多动作规划机制、智能筛选、人机无缝接管与隐私保护 [2] - 该智能体模拟人类浏览与交互方式革新传统数据采集与分析模式可精准完成智能搜索、多模态信息分析与社区内容洞察 [3] - 有效解决传统浏览器智能体痛点展示天工智能体在长周期任务与VLA任务中的巨大潜力 [3] 智能体性能提升 - 为加强复杂任务执行和信息检索整理能力 v2版本引入多种提升机制：高质量数据合成及训练、端到端强化学习、高效的并行推理、多智能体自我学习演进系统 [3] - 新版本在多项Agent任务评测上超越现有模型达到行业SOTA水平 [3] - 在并行思考模式下正确率随思考时间增加持续攀升展现自研系统架构潜力与扩展性 [3]

昆仑万维(SZ:300418)

多模态AI

人工智能

Skywork Deep Research Agent v2

多模态深度浏览器智能体（SkyworkBrowserAgent）

多模态AI

人工智能

Skywork Deep Research Agent v2

多模态深度浏览器智能体（SkyworkBrowserAgent）