Workflow
昆仑万维(300418)
icon
搜索文档
开源版Genie 3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品
机器之心· 2025-08-19 10:43
核心观点 - 昆仑万维发布开源交互世界模型Matrix-Game 2 0,参数量仅1 8B,能在单块GPU上实现25FPS的分钟级实时互动生成,效果媲美Google DeepMind的Genie 3 [1][12][11] - 该模型突破传统世界模型在实时交互、长序列生成和计算效率上的瓶颈,支持键盘WASD控制自由移动,生成画面具有物理一致性和高保真细节(如GTA地图、神庙逃亡无限延伸场景)[4][8][9][19] - 技术架构采用视觉驱动交互方案,通过3D Causal VAE+DiT模型实现少步骤自回归扩散生成,训练数据来自虚幻引擎和GTA5采集的120万视频片段(准确率99%)[35][36][37][39] - 定量对比显示其图像质量(0 61)、时间一致性(0 94)、键盘控制准确率(0 91)等指标显著优于Oasis模型,解决"转圈画风突变"问题[48][49] - 公司2023年持续发力开源生态,已发布SkyReels视频生成、Skywork-R1V多模态推理等10余个模型,技术覆盖图像/音频/视频/智能体全领域[51][53] 技术突破 - **架构创新**:移除文本分支专注视觉理解,动作模块支持帧级键鼠输入,通过MLP+交叉注意力实现精准交互控制[39][40] - **训练机制**:采用Self-Forcing将双向模型转为自回归变体,减少误差累积,生成视频时长可达分钟级[42][45] - **数据管线**:构建虚幻引擎+GTA5双数据源,开发Script Hook V工具同步记录动作与画面,积累1200小时交互视频[36][37][38] 应用场景 - **游戏开发**:实测可复刻《荒野大镖客》自然景观、《CS:GO》地图细节补充、《我的世界》像素场景动态生成[20][21][24] - **现实模拟**:成功生成自行车骑行第一视角,柏油马路与行道树动态符合物理规律[26] - **AI训练场**:为具身智能提供虚拟环境训练,解决机器人/自动驾驶数据采集难题[57][58] 行业影响 - 成为首个开源通用实时世界模型方案,推动技术民主化发展[10][11] - 模型效果接近商业级3A游戏引擎,帧率与谷歌Genie 3相当(25FPS vs 30FPS)[12][4] - 开源策略加速行业创新,HuggingFace模型获超1k星标热度[52]
计算机行业周报:智谱AI发布GLM-4.5V多模态模型,昆仑万维发布业界首个多模态深度调研Agent-20250818
华鑫证券· 2025-08-18 23:07
行业投资评级 - 计算机行业维持"推荐"评级 [2] 核心观点 算力动态 - 智谱AI发布GLM-4.5V多模态模型,总参数1060亿,激活参数120亿,刷新41项视觉推理基准测试纪录 [4][17] - GLM-4.5V采用三维旋转位置编码技术,支持64K tokens多模态长上下文输入,具备图像理解、视频分析、文档解析等全场景能力 [20][21] - 算力租赁价格平稳,A100-40G配置中腾讯云价格为5.73元/时,阿里云为31.58元/时 [16][18] AI应用动态 - 昆仑万维发布业界首个多模态深度调研Agent,支持图文信息整合生成,在BrowseComp评测中准确率达38.7% [5][28] - QuillBot周访问量环比增长4.44%,ChatGPT以1359.0M访问量位居AI应用流量榜首 [25][27] AI融资动向 - Cohere完成5亿美元D轮融资,估值达68亿美元,其Command A模型性能媲美GPT-4且响应速度提升75% [6][41] 机器人产业 - 2025年世界人形机器人运动会举办,宇树科技H1机器人在田径赛多项项目中夺冠,展示产业潜力 [8][50] 重点公司推荐 - 亿道信息(001314.SZ):与Rokid等AI眼镜厂商合作,2025E PE 51.48x [9][52] - 唯科科技(301196.SZ):新能源业务高增,供货全球电机巨头,2025E PE 47.75x [9][52] - 迈信林(688685.SH):算力业务扩张,2025E PE 34.50x [9][52] 行业表现 - 计算机(申万)指数近1月/3月/12月涨幅分别为10.1%/19.8%/84.9%,显著跑赢沪深300 [3] - 上周AI算力指数最大涨幅2.48%,英维克单周涨幅达37.57% [44][47]
游戏板块8月18日涨1.07%,顺网科技领涨,主力资金净流出2.8亿元
证星行业日报· 2025-08-18 16:45
板块整体表现 - 游戏板块整体上涨1.07%,领先于上证指数0.85%和深证成指1.73%的涨幅 [1] - 当日板块主力资金净流出2.8亿元,游资资金净流出3.34亿元,散户资金净流入6.14亿元 [2] 领涨个股表现 - 顺网科技领涨板块,涨幅4.83%,收盘价23.00元,成交量47.60万手,成交额10.68亿元 [1] - 富春股份涨幅3.88%,收盘价7.77元,成交量74.85万手,成交额5.71亿元 [1] - ST中青宝涨幅3.76%,收盘价11.04元,成交量16.12万手,成交额1.79亿元 [1] 资金流向特征 - 顺网科技获得主力资金净流入1.00亿元,主力净占比9.37%,但散户资金净流出9938.26万元 [3] - 浙数文化获得主力资金净流入8872.72万元,主力净占比7.21%,游资净流入2307.72万元 [3] - 姚记科技获得主力资金净流入4229.73万元,主力净占比7.22%,但游资净流出1777.85万元 [3] 成交活跃度 - 汤姆猫成交量最大达405.76万手,成交额23.59亿元,涨幅3.20% [1] - 昆仑万维成交额最高达31.60亿元,涨幅3.34%,成交量85.08万手 [1] - 神州泰岳成交量122.72万手,成交额17.64亿元,涨幅0.28% [2] 个别下跌个股 - 吉比特跌幅最大达5.11%,收盘价390.00元,成交额12.73亿元 [2] - 游族网络微跌0.12%,收盘价17.29元,成交额16.08亿元 [2] - 巨人网络基本持平,涨幅0.04%,收盘价28.31元,成交额15.61亿元 [2]
一周六连发!昆仑万维将多模态AI卷到了新高度
量子位· 2025-08-17 17:00
技术发布概览 - 一周内连续发布六款多模态AI模型,覆盖视频生成、世界模型、统一多模态、智能体及AI音乐创作等核心场景 [2][3] - 绝大部分模型已开源,包括音频驱动视频生成模型SkyReels-A3、交互世界模型Matrix-Game 2.0、3D场景生成模型Matrix-3D等 [3][19][25] - 技术周前公司入选"中国AI开源16强",与腾讯、阿里等并列 [5] 核心模型与技术突破 视频生成领域 - **SkyReels-A3**:支持音频驱动人像视频生成,预设8种运镜参数,可生成60秒单分镜视频,唇形同步指标Sync-C达8.66,超越OmniHuman(8.15)和Hydra(7.70) [8][10][12][14] - 技术原理:基于DiT视频扩散模型+插帧延展+强化学习动作优化,支持文本提示词输入画面变化及商品交互 [14][15] 世界模型领域 - **Matrix-Game 2.0**:国内首个对标谷歌Genie 3的开源模型,支持25 FPS实时生成分钟级交互视频,数据管线基于Unreal Engine和GTA 5构建1350小时高质量交互视频 [19][20][22][24] - **Matrix-3D**:单图像生成全景视频并还原三维空间,对标李飞飞World Labs,适用于游戏引擎、元宇宙等领域 [25][27] 统一多模态领域 - **Skywork UniPic 2.0**:2B参数模型在图像生成/编辑任务中超越7B的BAGEL和12B的Flux-Kontext,联合训练后模型UniPic2-Metaquery刷新多项SOTA [29][31][33] - 训练策略:采用渐进式双任务强化策略优化SD3.5-Medium架构,降低硬件门槛 [30][31] 智能体领域 - **Skywork Deep Research Agent v2**:多模态深度调研智能体整合图片检索与生成,自动插入图文混合文档;浏览器智能体支持社媒多模态分析(如小红书、Instagram) [37][38][44] - 技术手段:端到端强化学习(GRPO算法)、并行推理机制、多智能体协同框架 [48][49][50][51] AI音乐与语音 - **Mureka V7.5**:中文音乐生成模型在音色、情感表现上超越Suno v4.5,优化ASR技术提升人声真实度 [53][54][57] - **MoE-TTS**:基于MoE的语音合成框架,通过自然语言描述精准控制声音特征,域外描述贴合度领先闭源产品 [60][61] 战略与行业布局 - **战略定力**:2023年确立"All in AGI与AIGC"战略,2024年研发费用15.4亿元(同比+59.5%),研发团队占比73.41% [66][67][73] - **垂直领域聚焦**:CEO方汉强调垂直Agent与高频应用场景的价值,如数字人直播(国内市场规模近十万亿)、游戏引擎、具身智能等 [70][76] - **开源生态**:通过开源建立技术话语权,推动"技术-社区-应用"正向循环,强化行业地位 [78]
中证文娱传媒指数上涨0.63%,前十大权重包含光线传媒等
金融界· 2025-08-15 23:49
市场表现 - 上证指数低开高走 中证文娱传媒指数上涨0 63%至898 67点 成交额317 47亿元 [1] - 中证文娱传媒指数近一个月上涨5 62% 近三个月上涨11 12% 年初至今上涨15 37% [1] 指数构成 - 中证文娱传媒指数覆盖视频 直播 游戏 电影 数字出版等新技术和新消费领域上市公司 [1] - 指数基日为2013年12月31日 基点1000点 [1] - 前十大权重股合计占比48 52% 分众传媒(9 99%)和中国中免(8 1%)为前两大成分股 [1] 市场分布 - 指数成分股中深交所占比73 54% 上交所占比26 46% [1] - 行业分布以通信服务为主(87 75%) 可选消费(10 90%)和信息技术(1 35%)为辅 [2] 运作机制 - 指数样本每半年调整(6月/12月第二个星期五的下个交易日) 权重因子同步调整 [2] - 特殊情况下会进行临时调整 样本退市时将从指数中剔除 [2] 跟踪产品 - 华夏中证文娱传媒ETF为目前跟踪该指数的公募基金产品 [3]
Agent引爆产品新思维、奇点智能研究院正式成立!2025 全球产品经理大会首日精彩速览
AI科技大本营· 2025-08-15 21:56
产品经理角色演变 - PC时代产品经理角色更偏向"需求分析师",移动互联网时代转向"用户体验设计者"[1] - 大模型和Agent技术正在重塑产品经理工作方式,打破角色边界并升级思维模式[1] - 2025全球产品经理大会汇聚40余位专家及1000多位与会者,探讨AI产业趋势[1] 奇点智能研究院成立 - 由CSDN与Boolan联合发起,定位为人工智能前沿技术和产业落地的创新研究机构[3] - 聚焦计算范式、开发范式和交互范式转换,设立六大研究领域[5][7] - 与华东师范大学合作成立"开源创新与变革联合实验室",计划发布全球开源发展报告等研究成果[5] 大模型驱动的AI产业生态 - 基础大模型经历从"训练"到"推理"范式转换,强化学习推动"经验数据时代"[10] - SOTA模型内置Agent和Tool Use能力,大模型从Chatbot进化到Agentic模型[11] - Vibe Coding(氛围编程)创造增量市场,有望实现"可塑软件"和低成本编程[12] - 自然语言对话界面重构智能应用形态,带来应用服务化等新趋势[13] - 未来智能体生态可能由多元设备(眼镜、手机、汽车等)作为交互入口[14] 生成式AI与生产力革命 - 昆仑万维发布全球首款AI Agent架构Office智能体Skywork Super Agents,将8小时工作量缩短至8分钟[18] - 昆仑万维开源多款多模态模型,覆盖音频驱动数字人、交互式世界模型等领域[19] - 海外AI API调用统计显示编程类占比87%,角色扮演类占5.4%[20][22] - 行业化大模型是必然趋势,通用Agent难以覆盖所有行业[23] - ToB场景核心是"增效",ToC场景核心是"降本"[23] GenAI应用交互设计 - 当前GenAI产品多以"助手"形态存在,受现有环境约束明显[25] - 交互设计核心任务:高效获取任务与上下文、便捷审核与应用结果[26][29] - 鼠标双击唤起助手可能成为GenAI时代的新型交互方式[28] AI时代的产品人味 - 当前AI工具存在交付模式单一、环境感知不足、交互设计不直观等问题[34] - 产品设计需平衡"天道(环境)、人道(人类需求)、AI道(技术)"[34] - YouMind通过多模态优化和内容可编辑性提升"人味",实现AI与用户双向协作[36][37] AI时代的产品经理机遇 - AI时代产品方法论面临跳跃式颠覆,产品经理既是受益者也是被颠覆者[40] - 技能边界被打破,"一人公司"模式可能普及[41] - 开源模型推动全产业链协作式创新,对产品经理具有战略意义[44][45] Chat BI与数据挑战 - Chat BI最大挑战是企业数据基础薄弱,原始数据质量影响分析结果[46][47] AI产品用户体验 - AI产品需明确功能优化与数据能力的边界,避免过早依赖语言模型升级[48] - 创业公司应集中资源在关键节点形成差异化优势[49] 行业应用与合作伙伴 - 大会设置12大专题,覆盖生成式AI、Agent设计、企业级应用等领域[51] - 鸿蒙生态、万兴科技等合作伙伴展示创新成果[51]
人工智能龙头“开花结果”:昆仑万维发布多款前沿模型,厚积薄发迎商业收获期
每日经济新闻· 2025-08-15 20:45
技术与商业同步跃升 - 公司正处于AI技术与商业同步发展的关键窗口期 在全球AI产业竞争加速背景下 [1] - 通过SkyWork AI技术发布周集中推出六款覆盖多模态AI核心场景的前沿模型 展示高强度研发投入转化为市场竞争力的成果 [1] - 2024年全年研发费用达15.4亿元 同比增长59.5% 重点投入AI算力芯片、大模型及应用等环节 [1][13] Mureka V7.5模型突破 - 模型构建了深度融合文化语境与语言特性的音乐音频理解模块 系统性训练覆盖中文音乐多样性 包括传统民歌、戏曲到当代民谣 [3] - 在音色与演奏技法上实现质的飞跃 通过优化ASR技术提升人声清晰度、结构感和情感真实度 显著降低机械感 [4] - 已形成成熟商业模式 包括C端流媒体平台Melodio和B端创作平台Mureka API 2025年3月年化流水超1200万美元 [3] MoE-TTS框架创新 - 首创基于MOE的角色描述语音合成框架 融合预训练大语言模型文本能力与语音专家模块 实现"知识零损失"的泛化理解能力 [4] - 在双测试集评测中 风格表现力贴合度和整体贴合度等声学控制维度领先 尤其擅长处理比喻、类比等复杂修辞 [6] - 应用潜力覆盖虚拟助手、数字人、有声创作等领域 推动行业从封闭标签式控制迈向自然语言自由控制 [6] 全栈AI技术突破 - SkyReels-A3模型实现音频驱动人像视频生成 基于DiT视频扩散模型+插帧模型+强化学习动作优化技术 [7] - Matrix-Game 2.0世界模型实现25FPS实时长序列交互生成 生成时长扩展至分钟级 为A股唯一对标谷歌Genie的模型 [7][9] - Matrix-3D模型从单图像生成可漫游三维空间 对标WorldLabs效果 短期革新游戏开发、影视制作流程 长期布局元宇宙基础设施 [9] 多模态与智能体技术 - Skywork UniPic 2.0构建理解、生图、编辑一体化能力 已全面开源模型权重与训练代码 降低开发者门槛 [9] - Skywork Deep Research Agent v2整合多模态检索、理解和生成 突破长距离信息收集与异步并行架构 输出视觉友好的深度报告 [10] - 技术迭代源于实际产品需求 具备高应用价值 为产业端提供高效、开放、可落地的AI工具集 [12] 研发战略与商业化闭环 - 公司采用"厚积薄发"策略 2025年一季度研发费用同比增长23.4%至4.3亿元 持续加码AI算力芯片与大模型研发 [13] - 技术突破快速转化为商业化应用 形成研发-落地-收益反哺的正向循环 2024年全球月活用户近4亿 海外收入占比91% [14] - AI社交业务单月最高收入突破100万美元 成为海外增长最快的中国AI应用 构建面向万亿级生态的双轮驱动模式 [14]
昆仑万维Mureka V7.5模型上线 AI音乐创作水平再迎新高度
证券日报之声· 2025-08-15 16:41
昆仑万维SkyWorkAI技术发布周 - 公司于8月11日至8月15日连续五天发布多模态AI前沿模型 包括SkyReels-A3 Matrix-Game2 0 Matrix-3D SkyworkUniPic2 0 SkyworkDeepResearchAgent及MurekaV7 5 [1] - MurekaV7 5模型在中文歌曲演绎上实现音色 演奏技法 咬字与情感表现的大幅提升 [1] 中文音乐AI技术突破 - 模型基于对中文曲风元素的深度理解 覆盖传统民歌 戏曲 华语流行金曲及当代民谣 能精准传达艺术神韵与情感色彩 [1] - 优化ASR技术提升人声真实性 通过分析演唱气息 情感起伏等微观细节 智能划分乐句并确定换气停顿位置 [2] 语音合成技术创新 - 推出MoE-TTS框架 结合预训练大语言模型文本能力与语音专家模块 实现文本与语音模态独立优化 [2] - 采用模态路由技术确保不同模态专家模块互不干扰 提升合成语音质量 [2]
昆仑万维:Mureka V7.5模型正式上线 AI音乐创作水平再迎新高度
证券时报网· 2025-08-15 13:29
昆仑万维Mureka V7.5模型升级 - 公司正式上线Mureka V7 5模型 该版本在中文歌曲演绎方面实现显著提升 包括音色 演奏技法 咬字与情感表现等维度 [2] - 模型具备对中文音乐多样性的深刻认知 涵盖传统民歌 戏曲 经典华语流行金曲及当代民谣音乐 能够准确传达中文音乐特有的艺术神韵和情感色彩 [2] - 通过优化ASR技术 进一步提升生成音乐中人声表现的真实性与情感深度 使模型成为理解模块的有力延伸 [2] - 模型能够深刻理解并再现中文音乐中蕴含的细腻情感与艺术表达 为生成兼具艺术性与真实感的音乐作品奠定技术基础 [2] MoE-TTS语音合成框架发布 - 公司语音团队推出MoE-TTS框架 这是首个基于MOE的角色描述语音合成框架 创新性地结合预训练大语言模型文本能力与语音专家模块 [3] - 框架为文本与语音分别配置专用专家模块 在Transformer核心结构中引入模态路由 确保各模态独立优化 互不干扰 [3] - 技术实现冻结文本参数的同时高效对齐跨模态信息 达到"知识零损失"的泛化理解能力 [3] - 该框架为学术界提供可复现的开放描述TTS解决方案 证明模态解耦加知识冻结迁移技术路径在语音合成领域的潜力 [3] - 技术突破有望推动行业从"封闭标签式控制"转向"自然语言自由控制"新范式 加速数字人 虚拟助手和沉浸式内容创作的体验升级 [3] - 框架计划集成至Mureka-Speech平台 作为角色配音的基座模型 为全球开发者和创作者提供开放 高效 可定制的描述性语音合成能力 [3]
昆仑万维SkyWork AI技术发布周正式启动
中证网· 2025-08-14 20:13
公司技术发布活动 - 昆仑万维于8月11日至15日启动SkyWork AI技术发布周 每天发布一款新模型 覆盖多模态AI核心场景的前沿模型 包括SkyReels-A3、Matrix-Game 2.0、Matrix-3D、Skywork UniPic 2.0 [1] - 8月14日正式发布Skywork Deep Research Agent v2 作为天工超级智能体的核心引擎 [1] - 该模型自5月22日上线后大幅重塑大模型在AI Office领域的角色 通过skywork.ai为用户产出大量信息密度极高的优质文档、PPT、表格等交付物 [1] 多模态技术突破 - 团队在四个方面完成技术突破:多模态爬取技术MM-Crawler、长距离多模态信息收集、异步并行Multi-Agent多模态理解架构和多模态结果呈现能力 [2] - 多模态深度浏览器智能体进行多项关键自研技术优化 包括升级DOM+视觉推理方案、主流平台专项适配、并行搜索、多动作规划机制、智能筛选、人机无缝接管与隐私保护 [2] - 智能体能够模拟人类浏览与交互方式 革新传统数据采集与分析模式 可精准完成智能搜索、多模态信息分析与社区内容洞察 [3] 模型性能提升机制 - Skywork Deep Research Agent v2引入多种提升机制:高质量数据合成及训练、端到端强化学习、高效的并行推理 以及多智能体自我学习演进系统 [3] - 在权威搜索评测榜单BrowseComp上 常规模式下性能超越大多数同类产品 正确率达到27.8% [4] - 开启自主研发的"并行思考"模式后 正确率跃升至38.7% 刷新行业SOTA纪录 且正确率随思考时间增加持续攀升 [4] 行业技术地位 - 新版本在多项Agent任务评测上超越现有模型 达到行业SOTA水平 [3] - 多模态深度浏览器智能体有效解决传统浏览器智能体的多项痛点 展示天工智能体在长周期任务与VLA任务中的巨大潜力 [3]