Workflow
Skywork UniPic 2.0
icon
搜索文档
一周六连发!昆仑万维将多模态AI卷到了新高度
量子位· 2025-08-17 17:00
技术发布概览 - 一周内连续发布六款多模态AI模型,覆盖视频生成、世界模型、统一多模态、智能体及AI音乐创作等核心场景 [2][3] - 绝大部分模型已开源,包括音频驱动视频生成模型SkyReels-A3、交互世界模型Matrix-Game 2.0、3D场景生成模型Matrix-3D等 [3][19][25] - 技术周前公司入选"中国AI开源16强",与腾讯、阿里等并列 [5] 核心模型与技术突破 视频生成领域 - **SkyReels-A3**:支持音频驱动人像视频生成,预设8种运镜参数,可生成60秒单分镜视频,唇形同步指标Sync-C达8.66,超越OmniHuman(8.15)和Hydra(7.70) [8][10][12][14] - 技术原理:基于DiT视频扩散模型+插帧延展+强化学习动作优化,支持文本提示词输入画面变化及商品交互 [14][15] 世界模型领域 - **Matrix-Game 2.0**:国内首个对标谷歌Genie 3的开源模型,支持25 FPS实时生成分钟级交互视频,数据管线基于Unreal Engine和GTA 5构建1350小时高质量交互视频 [19][20][22][24] - **Matrix-3D**:单图像生成全景视频并还原三维空间,对标李飞飞World Labs,适用于游戏引擎、元宇宙等领域 [25][27] 统一多模态领域 - **Skywork UniPic 2.0**:2B参数模型在图像生成/编辑任务中超越7B的BAGEL和12B的Flux-Kontext,联合训练后模型UniPic2-Metaquery刷新多项SOTA [29][31][33] - 训练策略:采用渐进式双任务强化策略优化SD3.5-Medium架构,降低硬件门槛 [30][31] 智能体领域 - **Skywork Deep Research Agent v2**:多模态深度调研智能体整合图片检索与生成,自动插入图文混合文档;浏览器智能体支持社媒多模态分析(如小红书、Instagram) [37][38][44] - 技术手段:端到端强化学习(GRPO算法)、并行推理机制、多智能体协同框架 [48][49][50][51] AI音乐与语音 - **Mureka V7.5**:中文音乐生成模型在音色、情感表现上超越Suno v4.5,优化ASR技术提升人声真实度 [53][54][57] - **MoE-TTS**:基于MoE的语音合成框架,通过自然语言描述精准控制声音特征,域外描述贴合度领先闭源产品 [60][61] 战略与行业布局 - **战略定力**:2023年确立"All in AGI与AIGC"战略,2024年研发费用15.4亿元(同比+59.5%),研发团队占比73.41% [66][67][73] - **垂直领域聚焦**:CEO方汉强调垂直Agent与高频应用场景的价值,如数字人直播(国内市场规模近十万亿)、游戏引擎、具身智能等 [70][76] - **开源生态**:通过开源建立技术话语权,推动"技术-社区-应用"正向循环,强化行业地位 [78]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-08-16 10:33
芯片 - 英伟达和AMD面临出口许可抽成问题 [3] - 美国在芯片领域推进追踪器嵌入技术 [3] 算力 - 特斯拉Dojo团队解散 [3] - 浪潮推出超节点AI服务器 [3] 模型 - OpenAI发布GPT-4o回归和GPT-5 Pro [3] - 智谱推出GLM-4.5和GLM-4.5V开源模型 [3] - 昆仑万维发布SkyReels-A3和Skywork UniPic 2.0 [3] - 腾讯推出Large-Vision模型 [3] - Anthropic推出支持百万上下文的模型 [3] 应用 - xAI开放Grok 4免费使用 [3] - 腾讯混元等接入CubeMe [3] - 阿里推出具身智能组件 [3] - 百川智能发布Baichuan-M2 [3] - OpenAI在IOI竞赛中获金牌 [3] - 昆仑万维推出Matrix-3D [3] - 商汤发布AI剧组工具 [4] - 苹果推出新Siri [4] - Pika推出音频驱动表演技术 [4] - Claude Code推出Opus规划模式 [4] - 昆仑万维发布Deep Research Agent v2 [4] - 腾讯混元推出Hunyuan-GameCraft [4] - 微软提出AI Agent五大模式 [4] - 港大等推出OpenCUA框架 [4] 科技 - 世界机器人大会展示100+机器人 [4] - 灵巧智能推出柔性灵巧手 [4] - Figure展示机器人叠衣服技术 [4] - 苹果推出AI全家桶 [4] - 智元机器人开源世界模型平台 [4] 观点 - 王兴兴探讨具身智能发展 [4] - Product Hunt关注AI产品发布 [4] - 英伟达等讨论物理AI [4] - 毕树超探讨Scaling Law [4] - Artificial Analysis分析大模型应用 [4] - 国外开发者测评编程能力 [4] - DeepMind强调Genie 3重要性 [4] - Notion讨论AI产品标准 [4] - Greg Brockman提出算法瓶颈问题 [4] - 王小川探讨医疗大模型 [4] 资本 - Meta收购WaveForms [4] - Periodic Labs获得AI材料融资 [4] - OpenAI投资脑机接口 [4] - Perplexity收购Chrome [4] 事件 - OpenAI参与AI国际象棋 [4] - GitHub并入CoreAI [4]
财信证券晨会纪要-20250814
财信证券· 2025-08-14 07:30
市场策略 - 大盘再度放量上攻,沪指突破去年10月8日盘中高点,三大指数收涨并再创年内新高,全市场成交额升至2万亿元以上 [6][7][8] - 创新成长板块风格表现居前,创业板指数涨3.62%,科创50指数涨0.74%,北证50指数涨0.84% [6] - 小盘股板块表现靠前,中证1000指数涨1.45%,中证2000指数涨1.04%,超大盘股板块表现靠后,上证50指数仅涨0.21% [7] - 分行业来看,通信、有色金属、电子表现居前,食品饮料、煤炭、银行表现靠后 [7] - 算力硬件板块继续走强,受AI发展驱动全球算力需求增加,部分企业中报业绩高增 [7] - 券商板块盘中拉升,2025年1-7月A股新开户数达1456万户,同比增长36.9% [8] 基金研究 - 8月13日,万得LOF基金价格指数上涨0.98%,万得ETF基金价格指数上涨1.31% [10] - 华夏上证50ETF上涨0.27%,华泰柏瑞沪深300ETF上涨0.83%,南方中证500ETF上涨1.31% [10] - 博时标普500ETF上涨0.78%,华夏野村日经225ETF上涨1.88%,华安德国(DAX)ETF上涨0.37% [10] - 两市ETF总成交额约4105.2亿元,日内通信、人工智能、5G类ETF品种表现突出 [10] 债券研究 - 8月13日,1年期国债到期收益率下行0.49bp至1.36%,10年期国债到期收益率下行0.09bp至1.73% [12] - 1年期与10年期国债期限利差为36.47BP,1年期国开债到期收益率下行0.47bp至1.52% [12] - 国债期货10年期主力合约涨0.02%,5年期主力合约涨0.05%,2年期主力合约涨0.03% [12] 宏观经济 - 2025年前七个月社会融资规模增量累计为23.99万亿元,比上年同期多5.12万亿元 [14] - 政府债券净融资8.9万亿元,同比多4.88万亿元,企业债券净融资1.43万亿元,同比少1849亿元 [14] - 7月末广义货币(M2)余额329.94万亿元,同比增长8.8%,狭义货币(M1)余额111.06万亿元,同比增长5.6% [16] - 前七个月人民币贷款增加12.87万亿元,企(事)业单位贷款增加11.63万亿元,住户贷款增加6807亿元 [16] 行业动态 - 昆仑万维开源"Skywork UniPic 2.0"模型,由生图编辑、统一模型能力和生图编辑后训练三个核心模块组成 [25] - 苹果智能眼镜引入注视点透镜技术,能根据用户视线进行响应,中央视野保持清晰,周边视野进行微妙调整 [28] - 国家发改委表示2025年超长期特别国债支持设备更新的1880亿元投资补助资金已下达完毕,带动总投资超过1万亿元 [21] 公司跟踪 - 贵州茅台2025H1实现营业收入893.89亿元,同比+9.10%,归母净利润454.03亿元,同比+8.89% [31] - 华锦股份上半年实现总营收201.04亿元,同比下降5.01%,归母净利润-9.89亿元,亏损同比扩大33.15% [34] - 荣昌生物泰它西普治疗原发性干燥综合征Ⅲ期临床研究达到主要研究终点 [35] - 中天科技拟以自有资金出资8000万美元在沙特投资设立一家全资子公司,主营海底电缆、OPGW等业务 [37] - 株冶集团2025年上半年实现归母净利润5.85亿元,同比+57.83%,主要系锌及贵金属产品价格上涨 [38] 湖南经济动态 - 上半年湖南手机数码购新活动核销政府补贴金额9.85亿元,带动总消费金额76.85亿元 [41] - 手机品类表现最为亮眼,订单金额达38.6亿元,消费拉动效果最佳,拉动销售比为7.96 [42] - 品牌总金额排名前三的是华为、OPPO、小米 [42]
腾讯研究院AI速递 20250814
腾讯研究院· 2025-08-14 00:01
一、OpenAI投资脑机接口公司挑战Neuralink - OpenAI及Sam Altman将支持脑机接口新公司Merge Labs,预计估值达8.5亿美元,与Neuralink直接竞争 [1] - Altman参与联合创办Merge Labs但不负责日常管理,实现其2017年人机融合愿景 [1] - Merge Labs处于起步阶段,计划利用AI领域最新进展开发更简单实用的脑机接口技术 [1] 二、Claude Sonnet 4解锁百万上下文 - Claude Sonnet 4支持高达100万Token的上下文窗口,容量是之前的5倍,可处理超过75,000行代码或数十篇研究论文 [2] - 定价调整:200K以内每百万Token输入3美元/输出15美元,超过200K部分每百万Token输入6美元/输出22.5美元 [2] - 功能已在亚马逊Bedrock公测,将登陆Google Cloud Vertex AI,被合作伙伴称为"生产级AI工程"能力 [2] 三、昆仑万维开源Skywork UniPic 2.0 - 开源统一多模态模型Skywork UniPic 2.0,实现理解、生图、编辑一体化框架 [3] - 模型包含三核心模块:生图编辑模块、多模态连接器预训练、Flow-GRPO渐进式双任务强化策略 [3] - UniPic2-SD3.5M-Kontext-2B在生图指标上超越12B参数的Flux.dev,编辑效果优于同参数量竞品 [3] 四、Perplexity拟345亿美元收购Chrome - AI初创公司Perplexity向谷歌发出345亿美元全现金收购Chrome浏览器要约 [4] - 报价是Perplexity自身估值(180亿美元)的两倍,时机选在谷歌面临反垄断诉讼关键节点 [4] - Perplexity承诺维护Chromium开源项目并两年内投资超30亿美元,但谷歌表示无意出售 [4] 五、Pika推出音频驱动表演模型 - 新模型能将静态图片与音频结合生成同步视频,实现精确口型同步和自然表情变化 [5] - 平均仅需6秒生成720p高清视频,长度不限,未来可应用于社交媒体、游戏开发和教育领域 [5] - 目前技术限于iOS端并需邀请码,但带来信息真伪辨别新挑战 [5] 六、Figure人形机器人展示衣物折叠能力 - 在原有物流分拣能力基础上仅增加数据即可掌握叠衣服新技能 [6] - 演示中表现出与人类相似的行为(眼神交流、点头确认等),采用端到端视觉-语言-动作模型控制 [6] - 叠衣服是极具挑战的灵巧操作任务,Figure依靠Helix架构实现无需改变原有架构 [6] 七、DeepMind揭秘Genie 3对AGI意义 - Genie 3不仅能生成虚拟世界,更能让世界真实运转并支持智能体训练 [7] - 已开始将Sima智能体放入Genie 3生成世界测试,实现"AI在另一个AI大脑中运行" [7] - 哈萨比斯认为模型评测是关键,Game Arena将成为重要评测基准 [7] 八、Notion CEO谈AI产品开发理念 - AI时代产品应打造"AI工作空间",将AI从工具转变为提供"工作本身" [8] - AI开发像"酿啤酒"而非"造桥",常只能完成70-80%功能,需大量实验而非传统设计流程 [8] - 成功的AI产品需平衡工艺与实用性,7.5分足够,过度追求完美影响商业价值 [8] 九、OpenAI联合创始人谈AI发展趋势 - AI开发进入"基础研究回归"阶段,算法再次成为决定性瓶颈 [9] - 未来AI基础设施需平衡"长时间重度计算"和"实时响应"两种工作负载 [9] - 预测AI生态将"百花齐放",实现经济"10倍增长"需各领域专家深入思考应用方式 [9]
昆仑万维开源“Skywork UniPic 2.0”模型
证券日报网· 2025-08-13 14:16
公司动态 - 昆仑万维于8月11日至8月15日连续五天每天发布一款新模型,覆盖多模态AI核心场景的前沿模型,目前已发布SkyReels-A3、Matrix-Game2.0、Matrix-3D模型 [1] - 8月13日公司正式开源"Skywork UniPic 2.0"模型,该模型面向统一多模态建模的高效训练和推理框架,具备理解、生图、编辑一体化核心能力 [1] - "Skywork UniPic 2.0"及其系列模型已全面开源,涵盖模型权重、推理代码、强化策略等资源 [1] 技术架构 - 生图编辑模块基于SD3.5-Medium架构改进,支持文本和图像同时输入,通过训练扩展出生图、编辑双能力 [2] - 统一模型能力通过冻结生图编辑模块,连接多模态模型Qwen2.5-VL-7B和Pre-Train连接器,实现理解生成编辑一体化 [2] - 生图编辑后训练采用Flow-GRPO渐进式双任务强化策略,实现生成与编辑任务协同优化而不互相干扰 [2] 产品特性 - "Skywork UniPic 2.0"由生图编辑、统一模型能力、生图编辑后训练三个核心模块组成 [1] - 模型围绕生成和编辑模块轻量化设计,连接多模态理解模型进行联合训练 [1] - 技术目标为实现"高效、高质、统一"的多模态生成模型 [1]