Mureka V7.5

搜索文档
腾讯研究院AI速递 20250818
腾讯研究院· 2025-08-18 00:01
谷歌开源Gemma 3 270M - 谷歌发布轻量级模型Gemma 3 270M,参数规模2.7亿(嵌入参数1.7亿,Transformer模块1亿),下载体积仅241MB [1] - 模型在Pixel 9 Pro手机上25次对话仅耗电0.75%,INT4量化后适配资源受限设备 [1] - IFEval基准测试表现超越Qwen 2.5同级模型,下载量突破两亿次,支持任务微调 [1] Meta开源DINOv3视觉模型 - DINOv3采用自监督学习,在密集预测任务中超越弱监督模型,参数规模达70亿,训练数据17亿张图像 [2] - 创新技术包括Gram Anchoring策略和旋转位置编码(RoPE),提供ViT-B/ViT-L等系列模型 [2] - 商业许可开源,已应用于卫星图像分析和环境监测领域 [2] 腾讯混元3D世界模型Lite版 - 显存需求降至17GB以下,消费级显卡可运行,显存占用减少35% [3] - 动态FP8量化和SageAttention技术使推理速度提升3倍,精度损失小于1% [3] - 支持单文本/图片输入生成可漫游3D世界,可导出Mesh文件接入游戏引擎 [3] 昆仑万维音乐模型Mureka V7.5 - 一周内发布六款模型覆盖视频生成、AI音乐等热点领域 [4] - Mureka V7.5优化ASR技术提升中文歌曲音色与咬字,超越国外顶尖音乐模型 [4] - 同期推出MoE-TTS框架,通过自然语言控制语音特征,开源条件下超越闭源产品 [4] GPT-5编程提示技巧 - 指令需避免冲突与含糊,过分强硬措辞可能适得其反 [5] - 复杂任务用高推理力度,类XML语法可结构化规则 [6] - 零到一任务需先规划评判标准,控制Agent工具预算与查找节奏 [6] 人形机器人运动会 - 首日赛事包括1500米长跑(宇树机器人夺冠)、5V5足球等,蓝队1号球员完成3次进球 [7] - 现场解说聚焦AI技术,出现机器人集体摔倒等"鬼畜"场面 [7] DeepMind Genie 3世界模型 - 结合Veo 2和Genie 2,每秒生成24帧720p画面,支持单文本创建互动世界 [8] - 具备1分钟视觉记忆能力,物理规律表现随数据规模提升 [8] - 被视为AGI重要路径,可解决机器人训练数据瓶颈 [8] OpenAI战略动向 - 计划斥资数万亿建设数据中心,暗示未来AI可能担任CEO [9] - 与Jony Ive合作开发AI硬件,承认人类创作内容价值将上升 [9] - 认为当前AI泡沫类似互联网泡沫,但技术革命影响占比将达10%-20% [9] AGI发展观点 - AGI定义细化多维能力集合,评测基准需转向应用价值评估 [10] - 模型已在IMO/ICPC等竞赛展现推理能力,编程教育需结合AI辅助 [10][11] Agent市场展望 - AI市场将分基础模型、工具链、应用型Agent三赛道,后者机会最大 [12] - Agent将重构生产力曲线,未来按业务成果定价,长尾型公司大量涌现 [12]
一周六连发!昆仑万维将多模态AI卷到了新高度
量子位· 2025-08-17 17:00
技术发布概览 - 一周内连续发布六款多模态AI模型,覆盖视频生成、世界模型、统一多模态、智能体及AI音乐创作等核心场景 [2][3] - 绝大部分模型已开源,包括音频驱动视频生成模型SkyReels-A3、交互世界模型Matrix-Game 2.0、3D场景生成模型Matrix-3D等 [3][19][25] - 技术周前公司入选"中国AI开源16强",与腾讯、阿里等并列 [5] 核心模型与技术突破 视频生成领域 - **SkyReels-A3**:支持音频驱动人像视频生成,预设8种运镜参数,可生成60秒单分镜视频,唇形同步指标Sync-C达8.66,超越OmniHuman(8.15)和Hydra(7.70) [8][10][12][14] - 技术原理:基于DiT视频扩散模型+插帧延展+强化学习动作优化,支持文本提示词输入画面变化及商品交互 [14][15] 世界模型领域 - **Matrix-Game 2.0**:国内首个对标谷歌Genie 3的开源模型,支持25 FPS实时生成分钟级交互视频,数据管线基于Unreal Engine和GTA 5构建1350小时高质量交互视频 [19][20][22][24] - **Matrix-3D**:单图像生成全景视频并还原三维空间,对标李飞飞World Labs,适用于游戏引擎、元宇宙等领域 [25][27] 统一多模态领域 - **Skywork UniPic 2.0**:2B参数模型在图像生成/编辑任务中超越7B的BAGEL和12B的Flux-Kontext,联合训练后模型UniPic2-Metaquery刷新多项SOTA [29][31][33] - 训练策略:采用渐进式双任务强化策略优化SD3.5-Medium架构,降低硬件门槛 [30][31] 智能体领域 - **Skywork Deep Research Agent v2**:多模态深度调研智能体整合图片检索与生成,自动插入图文混合文档;浏览器智能体支持社媒多模态分析(如小红书、Instagram) [37][38][44] - 技术手段:端到端强化学习(GRPO算法)、并行推理机制、多智能体协同框架 [48][49][50][51] AI音乐与语音 - **Mureka V7.5**:中文音乐生成模型在音色、情感表现上超越Suno v4.5,优化ASR技术提升人声真实度 [53][54][57] - **MoE-TTS**:基于MoE的语音合成框架,通过自然语言描述精准控制声音特征,域外描述贴合度领先闭源产品 [60][61] 战略与行业布局 - **战略定力**:2023年确立"All in AGI与AIGC"战略,2024年研发费用15.4亿元(同比+59.5%),研发团队占比73.41% [66][67][73] - **垂直领域聚焦**:CEO方汉强调垂直Agent与高频应用场景的价值,如数字人直播(国内市场规模近十万亿)、游戏引擎、具身智能等 [70][76] - **开源生态**:通过开源建立技术话语权,推动"技术-社区-应用"正向循环,强化行业地位 [78]