机器之心

搜索文档
一键开关灯!谷歌用扩散模型,将电影级光影控制玩到极致
机器之心· 2025-05-16 12:39
LightLab 技术概述 - Google推出LightLab项目,实现从单张图像对光源的细粒度参数化控制,包括改变可见光源的强度和颜色、环境光的强度,以及插入虚拟光源[1][2] - 光线在图像或影视创作中至关重要,决定画面焦点、景深、色彩和情绪,电影中光线能塑造角色情绪、烘托氛围、引导观众目光和揭示人物内心世界[3][4] - 传统光照编辑技术存在局限性,要么需要多张照片,要么无法精确控制变化参数[6] 技术实现 - 研究团队通过特殊构建的数据集微调扩散模型,使其学会精确控制图像中的光照[7] - 训练数据集结合了600对真实照片和合成渲染图像,利用光的线性特性分离目标光源和环境光,最终数据集包含约36K张图像[10][22][27] - 模型架构与Stable Diffusion-XL相同,在1024×1024分辨率下训练45,000步,使用64个v4 TPU耗时约12小时[28] 功能特点 - 提供丰富的光照控制功能,通过移动滑块调整每个光源的强度和颜色[12] - 可实现光强度参数化控制,不同强度下光现象保持一致[38] - 支持根据用户输入创建彩色照明,使用彩色滑块调整光源颜色[41] - 能够插入虚拟点光源到场景中[44] - 分离目标光源与环境光,控制难以物理调节的光线(如通过窗户的光线)[45] 技术优势 - 在成对图像评估中,混合真实和合成数据的模型表现最佳,PSNR达23.2,SSIM达0.818[31] - 显著优于先前方法(RGB↔X、IC-Light等),在用户研究中获胜率最高达89.3%[33] - 能够生成物理上合理的光照效果,如自遮挡和阴影与光源位置角度匹配[46] 应用场景 - 主要应用于照片后捕获的光源控制[35] - 可实现复杂光照效果创作,包括间接照明、阴影和反射等[10] - 适用于需要精确控制光照的各种图像和影视创作场景[12]
刚刚,Manus生图功能强势登场!从设计到搭建网站一站式搞定,1000积分免费薅
机器之心· 2025-05-16 12:39
Manus平台开放注册与功能升级 - Manus平台结束邀请码制度,全面开放注册[1] - 新用户注册即赠1000积分作为体验奖励[2] - 新增图像生成功能,具备意图理解、任务规划和多工具协同能力[2] 图像生成功能实测表现 - 成功完成饮料瓶设计任务:生成符合青少年健康理念的瓶身设计,包含品牌名、"TEA FOR TEENS"字样及清新配色(浅绿+橙色)[5][9] - 生成图片与背景融合自然,如时尚商品展示图达到"浑然天成"效果[20] - 支持多种场景生成:包括野外露营、宠物生活等主题图片[24][26][28] - 整体画面构造和细节处理获得正面评价[31] 智能工作流特性 - 采用分步骤任务执行模式:包含市场调研、趋势分析、概念构思等完整流程[5] - 支持任务中途修改和进度追踪,自动生成总结报告[11][13] - 实现意图理解与图像生成的深度结合[32] 性能表现与用户反馈 - 图像生成速度较快,但复杂任务(如网站创建部署)耗时较长(约30分钟)[15][18][33] - 用户对智能体工作流设计给予肯定,但对执行效率存在改进期待[32][33]
泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法
机器之心· 2025-05-16 12:39
核心观点 - 大模型(LLMs)的快速发展和工具集成爆炸式增长使AI智能助手功能大幅扩展,但工具多样化和复杂化导致意图识别面临新挑战,尤其是模型在新意图上的性能衰减问题 [1] - 腾讯PCG社交线研究团队采用强化学习(RL)结合分组相对策略优化(GRPO)算法和基于奖励的课程采样(RCS),显著提升模型在未知意图上的泛化能力 [2] - 该方法在跨语言、意图拆分/合并等实际场景中表现优于传统监督微调(SFT),推动大模型意图识别技术突破 [4][17] 技术方法 GRPO算法创新 - 通过强化学习训练的模型在未见意图识别准确率上比SFT平均提升7.5%(TODAssistant数据集从41.6%至89.1%)[17][18] - 引入"思考"(Thought)机制使MultiWOZ2.2数据集准确率从76.1%提升至93.3% [20][21] - 格式奖励($R_{format}$)和准确率奖励($R_{answer}$)双维度约束模型输出 [7][9][10] 基于奖励的课程采样 - 两阶段训练:第一阶段全数据训练至收敛,第二阶段筛选30%难样例专注训练 [11][12] - 难样例单独训练效果最佳,在MultiWOZ2.2数据集使准确率从93.3%提升至96.0% [19][20] - 离线难度评分公式:$Score_i = \sum(\lambda_{format}·R_{format}^{i,j} + \lambda_{answer}·R_{answer}^{i,j})$ [11] 实验验证 数据集与基准 - 使用TODAssistant(中文)和MultiWOZ2.2(英文)数据集,基座模型为Qwen2.5-7B-Instruct [16] - GRPO在跨语言测试中,英文训练后中文识别准确率达65.2%,远超SFT的14.8% [17][18] 关键结果 - 在MultiWOZ2.2的5类场景中,GRPO对缺失类别的平均识别准确率(91.8%)比SFT(76.9%)高14.9个百分点 [17] - Pretrain与Instruct模型经GRPO训练后性能差异小于1.5%,打破传统认知 [21][22] - RCS使酒店场景识别准确率从94.6%提升至96.4% [19][20] 应用前景 - 当前方案支持单意图场景,未来将扩展至多意图识别 [25] - 计划从意图识别延伸至更复杂的任务型对话系统 [26] - 拟开发在线数据筛选方法替代现有离线模式 [24]
DiffMoE:动态Token选择助力扩散模型性能飞跃,快手&清华团队打造视觉生成新标杆!
机器之心· 2025-05-16 10:42
在生成式 AI 领域,扩散模型(Diffusion Models)已成为图像生成任务的主流架构。然而,传统扩散模型在处理不同噪声水平和条件输入时采用统一处理方式,未 能充分利用扩散过程的异构特性,导致计算效率低下,近期,可灵团队推出 DiffMoE(Dynamic Token Selection for Scalable Diffusion Transformers), 通过创新的 动态token选择机制和全局token池设计,拓展了扩散模型的效率与性能边界。 本文由清华大学和快手可灵团队共同完成。第一作者是清华大学智能视觉实验室在读本科生史明磊。 核心突破:动态token选择与全局上下文感知 论文标题:DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers 项目主页: https://shiml20.github.io/DiffMoE/ 论文地址: https://arxiv.org/abs/2503.14487 代码: https://github.com/KwaiVGI/DiffMoE 性能提升:以少胜多的参数高效模型 在 ...
阶跃星辰×光影焕像联合打造超强3D生成引擎Step1X-3D!还开源全链路训练代码
机器之心· 2025-05-16 10:42
核心观点 - 阶跃星辰与光影焕像联合发布并开源3D大模型Step1X-3D 该模型总参数量达4 8B(几何模块1 3B 纹理模块3 5B) 具备高保真与可控性 可广泛应用于游戏 影视 工业设计等领域 [1] - Step1X-3D通过数据驱动与算法协同优化 建立了包含200万高质量训练样本的数据库 并采用增强型网格-SDF转换技术 使水密几何转换成功率提升20% [4][7] - 模型采用3D原生两阶段架构 解耦几何与纹理表征 几何生成采用混合VAE-DiT架构 纹理生成基于SD-XL模型优化 实现细节生动且多视图一致 [10][15][16] - Step1X-3D在CLIP-Score等核心指标上超越主流3D模型 成为开源社区最具竞争力的3D生成方案 [25] 技术架构 - **几何模块**:采用混合VAE-DiT架构生成水密TSDF表示 通过锐利边缘采样技术精准还原几何细节 参数量1 3B [15] - **纹理模块**:基于SD-XL模型深度定制 利用几何条件引导与多视图同步技术 参数量3 5B [16] - **控制技术**:兼容主流2D生成模型控制方法(如LoRA微调) 支持对称性 表面细节等属性调控 [18][19] 数据与训练 - **数据处理**:从超500万原始数据中筛选出200万高质量样本 并开源800K 3D资产及完整预处理策略 [4] - **训练优化**:采用FLUX MMDiT结构与Rectified flow算法 实现3D表示的直接建模 [13] 应用与性能 - **应用场景**:覆盖游戏娱乐 影视动画 工业制造等领域 提供从创作到落地的全链路支持 [1] - **性能表现**:在CLIP-Score等自动评估中多项指标领先 生成内容与输入语义一致性达行业最高水平 [23][25] 团队背景 - **阶跃星辰**:以构建AGI为目标 规划从单模态到多模态统一的技术路径 [27] - **光影焕像**:专注3D AIGC与空间智能技术 团队含港科大博士及字节 美团等企业人才 [27][28]
「边思考、边搜索、边写作」WebThinker开启AI搜索&研究新纪元!
机器之心· 2025-05-15 16:40
研究背景 - 大型推理模型如OpenAI-o1和DeepSeek-R1在数学、编程等领域表现卓越,但在需要实时网络信息的复杂任务中存在局限性[6] - 现有开源深度搜索智能体采用RAG技术,但受限于预定义工作流程,难以深入探索网页信息[8] 技术框架 - WebThinker框架包含两种运行模式:问题解决模式和报告生成模式[13] - 问题解决模式赋予LRM深度网页探索功能,可自主发起网络搜索并提取信息[13] - 报告生成模式实现自主思考-搜索-写作策略,整合推理、搜索和报告撰写[13] - 框架采用强化学习训练策略,提升LRM调用研究工具的能力[15] 技术创新 - 突破传统RAG限制,实现端到端任务执行,无需遵循预设工作流程[10] - 深度网页探索器使LRM能自主搜索、导航并提取高质量信息[15] - 自主思考-搜索-写作策略配备三种专门工具:撰写、检查和编辑报告[15] 实验结果 - 在GPQA、GAIA、WebWalkerQA和HLE四个基准测试中表现优异[18][20] - WebThinker-32B-RL在GPQA科学问答中取得70.7%平均准确率,显著优于基准模型[21] - 在GAIA通用AI助手任务中达到48.5%准确率,优于其他方法[21] - 在Glaive研究报告生成任务中,完整性(8.4)和彻底性(8.2)评分领先[23] 应用前景 - 可应用于金融、科学、工程等知识密集型领域的研究工作[6] - 未来可扩展多模态深度搜索能力,处理图像、视频等信息[33] - 计划增强GUI网页探索能力,支持更复杂的交互任务[35]
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
机器之心· 2025-05-15 14:04
国产大模型技术突破 - 国产大模型MiniMax的Speech-02语音大模型在国际权威语音评测榜单Artificial Analysis上登顶,击败OpenAI和ElevenLabs [1] - Speech-02在字错率(WER)和说话人相似度(SIM)等关键指标上取得SOTA结果,WER最低达0.83(中文)和1.65(英文),SIM最高达0.799(中文)和0.738(英文) [1][24] - 该模型成本仅为ElevenLabs竞品模型的1/4,展现出极高的性价比优势 [4] 核心技术创新 - 采用自回归Transformer架构,实现真正意义上的零样本语音克隆,仅需几秒参考音频即可模仿目标说话人特征 [12][14] - 提出Flow-VAE架构,通过流匹配模型增强语音生成质量,使合成语音更接近真人 [13][17] - 引入T2V框架,结合自然语言描述与结构化标签信息,实现高度灵活可控的音色生成 [21] 多语言与跨语言能力 - 支持32种语言,在中英、粤语、葡萄牙语、法语等语种表现突出 [38] - 在24种测试语言中SIM指标均显著优于ElevenLabs multilingual_v2模型 [26] - 跨语言测试显示WER表现优异,如越南语WER仅0.659,泰语2.826,阿拉伯语1.446 [28] 产品特性与用户体验 - 提供超拟人化语音合成,预置数百种多语言声音库,错误率比真人更低 [32][33] - 支持声音克隆功能,用户可通过简短录音获得专属AI语音 [34][36] - 提供7种情绪控制选项(悲伤、快乐、生气等),可调节语速和语调 [36][37] 商业化应用前景 - 已形成文本、语音、视频完整产品链,如海螺AI等产品 [44] - 应用场景覆盖语音助手、声聊唱聊、配音等领域,加速商业化进程 [44] - 接入AI硬件生态,包括儿童玩具、教育学习机、汽车智能座舱等赛道 [44]
ICML 2025 | 大模型深度思考新范式:交替「推理-擦除」解决所有可计算问题
机器之心· 2025-05-15 14:04
核心观点 - 提出新型深度思考范式PENCIL,通过交替执行「生成-擦除」机制显著提升大模型复杂推理能力 [1][3] - PENCIL在理论上实现图灵完备性,能以最优空间O(S)和时间O(T)复杂度解决所有可计算问题,传统CoT需O(T)空间导致指数爆炸 [23][24] - 实验显示PENCIL在3-SAT、QBF等NP完全问题上准确率保持≥99%,Einstein's Puzzle任务中25M小模型准确率达97%远超CoT的25% [15][21][22] 交替生成-擦除范式 - 动态擦除机制:引入[CALL][SEP][RETURN]特殊标记,按规则丢弃无用中间结果,上下文长度从数万token压缩至千级 [5][8][9] - 支持递归结构:擦除后的上下文可包含其他特殊标记,实现类似函数调用的多层嵌套 [9] - 三大应用模式:任务分解(子问题处理)、搜索回溯(无效路径清理)、摘要总结(冗长思考压缩) [13] 性能优势 - **准确率**:在n=10的SAT任务中PENCIL准确率99% vs CoT 50%,QBF任务100% vs 73% [15][16] - **计算效率**:相同FLOPs下PENCIL训练收敛速度更快,上下文长度控制在问题规模n的线性增长(O(n))而非CoT的指数级(O(exp(n))) [12][17] - **资源节省**:KV缓存复用机制使自注意力计算量减少,25M参数模型在Einstein's Puzzle上准确率提升3.88倍 [21][22] 理论突破 - 空间最优性:将图灵机模拟的上下文长度从O(T)降至O(S),尤其适合S<<T的NP完全问题(如旅行商问题) [24][25] - 实现路径:通过FASP编程语言构造「思考-总结」循环,证明固定大小Transformer可达成最优复杂度 [28] - 本质差异:传统CoT需保留完整计算历史,PENCIL通过状态摘要实现内存回收 [27]
线下仅200名额!CVPR 2025北京论文分享会报名开启
机器之心· 2025-05-14 16:09
以火热的「文生图」赛道为例,自回归与扩散模型的融合与优化正在引领视觉模型架构的创新。理论突破与产业落地的结合,正在推动这一领域进入新阶 段。 此外,视频生成、多模态大模型、3D 领域同样以惊人的技术迭代速度刷新着我们的认知。 2025 尚未过半,人工智能领域的新进展已经令人应接不暇。 在计算机视觉领域,生成式 AI、多模态基础模型及实际应用落地等方向都取得了显著进展。这个领域正从单一任务模型转向通用化、多模态的基础架构,同 时加速向移动端和产业场景渗透。 热点技术怎么追?前沿研究该看哪些?不妨来参加论文分享会。 全球性的顶级学术会议,从来都是领域内的「风向标」。CVPR 全称为计算机视觉与模式识别会议,是计算机视觉领域中最重要的国际会议之一。今年的 CVPR 2025 共收到 13008 份论文投稿,最终接收 2878 篇论文,整体接收率为 22.1%。 合作伙伴介绍 腾讯青云计划 腾讯青云计划聚焦 AI 大模型等十大技术领域,面向全球招募顶尖实习生和毕业生,提供上不封顶的职级薪酬、全面定制化的培养方案,并开放核心业务工 作机会、解锁前瞻性技术课题培养中国未来的科技人才。 今年腾讯将继续深度参与多场全球顶级学 ...
DanceGRPO:首个统一视觉生成的强化学习框架
机器之心· 2025-05-14 16:09
研究背景与动机 - 视觉生成领域RLHF方案成熟度显著低于LLM领域,现有主流方案存在效果微弱或显存压力大的问题[4][5] - 当前强化学习优化生成模型的探索存在数据集小(<100 prompts)、仅支持文生图等局限性[5] - GRPO算法因R1工作成为2025年热门技术方向,促使团队在图像生成领域进行创新探索[2] 技术方案创新 - 首创DanceGRPO框架,实现单一强化学习算法覆盖两大生成范式(diffusion/rectified flow)、三项任务(文生图/文生视频/图生视频)[2][8] - 支持四种基础模型(SD/HunyuanVideo/FLUX/SkyReels-I2V)和五类奖励模型(美学/对齐/动态质量等)[2][10] - 采用GRPO策略优化但去除KL散度正则项,通过相同prompt噪声初始化防止reward hacking[9] 核心实验发现 - 训练策略:采样子集timesteps加速训练,多reward模型叠加时采用多advantage叠加方式[9] - 性能影响:强化学习会削弱生成多样性,训练时应避免开启cfg或限制单prompt梯度更新次数[9] - 视频任务:i2v任务需专注motion quality奖励,使用视觉美感奖励易导致模型发散[14] 实验结果数据 - HunyuanVideo训练后VQ指标提升45%(4.51→6.52),MQ指标激增181%(1.37→3.85)[12] - FLUX模型在HPS-v2.1&CLIP Score组合下GenEval得分达0.705,较基线提升7%[12] - Stable Diffusion结合双奖励模型时CLIP Score提升8.8%(0.363→0.395)[12] 技术实现细节 - 通过建模diffusion/rectified flow为stochastic interpolant实现SDE采样方程统一[9] - 创新提出二元奖励模型(阈值化处理美感&图文匹配结果)作为第五类评估维度[10] - 可视化验证显示FLUX训练过程中ODE solver能保持稳定输出[15]