Workflow
图像生成
icon
搜索文档
腾讯申请图像生成相关专利,可对图像生成的逐步引导和稳健控制
金融界· 2025-08-16 17:19
腾讯科技新专利技术 - 公司申请图像生成方法专利 公开号CN120495475A 申请日期为2025年05月 [1] - 专利技术包括通过文本提示生成图像构图 并基于增强文本补充细节完成目标图像生成 [1] - 技术流程涉及文本输入、噪声去噪、构图生成及细节增强四个核心环节 [1] 公司基础信息 - 腾讯科技成立于2000年 注册地位于深圳市 注册资本200万美元 [1] - 公司主营业务为软件和信息技术服务业 对外投资企业达15家 [1] - 参与招投标项目264次 拥有商标及专利信息各5000条 行政许可534个 [1]
Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型
机器之心· 2025-08-12 08:15
辑、可控生成和密集预测在内的广泛任务。 本文第一作者辛毅为南京大学 & 上海创智学院博士生,现于上海人工智能实验室实习,研究方向为图像 / 视频生成、多模态生成与理解统一等。通讯作者为上海 人工智能实验室青年科学家 — 高鹏。本文其他作者来自上海人工智能实验室、香港中文大学、上海交通大学、上海创智学院、浙江工业大学等。 核心技术与突破 完全独立的训练架构 不同于依赖预训练权重的传统方案,Lumina-mGPT 2.0 采用纯解码器 Transformer 架构,从参数初始化开始完全独立训练。这带来三大优势:架构设计不受限制 (提供了 20 亿和 70 亿参数两个版本)、规避授权限制(如 Chameleon 的版权问题)、减少预训练模型带来的固有偏差。 上海人工智能实验室等团队提出Lumina-mGPT 2.0 —— 一款独立的、仅使用解码器的自回归模型,统一了包括文生图、图像对生成、主体驱动生成、多轮图像编 论文标题:Lumina-mGPT 2.0: Stand-Alone AutoRegressive Image Modeling 论文链接:arxiv.org/pdf/2507.17801 GitHub 地 ...
Qwen新开源,把AI生图里的文字SOTA拉爆了
量子位· 2025-08-05 09:40
通义千问开源图像生成模型Qwen-Image - 通义千问开源200亿参数图像生成基础模型Qwen-Image,采用MMDiT架构,是系列中首个图像生成基础模型[3][4] - 模型主打复杂文本渲染能力,能准确生成包含复杂图文混合布局的图像,文字准确度和契合度高[5][6] - 支持生成海报、PPT、商品宣传图等多种应用场景,文字渲染能力突出[8][16][22] Qwen-Image核心能力 - 具备复杂文本渲染能力,支持多行布局、段落级文本生成和细粒度细节呈现,中英文均能高保真输出[28] - 拥有一致性图像编辑能力,支持风格迁移、增删改、细节增强、文字编辑等多种操作[27] - 采用渐进式训练策略,从非文字到文字渲染逐步过渡,增强原生文字渲染能力[34] 性能表现 - 在多个公开基准测试中实现SOTA,包括通用图像生成的GenEval、DPG和OneIG-Bench等[29][30] - 在文本渲染基准LongText-Bench、ChineseWord和TextCraft上表现尤为出色,中文文本渲染大幅领先现有最先进模型[32][33] 实测效果 - 情境插画生成效果优秀,文字与画面融合度高,细节氛围感强[11][13][14] - 能准确理解提示词生成PPT和海报,主体文字和图中图符合要求[16][18][20] - 商品宣传图生成中能准确对应文字与画面元素[22][24]
开源!通义千问推出系列中首个图像生成基础模型Qwen-Image
华尔街见闻· 2025-08-05 05:09
通义千问Qwen开源Qwen-Image模型 - 公司推出20B参数的MMDiT模型Qwen-Image,这是通义千问系列中首个图像生成基础模型 [1] - 该模型在复杂文本渲染和精确图像编辑方面取得显著进展 [1]
训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO
量子位· 2025-08-02 16:33
图像生成技术框架MixGRPO - 提出结合随机微分方程(SDE)和常微分方程(ODE)的混合采样框架MixGRPO,通过优化马尔可夫决策过程(MDP)提升训练效率[1][6][12] - 开发变体MixGRPO-Flash,在保持性能前提下将训练时间降低71%,相比基准方法DanceGRPO减少50%训练时间[2][47] - 采用滑动窗口策略动态调整SDE采样区间,窗口大小25、移动间隔25、步长2时达到最优性能[34][71][74][75] 技术性能指标 - 在HPS-v2.1、Pick Score、ImageReward和Unified Reward四项人类偏好评估中,MixGRPO分别取得0.367、0.237、1.629和3.418分,全面超越基准模型[3][60] - 单次迭代时间从DanceGRPO的291秒降至MixGRPO-Flash的83秒,函数调用次数从14次降至4次[3][60] - 使用二阶DPM-Solver++高阶求解器实现加速,图像生成质量与人类偏好保持高度一致[45][76] 训练优化方法 - 将去噪过程划分为SDE和ODE混合采样阶段,仅对SDE采样区间进行强化学习优化[16][20] - 采用指数衰减策略动态调整滑动窗口位置,初始移动间隔25,衰减因子0.95[36][37] - 通过3步梯度累积和混合精度训练(bf16/fp32)提升训练效率,批量大小1,学习率1e-5[56] 应用场景与数据集 - 基于HPDv2数据集103,700条提示词训练,测试集包含动画、概念艺术等四种风格的400条提示词[49][50] - 采用FLUX.1 Dev文本生成图像模型作为基础,在9,600条提示词上训练1个epoch即显现效果[51][50] - 生成图像在语义表达、美学效果及图文对齐度方面表现突出,可视化对比显示质量优势[64][65]
Manus突发上新文生图!告别“抽卡”,Agent+深度思考联合创作
量子位· 2025-05-16 13:36
产品功能更新 - Manus新增图像生成功能 区别于传统AI绘图工具的"抽卡"模式 能够理解用户意图并规划生成方案后再执行[1] - 演示案例显示 输入房间照片后 可自动从宜家官网匹配家具并生成可视化装修效果图 同时附带所选家具链接[2][3] - 图像生成流程包含智能分析环节 如根据地板墙壁等元素分析房间风格并形成报告[5] 结合智能体工作流进行互联网检索与数据筛选[7] 应用场景案例 - 饮料包装设计案例 基于市场流行元素分析为"TeaVive"茶饮设计瓶身 并延伸完成海报与推广策略[11] - 二手商品营销案例 完成宣传图修图(保留本体更换背景)及Web展示页面设计 成果简洁美观[12][14][15] 市场竞争动态 - 行业出现设计智能体平台lovart 主打海报品牌VI和Storyboard设计 近期因邀请码制度引发抢购热潮[19] - 市场观点认为Manus此次更新可能受竞品刺激 但竞争有利于行业发展[18][20] 商业化进展 - 开放注册并采用点数制 新用户赠送1000点 每日赠送300点[22] - 推出三档订阅计划 月费19/39/199美元 年付享83折优惠[23] - 用户实测显示任务消耗较高 如每日新闻获取需704点 39美元套餐仅支持4次类似操作[26][27] - 部分用户反馈定价偏高 评论区存在价格争议[28][30]
Manus推出图像生成功能
快讯· 2025-05-16 13:21
Manus推出图像生成功能 - 公司宣布推出图像生成功能,该功能不仅能生成图像,还能理解用户意图并规划解决方案 [1] - 新功能整合了图像生成和其他工具,旨在更高效地完成用户任务 [1]
刚刚,Manus生图功能强势登场!从设计到搭建网站一站式搞定,1000积分免费薅
机器之心· 2025-05-16 12:39
Manus平台开放注册与功能升级 - Manus平台结束邀请码制度,全面开放注册[1] - 新用户注册即赠1000积分作为体验奖励[2] - 新增图像生成功能,具备意图理解、任务规划和多工具协同能力[2] 图像生成功能实测表现 - 成功完成饮料瓶设计任务:生成符合青少年健康理念的瓶身设计,包含品牌名、"TEA FOR TEENS"字样及清新配色(浅绿+橙色)[5][9] - 生成图片与背景融合自然,如时尚商品展示图达到"浑然天成"效果[20] - 支持多种场景生成:包括野外露营、宠物生活等主题图片[24][26][28] - 整体画面构造和细节处理获得正面评价[31] 智能工作流特性 - 采用分步骤任务执行模式:包含市场调研、趋势分析、概念构思等完整流程[5] - 支持任务中途修改和进度追踪,自动生成总结报告[11][13] - 实现意图理解与图像生成的深度结合[32] 性能表现与用户反馈 - 图像生成速度较快,但复杂任务(如网站创建部署)耗时较长(约30分钟)[15][18][33] - 用户对智能体工作流设计给予肯定,但对执行效率存在改进期待[32][33]
美的集团(000333):2025年一季报点评:持续拓展全球推动数智驱动
东莞证券· 2025-04-30 17:04
报告公司投资评级 - 维持对美的集团“增持”评级 [1][5] 报告的核心观点 - 美的集团2025年一季度业绩符合预期,公司持续推进“科技领先、用户直达、数智驱动、全球突破”四大战略主轴,不断深化全球化布局,建立完善研发体系,聚焦全面智能化和全面数字化,预计2025 - 2026年每股收益分别为5.61元、6.15元,当前股价对应PE分别为13倍、12倍 [1][5] 根据相关目录分别进行总结 财务数据 - 2025年一季度,美的集团实现营业总收入1284.28亿元,同比增长20.61%;归母净利润124.22亿元,同比增长38.02%;扣非后归母净利润127.5亿元,同比增长38.03% [1] - 2025年一季度,公司毛利率同比下降1.87个百分点至25.45%;期间费用率同比下降3.82个百分点至13.23%,其中销售费用率、管理费用率和财务费用率分别同比下降0.74、0.35和2.73个百分点,分别达到9.25%、6.14%和 - 2.21%;净利率同比提高1.45个百分点至9.97% [5] - 盈利预测简表显示,2024 - 2027年营业总收入分别为4090.84亿、4439.73亿、4757.15亿和5085.08亿元;归母公司所有者的净利润分别为385.37亿、430.16亿、471.48亿和515.36亿元;摊薄每股收益分别为5.03元、5.61元、6.15元和6.72元;PE分别为14.8倍、13.2倍、12.1倍和11.0倍 [6] 业务布局 - 美的集团业务遍及200多个国家和地区,美国收入占比很低,在海外设有22个研发中心和23个主要制造基地,未来将持续拓展海外制造布局,推动海外新工厂建设与投产 [5] - 公司持续加强自有品牌产品研发投入,通过本地化用户洞察与创新完善全球各区域产品布局和竞争力,2024年美的系自有品牌在多个国家和家电品类取得市场突破 [5] 技术发展 - 美的集团加速全面智能化落地,推进大模型和Agent技术探索与应用,建立家居领域语言大模型 - 美言,应用于多种产品,提供人机交互服务,实现全屋家居家电融合的深度智能控制和智能管家服务体验 [5] - 公司首次将Agent能力应用于家居场景生成,实现快速响应和可控生成效果,研究团队积极参与行业大模型技术研究,在多个国际AI会议发表多篇专业论文,拓展具身智能、多模态大模型和图像生成等领域前沿研究 [5]